このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240412となっている論文です。

PDF登録状況(公開日: 20240412)

TitleAuthorsAbstract論文公表日・翻訳日
# 教育データ科学のための深層学習

Deep Learning for Educational Data Science ( http://arxiv.org/abs/2404.19675v1 )

ライセンス: Link先を確認
Juan D. Pinto, Luc Paquette, (参考訳) 現代社会のあらゆる面に深層人工知能ニューラルネットワークが絶え間なく存在し続ける中、教育データ科学の研究者集団は、様々な相互研究コミュニティからなる分野において、これらの強力なアルゴリズムを教育領域内で活用することに注意を向けている。 ユースケースは、オープンエンドの学生エッセイやコードのスニペットを活用できる高度な知識追跡モデルから、学生が非生産的に問題を解決するためにフラストレーションを受けたり、目的を果たそうとしていたときを識別する自動感情検知や行動検出まで、さまざまです。 この章は、ディープラーニングの簡単な紹介、その利点と限界のいくつかの説明、教育における多くの利用に関する調査、そしてそれが教育データ科学の分野をさらに形成させる可能性について論じている。

With the ever-growing presence of deep artificial neural networks in every facet of modern life, a growing body of researchers in educational data science -- a field consisting of various interrelated research communities -- have turned their attention to leveraging these powerful algorithms within the domain of education. Use cases range from advanced knowledge tracing models that can leverage open-ended student essays or snippets of code to automatic affect and behavior detectors that can identify when a student is frustrated or aimlessly trying to solve problems unproductively -- and much more. This chapter provides a brief introduction to deep learning, describes some of its advantages and limitations, presents a survey of its many uses in education, and discusses how it may further come to shape the field of educational data science.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-12
# 大規模言語モデルを用いたCUDA高速化ソフトロボットニューラル進化

CUDA-Accelerated Soft Robot Neural Evolution with Large Language Model Supervision ( http://arxiv.org/abs/2405.00698v1 )

ライセンス: Link先を確認
Lechen Zhang, (参考訳) 本稿では,新しいニューラルネットワーク進化アプローチにより,ソフトロボットの形状と制御を共設計するという課題に対処する。 そこで本研究では,ソフトロボットを暗黙的に二重符号化する革新的な手法を提案し,形態学と制御の同時設計を容易にする。 さらに,進化過程において制御センタとして機能する大規模言語モデルを導入する。 この進歩は、従来のソフトボディロボットの共同設計法と比較して、進化速度をかなり最適化する。 私たちの研究をさらに補完するものとして、ガウス的位置符号化(Gaussian positional encoding) – ニューラルネットワークによるロボット形態の理解を強化するアプローチの実装があります。 本論文は,ソフトロボット設計における新たな視点を提供し,設計・進化過程における効率と理解の大幅な向上を図っている。

This paper addresses the challenge of co-designing morphology and control in soft robots via a novel neural network evolution approach. We propose an innovative method to implicitly dual-encode soft robots, thus facilitating the simultaneous design of morphology and control. Additionally, we introduce the large language model to serve as the control center during the evolutionary process. This advancement considerably optimizes the evolution speed compared to traditional soft-bodied robot co-design methods. Further complementing our work is the implementation of Gaussian positional encoding - an approach that augments the neural network's comprehension of robot morphology. Our paper offers a new perspective on soft robot design, illustrating substantial improvements in efficiency and comprehension during the design and evolutionary process.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-12
# 自律運転における強化学習のためのリワード機能の検討

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving ( http://arxiv.org/abs/2405.01440v1 )

ライセンス: Link先を確認
Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner, (参考訳) 強化学習は自動運転にとって重要なアプローチである。 報酬関数は、強化学習において、学習したスキル目標を確立し、エージェントを最適な政策へ導くために用いられる。 自律運転は、目的と異なる優先度の度合いで部分的に矛盾する複雑な領域であるため、適切な報酬関数を開発することは、根本的な課題である。 本研究の目的は、文献における異なる定式化を評価し、個々の目的を安全・快適・進歩・交通規則に分類することで、そのような機能設計のギャップを浮き彫りにすることである。 さらに、目的集約や駆動コンテキストへの無関心など、レビューされた報酬関数の制限についても論じる。 さらに、報酬カテゴリーは、しばしば不十分に定式化され、標準化が欠如している。 本論文は,報酬評価の枠組みや,コンテクストを意識し,紛争を解決できる構造的報酬を含む,見いだされた報酬の欠点に対処する可能性のある今後の研究を提案することによって,結論を下す。

Reinforcement learning has emerged as an important approach for autonomous driving. A reward function is used in reinforcement learning to establish the learned skill objectives and guide the agent toward the optimal policy. Since autonomous driving is a complex domain with partly conflicting objectives with varying degrees of priority, developing a suitable reward function represents a fundamental challenge. This paper aims to highlight the gap in such function design by assessing different proposed formulations in the literature and dividing individual objectives into Safety, Comfort, Progress, and Traffic Rules compliance categories. Additionally, the limitations of the reviewed reward functions are discussed, such as objectives aggregation and indifference to driving context. Furthermore, the reward categories are frequently inadequately formulated and lack standardization. This paper concludes by proposing future research that potentially addresses the observed shortcomings in rewards, including a reward validation framework and structured rewards that are context-aware and able to resolve conflicts.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-12
# 量子相転移における基底状態の置換不変部分のレニーエントロピー

Rényi entropy of the permutationally invariant part of the ground state across a quantum phase transition ( http://arxiv.org/abs/2404.08389v1 )

ライセンス: Link先を確認
Yuki Miyazaki, Giacomo Marmorini, Nobuo Furukawa, Daisuke Yamamoto, (参考訳) 本研究では, 密度行列(PIDM)の変分不変部分が, 量子相転移時の系の基底状態の性質を捉える上で果たす役割について検討する。 量子状態トモグラフィーの文脈では、PIDMは、システムサイズが$L$である$\mathcal{O}(L^2)$という低い測定条件でのみ得られることが知られている。 逆場イジング連鎖を例として、密度行列再正規化群アルゴリズムを用いて、PIDMの2階R'enyiエントロピーを基底状態として計算する。 強磁性の場合、基底状態は 0 と無限体の両方の極限において不変であり、PIDM の R'enyi エントロピーは消滅する。 後者は、量子臨界点の周りの横磁場の関数として広いピークを示し、より大きなシステムサイズに対してより顕著になる。 反強磁性の場合、ピーク構造が消失し、R'enyiエントロピーが$\mathcal{O}(L)$のように順序相の全体範囲で分岐する。 PIDMのR'enyiエントロピー(R'enyi entropy)のこれらの挙動の原因を考察し, 相転移現象の解析への応用について検討した。

We investigate the role of the permutationally invariant part of the density matrix (PIDM) in capturing the properties of the ground state of the system during a quantum phase transition. In the context of quantum state tomography, PIDM is known to be obtainable with only a low number of measurement settings, namely $\mathcal{O}(L^2)$, where $L$ is the system size. Considering the transverse-field Ising chain as an example, we compute the second-order R\'enyi entropy of PIDM for the ground state by using the density matrix renormalization group algorithm. In the ferromagnetic case, the ground state is permutationally invariant both in the limits of zero and infinite field, leading to vanishing R\'enyi entropy of PIDM. The latter exhibits a broad peak as a function of the transverse field around the quantum critical point, which gets more pronounced for larger system size. In the antiferromagnetic case, the peak structure disappears and the R\'enyi entropy diverges like $\mathcal{O}(L)$ in the whole field range of the ordered phase. We discuss the cause of these behaviors of the R\'enyi entropy of PIDM, examining the possible application of this experimentally tractable quantity to the analysis of phase transition phenomena.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-12
# EasyACIM: シンセサイザブルアーキテクチャとアジャイルデザインスペース探索を備えた、エンドツーエンドのアナログCIM

EasyACIM: An End-to-End Automated Analog CIM with Synthesizable Architecture and Agile Design Space Exploration ( http://arxiv.org/abs/2404.13062v1 )

ライセンス: Link先を確認
Haoyi Zhang, Jiahao Song, Xiaohan Gao, Xiyuan Tang, Yibo Lin, Runsheng Wang, Ru Huang, (参考訳) アナログ・コンピューティング・イン・メモリ(ACIM)は、効率的なAIエッジ・コンピューティングを実現するための新しいアーキテクチャである。 しかしながら、現在のACIMの設計は、通常、拡張不可能なトポロジーを持ち、依然として手作業に大きく依存している。 これらの欠点はACIMアプリケーションのシナリオを制限し、望ましくない市場へのタイム・ツー・マーケットにつながる。 本研究は、合成可能なアーキテクチャ(EasyACIM)に基づくエンドツーエンドの自動ACIMを提案する。 配列のサイズとカスタマイズされたセルライブラリにより、EasyACIMはACIMのレイアウトを生成することができる。 多目的遺伝的アルゴリズム(MOGA)をベースとしたデザインスペースエクスプローラーを用いて、EasyACIMは、汎用的なアプリケーションシナリオをターゲットにした、提案された合成可能なアーキテクチャに基づく高品質なACIMソリューションを得ることができる。 EasyACIMが提供するACIMソリューションは、最先端(SOTA)ACIMと比較して、幅広い設計空間と競争性能を有する。

Analog Computing-in-Memory (ACIM) is an emerging architecture to perform efficient AI edge computing. However, current ACIM designs usually have unscalable topology and still heavily rely on manual efforts. These drawbacks limit the ACIM application scenarios and lead to an undesired time-to-market. This work proposes an end-to-end automated ACIM based on a synthesizable architecture (EasyACIM). With a given array size and customized cell library, EasyACIM can generate layouts for ACIMs with various design specifications end-to-end automatically. Leveraging the multi-objective genetic algorithm (MOGA)-based design space explorer, EasyACIM can obtain high-quality ACIM solutions based on the proposed synthesizable architecture, targeting versatile application scenarios. The ACIM solutions given by EasyACIM have a wide design space and competitive performance compared to the state-of-the-art (SOTA) ACIMs.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-12
# 相対性理論による量子再構成プログラムの完成

Completing the Quantum Reconstruction Program via the Relativity Principle ( http://arxiv.org/abs/2404.13064v1 )

ライセンス: Link先を確認
W. M. Stuckey, Michael Silberstein, Timothy McDevitt, (参考訳) 量子力学(QM の有限次元ヒルベルト空間)と特殊相対性理論(SR のローレンツ変換からのミンコフスキー時空)の異なるキネマティクスは、どちらも一つの原理(相対性理論)に基づいている。 これは、情報理論の原理によるQMの公理的再構成によって可能であり、これはQMをラ・SRの原理理論として再放送することに成功している。 すなわち、量子再構成プログラム(QRP) と SR において、形式主義(ヒルベルト空間とローレンツ変換)は経験的に発見された事実(情報不変性と連続性)から導かれるので、QM と SR はアインシュタインによって定義された「基本理論」である。 SRは経験的に発見された事実(相対性理論)を正当化するための説得力のある基本原理を持っているが、QRPは経験的に発見された事実を説明するための説得力のある基本原理や因果メカニズムを創出していない。 これらの異なるキネマティクスを統一するために、情報不変性と連続性を正当化するために、相対性理論("No preferred Reference frame" NPRF")がいかに用いられるかを示す。 我々は,QRPの運用概念が空間化されている場合,情報不変性と連続性は,相対的な空間的向きや位置に関わらず,全員がプランク定数hに対して同じ値を測定するという経験的に発見された事実を包含する(プランク仮定)。 ポインケア変換は空間回転と変換とブースターを通して慣性参照フレームを関連付けるため、相対性理論はプランクの仮定を光の公準を正当化するのと同じように正当化する。 本質的に、NPRF + c は身体対象に対する世界管の時空構成に対する空力的大域的制約であり、NPRF + h はそれらの身体対象間の量子の分布に対する空力的大域的制約である。

We explain how the disparate kinematics of quantum mechanics (finite-dimensional Hilbert space of QM) and special relativity (Minkowski spacetime from the Lorentz transformations of SR) can both be based on one principle (relativity principle). This is made possible by the axiomatic reconstruction of QM via information-theoretic principles, which has successfully recast QM as a principle theory a la SR. That is, in the quantum reconstruction program (QRP) and SR, the formalisms (Hilbert space and Lorentz transformations, respectively) are derived from empirically discovered facts (Information Invariance & Continuity and light postulate, respectively), so QM and SR are "principle theories" as defined by Einstein. While SR has a compelling fundamental principle to justify its empirically discovered fact (relativity principle), QRP has not produced a compelling fundamental principle or causal mechanism to account for its empirically discovered fact. To unify these disparate kinematics, we show how the relativity principle ("no preferred reference frame" NPRF) can also be used to justify Information Invariance & Continuity. We do this by showing that when QRP's operational notion of measurement is spatialized, Information Invariance & Continuity entails the empirically discovered fact that everyone measures the same value for Planck's constant h, regardless of their relative spatial orientations or locations (Planck postulate). Since Poincare transformations relate inertial reference frames via spatial rotations and translations as well as boosts, the relativity principle justifies the Planck postulate just like it justifies the light postulate. Essentially, NPRF + c is an adynamical global constraint over the spacetime configuration of worldtubes for bodily objects while NPRF + h is an adynamical global constraint over the distribution of quanta among those bodily objects.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-12
# 大規模対向グラフ環境におけるカスケード効果の緩和

Mitigating Cascading Effects in Large Adversarial Graph Environments ( http://arxiv.org/abs/2404.14418v1 )

ライセンス: Link先を確認
James D. Cunningham, Conrad S. Tucker, (参考訳) 社会のインフラのかなりの部分は、電線や通信網、交通網、ソーシャルネットワークといったグラフ構造を用いてモデル化することができる。 それぞれのドメインは、電源グリッドに過負荷のデバイスをオーバーロードするか、誤情報を含むソーシャルメディアポストのリーチにせよ、負の影響のカスケード拡散にも影響を受けやすい。 カスケードの潜在的な害は、カスケードの影響を最大化することを意図した敵による悪意のある攻撃を考えると、複雑になる。 しかし、カスケード力学の知識を生かして、最大カスケード衝撃の標的を防御的に優先し、敵の損傷を軽減できる。 ゲーム理論は最適なプリエンプティブ・ディフェンス戦略を見つけるためのツールを提供する一方で、攻撃者とディフェンダーが同時にグラフ内の複数のターゲットを選択できる場合に起こりうるアクションの組合せ爆発により、既存の手法は大きなグラフ環境のコンテキストにスケールするのに苦労する。 提案手法は,多ノード表現学習と対実データ拡張を用いたデータ駆動深層学習により,動作空間の様々な制限されたサブセットをトレーニングすることにより,完全な組合せ行動空間に一般化することができる。 実験により,提案手法は大規模なグラフに対してSOTA法よりも有効でない防衛戦略を識別できる一方で,計算可能な小規模シナリオに対してナッシュ均衡付近で戦略を生成可能であることを示す。 さらに,提案手法は,他の深層学習手法と比較して,見えないカスケードの検証セットに対して優れた予測精度を示す。

A significant amount of society's infrastructure can be modeled using graph structures, from electric and communication grids, to traffic networks, to social networks. Each of these domains are also susceptible to the cascading spread of negative impacts, whether this be overloaded devices in the power grid or the reach of a social media post containing misinformation. The potential harm of a cascade is compounded when considering a malicious attack by an adversary that is intended to maximize the cascading impact. However, by exploiting knowledge of the cascading dynamics, targets with the largest cascading impact can be preemptively prioritized for defense, and the damage an adversary can inflict can be mitigated. While game theory provides tools for finding an optimal preemptive defense strategy, existing methods struggle to scale to the context of large graph environments because of the combinatorial explosion of possible actions that occurs when the attacker and defender can each choose multiple targets in the graph simultaneously. The proposed method enables a data-driven deep learning approach that uses multi-node representation learning and counterfactual data augmentation to generalize to the full combinatorial action space by training on a variety of small restricted subsets of the action space. We demonstrate through experiments that the proposed method is capable of identifying defense strategies that are less exploitable than SOTA methods for large graphs, while still being able to produce strategies near the Nash equilibrium for small-scale scenarios for which it can be computed. Moreover, the proposed method demonstrates superior prediction accuracy on a validation set of unseen cascades compared to other deep learning approaches.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-12
# FLoRA:パラメータ効率のよいフェデレーション学習によるビジョンランゲージモデルの実現

FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning ( http://arxiv.org/abs/2404.15182v1 )

ライセンス: Link先を確認
Duy Phuong Nguyen, J. Pablo Munoz, Ali Jannesari, (参考訳) 人工知能の分野では、視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデルが、画像キャプションからマルチモーダル検索エンジンまで、多くのアプリケーションにおいて重要な存在となっている。 これらのモデルの中で、Contrastive Language-Image Pre-Training (CLIP) モデルは、テキストと画像間のニュアンスな関係を理解し、生成する際、顕著な性能を示した。 しかしながら、そのようなモデルの従来のトレーニングでは、大規模なデータセットを集中的に集約する必要があることが多く、重要なプライバシとデータガバナンスの課題を提起する。 これらの問題に対処するために,フェデレートラーニングとパラメータ効率のよいアダプタ,すなわちローランド適応(LoRA)を活用してVLMを訓練する手法を提案する。 この方法論は、分散化されたデータソース間でモデルをトレーニングすることでデータのプライバシを保護し、LoRAのパラメータ効率の良い微調整を通じてモデルの適応性と効率を確保する。 我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。

In the rapidly evolving field of artificial intelligence, multimodal models, e.g., integrating vision and language into visual-language models (VLMs), have become pivotal for many applications, ranging from image captioning to multimodal search engines. Among these models, the Contrastive Language-Image Pre-training (CLIP) model has demonstrated remarkable performance in understanding and generating nuanced relationships between text and images. However, the conventional training of such models often requires centralized aggregation of vast datasets, posing significant privacy and data governance challenges. To address these concerns, this paper proposes a novel approach that leverages Federated Learning and parameter-efficient adapters, i.e., Low-Rank Adaptation (LoRA), to train VLMs. This methodology preserves data privacy by training models across decentralized data sources and ensures model adaptability and efficiency through LoRA's parameter-efficient fine-tuning. Our approach accelerates training time by up to 34.72 times and requires 2.47 times less memory usage than full fine-tuning.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-12
# 深層学習レーダ用マイクロドップラーコヒーレンス損失

A Novel Micro-Doppler Coherence Loss for Deep Learning Radar Applications ( http://arxiv.org/abs/2404.15346v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Christos Ilioudis, Carmine Clemente, Craig Michie, Ivan Andonovic, Christos Tachtatzis, (参考訳) 深層学習技術は、時間周波数信号の表現に基づいて予測を行う必要がある広範囲のマイクロドップラーアプリケーションに採用される傾向にある。 報告されたアプリケーションのほとんどが、既存のディープラーニングフレームワークを、目的の関数に調整することなく、この新しいドメインに翻訳することに重点を置いている。 このプラクティスは、マイクロドップラーアプリケーションに特に関係のある機能の優先順位付けをモデルに推奨する機会を逃している。 そこで本稿では,入力と出力間のマイクロドップラー振動成分の正規化パワーが一致した場合に,マイクロドップラーコヒーレンス損失を最小化する手法を提案する。 実データを用いて行った実験は、導入した損失の応用により、よりノイズに耐性のあるモデルが得られることを示した。

Deep learning techniques are subject to increasing adoption for a wide range of micro-Doppler applications, where predictions need to be made based on time-frequency signal representations. Most, if not all, of the reported applications focus on translating an existing deep learning framework to this new domain with no adjustment made to the objective function. This practice results in a missed opportunity to encourage the model to prioritize features that are particularly relevant for micro-Doppler applications. Thus the paper introduces a micro-Doppler coherence loss, minimized when the normalized power of micro-Doppler oscillatory components between input and output is matched. The experiments conducted on real data show that the application of the introduced loss results in models more resilient to noise.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-12
# LlamaTouch: モバイルUI自動化タスク評価のための忠実でスケーラブルなテストベッド

LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation ( http://arxiv.org/abs/2404.16054v1 )

ライセンス: Link先を確認
Li Zhang, Shihe Wang, Xianqing Jia, Zhihan Zheng, Yunhe Yan, Longxi Gao, Yuanchun Li, Mengwei Xu, (参考訳) 創発的な大規模言語/マルチモーダルモデルは、特にモバイルUI自動化のタスクにおいて、モバイルエージェントの進化を促進する。 しかしながら、エージェント予測されたアクションと事前に定義されたアクションを比較するために、人間の検証や確立されたデータセットに依存する既存の評価アプローチは、スケール不可能であり、不信である。 これらの制限を克服するために、デバイス上でのエージェント実行と忠実でスケーラブルなエージェント評価のためのテストベッドであるLlamaTouchを提案する。 タスク実行プロセスがUI状態のみを転送することを確認することで、LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をトラバースするかどうかのみを評価する、新しい評価アプローチを採用する。 1)モバイルエージェントがタスク完了のために実際のモバイル環境と対話できるオンデバイスタスク実行。 2) ピクセルレベルのスクリーンショットとテキスト画面階層をマージして、設計済みのアノテーションプリミティブの豊富なセットで必須のUIコンポーネントを明示的に識別し、正確にアノテートする、きめ細かいUIコンポーネントアノテーション。 (3) 精度とファジィマッチングを利用して予測不能なUIレイアウト/コンテンツダイナミックスで各画面の臨界情報を正確に検出するマルチレベル状態マッチングアルゴリズム。 現在、LlamaTouchには4つのモバイルエージェントと495のUI自動化タスクが含まれています。 評価結果は、LlamaTouchの実環境における評価の忠実度の高さと、人間の検証よりも優れたスケーラビリティを示す。 LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。 コードとデータセットはhttps://github.com/LlamaTouch/LlamaTouchで公開されている。

The emergent large language/multimodal models facilitate the evolution of mobile agents, especially in the task of mobile UI automation. However, existing evaluation approaches, which rely on human validation or established datasets to compare agent-predicted actions with predefined ones, are unscalable and unfaithful. To overcome these limitations, this paper presents LlamaTouch, a testbed for on-device agent execution and faithful, scalable agent evaluation. By observing that the task execution process only transfers UI states, LlamaTouch employs a novel evaluation approach that only assesses whether an agent traverses all manually annotated, essential application/system states. LlamaTouch comprises three key techniques: (1) On-device task execution that enables mobile agents to interact with real mobile environments for task completion. (2) Fine-grained UI component annotation that merges pixel-level screenshots and textual screen hierarchies to explicitly identify and precisely annotate essential UI components with a rich set of designed annotation primitives. (3) A multi-level state matching algorithm that utilizes exact and fuzzy matching to accurately detect critical information in each screen with unpredictable UI layout/content dynamics. LlamaTouch currently incorporates four mobile agents and 495 UI automation tasks, encompassing both tasks in the widely-used datasets and our self-constructed ones for more diverse mobile applications. Evaluation results demonstrate the LlamaTouch's high faithfulness of evaluation in real environments and its better scalability than human validation. LlamaTouch also enables easy task annotation and integration of new mobile agents. Code and dataset are publicly available at https://github.com/LlamaTouch/LlamaTouch.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-12
# 自律型サイバー防衛への道

The Path To Autonomous Cyber Defense ( http://arxiv.org/abs/2404.10788v1 )

ライセンス: Link先を確認
Sean Oesch, Phillipe Austria, Amul Chaulagain, Brian Weber, Cory Watson, Matthew Dixson, Amir Sadovnik, (参考訳) ディフェンダーはネットワークに対する攻撃の数と規模に圧倒され、攻撃者は人工知能を利用してワークフローを自動化することで、この問題は悪化する。 我々は,サイバー防衛ライフサイクルにおける重要なステップを自動化し,防衛員を増強できる自律型サイバーエージェントを提案する。

Defenders are overwhelmed by the number and scale of attacks against their networks.This problem will only be exacerbated as attackers leverage artificial intelligence to automate their workflows. We propose a path to autonomous cyber agents able to augment defenders by automating critical steps in the cyber defense life cycle.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-12
# PASA:予測・属性感度分析を用いた攻撃非教師付き敵検出

PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis ( http://arxiv.org/abs/2404.10789v1 )

ライセンス: Link先を確認
Dipkamal Bhusal, Md Tanvirul Alam, Monish K. Veerabhadran, Michael Clifford, Sara Rampazzi, Nidhi Rastogi, (参考訳) 分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。 この感受性は、そのようなネットワークのブラックボックスの性質と相まって、自律運転のような重要なアプリケーションにおける採用を制限する。 特徴属性に基づく説明手法は、入力サンプルのモデル予測における入力特徴の関連性を提供し、モデル決定を説明する。 しかし,入力サンプルのモデル予測と特徴属性の両方がノイズに敏感であることがわかった。 本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。 提案手法は,モデル予測と特徴属性を用いた2つの検定統計量の計算が必要であり,良性検定から得られた閾値を用いて正反対検定を確実に検出できる。 我々は、FGSM、PGD、BIM、CW攻撃の複数の画像および非画像データセットに対する強度に基づいて、PASAの性能を評価することにより、我々の軽量なアプローチを検証する。 CIFAR-10 と ImageNet では, 平均して, 最先端の統計的非教師付き対向検出器をそれぞれ 14 %, ROC-AUC スコアを 35 % 上回った。 さらに, 敵が防御機構を認識した場合でも, 競合性能を示す。

Deep neural networks for classification are vulnerable to adversarial attacks, where small perturbations to input samples lead to incorrect predictions. This susceptibility, combined with the black-box nature of such networks, limits their adoption in critical applications like autonomous driving. Feature-attribution-based explanation methods provide relevance of input features for model predictions on input samples, thus explaining model decisions. However, we observe that both model predictions and feature attributions for input samples are sensitive to noise. We develop a practical method for this characteristic of model prediction and feature attribution to detect adversarial samples. Our method, PASA, requires the computation of two test statistics using model prediction and feature attribution and can reliably detect adversarial samples using thresholds learned from benign samples. We validate our lightweight approach by evaluating the performance of PASA on varying strengths of FGSM, PGD, BIM, and CW attacks on multiple image and non-image datasets. On average, we outperform state-of-the-art statistical unsupervised adversarial detectors on CIFAR-10 and ImageNet by 14\% and 35\% ROC-AUC scores, respectively. Moreover, our approach demonstrates competitive performance even when an adversary is aware of the defense mechanism.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-12
# 中間回路計測のためのランダム化ベンチマークスイート

A randomized benchmarking suite for mid-circuit measurements ( http://arxiv.org/abs/2207.04836v2 )

ライセンス: Link先を確認
L. C. G. Govia, P. Jurcevic, C. J. Wood, N. Kanazawa, S. T. Merkel, D. C. McKay, (参考訳) 中間回路測定は、量子エラー補正、フォールトトレラント論理演算、測定に基づく量子コンピューティングなど、多くの量子情報コンピューティングプロトコルにおいて重要な要素である。 そのため、パフォーマンスを迅速かつ効率的に特徴づけたり、ベンチマークしたりする技術は非常に興味深い。 測定された量子ビットの向こうでは、隣り合う、測定されていない、観測可能な量子ビットに、どのような影響があるかを決定することにも関係している。 本稿では、ランダム化ベンチマークのユビキタスパラダイムから開発された中間回路計測ベンチマークスイートについて述べる。 本稿では,計測量子ビットとオブザーバ量子ビットの両方における誤差の検出と,測定量子ビットとオブザーバ量子ビットの誤差の定量化に,我々のベンチマークスイートをどのように利用できるかを示す。 我々は,IBM Quantum Falconデバイスから複数のキュービットの中間回路計測を同時に特徴付けることで,我々のスイートのスケーラビリティを実証し,数値シミュレーションによる実験結果を支援する。 さらに、中間回路計測トモグラフィープロトコルを用いて、ベンチマークスイートで特定されたエラーの性質を確立する。

Mid-circuit measurements are a key component in many quantum information computing protocols, including quantum error correction, fault-tolerant logical operations, and measurement based quantum computing. As such, techniques to quickly and efficiently characterize or benchmark their performance are of great interest. Beyond the measured qubit, it is also relevant to determine what, if any, impact mid-circuit measurement has on adjacent, unmeasured, spectator qubits. Here, we present a mid-circuit measurement benchmarking suite developed from the ubiquitous paradigm of randomized benchmarking. We show how our benchmarking suite can be used to both detect as well as quantify errors on both measured and spectator qubits, including measurement-induced errors on spectator qubits and entangling errors between measured and spectator qubits. We demonstrate the scalability of our suite by simultaneously characterizing mid-circuit measurement on multiple qubits from an IBM Quantum Falcon device, and support our experimental results with numerical simulations. Further, using a mid-circuit measurement tomography protocol we establish the nature of the errors identified by our benchmarking suite.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-12
# ペルオキシフリーラジカルのキネマティクスモデリング--深層強化学習アプローチ

Kinematics Modeling of Peroxy Free Radicals: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2404.10010v1 )

ライセンス: Link先を確認
Subhadarsi Nayak, Hrithwik Shalu, Joseph Stember, (参考訳) 大気汚染物質として知られる対流圏オゾンは、喘息、気管支炎、肺機能障害などの健康問題と関連している。 ペルオキシラジカルがNOと反応する速度は、対流圏オゾンの全体形成と枯渇に重要な役割を果たしている。 しかし、これらの反応の総合的な速度論的データを取得することは依然として困難である。 利率定数を決定する従来のアプローチは、コストと技術的に複雑である。 幸いなことに、機械学習ベースのモデルの出現は、運動学情報を取得するためのリソースの削減と時間集約的な代替手段を提供する。 本研究では, 深部強化学習を利用して, 速度定数(\textit{k})の範囲を異常精度で予測し, テストセット精度を100%達成した。 ペルオキシラジカルの分子構造に基づく反応性の傾向を解析するために,51個のグローバルディスクリプタを入力パラメータとして用いた。 これらの記述子は、量子コンポジットG3B3法によるペルオキシラジカルの最適化された最小エネルギージオメトリから導出された。 Integrated Gradients (IGs) の適用により、反応速度に関する様々な記述子の重要性について貴重な知見を得た。 本研究は,既存の文献で確立された傾向と相互比較を行うことにより,研究成果の検証と文脈化に成功している。 これらの結果は、コンピュータ分析がインスピレーションの源泉となる化学の先駆的な発展の基礎を確立している。

Tropospheric ozone, known as a concerning air pollutant, has been associated with health issues including asthma, bronchitis, and impaired lung function. The rates at which peroxy radicals react with NO play a critical role in the overall formation and depletion of tropospheric ozone. However, obtaining comprehensive kinetic data for these reactions remains challenging. Traditional approaches to determine rate constants are costly and technically intricate. Fortunately, the emergence of machine learning-based models offers a less resource and time-intensive alternative for acquiring kinetics information. In this study, we leveraged deep reinforcement learning to predict ranges of rate constants (\textit{k}) with exceptional accuracy, achieving a testing set accuracy of 100%. To analyze reactivity trends based on the molecular structure of peroxy radicals, we employed 51 global descriptors as input parameters. These descriptors were derived from optimized minimum energy geometries of peroxy radicals using the quantum composite G3B3 method. Through the application of Integrated Gradients (IGs), we gained valuable insights into the significance of the various descriptors in relation to reaction rates. We successfully validated and contextualized our findings by conducting cross-comparisons with established trends in the existing literature. These results establish a solid foundation for pioneering advancements in chemistry, where computer analysis serves as an inspirational source driving innovation.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-12
# IoTネットワークにおけるマルウェア検出の最適化 - リソースを意識した分散コンピューティングを活用したセキュリティ強化

Optimizing Malware Detection in IoT Networks: Leveraging Resource-Aware Distributed Computing for Enhanced Security ( http://arxiv.org/abs/2404.10012v1 )

ライセンス: Link先を確認
Sreenitha Kasarapu, Sanket Shukla, Sai Manoj Pudukotai Dinakarrao, (参考訳) 近年、ネットワーク化されたIoTシステムは、リボリューションされた接続性、ポータビリティ、機能を備えており、数多くの利点を提供している。 しかし、これらのシステムは、本質的にセキュリティ上の脆弱性と限られた計算資源とストレージ資源のために、敵にますます狙われている。 マルウェアとして知られる悪意のあるアプリケーションは、IoTデバイスやネットワークに重大な脅威をもたらす。 多くのマルウェア検出技術が提案されているが、既存のアプローチは、検出タスクの豊富なリソースを前提として、IoT環境要素に固有のリソース制約を無視することが多い。 この監視は、Sens-ingやオンデバイス計算などの進行中のワークロードによって複雑化され、マルウェア検出のためのリソースはさらに減少する。 これらの課題に対処するために,IoTネットワーク用の分散コンピューティングと統合された,リソースとワークロードを意識した新たなマルウェア検出フレームワークを提案する。 我々のアプローチは、軽量回帰モデルを用いてマルウェア検出のための利用可能なリソースを分析することから始まる。 リソースの可用性、進行中のワークロード実行、通信コストによって、マルウェア検出タスクは、デバイス上または近隣のIoTノードに十分なリソースで動的に割り当てられる。 マルウェア検出タスク全体を転送するのではなく、データの完全性とユーザのプライバシを保護するために、分類器は分割され、複数のノードに分散され、その後、包括的なマルウェア検出のために親ノードに統合される。 実験により,本手法の有効性を実証し,デバイス上での推測に比べて9.8倍の高速化を実現し,マルウェア検出精度96.7%を維持した。

In recent years, networked IoT systems have revo- lutionized connectivity, portability, and functionality, offering a myriad of advantages. However, these systems are increasingly targeted by adversaries due to inherent security vulnerabilities and limited computational and storage resources. Malicious applications, commonly known as malware, pose a significant threat to IoT devices and networks. While numerous malware detection techniques have been proposed, existing approaches often overlook the resource constraints inherent in IoT environ- ments, assuming abundant resources for detection tasks. This oversight is compounded by ongoing workloads such as sens- ing and on-device computations, further diminishing available resources for malware detection. To address these challenges, we present a novel resource- and workload-aware malware detection framework integrated with distributed computing for IoT networks. Our approach begins by analyzing available resources for malware detection using a lightweight regression model. Depending on resource availability, ongoing workload executions, and communication costs, the malware detection task is dynamically allocated either on-device or offloaded to neighboring IoT nodes with sufficient resources. To safeguard data integrity and user privacy, rather than transferring the entire malware detection task, the classifier is partitioned and distributed across multiple nodes, and subsequently integrated at the parent node for comprehensive malware detection. Experimental analysis demonstrates the efficacy of our proposed technique, achieving a remarkable speed-up of 9.8x compared to on-device inference, while maintaining a high malware detection accuracy of 96.7%.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-12
# Into the Fog: 複数物体追跡ロバスト性の評価

Into the Fog: Evaluating Multiple Object Tracking Robustness ( http://arxiv.org/abs/2404.10534v1 )

ライセンス: Link先を確認
Nadezda Kirillova, M. Jehanzeb Mirza, Horst Possegger, Horst Bischof, (参考訳) State-of-the-art(SOTA)トラッカーは、現在のベンチマークでトレーニングおよび評価を行うと、顕著なMultiple Object Tracking(MOT)パフォーマンスを示す。 しかし、これらのベンチマークは主に明確なシナリオで構成されており、霧、霧、煙、塵のような有害な大気環境を見渡せる。 その結果,SOTAトラッカーのロバスト性は未解明のままである。 これらの制約に対処するために,フレーム単位の単眼深度推定と霧生成光学モデルを用いた任意の実世界のMOTデータセットにおける物理ベースの体積霧シミュレーションのためのパイプラインを提案する。 さらに, 同質および異質の霧効果のレンダリングによりシミュレーションを強化する。 そこで本研究では,夜間や屋内のシーンにおいても,霧(煙)の色を推定するために暗チャネル先行手法を提案する。 種々の強度の霧(屋内シーンの煙)をオーバーレイした先行追跡ベンチマークMOTChallenge(MOT17データセット)を,SOTAMOT法を網羅的に評価し,霧と霧に類似した課題下での限界を明らかにする。

State-of-the-art (SOTA) trackers have shown remarkable Multiple Object Tracking (MOT) performance when trained and evaluated on current benchmarks. However, these benchmarks primarily consist of clear scenarios, overlooking adverse atmospheric conditions such as fog, haze, smoke and dust. As a result, the robustness of SOTA trackers remains underexplored. To address these limitations, we propose a pipeline for physic-based volumetric fog simulation in arbitrary real-world MOT dataset utilizing frame-by-frame monocular depth estimation and a fog formation optical model. Moreover, we enhance our simulation by rendering of both homogeneous and heterogeneous fog effects. We propose to use the dark channel prior method to estimate fog (smoke) color, which shows promising results even in night and indoor scenes. We present the leading tracking benchmark MOTChallenge (MOT17 dataset) overlaid by fog (smoke for indoor scenes) of various intensity levels and conduct a comprehensive evaluation of SOTA MOT methods, revealing their limitations under fog and fog-similar challenges.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-12
# SEVD:Egoと固定されたトラフィック知覚のための合成イベントベース視覚データセット

SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception ( http://arxiv.org/abs/2404.10540v1 )

ライセンス: Link先を確認
Manideep Reddy Aliminati, Bharatesh Chakravarthi, Aayush Atul Verma, Arpitsinh Vaghela, Hua Wei, Xuesong Zhou, Yezhou Yang, (参考訳) 近年、従来のRGBカメラは、動的に困難な状況に対処する際の限界に直面しているため、イベントベースの視覚センサが自律運転アプリケーションに注目されている。 しかし、実世界と合成イベントベースのビジョンデータセットが利用可能であることは、依然として限られている。 このギャップに対応するために、我々は、CARLAシミュレータ内の複数の動的視覚センサを用いて、第1世代のマルチビューエゴであるSEVDと、固定認識合成イベントベースデータセットを提示する。 データシーケンスは、さまざまな照明(正午、夜間、ツイライト)と天候(澄んだ、曇り、雨、霧)とドメインシフト(離散的、連続的)にまたがって記録される。 SEVDは、都市、郊外、田舎、高速道路など様々な種類の物体(車、トラック、バン、自転車、オートバイ、歩行者)を含むシーンにまたがっている。 イベントデータに加えて、SEVDにはRGB画像、深度マップ、光学フロー、セマンティック、インスタンスセグメンテーションが含まれており、シーンの包括的な理解を容易にする。 さらに,交通検知タスクに最先端のイベントベース(RED,RVT)とフレームベース(YOLOv8)を用いてデータセットを評価し,評価のためのベースラインベンチマークを提供する。 さらに、合成イベントベースのデータセットの一般化能力を評価する実験を行う。 データセットはhttps://eventbasedvision.github.io/SEVDで公開されている。

Recently, event-based vision sensors have gained attention for autonomous driving applications, as conventional RGB cameras face limitations in handling challenging dynamic conditions. However, the availability of real-world and synthetic event-based vision datasets remains limited. In response to this gap, we present SEVD, a first-of-its-kind multi-view ego, and fixed perception synthetic event-based dataset using multiple dynamic vision sensors within the CARLA simulator. Data sequences are recorded across diverse lighting (noon, nighttime, twilight) and weather conditions (clear, cloudy, wet, rainy, foggy) with domain shifts (discrete and continuous). SEVD spans urban, suburban, rural, and highway scenes featuring various classes of objects (car, truck, van, bicycle, motorcycle, and pedestrian). Alongside event data, SEVD includes RGB imagery, depth maps, optical flow, semantic, and instance segmentation, facilitating a comprehensive understanding of the scene. Furthermore, we evaluate the dataset using state-of-the-art event-based (RED, RVT) and frame-based (YOLOv8) methods for traffic participant detection tasks and provide baseline benchmarks for assessment. Additionally, we conduct experiments to assess the synthetic event-based dataset's generalization capabilities. The dataset is available at https://eventbasedvision.github.io/SEVD
翻訳日:2024-04-17 16:53:59 公開日:2024-04-12
# 可変化に基づく政策最適化のための経験リプレイ

Variance Reduction based Experience Replay for Policy Optimization ( http://arxiv.org/abs/2110.08902v4 )

ライセンス: Link先を確認
Hua Zheng, Wei Xie, M. Ben Feng, (参考訳) 複雑な確率システムの強化学習には、過去の繰り返しで収集した履歴サンプルから得られる情報を効果的に活用し、政策最適化を加速することが望ましい。 古典的な経験は、効果はあるものの、すべての観察を均一に扱い、相対的な重要性を無視している。 この制限に対処するために、我々は、ポリシー勾配推定を改善するために、関連するサンプルの選択的再利用を可能にする、新しい可変化体験再生(VRER)フレームワークを導入する。 VRERは、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法であり、当社のサンプル効率のよい非政治学習アルゴリズムであるPG-VRER(Policy Gradient with VRER)の基礎を形成している。 さらに、文献における経験再生アプローチの厳密な理解の欠如は、マルコフのノイズや行動方針の相互依存性によって引き起こされるサンプル依存を考慮に入れた、新しい理論的枠組みの導入を動機付けている。 このフレームワークを用いて提案したPG-VRERアルゴリズムの有限時間収束を解析し、政策勾配推定において重要なバイアス分散トレードオフを明らかにする。 大規模な実験により、VRERは最適ポリシーの学習において顕著かつ一貫した加速を提供し、最先端(SOTA)ポリシー最適化アプローチの性能を向上させることが示されている。

For reinforcement learning on complex stochastic systems, it is desirable to effectively leverage the information from historical samples collected in previous iterations to accelerate policy optimization. Classical experience replay, while effective, treats all observations uniformly, neglecting their relative importance. To address this limitation, we introduce a novel Variance Reduction Experience Replay (VRER) framework, enabling the selective reuse of relevant samples to improve policy gradient estimation. VRER, as an adaptable method that can seamlessly integrate with different policy optimization algorithms, forms the foundation of our sample efficient off-policy learning algorithm known as Policy Gradient with VRER (PG-VRER). Furthermore, the lack of a rigorous understanding of the experience replay approach in the literature motivates us to introduce a novel theoretical framework that accounts for sample dependencies induced by Markovian noise and behavior policy interdependencies. This framework is then employed to analyze the finite-time convergence of the proposed PG-VRER algorithm, revealing a crucial bias-variance trade-off in policy gradient estimation: the reuse of older experience tends to introduce a larger bias while simultaneously reducing gradient estimation variance. Extensive experiments have shown that VRER offers a notable and consistent acceleration in learning optimal policies and enhances the performance of state-of-the-art (SOTA) policy optimization approaches.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-12
# 逆パターン:ロバストなAndroidマルウェア分類器の構築

Adversarial Patterns: Building Robust Android Malware Classifiers ( http://arxiv.org/abs/2203.02121v2 )

ライセンス: Link先を確認
Dipkamal Bhusal, Nidhi Rastogi, (参考訳) 大量のデータを分析し、パターンを検出し、予測やレコメンデーションを行うために、医療、ビジネス、自動運転車、サイバーセキュリティなど、さまざまな分野に機械学習モデルが採用されている。 サイバーセキュリティの分野では、これらのモデルはマルウェア検出において大幅に改善されている。 しかしながら、非構造化データから複雑なパターンを理解する能力があるにもかかわらず、これらのモデルは、マルウェアサンプルのわずかな修正を行う敵攻撃の影響を受けやすいため、悪性から良性への誤分類につながる。 このような敵攻撃を検知するか、モデルロバスト性を改善するために、多くの防衛手法が提案されている。 これらのアプローチは、数多くの攻撃・防衛技術と「敵機械学習」と呼ばれる分野の出現をもたらした。 「本調査では,Androidマルウェア分類器の文脈における敵機械学習の包括的レビューを行う。 Androidは世界でもっとも広く使われているオペレーティングシステムであり、悪意のあるエージェントの標的になる。 本稿はまず,Androidマルウェア分類器の幅広い背景と,敵の攻撃と防御の最新の進歩について考察する。 最後に,ロバストなマルウェア分類器を設計するためのガイドラインを提供し,今後の研究方針を概説する。

Machine learning models are increasingly being adopted across various fields, such as medicine, business, autonomous vehicles, and cybersecurity, to analyze vast amounts of data, detect patterns, and make predictions or recommendations. In the field of cybersecurity, these models have made significant improvements in malware detection. However, despite their ability to understand complex patterns from unstructured data, these models are susceptible to adversarial attacks that perform slight modifications in malware samples, leading to misclassification from malignant to benign. Numerous defense approaches have been proposed to either detect such adversarial attacks or improve model robustness. These approaches have resulted in a multitude of attack and defense techniques and the emergence of a field known as `adversarial machine learning.' In this survey paper, we provide a comprehensive review of adversarial machine learning in the context of Android malware classifiers. Android is the most widely used operating system globally and is an easy target for malicious agents. The paper first presents an extensive background on Android malware classifiers, followed by an examination of the latest advancements in adversarial attacks and defenses. Finally, the paper provides guidelines for designing robust malware classifiers and outlines research directions for the future.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-12
# HPの強化フィルターは、想像以上に汎用的だ

The boosted HP filter is more general than you might think ( http://arxiv.org/abs/2209.09810v2 )

ライセンス: Link先を確認
Ziwei Mei, Peter C. B. Phillips, Zhentao Shi, (参考訳) 世界的な金融危機とコビッド不況は、マクロ経済データにおけるトレンドサイクル発見に関する新たな議論を巻き起こし、最近、人気の高いHPフィルタを、データリッチで高速な計算環境に適した現代的な機械学習デバイスにアップグレードした。 本稿では,高次統合プロセスと局所的な根を持つ時系列に拡張する傾向決定能力を拡張した。 この理論は、単純な指数関数に対するブースティングの漸近効果を理解することによって確立される。 さまざまな動的パターンを示すFREDデータベースに時系列の宇宙が与えられ、危機時のダウンターンをタイムリーにキャプチャし、その後に続くリカバリを行う。

The global financial crisis and Covid recession have renewed discussion concerning trend-cycle discovery in macroeconomic data, and boosting has recently upgraded the popular HP filter to a modern machine learning device suited to data-rich and rapid computational environments. This paper extends boosting's trend determination capability to higher order integrated processes and time series with roots that are local to unity. The theory is established by understanding the asymptotic effect of boosting on a simple exponential function. Given a universe of time series in FRED databases that exhibit various dynamic patterns, boosting timely captures downturns at crises and recoveries that follow.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-12
# 抽象論と関係的相互注意:変圧器の明示的関係推論における帰納的バイアス

Abstractors and relational cross-attention: An inductive bias for explicit relational reasoning in Transformers ( http://arxiv.org/abs/2304.00195v4 )

ライセンス: Link先を確認
Awni Altabaa, Taylor Webb, Jonathan Cohen, John Lafferty, (参考訳) 抽象モジュールと呼ばれる新しいモジュールを通じて明示的なリレーショナル推論を可能にするトランスフォーマーの拡張が提案されている。 Abstractorの中核には、リレーショナル・クロスアテンション(relational cross-attention)と呼ばれる注意の亜種がある。 このアプローチは、関係情報をオブジェクトレベルの特徴から切り離す関係学習のためのアーキテクチャ的帰納的バイアスによって動機付けられます。 これにより、明示的なリレーショナル推論が可能となり、限定データからの抽象化と一般化がサポートされる。 Abstractorは、まず単純な識別的リレーショナルタスクで評価され、既存のリレーショナルアーキテクチャと比較される。 次に、Abstractorを純粋にリレーショナルなシーケンス・ツー・シーケンスタスクで評価し、標準のTransformerと比較してサンプル効率が劇的に改善される。 最後に、数学的問題解決に基づくタスクの集合に基づいて、抽象体を評価し、一貫した性能改善とサンプル効率を観察する。

An extension of Transformers is proposed that enables explicit relational reasoning through a novel module called the Abstractor. At the core of the Abstractor is a variant of attention called relational cross-attention. The approach is motivated by an architectural inductive bias for relational learning that disentangles relational information from object-level features. This enables explicit relational reasoning, supporting abstraction and generalization from limited data. The Abstractor is first evaluated on simple discriminative relational tasks and compared to existing relational architectures. Next, the Abstractor is evaluated on purely relational sequence-to-sequence tasks, where dramatic improvements are seen in sample efficiency compared to standard Transformers. Finally, Abstractors are evaluated on a collection of tasks based on mathematical problem solving, where consistent improvements in performance and sample efficiency are observed.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-12
# パブリックな大規模言語モデルは、プライベートなデバイス間フェデレーション学習に役立つか?

Can Public Large Language Models Help Private Cross-device Federated Learning? ( http://arxiv.org/abs/2305.12132v2 )

ライセンス: Link先を確認
Boxin Wang, Yibo Jacky Zhang, Yuan Cao, Bo Li, H. Brendan McMahan, Sewoong Oh, Zheng Xu, Manzil Zaheer, (参考訳) 言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。 デバイス間FLの言語モデルは比較的小さく、適度なサイズのユーザの参加によってトレーニングにおける大規模な並列化が可能になった場合、意味のあるユーザレベルの差分プライバシー(DP)をトレーニングすることができる。 近年,大規模な言語モデルと小規模な言語モデルの両方において,プライバシとユーティリティのトレードオフを改善するために公開データが使用されている。 本研究では,大規模公共データとLCMを用いてデバイス上でのFLモデルの個人差分訓練を支援し,蒸留技術によるプライバシー利用トレードオフをさらに改善するための体系的研究を行う。 また,提案手法では,提案手法を用いて,個人データに近接する公開データのサンプル化を理論的根拠とした新しい分布マッチングアルゴリズムを提案し,公開データに対する事前学習のサンプル効率を大幅に向上させる。 提案手法は,公開データを活用することにより,プライベートモデルのトレーニングに有効であり,特に事前訓練済みのモデルを持たないデバイス上でのカスタマイズに有効である。

We study (differentially) private federated learning (FL) of language models. The language models in cross-device FL are relatively small, which can be trained with meaningful formal user-level differential privacy (DP) guarantees when massive parallelism in training is enabled by the participation of a moderate size of users. Recently, public data has been used to improve privacy-utility trade-offs for both large and small language models. In this work, we provide a systematic study of using large-scale public data and LLMs to help differentially private training of on-device FL models, and further improve the privacy-utility tradeoff by techniques of distillation. Moreover, we propose a novel distribution matching algorithm with theoretical grounding to sample public data close to private data distribution, which significantly improves the sample efficiency of (pre-)training on public data. The proposed method is efficient and effective for training private models by taking advantage of public data, especially for customized on-device architectures that do not have ready-to-use pre-trained models.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-12
# デジタル双生児のためのハードウェア支援によるポスト量子ハイブリッドデジタル署名

Post-Quantum Hybrid Digital Signatures with Hardware-Support for Digital Twins ( http://arxiv.org/abs/2305.12298v2 )

ライセンス: Link先を確認
Saif E. Nouma, Attila A. Yavuz, (参考訳) Digital Twins (DT)は、IoT(Internet of Things)コンポーネント(例:センサー)を使用して、仮想的にサイバー物理オブジェクトをモデル化して、クラウドに格納された知覚情報を収集し、処理する。 ストリーミングデータの信頼性は、量子安全性と耐障害性を必要とする重要なものだ。 デジタル署名は、スケーラブルな認証と非監査に不可欠である。 しかし、NIST PQCシグネチャ標準は、フォワードセキュリティを考慮せずに、ローエンドのIoTには極端にコストがかかる。 さらに、ポスト量子(PQ)シグネチャにはアグリゲーションが欠如しており、DTの伝送と保存の負担を軽減することが非常に望ましい。 したがって、DTのPQ時代への効果的な移行を許容しつつ、妥協回復力とコンパクト性を提供する軽量デジタル署名が緊急に必要となる。 ハードウェア・アシスタント・エフィシデント・シグナチャ(HASES)と呼ばれる,上述の要件を満たす,軽量なデジタルシグナチャのシリーズを作成します。 HASESの中核はハードウェア支援型の暗号コミットコンストラクト・オラクル(CCO)であり、認証者が署名者間の相互作用なしに高価なコミットを得ることを可能にする。 PQ-HASESは前方セキュアなPQシグネチャ、LA-HASESは楕円曲線シグネチャ、HY-HASESはPQ-HASESとLA-HASESを組み合わせた新しいハイブリッドスキームである。 HASESはシグナにセキュアなハードウェアを必要としない。 我々は、HASESスキームが安全であることを証明し、コモディティハードウェアと8ビットのAVR ATmega2560上で実装した。 実験の結果,PQ-HASESとLA-HASESはPQの2倍のシグナー効率を示した。 HY-HASESはNIST PQCと従来のシグネチャの組み合わせよりも優れており、新しいDTに対して標準準拠のトランジショナルソリューションを提供する。 我々は、公開テストと適応のためのHASESスキームをオープンソース化した。

Digital Twins (DT) virtually model cyber-physical objects using Internet of Things (IoT) components (e.g., sensors) to gather and process senstive information stored in the cloud. Trustworthiness of the streamed data is crucial which requires quantum safety and breach resiliency. Digital signatures are essential for scalable authentication and non-repudiation. Yet, NIST PQC signature standards are exorbitantly costly for low-end IoT without considering forward security. Moreover, Post-Quantum (PQ) signatures lack aggregation, which is highly desirable to reduce the transmission and storage burdens in DTs. Hence, there is an urgent need for lightweight digital signatures that offer compromise resiliency and compactness while permitting an effective transition into the PQ era for DTs. We create a series of highly lightweight digital signatures called Hardware-ASsisted Efficient Signature (HASES) that meets the above requirements. The core of HASES is a hardware-assisted cryptographic commitment construct oracle (CCO) that permits verifiers to obtain expensive commitments without signer interaction. We created three HASES schemes: PQ-HASES is a forward-secure PQ signature, LA-HASES is an efficient aggregate Elliptic-Curve signature, and HY-HASES is a novel hybrid scheme that combines PQ-HASES and LA-HASES with novel strong nesting and sequential aggregation. HASES does not require a secure-hardware on the signer. We proved that HASES schemes are secure and implemented them on commodity hardware and an 8-bit AVR ATmega2560. Our experiments confirm that PQ-HASES and LA-HASES are two magnitudes of times more signer efficient than their PQ and conventional-secure counterparts, respectively. HY-HASES outperforms NIST PQC and conventional signature combinations, offering a standardcompliant transitional solution for emerging DTs. We open-source HASES schemes for public testing and adaptation.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-12
# 負のフィードバックトレーニング:NVCIM DNN加速器のロバスト性向上のための新しい概念

Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators ( http://arxiv.org/abs/2305.14561v4 )

ライセンス: Link先を確認
Yifan Qin, Zheyu Yan, Wujie Wen, Xiaobo Sharon Hu, Yiyu Shi, (参考訳) 非揮発性メモリ(NVM)デバイス上に構築されたCIM(Compute-in-Memory)アクセラレータは、そのデータ処理能力のおかげで、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。 しかしながら、NVMデバイスの確率的性質と固有のバリエーションは、しばしばDNN推論の性能低下をもたらす。 DNNトレーニング中のこれらの非理想的デバイス動作の導入は、堅牢性を高めるが、欠点には、精度の向上の制限、予測信頼性の低減、収束問題が含まれる。 これは、決定論的トレーニングと非決定論的デバイスバリエーションのミスマッチから生じる。 本研究では,制御理論からインスピレーションを得て,ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(NFT)を提案する。 我々は、OVF(Oriented Variational Forward)とIRS(Intermediate Representation Snapshot)の2つの特定NFTインスタンスを開発する。 以上の結果から,提案手法は既存の最先端手法よりも46.71%の推論精度の向上を達成し,また,疫学的な不確実性を低減し,出力信頼度を高め,収束確率を向上させることが示唆された。 彼らの効果は、デバイス変動に対するDNNロバスト性を高めるために、我々のNFT概念の一般化と実用性を強調している。

Compute-in-memory (CIM) accelerators built upon non-volatile memory (NVM) devices excel in energy efficiency and latency when performing Deep Neural Network (DNN) inference, thanks to their in-situ data processing capability. However, the stochastic nature and intrinsic variations of NVM devices often result in performance degradation in DNN inference. Introducing these non-ideal device behaviors during DNN training enhances robustness, but drawbacks include limited accuracy improvement, reduced prediction confidence, and convergence issues. This arises from a mismatch between the deterministic training and non-deterministic device variations, as such training, though considering variations, relies solely on the model's final output. In this work, we draw inspiration from the control theory and propose a novel training concept: Negative Feedback Training (NFT) leveraging the multi-scale noisy information captured from network. We develop two specific NFT instances, Oriented Variational Forward (OVF) and Intermediate Representation Snapshot (IRS). Extensive experiments show that our methods outperform existing state-of-the-art methods with up to a 46.71% improvement in inference accuracy while reducing epistemic uncertainty, boosting output confidence, and improving convergence probability. Their effectiveness highlights the generality and practicality of our NFT concept in enhancing DNN robustness against device variations.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-12
# 自己教師型表現学習者としてのマスケッド拡散

Masked Diffusion as Self-supervised Representation Learner ( http://arxiv.org/abs/2308.05695v4 )

ライセンス: Link先を確認
Zixuan Pan, Jianxu Chen, Yiyu Shi, (参考訳) 拡散確率モデルは近年,最先端の生成性能を実証し,強力なピクセルレベルの表現学習者として利用されてきた。 本稿では,拡散モデルに固有の生成能力と表現学習能力の相互関係を分解する。 本稿では,意味的セグメンテーションのためのスケーラブルな自己教師付き表現学習システムであるマスク拡散モデル(MDM)について述べる。 提案手法は,医学的,自然画像的セマンティックセグメンテーションタスク,特に数ショットシナリオにおいて顕著な進歩を示した。

Denoising diffusion probabilistic models have recently demonstrated state-of-the-art generative performance and have been used as strong pixel-level representation learners. This paper decomposes the interrelation between the generative capability and representation learning ability inherent in diffusion models. We present the masked diffusion model (MDM), a scalable self-supervised representation learner for semantic segmentation, substituting the conventional additive Gaussian noise of traditional diffusion with a masking mechanism. Our proposed approach convincingly surpasses prior benchmarks, demonstrating remarkable advancements in both medical and natural image semantic segmentation tasks, particularly in few-shot scenarios.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-12
# 周期駆動型ディックモデルによるスクイーズ高速化

Speeding Up Squeezing with a Periodically Driven Dicke Model ( http://arxiv.org/abs/2310.07694v2 )

ライセンス: Link先を確認
Jarrod T. Reilly, Simon B. Jäger, John Drew Wilson, John Cooper, Sebastian Eggert, Murray J. Holland, (参考訳) 一般に用いられる1軸ねじれ(OAT)モデルよりも高速な時間スケールで高絡み合うスピン状態を生成するための簡便かつ効率的な方法を提案する。 我々は、周期的にディック・ハミルトニアンを共鳴周波数で駆動することにより、この系は、ハイゼンベルク極限スケールの絡み合った状態を迅速に生成することが知られている2軸対向ハミルトニアンとなることを示した。 これらの状態に対して、簡単な二次測度は、量子クラム・ラオ境界によって決定されるパラメータ推定の最終的な精度限界を飽和させることができることを示す。 周期的に駆動されるスキームの例を、最近記述された実験垂直空洞系において、運動量絡みを迅速に発生させるポテンシャルで論じる。 我々は,この垂直空洞系における集団散逸の影響を解析し,我々のスクイーズプロトコルが従来のOATよりも頑健であることを見出した。

We present a simple and effective method to create highly entangled spin states on a faster timescale than that of the commonly employed one-axis twisting (OAT) model. We demonstrate that by periodically driving the Dicke Hamiltonian at a resonance frequency, the system effectively becomes a two-axis countertwisting Hamiltonian which is known to quickly create Heisenberg limit scaled entangled states. For these states we show that simple quadrature measurements can saturate the ultimate precision limit for parameter estimation determined by the quantum Cram\'er-Rao bound. An example experimental realization of the periodically driven scheme is discussed with the potential to quickly generate momentum entanglement in a recently described experimental vertical cavity system. We analyze effects of collective dissipation in this vertical cavity system and find that our squeezing protocol can be more robust than the previous realization of OAT.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-12
# ドライバーの視線配置に及ぼすタスクとコンテキストの影響の理解とモデル化

Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation ( http://arxiv.org/abs/2310.09275v3 )

ライセンス: Link先を確認
Iuliia Kotseruba, John K. Tsotsos, (参考訳) ドライバーの監視・支援システムをさらに前進させるためには、ドライバーがどのように注意を割り当てるかを理解することが重要である。 伝統的に、人間の視覚的注意に影響を与える要因はボトムアップ(有能な地域への自発的な魅力)とトップダウン(実行中のタスクの要求によって引き起こされる)に分けられている。 両者はドライバーの視線を指示する役割を担っているが、既存のドライバーの視線予測のモデルのほとんどはボトムアップ・サリエンシーのために開発された技術を適用しており、ドライバーの行動の影響を明示的に考慮していない。 同様に、一般的な運転注意ベンチマークでは、運転者の行動や実行状況に関するアノテーションが欠落している。 そこで,運転者の視線予測のための因子の解析とモデル化を実現するために,以下のことを提案する。 1) DR(eye)VEで使用されるデータ処理パイプラインを補正し, 記録された視線データのノイズを低減する。 2) タスクとコンテキストを駆動するためのフレーム単位のラベルを追加する。 3) 正当性とドライバの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、新しいアノテーションを使用して、異なるタスクを含むシナリオにおけるパフォーマンスの変化を分析します。 4)明示的な行動と文脈情報を用いてドライバーの視線予測を変調する新しいモデルを開発する。 DR(eye)VEの視線データにおけるノイズの低減は,全モデルの結果を改善する一方で,提案モデルにおけるタスク情報の利用により,全体(24% KLDと89% NSS)および安全クリティカルな操作や交差点(最大10~30% KLD)の実行を含むシナリオにおいて,クリーンアップデータに対するボトムアップモデルと比較して,パフォーマンスがさらに向上することを示す。 拡張アノテーションとコードはhttps://github.com/ykotseruba/SCOUT.comで入手できる。

To further advance driver monitoring and assistance systems, it is important to understand how drivers allocate their attention, in other words, where do they tend to look and why. Traditionally, factors affecting human visual attention have been divided into bottom-up (involuntary attraction to salient regions) and top-down (driven by the demands of the task being performed). Although both play a role in directing drivers' gaze, most of the existing models for drivers' gaze prediction apply techniques developed for bottom-up saliency and do not consider influences of the drivers' actions explicitly. Likewise, common driving attention benchmarks lack relevant annotations for drivers' actions and the context in which they are performed. Therefore, to enable analysis and modeling of these factors for drivers' gaze prediction, we propose the following: 1) we correct the data processing pipeline used in DR(eye)VE to reduce noise in the recorded gaze data; 2) we then add per-frame labels for driving task and context; 3) we benchmark a number of baseline and SOTA models for saliency and driver gaze prediction and use new annotations to analyze how their performance changes in scenarios involving different tasks; and, lastly, 4) we develop a novel model that modulates drivers' gaze prediction with explicit action and context information. While reducing noise in the DR(eye)VE gaze data improves results of all models, we show that using task information in our proposed model boosts performance even further compared to bottom-up models on the cleaned up data, both overall (by 24% KLD and 89% NSS) and on scenarios that involve performing safety-critical maneuvers and crossing intersections (by up to 10--30% KLD). Extended annotations and code are available at https://github.com/ykotseruba/SCOUT.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-12
# シークエンスレベル不確実性は知識を中心とした対話生成における幻覚を減少させる

Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2310.18794v3 )

ライセンス: Link先を確認
Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu, (参考訳) 本研究では,知識基盤対話生成(KGDG)における幻覚に関する共通テーマとして,シーケンスレベルの確実性を提案する。 本研究では,モデル応答における幻覚レベルと,確率的確実性と意味的確実性という2種類のシーケンスレベルの確実性との相関について検討する。 実験結果から, モデル応答における両タイプの確証度の高い値と幻覚の低い値との相関が示唆された。 さらにCRR(Certainty-based Response Ranking)を提案する。この手法は,複数の応答候補をサンプリングし,シーケンスレベルの確実性に基づいてそれらをランク付けし,高い確信度で応答を出力する。 シーケンスレベルの確実性の定義に従って、確率的CRR(P-CRR)とセマンティックCRR(S-CRR)の2種類のCRRアプローチを設計する。 P-CRRは、列全体の算術平均対数確率を用いて、個別にサンプリングされたモデル応答をランク付けする。 S-CRRは、意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいてモデル応答候補をentailment-based Agreement Score (AS) によって測定する。 3つのKGDGデータセット、3つの復号法、および4つのKGDGモデルにわたる広範囲な実験を通して、我々は、KGDGタスクにおける幻覚を減らすためのCRRの有効性を検証した。

In this work, we propose sequence-level certainty as a common theme over hallucination in Knowledge Grounded Dialogue Generation (KGDG). We explore the correlation between the level of hallucination in model responses and two types of sequence-level certainty: probabilistic certainty and semantic certainty. Empirical results reveal that higher levels of both types of certainty in model responses are correlated with lower levels of hallucination. We further propose Certainty-based Response Ranking (CRR), a decoding-time hallucination mitigation method that samples several response candidates, ranks them based on sequence-level certainty, and outputs the response with the highest certainty level. Aligning with our definitions of sequence-level certainty, we design 2 types of CRR approaches: Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually sampled model responses using the arithmetic mean log-probability of the entire sequence. S-CRR approaches certainty estimation from meaning-space, and ranks model response candidates based on their semantic certainty level as measured by an entailment-based Agreement Score (AS). Through extensive experiments across 3 KGDG datasets, 3 decoding methods, and 4 KGDG models, we validate the effectiveness of CRR for reducing hallucination in KGDG task.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-12
# CiFlow: 同型暗号化のためのキースイッチングのデータフロー解析と最適化

CiFlow: Dataflow Analysis and Optimization of Key Switching for Homomorphic Encryption ( http://arxiv.org/abs/2311.01598v3 )

ライセンス: Link先を確認
Negar Neda, Austin Ebel, Benedict Reynwar, Brandon Reagen, (参考訳) ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にするプライバシー保護計算技術である。 現在、HEのポテンシャルは非現実的であり、不可分に遅いため、実際のアプリケーションでの使用を妨げている。 HEの主な計算ボトルネックはキースイッチ操作であり、HEの実行時間の約70%を占め、入力、中間、キーに対する大量のデータを含む。 従来の研究では、HE性能を改善するハードウェアアクセラレータに重点を置いており、大容量のオンチップSRAMと大規模なデータを扱うためのオフチップ帯域幅が特徴である。 本稿では,そのデータフローを厳密に解析することでキースイッチング性能を向上させる新しい手法を提案する。 第一の目的は、オンチップメモリに制限のあるデータ再利用を最適化し、オフチップのデータ移動を最小限にすることです。 最大パラメータ(MP)、Digital-Centric(DC)、Output-Centric(OC)の3つの異なるデータフローを導入する。 本稿では,提案手法を用いて,中間鍵スイッチング作業セットを大幅に削減し,オフチップ帯域幅の大幅な削減を図り,データ再利用を効果的に行なえることを示す。 HEを含むリング処理アルゴリズムに適したベクトルプロセッサであるRPUを用いて,3つのデータフローを徹底的に評価した。 この評価は、帯域幅と計算スループットの網羅性、キーがチップ上でバッファリングされているか、あるいはストリーミングされているかを考慮する。 OCでは、MPデータフロー上で最大4.16倍のスピードアップを示し、OCが12.25倍のSRAMをストリーミングキーで保存し、パフォーマンス上のペナルティを最小限に抑える方法を示している。

Homomorphic encryption (HE) is a privacy-preserving computation technique that enables computation on encrypted data. Today, the potential of HE remains largely unrealized as it is impractically slow, preventing it from being used in real applications. A major computational bottleneck in HE is the key-switching operation, accounting for approximately 70% of the overall HE execution time and involving a large amount of data for inputs, intermediates, and keys. Prior research has focused on hardware accelerators to improve HE performance, typically featuring large on-chip SRAMs and high off-chip bandwidth to deal with large scale data. In this paper, we present a novel approach to improve key-switching performance by rigorously analyzing its dataflow. Our primary goal is to optimize data reuse with limited on-chip memory to minimize off-chip data movement. We introduce three distinct dataflows: Max-Parallel (MP), Digit-Centric (DC), and Output-Centric (OC), each with unique scheduling approaches for key-switching computations. Through our analysis, we show how our proposed Output-Centric technique can effectively reuse data by significantly lowering the intermediate key-switching working set and alleviating the need for massive off-chip bandwidth. We thoroughly evaluate the three dataflows using the RPU, a recently published vector processor tailored for ring processing algorithms, which includes HE. This evaluation considers sweeps of bandwidth and computational throughput, and whether keys are buffered on-chip or streamed. With OC, we demonstrate up to 4.16x speedup over the MP dataflow and show how OC can save 12.25x on-chip SRAM by streaming keys for minimal performance penalty.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-12
# AudioChatLlama:LLMのための汎用音声能力を目指して

AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs ( http://arxiv.org/abs/2311.06753v2 )

ライセンス: Link先を確認
Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Ke Li, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer, (参考訳) 本研究では,Llama-2モデルをエンドツーエンドの汎用音声処理と推論能力で拡張するとともに,厳密にキュレートされたペアデータを用いることなく,多様なLLM機能を維持した。 結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。 このようなモデルは、他の多くのクローズドおよびオープンドメインタスクの中で、音声質問応答(QA)、音声翻訳、音声要約を実行できるように拡張されたモーダル機能も備えている。 これは、LLMが事前指定されたタスクの限られた数でオーディオを処理するように拡張される、以前の音声のアプローチとは異なりである。 合成音声QAテストセットと記録音声QAテストセットの両方において、我々のエンドツーエンドアプローチは、プロンプトに対する応答をモデル化する上で、カスケードされたシステム(音声認識器+LLM)と同等または同等であることを示す。 さらに、カスケードと異なり、本手法はテキストとオーディオのモダリティを交換し、会話における先行コンテキストを本質的に活用してより良い結果を提供する。

In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of original LLM capabilities, without using any carefully curated paired data. The resulting end-to-end model, named AudioChatLlama, can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform spoken question answering (QA), speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. On both synthesized and recorded speech QA test sets, evaluations show that our end-to-end approach is on par with or outperforms cascaded systems (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike cascades, our approach can interchange text and audio modalities and intrinsically utilize prior context in a conversation to provide better results.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-12
# 多ビットクリフォード-シクロトミック回路のエクササイズ合成

Exact Synthesis of Multiqubit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2311.07741v2 )

ライセンス: Link先を確認
Matthew Amy, Andrew N. Glaudell, Shaun Kelso, William Maxwell, Samuel S. Mendelson, Neil J. Ross, (参考訳) $n\geq 8$ を 4 で割り切れる。 クリフォード・シクロトミックゲート集合 $\mathcal{G}_n$ は、クリフォードゲートを$z$-回転$T_n = \mathrm{diag}(1,\zeta_n)$で拡張することによって得られる普遍ゲート集合である。 ここでは、$n$ が 2 のパワーであるとき、マルチキュービットのユニタリ行列 $U$ が $\mathcal{G}_n$ 上の回路で正確に表現できることと、$U$ の成分が環 $\mathbb{Z}[1/2,\zeta_n]$ に属することを示す。 さらに、$\log(n)-2$ ancillasは常に$U$の回路を構築するのに十分であることを示す。 我々の結果は、先行研究を無限個のゲート集合の族に一般化し、クリフォード・シクロトミック作用素と$\mathbb{Z}[1/2,\zeta_n]$上の行列との対応が、すべての値に対して失敗するが、有限個の$n$の値は、アンシラの使用によって克服できることを証明した。

Let $n\geq 8$ be divisible by 4. The Clifford-cyclotomic gate set $\mathcal{G}_n$ is the universal gate set obtained by extending the Clifford gates with the $z$-rotation $T_n = \mathrm{diag}(1,\zeta_n)$, where $\zeta_n$ is a primitive $n$-th root of unity. In this note, we show that, when $n$ is a power of 2, a multiqubit unitary matrix $U$ can be exactly represented by a circuit over $\mathcal{G}_n$ if and only if the entries of $U$ belong to the ring $\mathbb{Z}[1/2,\zeta_n]$. We moreover show that $\log(n)-2$ ancillas are always sufficient to construct a circuit for $U$. Our results generalize prior work to an infinite family of gate sets and show that the limitations that apply to single-qubit unitaries, for which the correspondence between Clifford-cyclotomic operators and matrices over $\mathbb{Z}[1/2,\zeta_n]$ fails for all but finitely many values of $n$, can be overcome through the use of ancillas.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-12
# ContraDoc: 大規模言語モデルによる文書における自己矛盾を理解する

ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models ( http://arxiv.org/abs/2311.09182v2 )

ライセンス: Link先を確認
Jierui Li, Vipul Raheja, Dhruv Kumar, (参考訳) 近年,大規模言語モデル (LLM) は文書分類,要約,質問応答など,様々な文書レベルのタスクにおいて顕著な性能を示している。 しかし,長期文書における自己矛盾作業における能力の理解に関する研究は非常に限られている。 本研究では,複数のドメインにまたがる長いドキュメント,さまざまなドキュメントの長さ,自己コントラクションタイプ,スコープで自己コントラクションを研究対象とする,人手による最初のデータセットであるContraDocを紹介する。 次に、このデータセット上で、GPT3.5、GPT4、PaLM2、LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。 GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。 データセットと実験に関連するすべてのコード(https://github.com/ddhruvkr/CONTRADOC)をリリースします。

In recent times, large language models (LLMs) have shown impressive performance on various document-level tasks such as document classification, summarization, and question-answering. However, research on understanding their capabilities on the task of self-contradictions in long documents has been very limited. In this work, we introduce ContraDoc, the first human-annotated dataset to study self-contradictions in long documents across multiple domains, varying document lengths, self-contradictions types, and scope. We then analyze the current capabilities of four state-of-the-art open-source and commercially available LLMs: GPT3.5, GPT4, PaLM2, and LLaMAv2 on this dataset. While GPT4 performs the best and can outperform humans on this task, we find that it is still unreliable and struggles with self-contradictions that require more nuance and context. We release the dataset and all the code associated with the experiments (https://github.com/ddhruvkr/CONTRADOC).
翻訳日:2024-04-16 23:17:34 公開日:2024-04-12
# Tied-Lora: 重み付けによるLoRAのパラメータ効率向上

Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying ( http://arxiv.org/abs/2311.09578v2 )

ライセンス: Link先を確認
Adithya Renduchintala, Tugrul Konuk, Oleksii Kuchaiev, (参考訳) 低ランク適応 (LoRA) のパラメータ効率を高めるために, ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを紹介した。 本稿では,パラメータトレーニングと凍結,およびウェイトタイリングと組み合わせて,性能とトレーニング可能なパラメータ数との最適なトレードオフを同定する。 5ドルの多様なタスクと異なるパラメータ数を持つ2つの基礎言語モデルにまたがって、我々の実験は、効率と性能の間の本質的にのトレードオフに関する総合的な洞察を提供する。 この結果から,複数のタスクにまたがって,LoRAに匹敵する性能を示すことで,標準のLoRA法で用いられるパラメータのごく一部,特に高いランクにおいてのみ活用できる,特定のTied-LoRA構成が明らかとなった。 このことは、Tied-LoRAがモデル複雑さを大幅に減らした印象的な結果を達成する上での有効性を示している。

We introduce Tied-LoRA, a novel paradigm leveraging weight tying and selective training to enhance the parameter efficiency of Low-rank Adaptation (LoRA). Our exploration encompasses different plausible combinations of parameter training and freezing, coupled with weight tying, aimed at identifying the optimal trade-off between performance and the count of trainable parameters. Across $5$ diverse tasks and two foundational language models with different parameter counts, our experiments provide comprehensive insights into the inherent trade-offs between efficiency and performance. Our findings reveal a specific Tied-LoRA configuration that distinguishes itself by showcasing comparable performance to LoRA across multiple tasks while utilizing only a fraction of the parameters employed by the standard LoRA method, particularly at elevated ranks. This underscores the efficacy of Tied-LoRA in achieving impressive results with significantly reduced model complexity.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-12
# Priv Image:Semantic-Aware Pretrainingを用いた拡散モデルを用いた差分プライベート合成画像生成

PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining ( http://arxiv.org/abs/2311.12850v3 )

ライセンス: Link先を確認
Kecen Li, Chen Gong, Zhixiang Li, Yuzhong Zhao, Xinwen Hou, Tianhao Wang, (参考訳) 差分プライバシー(DP)画像データ合成(DP)は、DP技術を活用して、機密データを置き換える合成データを生成する。 従来の手法では、生成モデルの高度な技術と、公開データセット上で事前トレーニングを行い、例外的なDP画像データを生成するが、不安定なトレーニングや膨大な計算リソース要求の問題がある。 本稿では,DP 画像合成手法 PRIVIMAGE を提案する。 PRIVIMAGEはまず、公開データセットを使用してセマンティッククエリ関数を確立する。 そして、この関数はセンシティブなデータセットのセマンティックな分布の問い合わせを支援し、事前トレーニングのための類似したセマンティックスを用いて、パブリックデータセットからデータの選択を容易にする。 最後に,選択したデータを用いて画像生成モデルを事前学習し,そのデータをDP-SGD(differially Private Stochastic Gradient Descent)を用いてセンシティブなデータセット上で微調整する。 PRIVIMAGE は,DP-SGD トレーニング中の勾配の雑音を低減し,学習安定性の向上を図る。 大規模な実験では、PRIVIMAGEは事前学習に1%の公開データセットしか使用せず、生成モデルのパラメータの7.6%しか使用していないのに対して、最先端の手法では優れた合成性能を示し、より多くの計算資源を保存している。 PRIVIMAGEは平均30.1%低いFIDと12.6%高い分類精度を達成した。 レプリケーションパッケージとデータセットはオンラインでアクセスすることができる。

Differential Privacy (DP) image data synthesis, which leverages the DP technique to generate synthetic data to replace the sensitive data, allowing organizations to share and utilize synthetic images without privacy concerns. Previous methods incorporate the advanced techniques of generative models and pre-training on a public dataset to produce exceptional DP image data, but suffer from problems of unstable training and massive computational resource demands. This paper proposes a novel DP image synthesis method, termed PRIVIMAGE, which meticulously selects pre-training data, promoting the efficient creation of DP datasets with high fidelity and utility. PRIVIMAGE first establishes a semantic query function using a public dataset. Then, this function assists in querying the semantic distribution of the sensitive dataset, facilitating the selection of data from the public dataset with analogous semantics for pre-training. Finally, we pre-train an image generative model using the selected data and then fine-tune this model on the sensitive dataset using Differentially Private Stochastic Gradient Descent (DP-SGD). PRIVIMAGE allows us to train a lightly parameterized generative model, reducing the noise in the gradient during DP-SGD training and enhancing training stability. Extensive experiments demonstrate that PRIVIMAGE uses only 1% of the public dataset for pre-training and 7.6% of the parameters in the generative model compared to the state-of-the-art method, whereas achieves superior synthetic performance and conserves more computational resources. On average, PRIVIMAGE achieves 30.1% lower FID and 12.6% higher Classification Accuracy than the state-of-the-art method. The replication package and datasets can be accessed online.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-12
# SatCLIP: 衛星画像を用いたグローバルで汎用的な位置埋め込み

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery ( http://arxiv.org/abs/2311.17179v3 )

ライセンス: Link先を確認
Konstantin Klemmer, Esther Rolf, Caleb Robinson, Lester Mackey, Marc Rußwurm, (参考訳) 地理情報は、生態学から疫学までの分野におけるタスクのモデル化に不可欠である。 しかし、与えられたタスクに関連する位置特性を抽出することは困難であり、多くの場合、大規模なグローバルなデータセットから高価なデータ融合や蒸留を必要とする。 この課題に対処するために、衛星コントラスト位置画像事前学習(SatCLIP)を紹介する。 このグローバルで汎用的な位置情報エンコーダは、公開衛星画像のCNNとViTの視覚的パターンを地理的座標とマッチングすることにより、位置の暗黙的な表現を学習する。 結果として得られるSatCLIPロケーションエンコーダは、ダウンストリームタスクで便利な使用のために、任意のロケーションの特性を効率的に要約する。 実験では, 温度予測, 動物認識, 人口密度推定など, 9つの異なる位置依存タスクの予測性能を向上させるために, SatCLIP埋め込みを用いた。 タスク全体にわたって、SatCLIPは代替位置エンコーダを一貫して上回り、空間的に離れた環境の視覚的類似性を符号化することで地理的一般化を改善する。 これらの結果は、地球空間データの広大で多様で、ほとんど未発達なモダリティから、我々の惑星の有意義な表現を学習する視覚配置モデルの可能性を示している。

Geographic information is essential for modeling tasks in fields ranging from ecology to epidemiology. However, extracting relevant location characteristics for a given task can be challenging, often requiring expensive data fusion or distillation from massive global imagery datasets. To address this challenge, we introduce Satellite Contrastive Location-Image Pretraining (SatCLIP). This global, general-purpose geographic location encoder learns an implicit representation of locations by matching CNN and ViT inferred visual patterns of openly available satellite imagery with their geographic coordinates. The resulting SatCLIP location encoder efficiently summarizes the characteristics of any given location for convenient use in downstream tasks. In our experiments, we use SatCLIP embeddings to improve prediction performance on nine diverse location-dependent tasks including temperature prediction, animal recognition, and population density estimation. Across tasks, SatCLIP consistently outperforms alternative location encoders and improves geographic generalization by encoding visual similarities of spatially distant environments. These results demonstrate the potential of vision-location models to learn meaningful representations of our planet from the vast, varied, and largely untapped modalities of geospatial data.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-12
# Paved2Paradise:現実世界を要因としたコスト効果とスケーラブルLiDARシミュレーション

Paved2Paradise: Cost-Effective and Scalable LiDAR Simulation by Factoring the Real World ( http://arxiv.org/abs/2312.01117v2 )

ライセンス: Link先を確認
Michael A. Alcorn, Noah Schwartz, (参考訳) 強力な現実世界のパフォーマンスを達成するためには、ニューラルネットワークは大規模で多様なデータセットでトレーニングする必要がある。 本稿では,Palved2Paradiseについて述べる。Palved2Paradiseは,完全ラベル付き,多様で,現実的なライダーデータセットをスクラッチから生成するための,シンプルで費用効率の良いアプローチである。 私たちのキーとなる洞察は、意図的に別々の"背景"と"対象"データセット(すなわち、現実世界をリファクタリングする)を収集することで、それらをインテリジェントに組み合わせて、組合せ的に大きく、多様なトレーニングセットを生成することができるということです。 Paved2Paradiseパイプラインは、(1)共用バックグラウンドデータ収集、(2)駐車場のような)孤立した環境で異なる振る舞いを行う目的のクラスからの個人記録、(3)オブジェクトデータセットのブートストラップラベル、(4)背景に任意の位置にオブジェクトを配置してサンプルを生成する4つのステップから構成される。 筆者らはPaved2Paradiseの有用性を実証するために,(1)果樹園における人間検出(公共データがないタスク)と(2)都市環境における歩行者検出という2つのタスクのための合成データセットを作成した。 定性的には、Paved2Paradise合成データに特化して訓練されたモデルは、果樹園の人間を検出するのに非常に効果的である。 定量的に、KITTIのバックグラウンドをソースとするPaved2Paradiseデータに基づいてトレーニングされたモデルは、実際のデータセットでトレーニングされたモデルと互換性がある。 これらの結果から、Paved2Paradise合成データパイプラインは、ライダーデータセットの取得がこれまでコストを抑えてきたセクターにおけるポイントクラウドモデル開発の加速に役立つことが示唆された。

To achieve strong real world performance, neural networks must be trained on large, diverse datasets; however, obtaining and annotating such datasets is costly and time-consuming, particularly for 3D point clouds. In this paper, we describe Paved2Paradise, a simple, cost-effective approach for generating fully labeled, diverse, and realistic lidar datasets from scratch, all while requiring minimal human annotation. Our key insight is that, by deliberately collecting separate "background" and "object" datasets (i.e., "factoring the real world"), we can intelligently combine them to produce a combinatorially large and diverse training set. The Paved2Paradise pipeline thus consists of four steps: (1) collecting copious background data, (2) recording individuals from the desired object class(es) performing different behaviors in an isolated environment (like a parking lot), (3) bootstrapping labels for the object dataset, and (4) generating samples by placing objects at arbitrary locations in backgrounds. To demonstrate the utility of Paved2Paradise, we generated synthetic datasets for two tasks: (1) human detection in orchards (a task for which no public data exists) and (2) pedestrian detection in urban environments. Qualitatively, we find that a model trained exclusively on Paved2Paradise synthetic data is highly effective at detecting humans in orchards, including when individuals are heavily occluded by tree branches. Quantitatively, a model trained on Paved2Paradise data that sources backgrounds from KITTI performs comparably to a model trained on the actual dataset. These results suggest the Paved2Paradise synthetic data pipeline can help accelerate point cloud model development in sectors where acquiring lidar datasets has previously been cost-prohibitive.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-12
# 図示命令の生成

Generating Illustrated Instructions ( http://arxiv.org/abs/2312.04552v2 )

ライセンス: Link先を確認
Sachit Menon, Ishan Misra, Rohit Girdhar, (参考訳) ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。 我々は,この課題に特有のデシラタを同定し,その妥当性,一貫性,有効性を測定するために設計された,自動的および人為的評価指標を用いて定式化する。 大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで、StackedDiffusionと呼ばれる単純なアプローチを提案する。 その結果、ベースラインアプローチや最先端のマルチモーダルLCMよりも優れており、30%のケースでは、ユーザはそれを人為的な記事よりも好んでいる。 中でも注目すべきは、Web上の静的な記事が提供できる範囲を超えて、さまざまな新しいエキサイティングなアプリケーションを可能にすることだ。

We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user's needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user's individual situation.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-12
# ScribblePrompt:どんなバイオメディカル画像でも高速でフレキシブルなインタラクティブセグメンテーション

ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image ( http://arxiv.org/abs/2312.07381v2 )

ライセンス: Link先を確認
Hallee E. Wong, Marianne Rakic, John Guttag, Adrian V. Dalca, (参考訳) バイオメディカルイメージセグメンテーションは、科学研究と臨床医療の両方において重要な部分である。 十分なラベル付きデータによって、ディープラーニングモデルは、特定のバイオメディカルイメージセグメンテーションタスクを正確に自動化するように訓練することができる。 しかし、トレーニングデータを作成するために手動で画像のセグメンテーションを行うのは、非常に労力がかかり、ドメインの専門知識を必要とする。 ScribblePromptは、フレキシブルニューラルネットワークによるバイオメディカルイメージングのためのインタラクティブセグメンテーションツールで、人間のアノテータは、スクリブル、クリック、バウンディングボックスを使用して、これまで見られなかった構造をセグメント化することができる。 厳密な定量的実験により、ScribblePromptはトレーニング中に見つからないデータセットの従来の方法よりも正確なセグメンテーションを生成することを示した。 ドメインの専門家によるユーザスタディでは、ScribblePromptはアノテーションの時間を28%削減し、Diceを15%改善した。 ScribblePromptの成功は、注意深い設計決定にかかっている。 これには、非常に多様なイメージとタスクのセット、ユーザインタラクションとラベルをシミュレートする新しいアルゴリズム、高速な推論を可能にするネットワークを含むトレーニング戦略が含まれる。 ScribblePromptをオンラインデモで紹介し、https://scribbleprompt.csail.mit.eduでコードを公開しています。

Biomedical image segmentation is a crucial part of both scientific research and clinical care. With enough labelled data, deep learning models can be trained to accurately automate specific biomedical image segmentation tasks. However, manually segmenting images to create training data is highly labor intensive and requires domain expertise. We present ScribblePrompt, a flexible neural network based interactive segmentation tool for biomedical imaging that enables human annotators to segment previously unseen structures using scribbles, clicks, and bounding boxes. Through rigorous quantitative experiments, we demonstrate that given comparable amounts of interaction, ScribblePrompt produces more accurate segmentations than previous methods on datasets unseen during training. In a user study with domain experts, ScribblePrompt reduced annotation time by 28% while improving Dice by 15% compared to the next best method. ScribblePrompt's success rests on a set of careful design decisions. These include a training strategy that incorporates both a highly diverse set of images and tasks, novel algorithms for simulated user interactions and labels, and a network that enables fast inference. We showcase ScribblePrompt in an online demo and provide code at https://scribbleprompt.csail.mit.edu
翻訳日:2024-04-16 22:57:53 公開日:2024-04-12
# 確率環境下での深部RL性能の効果的説明

The Effective Horizon Explains Deep RL Performance in Stochastic Environments ( http://arxiv.org/abs/2312.08369v2 )

ライセンス: Link先を確認
Cassidy Laidlaw, Banghua Zhu, Stuart Russell, Anca Dragan, (参考訳) 強化学習(Reinforcement Learning, RL)理論は主にミニマックスサンプルの複雑性境界の証明に重点を置いている。 これらは、ポリシーや値関数を表現するために比較的限られた関数クラスを使用する戦略的探索アルゴリズムを必要とする。 我々のゴールは、なぜディープRLアルゴリズムがランダムな探索やニューラルネットワークのようなより表現力のある関数クラスを使用しながら、実際によく機能するのかを説明することである。 我々の研究は、ランダムポリシーのQ関数上で数ステップの値反復を実行するだけで、多くの確率的 MDP が解けることを示すことによって、説明にたどり着く。 これが本当であれば、RLの探索と学習のコンポーネントを分離することができ、分析がより簡単になる。 本稿では,RLアルゴリズムであるSQIRLを導入し,ランダムに探索してロールアウトを収集し,それらのロールアウトに対して適応Qイテレーションの限られたステップを実行することで,ほぼ最適ポリシーを反復的に学習する。 基本的な分布内一般化特性を満たす回帰アルゴリズムは、SQIRL で一般的な MDP を効率的に解くことができる。 これはディープRLがなぜ機能するのかを説明できる。なぜならニューラルネットワークが分布においてよく一般化されることが実証的に確立されているからである。 さらに、SQIRLはなぜランダム探索が実際にうまく機能するのかを説明している。 我々はSQIRLを利用して、ルックアヘッドの「効果的な地平線」にのみ指数関数的なRLのインスタンス依存的なサンプル複雑性境界と、関数近似に使用されるクラスの複雑性を導出する。 また,SQIRLの性能は様々な確率環境におけるPPOおよびDQN性能と強く相関し,我々の理論解析が実用性能の予測可能であることも実証的に確認した。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/ Effective-horizon.comで公開されています。

Reinforcement learning (RL) theory has largely focused on proving minimax sample complexity bounds. These require strategic exploration algorithms that use relatively limited function classes for representing the policy or value function. Our goal is to explain why deep RL algorithms often perform well in practice, despite using random exploration and much more expressive function classes like neural networks. Our work arrives at an explanation by showing that many stochastic MDPs can be solved by performing only a few steps of value iteration on the random policy's Q function and then acting greedily. When this is true, we find that it is possible to separate the exploration and learning components of RL, making it much easier to analyze. We introduce a new RL algorithm, SQIRL, that iteratively learns a near-optimal policy by exploring randomly to collect rollouts and then performing a limited number of steps of fitted-Q iteration over those rollouts. Any regression algorithm that satisfies basic in-distribution generalization properties can be used in SQIRL to efficiently solve common MDPs. This can explain why deep RL works, since it is empirically established that neural networks generalize well in-distribution. Furthermore, SQIRL explains why random exploration works well in practice. We leverage SQIRL to derive instance-dependent sample complexity bounds for RL that are exponential only in an "effective horizon" of lookahead and on the complexity of the class used for function approximation. Empirically, we also find that SQIRL performance strongly correlates with PPO and DQN performance in a variety of stochastic environments, supporting that our theoretical analysis is predictive of practical performance. Our code and data are available at https://github.com/cassidylaidlaw/effective-horizon.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-12
# 農家意思決定支援システムのためのディープニューラルネットワークを用いたトウモロコシ収量予測モデル

Corn Yield Prediction Model with Deep Neural Networks for Smallholder Farmer Decision Support System ( http://arxiv.org/abs/2401.03768v2 )

ライセンス: Link先を確認
Chollette Olisah, Lyndon Smith, Melvyn Smith, Lawrence Morolake, Osi Ojukwu, (参考訳) 作物の収量予測は、気象変数と土壌変数の相互作用がないという仮定に基づいてモデル化されている。 しかし,本論文では相互作用の存在を論じ,Kendall相関係数を用いて微細にモデル化することができる。 気象と土壌変数の相互作用の非線形性を考慮すると、ディープニューラルネットワーク回帰器(DNNR)は、深さ、隠れた層のニューロン数、最適化されたハイパーパラメータを考慮して慎重に設計される。 さらに、根平均二乗誤差(RMSE)と平均絶対二乗誤差(MAE)の強さを組み合わせるために、絶対二乗誤差(ARSE)の平均が提案される。 ARSE測定では, 提案したDNNR, 最適化ランダム森林回帰器 (RFR) および極勾配増進回帰器 (XGBR) は, それぞれ, 0.0172 t/ha, 0.0243 t/ha, 0.0001 t/ha, 0.001 t/haの極めて小さな収率誤差を達成した。 しかし、DNNR(s)は、予期せぬデータに対する一般化性を確保するために説明変数を変更し、DNNR(s)が最善を尽くした。 さらなる分析により、気象と土壌の変数の間に強い相互作用が存在することが明らかになった。 正確には、降水量が減少し、シルトが増加すると収量が増加し、逆転する。 しかし、この論文では減少または増大の程度は定量化されていない。 農業政策やグローバルな食料安全保障を目標とする既存の収量モデルとは対照的に、提案したトウモロコシ収量モデルの目的は、小規模農家が賢く知的に養殖できるようにすることであり、この予測モデルは教育を含むモバイルアプリケーションとファーマー・ツー・マーケット・アクセス・モジュールに統合される。

Crop yield prediction has been modeled on the assumption that there is no interaction between weather and soil variables. However, this paper argues that an interaction exists, and it can be finely modelled using the Kendall Correlation coefficient. Given the nonlinearity of the interaction between weather and soil variables, a deep neural network regressor (DNNR) is carefully designed with consideration to the depth, number of neurons of the hidden layers, and the hyperparameters with their optimizations. Additionally, a new metric, the average of absolute root squared error (ARSE) is proposed to combine the strengths of root mean square error (RMSE) and mean absolute error (MAE). With the ARSE metric, the proposed DNNR(s), optimised random forest regressor (RFR) and the extreme gradient boosting regressor (XGBR) achieved impressively small yield errors, 0.0172 t/ha, and 0.0243 t/ha, 0.0001 t/ha, and 0.001 t/ha, respectively. However, the DNNR(s), with changes to the explanatory variables to ensure generalizability to unforeseen data, DNNR(s) performed best. Further analysis reveals that a strong interaction does exist between weather and soil variables. Precisely, yield is observed to increase when precipitation is reduced and silt increased, and vice-versa. However, the degree of decrease or increase is not quantified in this paper. Contrary to existing yield models targeted towards agricultural policies and global food security, the goal of the proposed corn yield model is to empower the smallholder farmer to farm smartly and intelligently, thus the prediction model is integrated into a mobile application that includes education, and a farmer-to-market access module.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-12
# CTによる体組成分析における筋と脂肪分画の増強 : 比較検討

Enhanced Muscle and Fat Segmentation for CT-Based Body Composition Analysis: A Comparative Study ( http://arxiv.org/abs/2401.05294v2 )

ライセンス: Link先を確認
Benjamin Hou, Tejas Sudharshan Mathai, Jianfei Liu, Christopher Parnell, Ronald M. Summers, (参考訳) 目的: 腹部CTによる体組成測定は, 無症候性, 疾患患者に対してパーソナライズされたリスク評価を与えることができる。 特に、筋肉と脂肪の減衰と体積測定は、心血管イベント、骨折、死亡などの重要な臨床結果と関連している。 本研究は, 筋・脂肪(皮下・内臓)の分画のための内装具の信頼性を, 確立されたTtalSegmentatorツールと比較して評価した。 方法: SAROSデータセットより, 筋, 皮下脂肪, 内臓脂肪に着目し, 900CTシリーズのツールについて検討した。 皮下脂肪分画と筋分画の精度を評価するためにDiceスコアを用いた。 内臓脂肪に対する基底的真理セグメンテーションの欠如により、コーエンのカッパは道具間のセグメンテーション合意を評価するために使用された。 結果: 内装具は皮下脂肪では3%高Dice (83.8 vs. 80.8) , 筋分節では5%改善 (87.6 vs. 83.2) を得た。 Wilcoxon sign-rank testでは,p<0.01。 内臓脂肪では, コーエンのカッパスコア0.856は両者のほぼ完全な一致を示した。 内装具は筋量 (R^2=0.99), 筋量 (R^2=0.93), 皮下脂肪量 (R^2=0.99), 皮下脂肪量 (R^2=0.45) に極めて強い相関関係を示した。 結語: 内用具は皮下脂肪および筋肉の測定においてTotalSegmentatorより優れていた。 内臓脂肪に対するコーエンのカッパスコアは、この2つのツール間の信頼性の高い一致を示している。 これらの結果は, 身体組成分析の精度向上におけるツールの可能性を示すものである。

Purpose: Body composition measurements from routine abdominal CT can yield personalized risk assessments for asymptomatic and diseased patients. In particular, attenuation and volume measures of muscle and fat are associated with important clinical outcomes, such as cardiovascular events, fractures, and death. This study evaluates the reliability of an Internal tool for the segmentation of muscle and fat (subcutaneous and visceral) as compared to the well-established public TotalSegmentator tool. Methods: We assessed the tools across 900 CT series from the publicly available SAROS dataset, focusing on muscle, subcutaneous fat, and visceral fat. The Dice score was employed to assess accuracy in subcutaneous fat and muscle segmentation. Due to the lack of ground truth segmentations for visceral fat, Cohen's Kappa was utilized to assess segmentation agreement between the tools. Results: Our Internal tool achieved a 3% higher Dice (83.8 vs. 80.8) for subcutaneous fat and a 5% improvement (87.6 vs. 83.2) for muscle segmentation respectively. A Wilcoxon signed-rank test revealed that our results were statistically different with p<0.01. For visceral fat, the Cohen's kappa score of 0.856 indicated near-perfect agreement between the two tools. Our internal tool also showed very strong correlations for muscle volume (R^2=0.99), muscle attenuation (R^2=0.93), and subcutaneous fat volume (R^2=0.99) with a moderate correlation for subcutaneous fat attenuation (R^2=0.45). Conclusion: Our findings indicated that our Internal tool outperformed TotalSegmentator in measuring subcutaneous fat and muscle. The high Cohen's Kappa score for visceral fat suggests a reliable level of agreement between the two tools. These results demonstrate the potential of our tool in advancing the accuracy of body composition analysis.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-12
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v6 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Taku Komura, Xiaoming Yuan, Wenping Wang, (参考訳) ここでは3次元形状スケルトン化の新しい,効率的なアプローチであるCoverage Axis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するため、Coverage Axis++は、様々な形状表現の計算強度を著しく軽減しつつ、Medial Axis Transform (MAT)の高精度な近似を提供する、骨格点を選択するヒューリスティックアルゴリズムを提案する。 骨格点を導出するために, 形状被覆, 均一性, 中央性を考慮した簡易かつ効果的な戦略を導入する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からは、コンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点の数の指定、ハイパーパラメータの少ない、再構築精度の向上による高効率な計算を可能にした。 広範囲な3D形状にわたる大規模な実験は、Coverage Axis++の有効性と有効性を検証する。 コードが公開されたら、コードは公開されます。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers shape coverage, uniformity, and centrality to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-12
# MixedNUTS:非線形混合分類器による学習不要の精度・ロバスト性バランス

MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers ( http://arxiv.org/abs/2402.02263v3 )

ライセンス: Link先を確認
Yatong Bai, Mo Zhou, Vishal M. Patel, Somayeh Sojoudi, (参考訳) 逆のロバスト性は、しばしば劣化した精度の犠牲を伴い、ロバスト分類モデルの現実の応用を妨げる。 より良いトレードオフのためのトレーニングベースのソリューションは、すでに訓練済みの高性能な大規模モデルとの非互換性によって制限されており、訓練不要のアンサンブルアプローチの探索が必要である。 頑健なモデルが、清潔で敵対的なデータ上の誤ったモデルよりも正確な予測に自信があることを観察し、この「良質な信頼性特性」を増幅することで、アンサンブル設定における精度と頑健さを再現できると推測する。 そこで本研究では,ロバスト分類器と標準非ロバスト分類器の出力ロジットを3つのパラメータのみを効率よく最適化した非線形変換で処理する「MixedNUTS」を提案する。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの大幅な精度向上とほぼSOTAロバスト性を示すカスタムの強力なアダプティブアタックによる実験結果が示されており、CIFAR-100のクリーン精度を7.86ポイント向上させ、ロバストな精度でわずか0.87ポイントを犠牲にしている。

Adversarial robustness often comes at the cost of degraded accuracy, impeding the real-life application of robust classification models. Training-based solutions for better trade-offs are limited by incompatibilities with already-trained high-performance large models, necessitating the exploration of training-free ensemble approaches. Observing that robust models are more confident in correct predictions than in incorrect ones on clean and adversarial data alike, we speculate amplifying this "benign confidence property" can reconcile accuracy and robustness in an ensemble setting. To achieve so, we propose "MixedNUTS", a training-free method where the output logits of a robust classifier and a standard non-robust classifier are processed by nonlinear transformations with only three parameters, which are optimized through an efficient algorithm. MixedNUTS then converts the transformed logits into probabilities and mixes them as the overall output. On CIFAR-10, CIFAR-100, and ImageNet datasets, experimental results with custom strong adaptive attacks demonstrate MixedNUTS's vastly improved accuracy and near-SOTA robustness -- it boosts CIFAR-100 clean accuracy by 7.86 points, sacrificing merely 0.87 points in robust accuracy.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-12
# OpenTab: 大規模言語モデルをオープンドメインテーブル推論として拡張する

OpenTab: Advancing Large Language Models as Open-domain Table Reasoners ( http://arxiv.org/abs/2402.14361v2 )

ライセンス: Link先を確認
Kezhi Kong, Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Chuan Lei, Christos Faloutsos, Huzefa Rangwala, George Karypis, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて大量のデータを訓練するが、これまで訓練されていない知識を必要とするタスクは処理できない。 1つの解決策は、LLMの知識範囲を拡張するために関連する情報を取得するレトリバーを使用することである。 しかし、既存のテキスト指向検索に基づくLCMは、多彩なデータモダリティと大きなテーブルサイズのため、構造化テーブルデータに理想的ではない。 本研究では,LLMを利用したオープンドメインテーブル推論フレームワークOpenTabを提案する。 全体として、OpenTabはテーブルレトリバーを利用して関連するテーブルをフェッチし、取得したテーブルを効率的に解析するSQLプログラムを生成する。 SQLの実行から派生した中間データを利用することで、グラウンドド推論を行い、正確な応答を生成する。 大規模な実験的評価により、OpenTabはオープンドメインとクローズドドメインの両方でベースラインを大幅に上回り、最大21.5%の精度を実現している。 さらに,提案システムの設計の有効性を検証するためのアブレーション研究を実施している。

Large Language Models (LLMs) trained on large volumes of data excel at various natural language tasks, but they cannot handle tasks requiring knowledge that has not been trained on previously. One solution is to use a retriever that fetches relevant information to expand LLM's knowledge scope. However, existing textual-oriented retrieval-based LLMs are not ideal on structured table data due to diversified data modalities and large table sizes. In this work, we propose OpenTab, an open-domain table reasoning framework powered by LLMs. Overall, OpenTab leverages table retriever to fetch relevant tables and then generates SQL programs to parse the retrieved tables efficiently. Utilizing the intermediate data derived from the SQL executions, it conducts grounded inference to produce accurate response. Extensive experimental evaluation shows that OpenTab significantly outperforms baselines in both open- and closed-domain settings, achieving up to 21.5% higher accuracy. We further run ablation studies to validate the efficacy of our proposed designs of the system.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-12
# PEEB: 説明可能な編集可能な言語ボトルネックを持つ部分ベース画像分類器

PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck ( http://arxiv.org/abs/2403.05297v3 )

ライセンス: Link先を確認
Thang M. Pham, Peijie Chen, Tin Nguyen, Seunghyun Yoon, Trung Bui, Anh Totti Nguyen, (参考訳) CLIPベースの分類器は、テキストエンコーダで知られている {class name} を含むプロンプトに依存している。 そのため、インターネット上にはほとんど登場しない新しいクラス(例えば、鳥の学名など)では、パフォーマンスが良くない。 細かな分類のために,PEEB は(1) クラス名をそのクラスの視覚的部分を記述したテキスト記述子に表現し,(2) 検出された部分の埋め込みを各クラス内のテキスト記述子にマッチさせ,分類のためのロジットスコアを計算する。 クラス名が不明なゼロショット設定では、PEEBはCLIPを大きなマージン(トップ1の精度で約10倍)で上回る。 PEEBは、パートベースの分類器と比較して、教師付き学習環境(CUB-200とDogs-120でそれぞれ88.80%と92.20%の精度)における最先端(SOTA)であるだけでなく、ユーザーが再訓練せずにテキスト記述器を編集できるようにする最初の方法でもある。 概念ボトルネックモデルと比較すると、PEEBはゼロショットと教師あり学習設定の両方においてSOTAでもある。

CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. Therefore, they perform poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB - an explainable and editable classifier to (1) express the class name into a set of text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a huge margin (~10x in top-1 accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art (SOTA) on the supervised-learning setting (88.80% and 92.20% accuracy on CUB-200 and Dogs-120, respectively) but also the first to enable users to edit the text descriptors to form a new classifier without any re-training. Compared to concept bottleneck models, PEEB is also the SOTA in both zero-shot and supervised-learning settings.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-12
# 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル

General surgery vision transformer: A video pre-trained foundation model for general surgery ( http://arxiv.org/abs/2403.05949v3 )

ライセンス: Link先を確認
Samuel Schmidgall, Ji Woong Kim, Jeffrey Jopling, Axel Krieger, (参考訳) オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。 これに向けて。 (i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。 (II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。 (iii)プロシージャ固有の細調整されたGSViTのコードと重みを10のプロシージャでリリースする。 (4) Cholec80相アノテーションタスクにおけるGSViTの性能を実証し、最先端の単一フレーム予測器よりも優れた性能を示す。

The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of general surgery videos to-date, consisting of 680 hours of surgical videos, including data from robotic and laparoscopic techniques across 28 procedures; (ii) we propose a technique for video pre-training a general surgery vision transformer (GSViT) on surgical videos based on forward video prediction that can run in real-time for surgical applications, toward which we open-source the code and weights of GSViT; (iii) we also release code and weights for procedure-specific fine-tuned versions of GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the Cholec80 phase annotation task, displaying improved performance over state-of-the-art single frame predictors.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-12
# ノルム空間における確率的ハルパーン反復と強化学習への応用

Stochastic Halpern iteration in normed spaces and applications to reinforcement learning ( http://arxiv.org/abs/2403.12338v2 )

ライセンス: Link先を確認
Mario Bravo, Juan Pablo Contreras, (参考訳) 確率的ハルパーン反復のオラクル複雑性を分散還元を用いて解析し、ノルム有限次元空間における非拡張的および収縮的作用素の固定点を近似することを目指す。 基礎となる確率的オラクルが一様有界分散を持つ場合、我々の手法は全体のオラクルの複雑さを$\tilde{O}(\varepsilon^{-5})$で表し、確率的クラスノセルスキイ・マンの反復に対して確立された最近の速度を改善する。 また、小バッチであっても全ての平均反復を含む幅広いアルゴリズムに適用可能な、$\Omega(\varepsilon^{-3})$の低い境界を確立する。 我々のアプローチの適切な修正を用いて、作用素が$\gamma$-contractionである場合、$O(\varepsilon^{-2}(1-\gamma)^{-3})$複雑性を導出する。 アプリケーションとして、平均報酬と割引報酬を決定するための新しい同期アルゴリズムを提案する。 特に、平均的な報酬に対して、本手法は最もよく知られたサンプルの複雑さを改善する。

We analyze the oracle complexity of the stochastic Halpern iteration with variance reduction, where we aim to approximate fixed-points of nonexpansive and contractive operators in a normed finite-dimensional space. We show that if the underlying stochastic oracle is with uniformly bounded variance, our method exhibits an overall oracle complexity of $\tilde{O}(\varepsilon^{-5})$, improving recent rates established for the stochastic Krasnoselskii-Mann iteration. Also, we establish a lower bound of $\Omega(\varepsilon^{-3})$, which applies to a wide range of algorithms, including all averaged iterations even with minibatching. Using a suitable modification of our approach, we derive a $O(\varepsilon^{-2}(1-\gamma)^{-3})$ complexity bound in the case in which the operator is a $\gamma$-contraction. As an application, we propose new synchronous algorithms for average reward and discounted reward Markov decision processes. In particular, for the average reward, our method improves on the best-known sample complexity.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-12
# サブスペース制約されたタイラー推定器の理論的保証

Theoretical Guarantees for the Subspace-Constrained Tyler's Estimator ( http://arxiv.org/abs/2403.18658v2 )

ライセンス: Link先を確認
Gilad Lerman, Feng Yu, Teng Zhang, (参考訳) この研究は、データセット内の低次元部分空間の復元のために設計されたサブスペース制約されたタイラー推定器(STE)を分析する。 弱い不リエ・アウトリアモデルを想定し、不リエの分数は、頑健な部分空間回復問題の計算硬度に繋がる分数よりも小さくすることができる。 この設定では、反復アルゴリズムであるSTEの初期化が特定の条件を満たすならば、STEは基礎となる部分空間を効果的に回復することができる。 さらに、一般化された干し草モデルの下では、TylerのM-estimator (TME) によって初期化されたSTEが、TMEが扱えるほど小さすぎる場合、サブスペースを復元できることが示される。

This work analyzes the subspace-constrained Tyler's estimator (STE) designed for recovering a low-dimensional subspace within a dataset that may be highly corrupted with outliers. It assumes a weak inlier-outlier model and allows the fraction of inliers to be smaller than a fraction that leads to computational hardness of the robust subspace recovery problem. It shows that in this setting, if the initialization of STE, which is an iterative algorithm, satisfies a certain condition, then STE can effectively recover the underlying subspace. It further shows that under the generalized haystack model, STE initialized by the Tyler's M-estimator (TME), can recover the subspace when the fraction of iniliers is too small for TME to handle.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-12
# 組込み型計算機システムにおけるAIによる効果的なマルウェア検出

Generative AI-Based Effective Malware Detection for Embedded Computing Systems ( http://arxiv.org/abs/2404.02344v2 )

ライセンス: Link先を確認
Sreenitha Kasarapu, Sanket Shukla, Rakibul Hassan, Avesta Sasan, Houman Homayoun, Sai Manoj Pudukotai Dinakarrao, (参考訳) 組み込みコンピューティングシステムにとって重要なセキュリティ上の脅威の1つは、悪意のあるソフトウェア、すなわちマルウェアである。 近年,機械学習(ML)がマルウェア検出に広く採用されている。 効率的であるにもかかわらず、既存のテクニックでは、効率的なマルウェア検知器を訓練し、モデル化するために、膨大な数の良心とマルウェアサンプルが必要である。 さらに、このような制約は、効率的なトレーニングに必要な十分なマルウェアサンプルが不足しているため、出現するマルウェアサンプルの検出を制限する。 このような問題に対処するため,我々は,限定的なマルウェアの複数の変異サンプルを生成するコード認識データ生成手法を導入する。 損失最小化は、生成したサンプルが限られたマルウェアを忠実に模倣し、非現実的なサンプルを緩和することを保証する。 このようなマルウェアをトレーニングセットに組み込んで、露出が限られているにもかかわらず、出現するマルウェアを効率的に検出できるモデルを定式化する。 実験により,本手法は,最先端技術により得られた精度よりも約3倍の精度で,限定的なマルウェアの検出において90%の精度が得られることが示された。

One of the pivotal security threats for the embedded computing systems is malicious software a.k.a malware. With efficiency and efficacy, Machine Learning (ML) has been widely adopted for malware detection in recent times. Despite being efficient, the existing techniques require a tremendous number of benign and malware samples for training and modeling an efficient malware detector. Furthermore, such constraints limit the detection of emerging malware samples due to the lack of sufficient malware samples required for efficient training. To address such concerns, we introduce a code-aware data generation technique that generates multiple mutated samples of the limitedly seen malware by the devices. Loss minimization ensures that the generated samples closely mimic the limitedly seen malware and mitigate the impractical samples. Such developed malware is further incorporated into the training set to formulate the model that can efficiently detect the emerging malware despite having limited exposure. The experimental results demonstrates that the proposed technique achieves an accuracy of 90% in detecting limitedly seen malware, which is approximately 3x more than the accuracy attained by state-of-the-art techniques.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-12
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ

Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v2 )

ライセンス: Link先を確認
Juan C. Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。 特に興味深いのは、豊富な地熱資源を持つコロンビアである。 活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。 残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。 間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。 計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。 我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。 グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。 我々は,本モデルの予測精度が 12 % 以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。 最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。

Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12\% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-12
# オープンソースソフトウェア開発における民間資金モデル--Scikit-Lernを事例として

Public-private funding models in open source software development: A case study on scikit-learn ( http://arxiv.org/abs/2404.06484v3 )

ライセンス: Link先を確認
Cailean Osborne, (参考訳) 政府は、ソフトウェアセキュリティ、デジタル主権、科学とイノベーションにおける国家的競争性に関する懸念に対処するために、オープンソースソフトウェア(OSS)開発にますます資金を提供しています。 政府資金の発表は一般的にOSS開発者によって好意的に受け入れられていますが、そのような資金の相対的なメリットや欠点を他のタイプの資金調達と比べて評価する方法については、まだ限定的な理解が得られています。 本稿では、研究助成金、商業スポンサーシップ、コミュニティ寄付、フランスの人工知能戦略からの2200万ユーロの助成金を組み合わせた機械学習のためのPythonライブラリであるScikit-learnのケーススタディを通して、この問題を探求する。 本研究は,シキット・ラーンのメンテナと資金提供者に対する25回のインタビューを通じて,研究と実践に2つの重要な貢献をしている。 まず,OSSプロジェクトにおける公的資金モデルの設計と実装に関する新たな知見を提示する。 公的、民間の資金提供者がシキット・ラーンを支援するために果たした役割や、メンテナーが資金提供者の多様な利益のバランスをとり、コミュニティの利益を守るために採用したプロセスとガバナンスの仕組みに光を当てている。 第2に、実用的な推奨事項を提供する。 OSS開発者コミュニティにとって、さまざまな資金源のメリットと欠点のバランスと、単一資金源への依存を軽減するための、多彩な資金モデルのメリットが示されています。 企業にとって、開発者やOSSプロジェクトのスポンサーとなることは、限られたリソースや有望なワークロードに苦労するメンテナにとって、大きな助けになる、というリマインダとして機能する。 政府にとって、新しいソフトウェアや機能の開発への資金提供に加えて、既存のOSSのメンテナンスに資金を投入することの重要性を強調している。 論文は今後の研究への提言で締めくくっている。

Governments are increasingly funding open source software (OSS) development to address concerns regarding software security, digital sovereignty, and national competitiveness in science and innovation. While announcements of governmental funding are generally well-received by OSS developers, we still have a limited understanding of how they evaluate the relative benefits and drawbacks of such funding compared to other types of funding. This paper explores this question through a case study on scikit-learn, a Python library for machine learning, whose funding combines research grants, commercial sponsorship, community donations, and a 32 million Euro grant from France's artificial intelligence strategy. Through 25 interviews with scikit-learn's maintainers and funders, this study makes two key contributions to research and practice. First, the study contributes novel findings about the design and implementation of a public-private funding model in an OSS project. It sheds light on the respective roles that public and private funders have played in supporting scikit-learn, and the processes and governance mechanisms employed by the maintainers to balance their funders' diverse interests and to safeguard community interests. Second, it offers practical recommendations. For OSS developer communities, it illustrates the benefits of a diversified funding model for balancing the merits and drawbacks of different funding sources and mitigating dependence on single funders. For companies, it serves as a reminder that sponsoring developers or OSS projects can significantly help maintainers, who often struggle with limited resources and towering workloads. For governments, it emphasises the importance of funding the maintenance of existing OSS in addition to funding the development of new software or features. The paper concludes with suggestions for future research.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-12
# ビジョンランゲージモデルのフロンティアを探る:現状と今後の方向性

Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions ( http://arxiv.org/abs/2404.07214v2 )

ライセンス: Link先を確認
Akash Ghosh, Arkadeep Acharya, Sriparna Saha, Vinija Jain, Aman Chadha, (参考訳) 大規模言語モデル(LLM)の出現は、AI革命の軌跡を大きく変えた。 しかしながら、これらのLSMは、主にテキスト情報の処理に長けているため、顕著な限界を示す。 この制約に対処するために、研究者は視覚能力をLLMと統合しようと努力し、視覚言語モデル(VLM)が出現した。 これらの高度なモデルは、画像キャプションや視覚的質問応答といった、より複雑なタスクに対処するのに役立ちます。 総合的な調査論文では、VLMの領域における重要な進歩を掘り下げる。 本分類は,VLMを視覚言語理解に特化したモデル,マルチモーダルな入力と出力を受入・生成するモデル,多モーダルな入力と出力を同時に生成するモデルという3つのカテゴリに分類する。 また、様々なベンチマークデータセットにおけるVLMの性能についても分析した。 そこで我々は,VLMの多様な景観について,微妙な理解を提供することを目標としている。 さらに、このダイナミック領域における今後の研究の可能性を強調し、さらなるブレークスルーと進歩を期待する。

The advent of Large Language Models (LLMs) has significantly reshaped the trajectory of the AI revolution. Nevertheless, these LLMs exhibit a notable limitation, as they are primarily adept at processing textual information. To address this constraint, researchers have endeavored to integrate visual capabilities with LLMs, resulting in the emergence of Vision-Language Models (VLMs). These advanced models are instrumental in tackling more intricate tasks such as image captioning and visual question answering. In our comprehensive survey paper, we delve into the key advancements within the realm of VLMs. Our classification organizes VLMs into three distinct categories: models dedicated to vision-language understanding, models that process multimodal inputs to generate unimodal (textual) outputs and models that both accept and produce multimodal inputs and outputs.This classification is based on their respective capabilities and functionalities in processing and generating various modalities of data.We meticulously dissect each model, offering an extensive analysis of its foundational architecture, training data sources, as well as its strengths and limitations wherever possible, providing readers with a comprehensive understanding of its essential components. We also analyzed the performance of VLMs in various benchmark datasets. By doing so, we aim to offer a nuanced understanding of the diverse landscape of VLMs. Additionally, we underscore potential avenues for future research in this dynamic domain, anticipating further breakthroughs and advancements.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-12
# Conformer-1:大規模半教師付きブートストラッピングによるロバストASR

Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping ( http://arxiv.org/abs/2404.07341v2 )

ライセンス: Link先を確認
Kevin Zhang, Luka Chkhetiani, Francis McCann Ramirez, Yash Khare, Andrea Vanzo, Michael Liang, Sergio Ramirez Martin, Gabriel Oexle, Ruben Bousbib, Taufiquzzaman Peyash, Michael Nguyen, Dillon Pulliam, Domenic Donato, (参考訳) 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルであるConformer-1について述べる。 そこで我々は,強力なコンフォーマーRNN-Tベースラインモデルを用いて,ラベルのない公開データに対して擬似ラベルを生成して,ノイズのある学生訓練を行う。 これらの擬似ラベル付きデータを追加することで、我々の非同期モデルとリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%向上し、24.3%向上した。 さらに、これらのデータの追加により、モデルはバックグラウンドノイズに対してより堅牢である。 本研究では, 疑似ラベル付き公開データの導入が, ASRの精度と雑音の頑健性を向上させる上で, 極めて効果的な戦略であることを実証した。

This paper presents Conformer-1, an end-to-end Automatic Speech Recognition (ASR) model trained on an extensive dataset of 570k hours of speech audio data, 91% of which was acquired from publicly available sources. To achieve this, we perform Noisy Student Training after generating pseudo-labels for the unlabeled public data using a strong Conformer RNN-T baseline model. The addition of these pseudo-labeled data results in remarkable improvements in relative Word Error Rate (WER) by 11.5% and 24.3% for our asynchronous and realtime models, respectively. Additionally, the model is more robust to background noise owing to the addition of these data. The results obtained in this study demonstrate that the incorporation of pseudo-labeled publicly available data is a highly effective strategy for improving ASR accuracy and noise robustness.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-12
# BISCUIT:計算ノートにおける一時UIによるLLM生成コードの共有

BISCUIT: Scaffolding LLM-Generated Code with Ephemeral UIs in Computational Notebooks ( http://arxiv.org/abs/2404.07387v2 )

ライセンス: Link先を確認
Ruijia Cheng, Titus Barik, Alan Leung, Fred Hohman, Jeffrey Nichols, (参考訳) 初心者はしばしば計算ノートブックの機械学習チュートリアルに携わり、大規模言語モデル(LLM)に基づいたコード生成技術を採用してきた。 しかし、LLMが生成したコードを理解し、操作することの難しさに直面する。 これらの課題を軽減するため,ユーザプロンプトとコード生成の中間段階としてUIベースの足場を提供するとともに,LLMベースのコード生成を短時間UIステップで強化する新しいワークフローを計算ノートに導入する。 このワークフローは、JupyterLabの拡張機能であるBISCUITで、ユーザに対して、コードと意図のコンテキストに基づいてLLMが生成した短命なUIを提供し、ユーザがLLM生成コードを理解し、ガイドし、探索するための足場を提供する。 10人の初心者が機械学習チュートリアルにBISCUITを使用していたユーザスタディを通じて、BISCUITが理解を助けるためにコードのユーザ意味表現を提供し、迅速なエンジニアリングの複雑さを低減し、ユーザが異なる変数を探索し、アイデアを反復するための遊び場を作成することを発見した。 コード生成LLMにおけるUI中心のインタラクティブパラダイムに対する我々の研究結果の意義について論じる。

Novices frequently engage with machine learning tutorials in computational notebooks and have been adopting code generation technologies based on large language models (LLMs). However, they encounter difficulties in understanding and working with code produced by LLMs. To mitigate these challenges, we introduce a novel workflow into computational notebooks that augments LLM-based code generation with an additional ephemeral UI step, offering users UI-based scaffolds as an intermediate stage between user prompts and code generation. We present this workflow in BISCUIT, an extension for JupyterLab that provides users with ephemeral UIs generated by LLMs based on the context of their code and intentions, scaffolding users to understand, guide, and explore with LLM-generated code. Through a user study where 10 novices used BISCUIT for machine learning tutorials, we discover that BISCUIT offers user semantic representation of code to aid their understanding, reduces the complexity of prompt engineering, and creates a playground for users to explore different variables and iterate on their ideas. We discuss the implications of our findings for UI-centric interactive paradigm in code generation LLMs.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-12
# 機能的メカニズムを用いた個人用ログロケーションスケール回帰

Differentially Private Log-Location-Scale Regression Using Functional Mechanism ( http://arxiv.org/abs/2404.08715v1 )

ライセンス: Link先を確認
Jiewen Sheng, Xiaolei Fang, (参考訳) 本稿では,差分プライバシをLSS回帰に組み込んだDP-LLS回帰モデルを提案する。 提案手法は,摂動パラメータ推定のためのLSS回帰関数の対数類似関数に雑音を注入することによって確立される。 提案するDP-LLSモデルが$\epsilon$-differential privacyを満足することを示す。 また,提案モデルの性能評価のためのシミュレーションとケーススタディも実施する。 その結果,DP-LLS回帰モデルの性能に影響を及ぼす要因は,予測次元,トレーニングサンプルサイズ,プライバシ予算の3つであることが示唆された。 さらに,提案したモデルの適切な性能を同時に確保し,十分なレベルのプライバシ保護を実現するためには,十分な大規模なトレーニングデータセットが必要であることが示唆された。

This article introduces differentially private log-location-scale (DP-LLS) regression models, which incorporate differential privacy into LLS regression through the functional mechanism. The proposed models are established by injecting noise into the log-likelihood function of LLS regression for perturbed parameter estimation. We will derive the sensitivities utilized to determine the magnitude of the injected noise and prove that the proposed DP-LLS models satisfy $\epsilon$-differential privacy. In addition, we will conduct simulations and case studies to evaluate the performance of the proposed models. The findings suggest that predictor dimension, training sample size, and privacy budget are three key factors impacting the performance of the proposed DP-LLS regression models. Moreover, the results indicate that a sufficiently large training dataset is needed to simultaneously ensure decent performance of the proposed models and achieve a satisfactory level of privacy protection.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 比較化を用いたモノリシックカーネルのセキュア化

Securing Monolithic Kernels using Compartmentalization ( http://arxiv.org/abs/2404.08716v1 )

ライセンス: Link先を確認
Soo Yee Lim, Sidhartha Agrawal, Xueyuan Han, David Eyers, Dan O'Keeffe, Thomas Pasquier, (参考訳) すべてのカーネル機能が単一の共有アドレス空間に存在するモノリシックオペレーティングシステムは、主要なコンピュータシステムの基盤となっている。 しかし、カーネルの非必須部分(例えばデバイスドライバ)であっても、単一の欠陥は、オペレーティングシステム全体が攻撃者の制御下にある可能性がある。 カーネル硬化技術は特定のタイプの脆弱性を防ぐかもしれないが、カーネル内のセキュリティが欠如しており、カーネルの異なる部分を安全に分離している。 カーネル内の境界を定義し,施行するカーネルの区画化技術を調査し,コミュニティが今後の作業を比較し,議論することを可能にする分類法を提案する。 また,部分的システム間の比較を複雑にする要因を特定し,今後のアプローチと既存の作業とを有意義に比較する方法を提案するとともに,新たな研究方向性について議論する。

Monolithic operating systems, where all kernel functionality resides in a single, shared address space, are the foundation of most mainstream computer systems. However, a single flaw, even in a non-essential part of the kernel (e.g., device drivers), can cause the entire operating system to fall under an attacker's control. Kernel hardening techniques might prevent certain types of vulnerabilities, but they fail to address a fundamental weakness: the lack of intra-kernel security that safely isolates different parts of the kernel. We survey kernel compartmentalization techniques that define and enforce intra-kernel boundaries and propose a taxonomy that allows the community to compare and discuss future work. We also identify factors that complicate comparisons among compartmentalized systems, suggest new ways to compare future approaches with existing work meaningfully, and discuss emerging research directions.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 動的生成モデルとしての状態空間システム

State-Space Systems as Dynamic Generative Models ( http://arxiv.org/abs/2404.08717v1 )

ライセンス: Link先を確認
Juan-Pablo Ortega, Florian Rossmannek, (参考訳) 入力と出力のプロセス間の決定論的離散時間状態空間システムによって引き起こされる依存構造を研究する確率的枠組みを提案する。 一般に十分な条件は、出力プロセスが存在し、入力プロセスが固定されたときに一意であることで定式化され、決定論的状態空間文学においてエコー状態特性と呼ばれる性質を持つ。 これらの条件を満たすと、与えられた状態空間系は、2つの列空間間の確率的依存の生成モデルとなる。 さらに、これらの条件は、出力がワッサーシュタイン計量を使用するときの入力に連続的に依存することを保証している。 存在が証明された出力過程は、特定の意味で因果関係であることが示され、純粋に決定論的状況において研究された過程を一般化する。 本研究は, 決定論的エコー状態特性が決定論的条件よりも厳密に弱い収縮条件下で満足できるという意味で, 保持すべき決定論的エコー状態特性の十分な条件の確率論的一般化を構成する。 これは、状態空間系が入力列空間と出力列空間の間に純粋に確率的依存構造を誘導できることを意味する。

A probabilistic framework to study the dependence structure induced by deterministic discrete-time state-space systems between input and output processes is introduced. General sufficient conditions are formulated under which output processes exist and are unique once an input process has been fixed, a property that in the deterministic state-space literature is known as the echo state property. When those conditions are satisfied, the given state-space system becomes a generative model for probabilistic dependences between two sequence spaces. Moreover, those conditions guarantee that the output depends continuously on the input when using the Wasserstein metric. The output processes whose existence is proved are shown to be causal in a specific sense and to generalize those studied in purely deterministic situations. The results in this paper constitute a significant stochastic generalization of sufficient conditions for the deterministic echo state property to hold, in the sense that the stochastic echo state property can be satisfied under contractivity conditions that are strictly weaker than those in deterministic situations. This means that state-space systems can induce a purely probabilistic dependence structure between input and output sequence spaces even when there is no functional relation between those two spaces.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 長大なマルチラベルテキスト分類のためのコントラスト学習の探索

Exploring Contrastive Learning for Long-Tailed Multi-Label Text Classification ( http://arxiv.org/abs/2404.08720v1 )

ライセンス: Link先を確認
Alexandre Audibert, Aurélien Gauffre, Massih-Reza Amini, (参考訳) マルチラベルテキスト分類(MLTC)における効果的な表現の学習は,NLPにおいて重要な課題である。 この課題は、ラベル間の複雑な接続と、データの広範囲にわたる長期分布という、2つの重要な要素によって形成される、タスクの本質的な複雑さから生じる。 この問題を克服するためには、教師付きコントラスト学習と古典的な教師付き損失関数の統合が考えられる。 コントラスト学習は多クラス分類において顕著な性能を示したが、マルチラベルフレームワークへの影響は十分に研究されていない。 本稿では,教師付きコントラスト学習の詳細な研究とそのMLTC文脈における表現への影響について述べる。 我々は、ロバストな表現空間を構築するために、長い尾を持つデータ分布を考えることの重要性を強調し、これは我々が認識する対照的な学習に関連する2つの重要な課題、すなわち「正の欠如」と「誘引・反発の不均衡」に効果的に対処する。 この知見に基づいて,MLTCに新たなコントラスト損失関数を導入する。 マイクロF1スコアは、他の頻繁に採用されている損失関数と一致するか、あるいは上回っているものを獲得し、3つのマルチラベルデータセットでマクロF1スコアが大幅に改善されていることを示す。

Learning an effective representation in multi-label text classification (MLTC) is a significant challenge in NLP. This challenge arises from the inherent complexity of the task, which is shaped by two key factors: the intricate connections between labels and the widespread long-tailed distribution of the data. To overcome this issue, one potential approach involves integrating supervised contrastive learning with classical supervised loss functions. Although contrastive learning has shown remarkable performance in multi-class classification, its impact in the multi-label framework has not been thoroughly investigated. In this paper, we conduct an in-depth study of supervised contrastive learning and its influence on representation in MLTC context. We emphasize the importance of considering long-tailed data distributions to build a robust representation space, which effectively addresses two critical challenges associated with contrastive learning that we identify: the "lack of positives" and the "attraction-repulsion imbalance". Building on this insight, we introduce a novel contrastive loss function for MLTC. It attains Micro-F1 scores that either match or surpass those obtained with other frequently employed loss functions, and demonstrates a significant improvement in Macro-F1 scores across three multi-label datasets.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# One-Size-Fits-Allを超えて: ユーザオブジェクトへの非現実的説明の適応

Beyond One-Size-Fits-All: Adapting Counterfactual Explanations to User Objectives ( http://arxiv.org/abs/2404.08721v1 )

ライセンス: Link先を確認
Orfeas Menis Mastromichalakis, Jason Liartis, Giorgos Stamou, (参考訳) 説明可能な人工知能(XAI)は、AIシステムの透明性と解釈可能性を高めることを目的とした研究の重要領域として登場した。 Counterfactual Explanations (CFE)は、特定の要因が異なる別のシナリオを探索することによって、機械学習アルゴリズムの意思決定プロセスに関する貴重な洞察を提供する。 XAIコミュニティでCFEの人気が高まっているにもかかわらず、既存の文献は、様々なアプリケーションやドメインにわたるユーザのさまざまなニーズや目的を見落とし、異なるユースケースに適切に対処する適切な説明が欠如している。 本稿では,ユーザの目的と対象アプリケーションに基づいて,所望の特性の変化を認識することによって,CFEの微妙な理解を提唱する。 我々は3つの主要なユーザ目標を特定し、それぞれのケースにおいてCFEの望ましい特性を探索する。 これらの違いに対処することで、ユーザのニーズを満たすより効率的で適切な説明を設計し、AIシステムとのコラボレーションを強化することを目指している。

Explainable Artificial Intelligence (XAI) has emerged as a critical area of research aimed at enhancing the transparency and interpretability of AI systems. Counterfactual Explanations (CFEs) offer valuable insights into the decision-making processes of machine learning algorithms by exploring alternative scenarios where certain factors differ. Despite the growing popularity of CFEs in the XAI community, existing literature often overlooks the diverse needs and objectives of users across different applications and domains, leading to a lack of tailored explanations that adequately address the different use cases. In this paper, we advocate for a nuanced understanding of CFEs, recognizing the variability in desired properties based on user objectives and target applications. We identify three primary user objectives and explore the desired characteristics of CFEs in each case. By addressing these differences, we aim to design more effective and tailored explanations that meet the specific needs of users, thereby enhancing collaboration with AI systems.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# VADA: ナノ孔シークエンシングのためのデータ駆動シミュレータ

VADA: a Data-Driven Simulator for Nanopore Sequencing ( http://arxiv.org/abs/2404.08722v1 )

ライセンス: Link先を確認
Jonas Niederle, Simon Koop, Marc Pagès-Gallego, Vlado Menkovski, (参考訳) ナノ孔シークエンシングは、長いDNA配列を低コストでリアルタイムに解析する機能を提供し、がんの早期検出などの新しい応用を可能にする。 ナノ孔測定の複雑な性質と地上の真理データセットを得るための高コストのため、ナノ孔シミュレータが必要である。 既存のシミュレーターは手作りのルールやパラメータに依存しており、生物学的な要因の分析を可能にする内部表現を学ばない。 代わりに,自己回帰潜在変数モデルに基づく,純粋にデータ駆動によるナノ孔のシミュレーション手法であるVADAを提案する。 我々はDNAのサブシーケンスを埋め込んで、崩壊する条件付けの課題に対処する前に条件を導入します。 我々は,潜在変数に補助的回帰器を導入し,情報的潜在表現を学習するようモデルに促す。 実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。 さらに,我々は,DNAラベルを予測可能な情報潜在表現を学習したことを示す。 我々は、DNAラベル以外の他の生物学的要因が、そのような学習された潜伏表現から抽出できる可能性があると仮定する。

Nanopore sequencing offers the ability for real-time analysis of long DNA sequences at a low cost, enabling new applications such as early detection of cancer. Due to the complex nature of nanopore measurements and the high cost of obtaining ground truth datasets, there is a need for nanopore simulators. Existing simulators rely on handcrafted rules and parameters and do not learn an internal representation that would allow for analysing underlying biological factors of interest. Instead, we propose VADA, a purely data-driven method for simulating nanopores based on an autoregressive latent variable model. We embed subsequences of DNA and introduce a conditional prior to address the challenge of a collapsing conditioning. We introduce an auxiliary regressor on the latent variable to encourage our model to learn an informative latent representation. We empirically demonstrate that our model achieves competitive simulation performance on experimental nanopore data. Moreover, we show we have learned an informative latent representation that is predictive of the DNA labels. We hypothesize that other biological factors of interest, beyond the DNA labels, can potentially be extracted from such a learned latent representation.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# レーザースペックルを用いたレプリカブル光セキュリティ素子の同定

Identification of a replicable optical security element using laser speckle ( http://arxiv.org/abs/2404.08723v1 )

ライセンス: Link先を確認
A. M. Smolovich, A. V. Frolov, L. D. Klebanov, I. D. Laktaev, A. P. Orlov, P. A. Smolovich, O. V. Butov, (参考訳) ランダムな粗緩和領域を含む光学セキュリティ素子を提案する。 これは、従来のセキュリティホログラム固有の大量複製の低コストとホログラムによって復元された波がホログラムのコピーとして書き直されるときのホログラムコピーの不可能性を組み合わせたものである。 提案した光学素子は、接触及び写真コピーから保護される。 光学素子の試料は粗面のレプリカを採取して得られた。 異なるレプリカから散乱したコヒーレント光によるスペックルパターンの相互相関を計算し,光学素子の信頼性の同定を行った。 セキュリティホログラムを具現化するための標準機器上で,提案したセキュリティ要素を大量生産できると仮定した。

An optical security element containing an area of random rough relief is proposed. It combines the low cost of mass replication inherent in traditional security holograms with the impossibility of holographic copying, when the wave restored by the hologram is rewritten as a copy of this hologram. The proposed optical element is also protected from contact and photographic copying. Laboratory samples of optical elements were obtained by taking replicas of a rough surface. Identification of the authenticity of optical elements was demonstrated by calculating the cross-correlation of speckle patterns produced by coherent light scattered off different replicas. It is assumed that the proposed security elements can be mass-produced on standard equipment for embossing security holograms.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 神経形エッジアプリケーション作成のための統合ツールボックス

An Integrated Toolbox for Creating Neuromorphic Edge Applications ( http://arxiv.org/abs/2404.08726v1 )

ライセンス: Link先を確認
Lars Niedermeier, Jeffrey L. Krichmar, (参考訳) スパイキングニューラルネットワーク(SNN)とニューロモルフィックモデルは、ディープニューラルネットワークやトランスフォーマーモデル、生成AIで一般的に使用されるアクティベーション機能よりも効率的で生物学的なリアリズムを持っている。 SNNは局所的な学習ルールを持ち、小さなデータセットで学習することができ、ニューロ変調を通じて適応することができる。 研究はそれらの利点を示しているが、特にセンサーやアクチュエータをタイムリーに処理する必要があるエッジでは、魅力的な実用的応用がまだ少ない。 この理由の1つは、SNNが本質的な特性のために理解し、構築し、運用することがずっと難しいためかもしれない。 例えば、数学的基礎は基本活性化関数ではなく微分方程式を含む。 これらの課題に対処するため,我々はCARLsim++を開発した。 それは、ニューロモルフィックなアプリケーションの高速かつ容易な作成を可能にする統合ツールボックスである。 ソフトウェア工学のバックグラウンドを持っていないがニューロモーフィックなモデルを作りたいユーザのためにグラフィカルなユーザインターフェースを提供することで、数学的内在性と低レベルのC++プログラミングをカプセル化する。 開発者はデバイスやロボットに入力や出力を簡単に設定できる。 これらは物理デバイスにデプロイする前に正確にシミュレートできる。 CARLsim++は、シミュレーションやエッジ処理のためのニューロモルフィックなアプリケーションの迅速な開発につながる可能性がある。

Spiking Neural Networks (SNNs) and neuromorphic models are more efficient and have more biological realism than the activation functions typically used in deep neural networks, transformer models and generative AI. SNNs have local learning rules, are able to learn on small data sets, and can adapt through neuromodulation. Although research has shown their advantages, there are still few compelling practical applications, especially at the edge where sensors and actuators need to be processed in a timely fashion. One reason for this might be that SNNs are much more challenging to understand, build, and operate due to their intrinsic properties. For instance, the mathematical foundation involves differential equations rather than basic activation functions. To address these challenges, we have developed CARLsim++. It is an integrated toolbox that enables fast and easy creation of neuromorphic applications. It encapsulates the mathematical intrinsics and low-level C++ programming by providing a graphical user interface for users who do not have a background in software engineering but still want to create neuromorphic models. Developers can easily configure inputs and outputs to devices and robots. These can be accurately simulated before deploying on physical devices. CARLsim++ can lead to rapid development of neuromorphic applications for simulation or edge processing.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# LLM は SQL を置き換えることができるか? クエリ LLM の資源利用と従来の関係データベースの比較

Can LLMs substitute SQL? Comparing Resource Utilization of Querying LLMs versus Traditional Relational Databases ( http://arxiv.org/abs/2404.08727v1 )

ライセンス: Link先を確認
Xiang Zhang, Khatoon Khedri, Reza Rawassizadeh, (参考訳) 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングプロセスにおいて、さまざまなタイプのタスクを自動化または置換することができる。 本研究では,リレーショナルデータベース管理システムにおける従来のSQLに対する自然言語クエリの解釈と実行におけるLLMの資源利用と精度を評価する。 Llama2 7B, Llama2 13B, Mistral, Mixtral, Optimus-7B, SUS-chat-34B, platypus-yi-34b, NeuralHermes-2.5-Mistral-7B, Starling-LM-7B-alpha を含む7~34億のパラメータの資源利用と精度を,小トランザクションデータセットを用いて実験的に検討した。 以上の結果から,LLMをデータベースクエリに使用すると(小型・量子化されたモデルであっても)かなりのエネルギーオーバーヘッドが発生し,環境に配慮しないアプローチであることが示唆された。 そのため,資源利用量が大きいため,リレーショナルデータベースを LLM に置き換えることを推奨する。

Large Language Models (LLMs) can automate or substitute different types of tasks in the software engineering process. This study evaluates the resource utilization and accuracy of LLM in interpreting and executing natural language queries against traditional SQL within relational database management systems. We empirically examine the resource utilization and accuracy of nine LLMs varying from 7 to 34 Billion parameters, including Llama2 7B, Llama2 13B, Mistral, Mixtral, Optimus-7B, SUS-chat-34B, platypus-yi-34b, NeuralHermes-2.5-Mistral-7B and Starling-LM-7B-alpha, using a small transaction dataset. Our findings indicate that using LLMs for database queries incurs significant energy overhead (even small and quantized models), making it an environmentally unfriendly approach. Therefore, we advise against replacing relational databases with LLMs due to their substantial resource utilization.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 気象モデリングに応用した量子科学機械学習の可能性

Potential of quantum scientific machine learning applied to weather modelling ( http://arxiv.org/abs/2404.08737v1 )

ライセンス: Link先を確認
Ben Jaderberg, Antonio A. Gentile, Atiyo Ghosh, Vincent E. Elfving, Caitlin Jones, Davide Vodola, John Manobianco, Horst Weiss, (参考訳) 本研究では、気象モデリングの課題に取り組むために量子科学機械学習をどのように利用できるかを検討する。 パラメータ化量子回路を機械学習モデルとして用いて、気象データからの教師付き学習と、大気力学の基礎となる方程式の物理インフォームド解の2つのパラダイムを考察する。 まず, 4{\deg} の分解能で実世界のグローバルストリーム関数を正確に再現するために, 量子モデルをいかに訓練するかを示す。 この結果を達成するために用いられる問題固有の古典的および量子的アーキテクチャの選択について詳述する。 続いて,バロトロピック渦性方程式 (BVE) を大気モデルとして導入し,ストリーム関数の定式化において3-^{\text{rd}}$次偏微分方程式 (PDE) を導出する。 微分可能な量子回路アルゴリズムを用いて、適切な境界条件下でのBVEの解法を成功させ、トレーニングされたモデルを用いて、人工的な初期気象条件が与えられた場合、未確認未来のダイナミクスを高精度に予測する。 課題は残るが、量子科学機械学習によって解決されたPDEの複雑さの観点から、我々の結果は進歩している。

In this work we explore how quantum scientific machine learning can be used to tackle the challenge of weather modelling. Using parameterised quantum circuits as machine learning models, we consider two paradigms: supervised learning from weather data and physics-informed solving of the underlying equations of atmospheric dynamics. In the first case, we demonstrate how a quantum model can be trained to accurately reproduce real-world global stream function dynamics at a resolution of 4{\deg}. We detail a number of problem-specific classical and quantum architecture choices used to achieve this result. Subsequently, we introduce the barotropic vorticity equation (BVE) as our model of the atmosphere, which is a $3^{\text{rd}}$ order partial differential equation (PDE) in its stream function formulation. Using the differentiable quantum circuits algorithm, we successfully solve the BVE under appropriate boundary conditions and use the trained model to predict unseen future dynamics to high accuracy given an artificial initial weather state. Whilst challenges remain, our results mark an advancement in terms of the complexity of PDEs solved with quantum scientific machine learning.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# フォールトトレラントしきい値を超える4量子半導体プロセッサにおけるGroverのアルゴリズム

Grover's algorithm in a four-qubit silicon processor above the fault-tolerant threshold ( http://arxiv.org/abs/2404.08741v1 )

ライセンス: Link先を確認
Ian Thorvaldson, Dean Poulos, Christian M. Moehle, Saiful H. Misha, Hermann Edlbauer, Jonathan Reiner, Helen Geng, Benoit Voisin, Michael T. Jones, Matthew B. Donnelly, Luis F. Pena, Charles D. Hill, Casey R. Myers, Joris G. Keizer, Yousun Chung, Samuel K. Gorman, Ludwik Kranz, Michelle Y. Simmons, (参考訳) シリコン中のスピン量子ビットは、実用的な量子コンピュータを実現するための強力な競争相手である。 この技術は、耐故障しきい値を超える単一および2量子ゲートのデモンストレーションと最大3量子ビットの絡み合いにより、顕著な進歩を遂げた。 しかし、マルチキュービットアルゴリズムの実行中に高い忠実度操作を維持することは、従来の2つのスピンキュービットでしか実現されていないため、クロストークエラーを発生させることなく、キュービットを制御するのが困難である。 ここでは、フォールトトレラント限界を超える全ての演算を持つ4量子半導体プロセッサを使用し、Groverのアルゴリズムを、現在最も成功した実装の一つであるマーク状態を見つける確率が95%以上で実証する。 我々の4量子ビットプロセッサは3つのリン原子と1つの電子スピン精度で1.5nm${}^2$等方性純シリコンにパターン化されている。 強い結果として生じる閉じ込めポテンシャルは、クロストークを増大させる余分な閉じ込めゲートなしで、電子スピンとリン核スピンの両方を持つことの利点を利用する。 重要なことは、超微細な相互作用によって提供される核スピンの完全な接続は、効率的なマルチキュービット演算を可能にするだけでなく、個々のキュービットアドレス可能性も提供することである。 核スピンと電子スピンの長いコヒーレンス時間とともに、99.9%以上の4つの単一量子ビットフィリティと99%以上の全ての核スピン間の制御Zゲートが生じる。 高い制御率と、全核スピンの99%のフィデリティの読み出しが組み合わさって、3量子ビットのグリーンバーガー・ホルン・ザイリンガー状態(GHZ)を96.2%のフィデリティで作成することができる。 このような核スピンレジスタは電子交換によって結合することができ、大規模なフォールトトレラント量子プロセッサの経路を確立することができる。

Spin qubits in silicon are strong contenders for realizing a practical quantum computer. This technology has made remarkable progress with the demonstration of single and two-qubit gates above the fault-tolerant threshold and entanglement of up to three qubits. However, maintaining high fidelity operations while executing multi-qubit algorithms has remained elusive, only being achieved for two spin qubits to date due to the small qubit size, which makes it difficult to control qubits without creating crosstalk errors. Here, we use a four-qubit silicon processor with every operation above the fault tolerant limit and demonstrate Grover's algorithm with a ~95% probability of finding the marked state, one of the most successful implementations to date. Our four-qubit processor is made of three phosphorus atoms and one electron spin precision-patterned into 1.5 nm${}^2$ isotopically pure silicon. The strong resulting confinement potential, without additional confinement gates that can increase cross-talk, leverages the benefits of having both electron and phosphorus nuclear spins. Significantly, the all-to-all connectivity of the nuclear spins provided by the hyperfine interaction not only allows for efficient multi-qubit operations, but also provides individual qubit addressability. Together with the long coherence times of the nuclear and electron spins, this results in all four single qubit fidelities above 99.9% and controlled-Z gates between all pairs of nuclear spins above 99% fidelity. The high control fidelities, combined with >99% fidelity readout of all nuclear spins, allows for the creation of a three-qubit Greenberger-Horne-Zeilinger (GHZ) state with 96.2% fidelity, the highest reported for semiconductor spin qubits so far. Such nuclear spin registers can be coupled via electron exchange, establishing a path for larger scale fault-tolerant quantum processors.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-12
# 広帯域量子エンタングルメント分布におけるルーティングとスペクトルアロケーション

Routing and Spectrum Allocation in Broadband Quantum Entanglement Distribution ( http://arxiv.org/abs/2404.08744v1 )

ライセンス: Link先を確認
Rohan Bali, Ashley N. Tittelbaugh, Shelbi L. Jenkins, Anuj Agrawal, Jerry Horgan, Marco Ruffini, Daniel C. Kilper, Boulat A. Bash, (参考訳) 光ネットワーク上での量子エンタングルメント分布のリソース割り当てについて検討する。 本研究では,EPR(Einstein-Podolsky-Rosen)ペア・ソースを用いたネットワーク・アーキテクチャを特徴付け,モデル化し,そのようなネットワーク上に束縛された光子対を分散するルーティング・スキームを開発する。 本研究では, 絡み合い分布における最大値の公平性に着目し, それらに割り当てられたEPRペアの最大値と中央値およびジャイナ指数を比較し, 様々なスペクトル割り当て方式の性能を比較した。 これはNP-hard問題であるので、最小値と平均値のEPR-pair比分布で他よりも優れ、ジャイナ指数の他の値に匹敵する2つの近似アルゴリズムを同定する。 また、Watts-Strogatzランダムグラフを用いて、ネットワークサイズと接続性がこれらの指標に与える影響を分析する。 中央値のEPRペアレート、ジャイナ指数、実行時を考慮した場合、最低値のEPRペアレートを達成するスペクトル割当手法が著しく悪化することが判明した。

We investigate resource allocation for quantum entanglement distribution over an optical network. We characterize and model a network architecture that employs a single quasi-deterministic time-frequency heralded Einstein-Podolsky-Rosen (EPR) pair source, and develop a routing scheme for distributing entangled photon pairs over such a network. We focus on max-min fairness in entanglement distribution and compare the performance of various spectrum allocation schemes by examining the max-min and median number of EPR-pairs assigned by them, and the Jain index associated with this assignment. Since this presents an NP-hard problem, we identify two approximation algorithms that outperform others in minimum and mean EPR-pair rate distribution and are comparable to others in the Jain index. We also analyze how the network size and connectivity affect these metrics using Watts-Strogatz random graphs. We find that a spectrum allocation approach that achieves high minimum EPR-pair rate can perform significantly worse when the median EPR-pair rate, Jain index, and runtimes are considered.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 散乱データ近似による観察特異的説明

Observation-specific explanations through scattered data approximation ( http://arxiv.org/abs/2404.08747v1 )

ライセンス: Link先を確認
Valentina Ghidini, Michael Multerer, Jacopo Quizi, Rohan Sen, (参考訳) この研究は、予測プロセスの定義において、その重要性に比例する各データポイントにスコアを割り当てるために、観察固有の説明の定義を導入する。 このような説明は、関心のブラックボックスモデルに対する最も影響力のある観測を識別することを含む。 提案手法は,直交マッチング追従アルゴリズムを用いた分散データ近似を用いて代理モデルを構築し,これらの説明を推定することを含む。 提案手法はシミュレーションと実世界の両方のデータセットで検証される。

This work introduces the definition of observation-specific explanations to assign a score to each data point proportional to its importance in the definition of the prediction process. Such explanations involve the identification of the most influential observations for the black-box model of interest. The proposed method involves estimating these explanations by constructing a surrogate model through scattered data approximation utilizing the orthogonal matching pursuit algorithm. The proposed approach is validated on both simulated and real-world datasets.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 多チャンネルイメージングのためのマルチブランチ生成モデルとPET/CT関節再建への応用

Multi-Branch Generative Models for Multichannel Imaging with an Application to PET/CT Joint Reconstruction ( http://arxiv.org/abs/2404.08748v1 )

ライセンス: Link先を確認
Noel Jeffrey Pinton, Alexandre Bousse, Catherine Cheze-Le-Rest, Dimitris Visvikis, (参考訳) 本稿では,マルチブランチ生成モデルを用いた医用画像の相乗的再構築のための概念実証手法を提案する。 可変オートエンコーダ (VAE) とGAN (Generative Adversarial Network) を活用することで, モデルが画像のペアから同時に学習し, 効果的な復調と復元を可能にする。 画像とモデル間の距離を評価する正規化器に、訓練済みのモデルを組み込むことで、多チャンネル辞書学習(DiL)と同様の手法で、相乗的画像再構成を実現する。 我々は,MNIST (Modified National Institute of Standards and Technology) とPET (positron emission tomography)/CT (Computed tomography) の両データセットに対するアプローチの有効性を実証し,改良された画像品質とモダリティ間の情報共有を示す。 本研究は, パッチ分解やモデル制限などの課題にもかかわらず, 医用画像再構成のための生成モデルの可能性を強調した。

This paper presents a proof-of-concept approach for learned synergistic reconstruction of medical images using multi-branch generative models. Leveraging variational autoencoders (VAEs) and generative adversarial networks (GANs), our models learn from pairs of images simultaneously, enabling effective denoising and reconstruction. Synergistic image reconstruction is achieved by incorporating the trained models in a regularizer that evaluates the distance between the images and the model, in a similar fashion to multichannel dictionary learning (DiL). We demonstrate the efficacy of our approach on both Modified National Institute of Standards and Technology (MNIST) and positron emission tomography (PET)/computed tomography (CT) datasets, showcasing improved image quality and information sharing between modalities. Despite challenges such as patch decomposition and model limitations, our results underscore the potential of generative models for enhancing medical imaging reconstruction.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 運転者の注意に対するトップダウン効果のモデル化のためのデータ制限

Data Limitations for Modeling Top-Down Effects on Drivers' Attention ( http://arxiv.org/abs/2404.08749v1 )

ライセンス: Link先を確認
Iuliia Kotseruba, John K. Tsotsos, (参考訳) 運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。 一部のドライバーの視線モデルではドライバーの行動の上位ダウン効果が考慮されているが、大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。 問題は、トップダウンモデルをトレーニングしたり、タスクのどの種類のモデルが注意を向けるかを評価するのに使えるアノテーションが、公開データの欠如にあることだ。 その結果、トップダウンモデルはプライベートデータに基づいてトレーニングされ、評価され、公開ベンチマークは人間のデータに対する全体的な適合度だけを測定する。 本稿では,ドライバの視線予測のためのアルゴリズムのトレーニングと評価に使用する,大規模公開データセットDR(eye)VE,BDD-A,MAAD,LBWの4つを対象とするデータ制限に着目した。 運転者の注意に影響を及ぼすことで知られる運転タスク(横方向と縦方向の操作)とコンテキスト要素(断面と右方向)のセットを定義し、その定義に基づいてアノテーションでデータセットを増強し、ドライバが見ていることをキャプチャするデータ記録および処理パイプラインの特性を分析する。 まとめると、この作品の貢献は以下のとおりである。 1) 公開データセットのバイアスの定量化 2)非自明な運転者の行動を含むデータのサブセット上でのSOTAボトムアップモデルの性能について検討した。 3)ボトムアップモデルの欠点をデータ制限にリンクすること。 4) 今後のデータ収集と処理の推奨。 結果の再生のための新しいアノテーションとコードはhttps://github.com/ykotseruba/SCOUT.comで公開されている。

Driving is a visuomotor task, i.e., there is a connection between what drivers see and what they do. While some models of drivers' gaze account for top-down effects of drivers' actions, the majority learn only bottom-up correlations between human gaze and driving footage. The crux of the problem is lack of public data with annotations that could be used to train top-down models and evaluate how well models of any kind capture effects of task on attention. As a result, top-down models are trained and evaluated on private data and public benchmarks measure only the overall fit to human data. In this paper, we focus on data limitations by examining four large-scale public datasets, DR(eye)VE, BDD-A, MAAD, and LBW, used to train and evaluate algorithms for drivers' gaze prediction. We define a set of driving tasks (lateral and longitudinal maneuvers) and context elements (intersections and right-of-way) known to affect drivers' attention, augment the datasets with annotations based on the said definitions, and analyze the characteristics of data recording and processing pipelines w.r.t. capturing what the drivers see and do. In sum, the contributions of this work are: 1) quantifying biases of the public datasets, 2) examining performance of the SOTA bottom-up models on subsets of the data involving non-trivial drivers' actions, 3) linking shortcomings of the bottom-up models to data limitations, and 4) recommendations for future data collection and processing. The new annotations and code for reproducing the results is available at https://github.com/ykotseruba/SCOUT.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# FastLogAD: Mask-Guided Pseudo 異常生成と識別によるログ異常検出

FastLogAD: Log Anomaly Detection with Mask-Guided Pseudo Anomaly Generation and Discrimination ( http://arxiv.org/abs/2404.08750v1 )

ライセンス: Link先を確認
Yifei Lin, Hanqiu Deng, Xingyu Li, (参考訳) 近年,大規模コンピュータは実行時状態を記録するためにログを広範囲に出力しており,リアルタイムログが提供する情報から疑わしい活動や悪意のある活動を特定することが重要になっている。 このように、高速なログ異常検出は、実現不可能な手動検出を自動化するために実装されるために必要なタスクである。 既存の教師なしの手法の多くは、通常のログデータのみに基づいて訓練されているが、通常、ハイパーパラメータ選択のための追加の異常データか、識別モデル最適化のための補助データセットが必要である。 本稿では,高速な異常検出が可能な高効率な識別モデルを目指して,Mask-Guided Anomaly Generation (MGAG)モデルによる擬似異常ログの生成能力と,DASモデルによる異常ログの同定を効率よく行うことを目的とした,ジェネレータ・差別化フレームワークであるFastLogADを提案する。 特に、疑似異常ログは、ランダムにマスキングされたトークンをランダムな候補に置き換えることで生成される。 識別段階において、FastLogADは、その埋め込み規範に基づいて、正常なサンプルと偽の異常なサンプルを区別することを学び、テストデータに触れることなくしきい値を選択することができ、競争的なパフォーマンスを達成することができる。 いくつかの一般的なベンチマーク実験により、提案したFastLogADは既存の異常検出手法よりも優れていることが示された。 さらに、FastLogADは、従来の方法と比較して、前処理よりも少なくともx10速度で異常検出を行うことができる。 私たちの実装はhttps://github.com/YifeiLin0226/FastLogADで利用可能です。

Nowadays large computers extensively output logs to record the runtime status and it has become crucial to identify any suspicious or malicious activities from the information provided by the realtime logs. Thus, fast log anomaly detection is a necessary task to be implemented for automating the infeasible manual detection. Most of the existing unsupervised methods are trained only on normal log data, but they usually require either additional abnormal data for hyperparameter selection or auxiliary datasets for discriminative model optimization. In this paper, aiming for a highly effective discriminative model that enables rapid anomaly detection,we propose FastLogAD, a generator-discriminator framework trained to exhibit the capability of generating pseudo-abnormal logs through the Mask-Guided Anomaly Generation (MGAG) model and efficiently identifying the anomalous logs via the Discriminative Abnormality Separation (DAS) model. Particularly, pseudo-abnormal logs are generated by replacing randomly masked tokens in a normal sequence with unlikely candidates. During the discriminative stage, FastLogAD learns a distinct separation between normal and pseudoabnormal samples based on their embedding norms, allowing the selection of a threshold without exposure to any test data and achieving competitive performance. Extensive experiments on several common benchmarks show that our proposed FastLogAD outperforms existing anomaly detection approaches. Furthermore, compared to previous methods, FastLogAD achieves at least x10 speed increase in anomaly detection over prior work. Our implementation is available at https://github.com/YifeiLin0226/FastLogAD.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 距離制約のあるアイコニカルアプローチによる多様体上の距離と平均の計算

Computing distances and means on manifolds with a metric-constrained Eikonal approach ( http://arxiv.org/abs/2404.08754v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri, (参考訳) リーマン多様体上の計算距離は、物理学、統計学、機械学習など多くの応用において難しい問題である。 本稿では,距離関数の連続的微分可能表現を得るために,距離制約付きアイコンソルバを導入する。 これらの表現の微分可能な性質は、多様体上の大域的長さ最小化パスの直接計算を可能にする。 距離制約付きアイコンソルバを多様体の範囲で使用し,その応用を実証する。 まず, 解析解を持つガウス混合モデルの定義を用いて, 計量制約付きアイコン解法を用いて多様体上のFr'echet平均値を得ることを示した。 第二に、得られた距離関数が多様体上の教師なしクラスタリング(既存のアプローチが計算的に禁止されているタスク)の実行にどのように使用できるかを示す。 この研究は多様体上の距離計算の機会を開放する。

Computing distances on Riemannian manifolds is a challenging problem with numerous applications, from physics, through statistics, to machine learning. In this paper, we introduce the metric-constrained Eikonal solver to obtain continuous, differentiable representations of distance functions on manifolds. The differentiable nature of these representations allows for the direct computation of globally length-minimising paths on the manifold. We showcase the use of metric-constrained Eikonal solvers for a range of manifolds and demonstrate the applications. First, we demonstrate that metric-constrained Eikonal solvers can be used to obtain the Fr\'echet mean on a manifold, employing the definition of a Gaussian mixture model, which has an analytical solution to verify the numerical results. Second, we demonstrate how the obtained distance function can be used to conduct unsupervised clustering on the manifold -- a task for which existing approaches are computationally prohibitive. This work opens opportunities for distance computations on manifolds.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# スマートフォンアシスタントとしてのビジョン言語モデルの訓練

Training a Vision Language Model as Smartphone Assistant ( http://arxiv.org/abs/2404.08755v1 )

ライセンス: Link先を確認
Nicolai Dorka, Janusz Marecki, Ammar Anwar, (参考訳) 多様なユーザタスクを実行できるデジタルアシスタントの課題に対処するため,本研究では,命令ベースのモバイルデバイス制御の領域に焦点を当てた。 大型言語モデル(LLM)の最近の進歩を活用し,モバイルデバイス上で多様なタスクをこなせるビジュアル言語モデル(VLM)を提案する。 私たちのモデルはユーザインターフェース(UI)とのみ対話することで機能します。 デバイス画面からの視覚入力を使用し、タップやスワイプなどのジェスチャーを含む人間のようなインタラクションを模倣する。 この入出力空間の一般化により、エージェントはデバイス上の任意のアプリケーションと対話できる。 従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスと対応するアクションから生成された視覚言語文でも動作する。 WildベンチマークにおけるAndroidの挑戦的評価は,その有望な有効性と可能性を示している。

Addressing the challenge of a digital assistant capable of executing a wide array of user tasks, our research focuses on the realm of instruction-based mobile device control. We leverage recent advancements in large language models (LLMs) and present a visual language model (VLM) that can fulfill diverse tasks on mobile devices. Our model functions by interacting solely with the user interface (UI). It uses the visual input from the device screen and mimics human-like interactions, encompassing gestures such as tapping and swiping. This generality in the input and output space allows our agent to interact with any application on the device. Unlike previous methods, our model operates not only on a single screen image but on vision-language sentences created from sequences of past screenshots along with corresponding actions. Evaluating our method on the challenging Android in the Wild benchmark demonstrates its promising efficacy and potential.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# SCOUT+: タスク駆動運転者の視線予測に向けて

SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction ( http://arxiv.org/abs/2404.08756v1 )

ライセンス: Link先を確認
Iuliia Kotseruba, John K. Tsotsos, (参考訳) 運転者の視線の正確な予測は、視覚に基づく運転監視と補助システムの重要な構成要素である。 特に興味深いのは、機動や交差点を横断するなど、安全に重要なエピソードである。 このようなシナリオでは、運転者の視線分布は著しく変化し、特にタスクやコンテキスト情報が暗黙的に表現される場合、特に多くの最先端モデルでよく見られるような予測が困難になる。 しかし、ドライバーの注意に影響を及ぼすトップダウン要因の明示的なモデリングは、しばしば容易に利用できないかもしれない追加の情報とアノテーションを必要とする。 本稿では,タスクとコンテキストの効果的なモデリングを,実践的なシステムで使用する共通のデータソースで行うことの課題に対処する。 この目的のために,ドライバの視線予測のためのタスク認識およびコンテキスト認識モデルであるSCOUT+を導入し,一般的なGPSデータから推定される経路情報と地図情報を活用する。 我々は、DR(eye)VEとBDD-Aの2つのデータセット上でモデルを評価し、マップを使用することでボトムアップモデルと比較して結果が改善され、特権的真実情報に依存するトップダウンモデルSCOUTに匹敵するパフォーマンスに達することを実証した。 コードはhttps://github.com/ykotseruba/SCOUT.comから入手できる。

Accurate prediction of drivers' gaze is an important component of vision-based driver monitoring and assistive systems. Of particular interest are safety-critical episodes, such as performing maneuvers or crossing intersections. In such scenarios, drivers' gaze distribution changes significantly and becomes difficult to predict, especially if the task and context information is represented implicitly, as is common in many state-of-the-art models. However, explicit modeling of top-down factors affecting drivers' attention often requires additional information and annotations that may not be readily available. In this paper, we address the challenge of effective modeling of task and context with common sources of data for use in practical systems. To this end, we introduce SCOUT+, a task- and context-aware model for drivers' gaze prediction, which leverages route and map information inferred from commonly available GPS data. We evaluate our model on two datasets, DR(eye)VE and BDD-A, and demonstrate that using maps improves results compared to bottom-up models and reaches performance comparable to the top-down model SCOUT which relies on privileged ground truth information. Code is available at https://github.com/ykotseruba/SCOUT.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 世代ギャップ:大規模言語モデルにおける年齢バイアスの探索

The Generation Gap:Exploring Age Bias in Large Language Models ( http://arxiv.org/abs/2404.08760v1 )

ライセンス: Link先を確認
Siyang Liu, Trish Maturi, Siqi Shen, Rada Mihalcea, (参考訳) 本稿では,大言語モデル(LLM)と特定の年齢群とのアライメントについて検討し,13のカテゴリにわたる世界価値調査のデータを活用する。 応答の堅牢性を確保するために調整された多様なプロンプトを通じて、若年層に対するLCM値の一般的な傾きを見いだす。 さらに、年齢識別情報をプロンプトに取り入れることによる影響について検討し、年齢コホートによる価値の相違を緩和する上での課題を考察する。 以上の結果から,LSMの年齢バイアスが明らかとなり,今後の研究への洞察が得られた。

In this paper, we explore the alignment of values in Large Language Models (LLMs) with specific age groups, leveraging data from the World Value Survey across thirteen categories. Through a diverse set of prompts tailored to ensure response robustness, we find a general inclination of LLM values towards younger demographics. Additionally, we explore the impact of incorporating age identity information in prompts and observe challenges in mitigating value discrepancies with different age cohorts. Our findings highlight the age bias in LLMs and provide insights for future work.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# アイス・オブ・ザ・ホーク(Eyes of a Hawk and Ears of a Fox)-Part Prototype Network for Generalized Zero-Shot Learning (特集 ザ・ザ・ザ・ザ・ザ・フューチャーズ)

`Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2404.08761v1 )

ライセンス: Link先を確認
Joshua Feinglass, Jayaraman J. Thiagarajan, Rushil Anirudh, T. S. Jayram, Yezhou Yang, (参考訳) 一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。 これは新しいカテゴリ認識のプロセスの単純化であり、画像の異なる領域は異なるクラスの特性を持ち、したがって異なる属性を持つ。 属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。 学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。 提案するPart Prototype Network (PPN) は,CUB, SUN, AWA2データセットからなる一般的なGZSLベンチマークにおいて,他の人気ベースモデルと比較して有望な結果が得られることを示す。 アブレーション研究と分析は,本手法が極めて実用的であり,局所的提案が利用可能である場合,グローバル属性の注目に対して明確な優位性があることを示唆している。

Current approaches in Generalized Zero-Shot Learning (GZSL) are built upon base models which consider only a single class attribute vector representation over the entire image. This is an oversimplification of the process of novel category recognition, where different regions of the image may have properties from different seen classes and thus have different predominant attributes. With this in mind, we take a fundamentally different approach: a pre-trained Vision-Language detector (VINVL) sensitive to attribute information is employed to efficiently obtain region features. A learned function maps the region features to region-specific attribute attention used to construct class part prototypes. We conduct experiments on a popular GZSL benchmark consisting of the CUB, SUN, and AWA2 datasets where our proposed Part Prototype Network (PPN) achieves promising results when compared with other popular base models. Corresponding ablation studies and analysis show that our approach is highly practical and has a distinct advantage over global attribute attention when localized proposals are available.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# CATS: 大規模言語モデルにおける疎性に対する文脈認識閾値

CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models ( http://arxiv.org/abs/2404.08763v1 )

ライセンス: Link先を確認
Je-Yong Lee, Donghyun Lee, Genghan Zhang, Mo Tiwari, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)は、劇的に高度なAIアプリケーションを持っているが、その膨大な推論コストのため、そのデプロイメントは難しいままである。 最近の研究は, LLMの活性化間隔を増大させることによって計算コストを向上するが, 下流タスクの大幅な性能劣化に悩まされている。 本研究では,基本LLMの活性化と推論コストの低減を両立させる新しいフレームワーク,CATS(Contextually Aware Thresholding for Sparsity)を提案する。 CATSは比較的シンプルで、実装が容易で、非常に効果的です。 私たちのフレームワークの中心は、新しい非線形アクティベーション機能です。 提案手法は,Mistral-7BやLlama2-7Bなどの各種ベースモデルに適用可能であり,下流タスク性能において既存のスペーサー化手法よりも優れていることを示す。 より正確には、CATSベースのモデルは、細調整なしで、50%のアクティベーション間隔でも、ベースモデルの1~2%のダウンストリームタスク性能を達成する。 さらに、CATSベースのモデルはより高速に収束し、微調整を行う場合の競合技術よりも優れたタスク性能を示す。 最後に,CATSのスパーシリティの活性化を実際のウォールクロックタイム・スピードアップに変換する,CATSの効率的な実装のためのカスタムGPUカーネルを開発する。 CATSのカスタムカーネル実装により,Llama-7BとMistral-7Bの両方で,トークン生成のウォールクロック推論レイテンシが約15%向上した。

Large Language Models (LLMs) have dramatically advanced AI applications, yet their deployment remains challenging due to their immense inference costs. Recent studies ameliorate the computational costs of LLMs by increasing their activation sparsity but suffer from significant performance degradation on downstream tasks. In this work, we introduce a new framework for sparsifying the activations of base LLMs and reducing inference costs, dubbed Contextually Aware Thresholding for Sparsity (CATS). CATS is relatively simple, easy to implement, and highly effective. At the heart of our framework is a new non-linear activation function. We demonstrate that CATS can be applied to various base models, including Mistral-7B and Llama2-7B, and outperforms existing sparsification techniques in downstream task performance. More precisely, CATS-based models often achieve downstream task performance within 1-2% of their base models without any fine-tuning and even at activation sparsity levels of 50%. Furthermore, CATS-based models converge faster and display better task performance than competing techniques when fine-tuning is applied. Finally, we develop a custom GPU kernel for efficient implementation of CATS that translates the activation of sparsity of CATS to real wall-clock time speedups. Our custom kernel implementation of CATS results in a ~15% improvement in wall-clock inference latency of token generation on both Llama-7B and Mistral-7B.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# LLM-Seg: ブリッジングイメージセグメンテーションと大規模言語モデル推論

LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning ( http://arxiv.org/abs/2404.08767v1 )

ライセンス: Link先を確認
Junchi Wang, Lei Ke, (参考訳) 対象物を特定するための人間の指示を理解することは、認識システムにとって不可欠である。 近年,Large Language Models (LLMs) の進歩により,画像セグメンテーションの新たな可能性が導入されている。 本研究では,大規模言語モデル推論による暗黙的ユーザ意図の推論と解釈を可能にする新しいタスクである推論セグメンテーションを探索し,それに対応するターゲットをセグメンテーションする。 推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。 モデルとして LLM-Seg という新しいフレームワークを提案する。 LLM-Segは、マスク提案の選択により、現在の基本セグメンテーションモデルとLLMを効果的に接続する。 データセットに対しては,自動データ生成パイプラインを提案し,LLM-Seg40Kという新たな推論セグメンテーションデータセットを構築した。 実験により, LLM-Segは既存手法と比較して, 競合性能を示した。 さらに,提案するパイプラインは,高品質な推論セグメンテーションデータセットを効率的に生成することができる。 このパイプラインを通じて開発されたLLM-Seg40Kデータセットは、さまざまな推論セグメンテーションアプローチのトレーニングと評価のための新しいベンチマークとして機能する。 私たちのコード、モデル、データセットはhttps://github.com/wangjunchi/LLMSeg.orgにある。

Understanding human instructions to identify the target objects is vital for perception systems. In recent years, the advancements of Large Language Models (LLMs) have introduced new possibilities for image segmentation. In this work, we delve into reasoning segmentation, a novel task that enables segmentation system to reason and interpret implicit user intention via large language model reasoning and then segment the corresponding target. Our work on reasoning segmentation contributes on both the methodological design and dataset labeling. For the model, we propose a new framework named LLM-Seg. LLM-Seg effectively connects the current foundational Segmentation Anything Model and the LLM by mask proposals selection. For the dataset, we propose an automatic data generation pipeline and construct a new reasoning segmentation dataset named LLM-Seg40K. Experiments demonstrate that our LLM-Seg exhibits competitive performance compared with existing methods. Furthermore, our proposed pipeline can efficiently produce high-quality reasoning segmentation datasets. The LLM-Seg40K dataset, developed through this pipeline, serves as a new benchmark for training and evaluating various reasoning segmentation approaches. Our code, models and dataset are at https://github.com/wangjunchi/LLMSeg.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 量子コンピュータにおける確率化学動力学のモデリング

Modeling Stochastic Chemical Kinetics on Quantum Computers ( http://arxiv.org/abs/2404.08770v1 )

ライセンス: Link先を確認
Tilas Kabengele, Yash M. Lokare, J. B. Marston, Brenda M. Rubenstein, (参考訳) ケミカルマスター方程式(CME)は、確率的化学反応ネットワークとその速度論の、反応する種の数とともに可能な状態の指数的スケーリングによって、非常に正確であるが非常に資源集約的な表現を提供する。 本研究では、三分子反応ネットワークのシュル・オグルモデルを用いて、CMEが示すように、量子アルゴリズムとハードウェアを用いて確率化学動力学をモデル化する方法を実証する。 量子アルゴリズムの性能について検討するために、まず古典的コンピュータを用いてモデルの単安定状態と双安定状態における確率的Schl\"ogl演算子を構築するのに適したパラメータの範囲を定め、量子コンピュータ上で近似力学をモデル化するためのパラメータ選択の適切性について議論する。 次に、変動量子デフレレーション(VQSVD)アルゴリズムを適用し、最小のマグニチュード固有値($\lambda_0$と$\lambda_1$)を単安定系および二安定系の遷移率を記述するとともに、変動量子特異値分解(VQSVD)アルゴリズムと組み合わせた量子位相推定(QPE)アルゴリズムを用いて、双安定系のゼロモード(基底状態)を推定する。 ノイズやノイズのない量子シミュレーションによる量子計算結果は、古典的に計算された固有値やゼロモードと数パーセント以内で一致します。 同様に、我々の研究は指数関数的に複雑な確率的化学運動論問題や他の関連する確率的微分方程式の量子解への実践的な道のりを概説している。

The Chemical Master Equation (CME) provides a highly accurate, yet extremely resource-intensive representation of a stochastic chemical reaction network and its kinetics due to the exponential scaling of its possible states with the number of reacting species. In this work, we demonstrate how quantum algorithms and hardware can be employed to model stochastic chemical kinetics as described by the CME using the Schl\"ogl Model of a trimolecular reaction network as an illustrative example. To ground our study of the performance of our quantum algorithms, we first determine a range of suitable parameters for constructing the stochastic Schl\"ogl operator in the mono- and bistable regimes of the model using a classical computer and then discuss the appropriateness of our parameter choices for modeling approximate kinetics on a quantum computer. We then apply the Variational Quantum Deflation (VQD) algorithm to evaluate the smallest-magnitude eigenvalues, $\lambda_0$ and $\lambda_1$, which describe the transition rates of both the mono- and bi-stable systems, and the Quantum Phase Estimation (QPE) algorithm combined with the Variational Quantum Singular Value Decomposition (VQSVD) algorithm to estimate the zeromode (ground state) of the bistable case. Our quantum computed results from both noisy and noiseless quantum simulations agree within a few percent with the classically computed eigenvalues and zeromode. Altogether, our work outlines a practical path toward the quantum solution of exponentially complex stochastic chemical kinetics problems and other related stochastic differential equations.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 窒素-原子価中心における非線形波動-スピン相互作用

Nonlinear Wave-Spin Interactions in Nitrogen-Vacancy Centers ( http://arxiv.org/abs/2404.08772v1 )

ライセンス: Link先を確認
Zhongqiang Hu, Qiuyuan Wang, Chung-Tao Chou, Justin T. Hou, Zhiping He, Luqiao Liu, (参考訳) 非線形現象は、ウェーブ・マター相互作用の研究における中心的なトピックの1つであり、光通信、計算、センシング、イメージングにおける様々な応用の鍵となるブロックを構成する。 本研究では,マイクロ波光子と窒素空洞中心の電子スピンとの相互作用を利用することで,2つ以上の波の和や差周波の共鳴からスピン遷移間の干渉からの電磁誘導透過まで,様々な非線形効果を実現することができることを示す。 さらに2光子ラビ振動測定により位相コヒーレンスを検証した。 高感度で光学的に検出されたNV中心ダイナミクスは、磁気誘起非線形性を研究するためのプラットフォームを提供するだけでなく、量子制御と量子センシングの新たな機能も約束する。

Nonlinear phenomena represent one of the central topics in the study of wave-matter interactions and constitute the key blocks for various applications in optical communication, computing, sensing, and imaging. In this work, we show that by employing the interactions between microwave photons and electron spins of nitrogen-vacancy (NV) centers, one can realize a variety of nonlinear effects, ranging from the resonance at the sum or difference frequency of two or more waves to electromagnetically induced transparency from the interference between spin transitions. We further verify the phase coherence through two-photon Rabi-oscillation measurements. The highly sensitive, optically detected NV-center dynamics not only provides a platform for studying magnetically induced nonlinearities but also promises novel functionalities in quantum control and quantum sensing.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# シンセティックデータセットを用いた産業部品の同時分類に向けて

Towards Sim-to-Real Industrial Parts Classification with Synthetic Dataset ( http://arxiv.org/abs/2404.08778v1 )

ライセンス: Link先を確認
Xiaomeng Zhu, Talha Bilal, Pär Mårtensson, Lars Hanson, Mårten Björkman, Atsuto Maki, (参考訳) 本稿では,産業部分類における深層ニューラルネットワークのトレーニングに,実世界の画像に対する領域ギャップを考慮した合成データを活用することを目的とする。 この目的のために、Sim-to-Realチャレンジの予備的テストベッドとして機能する合成データセットを導入し、独立した部品や組み立て部品を含む6つの産業ユースケースの17のオブジェクトを含む。 いくつかのオブジェクトのサブセットは、産業部品の挑戦的なケースを反映するために、形状とアルベドに大きな類似性を示す。 すべてのサンプル画像は、ランダムな背景と、ドメインのランダム化の重要性を評価する後処理を伴わない。 これをSIP-17(Synthetic Industrial Parts dataset)と呼ぶ。 我々は,SIP-17の有効性を,実データでテストしながら,合成データのみに基づいて,教師付きおよび自己教師付き5つの最先端ネットワークモデルの性能をベンチマークすることで検討した。 本研究は, 産業部品分類における合成データの利用可能性と課題について考察し, 大規模合成データセットのさらなる開発について考察する。 データセットとコードは公開されています。

This paper is about effectively utilizing synthetic data for training deep neural networks for industrial parts classification, in particular, by taking into account the domain gap against real-world images. To this end, we introduce a synthetic dataset that may serve as a preliminary testbed for the Sim-to-Real challenge; it contains 17 objects of six industrial use cases, including isolated and assembled parts. A few subsets of objects exhibit large similarities in shape and albedo for reflecting challenging cases of industrial parts. All the sample images come with and without random backgrounds and post-processing for evaluating the importance of domain randomization. We call it Synthetic Industrial Parts dataset (SIP-17). We study the usefulness of SIP-17 through benchmarking the performance of five state-of-the-art deep network models, supervised and self-supervised, trained only on the synthetic data while testing them on real data. By analyzing the results, we deduce some insights on the feasibility and challenges of using synthetic data for industrial parts classification and for further developing larger-scale synthetic datasets. Our dataset and code are publicly available.
翻訳日:2024-04-16 18:52:17 公開日:2024-04-12
# 圧力下:野生における学習に基づくアナログゲージ読書

Under pressure: learning-based analog gauge reading in the wild ( http://arxiv.org/abs/2404.08785v1 )

ライセンス: Link先を確認
Maurits Reitsma, Julian Keller, Kenneth Blomqvist, Roland Siegwart, (参考訳) 本稿では,実世界のロボットシステムに展開可能なアナログゲージを読むための解釈可能なフレームワークを提案する。 我々のフレームワークは、読み取りタスクを別々のステップに分割し、各ステップで潜在的な障害を検出する。 我々のシステムは、ゲージの種類やスケールの範囲について事前の知識を必要とせず、使用する単位を抽出することができる。 本手法では,相対的な読影誤差が2%未満の読み出しを抽出できることが示されている。

We propose an interpretable framework for reading analog gauges that is deployable on real world robotic systems. Our framework splits the reading task into distinct steps, such that we can detect potential failures at each step. Our system needs no prior knowledge of the type of gauge or the range of the scale and is able to extract the units used. We show that our gauge reading algorithm is able to extract readings with a relative reading error of less than 2%.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# NeuroLGP-SM: ディープニューラルネットワークのためのスケーラブルなサロゲート支援神経進化

NeuroLGP-SM: Scalable Surrogate-Assisted Neuroevolution for Deep Neural Networks ( http://arxiv.org/abs/2404.08786v1 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galván, (参考訳) 進化的アルゴリズム(EA)は、神経進化として知られるプロセスであるArtificial Deep Neural Networks(DNN)のアーキテクチャ構成とトレーニングにおいて重要な役割を果たす。 しかし、神経進化は、その固有の計算コストによって妨げられ、複数の世代、多数の人口、多くのエポックを必要としている。 最も計算集約的な側面は、単一の候補解の適合関数を評価することである。 この課題に対処するため、我々はSurrogate-assisted EAs (SAEAs) を採用する。 神経進化においていくつかのSAEAアプローチが提案されているが、難解な情報利用のような問題のため、真のDNNには適用されていない。 本研究では、遺伝的プログラミングのセマンティクスからインスピレーションを得て、DNNから出力される表現型距離ベクトルと、これらの大きなベクトルを扱うのに有効なKPLS(Partial Least Squares)とを併用し、探索に適した手法を提案する。 提案手法はニューロLinear Genetic Programming surrogate model (NeuroLGP-SM) と名付けられ, 完全評価を必要とせず, DNNの適合性を効率的に正確に推定する。 NeuroLGP-SMは、SMを持たないNeuroLGP、畳み込みニューラルネットワーク、サポートベクターマシン、オートエンコーダなど、他の12の方法と比較して、競合的または優れた結果を示す。 また、NeuroLGP-SMはNeuroLGPよりも25%エネルギー効率が高い。 この効率性は,提案したNeuroLGP-SMが大規模DNNの構成を最適化する際の全体的な魅力を増す。

Evolutionary Algorithms (EAs) play a crucial role in the architectural configuration and training of Artificial Deep Neural Networks (DNNs), a process known as neuroevolution. However, neuroevolution is hindered by its inherent computational expense, requiring multiple generations, a large population, and numerous epochs. The most computationally intensive aspect lies in evaluating the fitness function of a single candidate solution. To address this challenge, we employ Surrogate-assisted EAs (SAEAs). While a few SAEAs approaches have been proposed in neuroevolution, none have been applied to truly large DNNs due to issues like intractable information usage. In this work, drawing inspiration from Genetic Programming semantics, we use phenotypic distance vectors, outputted from DNNs, alongside Kriging Partial Least Squares (KPLS), an approach that is effective in handling these large vectors, making them suitable for search. Our proposed approach, named Neuro-Linear Genetic Programming surrogate model (NeuroLGP-SM), efficiently and accurately estimates DNN fitness without the need for complete evaluations. NeuroLGP-SM demonstrates competitive or superior results compared to 12 other methods, including NeuroLGP without SM, convolutional neural networks, support vector machines, and autoencoders. Additionally, it is worth noting that NeuroLGP-SM is 25% more energy-efficient than its NeuroLGP counterpart. This efficiency advantage adds to the overall appeal of our proposed NeuroLGP-SM in optimising the configuration of large DNNs.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# CLIPによるAI生成画像の検出

Detecting AI-Generated Images via CLIP ( http://arxiv.org/abs/2404.08788v1 )

ライセンス: Link先を確認
A. G. Moskowitz, T. Gaona, J. Peterson, (参考訳) AI生成画像(AIGI)メソッドがより強力でアクセスしやすくなれば,イメージが現実であるか,あるいはAI生成であるかを判断する重要なタスクになる。 AIGIは写真の署名がなく、独自のパターンを持っているため、画像がAI生成されているかどうかを判断するためには、新しいモデルが必要である。 本稿では,インターネット規模の大規模データセットで事前学習したコントラスト言語画像事前学習(CLIP)アーキテクチャの差分処理能力について検討する。 いくつかの生成モデルからCLIPを実画像とAIGIに微調整し、CLIPが画像がAI生成されているかどうかを判断し、もしそうであれば、その生成にどの生成方法が使われたかを決定する。 我々は、微調整のCLIPアーキテクチャが、AIGIを特に検出するように設計されたモデルよりも、AIGIを差別化できることを示す。 我々のCLIPファインチューニング手順では,公開モデルリポジトリからのアーキテクチャ変更が不要であり,他のAIGI検出モデルよりもGPUリソースの消費が著しく少ないため,AIGI検出ツールへのアクセスを大幅に増加させ,社会に対するAIGIの悪影響を低減する。

As AI-generated image (AIGI) methods become more powerful and accessible, it has become a critical task to determine if an image is real or AI-generated. Because AIGI lack the signatures of photographs and have their own unique patterns, new models are needed to determine if an image is AI-generated. In this paper, we investigate the ability of the Contrastive Language-Image Pre-training (CLIP) architecture, pre-trained on massive internet-scale data sets, to perform this differentiation. We fine-tune CLIP on real images and AIGI from several generative models, enabling CLIP to determine if an image is AI-generated and, if so, determine what generation method was used to create it. We show that the fine-tuned CLIP architecture is able to differentiate AIGI as well or better than models whose architecture is specifically designed to detect AIGI. Our method will significantly increase access to AIGI-detecting tools and reduce the negative effects of AIGI on society, as our CLIP fine-tuning procedures require no architecture changes from publicly available model repositories and consume significantly less GPU resources than other AIGI detection models.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 複数の後部モードの微分可能・安定長線追跡

Differentiable and Stable Long-Range Tracking of Multiple Posterior Modes ( http://arxiv.org/abs/2404.08789v1 )

ライセンス: Link先を確認
Ali Younis, Erik Sudderth, (参考訳) 粒子フィルタは、重み付けされたサンプルの集合を通して、非パラメトリックに複数の後部モードを柔軟に表現するが、古典的には既知の力学や観測可能性の問題を追尾するために応用されている。 このような生成モデルは、画像のような高次元の観測では不正確または不可能である。 その代わりに、トレーニングデータを活用して、ディープニューラルネットワークエンコーダによる任意の観測に基づいて、潜在オブジェクト状態における不確実性の粒子ベース表現を識別的に学習する。 従来の分別粒子フィルタでは, 離散粒子再サンプリングのヒューリスティック緩和や, 再サンプリング段階における勾配の切り離しによるバイアス学習が用いられてきたが, 後方を連続的な混合密度として表現することで, 偏りのない低分散勾配推定が達成されている。 我々の理論と実験は、混合勾配に対する既存のパラメータ化に基づく推定器の劇的な故障を明らかにしており、これは重要サンプリング勾配推定器によって解決される問題である。 通常のリカレントニューラルネットワークとは異なり、我々の混合密度粒子フィルタは連続潜時状態におけるマルチモーダル不確実性を表現し、精度とロバスト性を向上させる。 ロボットのローカライゼーションやトラッキングの難易度の問題に対して,本手法は精度を劇的に向上させるとともに,複数のトレーニング実行における安定性も向上する。

Particle filters flexibly represent multiple posterior modes nonparametrically, via a collection of weighted samples, but have classically been applied to tracking problems with known dynamics and observation likelihoods. Such generative models may be inaccurate or unavailable for high-dimensional observations like images. We instead leverage training data to discriminatively learn particle-based representations of uncertainty in latent object states, conditioned on arbitrary observations via deep neural network encoders. While prior discriminative particle filters have used heuristic relaxations of discrete particle resampling, or biased learning by truncating gradients at resampling steps, we achieve unbiased and low-variance gradient estimates by representing posteriors as continuous mixture densities. Our theory and experiments expose dramatic failures of existing reparameterization-based estimators for mixture gradients, an issue we address via an importance-sampling gradient estimator. Unlike standard recurrent neural networks, our mixture density particle filter represents multimodal uncertainty in continuous latent states, improving accuracy and robustness. On a range of challenging tracking and robot localization problems, our approach achieves dramatic improvements in accuracy, while also showing much greater stability across multiple training runs.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 期待ミスマッチの存在下でのリワードミス種別処理

Handling Reward Misspecification in the Presence of Expectation Mismatch ( http://arxiv.org/abs/2404.08791v1 )

ライセンス: Link先を確認
Sarath Sreedharan, Malek Mechergui, (参考訳) 報酬関数などの不特定目的の検出と対処は、人工知能(AI)の安全性研究における中心的な課題の1つとして広く認識されている。 しかし、この問題の重要性が認識されても、我々は何を構成するのかを明確に定義しようとする作品に気づいていない。 a)不特定目的,不特定目的 (b)そのような誤用の解決に成功。 本研究は,人間のAIエージェントに対する信念である心の理論を用いて,予測整合(EAL)と呼ばれる形式的説明的枠組みを構築し,目的的不特定性とその原因を理解する。 我々の<EAL\フレームワークは、既存の作業の解説フレームワークとして機能するだけでなく、報酬のミススペクテーションや新しいソリューション戦略を扱う既存の方法の限界に関する具体的な洞察も提供してくれます。 これらの知見を用いて,システム動作に対する潜在的なユーザ期待を推測するために,特定報酬を用いた新たな対話型アルゴリズムを提案する。 本稿では,推論問題を線形プログラムにマッピングすることで,このアルゴリズムを効率的に実装する方法を示す。 我々は,標準的なマルコフ決定プロセス(MDP)ベンチマークを用いて提案手法の評価を行った。

Detecting and handling misspecified objectives, such as reward functions, has been widely recognized as one of the central challenges within the domain of Artificial Intelligence (AI) safety research. However, even with the recognition of the importance of this problem, we are unaware of any works that attempt to provide a clear definition for what constitutes (a) misspecified objectives and (b) successfully resolving such misspecifications. In this work, we use the theory of mind, i.e., the human user's beliefs about the AI agent, as a basis to develop a formal explanatory framework called Expectation Alignment (EAL) to understand the objective misspecification and its causes. Our \EAL\ framework not only acts as an explanatory framework for existing works but also provides us with concrete insights into the limitations of existing methods to handle reward misspecification and novel solution strategies. We use these insights to propose a new interactive algorithm that uses the specified reward to infer potential user expectations about the system behavior. We show how one can efficiently implement this algorithm by mapping the inference problem into linear programs. We evaluate our method on a set of standard Markov Decision Process (MDP) benchmarks.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 最適輸送による対数凹度測定における座標濃度変動推定の収束性

Convergence of coordinate ascent variational inference for log-concave measures via optimal transport ( http://arxiv.org/abs/2404.08792v1 )

ライセンス: Link先を確認
Manuel Arnese, Daniel Lacker, (参考訳) 平均場変分推論 (VI) は、相対エントロピーという意味で、与えられた高次元確率測度$\rho$に最も近い積(分解された)測度を求める問題である。 CAVI (Coordinate Ascent Variational Inference) アルゴリズムは、1度に1つの座標(因子)を反復的に最適化することでこの積測度を近似することを目的としており、これは明示的に行うことができる。 その人気にもかかわらず、CAVIの収束はいまだに理解されていない。 本稿では、対数凹凸密度$\rho$に対するCAVIの収束性を証明する。 さらに、$\log \rho$ がリプシッツ勾配を持つなら、収束の線型性を見つけ、さらに$\rho$ が強い対数展開であるなら指数率を求める。 我々の分析は、平均体 VI が、通常の意味では非凸であるが、実際には、$\rho$ が対数凸であるときに、最適な輸送という意味での変位凸である、という観察から始まった。 これにより、ユークリッド空間における座標降下アルゴリズムの最適化文献からの手法の適用が可能となる。

Mean field variational inference (VI) is the problem of finding the closest product (factorized) measure, in the sense of relative entropy, to a given high-dimensional probability measure $\rho$. The well known Coordinate Ascent Variational Inference (CAVI) algorithm aims to approximate this product measure by iteratively optimizing over one coordinate (factor) at a time, which can be done explicitly. Despite its popularity, the convergence of CAVI remains poorly understood. In this paper, we prove the convergence of CAVI for log-concave densities $\rho$. If additionally $\log \rho$ has Lipschitz gradient, we find a linear rate of convergence, and if also $\rho$ is strongly log-concave, we find an exponential rate. Our analysis starts from the observation that mean field VI, while notoriously non-convex in the usual sense, is in fact displacement convex in the sense of optimal transport when $\rho$ is log-concave. This allows us to adapt techniques from the optimization literature on coordinate descent algorithms in Euclidean space.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# JailbreakLens: 大規模言語モデルに対するJailbreak攻撃の可視化分析

JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models ( http://arxiv.org/abs/2404.08793v1 )

ライセンス: Link先を確認
Yingchaojie Feng, Zhizhang Chen, Zhining Kang, Sijia Wang, Minfeng Zhu, Wei Zhang, Wei Chen, (参考訳) 大規模言語モデル(LLM)の普及は、特にジェイルブレイク攻撃に対するセキュリティ上の脆弱性に関する懸念を浮き彫りにした。 これらの懸念に対処するには、LLMの防御能力を評価し潜在的な弱点を特定するために、ジェイルブレイクの包括的な分析が必要である。 しかし、ジェイルブレイク性能の評価と理解の急激な特性の複雑さは、この分析を困難にしている。 我々は、ドメインの専門家と協力して問題を特徴づけ、解析プロセスを合理化するためのLLM支援フレームワークを提案する。 自動ジェイルブレイクアセスメントを提供し、パフォーマンス評価を容易にし、インプロンプト内のコンポーネントやキーワードの分析をサポートする。 このフレームワークをベースとして,視覚解析システムであるJailbreakLensを設計し,ユーザが目標モデルに対してジェイルブレイク性能を探索し,プロンプト特性の多段階解析を行い,インプロンプトインスタンスを洗練して結果の検証を行う。 ケーススタディ,技術評価,専門家インタビューを通じて,ユーザがモデルのセキュリティを評価し,モデルの弱点を識別する上で,システムの有効性を実証する。

The proliferation of large language models (LLMs) has underscored concerns regarding their security vulnerabilities, notably against jailbreak attacks, where adversaries design jailbreak prompts to circumvent safety mechanisms for potential misuse. Addressing these concerns necessitates a comprehensive analysis of jailbreak prompts to evaluate LLMs' defensive capabilities and identify potential weaknesses. However, the complexity of evaluating jailbreak performance and understanding prompt characteristics makes this analysis laborious. We collaborate with domain experts to characterize problems and propose an LLM-assisted framework to streamline the analysis process. It provides automatic jailbreak assessment to facilitate performance evaluation and support analysis of components and keywords in prompts. Based on the framework, we design JailbreakLens, a visual analysis system that enables users to explore the jailbreak performance against the target model, conduct multi-level analysis of prompt characteristics, and refine prompt instances to verify findings. Through a case study, technical evaluations, and expert interviews, we demonstrate our system's effectiveness in helping users evaluate model security and identify model weaknesses.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 拡散に基づく地球系の連成温度と沈降エミュレーション

Diffusion-Based Joint Temperature and Precipitation Emulation of Earth System Models ( http://arxiv.org/abs/2404.08797v1 )

ライセンス: Link先を確認
Katie Christensen, Lyric Otto, Seth Bassetti, Claudia Tebaldi, Brian Hutchinson, (参考訳) 地球系モデル(英語: Earth System Model、ESM)は、気候科学において、様々な大気排出シナリオの下で将来の気候予測を生成するために使われる主要なツールである。 生成的なディープラーニングアプローチは、計算効率と能力のためにこれらのツールをエミュレートするのに適しており、一度訓練されると、ESMが必要とするわずかな時間で実現されます。 複数変数, 温度, 降水量の共同エミュレーションを単一拡散モデルで目的とし, 生成確率拡散モデルを用いてESMをエミュレートする以前の研究を拡張した。 複数変数の連成生成は、複数の変数の相互作用から生じる現象の現実的なサンプルを生成するために重要である。 拡散モデルエミュレータは、温度と降水量の月平均マップを取り込み、ESMと似た統計特性を示す各変数の日平均値を生成する。 以上の結果から, 乾燥呪文や熱風など, 各種気候指標のESMからの出力によく似ており, 試料中の温度と降水量の共同分布はESMのものとよく一致していることがわかった。

Earth system models (ESMs) are the principal tools used in climate science to generate future climate projections under various atmospheric emissions scenarios on a global or regional scale. Generative deep learning approaches are suitable for emulating these tools due to their computational efficiency and ability, once trained, to generate realizations in a fraction of the time required by ESMs. We extend previous work that used a generative probabilistic diffusion model to emulate ESMs by targeting the joint emulation of multiple variables, temperature and precipitation, by a single diffusion model. Joint generation of multiple variables is critical to generate realistic samples of phenomena resulting from the interplay of multiple variables. The diffusion model emulator takes in the monthly mean-maps of temperature and precipitation and produces the daily values of each of these variables that exhibit statistical properties similar to those generated by ESMs. Our results show the outputs from our extended model closely resemble those from ESMs on various climate metrics including dry spells and hot streaks, and that the joint distribution of temperature and precipitation in our sample closely matches those of ESMs.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 拡散モデル画像生成の一貫性の定量化のための意味論的アプローチ

Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation ( http://arxiv.org/abs/2404.08799v1 )

ライセンス: Link先を確認
Brinnae Bent, (参考訳) 本研究では,拡散モデルにおける画像生成の再現性,あるいは一貫性の解釈可能な定量的スコアの必要性を明らかにする。 本稿では,CLIP(Contrastive Language- Image Pretraining)スコアをセマンティック一貫性スコアとして用いたセマンティックアプローチを提案する。 提案手法を応用して, 安定拡散XLとPixArt-{\alphaの2種類のオープンソース画像生成拡散モデルを比較した。 セマンティック一貫性スコア選択モデルと集約された人間のアノテーションとの合意は94%であった。 また,SDXLの整合性やLoRA微調整によるSDXLの整合性についても検討した。 セマンティック一貫性スコア(Semantic Consistency Score)は、画像生成アライメントの尺度を提供し、特定のタスクに対するモデルアーキテクチャの評価を容易にし、モデル選択に関する情報的意思決定を支援する。

In this study, we identify the need for an interpretable, quantitative score of the repeatability, or consistency, of image generation in diffusion models. We propose a semantic approach, using a pairwise mean CLIP (Contrastive Language-Image Pretraining) score as our semantic consistency score. We applied this metric to compare two state-of-the-art open-source image generation diffusion models, Stable Diffusion XL and PixArt-{\alpha}, and we found statistically significant differences between the semantic consistency scores for the models. Agreement between the Semantic Consistency Score selected model and aggregated human annotations was 94%. We also explored the consistency of SDXL and a LoRA-fine-tuned version of SDXL and found that the fine-tuned model had significantly higher semantic consistency in generated images. The Semantic Consistency Score proposed here offers a measure of image generation alignment, facilitating the evaluation of model architectures for specific tasks and aiding in informed decision-making regarding model selection.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# Megalodon: 文脈長を制限しない効率的なLLM事前学習と推論

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length ( http://arxiv.org/abs/2404.08801v1 )

ライセンス: Link先を確認
Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou, (参考訳) トランスフォーマーの2次複雑さと弱い長さの外挿は、長いシーケンスにスケールする能力を制限し、線形アテンションや状態空間モデルのようなサブクワラティックなソリューションは存在するが、前トレーニング効率と下流タスク精度において、トランスフォーマーを経験的に過小評価している。 文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 MegalodonはMegaのアーキテクチャを継承し、さらに、複雑な指数的移動平均(CEMA)、時間ステップ正規化層、正規化された注意機構、および2ホップ残差構成を持つプレノルムを含む、その能力と安定性を改善するための複数の技術コンポーネントを導入している。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。 メガロドンは、Llama2-7B (1.75) と13B (1.67) の間の途中で1.70の訓練損失に達した。 コード:https://github.com/XuezheMax/megalodon

The quadratic complexity and weak length extrapolation of Transformers limits their ability to scale to long sequences, and while sub-quadratic solutions like linear attention and state space models exist, they empirically underperform Transformers in pretraining efficiency and downstream task accuracy. We introduce Megalodon, a neural architecture for efficient sequence modeling with unlimited context length. Megalodon inherits the architecture of Mega (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability and stability, including complex exponential moving average (CEMA), timestep normalization layer, normalized attention mechanism and pre-norm with two-hop residual configuration. In a controlled head-to-head comparison with Llama2, Megalodon achieves better efficiency than Transformer in the scale of 7 billion parameters and 2 trillion training tokens. Megalodon reaches a training loss of 1.70, landing mid-way between Llama2-7B (1.75) and 13B (1.67). Code: https://github.com/XuezheMax/megalodon
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 単純錯体上のランダムウォーク

Random walks on simplicial complexes ( http://arxiv.org/abs/2404.08803v1 )

ライセンス: Link先を確認
Thomas Bonis, Laurent Decreusefond, Viet Chi Tran, Zhihan Iris Zhang, (参考訳) グラフのラプラシアンの概念は単純複素数やハイパーグラフに一般化することができ、これらの構造の位相に関する情報を含んでいる。 グラフに対しても、関連する単体錯体の考察は、その形状を理解するのが興味深い。 グラフのラプラシアン (Laplacian) は、グラフ上の連続時間マルコフ連鎖の生成元として単純な確率論的解釈を持つが、単純複素数を考えると、物事はそれほど直接ではない。 ここでは、単体錯体上の新しいマルコフ連鎖を定義する。 与えられた順序~$k$に対して、状態空間は、ヌル境界を持つ$k$-プレプレックスの連鎖である$k$-サイクルの集合である。 この新たなフレームワークはグラフ上の正準マルコフ連鎖の自然な一般化である。 マルコフ連鎖の生成元は、離散構造に対する代数トポロジーの文脈で定義される上ラプラシアンであることが示される。 特に、頂点の数が有限であるとき、マルコフ連鎖は正の繰り返しである。 この結果は自明ではない、なぜならサイクルは自身を無界の回数でループすることができるからである。 本研究は, 単体錯体が平坦なトーラスの再精製三角形の列である場合の拡散限界について検討する。 特異ホモロジーとホッジホモロジーの類似性を用いて、この極限を電流の集合で値付けられたものとして表現する。 タイトネスの証明と制限マルティンゲール問題の同定は、フラットノルムを利用し、ジェネレータの収束における誤差項を慎重に制御する。 マーチンゲール問題に対する解の特異性は未解決のままである。 ホール検出への応用を行う。

The notion of Laplacian of a graph can be generalized to simplicial complexes and hypergraphs, and contains information on the topology of these structures. Even for a graph, the consideration of associated simplicial complexes is interesting to understand its shape. Whereas the Laplacian of a graph has a simple probabilistic interpretation as the generator of a continuous time Markov chain on the graph, things are not so direct when considering simplicial complexes. We define here new Markov chains on simplicial complexes. For a given order~$k$, the state space is the set of $k$-cycles that are chains of $k$-simplexes with null boundary. This new framework is a natural generalization of the canonical Markov chains on graphs. We show that the generator of our Markov chain is the upper Laplacian defined in the context of algebraic topology for discrete structure. We establish several key properties of this new process: in particular, when the number of vertices is finite, the Markov chain is positive recurrent. This result is not trivial, since the cycles can loop over themselves an unbounded number of times. We study the diffusive limits when the simplicial complexes under scrutiny are a sequence of ever refining triangulations of the flat torus. Using the analogy between singular and Hodge homologies, we express this limit as valued in the set of currents. The proof of tightness and the identification of the limiting martingale problem make use of the flat norm and carefully controls of the error terms in the convergence of the generator. Uniqueness of the solution to the martingale problem is left open. An application to hole detection is carried.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 術中X線におけるリアルタイムガイドワイヤ追跡とセグメンテーション

Real-time guidewire tracking and segmentation in intraoperative x-ray ( http://arxiv.org/abs/2404.08805v1 )

ライセンス: Link先を確認
Baochang Zhang, Mai Bui, Cheng Wang, Felix Bourier, Heribert Schunkert, Nassir Navab, (参考訳) 血管内手術中、医師は、蛍光画像、触覚情報、および患者の生理的信号で観察されるガイドワイヤの形状や位置など、利用可能なリアルタイム情報に基づいて正確な即時手術を行う必要がある。 この目的のために、リアルタイムかつ正確なガイドワイヤセグメンテーションとトラッキングは、ガイドワイヤの可視化を強化し、介入中の医師やロボットによる介入に対する視覚的フィードバックを提供する。 しかしながら、この課題は、しばしば、ノイズのフルオロスコープ画像列において、低コントラストで現れる長めの変形可能な構造に挑戦する。 これらの課題に対処するために、リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。 最初の段階では、元のX線画像と合成画像を使ってヨーロフ5s検出器を訓練し、ターゲットのガイドワイヤのバウンディングボックスを出力する。 さらに、時空間制約に基づく改良モジュールが組み込まれ、ガイドワイヤのロバストなローカライズと誤検出の除去を行う。 第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。 このネットワークは2つの主要なモジュール、すなわちヘシアンベースの拡張埋め込みモジュールと二重自己保持モジュールを含んでいる。 術中画像の定量的および質的評価により,提案手法は術中ベースラインと現状を著しく上回り,低画質画像に対して高いロバスト性を示した。

During endovascular interventions, physicians have to perform accurate and immediate operations based on the available real-time information, such as the shape and position of guidewires observed on the fluoroscopic images, haptic information and the patients' physiological signals. For this purpose, real-time and accurate guidewire segmentation and tracking can enhance the visualization of guidewires and provide visual feedback for physicians during the intervention as well as for robot-assisted interventions. Nevertheless, this task often comes with the challenge of elongated deformable structures that present themselves with low contrast in the noisy fluoroscopic image sequences. To address these issues, a two-stage deep learning framework for real-time guidewire segmentation and tracking is proposed. In the first stage, a Yolov5s detector is trained, using the original X-ray images as well as synthetic ones, which is employed to output the bounding boxes of possible target guidewires. More importantly, a refinement module based on spatiotemporal constraints is incorporated to robustly localize the guidewire and remove false detections. In the second stage, a novel and efficient network is proposed to segment the guidewire in each detected bounding box. The network contains two major modules, namely a hessian-based enhancement embedding module and a dual self-attention module. Quantitative and qualitative evaluations on clinical intra-operative images demonstrate that the proposed approach significantly outperforms our baselines as well as the current state of the art and, in comparison, shows higher robustness to low quality images.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# CreativEval: LLMベースのハードウェアコード生成の創造性を評価する

CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation ( http://arxiv.org/abs/2404.08806v1 )

ライセンス: Link先を確認
Matthew DeLorenzo, Vasudev Gohil, Jeyavijayan Rajendran, (参考訳) 大規模言語モデル(LLM)は、コード生成において効率的かつ効率的であることが証明され、ハードウェア設計プロセス内での利用に繋がった。 LLMのレジスタ転送レベルのコード生成能力を評価する以前の研究は、機能的正確性のみに焦点を当てていた。 しかし、これらのLCMに関連する創造性や、新しくユニークなソリューションを生成する能力は、この品質を定量化することの難しさを理由として、あまりよく理解されていないメトリクスである。 この研究ギャップに対処するため,ハードウェア設計の文脈におけるLCMの創造性を評価するフレームワークであるCreativeEvalを提案する。 我々は、様々なプロンプトと後処理技術を用いて、4つの創造的サブコンポーネント、流布、柔軟性、独創性、そして実験を定量化する。 次に,GPTモデル,CodeLlama,VeriGenを含む複数の人気のあるLCMを評価し,GPT-3.5がハードウェア設計の最も創造的なモデルであることを示す。

Large Language Models (LLMs) have proved effective and efficient in generating code, leading to their utilization within the hardware design process. Prior works evaluating LLMs' abilities for register transfer level code generation solely focus on functional correctness. However, the creativity associated with these LLMs, or the ability to generate novel and unique solutions, is a metric not as well understood, in part due to the challenge of quantifying this quality. To address this research gap, we present CreativeEval, a framework for evaluating the creativity of LLMs within the context of generating hardware designs. We quantify four creative sub-components, fluency, flexibility, originality, and elaboration, through various prompting and post-processing techniques. We then evaluate multiple popular LLMs (including GPT models, CodeLlama, and VeriGen) upon this creativity metric, with results indicating GPT-3.5 as the most creative model in generating hardware designs.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 適応モデル並列性とリソース最適化によるIoTマルウェア検出の強化

Enhancing IoT Malware Detection through Adaptive Model Parallelism and Resource Optimization ( http://arxiv.org/abs/2404.08808v1 )

ライセンス: Link先を確認
Sreenitha Kasarapu, Sanket Shukla, Sai Manoj Pudukotai Dinakarrao, (参考訳) IoTデバイスの広範な統合により、接続性と計算機能が大幅に改善され、ネットワーク間のシームレスな通信が容易になった。 グローバルなデプロイメントにもかかわらず、IoTデバイスは、固有の脆弱性のために、セキュリティ違反を頻繁にターゲットとしている。 これらの脅威の中で、マルウェアはIoTデバイスに重大なリスクをもたらす。 組み込みセキュリティ機能と限られたリソースの欠如は、IoTデバイスに効果的なマルウェア検出技術を実装する上での課題である。 さらに、既存の方法では、マルウェア検出のためのすべてのデバイスリソースへのアクセスを前提としています。 この課題を克服するために,本研究では,モデル並列性にインスパイアされたリソースとワークロードの認識を活用することにより,IoTデバイスに適したマルウェア検出に新たなアプローチを導入する。 最初は、軽量回帰モデルを用いてマルウェア検出のための利用可能なリソースを評価する。 リソースの可用性、進行中のワークロード、通信コストに基づいて、マルウェア検出タスクは、デバイス上または近隣のIoTノードに十分なリソースで動的に割り当てられる。 データ整合性とユーザのプライバシを維持するために、マルウェア検出タスク全体を転送する代わりに、分類器を分割して複数のノードに分散し、検出のために親ノードに統合する。 実験により,本手法はデバイス上での推測に比べて9.8倍の高速化を実現し,マルウェア検出精度96.7%を維持した。

The widespread integration of IoT devices has greatly improved connectivity and computational capabilities, facilitating seamless communication across networks. Despite their global deployment, IoT devices are frequently targeted for security breaches due to inherent vulnerabilities. Among these threats, malware poses a significant risk to IoT devices. The lack of built-in security features and limited resources present challenges for implementing effective malware detection techniques on IoT devices. Moreover, existing methods assume access to all device resources for malware detection, which is often not feasible for IoT devices deployed in critical real-world scenarios. To overcome this challenge, this study introduces a novel approach to malware detection tailored for IoT devices, leveraging resource and workload awareness inspired by model parallelism. Initially, the device assesses available resources for malware detection using a lightweight regression model. Based on resource availability, ongoing workload, and communication costs, the malware detection task is dynamically allocated either on-device or offloaded to neighboring IoT nodes with sufficient resources. To uphold data integrity and user privacy, instead of transferring the entire malware detection task, the classifier is divided and distributed across multiple nodes, then integrated at the parent node for detection. Experimental results demonstrate that this proposed technique achieves a significant speedup of 9.8 x compared to on-device inference, while maintaining a high malware detection accuracy of 96.7%.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 科学機械学習における不確実性定量化のための粘性ハミルトン-ヤコビPDEの活用

Leveraging viscous Hamilton-Jacobi PDEs for uncertainty quantification in scientific machine learning ( http://arxiv.org/abs/2404.08809v1 )

ライセンス: Link先を確認
Zongren Zou, Tingwei Meng, Paula Chen, Jérôme Darbon, George Em Karniadakis, (参考訳) 科学機械学習(SciML)における不確実性定量化(UQ)は、SciMLの強力な予測力と学習モデルの信頼性を定量化する方法を組み合わせる。 しかし、2つの大きな課題は、限定的な解釈可能性と高価な訓練手順である。 我々は、SciMLと粘性ハミルトン-ヤコビ偏微分方程式(HJ PDEs)で生じるいくつかのベイズ推論問題の間の新しい理論的関係を確立することにより、UQ問題に対する新しい解釈を提供する。 すなわち, 粘性HJ PDEに対する溶液の空間勾配とヘシアンから, 後部平均と共分散を復元できることを示す。 この関係の最初の探索として、線形モデル、ガウス的可能性、ガウス的先行性によるベイズ的推論問題に特化する。 この場合、関連する粘性 HJ PDE を Riccati ODE を用いて解くことができ、モデル予測を継続的に更新する際の計算上の利点を提供する新しい Riccati ベースの方法論を開発する。 具体的には、我々のRiccatiベースのアプローチでは、データの順序に不変なトレーニングセットにデータポイントを効率的に追加または削除し、ハイパーパラメータを継続的にチューニングすることができます。 さらに、更新は、以前組み込まれたデータへの再トレーニングやアクセスを必要としない。 我々はSciMLから、ノイズの多いデータと‘textit{epistemic uncertainty}’を含むいくつかの例を提供し、このアプローチの潜在的な利点を説明する。 特に、データストリーミングアプリケーションに対するこのアプローチのアメニビリティは、リアルタイム推論の可能性を示し、その結果、予測された不確実性を使用して学習プロセスを動的に変更するアプリケーションを可能にします。

Uncertainty quantification (UQ) in scientific machine learning (SciML) combines the powerful predictive power of SciML with methods for quantifying the reliability of the learned models. However, two major challenges remain: limited interpretability and expensive training procedures. We provide a new interpretation for UQ problems by establishing a new theoretical connection between some Bayesian inference problems arising in SciML and viscous Hamilton-Jacobi partial differential equations (HJ PDEs). Namely, we show that the posterior mean and covariance can be recovered from the spatial gradient and Hessian of the solution to a viscous HJ PDE. As a first exploration of this connection, we specialize to Bayesian inference problems with linear models, Gaussian likelihoods, and Gaussian priors. In this case, the associated viscous HJ PDEs can be solved using Riccati ODEs, and we develop a new Riccati-based methodology that provides computational advantages when continuously updating the model predictions. Specifically, our Riccati-based approach can efficiently add or remove data points to the training set invariant to the order of the data and continuously tune hyperparameters. Moreover, neither update requires retraining on or access to previously incorporated data. We provide several examples from SciML involving noisy data and \textit{epistemic uncertainty} to illustrate the potential advantages of our approach. In particular, this approach's amenability to data streaming applications demonstrates its potential for real-time inferences, which, in turn, allows for applications in which the predicted uncertainty is used to dynamically alter the learning process.
翻訳日:2024-04-16 18:42:32 公開日:2024-04-12
# 基礎モデルトレーニングへの導入障壁の削減

Reducing the Barriers to Entry for Foundation Model Training ( http://arxiv.org/abs/2404.08811v1 )

ライセンス: Link先を確認
Paolo Faraboschi, Ellis Giles, Justin Hotard, Konstanty Owczarek, Andrew Wheeler, (参考訳) 最近、世界は機械学習と人工知能のアプリケーションに対する需要が前例のない加速を目撃した。 この需要の急増は、サプライチェーン、GPUが加速するハードウェア、ソフトウェア、データセンターの電力密度、エネルギー消費の基盤技術スタックに大きな負担をかけている。 現在の技術軌道に留まれば、将来の需要は、過剰な支出傾向を示し、市場プレーヤをさらに制限し、イノベーションを緩和し、テクノロジーのギャップを広げる。 これらの課題に対処するため、テクノロジーエコシステム全体にわたってAIトレーニングインフラストラクチャーの根本的な変更を提案する。 この変更は、高性能ソフトウェアから低レベルのハードウェア、マイクロプロセッサ、チップ設計まで、持続可能なインフラに必要なエネルギー効率を向上しながら、スーパーコンピュータと新しいAIトレーニングアプローチの進歩を必要とする。 本稿では,大規模言語モデルの学習における参入障壁を減らし,課題を定量的に強調する分析フレームワークを提案する。

The world has recently witnessed an unprecedented acceleration in demands for Machine Learning and Artificial Intelligence applications. This spike in demand has imposed tremendous strain on the underlying technology stack in supply chain, GPU-accelerated hardware, software, datacenter power density, and energy consumption. If left on the current technological trajectory, future demands show insurmountable spending trends, further limiting market players, stifling innovation, and widening the technology gap. To address these challenges, we propose a fundamental change in the AI training infrastructure throughout the technology ecosystem. The changes require advancements in supercomputing and novel AI training approaches, from high-end software to low-level hardware, microprocessor, and chip design, while advancing the energy efficiency required by a sustainable infrastructure. This paper presents the analytical framework that quantitatively highlights the challenges and points to the opportunities to reduce the barriers to entry for training large language models.
翻訳日:2024-04-16 18:32:48 公開日:2024-04-12
# E3: 限られたデータを用いた合成画像検出器を新しい発電機に適応するためのエキスパート組込み器の組み立て

E3: Ensemble of Expert Embedders for Adapting Synthetic Image Detectors to New Generators Using Limited Data ( http://arxiv.org/abs/2404.08814v1 )

ライセンス: Link先を確認
Aref Azizpour, Tai D. Nguyen, Manil Shrestha, Kaidi Xu, Edward Kim, Matthew C. Stamm, (参考訳) 生成AIが急速に進歩するにつれて、新しい合成画像生成装置が急速に出現し続けている。 従来の検出方法は、これらのジェネレータに適応する上で2つの大きな課題に直面している。新しい技術からの合成画像の法医学的痕跡は、トレーニング中に学んだものとは大きく異なり、新しいジェネレータのデータへのアクセスは、しばしば制限される。 これらの課題に対処するために,合成画像検出器を更新するための新しい連続学習フレームワークであるEnsemble of Expert Embedders (E3)を紹介する。 E3は、最小限のトレーニングデータを使用して、新しく登場したジェネレータからの画像の正確な検出を可能にする。 当社のアプローチでは,まずトランスファーラーニングを用いて,特定の発電機の法医学的トレースを専門とする,一連の専門的埋め込み器を開発する。 そして、すべての埋め込みは、専門家知識融合ネットワークによって共同で分析され、正確で信頼性の高い検出決定を生成する。 実験により,E3は,合成画像検出に特化して開発されたものを含め,既存の連続学習法よりも優れていることが示された。

As generative AI progresses rapidly, new synthetic image generators continue to emerge at a swift pace. Traditional detection methods face two main challenges in adapting to these generators: the forensic traces of synthetic images from new techniques can vastly differ from those learned during training, and access to data for these new generators is often limited. To address these issues, we introduce the Ensemble of Expert Embedders (E3), a novel continual learning framework for updating synthetic image detectors. E3 enables the accurate detection of images from newly emerged generators using minimal training data. Our approach does this by first employing transfer learning to develop a suite of expert embedders, each specializing in the forensic traces of a specific generator. Then, all embeddings are jointly analyzed by an Expert Knowledge Fusion Network to produce accurate and reliable detection decisions. Our experiments demonstrate that E3 outperforms existing continual learning methods, including those developed specifically for synthetic image detection.
翻訳日:2024-04-16 18:32:48 公開日:2024-04-12
# プロパゲータと経路積分からの星指数

Star exponentials from propagators and path integrals ( http://arxiv.org/abs/2404.08815v1 )

ライセンス: Link先を確認
Berra-Montiel Jasel, Garcia-Compean Hugo, Molgado Alberto, (参考訳) 本稿では、変形量子化形式に現れる星指数と、量子力学におけるプロパゲータに関連するファインマンの経路積分の関係について述べる。 このような関係を得るために、時間発展演算子に対応する記号を用いて、量子プロパゲータを指数関数の積分変換として可視化することから始め、古典的歴史の全てを和として、このプロパゲータのファインマンの経路積分表現を導入する。 このように構成された恒星指数は、変形量子化の文脈でよく理解されるように、形式級数の収束に依存しないという利点がある。 文献で報告された標準結果の回復を図示する基本的な例をいくつか紹介する。 さらに、任意の有限次元系に対して、ここで導入されたスター指数を用いて、ポアソンのシグマモデルに対する量子場論の文脈で遭遇したスター積の特定の表現を見つける。

In this paper we address the relation between the star exponentials emerging within the Deformation Quantization formalism and Feynman's path integrals associated with propagators in quantum dynamics. In order to obtain such a relation, we start by visualizing the quantum propagator as an integral transform of the star exponential by means of the symbol corresponding to the time evolution operator and, thus, we introduce Feynman's path integral representation of the propagator as a sum over all the classical histories. The star exponential thus constructed has the advantage that it does not depend on the convergence of formal series, as commonly understood within the context of Deformation Quantization. We include some basic examples to illustrate our findings, recovering standard results reported in the literature. Further, for an arbitrary finite dimensional system, we use the star exponential introduced here in order to find a particular representation of the star product which resembles the one encountered in the context of the quantum field theory for a Poisson sigma model.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 大規模言語モデルを用いた政治Q&Aセッションにおける回答の品質評価

Evaluating the Quality of Answers in Political Q&A Sessions with Large Language Models ( http://arxiv.org/abs/2404.08816v1 )

ライセンス: Link先を確認
R. Michael Alvarez, Jacob Morrier, (参考訳) 本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。 そこで本研究では,最初の質問を正確に推測できる度合いに基づいて,回答の品質を測定することを提案する。 この回答の質の概念は、その最初の質問に対する関係性を本質的に反映している。 セマンティックサーチと平行に描画することで、この測定手法は、ラベル付きデータを追加せずに、観察された質問や回答のコーパス上で、大きな言語モデルを微調整することで実現できると論じる。 本稿では,カナダ庶民院における質問期間の文脈における計測手法について紹介する。 提案手法は,質問期間における回答の質の相関に関する貴重な洞察を与える。 回答の質は、質問する議員の党員関係に基づいて大きく変化し、回答の質と質問の話題との間に有意義な相関関係を明らかにする。

This paper presents a new approach to evaluating the quality of answers in political question-and-answer sessions. We propose to measure an answer's quality based on the degree to which it allows us to infer the initial question accurately. This conception of answer quality inherently reflects their relevance to initial questions. Drawing parallels with semantic search, we argue that this measurement approach can be operationalized by fine-tuning a large language model on the observed corpus of questions and answers without additional labeled data. We showcase our measurement approach within the context of the Question Period in the Canadian House of Commons. Our approach yields valuable insights into the correlates of the quality of answers in the Question Period. We find that answer quality varies significantly based on the party affiliation of the members of Parliament asking the questions and uncover a meaningful correlation between answer quality and the topics of the questions.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 抽象構文木編集距離を用いたコード類似性評価の再検討

Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance ( http://arxiv.org/abs/2404.08817v1 )

ライセンス: Link先を確認
Yewei Song, Cedric Lothritz, Daniel Tang, Tegawendé F. Bissyandé, Jacques Klein, (参考訳) 本稿では,近年のコード類似度評価指標を再検討し,特に多様なプログラミング言語における抽象構文木 (AST) 編集距離の適用に焦点を当てた。 特に、これらの指標の有用性を探求し、従来のシーケンス類似度指標と比較する。 実験では、複雑なコード構造をキャプチャする際のAST編集距離の有効性を示し、既存のメトリクスと高い相関関係を示した。 さらに,AST編集距離とプロンプトに基づくGPT類似度スコアの長所と短所をBLEUスコア,実行マッチ,ジャカード類似度と比較し検討した。 本稿では,TSED(Tree similarity of Edit Distance)の拡張版を代表として,すべてのテスト言語で有効性を示す適応可能なメトリクスを提案し,最適化し,公開する。

This paper revisits recent code similarity evaluation metrics, particularly focusing on the application of Abstract Syntax Tree (AST) editing distance in diverse programming languages. In particular, we explore the usefulness of these metrics and compare them to traditional sequence similarity metrics. Our experiments showcase the effectiveness of AST editing distance in capturing intricate code structures, revealing a high correlation with established metrics. Furthermore, we explore the strengths and weaknesses of AST editing distance and prompt-based GPT similarity scores in comparison to BLEU score, execution match, and Jaccard Similarity. We propose, optimize, and publish an adaptable metric that demonstrates effectiveness across all tested languages, representing an enhanced version of Tree Similarity of Edit Distance (TSED).
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# メモリ内処理アーキテクチャにおけるマルウェア検出効率の強化

Empowering Malware Detection Efficiency within Processing-in-Memory Architecture ( http://arxiv.org/abs/2404.08818v1 )

ライセンス: Link先を確認
Sreenitha Kasarapu, Sathwika Bavikadi, Sai Manoj Pudukotai Dinakarrao, (参考訳) 様々な産業にまたがる組み込みシステムの広範な統合により、デバイス間のシームレスな接続が促進され、計算能力が強化された。 大規模なアプリケーションにもかかわらず、組み込みシステムは重大なセキュリティ上の脅威に直面し、最も重大な脆弱性の1つはマルウェアとして知られる悪意のあるソフトウェアである。 近年,機械学習を利用したマルウェア検出技術が普及している。 ディープニューラルネットワーク(DNN)と畳み込みニューラルネットワーク(CNN)は、画像処理タスクにおいて特に効率的であることが証明されている。 しかしながら、ニューラルネットワークアーキテクチャの大きな欠点の1つは、その相当な計算リソース要件である。 更新されたマルウェアと良性サンプルによるマルウェア検出モデルの継続的なトレーニングは、膨大な計算資源を必要とし、現実世界のアプリケーションにとっての課題である。 これらの懸念に応えて,PIM(Processing-in-Memory)ベースのアーキテクチャを提案し,メモリアクセス遅延を軽減し,モデル更新時に消費するリソースを削減する。 スループットをさらに向上し、エネルギー消費を最小化するため、我々はCNNモデルに適した精度のスケーリング手法を取り入れた。 提案するPIMアーキテクチャは,既存のLookup Table(LUT)ベースのPIMアーキテクチャと比較して1.09倍高いスループットを示す。 さらに、PIMと組み合わせた精度スケーリングは、性能を犠牲にすることなく、完全精度操作に比べて1.5倍のエネルギー効率を向上する。 この革新的なアプローチは、マルウェア検出モデルのアップデートのリソース集約性に対する有望な解決策を提供し、より効率的で持続可能なサイバーセキュリティプラクティスへの道を開く。

The widespread integration of embedded systems across various industries has facilitated seamless connectivity among devices and bolstered computational capabilities. Despite their extensive applications, embedded systems encounter significant security threats, with one of the most critical vulnerabilities being malicious software, commonly known as malware. In recent times, malware detection techniques leveraging Machine Learning have gained popularity. Deep Neural Networks (DNNs) and Convolutional Neural Networks (CNNs) have proven particularly efficient in image processing tasks. However, one major drawback of neural network architectures is their substantial computational resource requirements. Continuous training of malware detection models with updated malware and benign samples demands immense computational resources, presenting a challenge for real-world applications. In response to these concerns, we propose a Processing-in-Memory (PIM)-based architecture to mitigate memory access latency, thereby reducing the resources consumed during model updates. To further enhance throughput and minimize energy consumption, we incorporate precision scaling techniques tailored for CNN models. Our proposed PIM architecture exhibits a 1.09x higher throughput compared to existing Lookup Table (LUT)-based PIM architectures. Additionally, precision scaling combined with PIM enhances energy efficiency by 1.5x compared to full-precision operations, without sacrificing performance. This innovative approach offers a promising solution to the resource-intensive nature of malware detection model updates, paving the way for more efficient and sustainable cybersecurity practices.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 状態空間モデルにおける状態のイリュージョン

The Illusion of State in State-Space Models ( http://arxiv.org/abs/2404.08819v1 )

ライセンス: Link先を確認
William Merrill, Jackson Petty, Ashish Sabharwal, (参考訳) ステートスペースモデル(SSM)は、かつてユビキタスであったトランスフォーマーアーキテクチャと比較して、大きな言語モデル(LLM)を構築するための代替アーキテクチャとして出現している。 変換器の理論的弱点の1つは、ある種の逐次計算と状態追跡を表現できないことである(Merrill and Sabharwal, 2023)。 しかし、SSMは状態トラッキングの表現力において本当に(トランスフォーマーよりも)有利なものなのだろうか? 驚いたことに、答えはノーだ。 SSMは複雑性クラス$\mathsf{TC}^0$の外では計算を表現できない。 特にこれは、置換合成のような単純な状態追跡問題を解くことができないことを意味する。 SSMは、特定の表記法でチェスの動きを正確に追跡したり、コードを評価したり、長い物語の中でエンティティを追跡したりすることができない。 フォーマルな分析を補完するため,マンバスタイルのSSMが状態追跡に苦慮していることを示す実験を報告した。 したがって、再帰的な定式化にもかかわらず、SSMの「状態」は錯覚である: SSMは、トランスフォーマーのような非再帰モデルに類似した表現性制限を持ち、現実世界の状態追跡問題の解法を根本的に制限する可能性がある。

State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express certain kinds of sequential computation and state tracking (Merrill and Sabharwal, 2023), which SSMs are explicitly designed to address via their close architectural similarity to recurrent neural networks (RNNs). But do SSMs truly have an advantage (over transformers) in expressive power for state tracking? Surprisingly, the answer is no. Our analysis reveals that the expressive power of SSMs is limited very similarly to transformers: SSMs cannot express computation outside the complexity class $\mathsf{TC}^0$. In particular, this means they cannot solve simple state-tracking problems like permutation composition. It follows that SSMs are provably unable to accurately track chess moves with certain notation, evaluate code, or track entities in a long narrative. To supplement our formal analysis, we report experiments showing that Mamba-style SSMs indeed struggle with state tracking. Thus, despite its recurrent formulation, the "state" in an SSM is an illusion: SSMs have similar expressiveness limitations to non-recurrent models like transformers, which may fundamentally limit their ability to solve real-world state-tracking problems.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# ワインラベル認識のためのシングルイメージ駆動3次元視点学習データ強化

Single-image driven 3d viewpoint training data augmentation for effective wine label recognition ( http://arxiv.org/abs/2404.08820v1 )

ライセンス: Link先を確認
Yueh-Cheng Huang, Hsin-Yi Chen, Cheng-Jui Hung, Jen-Hui Chuang, Jenq-Neng Hwang, (参考訳) 本稿では, 複雑な画像認識の分野において, トレーニングデータ不足を克服する上で重要な課題として, ワインラベル認識に適した新しい3次元視点強調手法を提案する。 本手法は,1つの実世界のワインラベル画像から視覚的にリアルなトレーニングサンプルを生成し,テキストとロゴの複雑な組み合わせによって生じる課題を克服することにより,ディープラーニングモデルの性能を向上させる。 古典的生成逆ネットワーク(GAN)法は、そのような複雑なコンテンツの組み合わせを合成するのに不足する。 提案手法は、時間テストされたコンピュータビジョンと画像処理戦略を利用してトレーニングデータセットを拡張し、ディープラーニングアプリケーションのためのトレーニングサンプルの範囲を広げる。 データ拡張に対するこの革新的なアプローチは、限られたトレーニングリソースの制約を回避する。 視覚変換器(ViT)アーキテクチャを用いたバッチ・オール・トリプレット・メトリック・ラーニングによる強化トレーニング画像を用いて、各ワインラベルに対して最も差別的な埋め込み機能を得ることができ、トレーニングクラスや今後新たに収集されるワインラベルにおいて、既存のワインラベルのワンショット認識を行うことができる。 実験の結果,従来の2次元データ拡張技術に比べて認識精度が有意に向上した。

Confronting the critical challenge of insufficient training data in the field of complex image recognition, this paper introduces a novel 3D viewpoint augmentation technique specifically tailored for wine label recognition. This method enhances deep learning model performance by generating visually realistic training samples from a single real-world wine label image, overcoming the challenges posed by the intricate combinations of text and logos. Classical Generative Adversarial Network (GAN) methods fall short in synthesizing such intricate content combination. Our proposed solution leverages time-tested computer vision and image processing strategies to expand our training dataset, thereby broadening the range of training samples for deep learning applications. This innovative approach to data augmentation circumvents the constraints of limited training resources. Using the augmented training images through batch-all triplet metric learning on a Vision Transformer (ViT) architecture, we can get the most discriminative embedding features for every wine label, enabling us to perform one-shot recognition of existing wine labels in the training classes or future newly collected wine labels unavailable in the training. Experimental results show a significant increase in recognition accuracy over conventional 2D data augmentation techniques.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 混合整数プログラミングによる制約付きC-テスト生成

Constrained C-Test Generation via Mixed-Integer Programming ( http://arxiv.org/abs/2404.08821v1 )

ライセンス: Link先を確認
Ji-Ung Lee, Marc E. Pfetsch, Iryna Gurevych, (参考訳) 本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の逸脱形式であるC-テストを生成する新しい手法を提案する。 局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。 これにより、ギャップサイズと配置を同時に検討し、グローバルな最適解を実現し、ギャップ困難予測のための最先端モデルを直接最適化問題に統合することができる。 4つのC-Test生成戦略(GPT-4を含む)の40人の参加者によるユーザスタディでは、我々のアプローチ(MIP)は2つのベースライン戦略(ギャップ配置とGPT-4に基づく)を著しく上回り、第3の戦略(ギャップサイズに基づく)と同等に実行している。 我々の分析では、GPT-4は生成中の明示的な制約を満たすのに依然として苦労しており、MIPは認識される困難と相関するC-テストを生成する。 当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。

This work proposes a novel method to generate C-Tests; a deviated form of cloze tests (a gap filling exercise) where only the last part of a word is turned into a gap. In contrast to previous works that only consider varying the gap size or gap placement to achieve locally optimal solutions, we propose a mixed-integer programming (MIP) approach. This allows us to consider gap size and placement simultaneously, achieving globally optimal solutions, and to directly integrate state-of-the-art models for gap difficulty prediction into the optimization problem. A user study with 40 participants across four C-Test generation strategies (including GPT-4) shows that our approach (MIP) significantly outperforms two of the baseline strategies (based on gap placement and GPT-4); and performs on-par with the third (based on gap size). Our analysis shows that GPT-4 still struggles to fulfill explicit constraints during generation and that MIP produces C-Tests that correlate best with the perceived difficulty. We publish our code, model, and collected data consisting of 32 English C-Tests with 20 gaps each (totaling 3,200 individual gap responses) under an open source license.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 人体外用剤を用いた神経-ロボットグラフプの逆運動学

Inverse Kinematics for Neuro-Robotic Grasping with Humanoid Embodied Agents ( http://arxiv.org/abs/2404.08825v1 )

ライセンス: Link先を確認
Jan-Gerrit Habekost, Connor Gäde, Philipp Allgeuer, Stefan Wermter, (参考訳) 本稿では,カルト空間におけるスムーズなロボットの動きを素早く設計できるゼロショットモーションプランニング手法を提案する。 B\'ezier曲線をベースとしたCartesian Planは、我々の神経インスパイアされた逆運動学(IK)手法であるCycleIKによって、結合空間軌跡に変換され、任意のロボット設計にスケールすることで、プラットフォーム独立を可能にする。 人型ロボットNICOとNICOLの物理的ハードウェア上での動作プランナの評価を行った。 本手法は,言語モデル (LLM) であるエンボディエージェントを中核に配置する。 我々は、NICOLに導入されたエンボディ化剤を、NICOでエンボディ化するように一般化する。 エージェントは、個別の物理動作のセットを実行でき、ユーザーは様々な異なるロボットに言葉で指示することができる。 我々は、そのアクション空間に把握プリミティブを貢献し、家庭用オブジェクトの正確な操作を可能にします。 新しいCycleIK法は、シミュレーションにおける一般的な数値IK解法や最先端のニューラルIK法と比較され、アルゴリズムランタイムが非常に短い場合、評価されたすべてのメソッドと競合するか、性能が優れていることが示されている。 NICOLロボットとNICOロボットの両方で、各ロボットに対して72%から82%の把握成功が報告されている。

This paper introduces a novel zero-shot motion planning method that allows users to quickly design smooth robot motions in Cartesian space. A B\'ezier curve-based Cartesian plan is transformed into a joint space trajectory by our neuro-inspired inverse kinematics (IK) method CycleIK, for which we enable platform independence by scaling it to arbitrary robot designs. The motion planner is evaluated on the physical hardware of the two humanoid robots NICO and NICOL in a human-in-the-loop grasping scenario. Our method is deployed with an embodied agent that is a large language model (LLM) at its core. We generalize the embodied agent, that was introduced for NICOL, to also be embodied by NICO. The agent can execute a discrete set of physical actions and allows the user to verbally instruct various different robots. We contribute a grasping primitive to its action space that allows for precise manipulation of household objects. The new CycleIK method is compared to popular numerical IK solvers and state-of-the-art neural IK methods in simulation and is shown to be competitive with or outperform all evaluated methods when the algorithm runtime is very short. The grasping primitive is evaluated on both NICOL and NICO robots with a reported grasp success of 72% to 82% for each robot, respectively.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 「ミルクを戻すのを忘れるな!」 異常を検知するための身体的エージェントのデータセット

"Don't forget to put the milk back!" Dataset for Enabling Embodied Agents to Detect Anomalous Situations ( http://arxiv.org/abs/2404.08827v1 )

ライセンス: Link先を確認
James F. Mullen Jr, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Dinesh Manocha, Reza Ghanadan, (参考訳) ホームロボットは、ユーザーの生活を楽にする。 私たちの仕事は、ロボットが自宅の危険または不衛生な異常をユーザーに知らせることによって、この目標を支援します。 これらの異常の例としては、ミルクを外したり、ストーブをオフにすることを忘れたり、子供に感染しやすい毒を残したりしている。 このような能力を持つホームロボットの実現に向けて、私たちは、SafetyDetectと呼ばれる新しいデータセットを作成しました。 SafetyDetectデータセットは1000の異常なホームシーンで構成される。 提案手法は,シーンのグラフ表現とシーン内のオブジェクト間の関係の両方とともに,大規模言語モデル(LLM)を利用する。 私たちの重要な洞察は、この接続されたシーングラフと、それが符号化したオブジェクトの関係によって、特に危険な状況や不衛生な状況を検出するため、LLMはシーンをよりよく理解することができます。 我々の最も有望なアプローチは、GPT-4を利用し、シーングラフから対象関係を正常、危険、不衛生、子供にとって危険と分類する分類手法を追求する。 この手法はSafetyDetect Datasetの90%以上の異常シナリオを正しく識別することができる。 さらに、ClearPath TurtleBot上で実世界の実験を行い、実世界のシーンの視覚からシーングラフを生成し、修正することなくアプローチを実行します。 このセットアップはパフォーマンスを損なわずに済んだ。 SafetyDetect Datasetとコードは、この論文の公開時に一般公開される。

Home robots intend to make their users lives easier. Our work assists in this goal by enabling robots to inform their users of dangerous or unsanitary anomalies in their home. Some examples of these anomalies include the user leaving their milk out, forgetting to turn off the stove, or leaving poison accessible to children. To move towards enabling home robots with these abilities, we have created a new dataset, which we call SafetyDetect. The SafetyDetect dataset consists of 1000 anomalous home scenes, each of which contains unsafe or unsanitary situations for an agent to detect. Our approach utilizes large language models (LLMs) alongside both a graph representation of the scene and the relationships between the objects in the scene. Our key insight is that this connected scene graph and the object relationships it encodes enables the LLM to better reason about the scene -- especially as it relates to detecting dangerous or unsanitary situations. Our most promising approach utilizes GPT-4 and pursues a categorization technique where object relations from the scene graph are classified as normal, dangerous, unsanitary, or dangerous for children. This method is able to correctly identify over 90% of anomalous scenarios in the SafetyDetect Dataset. Additionally, we conduct real world experiments on a ClearPath TurtleBot where we generate a scene graph from visuals of the real world scene, and run our approach with no modification. This setup resulted in little performance loss. The SafetyDetect Dataset and code will be released to the public upon this papers publication.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 人選好からの逆行学習のための隠れPRIOR

Hindsight PRIORs for Reward Learning from Human Preferences ( http://arxiv.org/abs/2404.08828v1 )

ライセンス: Link先を確認
Mudit Verma, Katherine Metcalf, (参考訳) 嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が好みに最も寄与しているかを決定することに固有の信用代入問題に対処していない。 我々は、世界モデルを用いて軌道内の状態重要度を近似し、補助的な予測された返却再分配目標を通じて、状態重要度に比例する報酬を誘導する信用割当戦略(Hindsight PRIOR)を導入することで、そのような制限に対処する。 報酬学習に国家の重要さを組み込むことは、政策学習のスピード、全体的な政策性能、および報酬回復を、移動と操作の両方のタスクで改善する。 例えば、Hindsight PRIORはMetaWorld (20%) と DMC (15%) で、平均で大幅に回復する(p<0.05)。 パフォーマンス向上と当社の短縮は、単純なクレジット代入戦略でさえ、報奨学習における利益を示し、フォワードダイナミクスの予測における状態の重要性は、優先的な決定に対する国家の貢献の強力なプロキシであることを示している。 コードリポジトリはhttps://github.com/apple/ml-rlhf-hindsight-priorにある。

Preference based Reinforcement Learning (PbRL) removes the need to hand specify a reward function by learning a reward from preference feedback over policy behaviors. Current approaches to PbRL do not address the credit assignment problem inherent in determining which parts of a behavior most contributed to a preference, which result in data intensive approaches and subpar reward functions. We address such limitations by introducing a credit assignment strategy (Hindsight PRIOR) that uses a world model to approximate state importance within a trajectory and then guides rewards to be proportional to state importance through an auxiliary predicted return redistribution objective. Incorporating state importance into reward learning improves the speed of policy learning, overall policy performance, and reward recovery on both locomotion and manipulation tasks. For example, Hindsight PRIOR recovers on average significantly (p<0.05) more reward on MetaWorld (20%) and DMC (15%). The performance gains and our ablations demonstrate the benefits even a simple credit assignment strategy can have on reward learning and that state importance in forward dynamics prediction is a strong proxy for a state's contribution to a preference decision. Code repository can be found at https://github.com/apple/ml-rlhf-hindsight-prior.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 構造複雑度測定を用いたレコメンダシステムの予測可能性の測定

Measuring the Predictability of Recommender Systems using Structural Complexity Metrics ( http://arxiv.org/abs/2404.08829v1 )

ライセンス: Link先を確認
Alfonso Valderrama, Andrés Abeliuk, (参考訳) Recommender System (RS) はオンラインコンテンツのフィルタリングとキュレーションの中心である。 これらのアルゴリズムは、過去の好みに基づいて、目に見えない項目のユーザ評価を予測する。 その重要性にもかかわらず、RSの生まれつきの予測可能性には注意が向けられている。 本研究では,ユーザ・イテム評価行列の構造的複雑さに基づいて,RSの予測可能性を測定するためのデータ駆動メトリクスを提案する。 予測可能性の低いスコアは、複雑で予測不可能なユーザとイテムのインタラクションを示し、高い予測可能性スコアは予測可能性を持つより複雑なパターンを明らかにします。 本稿では,特異値分解(SVD)と行列分解(MF)の2つの手法を提案する。 データを摂動し、摂動バージョンの予測を評価することにより、SVD特異ベクトルによって示される構造的整合性について検討する。 この仮定は、高度に構造化されたデータのランダムな摂動がその構造を変えないという仮定である。 実験結果から,実データ集合上での最良の予測アルゴリズムの精度と測定値との間には高い相関関係が認められた。

Recommender systems (RS) are central to the filtering and curation of online content. These algorithms predict user ratings for unseen items based on past preferences. Despite their importance, the innate predictability of RS has received limited attention. This study introduces data-driven metrics to measure the predictability of RS based on the structural complexity of the user-item rating matrix. A low predictability score indicates complex and unpredictable user-item interactions, while a high predictability score reveals less complex patterns with predictive potential. We propose two strategies that use singular value decomposition (SVD) and matrix factorization (MF) to measure structural complexity. By perturbing the data and evaluating the prediction of the perturbed version, we explore the structural consistency indicated by the SVD singular vectors. The assumption is that a random perturbation of highly structured data does not change its structure. Empirical results show a high correlation between our metrics and the accuracy of the best-performing prediction algorithms on real data sets.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 計算病理における効率的な推論のための構造的モデル解析

Structured Model Pruning for Efficient Inference in Computational Pathology ( http://arxiv.org/abs/2404.08831v1 )

ライセンス: Link先を確認
Mohammed Adnan, Qinle Ba, Nazim Shaikh, Shivam Kalra, Satarupa Mukherjee, Auranuch Lorsakul, (参考訳) 近年、コンピュータ支援診断からICUトリアージまで、さまざまなユースケースでAI(Artificial Intelligence)を医療に適用するための大きな努力が続けられている。 しかし、AIモデルの規模は、法則のスケーリングと基礎モデルの成功により急速に拡大しており、実用的なアプリケーションで高度なモデルを活用することの難しさが増している。 したがって、特にリソース制約や時間感度でAIソリューションをデプロイするために、効率的なモデルを開発することが不可欠である。 モデル圧縮(モデル圧縮、英: model compression)とは、重要でないモデルコンポーネントを除去したり、パラメータの精度を下げて、モデル計算の需要を減らす手法である。 本研究では,モデルプルーニングをモデル圧縮手法として,解析性能を損なうことなく,計算・デジタル病理解析における推論コストを効果的に削減できることを実証する。 そこで本研究では, バイオメディカルイメージングにおいて広く用いられているU-Netスタイルのアーキテクチャを抽出する手法を開発し, 核インスタンスのセグメンテーションと分類に関する複数のプルーニングヒューリスティックスを評価し, プルーニングが, 性能の低下で少なくとも70%圧縮できることを実証的に実証した。

Recent years have seen significant efforts to adopt Artificial Intelligence (AI) in healthcare for various use cases, from computer-aided diagnosis to ICU triage. However, the size of AI models has been rapidly growing due to scaling laws and the success of foundational models, which poses an increasing challenge to leverage advanced models in practical applications. It is thus imperative to develop efficient models, especially for deploying AI solutions under resource-constrains or with time sensitivity. One potential solution is to perform model compression, a set of techniques that remove less important model components or reduce parameter precision, to reduce model computation demand. In this work, we demonstrate that model pruning, as a model compression technique, can effectively reduce inference cost for computational and digital pathology based analysis with a negligible loss of analysis performance. To this end, we develop a methodology for pruning the widely used U-Net-style architectures in biomedical imaging, with which we evaluate multiple pruning heuristics on nuclei instance segmentation and classification, and empirically demonstrate that pruning can compress models by at least 70% with a negligible drop in performance.
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# BERT-LSH: 注意すべき絶対計算を減らす

BERT-LSH: Reducing Absolute Compute For Attention ( http://arxiv.org/abs/2404.08836v1 )

ライセンス: Link先を確認
Zezheng Li, Kingston Yip, (参考訳) 本研究では,局所感性ハッシュ(LSH)を組み込んだ新しいBERT-LSHモデルを提案する。 本稿では,標準ベースラインBERTモデルと比較して,このモデルの計算効率と性能について検討する。 以上の結果から,BERT-LSHは,事前学習や微調整作業において,ベースラインモデルよりも予期せぬ性能を保ちながら,自己保持層の計算要求を著しく低減することがわかった。 これらの結果は、LSHに基づくアテンション機構は、計算上の利点を提供するだけでなく、トレーニングデータからモデルを一般化する能力を高める可能性があることを示唆している。 詳細はGitHubリポジトリを参照してほしい。

This study introduces a novel BERT-LSH model that incorporates Locality Sensitive Hashing (LSH) to approximate the attention mechanism in the BERT architecture. We examine the computational efficiency and performance of this model compared to a standard baseline BERT model. Our findings reveal that BERT-LSH significantly reduces computational demand for the self-attention layer while unexpectedly outperforming the baseline model in pretraining and fine-tuning tasks. These results suggest that the LSH-based attention mechanism not only offers computational advantages but also may enhance the model's ability to generalize from its training data. For more information, visit our GitHub repository: https://github.com/leo4life2/algoml-final
翻訳日:2024-04-16 18:32:47 公開日:2024-04-12
# 車間充電:モデル、複雑度、ヒューリスティックス

Vehicle-to-Vehicle Charging: Model, Complexity, and Heuristics ( http://arxiv.org/abs/2404.08837v1 )

ライセンス: Link先を確認
Cláudio Gomes, João Paulo Fernandes, Gabriel Falcao, Soummya Kar, Sridhar Tayur, (参考訳) 電気自動車(EV)の急速な普及は、電力網がピーク需要に対応または緩和する上での課題となっている。 電気自動車充電(V2VC)は、最近人気EVに採用され、EVの管理と運用に新たな機会と課題を提起している。 本稿では,EV運転を最適化する際,意思決定者がV2VCを考慮に入れられる新しいV2VCモデルを提案する。 V2VCの最適化はNP-Completeであることが示され、小さな問題でも計算が難しいことが判明した。 R-V2VCは,現実的な大きさの問題を効率的に解くために,結果として生じる一様制約行列を有効活用するヒューリスティックである。 以上の結果から, R-V2VCは, 最適あるいは最適に近い品質の解を達成しつつ, 問題のサイズが大きくなるにつれて, 解時間に線形な成長を示すことが示された。 R-V2VCは実世界の運用に使用することができ、V2VCのコストと利益を評価する際のシナリオを調査することができる。

The rapid adoption of Electric Vehicles (EVs) poses challenges for electricity grids to accommodate or mitigate peak demand. Vehicle-to-Vehicle Charging (V2VC) has been recently adopted by popular EVs, posing new opportunities and challenges to the management and operation of EVs. We present a novel V2VC model that allows decision-makers to take V2VC into account when optimizing their EV operations. We show that optimizing V2VC is NP-Complete and find that even small problem instances are computationally challenging. We propose R-V2VC, a heuristic that takes advantage of the resulting totally unimodular constraint matrix to efficiently solve problems of realistic sizes. Our results demonstrate that R-V2VC presents a linear growth in the solution time as the problem size increases, while achieving solutions of optimal or near-optimal quality. R-V2VC can be used for real-world operations and to study what-if scenarios when evaluating the costs and benefits of V2VC.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v1 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# マルチ・ロバスト因果変化の寄与

Multiply-Robust Causal Change Attribution ( http://arxiv.org/abs/2404.08839v1 )

ライセンス: Link先を確認
Victor Quintas-Martinez, Mohammad Taha Bahadori, Eduardo Santiago, Jeff Mu, Dominik Janzing, David Heckerman, (参考訳) 2つのサンプルデータを比較して、結果変数の分布の変化を観察する。 複数の説明変数が存在する場合、それぞれの原因によってどの程度の変化が説明できるのか? 我々は、因果モデルから回帰法と再重み付け法を組み合わせて、それぞれの因果機構の寄与を定量化する新しい推定戦略を開発する。 提案手法は多元的ロバストであり,部分的不特定条件下でも対象パラメータを復元する。 我々は、推定器が一貫し、漸近的に正常であることを証明した。 さらに、Shapley値のような因果帰属のための既存のフレームワークにも組み込むことができ、一貫性と大規模な分布特性を継承する。 本手法はモンテカルロシミュレーションにおいて優れた性能を示し,その有効性を示す。

Comparing two samples of data, we observe a change in the distribution of an outcome variable. In the presence of multiple explanatory variables, how much of the change can be explained by each possible cause? We develop a new estimation strategy that, given a causal model, combines regression and re-weighting methods to quantify the contribution of each causal mechanism. Our proposed methodology is multiply robust, meaning that it still recovers the target parameter under partial misspecification. We prove that our estimator is consistent and asymptotically normal. Moreover, it can be incorporated into existing frameworks for causal attribution, such as Shapley values, which will inherit the consistency and large-sample distribution properties. Our method demonstrates excellent performance in Monte Carlo simulations, and we show its usefulness in an empirical application.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# ハンドオブジェクト接触セマンティックマッピングによるクラッタ環境における多指ロボットハンドグラッピング

Multi-fingered Robotic Hand Grasping in Cluttered Environments through Hand-object Contact Semantic Mapping ( http://arxiv.org/abs/2404.08844v1 )

ライセンス: Link先を確認
Lei Zhang, Kaixin Bai, Guowen Huang, Zhaopeng Chen, Jianwei Zhang, (参考訳) 最適化手法と生成モデルの統合により,手指の5指握りに対する巧妙な巧妙な操作技術が得られた。 しかし、これらの手法を乱雑な環境に適用することは、比較的未調査の分野である。 この研究ギャップに対処するため,手指5本のグリップサンプルを散在した状態で生成する手法を開発した。 本手法は,手と周囲の物体のグリップ品質と微妙な相互作用をシミュレートすることを強調する。 提案手法の鍵となる側面は,オブジェクトの空き情報に基づいて接触空間および意味表現と余暇把握を推定できるデータ生成手法である。 さらに,我々のコンタクトセマンティック条件変分オートエンコーダ(CoSe-CVAE)ネットワークは,空間データと意味データの両方を組み込んで,点雲から包括的接触マップを作成することに長けている。 本稿では,これらの地図から機械的手つかみポーズを効率的に定式化する,ユニークな把握検出手法を提案する。 さらに, 複雑なシナリオにおける5指ハンドグリップの実用性を大幅に向上させるとともに, 把握品質と衝突確率を評価するために, 評価モデルを構築した。 我々のデータ生成方法は、多様性、シーンの多様性、モダリティの多様性を把握するために、過去のデータセットより優れている。 提案手法は, 実世界の単一物体における平均成功率81.0%, 複数物体における平均成功率75.3%と, 確立されたベースラインを上回り, 顕著な成功を収めた。 データセットと補足資料はhttps://sites.google.com/view/ffh-clutteredgraspingで見ることができる。

The integration of optimization method and generative models has significantly advanced dexterous manipulation techniques for five-fingered hand grasping. Yet, the application of these techniques in cluttered environments is a relatively unexplored area. To address this research gap, we have developed a novel method for generating five-fingered hand grasp samples in cluttered settings. This method emphasizes simulated grasp quality and the nuanced interaction between the hand and surrounding objects. A key aspect of our approach is our data generation method, capable of estimating contact spatial and semantic representations and affordance grasps based on object affordance information. Furthermore, our Contact Semantic Conditional Variational Autoencoder (CoSe-CVAE) network is adept at creating comprehensive contact maps from point clouds, incorporating both spatial and semantic data. We introduce a unique grasp detection technique that efficiently formulates mechanical hand grasp poses from these maps. Additionally, our evaluation model is designed to assess grasp quality and collision probability, significantly improving the practicality of five-fingered hand grasping in complex scenarios. Our data generation method outperforms previous datasets in grasp diversity, scene diversity, modality diversity. Our grasp generation method has demonstrated remarkable success, outperforming established baselines with 81.0% average success rate in real-world single-object grasping and 75.3% success rate in multi-object grasping. The dataset and supplementary materials can be found at https://sites.google.com/view/ffh-clutteredgrasping, and we will release the code upon publication.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# 大規模言語モデルにおけるアクティブトランスダクティブ推論の実験設計

Experimental Design for Active Transductive Inference in Large Language Models ( http://arxiv.org/abs/2404.08846v1 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Ge Liu, Aniket Deshmukh, Anusha Lalitha, Yifei Ma, Branislav Kveton, (参考訳) トランスダクション(Transduction)は、クエリ固有の例を推論時にプロンプトに含める機能であり、大きな言語モデル(LLM)の創発的な能力の1つである。 本研究では,アクティブトランスダクティブ推論 (ATI) と呼ばれる適応的プロンプト設計のためのフレームワークを提案する。 LLMプロンプトは、与えられた推論クエリに対して、少数ショットの例を適応的に選択することで設計する。 サンプルにはラベルが付かず,ユーザに対して最も情報性の高いものへのラベル付けを依頼する。 GOとSALの2つのアルゴリズムを提案する。 まず,これらのアルゴリズムを線形モデルで解析し,SALと等価性を利用する。 我々は様々なタスクを実験し、GOとSALは推論時にLLMプロンプト内の少数ショット例を選択する他の方法よりも優れていることを示す。

Transduction, the ability to include query-specific examples in the prompt at inference time, is one of the emergent abilities of large language models (LLMs). In this work, we propose a framework for adaptive prompt design called active transductive inference (ATI). We design the LLM prompt by adaptively choosing few-shot examples for a given inference query. The examples are initially unlabeled and we query the user to label the most informative ones, which maximally reduces the uncertainty in the LLM prediction. We propose two algorithms, GO and SAL, which differ in how the few-shot examples are chosen. We analyze these algorithms in linear models: first GO and then use its equivalence with SAL. We experiment with many different tasks and show that GO and SAL outperform other methods for choosing few-shot examples in the LLM prompt at inference time.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# LazyDP: 個人別推薦モデルのスケーラブルトレーニングのための協調設計アルゴリズムソフト

LazyDP: Co-Designing Algorithm-Software for Scalable Training of Differentially Private Recommendation Models ( http://arxiv.org/abs/2404.08847v1 )

ライセンス: Link先を確認
Juntaek Lim, Youngeun Kwon, Ranggi Hwang, Kiwan Maeng, G. Edward Suh, Minsoo Rhu, (参考訳) 差別化プライバシ(DP)は、プライバシ保護の実用的な標準として、業界で広く採用されている。 コンピュータビジョンや自然言語処理アプリケーションのプライベートトレーニングは広く研究されているが,DPを用いたレコメンダシステム(RecSys)のトレーニングにおける計算上の課題は研究されていない。 本稿では,DP-SGD を用いたプライベート RecSys トレーニングの詳細な特徴について述べる。 具体的には、DP-SGDのノイズサンプリングとノイズ勾配更新の段階で、それぞれ重度の計算とメモリ帯域幅制限に悩まされており、プライベートRecSysのトレーニングにおいて大きなパフォーマンス上のオーバーヘッドが生じる。 そこで本研究では,RecSysをDP-SGDでトレーニングする際の計算とメモリの問題に対処するアルゴリズムとソフトウェアの共同設計であるLazyDPを提案する。 最新のDP-SGDトレーニングシステムと比較すると,LazyDPは平均119倍のトレーニングスループット向上を実現し,数学的に等価で微分プライベートなRecSysモデルをトレーニングできるようにする。

Differential privacy (DP) is widely being employed in the industry as a practical standard for privacy protection. While private training of computer vision or natural language processing applications has been studied extensively, the computational challenges of training of recommender systems (RecSys) with DP have not been explored. In this work, we first present our detailed characterization of private RecSys training using DP-SGD, root-causing its several performance bottlenecks. Specifically, we identify DP-SGD's noise sampling and noisy gradient update stage to suffer from a severe compute and memory bandwidth limitation, respectively, causing significant performance overhead in training private RecSys. Based on these findings, we propose LazyDP, an algorithm-software co-design that addresses the compute and memory challenges of training RecSys with DP-SGD. Compared to a state-of-the-art DP-SGD training system, we demonstrate that LazyDP provides an average 119x training throughput improvement while also ensuring mathematically equivalent, differentially private RecSys models to be trained.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# 経済性の評価: チップ設計符号化支援におけるドメイン適応型大規模言語モデルの総所有コストと最先端カウンタの比較分析

Assessing Economic Viability: A Comparative Analysis of Total Cost of Ownership for Domain-Adapted Large Language Models versus State-of-the-art Counterparts in Chip Design Coding Assistance ( http://arxiv.org/abs/2404.08850v1 )

ライセンス: Link先を確認
Amit Sharma, Teodor-Dumitru Ene, Kishor Kunal, Mingjie Liu, Zafar Hasan, Haoxing Ren, (参考訳) 本稿では,チップ設計におけるコーディング支援に関するタスクを中心に,ドメイン適応型大規模言語モデル (LLM) と最先端LLM (SoTA) の総所有コスト(TCO) と性能の比較分析を行った。 我々は,Claude 3 Opus と ChatGPT-4 Turbo の2つの主要な LLM に対して,ドメイン適応型 LLM である ChipNeMo の TCO と性能指標を比較し,チップ設計符号生成の有効性を評価する。 本研究は, モデルの精度, 訓練方法, 運用費の詳細な評価を通じて, 利害関係者に対して, 特定のニーズに対して最も経済的に実行可能な, 性能効率の良いソリューションを選択するための重要な情報を提供することを目的とする。 この結果から,ChipNeMoのようなドメイン適応モデルを採用することで,汎用モデルに比べて大幅なコスト削減による性能向上を図った。 特に、ドメイン適応型LCMがTCOを約90%-95%削減する可能性を明らかにし、デプロイメントの規模が拡大するにつれて、コストのアドバンテージがますます明らかになる。 デプロイメントの拡大に伴い、ChipNeMoのコストメリットはより顕著になり、ドメイン適応型LLMは、LLMがサポートしているコーディングニーズの高い組織にとって魅力的な選択肢となる。

This paper presents a comparative analysis of total cost of ownership (TCO) and performance between domain-adapted large language models (LLM) and state-of-the-art (SoTA) LLMs , with a particular emphasis on tasks related to coding assistance for chip design. We examine the TCO and performance metrics of a domain-adaptive LLM, ChipNeMo, against two leading LLMs, Claude 3 Opus and ChatGPT-4 Turbo, to assess their efficacy in chip design coding generation. Through a detailed evaluation of the accuracy of the model, training methodologies, and operational expenditures, this study aims to provide stakeholders with critical information to select the most economically viable and performance-efficient solutions for their specific needs. Our results underscore the benefits of employing domain-adapted models, such as ChipNeMo, that demonstrate improved performance at significantly reduced costs compared to their general-purpose counterparts. In particular, we reveal the potential of domain-adapted LLMs to decrease TCO by approximately 90%-95%, with the cost advantages becoming increasingly evident as the deployment scale expands. With expansion of deployment, the cost benefits of ChipNeMo become more pronounced, making domain-adaptive LLMs an attractive option for organizations with substantial coding needs supported by LLMs
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# MRI上脈絡膜転移の検出における進化的戦略による不確かさの定量化

Uncertainty Quantification in Detecting Choroidal Metastases on MRI via Evolutionary Strategies ( http://arxiv.org/abs/2404.08853v1 )

ライセンス: Link先を確認
Bala McRae-Posani, Andrei Holodny, Hrithwik Shalu, Joseph N Stember, (参考訳) 不確かさの定量化は、信頼性に関する懸念の高まりに対処することによって、放射線学におけるAIの実践的実装を促進する上で重要な役割を担っている。 この分野での大規模で注釈付きデータセット取得に関わる課題を考えると、X線画像に合わせた小さなデータAIアプローチで不確実な定量化を可能にする方法が必要である。 本研究では、DNE(Deep Neuroevolution)という小データ進化戦略に基づく手法の文脈における不確実性定量化に焦点を当てた。 具体的には,両眼のMRI画像を用いた単純な畳み込みニューラルネットワーク(CNN)の訓練にDNEを用いた。 目的は、正常眼と脈絡膜転移と呼ばれる転移性腫瘍を鑑別することであった。 トレーニングセットは, 脈絡膜転移18例, 腫瘍のない18例, 検査セットは腫瘍-正常比15:15であった。 我々はDNEを介して約4万エピソードのCNNモデルウェイトをトレーニングし、最終的にトレーニングセット上で100%の精度で収束した。 最大トレーニングセットの正確性を達成したモデルをすべて保存した。 そこで, これらのモデルをテストセットに適用し, 不確実性定量化のためのアンサンブル法を確立した。 相対周波数はモデル予測の不確かさの定量化を許した。 興味深いことに、人間の放射線技師が評価した主観的特徴は、不確実性が高い画像を説明し、AIによる放射線学的分析における不確実性定量化の重要性を強調した。

Uncertainty quantification plays a vital role in facilitating the practical implementation of AI in radiology by addressing growing concerns around trustworthiness. Given the challenges associated with acquiring large, annotated datasets in this field, there is a need for methods that enable uncertainty quantification in small data AI approaches tailored to radiology images. In this study, we focused on uncertainty quantification within the context of the small data evolutionary strategies-based technique of deep neuroevolution (DNE). Specifically, we employed DNE to train a simple Convolutional Neural Network (CNN) with MRI images of the eyes for binary classification. The goal was to distinguish between normal eyes and those with metastatic tumors called choroidal metastases. The training set comprised 18 images with choroidal metastases and 18 without tumors, while the testing set contained a tumor-to-normal ratio of 15:15. We trained CNN model weights via DNE for approximately 40,000 episodes, ultimately reaching a convergence of 100% accuracy on the training set. We saved all models that achieved maximal training set accuracy. Then, by applying these models to the testing set, we established an ensemble method for uncertainty quantification.The saved set of models produced distributions for each testing set image between the two classes of normal and tumor-containing. The relative frequencies permitted uncertainty quantification of model predictions. Intriguingly, we found that subjective features appreciated by human radiologists explained images for which uncertainty was high, highlighting the significance of uncertainty quantification in AI-driven radiological analyses.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# WROOM:オフロードナビゲーションのための自動運転アプローチ

WROOM: An Autonomous Driving Approach for Off-Road Navigation ( http://arxiv.org/abs/2404.08855v1 )

ライセンス: Link先を確認
Dvij Kalaria, Shreya Sharma, Sarthak Bhagat, Haoru Xue, John M. Dolan, (参考訳) オフロードナビゲーションは、スムーズな軌道を得るための計画レベルとコントロールレベルの両方において、ひっくり返したり障害にぶつかったり、粗いパッチで立ち往生するのを避けるための難しい問題である。 近年, 深度マップの予測やスムーズな軌道計画, コントローラによる追跡など, 古典的な手法を用いた研究が盛んに行われている。 We design a end-to-end reinforcement learning (RL) system for a autonomous vehicle in off-road environment using a custom-designed simulator in the Unity game engine。 制御バリア関数(CBF)を組み込んだ報酬に基づいて,ルールベースのコントローラを模倣してエージェントを温め,PPO(Proximal Policy Optimization)を活用し,エージェントが現実のシナリオに効果的に一般化する能力を促進する。 このトレーニングには、さまざまな環境でドメインランダム化トライアルを同時に実施するエージェントが含まれる。 また,オフロード走行シナリオを再現する新しいシミュレーション環境を提案し,本提案手法を実車に展開する。 ビデオと追加結果:https://sites.google.com/view/wroom-utd/home

Off-road navigation is a challenging problem both at the planning level to get a smooth trajectory and at the control level to avoid flipping over, hitting obstacles, or getting stuck at a rough patch. There have been several recent works using classical approaches involving depth map prediction followed by smooth trajectory planning and using a controller to track it. We design an end-to-end reinforcement learning (RL) system for an autonomous vehicle in off-road environments using a custom-designed simulator in the Unity game engine. We warm-start the agent by imitating a rule-based controller and utilize Proximal Policy Optimization (PPO) to improve the policy based on a reward that incorporates Control Barrier Functions (CBF), facilitating the agent's ability to generalize effectively to real-world scenarios. The training involves agents concurrently undergoing domain-randomized trials in various environments. We also propose a novel simulation environment to replicate off-road driving scenarios and deploy our proposed approach on a real buggy RC car. Videos and additional results: https://sites.google.com/view/wroom-utd/home
翻訳日:2024-04-16 18:22:57 公開日:2024-04-12
# 新型コロナウイルスパンデミック時の効率的なマスク付き顔認識法

Efficient Masked Face Recognition Method during the COVID-19 Pandemic ( http://arxiv.org/abs/2105.03026v2 )

ライセンス: Link先を確認
Walid Hariri, (参考訳) 新型コロナウイルス(COVID-19)は異例の危機であり、多くの死傷者やセキュリティ上の問題に繋がる。 新型コロナウイルスの感染拡大を抑えるため、マスクを着用して身を守ることが多い。 これにより、顔の一部が隠されているため、顔認識は非常に難しいタスクとなる。 新型コロナウイルスの感染拡大が続く中、研究者の焦点は、迅速かつ効率的な解決策によってこの問題に対処することを提案することにある。 本稿では,隠蔽除去と深層学習に基づく特徴量に基づく信頼度の高い手法を提案する。 最初のステップは、マスクされた顔領域を削除することです。 次に、VGG-16、AlexNet、ResNet-50の3つの事前訓練された深部畳み込みニューラルネットワーク(CNN)を適用し、得られた領域(主に目と額の領域)から深部特徴を抽出する。 次に、Bag-of-Featuresパラダイムを最後の畳み込み層の特徴写像に適用し、それらを定量化し、古典的CNNの完全連結層と比較したわずかな表現を得る。 最後に、分類プロセスに多層パーセプトロン(MLP)を適用する。 Real-World-Masked-Face-Datasetの実験結果は、他の最先端手法と比較して高い認識性能を示した。

The coronavirus disease (COVID-19) is an unparalleled crisis leading to a huge number of casualties and security problems. In order to reduce the spread of coronavirus, people often wear masks to protect themselves. This makes face recognition a very difficult task since certain parts of the face are hidden. A primary focus of researchers during the ongoing coronavirus pandemic is to come up with suggestions to handle this problem through rapid and efficient solutions. In this paper, we propose a reliable method based on occlusion removal and deep learning-based features in order to address the problem of the masked face recognition process. The first step is to remove the masked face region. Next, we apply three pre-trained deep Convolutional Neural Networks (CNN) namely, VGG-16, AlexNet, and ResNet-50, and use them to extract deep features from the obtained regions (mostly eyes and forehead regions). The Bag-of-features paradigm is then applied to the feature maps of the last convolutional layer in order to quantize them and to get a slight representation comparing to the fully connected layer of classical CNN. Finally, Multilayer Perceptron (MLP) is applied for the classification process. Experimental results on Real-World-Masked-Face-Dataset show high recognition performance compared to other state-of-the-art methods.
翻訳日:2024-04-15 20:30:27 公開日:2024-04-12
# 深層学習に基づく単一画像超解像のシステム的調査

A Systematic Survey of Deep Learning-based Single-Image Super-Resolution ( http://arxiv.org/abs/2109.14335v2 )

ライセンス: Link先を確認
Juncheng Li, Zehua Pei, Wenjie Li, Guangwei Gao, Longguang Wang, Yingqian Wang, Tieyong Zeng, (参考訳) 単一像超解像(SISR)は画像処理において重要な課題であり、画像システムの解像度を高めることを目的としている。 近年、SISRは大きな飛躍を遂げ、ディープラーニング(DL)の助けを借りて有望な成果を上げている。 本稿では,DLをベースとしたSISR手法の概要を述べるとともに,その設計目標に応じてグループ化する。 具体的には、まず問題定義、研究背景、SISRの重要性を紹介する。 第2に,ベンチマークデータセット,アップサンプリング手法,最適化目標,画像品質評価手法などの関連研究を紹介する。 第3に、SISRの詳細な調査とドメイン固有の応用について述べる。 第4に,古典的なSISR手法の再構築結果を直感的に示す。 最後に、SISRに残っているいくつかの問題について議論し、新しいトレンドと今後の方向性について要約する。 これはSISRの徹底的な調査であり、研究者がSISRをより深く理解し、この分野のよりエキサイティングな研究を促すのに役立つ。 SISRの調査プロジェクトはhttps://github.com/CV-JunchengLi/SISR-Surveyで提供されている。

Single-image super-resolution (SISR) is an important task in image processing, which aims to enhance the resolution of imaging systems. Recently, SISR has made a huge leap and has achieved promising results with the help of deep learning (DL). In this survey, we give an overview of DL-based SISR methods and group them according to their design targets. Specifically, we first introduce the problem definition, research background, and the significance of SISR. Secondly, we introduce some related works, including benchmark datasets, upsampling methods, optimization objectives, and image quality assessment methods. Thirdly, we provide a detailed investigation of SISR and give some domain-specific applications of it. Fourthly, we present the reconstruction results of some classic SISR methods to intuitively know their performance. Finally, we discuss some issues that still exist in SISR and summarize some new trends and future directions. This is an exhaustive survey of SISR, which can help researchers better understand SISR and inspire more exciting research in this field. An investigation project for SISR is provided at https://github.com/CV-JunchengLi/SISR-Survey.
翻訳日:2024-04-15 20:30:27 公開日:2024-04-12
# 無限均一導波路アレイに対するコヒーレント状態:$E(2)$のコーシーコヒーレント状態

Coherent States for infinite homogeneous waveguide arrays: Cauchy coherent states for $E(2)$ ( http://arxiv.org/abs/2112.00872v3 )

ライセンス: Link先を確認
Julio Guerrero, Francisco F. López-Ruiz, (参考訳) ユークリッドE(2)対称性を持つ等間隔無限均一導波管アレイに対するペロモフコヒーレント状態を定義し、その恒等性の新しい解を求める。 このアイデンティティーのこの新しい解決を構築するための重要なポイントは、コヒーレント状態がヘルムホルツ方程式(コヒーレント状態ラベル)を満たすという事実であり、したがって全てのコヒーレント状態は1次元のコーシー集合におけるコヒーレント状態のコーシー初期データによって一意に決定される1パラメータ族に属する。 このため、これらの初期データに対して \textit{Cauchy coherent} を呼び出します。 コーシーコヒーレント状態(英語版)の観点からの恒等性の新規で非局所的な解法は、フレーム理論を用いて提供される。 また、ユークリアン E(2) 群に対するペレロモフコヒーレント状態はこれらの導波路アレイにおいて単純で自然な物理的実現を持つことを示した。

Perelomov coherent states for equally spaced, infinite homogeneous waveguide arrays with Euclidean E(2) symmetry are defined, and a new resolution of the identity is obtained. The key point to construct this novel resolution of the identity is the fact that coherent states satisfy the Helmholtz equation (in coherent states labels), and thus every coherent state belongs to a one-parameter family uniquely determined by the Cauchy initial data of the coherent state in a one-dimensional Cauchy set. For this reason we call \textit{Cauchy coherent} states to these initial data. The novel, non-local resolution of the identity in terms of Cauchy coherent states is provided using frame theory. It is also shown that Perelomov coherent states for the Eucliean E(2) group have a simple and natural physical realization in these waveguide arrays.
翻訳日:2024-04-15 20:30:27 公開日:2024-04-12
# 群不変量と同変表現の教師なし学習

Unsupervised Learning of Group Invariant and Equivariant Representations ( http://arxiv.org/abs/2202.07559v3 )

ライセンス: Link先を確認
Robin Winter, Marco Bertolini, Tuan Le, Frank Noé, Djork-Arné Clevert, (参考訳) データに作用する群Gの表現に応じて隠れた特徴が変換される同変ニューラルネットワークは、トレーニング効率と一般化性能の向上を示す。 本研究では,グループ不変および同変表現学習を教師なし深層学習の分野に拡張する。 本稿では,エンコーダ・デコーダ・フレームワークに基づく一般学習戦略を提案する。このフレームワークでは,潜在表現を不変項と同変群アクション成分で分離する。 鍵となる考え方は、ネットワークがグループ不変表現にデータをエンコードしてデコードすることを学習し、さらに適切なグループ動作を予測して、入力と出力のポーズを調整して再構成タスクを解決することである。 我々は同変エンコーダの必要条件を導出し、離散かつ連続な任意の G に対して妥当な構成を示す。 回転、翻訳、置換の構成を明確に記述する。 我々は,異なるネットワークアーキテクチャを用いた多様なデータ型を用いた様々な実験において,アプローチの有効性とロバスト性を検証した。

Equivariant neural networks, whose hidden features transform according to representations of a group G acting on the data, exhibit training efficiency and an improved generalisation performance. In this work, we extend group invariant and equivariant representation learning to the field of unsupervised deep learning. We propose a general learning strategy based on an encoder-decoder framework in which the latent representation is separated in an invariant term and an equivariant group action component. The key idea is that the network learns to encode and decode data to and from a group-invariant representation by additionally learning to predict the appropriate group action to align input and output pose to solve the reconstruction task. We derive the necessary conditions on the equivariant encoder, and we present a construction valid for any G, both discrete and continuous. We describe explicitly our construction for rotations, translations and permutations. We test the validity and the robustness of our approach in a variety of experiments with diverse data types employing different network architectures.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# グラフ誘導局所値関数に基づく分散マルチエージェント強化学習

Distributed Multi-Agent Reinforcement Learning Based on Graph-Induced Local Value Functions ( http://arxiv.org/abs/2202.13046v5 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma, (参考訳) 大規模協調型マルチエージェントシステム(MAS)のための分散強化学習(RL)の達成は、次のような理由から困難である。 i) 各代理人は,限られた情報のみにアクセスすることができる。 (II)次元の呪いにより収束や計算複雑性の問題が発生する。 本稿では,協調型マルチエージェント強化学習(MARL)のための汎用的な計算効率の高い分散フレームワークを提案する。 本稿では,MARLにおけるエージェント間カップリングの3つのタイプ,すなわち状態グラフ,観察グラフ,報酬グラフを記述する3つの結合グラフを紹介する。 さらに通信グラフを考慮し、結合グラフから導出した局所値関数に基づく2つの分散RLアプローチを提案する。 最初のアプローチは、上記の4つのグラフの特定の条件下で、サンプルの複雑さを著しく減らすことができる。 第二のアプローチは近似解を提供し、密結合グラフの問題に対しても効率的である。 ここでは近似誤差の最小化と計算複雑性の低減との間にトレードオフがある。 シミュレーションにより、我々のRLアルゴリズムは、集中型およびコンセンサスベースの分散RLアルゴリズムと比較して、大規模MASよりもスケーラビリティが大幅に向上していることが示された。

Achieving distributed reinforcement learning (RL) for large-scale cooperative multi-agent systems (MASs) is challenging because: (i) each agent has access to only limited information; (ii) issues on convergence or computational complexity emerge due to the curse of dimensionality. In this paper, we propose a general computationally efficient distributed framework for cooperative multi-agent reinforcement learning (MARL) by utilizing the structures of graphs involved in this problem. We introduce three coupling graphs describing three types of inter-agent couplings in MARL, namely, the state graph, the observation graph and the reward graph. By further considering a communication graph, we propose two distributed RL approaches based on local value-functions derived from the coupling graphs. The first approach is able to reduce sample complexity significantly under specific conditions on the aforementioned four graphs. The second approach provides an approximate solution and can be efficient even for problems with dense coupling graphs. Here there is a trade-off between minimizing the approximation error and reducing the computational complexity. Simulations show that our RL algorithms have a significantly improved scalability to large-scale MASs compared with centralized and consensus-based distributed RL algorithms.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# Topic-Controllable Summarization: Topic-Aware Evaluation と Transformer Methods

Topic-Controllable Summarization: Topic-Aware Evaluation and Transformer Methods ( http://arxiv.org/abs/2206.04317v3 )

ライセンス: Link先を確認
Tatiana Passali, Grigorios Tsoumakas, (参考訳) Topic-controllable summarization(トピック制御可能な要約)は、幅広い潜在的応用を持つ新興の研究分野である。 しかし、既存のアプローチは重大な制限に悩まされている。 例えば、リカレントアーキテクチャ上に構築されている既存のメソッドのほとんどは、最近のTransformerベースのアーキテクチャと比較してパフォーマンスを著しく制限するが、トピックを制御するにはモデルのアーキテクチャを変更する必要がある。 同時に、現在トピック制御可能な要約のために特別に設計された評価基準は確立されていない。 本研究は、生成した要約と所望のトピック間のトピック親和性に基づいて、生成した要約を自動的に評価する新しいトピック指向評価尺度を提案する。 提案手法の信頼性は,適切な設計による評価によって実証される。 さらに,強力なトランスフォーマーアーキテクチャを扱うためにトピック埋め込みを適用し,制御トークンによる要約生成を導くための,新しい,効率的なアプローチを提案する。 実験結果から、制御トークンはより複雑な埋め込みベースのアプローチよりも性能が向上し、しかも大幅に高速であることが判明した。

Topic-controllable summarization is an emerging research area with a wide range of potential applications. However, existing approaches suffer from significant limitations. For example, the majority of existing methods built upon recurrent architectures, which can significantly limit their performance compared to more recent Transformer-based architectures, while they also require modifications to the model's architecture for controlling the topic. At the same time, there is currently no established evaluation metric designed specifically for topic-controllable summarization. This work proposes a new topic-oriented evaluation measure to automatically evaluate the generated summaries based on the topic affinity between the generated summary and the desired topic. The reliability of the proposed measure is demonstrated through appropriately designed human evaluation. In addition, we adapt topic embeddings to work with powerful Transformer architectures and propose a novel and efficient approach for guiding the summary generation through control tokens. Experimental results reveal that control tokens can achieve better performance compared to more complicated embedding-based approaches while also being significantly faster.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# 深層学習に基づくMR画像再パラメータ化

Deep Learning-Based MR Image Re-parameterization ( http://arxiv.org/abs/2206.05516v2 )

ライセンス: Link先を確認
Abhijeet Narang, Abhigyan Raj, Mihaela Pop, Mehran Ebrahimi, (参考訳) 磁気共鳴(MR)画像再パラメータ化(MR)は、MRIスキャンパラメーターを新たにセットしたMR画像のシミュレーションを通じて生成する過程を指す。 異なるパラメータ値は異なる組織間で異なるコントラストを生成し、病理組織を特定するのに役立つ。 通常、診断には複数のスキャンが必要であるが、反復スキャンの取得はコストがかかり、時間がかかり、患者にとって困難である。 したがって、MR画像の再パラメータ化を用いて、画像スキャンのコントラストを予測し、推定することは、効果的な代替手段となる。 本研究では,MRI再パラメータ化のための新しいディープラーニング(DL)に基づく畳み込みモデルを提案する。 予備的な結果に基づいて、DLベースの手法は、再パラメータ化を管理する非線形性を学ぶ可能性を秘めている。

Magnetic resonance (MR) image re-parameterization refers to the process of generating via simulations of an MR image with a new set of MRI scanning parameters. Different parameter values generate distinct contrast between different tissues, helping identify pathologic tissue. Typically, more than one scan is required for diagnosis; however, acquiring repeated scans can be costly, time-consuming, and difficult for patients. Thus, using MR image re-parameterization to predict and estimate the contrast in these imaging scans can be an effective alternative. In this work, we propose a novel deep learning (DL) based convolutional model for MRI re-parameterization. Based on our preliminary results, DL-based techniques hold the potential to learn the non-linearities that govern the re-parameterization.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# ベイジアンネットワーク構造学習における可変順序の影響

The Impact of Variable Ordering on Bayesian Network Structure Learning ( http://arxiv.org/abs/2206.08952v2 )

ライセンス: Link先を確認
Neville K Kitson, Anthony C Constantinou, (参考訳) Causal Bayesian Networksは、多くの複雑な因果系への潜在的な適用の不確実性の下で推論するための重要なツールを提供する。 これらのシステムの因果構造について何かを教えてくれる構造学習アルゴリズムは、ますます重要になりつつある。 文献では、これらのアルゴリズムの妥当性は、様々なサンプルサイズ、ハイパーパラメータ、時には客観的関数に対する感度のためにしばしばテストされる。 本稿では,データから変数を読み取る順序が,これらの因子よりもアルゴリズムの精度に大きな影響を与えることを示す。 変数順序付けは任意であるため、学習したグラフの精度に影響を及ぼす重要な効果が関係しており、これは異なる変数順序付けに対して敏感だが評価されていないアルゴリズムによって生成される結果の有効性に関する疑問を提起する。

Causal Bayesian Networks provide an important tool for reasoning under uncertainty with potential application to many complex causal systems. Structure learning algorithms that can tell us something about the causal structure of these systems are becoming increasingly important. In the literature, the validity of these algorithms is often tested for sensitivity over varying sample sizes, hyper-parameters, and occasionally objective functions. In this paper, we show that the order in which the variables are read from data can have much greater impact on the accuracy of the algorithm than these factors. Because the variable ordering is arbitrary, any significant effect it has on learnt graph accuracy is concerning, and this raises questions about the validity of the results produced by algorithms that are sensitive to, but have not been assessed against, different variable orderings.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# マニフォールド上の縮合密度推定のためのスコアマッチング

Score Matching for Truncated Density Estimation on a Manifold ( http://arxiv.org/abs/2206.14668v2 )

ライセンス: Link先を確認
Daniel J. Williams, Song Liu, (参考訳) 観測が途切れると、データセットの不完全な画像に制限されます。 近年の手法では,抽出可能な正規化定数へのアクセスが不要なトラッピング密度推定にスコアマッチングを用いる方法が提案されている。 我々は、境界を持つリーマン多様体に一致するトランカットされたスコアの新たな拡張を示す。 von Mises-Fisher と Kent の分布を $\mathbb{R}^3$ の 2 次元球面上での応用と、米国における極端な嵐観測の現実の応用について提示する。 シミュレーションデータ実験において、スコアマッチング推定器は真のパラメータ値を低い推定誤差で近似することができ、単純な最大推定器による改善を示すことができる。

When observations are truncated, we are limited to an incomplete picture of our dataset. Recent methods propose to use score matching for truncated density estimation, where the access to the intractable normalising constant is not required. We present a novel extension of truncated score matching to a Riemannian manifold with boundary. Applications are presented for the von Mises-Fisher and Kent distributions on a two dimensional sphere in $\mathbb{R}^3$, as well as a real-world application of extreme storm observations in the USA. In simulated data experiments, our score matching estimator is able to approximate the true parameter values with a low estimation error and shows improvements over a naive maximum likelihood estimator.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# Conv-Adapter:ConvNetのためのパラメータ効率の良い転送学習の探索

Conv-Adapter: Exploring Parameter Efficient Transfer Learning for ConvNets ( http://arxiv.org/abs/2208.07463v4 )

ライセンス: Link先を確認
Hao Chen, Ran Tao, Han Zhang, Yidong Wang, Xiang Li, Wei Ye, Jindong Wang, Guosheng Hu, Marios Savvides, (参考訳) パラメータ効率的なチューニング(PET)法は自然言語処理(NLP)タスクにおけるトランスフォーマーアーキテクチャにおいて大きな可能性を示しているが、大規模なConvNetsの有効性はコンピュータビジョン(CV)タスクではまだ研究されていない。 本稿では,ConvNets用に設計されたPETモジュールであるConv-Adapterを提案する。 Conv-Adapterは軽量で、ドメイン変換可能で、アーキテクチャに依存しない。 下流のタスクを転送する際、Conv-Adapterは、トレーニング済みパラメータを凍結させながら、バックボーンの中間表現にタスク固有の特徴変調を学習する。 ResNet50の学習可能なパラメータをわずかに導入することで、ResNet50の完全な微調整パラメータを3.5%しか導入できない。 トランスフォーマーベースのバックボーンにも適用できる。 Conv-Adapterは従来のPETベースラインメソッドよりも優れており、さまざまなドメインの23の分類タスクにおいて、完全な微調整のパフォーマンスを同等または上回っている。 また、数発の分類では平均マージンが3.39%である。 分類以外にも、Conv-Adapterは50%以上のパラメータを削減できるが、従来のフル微調整に匹敵するパフォーマンスで、検出および分割タスクに一般化することができる。

While parameter efficient tuning (PET) methods have shown great potential with transformer architecture on Natural Language Processing (NLP) tasks, their effectiveness with large-scale ConvNets is still under-studied on Computer Vision (CV) tasks. This paper proposes Conv-Adapter, a PET module designed for ConvNets. Conv-Adapter is light-weight, domain-transferable, and architecture-agnostic with generalized performance on different tasks. When transferring on downstream tasks, Conv-Adapter learns tasks-specific feature modulation to the intermediate representations of backbones while keeping the pre-trained parameters frozen. By introducing only a tiny amount of learnable parameters, e.g., only 3.5% full fine-tuning parameters of ResNet50. It can also be applied for transformer-based backbones. Conv-Adapter outperforms previous PET baseline methods and achieves comparable or surpasses the performance of full fine-tuning on 23 classification tasks of various domains. It also presents superior performance on the few-shot classification with an average margin of 3.39%. Beyond classification, Conv-Adapter can generalize to detection and segmentation tasks with more than 50% reduction of parameters but comparable performance to the traditional full fine-tuning.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-12
# ガラス液体表現学習のための回転同変グラフニューラルネットワーク

Rotation-equivariant Graph Neural Networks for Learning Glassy Liquids Representations ( http://arxiv.org/abs/2211.03226v3 )

ライセンス: Link先を確認
Francesco Saverio Pezzicoli, Guillaume Charpiat, François P. Landes, (参考訳) ガラス液体の静的構造とその力学を関連付けるという難しい問題は、データに隠された複雑なパターンを見つけるアプローチである機械学習にとって、よいターゲットである。 実際、このアプローチは現在、ガラスの液体コミュニティにおいてホットなトピックであり、最先端の技術はグラフニューラルネットワーク(GNN)で構成されている。 機械学習群同変表現の分野での最近の進歩に触発されて、ガラスの静的構造の堅牢な表現を、ロト翻訳(SE(3))同値を保つために制約することで学習するGNNを構築した。 この制約は, パラメータ数に匹敵する予測力を著しく向上させるが, 最も重要な点として, 目に見えない温度に一般化する能力の向上が期待できる。 我々のモデルはディープネットワークを維持しながら、基本的な畳み込み層の動作がよく知られた回転不変の専門家機能と直接関連しているため、他のGNNと比較して解釈可能性を改善した。 前例のない性能を示すトランスファーラーニング実験を通じて、我々のネットワークは堅牢な表現を学習し、眼鏡の構造的順序パラメータの考え方を推し進めることができることを示した。

The difficult problem of relating the static structure of glassy liquids and their dynamics is a good target for Machine Learning, an approach which excels at finding complex patterns hidden in data. Indeed, this approach is currently a hot topic in the glassy liquids community, where the state of the art consists in Graph Neural Networks (GNNs), which have great expressive power but are heavy models and lack interpretability. Inspired by recent advances in the field of Machine Learning group-equivariant representations, we build a GNN that learns a robust representation of the glass' static structure by constraining it to preserve the roto-translation (SE(3)) equivariance. We show that this constraint significantly improves the predictive power at comparable or reduced number of parameters but most importantly, improves the ability to generalize to unseen temperatures. While remaining a Deep network, our model has improved interpretability compared to other GNNs, as the action of our basic convolution layer relates directly to well-known rotation-invariant expert features. Through transfer-learning experiments displaying unprecedented performance, we demonstrate that our network learns a robust representation, which allows us to push forward the idea of a learned structural order parameter for glasses.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-12
# RFFNet:ランダムフーリエ機能による大規模解釈可能なカーネル手法

RFFNet: Large-Scale Interpretable Kernel Methods via Random Fourier Features ( http://arxiv.org/abs/2211.06410v2 )

ライセンス: Link先を確認
Mateus P. Otto, Rafael Izbicki, (参考訳) カーネル法は、非線形および非パラメトリック学習に対する柔軟で理論的に基礎付けられたアプローチを提供する。 メモリと実行時の要求が大規模なデータセットへの適用を妨げている一方で、ランダムなフーリエ機能のような低ランクなカーネル近似の多くは、そのようなカーネルメソッドをスケールアップするために最近開発された。 しかし、これらのスケーラブルなアプローチは等方性カーネルの近似に基づいており、無関係な特徴の影響を排除できない。 本研究では,自動関連性判定(ARD)カーネル群を対象としたランダムなフーリエ機能を設計し,一階確率最適化によるカーネル関連性学習を行う大規模カーネル手法であるRFFNetを導入する。 本稿では,提案手法の非凸目的関数に対する効果的な初期化手法を提案し,頑健なRFFNetの学習関連性が変数選択に有効であるかどうかを評価し,RFFNetの成分の広範囲なアブレーション研究を行う。 シミュレーションおよび実世界のデータに対する数値検証により、我々の手法はメモリフットプリントが小さく、実行時間も小さく、予測誤差が低く、関連する特徴を効果的に識別し、より解釈可能な解をもたらすことが示された。 私たちは、Scikit-learn標準APIと結果を完全に再現するためのコードに準拠した、効率的でPyTorchベースのライブラリをユーザに提供します。

Kernel methods provide a flexible and theoretically grounded approach to nonlinear and nonparametric learning. While memory and run-time requirements hinder their applicability to large datasets, many low-rank kernel approximations, such as random Fourier features, were recently developed to scale up such kernel methods. However, these scalable approaches are based on approximations of isotropic kernels, which cannot remove the influence of irrelevant features. In this work, we design random Fourier features for a family of automatic relevance determination (ARD) kernels, and introduce RFFNet, a new large-scale kernel method that learns the kernel relevances' on the fly via first-order stochastic optimization. We present an effective initialization scheme for the method's non-convex objective function, evaluate if hard-thresholding RFFNet's learned relevances yield a sensible rule for variable selection, and perform an extensive ablation study of RFFNet's components. Numerical validation on simulated and real-world data shows that our approach has a small memory footprint and run-time, achieves low prediction error, and effectively identifies relevant features, thus leading to more interpretable solutions. We supply users with an efficient, PyTorch-based library, that adheres to the scikit-learn standard API and code for fully reproducing our results.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-12
# 結合マイクロ波空洞におけるエンタングル原子アンサンブルとイットリウム-鉄-ガーネット球

Entangled atomic ensemble and an yttrium-iron-garnet sphere in coupled microwave cavities ( http://arxiv.org/abs/2211.14914v2 )

ライセンス: Link先を確認
Dilawaiz, Shahid Qamar, Muhammad Irfan, (参考訳) 本稿では,原子アンサンブルとイットリウム鉄ガーネット(YIG)球面を結合したマイクロ波キャビティに遠方二部および三部を絡み合わせる手法を提案する。 我々は、YIG球を有する第2の単一モード空洞と結合した単一モードマイクロ波空洞における原子アンサンブルを考える。 この系は、YIG球のキャビティ-1光子、原子アンサンブル、キャビティ-2光子、マグノン、フォノンモードの5つの励起モードを持つ。 キャビティ内の間接的に結合したサブシステム間には,有意な二部構造が存在し,温度に対して堅牢であることを示す。 さらに, アンサンブル, マグノン, フォノンモードの有意な三分音絡みに対する適切なパラメータを提案する。 また,YIG球のマグノンモードとフォノンモードの間に,間接的に結合した共振器光子を持つ三部構造の存在を実証した。 興味深いことに、この遠い三部体の絡み合いは、単一のキャビティ系で以前に見られたものと同じ順序である。 キャビティ・キャビティ結合強度は,様々なサブシステム間の量子絡み合いの度合いと移動に影響を及ぼすことを示す。 したがって、キャビティ・キャビティ結合は、温度に対する絡み合い強度とロバスト性を高めることにより、遠絡みを最適化する。

We present a scheme to generate distant bipartite and tripartite entanglement between an atomic ensemble and an yttrium iron garnet (YIG) sphere in coupled microwave cavities. We consider an atomic ensemble in a single-mode microwave cavity which is coupled with a second single-mode cavity having a YIG sphere. Our system, therefore, has five excitation modes namely cavity-1 photons, atomic ensemble, cavity-2 photons, a magnon and a phonon mode in the YIG sphere. We show that significant bipartite entanglement exists between indirectly coupled subsystems in the cavities, which is robust against temperature. Moreover, we present suitable parameters for a significant tripartite entanglement of ensemble, magnon, and phonon modes. We also demonstrate the existence of tripartite entanglement between magnon and phonon modes of the YIG sphere with indirectly coupled cavity photons. Interestingly, this distant tripartite entanglement is of the same order as previously found for a single-cavity system. We show that cavity-cavity coupling strength affects both the degree and transfer of quantum entanglement between various subsystems. Therefore, an appropriate cavity-cavity coupling optimizes the distant entanglement by increasing the entanglement strength and its robustness against temperature.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-12
# 国家逆転型マルチエージェント強化学習の解決策とは何か?

What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2212.02705v5 )

ライセンス: Link先を確認
Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Shaofeng Zou, Fei Miao, (参考訳) MARL(Multi-Agent Reinforcement Learning)は,エージェントのポリシーが正確な状態情報に基づいていることを前提として,様々な手法が開発されている。 しかし、Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。 本研究では,状態不確実性下でのMARLの異なる解概念を初めて検討する,国家支援マルコフゲーム(SAMG)を提案する。 我々の分析は、最適エージェントポリシーとロバストなナッシュ均衡の概念がSAMGに常に存在するわけではないことを示している。 この困難を回避するために,エージェントが最悪の状態値の最大化を目指す,ロバストエージェントポリシーと呼ばれる新しいソリューションを考察する。 有限状態および有限動作SAMGに対するロバストエージェントポリシーの存在を証明する。 さらに、状態不確実性の下でMARLエージェントの堅牢なポリシーを学習するためのロバストマルチエージェント・アクター・クリティカル(RMA3C)アルゴリズムを提案する。 実験により,我々のアルゴリズムは状態摂動に直面する場合,既存の手法よりも優れており,MARLポリシーの堅牢性を大幅に向上することが示された。 私たちのコードはhttps://songyanghan.github.io/what_is_solution/で公開されています。

Various methods for Multi-Agent Reinforcement Learning (MARL) have been developed with the assumption that agents' policies are based on accurate state information. However, policies learned through Deep Reinforcement Learning (DRL) are susceptible to adversarial state perturbation attacks. In this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to investigate different solution concepts of MARL under state uncertainties. Our analysis shows that the commonly used solution concepts of optimal agent policy and robust Nash equilibrium do not always exist in SAMGs. To circumvent this difficulty, we consider a new solution concept called robust agent policy, where agents aim to maximize the worst-case expected state value. We prove the existence of robust agent policy for finite state and finite action SAMGs. Additionally, we propose a Robust Multi-Agent Adversarial Actor-Critic (RMA3C) algorithm to learn robust policies for MARL agents under state uncertainties. Our experiments demonstrate that our algorithm outperforms existing methods when faced with state perturbations and greatly improves the robustness of MARL policies. Our code is public on https://songyanghan.github.io/what_is_solution/.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-12
# 非エルミタンアンハーモニック性は単一光子放出を誘導する

Non-Hermitian Anharmonicity Induces Single-Photon Emission ( http://arxiv.org/abs/2212.06307v2 )

ライセンス: Link先を確認
Anael Ben-Asher, Antonio I. Fernández-Domínguez, Johannes Feist, (参考訳) 単一光子源は、量子情報応用に高い需要がある。 単一光子放出を達成するためのパラダイム的な方法は、コヒーレントドライブからの単一光子の吸収が系を共鳴から外し、第2の光子の吸収を防ぐというエネルギー準位の不調和によるものである。 我々は、非エルミート的無調波性、すなわちエネルギーレベルではなく損失における無調波性を通して、単光子放射の新たなメカニズムを同定する。 この機構は,2レベルエミッタに弱結合したハイブリッドメタロ誘電体キャビティからなる実現可能なセットアップを含む2種類のシステムで実証し,高い繰り返し速度で高純度単一光子放出を誘導することを示す。

Single-photon sources are in high demand for quantum information applications. A paradigmatic way to achieve single-photon emission is through anharmonicity in the energy levels, such that the absorption of a single photon from a coherent drive shifts the system out of resonance and prevents absorption of a second one. We identify a novel mechanism for single-photon emission through non-Hermitian anharmonicity, i.e., anharmonicity in the losses instead of in the energy levels. We demonstrate the mechanism in two types of systems, including a feasible setup consisting of a hybrid metallodielectric cavity weakly coupled to a two-level emitter, and show that it induces high-purity single-photon emission at high repetition rates.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-12
# 教師なし文法誘導におけるマルチモーダル信号の必要性の再評価

Re-evaluating the Need for Multimodal Signals in Unsupervised Grammar Induction ( http://arxiv.org/abs/2212.10564v3 )

ライセンス: Link先を確認
Boyi Li, Rodolfo Corona, Karttikeya Mangalam, Catherine Chen, Daniel Flaherty, Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell, Dan Klein, (参考訳) 文法誘導にマルチモーダル入力は必要か? 近年の研究では、マルチモーダルな学習インプットが文法誘導を改善することが示されている。 しかし、これらの改善は、比較的小さなテキストデータに基づいてトレーニングされた弱いテキストのみのベースラインとの比較に基づいている。 大量のテキストトレーニングデータを持つ体制においてマルチモーダル入力が必要とされるかどうかを判断するために,LC-PCFGと呼ぶ,より強力なテキストのみのベースラインを設計する。 LC-PCFG(LC-PCFG)は、テキストのみの大規模言語モデル(LLM)の埋め込みを組み込んだC-PFCGである。 固定文法ファミリを用いてLC-PCFGと様々なマルチモーダル文法帰納法を直接比較する。 4つのベンチマークデータセットのパフォーマンスを比較します。 LC-PCFGは、最先端のマルチモーダル文法誘導法と比較して最大17%改善したコーパスF1を提供する。 LC-PCFGは、マルチモーダルアプローチと比較して最大85%のパラメータカウントと8.8倍のトレーニング時間を削減できる。 これらの結果から,マルチモーダル入力は文法帰納に必要ではない可能性が示唆され,多モーダルアプローチの利点を評価する上で,強い視覚自由ベースラインの重要性が強調された。

Are multimodal inputs necessary for grammar induction? Recent work has shown that multimodal training inputs can improve grammar induction. However, these improvements are based on comparisons to weak text-only baselines that were trained on relatively little textual data. To determine whether multimodal inputs are needed in regimes with large amounts of textual training data, we design a stronger text-only baseline, which we refer to as LC-PCFG. LC-PCFG is a C-PFCG that incorporates em-beddings from text-only large language models (LLMs). We use a fixed grammar family to directly compare LC-PCFG to various multi-modal grammar induction methods. We compare performance on four benchmark datasets. LC-PCFG provides an up to 17% relative improvement in Corpus-F1 compared to state-of-the-art multimodal grammar induction methods. LC-PCFG is also more computationally efficient, providing an up to 85% reduction in parameter count and 8.8x reduction in training time compared to multimodal approaches. These results suggest that multimodal inputs may not be necessary for grammar induction, and emphasize the importance of strong vision-free baselines for evaluating the benefit of multimodal approaches.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 近位ニュートンによるグラフラプラシアン推定の効率化

Efficient Graph Laplacian Estimation by Proximal Newton ( http://arxiv.org/abs/2302.06434v3 )

ライセンス: Link先を確認
Yakov Medvedovsky, Eran Treister, Tirza Routtenberg, (参考訳) Laplacian-Constrained Gaussian Markov Random Field (LGMRF) は、与えられたデータから重み付きスパース依存グラフを学ぶための一般的な多変量統計モデルである。 このグラフ学習問題は、ラプラシア構造制約を受ける精度行列の最大極大推定(MLE)として、スパース性誘導ペナルティ項で定式化することができる。 本稿では,この学習問題を高精度かつ効率的に解くことを目的とする。 まず、一般的な$\ell_1$-normのペナルティは、この設定では不適切であり、完全なグラフにつながる可能性があるため、推定バイアスの低いスパース解を促進する非凸ミニマックスペナルティ(MCP)を用いる。 第二に、この問題に対する既存の一階法とは対照的に、共役勾配、プレコンディショニング、アクティブ/フリーな集合への分割といったアルゴリズム的特徴を利用して、効率的な解法を得るための二階近似ニュートン法を開発する。 計算複雑性とグラフ学習精度の両面から,提案手法の利点を示す数値実験を行った。

The Laplacian-constrained Gaussian Markov Random Field (LGMRF) is a common multivariate statistical model for learning a weighted sparse dependency graph from given data. This graph learning problem can be formulated as a maximum likelihood estimation (MLE) of the precision matrix, subject to Laplacian structural constraints, with a sparsity-inducing penalty term. This paper aims to solve this learning problem accurately and efficiently. First, since the commonly used $\ell_1$-norm penalty is inappropriate in this setting and may lead to a complete graph, we employ the nonconvex minimax concave penalty (MCP), which promotes sparse solutions with lower estimation bias. Second, as opposed to existing first-order methods for this problem, we develop a second-order proximal Newton approach to obtain an efficient solver, utilizing several algorithmic features, such as using Conjugate Gradients, preconditioning, and splitting to active/free sets. Numerical experiments demonstrate the advantages of the proposed method in terms of both computational complexity and graph learning accuracy compared to existing methods.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# ドメイン一般化のための自己蒸留によるロバスト表現学習

Robust Representation Learning with Self-Distillation for Domain Generalization ( http://arxiv.org/abs/2302.06874v2 )

ライセンス: Link先を確認
Ankur Singh, Senthilnath Jayavelu, (参考訳) 近年のディープニューラルネットワークの成功にもかかわらず、視覚変換器を使用してドメインの一般化を強化する効果的な方法が依然として必要である。 本稿では, 自己蒸留を用いたロバスト表現学習(RRLD)と呼ばれる新しい領域一般化手法を提案する。 一 中間ブロックの自己蒸留及び 二 変圧器を用いた非表示領域の一般化能力を向上させるための増倍誘導自己蒸留 このアプローチにより、ネットワークは、ソースドメインへのオーバーフィッティングを効果的に軽減しつつ、異なる拡張やドメインシフトに不変な、堅牢で一般的な機能を学ぶことができる。 提案手法の有効性を評価するため,PACSおよびOfficeHomeベンチマークデータセットおよび産業用ウエハ半導体欠陥データセットについて広範な実験を行った。 その結果,RRLDはロバストかつ高精度な一般化性能を実現することが示された。 3つのデータセットの最先端技術よりも、平均精度が1.2%から2.3%向上しているのを観察する。

Despite the recent success of deep neural networks, there remains a need for effective methods to enhance domain generalization using vision transformers. In this paper, we propose a novel domain generalization technique called Robust Representation Learning with Self-Distillation (RRLD) comprising i) intermediate-block self-distillation and ii) augmentation-guided self-distillation to improve the generalization capabilities of transformer-based models on unseen domains. This approach enables the network to learn robust and general features that are invariant to different augmentations and domain shifts while effectively mitigating overfitting to source domains. To evaluate the effectiveness of our proposed method, we perform extensive experiments on PACS and OfficeHome benchmark datasets, as well as an industrial wafer semiconductor defect dataset. The results demonstrate that RRLD achieves robust and accurate generalization performance. We observe an average accuracy improvement in the range of 1.2% to 2.3% over the state-of-the-art on the three datasets.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 視覚言語画像理解におけるグラフニューラルネットワーク:サーベイ

Graph Neural Networks in Vision-Language Image Understanding: A Survey ( http://arxiv.org/abs/2303.03761v2 )

ライセンス: Link先を確認
Henry Senior, Gregory Slabaugh, Shanxin Yuan, Luca Rossi, (参考訳) 2D画像理解はコンピュータビジョンの複雑な問題であるが、人間レベルのシーン理解を提供する鍵を握る。 画像中のオブジェクトを識別するだけでなく、シーンを理解しようとする。 この問題の解決策は、画像キャプション、視覚的質問応答(VQA)、画像検索など、様々なタスクの基盤を形成する。 グラフは、画像内のオブジェクト間の関係的な配置を表現する自然な方法であり、近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなり、特にタスクのVQAグループにおいて、コアアーキテクチャコンポーネントとなっている。 本稿では,2次元画像理解手法におけるグラフタイプの分類,領域におけるGNNモデルの包括的リスト,今後の展開のロードマップについて概説する。 我々の知る限りでは、GNNをアーキテクチャの主部分として活用することに焦点を当てた画像キャプション、視覚的質問応答、画像検索技術をカバーする、初めての総合的な調査である。

2D image understanding is a complex problem within computer vision, but it holds the key to providing human-level scene comprehension. It goes further than identifying the objects in an image, and instead, it attempts to understand the scene. Solutions to this problem form the underpinning of a range of tasks, including image captioning, visual question answering (VQA), and image retrieval. Graphs provide a natural way to represent the relational arrangement between objects in an image, and thus, in recent years graph neural networks (GNNs) have become a standard component of many 2D image understanding pipelines, becoming a core architectural component, especially in the VQA group of tasks. In this survey, we review this rapidly evolving field and we provide a taxonomy of graph types used in 2D image understanding approaches, a comprehensive list of the GNN models used in this domain, and a roadmap of future potential developments. To the best of our knowledge, this is the first comprehensive survey that covers image captioning, visual question answering, and image retrieval techniques that focus on using GNNs as the main part of their architecture.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 多重並列進化戦略によるMAPエリートの拡張

Enhancing MAP-Elites with Multiple Parallel Evolution Strategies ( http://arxiv.org/abs/2303.06137v2 )

ライセンス: Link先を確認
Manon Flageat, Bryan Lim, Antoine Cully, (参考訳) 多くの領域で高速かつ大規模に並列な評価が開発され、多くのアプリケーションですでに有望であることが証明されている品質多様性(QD)アルゴリズムは、その潜在的な乗算を目にしている。 しかし, ランダムな変分だけでは必ずしも有効ではないため, 多数の評価を最適に利用する方法がまだ分かっていない。 高次元探索空間は、ランダムな変動が効果的に探索するのに苦労する典型的な状況である。 もう一つの状況は、ソリューションが真に優れているように見える不確実な設定であり、さらに多くのソリューションがQDアルゴリズムを誤解させる可能性がある。 本研究では,高速並列評価をより効果的に活用するための進化戦略(ES)に基づく新しいQDアルゴリズムであるMAP-Elites-Multi-ES(MEMES)を提案する。 MEMESは複数の(最大100までの)同時ESプロセスを維持しており、それぞれが独立してQD最適化用に設計され、1つのGPU上でリセットされる。 ブラックボックス最適化とQD強化学習のタスクにおいて,MEMESは勾配に基づくQDアルゴリズムと突然変異に基づくQDアルゴリズムの両方より優れており,ドメイン間の利点を示している。 さらに,本手法は,同じ評価予算を与えられた場合,不確実領域におけるサンプリングベースのQD手法よりも優れる。 全体として、MEMESは、容易にアクセス可能なハードウェア上での大規模なES最適化を通じて、高性能で多様な再現可能なソリューションを生成する。

With the development of fast and massively parallel evaluations in many domains, Quality-Diversity (QD) algorithms, that already proved promising in a large range of applications, have seen their potential multiplied. However, we have yet to understand how to best use a large number of evaluations as using them for random variations alone is not always effective. High-dimensional search spaces are a typical situation where random variations struggle to effectively search. Another situation is uncertain settings where solutions can appear better than they truly are and naively evaluating more solutions might mislead QD algorithms. In this work, we propose MAP-Elites-Multi-ES (MEMES), a novel QD algorithm based on Evolution Strategies (ES) designed to exploit fast parallel evaluations more effectively. MEMES maintains multiple (up to 100) simultaneous ES processes, each with its own independent objective and reset mechanism designed for QD optimisation, all on just a single GPU. We show that MEMES outperforms both gradient-based and mutation-based QD algorithms on black-box optimisation and QD-Reinforcement-Learning tasks, demonstrating its benefit across domains. Additionally, our approach outperforms sampling-based QD methods in uncertain domains when given the same evaluation budget. Overall, MEMES generates reproducible solutions that are high-performing and diverse through large-scale ES optimisation on easily accessible hardware.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 新しいエントロピーアプローチによる適応的フェデレーション学習

Adaptive Federated Learning via New Entropy Approach ( http://arxiv.org/abs/2303.14966v3 )

ライセンス: Link先を確認
Shensheng Zheng, Wenhao Yuan, Xuehe Wang, Lingjie Duan, (参考訳) Federated Learning(FL)は、地理的に独立したクライアントが、プライバシに敏感なデータを保存しながら、グローバルモデルを協調的にトレーニングできるようにする、著名な分散機械学習フレームワークとして登場した。 しかし、異種クライアントが生成した非独立・独立・独立・分散(Non-IID)データにより、FedAvgなどの従来のフェデレート最適化方式の性能は低下し、不均一性の負の影響を軽減するために、特定のモデルパラメータを適応的に調整する必要がある。 本稿では,システム障害の度合いを評価するための新しい指標としてエントロピーを活用することで,不均一なクライアント間のパラメータ偏差を緩和し,高速収束を実現するために,エントロピー理論(FedEnt)に基づく適応型FEDerated Learningアルゴリズムを提案する。 それでも、不均一なクライアントのデータ格差やパラメータの偏りを考えると、各クライアントの最適な動的学習率を決定することは、ローカルトレーニング時代のクライアント間でのコミュニケーションがないため、難しい課題となる。 まず、各クライアントに対する分散学習率を実現するために、各クライアントのローカルパラメータに関連するコンポーネントを推定するために、平均フィールド項を導入する。 さらに、平均場推定器の存在と決定について厳密な理論的解析を行う。 平均場推定器に基づいて、各クライアントに対する閉形式適応学習率をハミルトン方程式を構築することにより導出する。 さらに,提案したFedEntの収束速度を実証した。 実世界のデータセット(MNIST, EMNIST-L, CIFAR10, CIFAR100)の広範な実験結果から、我々のFedEntアルゴリズムは、非IID設定下でFedAvgとその変種(FedAdam, FedProx, FedDyn)を超越し、より高速な収束率を達成することが示された。

Federated Learning (FL) has emerged as a prominent distributed machine learning framework that enables geographically discrete clients to train a global model collaboratively while preserving their privacy-sensitive data. However, due to the non-independent-and-identically-distributed (Non-IID) data generated by heterogeneous clients, the performances of the conventional federated optimization schemes such as FedAvg and its variants deteriorate, requiring the design to adaptively adjust specific model parameters to alleviate the negative influence of heterogeneity. In this paper, by leveraging entropy as a new metric for assessing the degree of system disorder, we propose an adaptive FEDerated learning algorithm based on ENTropy theory (FedEnt) to alleviate the parameter deviation among heterogeneous clients and achieve fast convergence. Nevertheless, given the data disparity and parameter deviation of heterogeneous clients, determining the optimal dynamic learning rate for each client becomes a challenging task as there is no communication among participating clients during the local training epochs. To enable a decentralized learning rate for each participating client, we first introduce the mean-field terms to estimate the components associated with other clients' local parameters. Furthermore, we provide rigorous theoretical analysis on the existence and determination of the mean-field estimators. Based on the mean-field estimators, the closed-form adaptive learning rate for each client is derived by constructing the Hamilton equation. Moreover, the convergence rate of our proposed FedEnt is proved. The extensive experimental results on the real-world datasets (i.e., MNIST, EMNIST-L, CIFAR10, and CIFAR100) show that our FedEnt algorithm surpasses FedAvg and its variants (i.e., FedAdam, FedProx, and FedDyn) under Non-IID settings and achieves a faster convergence rate.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# FedAgg: Aggregated Gradientsによる適応的なフェデレーション学習

FedAgg: Adaptive Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v4 )

ライセンス: Link先を確認
Wenhao Yuan, Xuehe Wang, (参考訳) フェデレートラーニング(FL)は、分散モデルトレーニングにおける重要なパラダイムとして現れ、複数のデバイス間のコラボレーションを促進し、共有モデルを洗練し、各データセットを中央サーバによってオーケストレーションされ、プライベートデータのローカライゼーションを保証する。 それでも、異種クライアントで生成した非独立・同一分散(Non-IID)データや、参加者間の不必要な情報交換は、トレーニング効果を著しく阻害し、収束率を低下させる可能性がある。 本稿では,各局所学習エポックにおける集約勾配を導入して従来の確率勾配勾配法(SGD)を改良し,局所パラメータと平均パラメータのばらつきを考慮に入れた適応学習率反復アルゴリズムを提案する。 本研究では,他のクライアントのローカル情報取得の障害を克服するために,平均フィールドの2つの用語を活用して,クライアント間のローカル情報交換の必要性を回避し,クライアント毎の分散適応学習率を設計する手法により,時間とともに平均ローカルパラメータと勾配を推定する手法を提案する。 厳密な理論的解析を通じて、提案アルゴリズムの堅牢な収束保証と、その広範な適用性を保証する。 IIDおよび非IIDデータ分布下でのモデル性能向上と収束速度向上のための既存のFL戦略と比較して,我々のフレームワークの優位性を裏付ける数値実験を行った。

Federated Learning (FL) has emerged as a pivotal paradigm within distributed model training, facilitating collaboration among multiple devices to refine a shared model, harnessing their respective datasets as orchestrated by a central server, while ensuring the localization of private data. Nonetheless, the non-independent-and-identically-distributed (Non-IID) data generated on heterogeneous clients and the incessant information exchange among participants may markedly impede training efficacy and retard the convergence rate. In this paper, we refine the conventional stochastic gradient descent (SGD) methodology by introducing aggregated gradients at each local training epoch and propose an adaptive learning rate iterative algorithm that concerns the divergence between local and average parameters. To surmount the obstacle that acquiring other clients' local information, we introduce the mean-field approach by leveraging two mean-field terms to approximately estimate the average local parameters and gradients over time in a manner that precludes the need for local information exchange among clients and design the decentralized adaptive learning rate for each client. Through meticulous theoretical analysis, we provide a robust convergence guarantee for our proposed algorithm and ensure its wide applicability. Our numerical experiments substantiate the superiority of our framework in comparison with existing state-of-the-art FL strategies for enhancing model performance and accelerating convergence rate under IID and Non-IID data distributions.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 不確実性を考慮した信頼性の高いヒューマンポーズ予測に向けて

Toward Reliable Human Pose Forecasting with Uncertainty ( http://arxiv.org/abs/2304.06707v2 )

ライセンス: Link先を確認
Saeed Saadatnejad, Mehrshad Mirmohammadi, Matin Daghyani, Parham Saremi, Yashar Zoroofchi Benisi, Amirhossein Alimohammadi, Zahra Tehraninasab, Taylor Mordan, Alexandre Alahi, (参考訳) 近年,過去観察された人物の将来の3次元ポーズの列を予測する時空間的課題を解決するために,ポーズ予測手法が群集化している。 しかし、統一ベンチマークの欠如と限られた不確実性分析がこの分野の進歩を妨げている。 そこで我々はまず,複数のモデルを含む人間のポーズ予測のためのオープンソースライブラリを開発し,複数のデータセットをサポートし,標準化された評価指標を採用し,研究を促進し,統一的かつ一貫した評価を目指す。 第二に、パフォーマンスを高め、より良い信頼を伝えるために、問題に不確実性を持つ2つのタイプを考案する。 1) 不確かさのパターンに関する知識を注入するために,不確かさを事前に用いて,不確かさをモデル化する手法を提案する。 これは、学習パラメータの数を減らし、安定性を改善しながら、より意味のある監視の方向にモデルのキャパシティに焦点を当てる。 2) クラスタリングと課題のエントロピーの測定により, あらゆるモデルの疫学的不確実性を定量化するための新しい手法を提案する。 実験では,Human3.6M,AMSS,3DPWデータセット上の長期の水平線に損失がなく,不確実性推定の性能も向上した。 コードはhttps://github.com/vita-epfl/UnPOSed.comで公開されている。

Recently, there has been an arms race of pose forecasting methods aimed at solving the spatio-temporal task of predicting a sequence of future 3D poses of a person given a sequence of past observed ones. However, the lack of unified benchmarks and limited uncertainty analysis have hindered progress in the field. To address this, we first develop an open-source library for human pose forecasting, including multiple models, supporting several datasets, and employing standardized evaluation metrics, with the aim of promoting research and moving toward a unified and consistent evaluation. Second, we devise two types of uncertainty in the problem to increase performance and convey better trust: 1) we propose a method for modeling aleatoric uncertainty by using uncertainty priors to inject knowledge about the pattern of uncertainty. This focuses the capacity of the model in the direction of more meaningful supervision while reducing the number of learned parameters and improving stability; 2) we introduce a novel approach for quantifying the epistemic uncertainty of any model through clustering and measuring the entropy of its assignments. Our experiments demonstrate up to $25\%$ improvements in forecasting at short horizons, with no loss on longer horizons on Human3.6M, AMSS, and 3DPW datasets, and better performance in uncertainty estimation. The code is available online at https://github.com/vita-epfl/UnPOSed.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 平衡から離れた循環型熱エンジンの幾何学的特性評価

Geometric characterization for cyclic heat engines far from equilibrium ( http://arxiv.org/abs/2305.06219v2 )

ライセンス: Link先を確認
Tan Van Vu, Keiji Saito, (参考訳) 理論的にも実験的にも、微視的な熱エンジンに注意が向けられている。 特に、電力と効率に関する基本的な限界と、これらの2つの量の間のトレードオフ関係が集中的に研究されている。 本研究の目的は、任意の速度で作動する循環型熱機関の経路に沿った幾何学的長さと、そのパワーと効率の関係を探索することによって、熱機関の究極の限界についてさらなる光を当てることである。 我々は、幾何学的長さと熱機関の時間スケールを用いて、電力と効率のトレードオフ関係を確立する。 興味深いことに、幾何学量には古典的な場合において実験的に利用できる用語が含まれているため、この関係は熱力学効率の推測に有用である。 さらに、熱機関の動力は、その幾何学的長さの積とエネルギー統計によって常に上界であることが明らかにされる。 本結果は, 古典的および量子的熱機関の平衡から遠く離れた領域に広く適用可能な, 循環式熱エンジンの性能を幾何学的に評価するものである。

Considerable attention has been devoted to microscopic heat engines in both theoretical and experimental aspects. Notably, the fundamental limits pertaining to power and efficiency, as well as the tradeoff relations between these two quantities, have been intensively studied. This study aims to shed further light on the ultimate limits of heat engines by exploring the relationship between the geometric length along the path of cyclic heat engines operating at arbitrary speeds and their power and efficiency. We establish a tradeoff relation between power and efficiency using the geometric length and the timescale of the heat engine. Remarkably, because the geometric quantity comprises experimentally accessible terms in classical cases, this relation is useful for the inference of thermodynamic efficiency. Moreover, we reveal that the power of a heat engine is always upper bounded by the product of its geometric length and the statistics of energy. Our results provide a geometric characterization of the performance of cyclic heat engines, which is universally applicable to both classical and quantum heat engines operating far from equilibrium.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 校正を意識したベイズ学習

Calibration-Aware Bayesian Learning ( http://arxiv.org/abs/2305.07504v2 )

ライセンス: Link先を確認
Jiayi Huang, Sangwoo Park, Osvaldo Simeone, (参考訳) 大規模言語モデルのような近代的なシステムを含むディープラーニングモデルは、彼らの決定の不確実性に対する信頼できない見積もりを提供することでよく知られている。 モデルのキャリブレーション(キャリブレーション)として知られる信頼性レベルの品質を改善するために、一般的なアプローチでは、トレーニング損失にデータ依存またはデータ非依存の正規化項を追加する必要がある。 データ依存型正規化器は、信頼度と精度のずれを罰する従来の頻繁な学習の文脈で最近導入された。 対照的に、データ非依存の正則化器はベイズ学習の核であり、モデルパラメータ空間における変分分布を先行密度に順守する。 前者のアプローチではてんかんの不確かさを定量化できないが、後者はモデルミス種別の影響を強く受けている。 本稿では,両手法の限界を鑑みて,正規化アルゴリズムを応用しつつ,ベイズ学習の変分分布を最適化し,キャリブレーションを意識したベイズニューラルネットワーク(CA-BNN)と呼ばれる統合フレームワークを提案する。 予測キャリブレーション誤差(ECE)と信頼性図を用いて,提案手法の利点を検証した。

Deep learning models, including modern systems like large language models, are well known to offer unreliable estimates of the uncertainty of their decisions. In order to improve the quality of the confidence levels, also known as calibration, of a model, common approaches entail the addition of either data-dependent or data-independent regularization terms to the training loss. Data-dependent regularizers have been recently introduced in the context of conventional frequentist learning to penalize deviations between confidence and accuracy. In contrast, data-independent regularizers are at the core of Bayesian learning, enforcing adherence of the variational distribution in the model parameter space to a prior density. The former approach is unable to quantify epistemic uncertainty, while the latter is severely affected by model misspecification. In light of the limitations of both methods, this paper proposes an integrated framework, referred to as calibration-aware Bayesian neural networks (CA-BNNs), that applies both regularizers while optimizing over a variational distribution as in Bayesian learning. Numerical results validate the advantages of the proposed approach in terms of expected calibration error (ECE) and reliability diagrams.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# HICO-DET-SGとV-COCO-SG:人間-物体相互作用検出モデルの系統的一般化性能評価のための新しいデータ分割

HICO-DET-SG and V-COCO-SG: New Data Splits for Evaluating the Systematic Generalization Performance of Human-Object Interaction Detection Models ( http://arxiv.org/abs/2305.09948v5 )

ライセンス: Link先を確認
Kentaro Takemoto, Moyuru Yamada, Tomotake Sasaki, Hisanao Akima, (参考訳) ヒューマン・オブジェクト・インタラクション(Human-Object Interaction、HOI)は、画像中の人間とオブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測するタスクである。 実世界のシナリオでは、HOI検出モデルは体系的な一般化、すなわち新しいオブジェクトと相互作用の組み合わせへの一般化を必要とする。 HOI検出モデルの系統的一般化性能を評価するため、HICO-DET-SGとV-COCO-SGという2種類のHOI検出データ分割をHICO-DETとV-COCOデータセットに基づいて作成した。 新たなデータ分割を評価した場合,様々な特徴を持つHOI検出モデルは,元の分割を評価する場合よりもはるかに低性能であった。 このことは、系統的な一般化がHOI検出の難しい目標であることを示している。 また, 評価結果を解析することにより, 体系的一般化性能を向上させるための洞察を得るとともに, 今後の4つの研究方向を明らかにする。 新たなデータ分割と解析が,HOI検出における系統的一般化のさらなる研究を促進することを願っている。

Human-Object Interaction (HOI) detection is a task to localize humans and objects in an image and predict the interactions in human-object pairs. In real-world scenarios, HOI detection models need systematic generalization, i.e., generalization to novel combinations of objects and interactions, because the train data are expected to cover a limited portion of all possible combinations. To evaluate the systematic generalization performance of HOI detection models, we created two new sets of HOI detection data splits named HICO-DET-SG and V-COCO-SG based on the HICO-DET and V-COCO datasets, respectively. When evaluated on the new data splits, HOI detection models with various characteristics performed much more poorly than when evaluated on the original splits. This shows that systematic generalization is a challenging goal in HOI detection. By analyzing the evaluation results, we also gain insights for improving the systematic generalization performance and identify four possible future research directions. We hope that our new data splits and presented analysis will encourage further research on systematic generalization in HOI detection.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 生成モデルを用いた強化学習における分布ロバストさの検証

The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2305.16589v2 )

ライセンス: Link先を確認
Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Matthieu Geist, Yuejie Chi, (参考訳) 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。 我々は,配置環境が,名目MDPの周囲に規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。 近年の取り組みにもかかわらず、RMDPのサンプルの複雑さは、使用中の不確実性によらず、ほとんど未解決のままであった。 標準RLとベンチマークした場合、分布的ロバスト性が統計的にどのような結果をもたらすかは明らかでない。 名目MDPに基づいてサンプルを描画する生成モデルにアクセスすると、不確実性集合が全変動(TV)距離または$\chi^2$ばらつきによって特定される場合、RMDPのサンプル複雑性を特徴付ける。 ここでのアルゴリズムは、分布的に堅牢な値反復と呼ばれるモデルに基づく手法であり、不確実性レベルの全範囲に対してほぼ最適であることが示されている。 意外なことに、私たちの結果はRMDPが標準のMDPよりも簡単で、学習が難しいとは限らないことを明らかにしました。 堅牢性要求によって引き起こされる統計的結果は、不確実性集合のサイズと形状に大きく依存する: w.r.t.~TV距離の場合、RMDPのミニマックスサンプルの複雑さは標準のMDPよりも常に小さく、w.r.t.~$\chi^2$のばらつきの場合、RMDPのサンプルの複雑さは標準のMDPよりもはるかに大きい。

This paper investigates model robustness in reinforcement learning (RL) to reduce the sim-to-real gap in practice. We adopt the framework of distributionally robust Markov decision processes (RMDPs), aimed at learning a policy that optimizes the worst-case performance when the deployed environment falls within a prescribed uncertainty set around the nominal MDP. Despite recent efforts, the sample complexity of RMDPs remained mostly unsettled regardless of the uncertainty set in use. It was unclear if distributional robustness bears any statistical consequences when benchmarked against standard RL. Assuming access to a generative model that draws samples based on the nominal MDP, we characterize the sample complexity of RMDPs when the uncertainty set is specified via either the total variation (TV) distance or $\chi^2$ divergence. The algorithm studied here is a model-based method called {\em distributionally robust value iteration}, which is shown to be near-optimal for the full range of uncertainty levels. Somewhat surprisingly, our results uncover that RMDPs are not necessarily easier or harder to learn than standard MDPs. The statistical consequence incurred by the robustness requirement depends heavily on the size and shape of the uncertainty set: in the case w.r.t.~the TV distance, the minimax sample complexity of RMDPs is always smaller than that of standard MDPs; in the case w.r.t.~the $\chi^2$ divergence, the sample complexity of RMDPs can often far exceed the standard MDP counterpart.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-12
# 縮尺密度推定のための近似ステインクラス

Approximate Stein Classes for Truncated Density Estimation ( http://arxiv.org/abs/2306.00602v2 )

ライセンス: Link先を確認
Daniel J. Williams, Song Liu, (参考訳) これらのモデルは、難解な正規化定数を持ち、境界条件を満たすことが難しいため、切り離された密度モデルの推定は困難である。 スコアマッチングは、切り詰められた密度推定問題を解くために適応することができるが、境界でゼロを取る連続重み付け関数が必要であり、他の場所では正である。 そのような重み付け関数(およびその勾配)の評価は、しばしばトランケーション境界の閉形式表現と複雑な最適化問題の解を見つける必要がある。 本稿では, 閉包密度推定のための緩和されたスタイン恒等式を導出する, 近似的なスタイン類を提案する。 本研究では,事前に重み付け関数の修正を必要とせず,境界上のサンプルのみを用いて評価できる新しい離散度尺度であるTKSDを開発した。 我々は、TKSDのラグランジアン双対を最小化することにより、切り離された密度モデルを推定する。 最後に,実験により,境界の明示的な機能形式を使わずに,従来の手法よりも精度が向上したことを示す。

Estimating truncated density models is difficult, as these models have intractable normalising constants and hard to satisfy boundary conditions. Score matching can be adapted to solve the truncated density estimation problem, but requires a continuous weighting function which takes zero at the boundary and is positive elsewhere. Evaluation of such a weighting function (and its gradient) often requires a closed-form expression of the truncation boundary and finding a solution to a complicated optimisation problem. In this paper, we propose approximate Stein classes, which in turn leads to a relaxed Stein identity for truncated density estimation. We develop a novel discrepancy measure, truncated kernelised Stein discrepancy (TKSD), which does not require fixing a weighting function in advance, and can be evaluated using only samples on the boundary. We estimate a truncated density model by minimising the Lagrangian dual of TKSD. Finally, experiments show the accuracy of our method to be an improvement over previous works even without the explicit functional form of the boundary.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# データアクセスのないディープ・クラシファイア・ミミミリ

Deep Classifier Mimicry without Data Access ( http://arxiv.org/abs/2306.02090v4 )

ライセンス: Link先を確認
Steven Braun, Martin Mundt, Kristian Kersting, (参考訳) 事前訓練されたモデルへのアクセスは、最近、多くの機械学習ドメインの標準として登場した。 残念なことに、モデルがトレーニングしたオリジナルのデータへのアクセスは、等しく許可されないかもしれない。 これにより、モデルを微調整したり、圧縮したり、継続的に適応したり、あるいは他のタイプのデータ駆動更新を行うのは非常に困難になります。 しかし、元のデータアクセスは必要ないかもしれないと仮定する。 具体的には、原データにアクセスせずに深部分類器を模倣するモデルに依存しない知識蒸留法であるContrastive Abductive Knowledge extract (CAKE)を提案する。 この目的のために、CAKEはノイズの多い合成サンプルのペアを生成し、それらをモデルの決定境界に対して対照的に拡散させる。 我々は、いくつかのベンチマークデータセットとさまざまなアーキテクチャ選択を使用して、CAKEの有効性を実証的に相関付け、幅広いアプリケーションへの道を開く。

Access to pre-trained models has recently emerged as a standard across numerous machine learning domains. Unfortunately, access to the original data the models were trained on may not equally be granted. This makes it tremendously challenging to fine-tune, compress models, adapt continually, or to do any other type of data-driven update. We posit that original data access may however not be required. Specifically, we propose Contrastive Abductive Knowledge Extraction (CAKE), a model-agnostic knowledge distillation procedure that mimics deep classifiers without access to the original data. To this end, CAKE generates pairs of noisy synthetic samples and diffuses them contrastively toward a model's decision boundary. We empirically corroborate CAKE's effectiveness using several benchmark datasets and various architectural choices, paving the way for broad application.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# RDFC-GAN:RGB-Depth Fusion CycleGAN

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion ( http://arxiv.org/abs/2306.03584v2 )

ライセンス: Link先を確認
Haowen Wang, Zhengping Che, Yufan Yang, Mingyuan Wang, Zhiyuan Xu, Xiuquan Qiao, Mengshi Qi, Feifei Feng, Jian Tang, (参考訳) 屋内のシナリオで撮影された生の深度画像は、センサーや環境に固有の制約があるため、広範に欠落した値を示すことが多い。 例えば、透明な物質は、しばしば深度センサーによる検出を省略し、表面は、その研磨されたテクスチャ、拡張された距離、センサーからの斜めの入射角による測定の不正確さをもたらす可能性がある。 不完全深度マップの存在は、その後の視覚応用に重大な課題を課し、この問題を軽減するために多くの深度補完技術の開発を促した。 余分なサンプルから密集した深度マップを再構築する多くの手法が優れているが、室内環境において広く普及し重要な課題である深度値の欠如に直面すると、しばしば混乱する。 これらの課題を克服するため、RDFC-GANと呼ばれる新しい2分岐のエンドツーエンド核融合ネットワークを設計し、RGBと不完全深度画像のペアを入力として、密度と完成深度マップを予測する。 第1分枝は、マンハッタン世界の仮定に固執し、RGB-D情報からの正規写像をガイダンスとして利用して、生の深度マップから局所的な密度深度値を回帰することにより、エンコーダ・デコーダ構造を用いる。 もう一方のブランチでは、RGB画像の詳細なテクスチャ化された深度マップへの変換に適したRGB深度融合CycleGANを適用している。 W-AdaINという名前の適応核融合モジュールを介して2つの枝を融合させ、擬似深度マップの助けを借りてモデルを訓練する。 また,NYU-Depth V2およびSUN RGB-Dデータセットの総合評価結果から,本手法は特に屋内の現実的な環境での深度補完性能を大幅に向上させることが示された。

Raw depth images captured in indoor scenarios frequently exhibit extensive missing values due to the inherent limitations of the sensors and environments. For example, transparent materials frequently elude detection by depth sensors; surfaces may introduce measurement inaccuracies due to their polished textures, extended distances, and oblique incidence angles from the sensor. The presence of incomplete depth maps imposes significant challenges for subsequent vision applications, prompting the development of numerous depth completion techniques to mitigate this problem. Numerous methods excel at reconstructing dense depth maps from sparse samples, but they often falter when faced with extensive contiguous regions of missing depth values, a prevalent and critical challenge in indoor environments. To overcome these challenges, we design a novel two-branch end-to-end fusion network named RDFC-GAN, which takes a pair of RGB and incomplete depth images as input to predict a dense and completed depth map. The first branch employs an encoder-decoder structure, by adhering to the Manhattan world assumption and utilizing normal maps from RGB-D information as guidance, to regress the local dense depth values from the raw depth map. The other branch applies an RGB-depth fusion CycleGAN, adept at translating RGB imagery into detailed, textured depth maps while ensuring high fidelity through cycle consistency. We fuse the two branches via adaptive fusion modules named W-AdaIN and train the model with the help of pseudo depth maps. Comprehensive evaluations on NYU-Depth V2 and SUN RGB-D datasets show that our method significantly enhances depth completion performance particularly in realistic indoor settings.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# ミリサイズのスピン系と超伝導量子ビットの間のマクロベル状態

Macroscopic Bell state between a millimeter-sized spin system and a superconducting qubit ( http://arxiv.org/abs/2306.09677v2 )

ライセンス: Link先を確認
Da Xu, Xu-Ke Gu, Yuan-Chao Weng, He-Kang Li, Yi-Pu Wang, Shi-Yao Zhu, J. Q. You, (参考訳) 絡み合い(英: entanglement)は、系が相互距離に関係なく分離不可能な量子相関を共有する量子力学の基本的な性質である。 基本的重要性と汎用的応用により、.itマクロスケールシステム間の量子絡み合いの生成が現在の研究の焦点となっている。 本稿では,ミリサイズのスピン系(\sim 1\times10^{19}$atom)とマイクロメータサイズの超伝導量子ビットを含むハイブリッド量子系における,マクロエンタングルドベル状態の決定論的生成とトモグラフィについて報告する。 マイクロ波キャビティを介して、マクロスピン系とキュービットを結合させることにより、決定論的生成を実現する。 また,ベル状態の決定論的生成を確認するための共同トモグラフィー手法を開発し,その生成精度は0.90\pm0.01$である。 我々の研究により、マクロスピン系は(原子番号の意味で)最大の系となり、最大絡み合った量子状態を生成することができる。

Entanglement is a fundamental property in quantum mechanics that systems share inseparable quantum correlation regardless of their mutual distances. Owing to the fundamental significance and versatile applications, the generation of quantum entanglement between {\it macroscopic} systems has been a focus of current research. Here we report on the deterministic generation and tomography of the macroscopically entangled Bell state in a hybrid quantum system containing a millimeter-sized spin system ($\sim 1\times10^{19}$ atoms) and a micrometer-sized superconducting qubit. The deterministic generation is realized by coupling the macroscopic spin system and the qubit via a microwave cavity. Also, we develop a joint tomography approach to confirming the deterministic generation of the Bell state, which gives a generation fidelity of $0.90\pm0.01$. Our work makes the macroscopic spin system the {\it largest} system (in the sense of atom number) capable of generating the maximally entangled quantum state.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# 言語モデルにおける主観的グローバルオピニオンの表現の計測に向けて

Towards Measuring the Representation of Subjective Global Opinions in Language Models ( http://arxiv.org/abs/2306.16388v2 )

ライセンス: Link先を確認
Esin Durmus, Karina Nguyen, Thomas I. Liao, Nicholas Schiefer, Amanda Askell, Anton Bakhtin, Carol Chen, Zac Hatfield-Dodds, Danny Hernandez, Nicholas Joseph, Liane Lovitt, Sam McCandlish, Orowa Sikder, Alex Tamkin, Janel Thamkul, Jared Kaplan, Jack Clark, Deep Ganguli, (参考訳) 大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に表すものではない。 本稿では,どの意見がモデル生成応答に類似しているかを定量的に評価する枠組みを開発する。 我々はまず,各国のグローバル問題に対するさまざまな意見の収集を目的とした全国横断調査から得られた質問と回答からなる,GlobalOpinionQAというデータセットを構築した。 次に, LLM が生成する調査応答と, 国別に設定した人的応答の類似度を定量化する指標を定義した。 われわれのフレームワークでは、3つの実験をLEMで実施し、立憲AIに役立ち、正直で無害であるように訓練した。 デフォルトでは、LCMの反応は、米国や一部のヨーロッパや南米諸国のような特定の人口の意見とよく似ており、偏見の可能性を浮き彫りにしている。 モデルを特定の国の視点で考えるように促すと、応答は、誘来された人口の意見とよりよく似ているが、有害な文化的ステレオタイプを反映することができる。 我々がGlobalOpinionQA質問を対象言語に翻訳するとき、モデルの応答は必ずしもそれらの言語の話者の意見に最もよく似ているとは限らない。 他者が使用して構築するためのデータセットをリリースしています。 私たちのデータはhttps://huggingface.co/datasets/Anthropic/llm_global_opinionsにあります。 また、https://llmglobalvalues.anthropic.comでもインタラクティブな可視化を提供しています。

Large language models (LLMs) may not equitably represent diverse global perspectives on societal issues. In this paper, we develop a quantitative framework to evaluate whose opinions model-generated responses are more similar to. We first build a dataset, GlobalOpinionQA, comprised of questions and answers from cross-national surveys designed to capture diverse opinions on global issues across different countries. Next, we define a metric that quantifies the similarity between LLM-generated survey responses and human responses, conditioned on country. With our framework, we run three experiments on an LLM trained to be helpful, honest, and harmless with Constitutional AI. By default, LLM responses tend to be more similar to the opinions of certain populations, such as those from the USA, and some European and South American countries, highlighting the potential for biases. When we prompt the model to consider a particular country's perspective, responses shift to be more similar to the opinions of the prompted populations, but can reflect harmful cultural stereotypes. When we translate GlobalOpinionQA questions to a target language, the model's responses do not necessarily become the most similar to the opinions of speakers of those languages. We release our dataset for others to use and build on. Our data is at https://huggingface.co/datasets/Anthropic/llm_global_opinions. We also provide an interactive visualization at https://llmglobalvalues.anthropic.com.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# 非累積目的語を用いた強化学習

Reinforcement Learning with Non-Cumulative Objective ( http://arxiv.org/abs/2307.04957v2 )

ライセンス: Link先を確認
Wei Cui, Wei Yu, (参考訳) 強化学習では、目的はほとんど常にプロセスに沿った報酬に対して \emph{cumulative} 関数として定義される。 しかし、様々な分野、特にコミュニケーションやネットワークにおいて、目的が報酬の和として自然に表現されない最適制御と強化学習の問題が多く存在する。 本稿では, 様々な問題における非累積的対象の出現率を認識し, その最適化のための既存アルゴリズムの修正を提案する。 具体的には,ベルマン最適性方程式 (BellmanOptimity equation) という,多くの最適制御および強化学習アルゴリズムの基本的な構成要素について検討する。 非累積目的を最適化するために、ベルマン更新規則における元の総和演算を目的に対応する一般化演算に置き換える。 さらに、一般化された操作の形式に関する十分な条件と、一般化されたベルマン更新の最適収束が保証されるマルコフ決定過程に関する仮定を提供する。 本研究では,フロー速度の最大化に関する2つのネットワークルーティング問題と同様に,従来の最適制御および強化学習タスクにおいて,プロセスの最小報酬によって決定される目標をボトルネック目標として実験的に示す。

In reinforcement learning, the objective is almost always defined as a \emph{cumulative} function over the rewards along the process. However, there are many optimal control and reinforcement learning problems in various application fields, especially in communications and networking, where the objectives are not naturally expressed as summations of the rewards. In this paper, we recognize the prevalence of non-cumulative objectives in various problems, and propose a modification to existing algorithms for optimizing such objectives. Specifically, we dive into the fundamental building block for many optimal control and reinforcement learning algorithms: the Bellman optimality equation. To optimize a non-cumulative objective, we replace the original summation operation in the Bellman update rule with a generalized operation corresponding to the objective. Furthermore, we provide sufficient conditions on the form of the generalized operation as well as assumptions on the Markov decision process under which the globally optimal convergence of the generalized Bellman updates can be guaranteed. We demonstrate the idea experimentally with the bottleneck objective, i.e., the objectives determined by the minimum reward along the process, on classical optimal control and reinforcement learning tasks, as well as on two network routing problems on maximizing the flow rates.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# シングルセル差分解析のためのカーネルベーステスト

Kernel-Based Testing for Single-Cell Differential Analysis ( http://arxiv.org/abs/2307.08509v3 )

ライセンス: Link先を確認
Anthony Ozier-Lafontaine, Camille Fourneaux, Ghislain Durif, Polina Arsenteva, Céline Vallot, Olivier Gandrillon, Sandrine Giraud, Bertrand Michel, Franck Picard, (参考訳) シングルセル技術は、分子の特徴分布に関する洞察を提供するが、それらを比較することは課題を生じさせる。 本稿では,非線形細胞分布比較のためのカーネルテストフレームワークを提案する。 本手法は, 細胞集団の多様性を明らかにするため, 機能的およびグローバルなトランスクリプトーム/エポジェノムの比較を可能にする。 埋め込み変数に基づく分類器を用いて、従来の単細胞解析の限界を克服し、セル状態の遷移を同定する。 単細胞ChIP-Seqデータに応用し, 持続性細胞に類似したエピゲノミクスプロファイルを有する未治療乳癌細胞を同定した。 これは、他の方法が見逃す可能性のある微妙な人口変動を明らかにする上で、カーネルテストの有効性を示すものである。

Single-cell technologies offer insights into molecular feature distributions, but comparing them poses challenges. We propose a kernel-testing framework for non-linear cell-wise distribution comparison, analyzing gene expression and epigenomic modifications. Our method allows feature-wise and global transcriptome/epigenome comparisons, revealing cell population heterogeneities. Using a classifier based on embedding variability, we identify transitions in cell states, overcoming limitations of traditional single-cell analysis. Applied to single-cell ChIP-Seq data, our approach identifies untreated breast cancer cells with an epigenomic profile resembling persister cells. This demonstrates the effectiveness of kernel testing in uncovering subtle population variations that might be missed by other methods.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# 離散スライスワッサースタイン損失の特性

Properties of Discrete Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.10352v4 )

ライセンス: Link先を確認
Eloi Tanguy, Rémi Flamary, Julie Delon, (参考訳) Sliced Wasserstein (SW) 距離は、確率測度を比較するために、Wasserstein 距離の代替として人気がある。 ワイドスプレッドの応用としては、画像処理、ドメイン適応、生成モデリングがあり、SWを最小化するためにパラメータを最適化することが一般的である。 これらの最適化問題はすべて、スライスされたワッサーシュタインエネルギーを最小化する同じサブプロブレムを持つ。 本稿では、$\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, すなわち、サポート $Y \in \mathbb{R}^{n \times d} の関数として同じ量の点を持つ2つの一様離散測度の間のSW距離について検討する。 このエネルギーの正則性と最適化特性、およびそのモンテカルロ近似 $\mathcal{E}_p$ ($p$サンプルのみを用いてSWの期待値を推定する) について検討し、$\mathcal{E}_p$ の臨界点の収束結果と$\mathcal{E}$ の臨界点の収束結果、および、プロセス $\mathcal{E}_p(Y)$ のほぼ一様収束および一様中央極限結果を示す。 最後に、ある意味では、Stochastic Gradient Descent method minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge to (Clarke) critical points of these energy。

The Sliced Wasserstein (SW) distance has become a popular alternative to the Wasserstein distance for comparing probability measures. Widespread applications include image processing, domain adaptation and generative modelling, where it is common to optimise some parameters in order to minimise SW, which serves as a loss function between discrete probability measures (since measures admitting densities are numerically unattainable). All these optimisation problems bear the same sub-problem, which is minimising the Sliced Wasserstein energy. In this paper we study the properties of $\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, i.e. the SW distance between two uniform discrete measures with the same amount of points as a function of the support $Y \in \mathbb{R}^{n \times d}$ of one of the measures. We investigate the regularity and optimisation properties of this energy, as well as its Monte-Carlo approximation $\mathcal{E}_p$ (estimating the expectation in SW using only $p$ samples) and show convergence results on the critical points of $\mathcal{E}_p$ to those of $\mathcal{E}$, as well as an almost-sure uniform convergence and a uniform Central Limit result on the process $\mathcal{E}_p(Y)$. Finally, we show that in a certain sense, Stochastic Gradient Descent methods minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge towards (Clarke) critical points of these energies.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# 脳ネットワークの説明可能な分類のためのコントラストグラフポーリング

Contrastive Graph Pooling for Explainable Classification of Brain Networks ( http://arxiv.org/abs/2307.11133v2 )

ライセンス: Link先を確認
Jiaxing Xu, Qingtian Bian, Xinhang Li, Aihu Zhang, Yiping Ke, Miao Qiao, Wei Zhang, Wei Khang Jeremy Sim, Balázs Gulyás, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、神経活動を測定するために一般的に用いられる技術である。 特にパーキンソン病、アルツハイマー病、自閉症などの神経変性疾患の同定に重要である。 最近のfMRIデータ解析では、脳をグラフとしてモデル化し、グラフニューラルネットワーク(GNN)によって特徴を抽出している。 しかし、fMRIデータのユニークな特徴は、GNNの特別な設計を必要とする。 効果的なドメイン記述可能な機能を生成するためにGNNを配置することは、依然として困難である。 本稿では,コントラストプール(ContrastPool)とよばれる,コントラッシブなデュアルアテンションブロックとグラフプーリング手法を提案する。 本手法を3つの疾患の5つの静止状態fMRI脳ネットワークデータセットに適用し、最先端のベースラインよりも優れていることを示す。 今回のケーススタディでは,本手法で抽出したパターンが神経科学文献の領域知識と一致していることを確認し,直接的および興味深い知見を開示する。 我々の貢献は、脳ネットワークと神経変性状態の理解を深めるためのContrastPoolの可能性を強調します。 ソースコードはhttps://github.com/AngusMonroe/ContrastPool.comで入手できる。

Functional magnetic resonance imaging (fMRI) is a commonly used technique to measure neural activation. Its application has been particularly important in identifying underlying neurodegenerative conditions such as Parkinson's, Alzheimer's, and Autism. Recent analysis of fMRI data models the brain as a graph and extracts features by graph neural networks (GNNs). However, the unique characteristics of fMRI data require a special design of GNN. Tailoring GNN to generate effective and domain-explainable features remains challenging. In this paper, we propose a contrastive dual-attention block and a differentiable graph pooling method called ContrastPool to better utilize GNN for brain networks, meeting fMRI-specific requirements. We apply our method to 5 resting-state fMRI brain network datasets of 3 diseases and demonstrate its superiority over state-of-the-art baselines. Our case study confirms that the patterns extracted by our method match the domain knowledge in neuroscience literature, and disclose direct and interesting insights. Our contributions underscore the potential of ContrastPool for advancing the understanding of brain networks and neurodegenerative conditions. The source code is available at https://github.com/AngusMonroe/ContrastPool.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# 量子コンピュータを模擬した白金系酸素還元反応触媒

Platinum-based Catalysts for Oxygen Reduction Reaction simulated with a Quantum Computer ( http://arxiv.org/abs/2307.15823v2 )

ライセンス: Link先を確認
Cono Di Paola, Evgeny Plekhanov, Michal Krompiec, Chandan Kumar, Emanuele Marsili, Fengmin Du, Daniel Weber, Jasper Simon Krauser, Elvira Shishenina, David Muñoz Ramo, (参考訳) 水素は有望なエネルギー源として現れ、低炭素で持続可能な移動を可能にする鍵を握っている。 しかし、その用途は燃料電池内の電気触媒的酸素還元反応(ORR)におけるモデスト変換効率によって制限されている。 その結果、新規触媒の開発と基礎となる反応の深い理解が最重要視されている。 ORRポテンシャルエネルギーランドスケープの複雑な性質と強い電子相関の存在は、古典的コンピュータを用いた原子論モデリングの課題を示す。 このシナリオは、これらの分子システムに対処する新しい量子コンピューティングワークフローの実装のための新しい道を開く。 ここでは、古典的および量子的な計算手法を組み合わせて、純白金および白金/コバルト表面上のORRを調べる先駆的な研究を提案する。 我々の研究は、初めて、このワークフローをH1系列の閉じ込められた量子コンピュータ上で実装し、この反応の量子化学モデリングの課題を特定する可能性を示した。 その結果、コバルト含有触媒に強く相関する種が関与していることが明らかとなり、将来の応用における量子優位性を示すための理想的な候補としての可能性が示唆された。

Hydrogen has emerged as a promising energy source, holding the key to achieve low-carbon and sustainable mobility. However, its applications are still limited by modest conversion efficiency in the electrocatalytic oxygen reduction reaction (ORR) within fuel cells. Consequently, the development of novel catalysts and a profound understanding of the underlying reactions have become of paramount importance. The complex nature of the ORR potential energy landscape and the presence of strong electronic correlations present challenges to atomistic modelling using classical computers. This scenario opens new avenues for the implementation of novel quantum computing workflows to address these molecular systems. Here, we present a pioneering study that combines classical and quantum computational approaches to investigate the ORR on pure platinum and platinum/cobalt surfaces. Our research demonstrates, for the first time, the feasibility of implementing this workflow on the H1-series trapped-ion quantum computer and identify the challenges of the quantum chemistry modelling of this reaction. The results highlight the involvement of strongly correlated species in the cobalt-containing catalyst, suggesting their potential as ideal candidates for showcasing quantum advantage in future applications.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-12
# オンラインスキルレーティングのためのモデリングと推論に関する状態空間の展望

A State-Space Perspective on Modelling and Inference for Online Skill Rating ( http://arxiv.org/abs/2308.02414v3 )

ライセンス: Link先を確認
Samuel Duffield, Samuel Power, Lorenzo Rimella, (参考訳) 競技競技におけるスキル評価に使用される一般的な手法と、その推論パラダイムを要約し、連続モンテカルロモデルと離散隠れマルコフモデルに基づく新しいアプローチを導入する。 我々は、プレイヤーのスキルを時間変化として表現し、一致した結果が観測量として機能する状態空間モデル視点を提唱する。 モデルを構築するためのステップと推論の3つの段階:フィルタリング、滑らか化、パラメータ推定について検討する。 本稿では,多くのプレーヤーやマッチにスケールアップする上での課題について検討し,統計的および計算的効率を向上する主要な近似と縮小を強調した。 さらに私たちは,オープンソースのPythonパッケージであるhttps://github.com/SamDuffield/abileで簡単に再現および拡張可能な,現実的な実験パイプラインのアプローチも比較しています。

We summarise popular methods used for skill rating in competitive sports, along with their inferential paradigms and introduce new approaches based on sequential Monte Carlo and discrete hidden Markov models. We advocate for a state-space model perspective, wherein players' skills are represented as time-varying, and match results serve as observed quantities. We explore the steps to construct the model and the three stages of inference: filtering, smoothing and parameter estimation. We examine the challenges of scaling up to numerous players and matches, highlighting the main approximations and reductions which facilitate statistical and computational efficiency. We additionally compare approaches in a realistic experimental pipeline that can be easily reproduced and extended with our open-source Python package, https://github.com/SamDuffield/abile.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# どの変圧器を好むか:視覚変換器の効率の比較分析

Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers ( http://arxiv.org/abs/2308.09372v2 )

ライセンス: Link先を確認
Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel, (参考訳) トランスフォーマーには高い計算コストが伴うが、言語や視覚における問題に対処する効果は、その効率を高めることを目的とした広範な研究を引き起こしている。 しかし、複数の入力領域にまたがる多様な実験条件は、報告された結果のみに基づく公正な比較を防止し、モデル選択の課題を提起する。 この可視性のギャップに対処するため、画像分類のための30モデル以上の総合的なベンチマークを設計し、精度、速度、メモリ使用量などの重要な効率性を評価する。 このベンチマークは、効率指向型トランスフォーマーのランドスケープをまたいだ標準化されたベースラインを提供し、我々の分析フレームワークは、パレートの最適性に基づいて、驚くべき洞察を明らかにします。 他のモデルの方が効率的という主張にもかかわらず、ViTはParetoを複数のメトリクスで最適に保っている。 我々は,ハイブリッドアテンション-CNNモデルにおいて,メモリとパラメータの効率が著しく向上することが観察された。 さらに,本ベンチマークでは,高分解能画像よりも高次モデルの方が高効率であることが示唆された。 総合的な評価により、我々は、トランスフォーマーの選択や効率的なトランスフォーマーの開発進捗の計測を行う際の情報的意思決定を容易にし、実践者や研究者に集中的なリソースを提供する。

Transformers come with a high computational cost, yet their effectiveness in addressing problems in language and vision has sparked extensive research aimed at enhancing their efficiency. However, diverse experimental conditions, spanning multiple input domains, prevent a fair comparison based solely on reported results, posing challenges for model selection. To address this gap in comparability, we design a comprehensive benchmark of more than 30 models for image classification, evaluating key efficiency aspects, including accuracy, speed, and memory usage. This benchmark provides a standardized baseline across the landscape of efficiency-oriented transformers and our framework of analysis, based on Pareto optimality, reveals surprising insights. Despite claims of other models being more efficient, ViT remains Pareto optimal across multiple metrics. We observe that hybrid attention-CNN models exhibit remarkable inference memory- and parameter-efficiency. Moreover, our benchmark shows that using a larger model in general is more efficient than using higher resolution images. Thanks to our holistic evaluation, we provide a centralized resource for practitioners and researchers, facilitating informed decisions when selecting transformers or measuring progress of the development of efficient transformers.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# ボヘミアの立場から見た量子統計力学

Quantum statistical mechanics from a Bohmian perspective ( http://arxiv.org/abs/2308.10500v3 )

ライセンス: Link先を確認
Hrvoje Nikolic, (参考訳) 多粒子位置空間における連続性方程式を満足する確率電流の観点で量子統計力学の一般的な定式化を開発する。 任意の閉系あるいは開系に対する連続性方程式は、標準的な量子論と同じ測定可能な予測を行う顕微鏡粒子軌跡の自然なボヘミア解釈を示唆する。 微視的軌道は直接観測できないが、量子統計力学におけるマクロ現象の一般的な、単純で直感的な微視的解釈を提供する。 特に, エントロピー, 適切な混合, 不適切な混合, 熱力学の様々な概念が, ボヘミアンの観点からどのように理解されているかについて議論する。

We develop a general formulation of quantum statistical mechanics in terms of probability currents that satisfy continuity equations in the multi-particle position space, for closed and open systems with a fixed number of particles. The continuity equation for any closed or open system suggests a natural Bohmian interpretation in terms of microscopic particle trajectories, that make the same measurable predictions as standard quantum theory. The microscopic trajectories are not directly observable, but provide a general, simple and intuitive microscopic interpretation of macroscopic phenomena in quantum statistical mechanics. In particular, we discuss how various notions of entropy, proper and improper mixtures, and thermodynamics are understood from the Bohmian perspective.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# グラフ異常検出のためのメタパスを用いたラベルベースグラフ拡張

Label-based Graph Augmentation with Metapath for Graph Anomaly Detection ( http://arxiv.org/abs/2308.10918v2 )

ライセンス: Link先を確認
Hwan Kim, Junghoon Kim, Byung Suk Lee, Sungsu Lim, (参考訳) グラフ異常検出は近年,ネットワークセキュリティからファイナンスに至るまで,さまざまな分野から注目されている。 ラベル付けは非常にコストがかかるため、既存の手法は教師なしの方法で優先的に開発されている。 しかし、検出された異常は、探している異常に関する事前の知識がないため、興味のない事例が見つかる可能性がある。 この問題は、ラベル付き異常を事前の知識として使うことで解決できる。 実世界のシナリオでは、ラベル付き異常がほとんどない。 ラベル付き異常を事前の知識として効果的に活用することは、グラフ異常の検出に不可欠であるが、本来利用可能な異常の数が限られているため、このプロセスは依然として困難である。 そこで本研究では,メタパスを利用して異常ノードと正常ノード間の接続パターンを埋め込む手法を提案する。 メタパスに基づく異常部分グラフからコンテキスト情報をより効率的に活用するために,2層エンコーダとデコーダの両方にGCN層を組み込んで,異常ノードと正常ノード間のコンテキスト情報を効率的に伝播する,Metapathベースのグラフ異常検出(MGAD)フレームワークを提案する。 具体的には、MGADはGNNベースのグラフオートエンコーダをバックボーンネットワークとして採用している。 さらに、デュアルエンコーダは、グローバルおよびローカルの両方でラベル付きノードとラベルなしノードの間の複雑な相互作用とメタパスベースのコンテキスト情報をキャプチャする。 本稿では,7つの実世界のネットワークを対象とした総合的な実験を通して,MGAD法が最先端技術よりも優れていることを示す。 コードはhttps://github.com/missinghwan/MGADで公開されている。

Graph anomaly detection has attracted considerable attention from various domain ranging from network security to finance in recent years. Due to the fact that labeling is very costly, existing methods are predominately developed in an unsupervised manner. However, the detected anomalies may be found out uninteresting instances due to the absence of prior knowledge regarding the anomalies looking for. This issue may be solved by using few labeled anomalies as prior knowledge. In real-world scenarios, we can easily obtain few labeled anomalies. Efficiently leveraging labelled anomalies as prior knowledge is crucial for graph anomaly detection; however, this process remains challenging due to the inherently limited number of anomalies available. To address the problem, we propose a novel approach that leverages metapath to embed actual connectivity patterns between anomalous and normal nodes. To further efficiently exploit context information from metapath-based anomaly subgraph, we present a new framework, Metapath-based Graph Anomaly Detection (MGAD), incorporating GCN layers in both the dual-encoders and decoders to efficiently propagate context information between abnormal and normal nodes. Specifically, MGAD employs GNN-based graph autoencoder as its backbone network. Moreover, dual encoders capture the complex interactions and metapath-based context information between labeled and unlabeled nodes both globally and locally. Through a comprehensive set of experiments conducted on seven real-world networks, this paper demonstrates the superiority of the MGAD method compared to state-of-the-art techniques. The code is available at https://github.com/missinghwan/MGAD.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# ChatGPTを用いたプロンプト強化ソフトウェア脆弱性検出

Prompt-Enhanced Software Vulnerability Detection Using ChatGPT ( http://arxiv.org/abs/2308.12697v2 )

ライセンス: Link先を確認
Chenyuan Zhang, Hao Liu, Jiutian Zeng, Kejing Yang, Yuhong Li, Hui Li, (参考訳) 経済的・社会的損失を引き起こすソフトウェア脆弱性の増加に伴い、ソフトウェア開発とメンテナンスにおいて、自動脆弱性検出が不可欠になっている。 近年、GPTのような大規模言語モデル(LLM)は、その驚くべきインテリジェンスによって大きな注目を集めており、脆弱性検出にChatGPTを使うことを検討する研究もある。 しかし、ChatGPTに対する設計上の質問は、脆弱性検出に適した特定のプロンプト設計なしでは単純であるため、LLMの特性を十分に考慮していない。 本稿では,ChatGPTを用いたソフトウェア脆弱性検出の性能について検討する。 まず,基礎的なプロンプトに様々な改良を加えることで,従来の作業を補完する。 さらに、構造的およびシーケンシャルな補助情報を組み込んで、プロンプト設計を改善する。 さらに,ChatGPTのマルチラウンド対話を記憶する能力を活用し,脆弱性検出に適したプロンプトを設計する。 筆者らは,ChatGPTを用いた迅速な脆弱性検出の有効性を示すために,2つの脆弱性データセットに関する広範な実験を行った。 また,脆弱性検出にChatGPTを用いることのメリットとメリットも分析した。 リポジトリ: https://github.com/KDEGroup/LLMVulnerabilityDetection

With the increase in software vulnerabilities that cause significant economic and social losses, automatic vulnerability detection has become essential in software development and maintenance. Recently, large language models (LLMs) like GPT have received considerable attention due to their stunning intelligence, and some studies consider using ChatGPT for vulnerability detection. However, they do not fully consider the characteristics of LLMs, since their designed questions to ChatGPT are simple without a specific prompt design tailored for vulnerability detection. This paper launches a study on the performance of software vulnerability detection using ChatGPT with different prompt designs. Firstly, we complement previous work by applying various improvements to the basic prompt. Moreover, we incorporate structural and sequential auxiliary information to improve the prompt design. Besides, we leverage ChatGPT's ability of memorizing multi-round dialogue to design suitable prompts for vulnerability detection. We conduct extensive experiments on two vulnerability datasets to demonstrate the effectiveness of prompt-enhanced vulnerability detection using ChatGPT. We also analyze the merit and demerit of using ChatGPT for vulnerability detection. Repository: https://github.com/KDEGroup/LLMVulnerabilityDetection.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# 単光雪崩検出器を用いた数状態再構成

Number-State Reconstruction with a Single Single-Photon Avalanche Detector ( http://arxiv.org/abs/2308.13603v3 )

ライセンス: Link先を確認
Patrick Banner, Deniz Kurdak, Yaxin Li, Alan Migdall, J. V. Porto, S. L. Rolston, (参考訳) 単光子雪崩検出器(SPAD)は多くの分野や用途において重要な光センサーである。 しかし、彼らは光子番号を解くことができないので、パルス中の光子数を測定するために、より複雑で高価な実験装置や装置を使わなければならない。 本稿では1つのSPADのみを用いて光子数状態再構成を行う手法を提案する。 この手法は費用対効果が高く実装が容易であり、パラメーターが測定可能な検出器モデルを用いた最大形技術を用いている。 既知入力パルスとコヒーレント状態の再構成との間には,最大$\approx$10光子とピーク入力光子レートを最大数Mcounts/sとする優れた整合性を実現する。 検出器不完全性が小さい場合、検出器のデッドタイムあたり1光子以上である40Mcounts/s以上のピーク入力光子レートのコヒーレントパルスに対して良好な一致を維持する。 反有界光の場合、$g^{(2)}(0)$の再構成および独立に測定されたパルス平均値も互いに一致している。 我々のアルゴリズムは、パルス幅と相関時間スケールが少なくとも数個の検出器デッドタイムである光パルスに適用できる。 これらの結果は、単一の商用SPADで実現され、安価な数状態再構成法を提供し、単光子検出器の能力を拡大する。

Single-photon avalanche detectors (SPADs) are crucial sensors of light for many fields and applications. However, they are not able to resolve photon number, so typically more complex and more expensive experimental setups or devices must be used to measure the number of photons in a pulse. Here, we present a methodology for performing photon number-state reconstruction with only one SPAD. The methodology, which is cost-effective and easy to implement, uses maximum-likelihood techniques with a detector model whose parameters are measurable. We achieve excellent agreement between known input pulses and their reconstructions for coherent states with up to $\approx$ 10 photons and peak input photon rates up to several Mcounts/s. When detector imperfections are small, we maintain good agreement for coherent pulses with peak input photon rates of over 40 Mcounts/s, greater than one photon per detector dead time. For anti-bunched light, the reconstructed and independently measured pulse-averaged values of $g^{(2)}(0)$ are also consistent with one another. Our algorithm is applicable to light pulses whose pulse width and correlation time scales are both at least a few detector dead times. These results, achieved with single commercially available SPADs, provide an inexpensive number-state reconstruction method and expand the capabilities of single-photon detectors.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# ガウス過程を用いた高速空間モデリングのための統合的変分フーリエ特徴

Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes ( http://arxiv.org/abs/2308.14142v2 )

ライセンス: Link先を確認
Talay M Cheema, Carl Edward Rasmussen, (参考訳) スパース変分近似はガウス過程の推論と学習をより大きなデータセットにスケールアップする一般的な方法である。 トレーニングポイントが$N$の場合、正確な推論は$O(N^3)$コストを持ち、$M \ll N$機能により、最先端のスパース変分法は$O(NM^2)$コストを持つ。 近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M^3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。 本研究では,これらの性能の利点を定常共分散関数の幅広いクラスに拡張する統合されたフーリエ機能を提案する。 コンバージェンス解析と経験的探索からパラメータの方法と選択を動機付け、合成および実世界の空間回帰タスクにおいて実践的な高速化を示す。

Sparse variational approximations are popular methods for scaling up inference and learning in Gaussian processes to larger datasets. For $N$ training points, exact inference has $O(N^3)$ cost; with $M \ll N$ features, state of the art sparse variational methods have $O(NM^2)$ cost. Recently, methods have been proposed using more sophisticated features; these promise $O(M^3)$ cost, with good performance in low dimensional tasks such as spatial modelling, but they only work with a very limited class of kernels, excluding some of the most commonly used. In this work, we propose integrated Fourier features, which extends these performance benefits to a very broad class of stationary covariance functions. We motivate the method and choice of parameters from a convergence analysis and empirical exploration, and show practical speedup in synthetic and real world spatial regression tasks.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# DiffBIR: 生成拡散に先立ってブラインド画像復元を目指す

DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior ( http://arxiv.org/abs/2308.15070v3 )

ライセンス: Link先を確認
Xinqi Lin, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Bo Dai, Fanghua Yu, Wanli Ouyang, Yu Qiao, Chao Dong, (参考訳) DiffBIRは、異なる視覚的画像復元タスクを統一されたフレームワークで処理できる一般的な修復パイプラインである。 DiffBIRはブラインド画像復元問題を2段階に分割する。 1)劣化除去:画像に依存しない内容の除去 2)情報再生:失われた画像内容を生成する。 各ステージは独立して開発されるが、シームレスにカスケードされた方法で機能する。 第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。 第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。 具体的には、IRControlNetは、安定な生成性能のためにノイズの内容に気を散らすことなく、特別に生成された条件画像に基づいて訓練される。 さらに,モデル再学習を伴わずに推論中の復調過程を修正可能な地域適応型復元ガイダンスを設計し,調整可能な指導尺度を用いて実感と忠実さのバランスをとることができる。 大規模な実験により、DiffBIRは、合成データセットと実世界のデータセットの両方において、ブラインドイメージの超解像、ブラインドフェイスの復元、およびブラインドイメージの認知タスクに対する最先端のアプローチよりも優れていることが証明された。 コードはhttps://github.com/XPixelGroup/DiffBIRで入手できる。

We present DiffBIR, a general restoration pipeline that could handle different blind image restoration tasks in a unified framework. DiffBIR decouples blind image restoration problem into two stages: 1) degradation removal: removing image-independent content; 2) information regeneration: generating the lost image content. Each stage is developed independently but they work seamlessly in a cascaded manner. In the first stage, we use restoration modules to remove degradations and obtain high-fidelity restored results. For the second stage, we propose IRControlNet that leverages the generative ability of latent diffusion models to generate realistic details. Specifically, IRControlNet is trained based on specially produced condition images without distracting noisy content for stable generation performance. Moreover, we design a region-adaptive restoration guidance that can modify the denoising process during inference without model re-training, allowing users to balance realness and fidelity through a tunable guidance scale. Extensive experiments have demonstrated DiffBIR's superiority over state-of-the-art approaches for blind image super-resolution, blind face restoration and blind image denoising tasks on both synthetic and real-world datasets. The code is available at https://github.com/XPixelGroup/DiffBIR.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# トップkフィードバックによるオンラインランキングにおけるMinimaxレグレクトについて

On the Minimax Regret in Online Ranking with Top-k Feedback ( http://arxiv.org/abs/2309.02425v2 )

ライセンス: Link先を確認
Mingyuan Zhang, Ambuj Tewari, (参考訳) オンラインランキングでは、学習アルゴリズムが一連のアイテムを順次ランク付けし、関連するスコアの形式でランキングに対するフィードバックを受け取る。 関連性スコアを得るには、一般的に人間のアノテーションが伴うため、フィードバックがランキングの上位kドル項目に制限される部分的なフィードバック設定を考えることが非常に興味深い。 Chaudhuri氏とTewari氏は2017年に、オンラインランキングアルゴリズムを1万ドル以上のフィードバックで分析するフレームワークを開発しました。 彼らの仕事の重要な要素は、部分的なモニタリングのテクニックを使うことだった。 そこで本稿では,Chaudhuri と Tewari [2017] が提示したオープンな問題の解決のために,上位$k のフィードバックによるオンラインランキングをさらに調査する。 Pairwise Loss, Discounted Cumulative Gain, Precision@n という,すべての$k$に対する最上位の$k$のフィードバックモデルで,ミニマックスの後悔率をフルに評価する。 また,Precision@nの最小後悔率を実現するアルゴリズムを提案する。

In online ranking, a learning algorithm sequentially ranks a set of items and receives feedback on its ranking in the form of relevance scores. Since obtaining relevance scores typically involves human annotation, it is of great interest to consider a partial feedback setting where feedback is restricted to the top-$k$ items in the rankings. Chaudhuri and Tewari [2017] developed a framework to analyze online ranking algorithms with top $k$ feedback. A key element in their work was the use of techniques from partial monitoring. In this paper, we further investigate online ranking with top $k$ feedback and solve some open problems posed by Chaudhuri and Tewari [2017]. We provide a full characterization of minimax regret rates with the top $k$ feedback model for all $k$ and for the following ranking performance measures: Pairwise Loss, Discounted Cumulative Gain, and Precision@n. In addition, we give an efficient algorithm that achieves the minimax regret rate for Precision@n.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# Mayhem氏: 登録とスタック変数の破壊を目標に

Mayhem: Targeted Corruption of Register and Stack Variables ( http://arxiv.org/abs/2309.02545v2 )

ライセンス: Link先を確認
Andrew J. Adiletta, M. Caner Tol, Yarkın Doröz, Berk Sunar, (参考訳) 過去10年間に多くの脆弱性がマイクロアーキテクチャーで発見され、攻撃ベクトルが得られ、対策の研究の動機となった。 さらに、DRAMのアーキテクチャ上の欠陥と物理的欠陥は、被害者のメモリ空間にビットフリップを導入する敵の力を与えるローハンマー攻撃の発見につながった。 多くの研究がローハンマーを解析し、それを防ぐか、その効果を緩和する手法を提案した。 この研究では、境界を押して、Rowhammerをさらに活用してスタック変数に障害を注入し、被害者のプロセスに値を登録する方法を示します。 我々は、プロセスのスタックに格納されているレジスタ値をターゲットとして、その後メモリに流出させ、Rowhammerに対して脆弱になる。 障害値がレジスタに復元されると、その後のイテレーションで使用されることになる。 レジスタ値は、ソース内の潜在関数呼び出しまたはシグナルハンドラをアクティブにトリガーすることでスタックに格納することができる。 本研究では,SUDO認証とSSH認証をバイパスする手法を適用して,その効果を実証する。 MySQLや他の暗号化ライブラリが新たなアタックベクターでどのようにターゲットにできるのか、さらに概説する。 OpenSSLのデジタルシグネチャにエンドツーエンドのアタックを発生させる前に、この作業が広範な実験で克服する課題は、スタックとレジスタ変数とのコロケーションの実現、ブロッキングウィンドウによる同期、などである。 スタックとレジスタがもはやRowhammer攻撃から安全でないことを示す。

In the past decade, many vulnerabilities were discovered in microarchitectures which yielded attack vectors and motivated the study of countermeasures. Further, architectural and physical imperfections in DRAMs led to the discovery of Rowhammer attacks which give an adversary power to introduce bit flips in a victim's memory space. Numerous studies analyzed Rowhammer and proposed techniques to prevent it altogether or to mitigate its effects. In this work, we push the boundary and show how Rowhammer can be further exploited to inject faults into stack variables and even register values in a victim's process. We achieve this by targeting the register value that is stored in the process's stack, which subsequently is flushed out into the memory, where it becomes vulnerable to Rowhammer. When the faulty value is restored into the register, it will end up used in subsequent iterations. The register value can be stored in the stack via latent function calls in the source or by actively triggering signal handlers. We demonstrate the power of the findings by applying the techniques to bypass SUDO and SSH authentication. We further outline how MySQL and other cryptographic libraries can be targeted with the new attack vector. There are a number of challenges this work overcomes with extensive experimentation before coming together to yield an end-to-end attack on an OpenSSL digital signature: achieving co-location with stack and register variables, with synchronization provided via a blocking window. We show that stack and registers are no longer safe from the Rowhammer attack.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# 反事実生成の過程を知識の源として見る--分類器の説明のための新しいアプローチ

Viewing the process of generating counterfactuals as a source of knowledge: a new approach for explaining classifiers ( http://arxiv.org/abs/2309.04284v4 )

ライセンス: Link先を確認
Vincent Lemaire, Nathan Le Boudec, Victor Guyomard, Françoise Fessant, (参考訳) 現在、機械学習モデルの決定を理解するための説明可能なAIメソッドが多数存在する。 そのうちの1つは、特徴の変化をシミュレートし、予測への影響を観察する反事実的推論に基づくものである。 本稿では,このシミュレーションプロセスを,使用可能な知識を,後に異なる方法で生成するための情報源として捉えることを提案する。 この過程は加法モデルで説明され、より具体的には、この目的の興味深い性質を示すネーブ・ベイズ分類器の場合に説明される。

There are now many explainable AI methods for understanding the decisions of a machine learning model. Among these are those based on counterfactual reasoning, which involve simulating features changes and observing the impact on the prediction. This article proposes to view this simulation process as a source of creating a certain amount of knowledge that can be stored to be used, later, in different ways. This process is illustrated in the additive model and, more specifically, in the case of the naive Bayes classifier, whose interesting properties for this purpose are shown.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# 開量子系、生体物理系およびパリティ時対称材料における固有値アトラクション

Eigenvalue attraction in open quantum systems, biophysical systems, and Parity-Time symmetric materials ( http://arxiv.org/abs/2309.07943v2 )

ライセンス: Link先を確認
Pete Rigas, (参考訳) オープン量子系,生物物理系,およびパリティ時間対称材料に対する固有値アトラクションについて検討する。 実行列の固有値とその複素共役が引き寄せられるかどうかを判断するために、慣性力、固有値とその複素共役の間のアトラクション、およびスペクトル内の残りの固有値の力に依存する第二の固有値の導出式を導出する。

We investigate eigenvalue attraction for open quantum systems, biophysical systems, and for Parity-Time symmetric materials. To determine whether an eigenvalue and its complex conjugate of a real matrix attract, we derive expressions for the second derivative of eigenvalues, which is dependent upon contributions from inertial forces, attraction between an eigenvalue and its complex conjugate, as well as the force of the remaining eigenvalues in the spectrum.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-12
# FF-LOGO: 機能フィルタリングとグローバル最適化によるクロスモーダルポイントクラウド登録

FF-LOGO: Cross-Modality Point Cloud Registration with Feature Filtering and Local to Global Optimization ( http://arxiv.org/abs/2309.08966v2 )

ライセンス: Link先を確認
Nan Ma, Mohan Wang, Yiheng Han, Yong-Jin Liu, (参考訳) クロスモダリティポイントのクラウド登録は、異なるセンサー間のモダリティに固有の違いがあるため、重大な課題に直面している。 本稿では,機能フィルタリングと局所グローバル最適化を備えたクロスモダリティポイントクラウド登録手法FF-LOGOを提案する。 クロスモダリティ特徴相関フィルタモジュールは、クロスモダリティ点雲から幾何学変換不変特徴を抽出し、特徴マッチングによる点選択を実現する。 また、局所適応鍵領域集約モジュールと大域的モダリティ整合融合最適化モジュールを含む、モダリティ間の最適化プロセスも導入する。 実験の結果,2段階最適化は特徴関連モジュールと選択モジュールの登録精度を著しく向上させることがわかった。 提案手法は, 3DCSR データセットにおける現在の最先端手法と比較して, 大幅なリコール率の向上を実現し, 40.59% から 75.74% に改善した。 私たちのコードはhttps://github.com/wangmohan17/FFLOGOで公開されます。

Cross-modality point cloud registration is confronted with significant challenges due to inherent differences in modalities between different sensors. We propose a cross-modality point cloud registration framework FF-LOGO: a cross-modality point cloud registration method with feature filtering and local-global optimization. The cross-modality feature correlation filtering module extracts geometric transformation-invariant features from cross-modality point clouds and achieves point selection by feature matching. We also introduce a cross-modality optimization process, including a local adaptive key region aggregation module and a global modality consistency fusion optimization module. Experimental results demonstrate that our two-stage optimization significantly improves the registration accuracy of the feature association and selection module. Our method achieves a substantial increase in recall rate compared to the current state-of-the-art methods on the 3DCSR dataset, improving from 40.59% to 75.74%. Our code will be available at https://github.com/wangmohan17/FFLOGO.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 高度な脅威を議論する - 課題と解決策

Combating Advanced Persistent Threats: Challenges and Solutions ( http://arxiv.org/abs/2309.09498v2 )

ライセンス: Link先を確認
Yuntao Wang, Han Liu, Zhendong Li, Zhou Su, Jiliang Li, (参考訳) 高度な永続的脅威(APTs)の台頭は、高度なオーケストレーション、ステルス実行、永続性の拡張、さまざまな分野における価値ある資産の標的など、重要なサイバーセキュリティ上の課題を特徴としている。 複雑なネットワーク環境における可視性とトレーサビリティを高めるための有望なアプローチとして,前向きなグラフベースのカーネルレベルの監査が登場している。 しかし、複雑な横鎖の再構築、ダイナミックな回避行動の検出、スマートな敵のサブグラフの防衛といった課題に直面している。 研究ギャップを埋めるために,ネットワークレベルの分散監査モデルによる費用対効果攻撃再建,信頼指向のAPT回避行動検出戦略,マルコフモデルに基づく逆サブグラフ防御手法など,プロファイナンスグラフを活用した効率的かつ堅牢なAPT防御手法を提案する。 プロトタイプの実装と広範な実験を通じて,本システムの有効性を検証した。 最後に、この新興分野において重要なオープンリサーチの方向性を概説する。

The rise of advanced persistent threats (APTs) has marked a significant cybersecurity challenge, characterized by sophisticated orchestration, stealthy execution, extended persistence, and targeting valuable assets across diverse sectors. Provenance graph-based kernel-level auditing has emerged as a promising approach to enhance visibility and traceability within intricate network environments. However, it still faces challenges including reconstructing complex lateral attack chains, detecting dynamic evasion behaviors, and defending smart adversarial subgraphs. To bridge the research gap, this paper proposes an efficient and robust APT defense scheme leveraging provenance graphs, including a network-level distributed audit model for cost-effective lateral attack reconstruction, a trust-oriented APT evasion behavior detection strategy, and a hidden Markov model based adversarial subgraph defense approach. Through prototype implementation and extensive experiments, we validate the effectiveness of our system. Lastly, crucial open research directions are outlined in this emerging field.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# RoadFormer: RGB-Normal Semantic Road Scene Parsing用Duplex Transformer

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing ( http://arxiv.org/abs/2309.10356v3 )

ライセンス: Link先を確認
Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan, (参考訳) 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。 それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。 本稿では,道路シーン解析用に開発されたトランスフォーマーベースの新しいデータ融合ネットワークであるRoadFormerを紹介する。 RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。 符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。 その後、画素デコーダは、融合された不均一な特徴からマルチスケールの長距離依存関係を学習し、後にトランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。 さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。 我々のSyman-UDTIRIデータセットと、KITTI Road、CityScapes、ORFDを含む3つの公開データセットで実施された大規模な実験的評価により、RoadFormerは、道路シーン解析のための他の最先端ネットワークよりも優れていることが示された。 具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。 私たちのソースコード、生成されたデータセット、デモビデオは、mias.group/RoadFormerで公開されています。

The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# マルチラベル産業セクター配置のためのプロンプトチューニング埋め込み分類

Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation ( http://arxiv.org/abs/2309.12075v3 )

ライセンス: Link先を確認
Valentin Leonhard Buchner, Lele Cao, Jan-Christoph Kalo, Vilhelm von Ehrenheim, (参考訳) Prompt Tuningは、しばしばLLM(Large Language Models)と呼ばれるPLM(Pretrained Language Models)を微調整するためのスケーラブルで費用効率のよい方法として登場している。 本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能と計算効率をベンチマークする。 これは、企業を投資会社の独自産業分類に分類し、そのテーマ的投資戦略を支援するという課題に適用される。 テキストからテキストへの分類は、タスク固有の分類ヘッドよりも優れているとしばしば報告されるが、各ラベルが複数のトークンから構成されるマルチラベル分類問題に適用した場合、いくつかの制限がある。 (a) 生成されたラベルは、ラベル分類上のラベルと一致しない。 b) 微調整プロセスは,変分不変性を欠き,提供ラベルの順序に敏感である。 (c) モデルは適切な信頼スコアではなく、二項決定を提供する。 制限 (a) 分類性能をわずかに向上させるTrie Searchを用いて制約付きデコードを適用することで対処する。 あらゆる制限 (a) (b)及び c) は PLM の言語ヘッドを Prompt Tuned Embedding Classification (PTEC) と呼ばれる分類ヘッドに置き換えることによって対処される。 これにより性能が大幅に向上し、推論時の計算コストも低減される。 当社の産業応用では、トレーニングデータはよく知られた企業に偏っている。 このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。 以上の結果から,高度な一般化能力を持つPLMの時代にも,最先端の手法をドメイン固有タスクに適用する必要性が続いていることが示唆された。 コードベースとベンチマークデータセットをhttps://github.com/EQTPartners/PTECでリリースしています。

Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs), which are often referred to as Large Language Models (LLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baselines for multi-label text classification. This is applied to the challenging task of classifying companies into an investment firm's proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification is frequently reported to outperform task-specific classification heads, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the label taxonomy; (b) The fine-tuning process lacks permutation invariance and is sensitive to the order of the provided labels; (c) The model provides binary decisions rather than appropriate confidence scores. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM's language head with a classification head, which is referred to as Prompt Tuned Embedding Classification (PTEC). This improves performance significantly, while also reducing computational costs during inference. In our industrial application, the training data is skewed towards well-known companies. We confirm that the model's performance is consistent across both well-known and less-known companies. Our overall results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities. We release our codebase and a benchmarking dataset at https://github.com/EQTPartners/PTEC.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# PrivAgE: エッジデバイス上の分散アグリゲーションをプライバシに保存するツールチェーン

PrivAgE: A Toolchain for Privacy-Preserving Distributed Aggregation on Edge-Devices ( http://arxiv.org/abs/2309.12483v2 )

ライセンス: Link先を確認
Johannes Liebenow, Timothy Imort, Yannick Fuchs, Marcel Heisel, Nadja Käding, Jan Rupp, Esfandiar Mohammadi, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて頻繁に訪れる環境など、重要な洞察は、スマートフォンのようなエッジデバイスにまたがる機密データを分析することで得られることが多い。 このような分析を容易にするために、エッジデバイスの限られたリソースを考慮に入れ、ローカルデータの分散したプライバシ保護アグリゲーションのためのPrivAgEというツールチェーンを提案する。 分散アグリゲーションはセキュアな和に基づいており、同時に差分プライバシーの概念を満たす。 このようにして、他のパーティは、単一のクライアントの機密データや、最終的な結果に対する単一のクライアントの影響を学ぶことができません。 我々は,実環境における消費電力,走行時間,および帯域幅のオーバーヘッドの評価を行い,ヒストグラムの総和を分散クラスタリングに拡張することにより,ツールチェーンの柔軟性を実証する。

Valuable insights, such as frequently visited environments in the wake of the COVID-19 pandemic, can oftentimes only be gained by analyzing sensitive data spread across edge-devices like smartphones. To facilitate such an analysis, we present a toolchain called PrivAgE for a distributed, privacy-preserving aggregation of local data by taking the limited resources of edge-devices into account. The distributed aggregation is based on secure summation and simultaneously satisfies the notion of differential privacy. In this way, other parties can neither learn the sensitive data of single clients nor a single client's influence on the final result. We perform an evaluation of the power consumption, the running time and the bandwidth overhead on real as well as simulated devices and demonstrate the flexibility of our toolchain by presenting an extension of the summation of histograms to distributed clustering.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 視覚変換器はレジスタを必要とする

Vision Transformers Need Registers ( http://arxiv.org/abs/2309.16588v2 )

ライセンス: Link先を確認
Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski, (参考訳) トランスフォーマーは最近、視覚表現を学ぶための強力なツールとして登場した。 本稿では,教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを同定し,特徴付けする。 これらのアーティファクトは、主に画像の低インフォーマルな背景領域に推論中に現れるハイノームトークンに対応し、内部計算のために再利用される。 そこで我々は,視覚変換器の入力シーケンスにトークンを付加して,その役割を果たす,シンプルで効果的な解を提案する。 このソリューションは、教師付きモデルと自己教師付きモデルの両方で完全にその問題を解決し、密集した視覚予測タスク上で、自己教師付き視覚モデルのための新しい最先端技術を設定し、より大きなモデルによるオブジェクト発見を可能にするとともに、よりスムーズな特徴マップと下流視覚処理のためのアテンションマップを実現する。

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# FairVision: フェアアイデンティティスケーリングによる眼疾患スクリーニングのための等価ディープラーニング

FairVision: Equitable Deep Learning for Eye Disease Screening via Fair Identity Scaling ( http://arxiv.org/abs/2310.02492v3 )

ライセンス: Link先を確認
Yan Luo, Muhammad Osama Khan, Yu Tian, Min Shi, Zehao Dou, Tobias Elze, Yi Fang, Mengyu Wang, (参考訳) 医療におけるAIの質は、人間の健康に直接影響するため、極めて重要である。 2D医療画像のフェアネスの進歩にもかかわらず、3Dモデルのフェアネスは未発見のままであり、3Dのフェアネスデータセットの小さなサイズによって妨げられている。 3D画像はSOTA臨床治療において2D画像を上回るので,これらの3Dモデルの公平さを理解することが重要である。 この研究ギャップに対処するため、我々は、複数の保護属性にわたる3次元医用画像モデルの公平性について、初めて包括的な研究を行った。 調査は2Dモデルと3Dモデルの両方にまたがり、一般的な3つの眼疾患の5つのアーキテクチャで公平さを評価し、人種、性別、民族に有意な偏見を呈している。 これらのバイアスを軽減するために,様々なSOTAフェアネス法よりも優れた性能と公平性を両立させる新しいフェアアイデンティティスケーリング法を提案する。 さらに、Harvard-FairVisionは、2Dと3Dの両方の画像データと6つの人口密度属性を備えた、30,000人の被験者からなる最初の大規模医療フェアネスデータセットである。 Harvard-FairVisionは、世界中の約3億8000万人に影響を及ぼす3つの眼疾患のラベルを提供しており、2Dと3Dのフェアネス学習のための貴重なリソースとなっている。 私たちのコードとデータセットは、 \url{https://ophai.hms.harvard.edu/datasets/harvard-fairvision30k} で公開されています。

Equity in AI for healthcare is crucial due to its direct impact on human well-being. Despite advancements in 2D medical imaging fairness, the fairness of 3D models remains underexplored, hindered by the small sizes of 3D fairness datasets. Since 3D imaging surpasses 2D imaging in SOTA clinical care, it is critical to understand the fairness of these 3D models. To address this research gap, we conduct the first comprehensive study on the fairness of 3D medical imaging models across multiple protected attributes. Our investigation spans both 2D and 3D models and evaluates fairness across five architectures on three common eye diseases, revealing significant biases across race, gender, and ethnicity. To alleviate these biases, we propose a novel fair identity scaling (FIS) method that improves both overall performance and fairness, outperforming various SOTA fairness methods. Moreover, we release Harvard-FairVision, the first large-scale medical fairness dataset with 30,000 subjects featuring both 2D and 3D imaging data and six demographic identity attributes. Harvard-FairVision provides labels for three major eye disorders affecting about 380 million people worldwide, serving as a valuable resource for both 2D and 3D fairness learning. Our code and dataset are publicly accessible at \url{https://ophai.hms.harvard.edu/datasets/harvard-fairvision30k}.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 拡散モデルの一般化は幾何適応調和表現から生じる

Generalization in diffusion models arises from geometry-adaptive harmonic representations ( http://arxiv.org/abs/2310.02557v3 )

ライセンス: Link先を確認
Zahra Kadkhodaie, Florentin Guth, Eero P. Simoncelli, Stéphane Mallat, (参考訳) 画像復調のために訓練されたディープニューラルネットワーク(DNN)は、スコアベースの逆拡散アルゴリズムを用いて高品質なサンプルを生成することができる。 これらの印象的な能力は、次元の呪いから逃れることを意味しているように見えるが、最近のトレーニングセットの記憶は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問を提起している。 ここでは、データセットの重複しない部分集合で訓練された2つのDNNが、ほぼ同じスコア関数を学習し、したがって、トレーニング画像の数が十分に大きい場合、同じ密度を学習することを示す。 この強い一般化の状況において、拡散生成画像はトレーニングセットと異なり、高い視覚的品質であり、DNNの帰納バイアスはデータ密度とよく一致していることを示唆している。 学習した復調関数を解析し、帰納的バイアスが基礎となる画像に適応して縮小操作を生じさせることを示す。 これらの基底を調べると、等質領域と輪郭に沿った振動する調和構造が明らかになる。 トレーニングされたデノイザは、これらの幾何適応調和ベースに対して誘導的に偏りがあることを実証する。なぜなら、ネットワークが写真画像上でトレーニングされたときだけでなく、低次元多様体上でハーモニック基底が最適である画像クラスでトレーニングされたときにも発生するからである。 最後に、最適基底が幾何適応的かつ調和的であることが知られている正規画像クラスで訓練された場合、ネットワークの雑音発生性能はほぼ最適であることを示す。

Deep neural networks (DNNs) trained for image denoising are able to generate high-quality samples with score-based reverse diffusion algorithms. These impressive capabilities seem to imply an escape from the curse of dimensionality, but recent reports of memorization of the training set raise the question of whether these networks are learning the "true" continuous density of the data. Here, we show that two DNNs trained on non-overlapping subsets of a dataset learn nearly the same score function, and thus the same density, when the number of training images is large enough. In this regime of strong generalization, diffusion-generated images are distinct from the training set, and are of high visual quality, suggesting that the inductive biases of the DNNs are well-aligned with the data density. We analyze the learned denoising functions and show that the inductive biases give rise to a shrinkage operation in a basis adapted to the underlying image. Examination of these bases reveals oscillating harmonic structures along contours and in homogeneous regions. We demonstrate that trained denoisers are inductively biased towards these geometry-adaptive harmonic bases since they arise not only when the network is trained on photographic images, but also when it is trained on image classes supported on low-dimensional manifolds for which the harmonic basis is suboptimal. Finally, we show that when trained on regular image classes for which the optimal basis is known to be geometry-adaptive and harmonic, the denoising performance of the networks is near-optimal.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 物理制御のためのユニバーサルヒューマノイド運動表現

Universal Humanoid Motion Representations for Physics-Based Control ( http://arxiv.org/abs/2310.04582v2 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Josh Merel, Alexander Winkler, Jing Huang, Kris Kitani, Weipeng Xu, (参考訳) 物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。 ヒューマノイドの高次元性と強化学習における固有の困難さから,従来の手法では,特定の動作データセットから限られた動作スタイル(例えば,ゲームキャラクタ)の学習スキル埋め込みに重点を置いてきた。 この制限されたスコープは、複雑なタスクにおける適用性を損なう。 運動表現空間のカバレッジを大幅に増加させることで、このギャップを埋める。 これを実現するために、我々はまず、大きな非構造運動データセットから人間のすべての動きを模倣できる運動模倣機を学習する。 次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。 これは、変分情報ボトルネックを持つエンコーダ・デコーダ構造を使用することで実現される。 さらに, モデル表現性を向上し, 下流タスクのサンプリング効率を向上させるために, プロプレオセプションを前提とした事前条件(ヒューマノイドの姿勢と速度)を共同で学習する。 前者からサンプリングすることで、長い、安定した、多様な人間の動きを生成できる。 階層的RLのこの潜在空間を用いて、我々のポリシーは人間的な行動を用いてタスクを解決していることを示す。 生成タスク(例えば、ストライク、地形トラバーサル)とVRコントローラを用いたモーショントラッキングを解くことで、動作表現の有効性を実証する。

We present a universal motion representation that encompasses a comprehensive range of motor skills for physics-based humanoid control. Due to the high dimensionality of humanoids and the inherent difficulties in reinforcement learning, prior methods have focused on learning skill embeddings for a narrow range of movement styles (e.g. locomotion, game characters) from specialized motion datasets. This limited scope hampers their applicability in complex tasks. We close this gap by significantly increasing the coverage of our motion representation space. To achieve this, we first learn a motion imitator that can imitate all of human motion from a large, unstructured motion dataset. We then create our motion representation by distilling skills directly from the imitator. This is achieved by using an encoder-decoder structure with a variational information bottleneck. Additionally, we jointly learn a prior conditioned on proprioception (humanoid's own pose and velocities) to improve model expressiveness and sampling efficiency for downstream tasks. By sampling from the prior, we can generate long, stable, and diverse human motions. Using this latent space for hierarchical RL, we show that our policies solve tasks using human-like behavior. We demonstrate the effectiveness of our motion representation by solving generative tasks (e.g. strike, terrain traversal) and motion tracking using VR controllers.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 移動学習のための自己監督型データセット蒸留

Self-Supervised Dataset Distillation for Transfer Learning ( http://arxiv.org/abs/2310.06511v3 )

ライセンス: Link先を確認
Dong Bok Lee, Seanie Lee, Joonho Ko, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang, (参考訳) データセット蒸留法は、大規模なデータセットを少数の代表サンプルに蒸留することに成功した。 しかし、自己教師付き事前学習を容易にするために効果的に使用できる蒸留データセットを作成するように設計されていない。 そこで本研究では,ラベルのないデータセットを,効率的な自己教師付き学習(SSL)のための小さな合成サンプル集合に蒸留する新しい問題を提案する。 まず、データの増大やマスキングから生じるランダム性から、単純二段階最適化におけるSSL目標に対する合成サンプルの勾配が \textit{biased} であることが証明された。 そこで本研究では,合成例のモデル表現と,それに対応する学習対象特徴表現との間の平均二乗誤差(MSE)を最小化することを提案する。 我々の主な動機は、提案した内部最適化によって得られたモデルが \textit{self-supervised target model} を模倣できることである。 そこで本研究では,内部モデルと自己教師対象モデルとのMSEを,外部最適化のための元となる全データセット上に導入する。 最後に、特徴抽出器が固定されていると仮定すると、特徴抽出器の上の直線ヘッドのみを最適化し、計算コストを削減し、カーネルリッジ回帰を伴うヘッドの閉形式解を得る。 転送学習を含む様々な応用における本手法の有効性を実証的に検証する。

Dataset distillation methods have achieved remarkable success in distilling a large dataset into a small set of representative samples. However, they are not designed to produce a distilled dataset that can be effectively used for facilitating self-supervised pre-training. To this end, we propose a novel problem of distilling an unlabeled dataset into a set of small synthetic samples for efficient self-supervised learning (SSL). We first prove that a gradient of synthetic samples with respect to a SSL objective in naive bilevel optimization is \textit{biased} due to the randomness originating from data augmentations or masking. To address this issue, we propose to minimize the mean squared error (MSE) between a model's representations of the synthetic examples and their corresponding learnable target feature representations for the inner objective, which does not introduce any randomness. Our primary motivation is that the model obtained by the proposed inner optimization can mimic the \textit{self-supervised target model}. To achieve this, we also introduce the MSE between representations of the inner model and the self-supervised target model on the original full dataset for outer optimization. Lastly, assuming that a feature extractor is fixed, we only optimize a linear head on top of the feature extractor, which allows us to reduce the computational cost and obtain a closed-form solution of the head with kernel ridge regression. We empirically validate the effectiveness of our method on various applications involving transfer learning.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 反射対称性を持つ対角ユニタリ行列に対する回路の最適化合成

Optimized synthesis of circuits for diagonal unitary matrices with reflection symmetry ( http://arxiv.org/abs/2310.06676v2 )

ライセンス: Link先を確認
Xinchi Huang, Taichi Kosugi, Hirofumi Nishi, Yu-ichiro Matsushita, (参考訳) ノイズの多い中間スケール量子(NISQ)時代には、回路深さとゲート数、特にCNOTゲートを含む絡み合ったゲートの量子回路を最適化することが重要である。 すべてのユニタリ作用素の中で、対角ユニタリ行列は多くの量子アルゴリズム/サブルーチンにおいて重要な役割を果たす特別なクラスを形成する。 自然ゲート集合 {CNOT, Rz} に基づいて, 一般対角ユニタリ行列の量子回路をいくつかの先行研究で議論し, 回路深さの観点から最適な合成アルゴリズムを提案した。 本稿では、量子回路による第1量子化ハミルトニアンのリアルタイム進化の実現を含む将来的な応用を期待する、反射対称性を持つ対角ユニタリ行列の実装に関心がある。 このような対称性のため、既存の作業における量子回路をさらに単純化し、絡み込みゲート数を最適化する構成的アルゴリズムを提案する。 一般対角ユニタリ行列の以前の合成法と比較して,提案アルゴリズムによる量子回路は,ゲート数と回路深さの両面でほぼ半分の低減を実現している。

During the noisy intermediate-scale quantum (NISQ) era, it is important to optimize the quantum circuits in circuit depth and gate count, especially entanglement gates, including the CNOT gate. Among all the unitary operators, diagonal unitary matrices form a special class that plays a crucial role in many quantum algorithms/subroutines. Based on a natural gate set {CNOT, Rz}, quantum circuits for general diagonal unitary matrices were discussed in several previous works, and an optimal synthesis algorithm was proposed in terms of circuit depth. In this paper, we are interested in the implementation of diagonal unitary matrices with reflection symmetry, which has promising applications, including the realization of real-time evolution for first quantized Hamiltonians by quantum circuits. Owing to such a symmetric property, we show that the quantum circuit in the existing work can be further simplified and propose a constructive algorithm that optimizes the entanglement gate count. Compared to the previous synthesis methods for general diagonal unitary matrices, the quantum circuit by our proposed algorithm achieves nearly half the reduction in both the gate count and circuit depth.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 拡張ハードコア・ボソニック・ハタノ・ネルソンモデルにおける多体絡みとスペクトルクラスター

Many-body entanglement and spectral clusters in the extended hard-core bosonic Hatano-Nelson model ( http://arxiv.org/abs/2310.07599v2 )

ライセンス: Link先を確認
Chao-Ze Lu, Gaoyong Sun, (参考訳) ハードコア限界における拡張ボソニック・ハタノ・ネルソンモデルの多体絡みとスペクトルについて検討する。 この系は、ギャップレス位相から電荷密度波位相への位相遷移を行い、第1励起状態における$\mathcal{PT}$遷移を伴うことを示す。 位相遷移は、基底状態の生物直交秩序パラメータの交差と、最初の励起状態の絡み合いエントロピーの急激な変化を特徴とする。 ギャップレス位相は、中心電荷$c=1$の基底状態エンタングルメントエントロピーの対数スケーリングによって検証される。 さらに、全てのエネルギースペクトルクラスターが強い隣り合う相互作用において楕円を形成し、普遍的なスケーリング法則を確立することを示す。 主軸と小軸の長さは、最も近い隣り合う相互作用に関して、電力法則に従うことが示されている。 正確な式は、各クラスターの最も外側の楕円環上のエネルギー準位数に対して導かれる。

We study many-body entanglements and spectra of the extended bosonic Hatano-Nelson model in the hard-core limit. We show that the system undergoes a phase transition from a gapless phase to a charge density wave phase accompanied by a $\mathcal{PT}$ transition in the first excited state. The phase transition is characterized by the crossing of the ground-state biorthogonal order parameter and the sudden change of the first excited-state entanglement entropy. The gapless phase is verified by the logarithmic scaling of the ground-state entanglement entropy with the central charge $c=1$. Furthermore, we show that all energy spectral clusters would form ellipses in strong nearest-neighbor interactions, for which we establish a universal scaling law. The lengths of the major and minor axes are shown to obey power laws with respect to the nearest-neighbor interaction. The exact expressions are derived for the numbers of energy levels on the outermost elliptic ring of each clusters.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-12
# 整数値時系列データのニューラルネットワーク近似

Neural Likelihood Approximation for Integer Valued Time Series Data ( http://arxiv.org/abs/2310.12544v2 )

ライセンス: Link先を確認
Luke O'Loughlin, John Maclean, Andrew Black, (参考訳) 整数値状態空間上で定義される確率過程は、物理科学や生物科学で人気がある。 これらのモデルは、個体群の個々の性質を無視できず、確率的効果が重要である小さなシステムの力学を捉えるために必要である。 時系列データからのそのようなモデルのパラメータの推測は、可能性の難易度のために困難である。 全く機能するため、現在のシミュレーションベースの推論手法では、データに基づくモデル条件の生成が必要であり、実装も計算コストも難しい。 そこで本研究では,基礎モデルの非条件シミュレーションを用いて学習可能なニューラルチャンス近似を構築した。 本手法は,多くの生態学・疫学モデルを用いて推定を行い,実際の後部を精度良く近似し,計算速度のアップを現行の方法と比較して有意な精度で達成できることを実証する。

Stochastic processes defined on integer valued state spaces are popular within the physical and biological sciences. These models are necessary for capturing the dynamics of small systems where the individual nature of the populations cannot be ignored and stochastic effects are important. The inference of the parameters of such models, from time series data, is challenging due to intractability of the likelihood. To work at all, current simulation based inference methods require the generation of realisations of the model conditional on the data, which can be both tricky to implement and computationally expensive. In this paper we instead construct a neural likelihood approximation that can be trained using unconditional simulation of the underlying model, which is much simpler. We demonstrate our method by performing inference on a number of ecological and epidemiological models, showing that we can accurately approximate the true posterior while achieving significant computational speed ups compared to current best methods.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 高ダイナミックレンジ画像レンダリングの知覚評価と最適化

Perceptual Assessment and Optimization of High Dynamic Range Image Rendering ( http://arxiv.org/abs/2310.12877v4 )

ライセンス: Link先を確認
Peibei Cao, Rafal K. Mantiuk, Kede Ma, (参考訳) 高ダイナミックレンジ(HDR)レンダリングは、自然界の広い輝度範囲を忠実に再現する能力を持つが、レンダリング品質を正確に評価する方法は、比較的過小評価されている。 既存の画質モデルは、主に低ダイナミックレンジ(LDR)画像用に設計されており、HDR画像の品質に対する人間の認識とよく一致しない。 このギャップを埋めるために、HDRの品質指標のファミリーを提案し、その重要なステップは、単純な逆表示モデルを用いて、HDR画像を様々な露出でLDR画像のスタックに分解することである。 その後、これらの分解された画像は、確立されたLDR品質指標によって評価される。 私たちのHDRの品質モデルには3つのメリットがあります。 まず、LDRの品質指標の最近の進歩を直接継承する。 第2に、HDR画像品質の人間の知覚データを再校正に頼らない。 第3に、より正確で詳細な品質評価のために、特定の輝度範囲のアライメントと優先順位付けを容易にする。 実験結果から,HDR画像品質データセットの4つの品質評価と,HDR新規ビュー合成の知覚的最適化の観点から,HDR品質指標が既存モデルより一貫して優れていることが示された。

High dynamic range (HDR) rendering has the ability to faithfully reproduce the wide luminance ranges in natural scenes, but how to accurately assess the rendering quality is relatively underexplored. Existing quality models are mostly designed for low dynamic range (LDR) images, and do not align well with human perception of HDR image quality. To fill this gap, we propose a family of HDR quality metrics, in which the key step is employing a simple inverse display model to decompose an HDR image into a stack of LDR images with varying exposures. Subsequently, these decomposed images are assessed through well-established LDR quality metrics. Our HDR quality models present three distinct benefits. First, they directly inherit the recent advancements of LDR quality metrics. Second, they do not rely on human perceptual data of HDR image quality for re-calibration. Third, they facilitate the alignment and prioritization of specific luminance ranges for more accurate and detailed quality assessment. Experimental results show that our HDR quality metrics consistently outperform existing models in terms of quality assessment on four HDR image quality datasets and perceptual optimization of HDR novel view synthesis.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# ベイジアン氏:不確実性拡大へ-アタッチメントで

Be Bayesian by Attachments to Catch More Uncertainty ( http://arxiv.org/abs/2310.13027v2 )

ライセンス: Link先を確認
Shiyu Shen, Bin Pan, Tianyang Shi, Tao Li, Zhenwei Shi, (参考訳) ベイズニューラルネットワーク (BNN) は, ソリッド理論の基礎から不確実性推定を行う上で有望なアプローチの1つである。 しかし,BNNの性能は不確実性に対処する能力に影響される。 本稿では、分布内(ID)データによるニューラルネットワーク重みの分布のみを求める代わりに、アタッチメント構造(ABNN)を備えた新しいベイズニューラルネットワークを提案し、分布外(OOD)データからより不確実性を求める。 まず,OODデータの不確実性に関する数学的記述を先行分布に従って構築し,その後,OODデータの不確実性をバックボーンネットワークに組み込むためのベイズ構造を構築した。 ABNNは期待モジュールといくつかの配布モジュールで構成されている。 期待モジュールは、元のタスクに焦点を当てたバックボーンディープネットワークであり、分散モジュールはバックボーンのアタッチメントとして機能するミニベイズ構造である。 特に、分布モジュールは、IDデータとOODデータの両方から不確実性を抽出することを目的としている。 さらに, ABNNの収束に関する理論的解析を行い, 現状の不確実性推定法との比較により, その優位性を実験的に検証する。

Bayesian Neural Networks (BNNs) have become one of the promising approaches for uncertainty estimation due to the solid theorical foundations. However, the performance of BNNs is affected by the ability of catching uncertainty. Instead of only seeking the distribution of neural network weights by in-distribution (ID) data, in this paper, we propose a new Bayesian Neural Network with an Attached structure (ABNN) to catch more uncertainty from out-of-distribution (OOD) data. We first construct a mathematical description for the uncertainty of OOD data according to the prior distribution, and then develop an attached Bayesian structure to integrate the uncertainty of OOD data into the backbone network. ABNN is composed of an expectation module and several distribution modules. The expectation module is a backbone deep network which focuses on the original task, and the distribution modules are mini Bayesian structures which serve as attachments of the backbone. In particular, the distribution modules aim at extracting the uncertainty from both ID and OOD data. We further provide theoretical analysis for the convergence of ABNN, and experimentally validate its superiority by comparing with some state-of-the-art uncertainty estimation methods Code will be made available.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 分散ディープラーニングのための擬似同期ルール

A Quadratic Synchronization Rule for Distributed Deep Learning ( http://arxiv.org/abs/2310.14423v2 )

ライセンス: Link先を確認
Xinran Gu, Kaifeng Lyu, Sanjeev Arora, Jingzhao Zhang, Longbo Huang, (参考訳) データ並列性を備えた分散ディープラーニングでは、トレーニングの各ステップでの勾配の同期は、特に大規模なモデルをトレーニングするために多くのノードが協力して作業する場合、大きな通信オーバーヘッドを引き起こす可能性がある。 Local SGDのような局所勾配法は、労働者が他人と同期することなく$H$のステップでローカルに計算できるようにし、通信頻度を減少させることによってこの問題に対処する。 最近の研究では、$H$は通信コストの最適化効率を交換するためのハイパーパラメータと見なされているが、適切な$H$の値を設定すると一般化の改善につながることが示されている。 しかし、適切な$H$を選択することはあり得ない。 この研究は、Quadratic Synchronization Rule (QSR) と名づけられた$H$を、学習率$\eta$崩壊として$\frac{1}{\eta^2}$に比例して動的に$H$を設定することを提案する。 ResNet と ViT の大規模なイメージネット実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。 標準的なデータ並列トレーニングと比較して、QSRは、ViT-B上のローカルAdamWにより、16または64GPUのトレーニング時間を26.7から20.2時間、または8.6から5.5時間に短縮することができる。

In distributed deep learning with data parallelism, synchronizing gradients at each training step can cause a huge communication overhead, especially when many nodes work together to train large models. Local gradient methods, such as Local SGD, address this issue by allowing workers to compute locally for $H$ steps without synchronizing with others, hence reducing communication frequency. While $H$ has been viewed as a hyperparameter to trade optimization efficiency for communication cost, recent research indicates that setting a proper $H$ value can lead to generalization improvement. Yet, selecting a proper $H$ is elusive. This work proposes a theory-grounded method for determining $H$, named the Quadratic Synchronization Rule (QSR), which recommends dynamically setting $H$ in proportion to $\frac{1}{\eta^2}$ as the learning rate $\eta$ decays over time. Extensive ImageNet experiments on ResNet and ViT show that local gradient methods with QSR consistently improve the test accuracy over other synchronization strategies. Compared with the standard data parallel training, QSR enables Local AdamW on ViT-B to cut the training time on 16 or 64 GPUs down from 26.7 to 20.2 hours or from 8.6 to 5.5 hours and, at the same time, achieves $1.16\%$ or $0.84\%$ higher top-1 validation accuracy.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 確率的支援を伴う確率的プログラムにおけるパス平均ベイズモデルを超えて

Beyond Bayesian Model Averaging over Paths in Probabilistic Programs with Stochastic Support ( http://arxiv.org/abs/2310.14888v2 )

ライセンス: Link先を確認
Tim Reichelt, Luke Ong, Tom Rainforth, (参考訳) 確率的サポートを持つ確率的プログラムの後部は、それぞれのプログラムパスに関連する局所的な後部分布の重み付け和として分解される。 本研究では,この完全後続モデルを用いて予測を行うことにより,経路上のベイズ平均化(BMA)を暗黙的に行うことを示す。 これは潜在的に問題であり、BMAの重みはモデル上の不特定性や推論の近似によって不安定になり、代わりに準最適予測をもたらす。 そこで我々は,経路重み付けの代替メカニズムとして,積み重ねに基づくもの,PAC-Bayesのアイデアに基づくものを提案する。 既存の推論エンジン上での安価な後処理ステップとして実装する方法を示す。 実験では、デフォルトのBMA重みと比較して、より堅牢で、より良い予測につながることが分かりました。

The posterior in probabilistic programs with stochastic support decomposes as a weighted sum of the local posterior distributions associated with each possible program path. We show that making predictions with this full posterior implicitly performs a Bayesian model averaging (BMA) over paths. This is potentially problematic, as BMA weights can be unstable due to model misspecification or inference approximations, leading to sub-optimal predictions in turn. To remedy this issue, we propose alternative mechanisms for path weighting: one based on stacking and one based on ideas from PAC-Bayes. We show how both can be implemented as a cheap post-processing step on top of existing inference engines. In our experiments, we find them to be more robust and lead to better predictions compared to the default BMA weights.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# UWBレーダを用いた静的ジェスチャーの分類手法

A Technique for Classifying Static Gestures Using UWB Radar ( http://arxiv.org/abs/2310.15036v3 )

ライセンス: Link先を確認
Abhishek Sebastian, Pragna R, (参考訳) 本稿では,UWBレーダーセンサ技術を活用した,UWBに基づく静的ジェスチャー認識のための堅牢なフレームワークを提案する。 5つの一般的なジェスチャーを含むデータセットをコンパイルするために、大規模なデータ収集作業が行われた。 当社のアプローチでは、アウトレーラハンドリング、アスペクト比保存リサイズ、偽色画像変換を含む包括的データ前処理パイプラインを包含する。 CNNモデルとMobileNetモデルの両方が、処理された画像に基づいてトレーニングされた。 注目すべきは、我々の最高のパフォーマンスモデルが96.78%の精度を達成したことです。 さらに,ユーザフレンドリなGUIフレームワークを開発し,システムリソースの使用状況と処理時間を評価し,メモリ使用率の低下とタスク完了を1秒以内で確認した。 本研究は,UWB技術を用いた静的ジェスチャー認識の高度化に向けた重要なステップであり,様々な領域で実用化が期待できる。

Our paper presents a robust framework for UWB-based static gesture recognition, leveraging proprietary UWB radar sensor technology. Extensive data collection efforts were undertaken to compile datasets containing five commonly used gestures. Our approach involves a comprehensive data pre-processing pipeline that encompasses outlier handling, aspect ratio-preserving resizing, and false-color image transformation. Both CNN and MobileNet models were trained on the processed images. Remarkably, our best-performing model achieved an accuracy of 96.78%. Additionally, we developed a user-friendly GUI framework to assess the model's system resource usage and processing times, which revealed low memory utilization and real-time task completion in under one second. This research marks a significant step towards enhancing static gesture recognition using UWB technology, promising practical applications in various domains.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# ADMarker:アルツハイマー病のデジタルバイオマーカーモニタリングのための多モードフェデレーション学習システム

ADMarker: A Multi-Modal Federated Learning System for Monitoring Digital Biomarkers of Alzheimer's Disease ( http://arxiv.org/abs/2310.15301v3 )

ライセンス: Link先を確認
Xiaomin Ouyang, Xian Shuai, Yang Li, Li Pan, Xifan Zhang, Heming Fu, Sitong Cheng, Xinyan Wang, Shihua Cao, Jiang Xin, Hazel Mok, Zhenyu Yan, Doris Sau Fung Yu, Timothy Kwok, Guoliang Xing, (参考訳) アルツハイマー病(AD)と関連する認知症は高齢化による世界的な健康問題である。 本稿では,マルチモーダルセンサと,自然環境における多次元ADデジタルバイオマーカー検出のための新しいフェデレーション学習アルゴリズムを統合した,初のエンドツーエンドシステムであるADMarkerを提案する。 ADMarkerは、プライバシー保護の方法でデジタルバイオマーカーを正確に検出できる、新しい3段階のマルチモーダル・フェデレート学習アーキテクチャを備えている。 提案手法は,データラベルの制限,データ不均一性,計算資源の制限など,現実的な課題をまとめて解決する。 我々は,コンパクトなマルチモダリティハードウェアシステムを構築し,高齢者91名を対象に4週間の臨床試験を行った。 その結果、ADMarkerは93.8%の精度でデジタルバイオマーカーの包括的なセットを正確に検出し、平均88.9%の精度で早期ADを識別できることが示唆された。 ADMarkerは、AD臨床医が多次元の解釈可能なデジタルバイオマーカー、患者の人口統計学的要因、AD診断の間の複雑な相関を縦方向で特徴づけ、追跡できる新しいプラットフォームを提供する。

Alzheimer's Disease (AD) and related dementia are a growing global health challenge due to the aging population. In this paper, we present ADMarker, the first end-to-end system that integrates multi-modal sensors and new federated learning algorithms for detecting multidimensional AD digital biomarkers in natural living environments. ADMarker features a novel three-stage multi-modal federated learning architecture that can accurately detect digital biomarkers in a privacy-preserving manner. Our approach collectively addresses several major real-world challenges, such as limited data labels, data heterogeneity, and limited computing resources. We built a compact multi-modality hardware system and deployed it in a four-week clinical trial involving 91 elderly participants. The results indicate that ADMarker can accurately detect a comprehensive set of digital biomarkers with up to 93.8% accuracy and identify early AD with an average of 88.9% accuracy. ADMarker offers a new platform that can allow AD clinicians to characterize and track the complex correlation between multidimensional interpretable digital biomarkers, demographic factors of patients, and AD diagnosis in a longitudinal manner.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 先進論理プログラムにおける等価性の自動検証 -- Bachelor Thesis

Automated Verification of Equivalence Properties in Advanced Logic Programs -- Bachelor Thesis ( http://arxiv.org/abs/2310.19806v3 )

ライセンス: Link先を確認
Jan Heuer, (参考訳) アンサー・セット・プログラミングを用いた産業用アプリケーションの増加に伴い、特に重要なアプリケーションにおいて、正式な検証ツールの必要性も高まっている。 プログラム最適化プロセスの間は、最適化されたサブプログラムが元のサブプログラムを置き換えることができるかどうかを自動的に検証できるツールを持つことが望ましい。 形式的には、2つのプログラムの強い同値性を検証する問題に対応する。 そのため、翻訳ツールのアンセムが開発された。 2つのプログラムが強い同値であることを検証するために、古典論理のための自動定理証明器と併用することができる。 現行のアンセムでは、制限された入力言語を持つ正のプログラムの強い等価性しか検証できない。 これは、ここで論理式を生成するアンセムで実装された翻訳$\tau^*$の結果であり、これは正のプログラムに対してのみ古典論理と一致する。 この論文は、これらの制限を克服するために国歌を拡張している。 まず、変換 $\sigma^*$ が提示され、ここでの論理から古典論理へ公式を変換する。 定理は、$\sigma^*$ が古典論理学のここでの論理における同値性を表現するのにどのように使用できるかを定式化する。 第二に、$\tau^*$はプールを含むプログラムに拡張される。 別の定理は、$\sigma^*$を$\tau^*$と組み合わせて古典論理学における2つのプログラムの強い同値性を表現する方法を示している。 $\sigma^*$ と拡張 $\tau^*$ では、否定や単純な選択、プールを含む論理プログラムの強い等価性を表現できる。 拡張された $\tau^*$ と $\sigma^*$ は、アンセムの新バージョンで実装されている。 アンセムの新しいバージョンが古典論理に翻訳できるプール、否定、簡単な選択規則を含む論理プログラムのいくつかの例を示す。 いくつか...

With the increase in industrial applications using Answer Set Programming, the need for formal verification tools, particularly for critical applications, has also increased. During the program optimisation process, it would be desirable to have a tool which can automatically verify whether an optimised subprogram can replace the original subprogram. Formally this corresponds to the problem of verifying the strong equivalence of two programs. In order to do so, the translation tool anthem was developed. It can be used in conjunction with an automated theorem prover for classical logic to verify that two programs are strongly equivalent. With the current version of anthem, only the strong equivalence of positive programs with a restricted input language can be verified. This is a result of the translation $\tau^*$ implemented in anthem that produces formulas in the logic of here-and-there, which coincides with classical logic only for positive programs. This thesis extends anthem in order to overcome these limitations. First, the transformation $\sigma^*$ is presented, which transforms formulas from the logic of here-and-there to classical logic. A theorem formalises how $\sigma^*$ can be used to express equivalence in the logic of here-and-there in classical logic. Second, the translation $\tau^*$ is extended to programs containing pools. Another theorem shows how $\sigma^*$ can be combined with $\tau^*$ to express the strong equivalence of two programs in classical logic. With $\sigma^*$ and the extended $\tau^*$, it is possible to express the strong equivalence of logic programs containing negation, simple choices, and pools. Both the extended $\tau^*$ and $\sigma^*$ are implemented in a new version of anthem. Several examples of logic programs containing pools, negation, and simple choice rules, which the new version of anthem can translate to classical logic, are presented. Some a...
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 量子ウォークを用いたハイブリッド絡み合い状態の決定論的生成

Deterministic generation of hybrid entangled states using quantum walks ( http://arxiv.org/abs/2311.02419v2 )

ライセンス: Link先を確認
Jaskaran Singh, Vikash Mittal, Soumyakanti Bose, (参考訳) 近年、量子ビットとコヒーレント状態の間のハイブリッド絡み合い(HE)は、様々な量子情報処理タスク、特に量子鍵分布において優れた性能を示している。 理論上の優位性にもかかわらず、実験室におけるそのような状態の効率的な生成は困難である。 本稿では,量子ウォークを用いてHE状態を生成するための決定論的かつ効率的な手法を提案する。 我々の手法は、1次元の分割ステップ量子ウォークにおいて、わずか20ドルの時間ステップで99.9\%の顕著な忠実さを達成する。 これは、HHE状態の確率的生成に対する以前のアプローチよりも80\%$という低い忠実度で大幅に改善されたことを示している。 我々のスキームはHE状態の生成に対する堅牢な解を提供するだけでなく、量子ウォークの独特な優位性を強調し、この急成長する分野の発展に寄与する。 さらに,本手法は現在の技術で実験的に実現可能である。

In recent times, hybrid entanglement (HE) between a qubit and a coherent state has demonstrated superior performance in various quantum information processing tasks, particularly in quantum key distribution. Despite its theoretical advantages, efficient generation of such states in the laboratory has been a challenge. Here, we introduce a deterministic and efficient approach for generating HE states using quantum walks. Our method achieves a remarkable fidelity of $99.9\%$ with just $20$ time steps in a one-dimensional split-step quantum walk. This represents a significant improvement over prior approaches for probabilistic generation of HE states with fidelity as low as $80\%$. Our scheme not only provides a robust solution to the generation of HE states but also highlights a unique advantage of quantum walks, thereby contributing to the advancement of this burgeoning field. Moreover, our scheme is experimentally feasible with the current technology.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v3 )

ライセンス: Link先を確認
Tim Kräuter, Adrian Rutle, Harald König, Yngve Lamo, (参考訳) ビジネスプロセスモデリング表記法(BPMN、Business Process Modeling Notation)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの難しさをもたらします。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 私たちのアプローチは、BPMNモデルからグラフ変換システムへの高次の変換に基づいています。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 最小ベイズリスクデコーディングによるニューラルマシン翻訳の直接選好最適化

Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2311.08380v2 )

ライセンス: Link先を確認
Guangyu Yang, Jinghong Chen, Weizhe Lin, Bill Byrne, (参考訳) 最小ベイズリスク(MBR)復号化は多言語大言語モデル(MLLM)の翻訳性能を大幅に向上させる。 しかし、MBR復号法は計算コストが高い。 近年開発されたReinforcement Learning Technique, Direct Preference Optimization (DPO) は,MLLMを微調整することで,推論に余分な計算を加えることなくMBRのゲインを得る方法を示す。 本手法では, 単言語による微調整のみを用い, DPOのないMLLMと比較して, 複数のNMTテストセットの性能を著しく向上させる。

Minimum Bayes Risk (MBR) decoding can significantly improve translation performance of Multilingual Large Language Models (MLLMs). However, MBR decoding is computationally expensive. We show how the recently developed Reinforcement Learning technique, Direct Preference Optimization (DPO), can fine-tune MLLMs to get the gains of MBR without any additional computation in inference. Our method uses only a small monolingual fine-tuning set and yields significantly improved performance on multiple NMT test sets compared to MLLMs without DPO.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 変換による逆ロバストスパイクニューラルネットワーク

Adversarially Robust Spiking Neural Networks Through Conversion ( http://arxiv.org/abs/2311.09266v2 )

ライセンス: Link先を確認
Ozan Özdenizci, Robert Legenstein, (参考訳) スパイキングニューラルネットワーク(SNN)は、さまざまな人工知能ニューラルネットワーク(ANN)ベースのAIアプリケーションに対して、エネルギー効率のよい代替手段を提供する。 SNNによるニューロモルフィックコンピューティングの進歩がアプリケーションでの利用を拡大するにつれ、SNNの対角的堅牢性の問題はより顕著になる。 エンド・ツー・エンドの学習ベースソリューションが広く研究されているのとは対照的に、スケーラブル・ロバストなSNNトレーニング手法において、逆向きにロバストなANN-to-SNN変換アルゴリズムを提案することで、限られた進歩に対処する。 提案手法は,ANN に提案されている頑健な学習目標を,計算的に要求される様々な学習目標を効果的に適用する手法を提供する。 コンバージョン後のロバストな微調整フェーズでは,SNNの階層的発火閾値とシナプス接続重量の両方を逆向きに最適化し,事前訓練したANNからの伝達ロバスト性向上を維持する。 我々は,スパイクに基づく動作力学を考慮に入れた多数の適応的敵攻撃を考慮した,SNNのロバスト性を厳格に評価する手法を提案する。 その結果,提案手法は,低レイテンシで頑健な深層SNNに対して,スケーラブルな最先端ソリューションをもたらすことがわかった。

Spiking neural networks (SNNs) provide an energy-efficient alternative to a variety of artificial neural network (ANN) based AI applications. As the progress in neuromorphic computing with SNNs expands their use in applications, the problem of adversarial robustness of SNNs becomes more pronounced. To the contrary of the widely explored end-to-end adversarial training based solutions, we address the limited progress in scalable robust SNN training methods by proposing an adversarially robust ANN-to-SNN conversion algorithm. Our method provides an efficient approach to embrace various computationally demanding robust learning objectives that have been proposed for ANNs. During a post-conversion robust finetuning phase, our method adversarially optimizes both layer-wise firing thresholds and synaptic connectivity weights of the SNN to maintain transferred robustness gains from the pre-trained ANN. We perform experimental evaluations in a novel setting proposed to rigorously assess the robustness of SNNs, where numerous adaptive adversarial attacks that account for the spike-based operation dynamics are considered. Results show that our approach yields a scalable state-of-the-art solution for adversarially robust deep SNNs with low-latency.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# 研究ソフトウェアエンジニアの基礎的能力と責任

Foundational Competencies and Responsibilities of a Research Software Engineer ( http://arxiv.org/abs/2311.11457v2 )

ライセンス: Link先を確認
Florian Goth, Renato Alves, Matthias Braun, Leyla Jael Castro, Gerasimos Chourdakis, Simon Christ, Jeremy Cohen, Fredo Erxleben, Jean-Noël Grad, Magnus Hagdorn, Toby Hodges, Guido Juckeland, Dominic Kempf, Anna-Lena Lamprecht, Jan Linxweiler, Frank Löffler, Michele Martone, Moritz Schwarzmeier, Heidi Seibold, Jan Philipp Thiele, Harald von Waldow, Samantha Wittke, (参考訳) リサーチソフトウェアエンジニア(Research Software Engineer, RSE)という用語は、10年ほど前に、リサーチコミュニティで働く個人を表現し、ソフトウェア開発に注力する手段として登場した。 この用語は広く採用されており、RSEとは何かという高レベルな定義がいくつかある。 しかし、RSEの役割は、彼らが働く制度の状況によって異なる。 スペクトルの一端では、RSEの役割は伝統的な研究の役割と似ているかもしれない。 反対に、彼らは業界のソフトウェアエンジニアに似ています。 RSEの役割の多くは、この2つの極端の間の空間に存在する。 したがって、RSEが何を行うのか、どんな経験、スキル、能力が必要なのか、単純で包括的な定義を提供することは困難です。 このコミュニティペーパーでは、RSEとは何かという広い概念を定義し、それらが実行しているさまざまなタイプの作業について検討し、基本的能力のリストと、RSEの一般的なプロファイルを定義する値を定義します。 そこで我々は,これらのスキルのさまざまな側面による進歩,特定のタイプのRSEの役割の考察,組織に対する推奨の提案,将来的な特殊化の例について詳しく検討する。 付録には、このフレームワークに既存のカリキュラムがどのように適合するかが記載されている。

The term Research Software Engineer, or RSE, emerged a little over 10 years ago as a way to represent individuals working in the research community but focusing on software development. The term has been widely adopted and there are a number of high-level definitions of what an RSE is. However, the roles of RSEs vary depending on the institutional context they work in. At one end of the spectrum, RSE roles may look similar to a traditional research role. At the other extreme, they resemble that of a software engineer in industry. Most RSE roles inhabit the space between these two extremes. Therefore, providing a straightforward, comprehensive definition of what an RSE does and what experience, skills and competencies are required to become one is challenging. In this community paper we define the broad notion of what an RSE is, explore the different types of work they undertake, and define a list of fundamental competencies as well as values that define the general profile of an RSE. On this basis, we elaborate on the progression of these skills along different dimensions, looking at specific types of RSE roles, proposing recommendations for organisations, and giving examples of future specialisations. An appendix details how existing curricula fit into this framework.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-12
# WildFusion:ビュースペースにおける3D対応潜伏拡散モデル学習

WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space ( http://arxiv.org/abs/2311.13570v2 )

ライセンス: Link先を確認
Katja Schwarz, Seung Wook Kim, Jun Gao, Sanja Fidler, Andreas Geiger, Karsten Kreis, (参考訳) 現代の3次元画像合成への学習に基づくアプローチは、生成した画像に対して高い光リアリズムと3次元一貫性のある視点変化を実現する。 既存のアプローチは共有正準空間のインスタンスを表す。 しかし、Wild内のデータセットでは、共有の標準システムは定義が難しいか、存在すらしない可能性がある。 この作業では、ビュースペースのインスタンスをモデル化し、ポーズ画像の必要性を軽減し、カメラの分布を学習する。 この設定では、既存のGANベースの手法は平坦な幾何学を生成する傾向にあり、分布カバレッジに苦慮している。 そこで我々は,潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。 まず、圧縮された潜在表現を推論するオートエンコーダを訓練し、画像の基盤となる3次元構造をキャプチャし、再構成だけでなく、新しいビュー合成を可能にする。 忠実な3次元表現を学習するために、単眼深度予測からの手がかりを利用する。 そして、3D対応潜伏空間における拡散モデルを訓練し、高品質な3D一貫性画像サンプルの合成を可能にする。 重要なことは、我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されており、ポーズ画像や学習ポーズ、カメラ分布を必要としないことである。 標準的なカメラ座標に頼ることなく、直接3D表現を学習する。 これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。 3D結果のビデオについては、https://katjaschwarz.github.io/wildfusionを参照してほしい。

Modern learning-based approaches to 3D-aware image synthesis achieve high photorealism and 3D-consistent viewpoint changes for the generated images. Existing approaches represent instances in a shared canonical space. However, for in-the-wild datasets a shared canonical system can be difficult to define or might not even exist. In this work, we instead model instances in view space, alleviating the need for posed images and learned camera distributions. We find that in this setting, existing GAN-based methods are prone to generating flat geometry and struggle with distribution coverage. We hence propose WildFusion, a new approach to 3D-aware image synthesis based on latent diffusion models (LDMs). We first train an autoencoder that infers a compressed latent representation, which additionally captures the images' underlying 3D structure and enables not only reconstruction but also novel view synthesis. To learn a faithful 3D representation, we leverage cues from monocular depth prediction. Then, we train a diffusion model in the 3D-aware latent space, thereby enabling synthesis of high-quality 3D-consistent image samples, outperforming recent state-of-the-art GAN-based methods. Importantly, our 3D-aware LDM is trained without any direct supervision from multiview images or 3D geometry and does not require posed images or learned pose or camera distributions. It directly learns a 3D representation without relying on canonical camera coordinates. This opens up promising research avenues for scalable 3D-aware image synthesis and 3D content creation from in-the-wild image data. See https://katjaschwarz.github.io/wildfusion for videos of our 3D results.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# Safe-CLIP:視覚・言語モデルからNSFW概念を除去する

Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models ( http://arxiv.org/abs/2311.16254v2 )

ライセンス: Link先を確認
Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) CLIPのような大規模ビジョン・アンド・ランゲージモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。 これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。 本研究は,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。 特に,言語的・視覚的概念の「有害」を排除し,非安全な言語的・視覚的概念と組込み空間の安全でない領域との結びつきを学習する。 安全な文と安全でない文の変換を訓練した大規模言語モデルとテキスト・ツー・イメージ・ジェネレータから得られた合成データに基づいて,CLIPモデルを微調整することで,これを実現できることを示す。 本研究は、モーダル検索、テキスト・ツー・イメージ、画像・ツー・テキスト生成のための埋め込み空間に関する広範な実験を行い、本モデルが事前学習された生成モデルで著しく活用可能であることを示す。 ソースコードとトレーニングされたモデルについては、https://github.com/aimagelab/safe-clip.comで公開しています。

Large-scale vision-and-language models, such as CLIP, are typically trained on web-scale data, which can introduce inappropriate content and lead to the development of unsafe and biased behavior. This, in turn, hampers their applicability in sensitive and trustworthy contexts and could raise significant concerns in their adoption. Our research introduces a novel approach to enhancing the safety of vision-and-language models by diminishing their sensitivity to NSFW (not safe for work) inputs. In particular, our methodology seeks to sever "toxic" linguistic and visual concepts, unlearning the linkage between unsafe linguistic or visual items and unsafe regions of the embedding space. We show how this can be done by fine-tuning a CLIP model on synthetic data obtained from a large language model trained to convert between safe and unsafe sentences, and a text-to-image generator. We conduct extensive experiments on the resulting embedding space for cross-modal retrieval, text-to-image, and image-to-text generation, where we show that our model can be remarkably employed with pre-trained generative models. Our source code and trained models are available at: https://github.com/aimagelab/safe-clip.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# 材料のマルチモーダル学習

Multimodal Learning for Materials ( http://arxiv.org/abs/2312.00111v3 )

ライセンス: Link先を確認
Viggo Moro, Charlotte Loh, Rumen Dangovski, Ali Ghorashi, Andrew Ma, Zhuo Chen, Samuel Kim, Peter Y. Lu, Thomas Christensen, Marin Soljačić, (参考訳) 人工知能は、計算材料科学を変革し、材料特性の予測を改善し、新しい物質の発見を加速している。 近年,資料データリポジトリが急速に普及している。 この成長は、より多くの材料だけでなく、関連する特性の多様性と量も含む。 既存の材料科学における機械学習の取り組みは、主に単一モダリティのタスク、すなわち材料と単一の物理的性質の関係に焦点を当てており、リッチでマルチモーダルな素材特性の集合を生かしていない。 本稿では,材料の基礎モデルの自己教師型マルチモーダルトレーニングを可能にする,材料のためのマルチモーダル学習(MultiMat)について紹介する。 複数の軸上のMaterial Projectデータベースからのデータを用いて、我々のフレームワークの可能性を示す。 (i)MultiMatは、材料特性予測タスクの最先端のパフォーマンスを達成する。 (二)MultiMatは、遅延空間類似性による新規かつ正確な材料発見を可能にし、所望の特性を有する安定した材料をスクリーニングすることができる。 3)MultiMatは、新しい科学的洞察を提供する可能性のある解釈可能な創発的特徴を符号化する。

Artificial intelligence is transforming computational materials science, improving the prediction of material properties, and accelerating the discovery of novel materials. Recently, publicly available material data repositories have grown rapidly. This growth encompasses not only more materials, but also a greater variety and quantity of their associated properties. Existing machine learning efforts in materials science focus primarily on single-modality tasks, i.e., relationships between materials and a single physical property, thus not taking advantage of the rich and multimodal set of material properties. Here, we introduce Multimodal Learning for Materials (MultiMat), which enables self-supervised multi-modality training of foundation models for materials. We demonstrate our framework's potential using data from the Materials Project database on multiple axes: (i) MultiMat achieves state-of-the-art performance for challenging material property prediction tasks; (ii) MultiMat enables novel and accurate material discovery via latent space similarity, enabling screening for stable materials with desired properties; and (iii) MultiMat encodes interpretable emergent features that may provide novel scientific insights.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# WonderJourney: どこにでも行く

WonderJourney: Going from Anywhere to Everywhere ( http://arxiv.org/abs/2312.03884v2 )

ライセンス: Link先を確認
Hong-Xing Yu, Haoyi Duan, Junhwa Hur, Kyle Sargent, Michael Rubinstein, William T. Freeman, Forrester Cole, Deqing Sun, Noah Snavely, Jiajun Wu, Charles Herrmann, (参考訳) 我々は、永続的な3Dシーン生成のためのモジュール化されたフレームワークであるWonderJourneyを紹介する。 単一のタイプのシーンに焦点を当てたビュー生成に関する以前の作業とは異なり、ユーザが提供する場所(テキスト記述や画像)から始めて、多様だが一貫性のある3Dシーンの長いシーケンスを旅する。 我々はLLMを利用して、この旅のシーンのテキスト記述を生成する。テキスト駆動のポイントクラウド生成パイプラインは、魅力的な3Dシーンのコヒーレントなシーケンスを作り、大きなVLMは生成されたシーンを検証する。 我々は、様々なシーンタイプやスタイルにまたがって魅力的な多様な視覚効果を示し、想像上の「Wonderjourneys」を形成している。 Project website: https://kovenyu.com/WonderJourney/

We introduce WonderJourney, a modularized framework for perpetual 3D scene generation. Unlike prior work on view generation that focuses on a single type of scenes, we start at any user-provided location (by a text description or an image) and generate a journey through a long sequence of diverse yet coherently connected 3D scenes. We leverage an LLM to generate textual descriptions of the scenes in this journey, a text-driven point cloud generation pipeline to make a compelling and coherent sequence of 3D scenes, and a large VLM to verify the generated scenes. We show compelling, diverse visual results across various scene types and styles, forming imaginary "wonderjourneys". Project website: https://kovenyu.com/WonderJourney/
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# 歌詞: セマンティックな視覚オブジェクトによる細粒度言語ビジョンアライメントと理解の促進

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects ( http://arxiv.org/abs/2312.05278v2 )

ライセンス: Link先を確認
Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang, (参考訳) LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。 しかし、きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。 本稿では,視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする,新しいマルチモーダル事前学習および命令微調整パラダイムであるLyricsを提案する。 BLIP-2の基礎の上に構築されているLyricsは、画像タグ付け、オブジェクト検出、セマンティックセグメンテーションモジュールを含むビジュアルリファインダから抽出されたローカルビジュアル特徴をクエリ変換器に注入し、テキスト側では、言語入力がビジュアルリファインダから派生した境界ボックスとタグを装備する。 さらに,事前学習した段階が視覚言語アライメント目標を明確かつ包括的に達成し,モダリティギャップを橋渡しする2段階の訓練手法を導入する。 そこで本研究では,具体的視覚オブジェクトから情報的特徴を抽出するための重要な手法である,意味認識型視覚特徴抽出手法を提案する。 提案手法は, 様々な視覚言語タスクを対象とした13のデータセットに対して堅牢な性能を実現し, 11のシナリオベースベンチマーク・ツールキットにおいて, 有望なマルチモーダル理解, 知覚, 会話能力を示す。

Large Vision Language Models (LVLMs) have demonstrated impressive zero-shot capabilities in various vision-language dialogue scenarios. However, the absence of fine-grained visual object detection hinders the model from understanding the details of images, leading to irreparable visual hallucinations and factual errors. In this paper, we propose Lyrics, a novel multi-modal pre-training and instruction fine-tuning paradigm that bootstraps vision-language alignment from fine-grained cross-modal collaboration. Building on the foundation of BLIP-2, Lyrics infuses local visual features extracted from a visual refiner that includes image tagging, object detection and semantic segmentation modules into the Querying Transformer, while on the text side, the language inputs equip the boundary boxes and tags derived from the visual refiner. We further introduce a two-stage training scheme, in which the pre-training stage bridges the modality gap through explicit and comprehensive vision-language alignment targets. During the instruction fine-tuning stage, we introduce semantic-aware visual feature extraction, a crucial method that enables the model to extract informative features from concrete visual objects. Our approach achieves robust performance on 13 datasets across various vision-language tasks, and demonstrates promising multi-modal understanding, perception and conversation capabilities in 11 scenario-based benchmark toolkits.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# ケーラー修飾スピン化キャビティマグノメカニクスにおける非相反光子-フォノンの絡み合い

Nonreciprocal Photon-Phonon Entanglement in Kerr-Modified Spinning Cavity Magnomechanics ( http://arxiv.org/abs/2312.05561v2 )

ライセンス: Link先を確認
Jiaojiao Chen, Xiao-Gang Fan, Wei Xiong, Dong Wang, Liu Ye, (参考訳) キャビティ・マグノメカニクスは、特に量子情報科学の鍵となる量子絡み合いについて、マクロ的な量子効果を研究する大きな可能性を示している。 ここでは, 逆磁場あるいは駆動磁場をそれぞれカー効果を持つマグノンやサニャック効果を有する光子に印加した場合に非対称性を示すマグノンを介する非相互フォノンの絡み合わせを実現する。 平均マグノン数は, キャビティ上の強駆動場の強度に比例して, 非相互線形あるいは非線形(不安定)な挙動を選択的に示すことができることがわかった。 この駆動場の支援により、マグノン-フォノンカップリングは大幅に強化され、マグノンと光子の交換相互作用を介して非相互フォノン-フォノンの絡み合いが生じる。 この非相互絡み合いは、マグノン・カーとサニャック効果によって著しく増強される。 利用可能なパラメータを考慮すれば、非相互光子-フォノンの絡み合いは$\sim3$Kで保存でき、浴槽温度に対して顕著な耐性を示す。 その結果, キャビティ・マグノメカニクスにおけるマグノン・カー効果とサニャック効果の両面から, 種々の非相互デバイスの開発が期待できることがわかった。

Cavity magnomechanics has shown great potential in studying macroscopic quantum effects, especially for quantum entanglement, which is a key resource for quantum information science. Here we propose to realize magnon mediated nonreciprocal photon-phonon entanglement, which exhibits asymmetry when opposite magnetic or driving fields are respectively applied to the magnons with the Kerr effect or the photons with the Sagnac effect. We find that the mean magnon number can selectively exhibit nonreciprocal linear or nonlinear (bistable) behavior with the strength of the strong driving field on the cavity. Assisted by this driving field, the magnon-phonon coupling is greatly enhanced, leading to the nonreciprocal photon-phonon entanglement via the swapping interaction between the magnons and photons. This nonreciprocal entanglement can be significantly enhanced with the magnon Kerr and Sagnac effects. Given the available parameters, the nonreciprocal photon-phonon entanglement can be preserved at $\sim3$ K, showing remarkable resilience against the bath temperature. The result reveals that our paper holds promise in developing various nonreciprocal devices with both the magnon Kerr and Sagnac effects in cavity magnomechanics.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# TaCo:情報理論と説明可能性によるNLP用出力埋め込みの概念除去

TaCo: Targeted Concept Removal in Output Embeddings for NLP via Information Theory and Explainability ( http://arxiv.org/abs/2312.06499v3 )

ライセンス: Link先を確認
Fanny Jourdan, Louis Béthune, Agustin Picard, Laurent Risser, Nicholas Asher, (参考訳) 自然言語処理(NLP)モデルの公平性は重要な懸念事項となっている。 情報理論は、公正性を達成するためには、モデルが性別、民族、年齢などの敏感な変数を予測できないことを示唆している。 しかしながら、これらの変数に関連する情報は言語で暗黙的に現れることが多く、バイアスを効果的に識別し緩和することの難しさを浮き彫りにしている。 この問題に対処するため,NLPモデルの埋め込みレベルにおいて,特定のアーキテクチャに依存しない新たなアプローチを提案する。 提案手法は,XAI手法の最近の進歩から得られた知見を活用し,組込み変換を用いて,選択した変数から暗黙的な情報を排除している。 最終レイヤへの埋め込みを直接操作することで、当社のアプローチは、大幅な修正や再トレーニングを必要とせずに、既存のモデルへのシームレスな統合を可能にします。 評価において,提案手法は,NLPモデルにおける性別関係の関連性を大幅に低減し,モデル全体の性能と機能を維持する。 https://github.com/fanny-jourdan/TaCo

The fairness of Natural Language Processing (NLP) models has emerged as a crucial concern. Information theory indicates that to achieve fairness, a model should not be able to predict sensitive variables, such as gender, ethnicity, and age. However, information related to these variables often appears implicitly in language, posing a challenge in identifying and mitigating biases effectively. To tackle this issue, we present a novel approach that operates at the embedding level of an NLP model, independent of the specific architecture. Our method leverages insights from recent advances in XAI techniques and employs an embedding transformation to eliminate implicit information from a selected variable. By directly manipulating the embeddings in the final layer, our approach enables a seamless integration into existing models without requiring significant modifications or retraining. In evaluation, we show that the proposed post-hoc approach significantly reduces gender-related associations in NLP models while preserving the overall performance and functionality of the models. An implementation of our method is available: https://github.com/fanny-jourdan/TaCo
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# CGS-Mask:時系列予測を直感的にする

CGS-Mask: Making Time Series Predictions Intuitive for All ( http://arxiv.org/abs/2312.09513v3 )

ライセンス: Link先を確認
Feng Lu, Wei Li, Yifei Sun, Cheng Song, Yufei Ren, Albert Y. Zomaya, (参考訳) 人工知能(AI)は時系列予測において大きな可能性を秘めているが、ほとんどの説明可能なツールは、時間とともに重要な機能の体系的な理解を提供する能力に制限がある。 これらのツールは典型的には、単一の時間点を評価し、入力の時間順序を見落とし、時系列アプリケーションの時間依存性の性質を無視している。 これらの要因は、特にドメイン知識のないユーザにとって、AIモデルの判断を理解し、意味のある説明を得るのを難しくする。 本稿では,これらの課題に対処するために,CGS-Maskを提案する。 CGS-Maskは、連続した時間ステップを結合的なエンティティとして使用し、最終的な予測に対する機能の影響を評価し、時間とともにバイナリと持続的な機能の重要度スコアを提供する。 本アルゴリズムは,マスクの個体数を反復的に最適化し,適切な時間で最適マスクを得る。 我々はCGS-Maskを合成および実世界のデータセット上で評価し、時間とともに特徴の重要性を解明するために最先端の手法より優れていた。 アンケートによるパイロットユーザ調査によると、CGS-Maskは、容易に理解できる時系列予測結果を提示する最も効果的なアプローチであり、ユーザーはAIモデルの意思決定プロセスを簡単に理解することができる。

Artificial intelligence (AI) has immense potential in time series prediction, but most explainable tools have limited capabilities in providing a systematic understanding of important features over time. These tools typically rely on evaluating a single time point, overlook the time ordering of inputs, and neglect the time-sensitive nature of time series applications. These factors make it difficult for users, particularly those without domain knowledge, to comprehend AI model decisions and obtain meaningful explanations. We propose CGS-Mask, a post-hoc and model-agnostic cellular genetic strip mask-based saliency approach to address these challenges. CGS-Mask uses consecutive time steps as a cohesive entity to evaluate the impact of features on the final prediction, providing binary and sustained feature importance scores over time. Our algorithm optimizes the mask population iteratively to obtain the optimal mask in a reasonable time. We evaluated CGS-Mask on synthetic and real-world datasets, and it outperformed state-of-the-art methods in elucidating the importance of features over time. According to our pilot user study via a questionnaire survey, CGS-Mask is the most effective approach in presenting easily understandable time series prediction results, enabling users to comprehend the decision-making process of AI models with ease.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# 大規模マルチモーダルモデルを用いた多機能食品アシスタントFoodLMM

FoodLMM: A Versatile Food Assistant using Large Multi-modal Model ( http://arxiv.org/abs/2312.14991v2 )

ライセンス: Link先を確認
Yuehao Yin, Huiyan Qi, Bin Zhu, Jingjing Chen, Yu-Gang Jiang, Chong-Wah Ngo, (参考訳) 大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。 しかし、特定の領域における一般LMMの性能は、まだ十分ではない。 本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。 FoodLMMは、純粋なテキスト出力以上のタスクに対処するために、一連の新しいタスク固有のトークンとヘッドを導入し、食品の栄養価と複数のセグメンテーションマスクを予測する。 私たちは2段階のトレーニング戦略を採用しています。 最初の段階では、インストラクションフォローのパラダイムを活用することで、複数の公開食品ベンチマークをマルチタスク学習に活用する。 第2段階では、多ラウンド会話データセットと推論セグメンテーションデータセットを構築し、モデルを微調整し、プロの対話を行い、食品領域における複雑な推論に基づいてセグメンテーションマスクを生成する。 微調整したFoodLMMは、いくつかの食品ベンチマークで最先端の結果が得られます。 コード、モデル、データセットを公開します。

Large Multi-modal Models (LMMs) have made impressive progress in many vision-language tasks. Nevertheless, the performance of general LMMs in specific domains is still far from satisfactory. This paper proposes FoodLMM, a versatile food assistant based on LMMs with various capabilities, including food recognition, ingredient recognition, recipe generation, nutrition estimation, food segmentation and multi-round conversation. To facilitate FoodLMM to deal with tasks beyond pure text output, we introduce a series of novel task-specific tokens and heads, enabling the model to predict food nutritional values and multiple segmentation masks. We adopt a two-stage training strategy. In the first stage, we utilize multiple public food benchmarks for multi-task learning by leveraging the instruct-following paradigm. In the second stage, we construct a multi-round conversation dataset and a reasoning segmentation dataset to fine-tune the model, enabling it to conduct professional dialogues and generate segmentation masks based on complex reasoning in the food domain. Our fine-tuned FoodLMM achieves state-of-the-art results across several food benchmarks. We will make our code, models and datasets publicly available.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# ZONE:ゼロショットインストラクションガイドによるローカル編集

ZONE: Zero-Shot Instruction-Guided Local Editing ( http://arxiv.org/abs/2312.16794v2 )

ライセンス: Link先を確認
Shanglin Li, Bohan Zeng, Yutang Feng, Sicheng Gao, Xuhui Liu, Jiaming Liu, Li Lin, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang, (参考訳) 安定拡散(Stable Diffusion)のような視覚言語モデルの最近の進歩は、創造的な画像合成と編集において顕著な力を示しているが、既存のテキスト-画像編集手法では2つの障害に遭遇している。 第2に、ローカル編集に敏感で、非編集領域に不可逆的に影響を与え、明らかな編集トレースを残している。 これらの問題に対処するため,ZONEと呼ばれるゼロショットインストラクションを用いた局所画像編集手法を提案する。 まず、ユーザが提供する命令(例:「ネクタイブルー」)から、InstructPix2Pixを通して特定の画像編集領域に変換する。 次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。 さらに、FFTに基づくエッジスムーズな画像と層をシームレスにブレンドする手法を開発し、残りの部分を保存しながら特定の領域を任意に操作する手法を提案する。 大規模な実験により,ZONEは局所的な編集結果とユーザフレンドリさを顕著に達成し,最先端の手法よりも優れていた。 コードはhttps://github.com/lsl001006/ZONEで入手できる。

Recent advances in vision-language models like Stable Diffusion have shown remarkable power in creative image synthesis and editing.However, most existing text-to-image editing methods encounter two obstacles: First, the text prompt needs to be carefully crafted to achieve good results, which is not intuitive or user-friendly. Second, they are insensitive to local edits and can irreversibly affect non-edited regions, leaving obvious editing traces. To tackle these problems, we propose a Zero-shot instructiON-guided local image Editing approach, termed ZONE. We first convert the editing intent from the user-provided instruction (e.g., "make his tie blue") into specific image editing regions through InstructPix2Pix. We then propose a Region-IoU scheme for precise image layer extraction from an off-the-shelf segment model. We further develop an edge smoother based on FFT for seamless blending between the layer and the image.Our method allows for arbitrary manipulation of a specific region with a single instruction while preserving the rest. Extensive experiments demonstrate that our ZONE achieves remarkable local editing results and user-friendliness, outperforming state-of-the-art methods. Code is available at https://github.com/lsl001006/ZONE.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# DiffusionGAN3D: 3D GANとDiffusion Priorを併用したテキスト誘導型3D生成とドメイン適応

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors ( http://arxiv.org/abs/2312.16837v3 )

ライセンス: Link先を確認
Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie, (参考訳) テキスト誘導型ドメイン適応と3D認識画像の生成は、様々な分野で多くの応用例を見出す。 しかし、トレーニングデータの欠如と、多種多様な幾何学や外観を扱う上での課題により、これらのタスクの既存の手法は、柔軟性、不安定性、忠実度の低下といった問題に悩まされている。 本稿では,3D GANと拡散前処理を組み合わせたテキスト誘導型3Dドメイン適応と生成を促進する新しいフレームワークDiffusionGAN3Dを提案する。 具体的には、事前学習した3D生成モデル(例えば、EG3D)とテキスト・ツー・イメージ拡散モデルを統合する。 前者はテキストから安定した高品質なアバター生成のための強力な基盤を提供する。 そして、拡散モデルは強力な先行情報を提供し、3Dジェネレータを情報的な方向で微調整し、柔軟で効率的なテキスト誘導ドメイン適応を実現する。 テキスト・トゥ・アバターにおけるドメイン適応の多様性と生成能力を高めるために,相対的距離損失とケース固有の学習可能な三葉機を導入する。 さらに,上述の両タスクのテクスチャ品質を向上させるために,プログレッシブなテクスチャリファインメントモジュールを設計する。 拡張実験により、提案フレームワークは、ドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られ、生成品質と効率の点で既存の手法よりも優れていることが示された。 プロジェクトのホームページはhttps://younglbw.github.io/DiffusionGAN3D-homepage/にある。

Text-guided domain adaptation and generation of 3D-aware portraits find many applications in various fields. However, due to the lack of training data and the challenges in handling the high variety of geometry and appearance, the existing methods for these tasks suffer from issues like inflexibility, instability, and low fidelity. In this paper, we propose a novel framework DiffusionGAN3D, which boosts text-guided 3D domain adaptation and generation by combining 3D GANs and diffusion priors. Specifically, we integrate the pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion models. The former provides a strong foundation for stable and high-quality avatar generation from text. And the diffusion models in turn offer powerful priors and guide the 3D generator finetuning with informative direction to achieve flexible and efficient text-guided domain adaptation. To enhance the diversity in domain adaptation and the generation capability in text-to-avatar, we introduce the relative distance loss and case-specific learnable triplane respectively. Besides, we design a progressive texture refinement module to improve the texture quality for both tasks above. Extensive experiments demonstrate that the proposed framework achieves excellent results in both domain adaptation and text-to-avatar tasks, outperforming existing methods in terms of generation quality and efficiency. The project homepage is at https://younglbw.github.io/DiffusionGAN3D-homepage/.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# 因果決定のための大規模言語モデル

Large Language Model for Causal Decision Making ( http://arxiv.org/abs/2312.17122v3 )

ライセンス: Link先を確認
Haitao Jiang, Lin Ge, Yuhe Gao, Jianian Wang, Rui Song, (参考訳) 大きな言語モデル(LLM)は、言語理解と一般的なトピックの推論で成功していることを示している。 しかし, 因果決定などのコーパス・レア概念において, ユーザが指定した構造化データと知識に基づいて推論を行う能力は依然として限られている。 本研究では,LLM を LLM4Causal に微調整することで,因果的タスクを識別し,対応する関数を実行し,ユーザのクエリと提供されたデータセットに基づいてその数値結果を解釈できる可能性を検討する。 本稿では,(1)因果的問題識別のためのCausal-Retrieval-Bench,(2)因果的機能呼び出しのための入力パラメータ抽出,(2)文脈内因果的解釈のためのCausal-Interpret-Benchの2つの命令調整データセットについて,より制御可能なGPTのためのデータ生成プロセスを提案する。 エンドツーエンド評価と2つのアブレーション研究により,LLM4Causalは因果問題に対するエンドツーエンドのソリューションを提供し,理解し易い回答を提供し,ベースラインを著しく上回ることを示した。

Large Language Models (LLMs) have shown their success in language understanding and reasoning on general topics. However, their capability to perform inference based on user-specified structured data and knowledge in corpus-rare concepts, such as causal decision-making is still limited. In this work, we explore the possibility of fine-tuning an open-sourced LLM into LLM4Causal, which can identify the causal task, execute a corresponding function, and interpret its numerical results based on users' queries and the provided dataset. Meanwhile, we propose a data generation process for more controllable GPT prompting and present two instruction-tuning datasets: (1) Causal-Retrieval-Bench for causal problem identification and input parameter extraction for causal function calling and (2) Causal-Interpret-Bench for in-context causal interpretation. By conducting end-to-end evaluations and two ablation studies, we showed that LLM4Causal can deliver end-to-end solutions for causal problems and provide easy-to-understand answers, which significantly outperforms the baselines.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# ChangeNet: マルチテンポラルな非対称な変更検出データセット

ChangeNet: Multi-Temporal Asymmetric Change Detection Dataset ( http://arxiv.org/abs/2312.17428v2 )

ライセンス: Link先を確認
Deyi Ji, Siqi Gao, Mingyuan Tao, Hongtao Lu, Feng Zhao, (参考訳) 変更検出(CD)は、バイテンポラルデータセットが利用できることで、大きな関心を集めている。 しかし、マルチ時間画像の取得とラベル付けの膨大なコストのため、既存の変更検出データセットは少ない量で、時間的に短く、実践性も低い。 そのため,地域社会を活性化させるためには,広範囲の時間的段階をカバーする大規模実践指向データセットが緊急に必要である。 この目的のために、ChangeNetデータセットは、特に、"非対称な変更検出"という新しいタスクとともに、マルチテンポラリな変更検出のために提示される。 具体的には、ChangeNetは31,000枚のマルチテンポラルイメージペア、100都市からの幅広い複雑なシーン、6ピクセルレベルのアノテートカテゴリで構成されており、LEVIR-CDやWHU Building CDなど、既存のすべての変更検出データセットよりもはるかに優れている。 さらに、ChangeNetには、同じ領域における異なる時間相における現実世界の視点歪みの量が含まれており、変更検出アルゴリズムの実用的な適用を促進することができる。 ChangeNetデータセットはバイナリ変更検出(BCD)とセマンティック変更検出(SCD)の両方に適している。 そこで我々は,6つのBCD法と2つのSCD法でChangeNetデータセットをベンチマークし,その課題と大きな意義を実証した。 データセットはhttps://github.com/jankyee/ChangeNetで公開されている。

Change Detection (CD) has been attracting extensive interests with the availability of bi-temporal datasets. However, due to the huge cost of multi-temporal images acquisition and labeling, existing change detection datasets are small in quantity, short in temporal, and low in practicability. Therefore, a large-scale practical-oriented dataset covering wide temporal phases is urgently needed to facilitate the community. To this end, the ChangeNet dataset is presented especially for multi-temporal change detection, along with the new task of "Asymmetric Change Detection". Specifically, ChangeNet consists of 31,000 multi-temporal images pairs, a wide range of complex scenes from 100 cities, and 6 pixel-level annotated categories, which is far superior to all the existing change detection datasets including LEVIR-CD, WHU Building CD, etc.. In addition, ChangeNet contains amounts of real-world perspective distortions in different temporal phases on the same areas, which is able to promote the practical application of change detection algorithms. The ChangeNet dataset is suitable for both binary change detection (BCD) and semantic change detection (SCD) tasks. Accordingly, we benchmark the ChangeNet dataset on six BCD methods and two SCD methods, and extensive experiments demonstrate its challenges and great significance. The dataset is available at https://github.com/jankyee/ChangeNet.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-12
# 量子通信によるスケーラブルエンタングルメント認証

Scalable entanglement certification via quantum communication ( http://arxiv.org/abs/2401.00796v2 )

ライセンス: Link先を確認
Pharnam Bakhshinezhad, Mohammad Mehboudi, Carles Roch i Carceller, Armin Tavakoli, (参考訳) 量子メッセージ送信における共有絡み合いの利点を損なうには、複雑な2粒子絡み合いの測定を実装する必要がある。 本稿では,最も単純な2粒子測定,すなわち製品測定のみを用いるプロトコルにおける絡み合いの利点について検討する。 メッセージの次元のみが知られている実験では、強い絡み合いの利点は可能であるが、アインシュタイン=ポドルスキー=ローゼンの操舵によって基本的に制限されていることを示す。 その後、これらの実験の標準シナリオの自然な拡張を提案し、この制限を回避することを示す。 これにより、絡み合った2ビットのヴェルナー状態から絡み合う利点を証明し、高次元系への一般化を証明し、量子テレポーテーションへの接続を確立する。 この結果から, エンタングルメント支援通信における量子相関生成のための製品測定のパワーを明らかにし, アインシュタイン-ポドルスキー-ローゼン操舵の制約に加えて, 実用的な半デバイス非依存型エンタングルメント認証の道を開いた。

Harnessing the advantages of shared entanglement for sending quantum messages often requires the implementation of complex two-particle entangled measurements. We investigate entanglement advantages in protocols that use only the simplest two-particle measurements, namely product measurements. For experiments in which only the dimension of the message is known, we show that robust entanglement advantages are possible, but that they are fundamentally limited by Einstein-Podolsky-Rosen steering. Subsequently, we propose a natural extension of the standard scenario for these experiments and show that it circumvents this limitation. This leads us to prove entanglement advantages from every entangled two-qubit Werner state, evidence its generalisation to high-dimensional systems and establish a connection to quantum teleportation. Our results reveal the power of product measurements for generating quantum correlations in entanglement-assisted communication and they pave the way for practical semi-device-independent entanglement certification well-beyond the constraints of Einstein-Podolsky-Rosen steering.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# ProbMCL:マルチラベル視覚分類のための簡易確率的コントラスト学習

ProbMCL: Simple Probabilistic Contrastive Learning for Multi-label Visual Classification ( http://arxiv.org/abs/2401.01448v2 )

ライセンス: Link先を確認
Ahmad Sajedi, Samir Khaki, Yuri A. Lawryshyn, Konstantinos N. Plataniotis, (参考訳) マルチラベル画像分類は、コンピュータビジョンや医用画像など、多くの領域において難しい課題である。 最近の進歩は、グラフベースとトランスフォーマーベースのメソッドを導入し、パフォーマンスを改善し、ラベルの依存関係をキャプチャしている。 しかし、これらの手法は重い計算と解釈可能性の欠如を伴う複雑なモジュールを含むことが多い。 本稿では,確率的マルチラベルコントラスト学習(ProbMCL, Probabilistic Multi-label Contrastive Learning)を提案する。 我々の単純かつ効果的なアプローチは、教師付きコントラスト学習を採用し、決定しきい値に基づくアンカー画像と十分なラベルを共有するサンプルを正の集合として導入する。 この構造は、正のペア埋め込みをまとめて、しきい値以下に落ちる負のサンプルをプッシュすることで、ラベルの依存関係をキャプチャする。 我々は,混合密度ネットワークを対照的な学習に組み込んで表現学習を強化し,ガウス混合分布を生成し,特徴エンコーダの認識的不確かさを探索する。 コンピュータビジョンと医用画像領域のデータセットを用いた実験により,本フレームワークの有効性を検証した。 提案手法は,両データセットの計算フットプリントを低く抑えながら,既存の最先端手法よりも優れる。 可視化分析により、ProbMCLで学習した分類器が意味のある意味的トポロジーを維持していることが示された。

Multi-label image classification presents a challenging task in many domains, including computer vision and medical imaging. Recent advancements have introduced graph-based and transformer-based methods to improve performance and capture label dependencies. However, these methods often include complex modules that entail heavy computation and lack interpretability. In this paper, we propose Probabilistic Multi-label Contrastive Learning (ProbMCL), a novel framework to address these challenges in multi-label image classification tasks. Our simple yet effective approach employs supervised contrastive learning, in which samples that share enough labels with an anchor image based on a decision threshold are introduced as a positive set. This structure captures label dependencies by pulling positive pair embeddings together and pushing away negative samples that fall below the threshold. We enhance representation learning by incorporating a mixture density network into contrastive learning and generating Gaussian mixture distributions to explore the epistemic uncertainty of the feature encoder. We validate the effectiveness of our framework through experimentation with datasets from the computer vision and medical imaging domains. Our method outperforms the existing state-of-the-art methods while achieving a low computational footprint on both datasets. Visualization analyses also demonstrate that ProbMCL-learned classifiers maintain a meaningful semantic topology.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 超伝導回路における非断熱幾何学的fSimゲートの一段階実装

One-step implementation of nonadiabatic geometric fSim gate in superconducting circuits ( http://arxiv.org/abs/2401.02234v3 )

ライセンス: Link先を確認
M. -R. Yun, Zheng Shan, Li-Li Sun, L. -L. Yan, Yu Jia S. -L. Su, G. Chen, (参考訳) fSimゲートはアルゴリズムの深さを減らしているため、多くの注目を集めている。 しかし、量子ゲートの実装中は、制御パラメータの変動と環境によるデコヒーレンスによってゲートの忠実度が低下する可能性がある。 これらの要因に対して堅牢なfSimゲートを1ステップで実装することは、未解決の問題のままである。 本稿では,非断熱型ホロノミック制御相(CP)ゲートと非断熱型非循環型ISWAPゲートとからなる非断熱型幾何学的fSimゲートの一段階実装を提案する。 非断熱的ホロノミックCPゲートと非断熱的幾何iSWAPゲートからなる複合非断熱的幾何学的fSimゲートと比較して,本手法は半分の時間を要し,パラメータ変動に対するロバスト性および環境影響を実証する。 さらに、このスキームは複雑な制御を必要としないため、実験で実装しやすく、様々な回路構造で実現できる。 我々のスキームは量子計算とシミュレーションへの有望な道を提供するかもしれない。

Due to its significant application in reducing algorithm depth, fSim gates have attracted a lot of attention. However, during the implementation of quantum gates, fluctuations in control parameters and decoherence caused by the environment may lead to a decrease in the fidelity of the gate. Implementing the fSim gate that is robust to these factors in one step remains an unresolved issue. In this manuscript, we propose a one-step implementation of the nonadiabatic geometric fSim gate composed of a nonadiabatic holonomic controlled phase (CP) gate and a nonadiabatic noncyclic geometric iSWAP gate with parallel paths in a tunable superconducting circuit. Compared to the composite nonadiabatic geometric fSim gate composed of a nonadiabatic holonomic CP gate and a nonadiabatic geometric iSWAP gate, our scheme only takes half the time and demonstrates robustness to parameter fluctuations, as well as to environmental impacts. Moreover, the scheme does not require complex controls, making it very easy to implement in experiments, and can be achieved in various circuit structures. Our scheme may provide a promising path toward quantum computation and simulation.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 相互作用を用いた重要な画素群の同定

Identifying Important Group of Pixels using Interactions ( http://arxiv.org/abs/2401.03785v2 )

ライセンス: Link先を確認
Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera, (参考訳) 画像分類器の挙動をよりよく理解するために、個々の画素のモデル予測への寄与を可視化することが有用である。 本研究では,予測信頼度の高い画素群を効率的に正確に同定する手法であるMoXI(\textbf{Mo}$del e$\textbf{X}$planation by $\textbf{I}$nteractions)を提案する。 提案手法は,個々の画素の影響とモデルの信頼性に対する画素の協調的影響を考慮し,ゲーム理論の概念,シェープ値,相互作用を利用する。 理論的解析と実験により,本手法はGrad-CAM,Attention Rollout,Shapley値による広義の可視化よりも,モデル出力に高い寄与力を持つ画素をよりよく同定できることが示された。 従来の研究はシェープ値と相互作用の計算において指数計算コストに悩まされてきたが、これはタスクの二次コストに還元できることを示す。 コードはhttps://github.com/KosukeSumiyasu/MoXIで入手できる。

To better understand the behavior of image classifiers, it is useful to visualize the contribution of individual pixels to the model prediction. In this study, we propose a method, MoXI ($\textbf{Mo}$del e$\textbf{X}$planation by $\textbf{I}$nteractions), that efficiently and accurately identifies a group of pixels with high prediction confidence. The proposed method employs game-theoretic concepts, Shapley values and interactions, taking into account the effects of individual pixels and the cooperative influence of pixels on model confidence. Theoretical analysis and experiments demonstrate that our method better identifies the pixels that are highly contributing to the model outputs than widely-used visualization by Grad-CAM, Attention rollout, and Shapley value. While prior studies have suffered from the exponential computational cost in the computation of Shapley value and interactions, we show that this can be reduced to quadratic cost for our task. The code is available at https://github.com/KosukeSumiyasu/MoXI.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# TextMachina: マシン生成テキストデータセットのシームレス生成

TextMachina: Seamless Generation of Machine-Generated Text Datasets ( http://arxiv.org/abs/2401.03946v2 )

ライセンス: Link先を確認
Areg Mikael Sarvazyan, José Ángel González, Marc Franco-Salvador, (参考訳) 近年のLLM(Large Language Models)の進歩は、高品質なMachine-Generated Text(MGT)を生み出し、多数の新しいユースケースやアプリケーションを生み出している。 しかし、LLMへのアクセスが簡単であることは、誤用による新たな課題となっている。 悪意のある使用に対処するため、研究者はMGT関連のタスクでモデルを効果的にトレーニングするデータセットをリリースした。 同様の戦略でこれらのデータセットをコンパイルするが、現在ツールがそれらを統一することはない。 このシナリオでは、モジュール化された拡張可能なPythonフレームワークであるTextMachinaを導入し、高品質でバイアスのないデータセットの作成を支援し、検出、属性、ミックスケース、境界検出などのMGT関連タスクのための堅牢なモデルを構築する。 LLM統合、迅速なテンプレート化、バイアス軽減など、MGTデータセット構築の固有の複雑さを抽象化する、ユーザフレンドリなパイプラインを提供する。 TextMachinaが生成したデータセットの品質は、100以上のチームが堅牢なMGT検出器をトレーニングしたタスクの共有を含む、これまでの研究で評価されてきた。

Recent advancements in Large Language Models (LLMs) have led to high-quality Machine-Generated Text (MGT), giving rise to countless new use cases and applications. However, easy access to LLMs is posing new challenges due to misuse. To address malicious usage, researchers have released datasets to effectively train models on MGT-related tasks. Similar strategies are used to compile these datasets, but no tool currently unifies them. In this scenario, we introduce TextMachina, a modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, mixcase, or boundary detection. It provides a user-friendly pipeline that abstracts away the inherent intricacies of building MGT datasets, such as LLM integrations, prompt templating, and bias mitigation. The quality of the datasets generated by TextMachina has been assessed in previous works, including shared tasks where more than one hundred teams trained robust MGT detectors.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 浮遊光力学からの線形摩擦散逸崩壊モデルに関する実験的境界

Experimental bounds on linear-friction dissipative collapse models from levitated optomechanics ( http://arxiv.org/abs/2401.04665v2 )

ライセンス: Link先を確認
Giovanni Di Bartolomeo, Matteo Carlesso, (参考訳) 崩壊モデルは、よく知られた量子測定問題を解決する量子力学の代替となる。 この枠組みでは, 崩壊モデルに散逸を含む新しい手法が最近提案され, 実験的な検証が待たれている。 我々の研究は、リニア摩擦散逸性Di\'osi-Penrose(dDP)モデルと連続自発局在化(dCSL)モデルに関する実験的境界を確立する。 また, DDP の場合, 10^{-6}$m および 10^{-8}$m より小さい局所化長の値に対して, 10^{-13}$K および $ 6 \times 10^{-12}$K 未満の崩壊温度を除外した。 dCSLの場合、パラメータ空間全体は6×10^{-9}$K以下の値で除外される。

Collapse models constitute an alternative to quantum mechanics that solve the well-know quantum measurement problem. In this framework, a novel approach to include dissipation in collapse models has been recently proposed, and awaits experimental validation. Our work establishes experimental bounds on the so-constructed linear-friction dissipative Di\'osi-Penrose (dDP) and Continuous Spontaneous localisation (dCSL) models by exploiting experiments in the field of levitated optomechanics. Our results in the dDP case exclude collapse temperatures below $ 10^{-13}$K and $ 6 \times 10^{-12}$K respectively for values of the localisation length smaller than $10^{-6}$m and $10^{-8}$m. In the dCSL case the entire parameter space is excluded for values of the temperature lower than $6 \times 10^{-9}$K.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 被覆木を用いたインクリメンタル抽出オピニオン要約

Incremental Extractive Opinion Summarization Using Cover Trees ( http://arxiv.org/abs/2401.08047v2 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Manzil Zaheer, Andrew McCallum, Amr Ahmed, Snigdha Chaturvedi, (参考訳) 抽出的意見要約は、エンティティ(例えば製品レビュー)に関するテキストの要約を自動的に生成し、レビューセットで一般的な意見をキャプチャする代表文を抽出する。 通常、オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、最新の情報を提供するためには、意見要約を定期的に更新する必要がある。 そこで本研究では,段階的な視点で意見の要約を抽出する作業について検討し,その基礎となるレビューセットが時間とともに進化していくことを示す。 CentroidRank (Radev et al , 2004; Chowdhury et al , 2022) など、最先端の抽出的意見要約アプローチの多くは中心性に基づくものである。 CentroidRankは、表現空間におけるセントロイドに最も近いレビュー文のサブセットを要約として選択して抽出的な要約を行う。 しかし、これらの手法は、レビューが1回に1回到着するインクリメンタルな設定では、効率的に動作できない。 本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。 提案手法であるCoverSummは、表木におけるレビュー表現の索引付けと、候補の要約レビュー文の保存に頼っている。 CoverSummの有効性は、実行時間の理論的かつ実証的な分析によって支持される。 経験的に、さまざまなデータコレクション(スケーリングの考慮事項を説明するために、実と合成の両方で作成された)において、CoverSummがベースライン法よりも最大36倍高速で、データ分散の微妙な変化に適応できることを実証する。 また、生成した要約の人間による評価を行い、CoverSummは、基礎となるレビューセットと整合した情報的要約を生成することができることを示した。

Extractive opinion summarization involves automatically producing a summary of text about an entity (e.g., a product's reviews) by extracting representative sentences that capture prevalent opinions in the review set. Typically, in online marketplaces user reviews accumulate over time, and opinion summaries need to be updated periodically to provide customers with up-to-date information. In this work, we study the task of extractive opinion summarization in an incremental setting, where the underlying review set evolves over time. Many of the state-of-the-art extractive opinion summarization approaches are centrality-based, such as CentroidRank (Radev et al., 2004; Chowdhury et al., 2022). CentroidRank performs extractive summarization by selecting a subset of review sentences closest to the centroid in the representation space as the summary. However, these methods are not capable of operating efficiently in an incremental setting, where reviews arrive one at a time. In this paper, we present an efficient algorithm for accurately computing the CentroidRank summaries in an incremental setting. Our approach, CoverSumm, relies on indexing review representations in a cover tree and maintaining a reservoir of candidate summary review sentences. CoverSumm's efficacy is supported by a theoretical and empirical analysis of running time. Empirically, on a diverse collection of data (both real and synthetically created to illustrate scaling considerations), we demonstrate that CoverSumm is up to 36x faster than baseline methods, and capable of adapting to nuanced changes in data distribution. We also conduct human evaluations of the generated summaries and find that CoverSumm is capable of producing informative summaries consistent with the underlying review set.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# HuixiangDou: LLMベースの技術支援によるグループチャットシナリオの克服

HuixiangDou: Overcoming Group Chat Scenarios with LLM-based Technical Assistance ( http://arxiv.org/abs/2401.08772v2 )

ライセンス: Link先を確認
Huanjun Kong, Songyang Zhang, Jiaying Li, Min Xiao, Jun Xu, Kai Chen, (参考訳) 本稿では,Large Language Models (LLM) を利用した技術アシスタントであるHixiangDouを紹介する。 このシステムは,コンピュータビジョンやOpenMMLabのディープラーニングプロジェクトといった,オープンソースのアルゴリズムプロジェクトに関連する質問に対する洞察に富んだ回答を提供することによって,アルゴリズム開発者の支援を目的としている。 WeChatやLarkといったインスタントメッセージング(IM)ツールのグループチャットへのこのアシスタントの統合についても検討する。 いくつかの反復的な改善と試行を通じて,メッセージの洪水を引き起こすことなくユーザの技術的な質問に効果的に答えられる高度な技術チャットアシスタントを開発した。 本論文の貢献は以下のとおりである。 1)グループチャットシナリオに特化したアルゴリズムパイプラインの設計 2 タスク拒絶におけるtext2vecの信頼性の検証 3)技術援助的な製品,すなわちスコアリング能力,インコンテキスト学習(ICL),ロングコンテキスト(Long Context)の3つの重要な要件を特定する。 私たちはGithub(https://github.com/internlm/huixiangdou)、OpenXLab(https://openxlab.org.cn/apps/detail/tpoisonooo/huixiangdou-web)、YouTube(https://youtu.be/ylXrT-Tei-Y)でソースコード、アンドロイドアプリ、Webサービスを利用可能にしました。 HuixiangDouはIMツール内の任意のグループチャットに適用できる。

In this work, we present HuixiangDou, a technical assistant powered by Large Language Models (LLM). This system is designed to assist algorithm developers by providing insightful responses to questions related to open-source algorithm projects, such as computer vision and deep learning projects from OpenMMLab. We further explore the integration of this assistant into the group chats of instant messaging (IM) tools such as WeChat and Lark. Through several iterative improvements and trials, we have developed a sophisticated technical chat assistant capable of effectively answering users' technical questions without causing message flooding. This paper's contributions include: 1) Designing an algorithm pipeline specifically for group chat scenarios; 2) Verifying the reliable performance of text2vec in task rejection; 3) Identifying three critical requirements for LLMs in technical-assistant-like products, namely scoring ability, In-Context Learning (ICL), and Long Context. We have made the source code, android app and web service available at Github (https://github.com/internlm/huixiangdou), OpenXLab (https://openxlab.org.cn/apps/detail/tpoisonooo/huixiangdou-web) and YouTube (https://youtu.be/ylXrT-Tei-Y) to aid in future research and application. HuixiangDou is applicable to any group chat within IM tools.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# AI/MLを活用したコネクテッドヘルスケアシステムのセキュリティリスクを体系的に評価する

Systematically Assessing the Security Risks of AI/ML-enabled Connected Healthcare Systems ( http://arxiv.org/abs/2401.17136v2 )

ライセンス: Link先を確認
Mohammed Elnawawy, Mohammadreza Hallajiyan, Gargi Mitra, Shahrear Iqbal, Karthik Pattabiraman, (参考訳) 医療分野における機械学習対応システムの採用が増加している。 医療におけるMLの使用にはいくつかの利点があるが、医療システムの脅威面も拡大している。 医療システムにおけるMLの使用,特にMLエンジンと複数の周辺機器を介する接続システムでは,対向的介入の際の患者の健康に致命的な被害をもたらす可能性のあるセキュリティリスクが指摘される。 これらの新たなリスクは、周辺機器と通信チャネルのセキュリティ上の脆弱性によって生じる。 本稿では,ML対応血糖モニタリングシステムに対して,推論中に逆方向のデータポイントを導入して攻撃をおこなったケーススタディを提案する。 本稿では,グルコースメータとML対応アプリとを接続するBluetooth通信路の既知の脆弱性を利用して,敵がこれを実現できることを示す。 さらに、これらの新たなリスクを特定し評価するには、最先端のリスクアセスメント技術が不十分であることを示す。 本研究は,AI接続型医療機器のセキュリティを解析するための新たなリスク分析手法の必要性を強調した。

The adoption of machine-learning-enabled systems in the healthcare domain is on the rise. While the use of ML in healthcare has several benefits, it also expands the threat surface of medical systems. We show that the use of ML in medical systems, particularly connected systems that involve interfacing the ML engine with multiple peripheral devices, has security risks that might cause life-threatening damage to a patient's health in case of adversarial interventions. These new risks arise due to security vulnerabilities in the peripheral devices and communication channels. We present a case study where we demonstrate an attack on an ML-enabled blood glucose monitoring system by introducing adversarial data points during inference. We show that an adversary can achieve this by exploiting a known vulnerability in the Bluetooth communication channel connecting the glucose meter with the ML-enabled app. We further show that state-of-the-art risk assessment techniques are not adequate for identifying and assessing these new risks. Our study highlights the need for novel risk analysis methods for analyzing the security of AI-enabled connected health devices.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# リモートセンシングとディープラーニング技術によって実現された迅速なインフラストラクチャ障害の特徴化 -- 階層的アプローチ

Rapid post-disaster infrastructure damage characterisation enabled by remote sensing and deep learning technologies -- a tiered approach ( http://arxiv.org/abs/2401.17759v4 )

ライセンス: Link先を確認
Nadiia Kopiika, Andreas Karavias, Pavlos Krassakis, Zehao Ye, Jelena Ninic, Nataliya Shakhovska, Nikolaos Koukouzas, Sotirios Argyroudis, Stergios-Aristoteles Mitoulis, (参考訳) 交通網や橋梁などの重要なインフラは、戦争中に体系的に標的にされ、人や商品の接続や輸送に不可欠であるため、大規模な自然災害で被害を受け、国内外の経済成長を支えている。 輸送資産の大量破壊は、自然災害や人為的災害によるアクセシビリティの低下と相まって、迅速な回復と適応を妨げます。 その結果、システム的操作性が大幅に低下し、レジリエンスのレベルが低下する。 そのため, 早期評価の必要性が指摘され, 早期評価の必要性が指摘された。 この課題の解決策は、スタンドオフ観察を可能にする技術を使用することである。 それでも、地域(例えば、ネットワーク)、資産(eg、ブリッジ)、構造(eg、道路舗装)など、複数スケールで損傷を自動評価する方法は存在しない。 本稿では,この能力ギャップを埋めるために,統合的,マルチスケールな階層化アプローチに基づく方法論を提案する。 そこで本研究では、適合型デジタル技術により、自動損傷特性化を実現する方法を示す。 次に、ウクライナにおける17本の橋を含むケーススタディに適用し、検証する。 地域規模からコンポーネント規模まで,センチネル-1 SAR画像,クラウドソーシング情報,高解像度画像による評価を統合し,損傷の自動検出とキャラクタリゼーションを実現する。 画像の干渉的コヒーレンス差とセマンティックセグメンテーションを階層的マルチスケールで展開し、異なるスケールでの損傷特性の信頼性を向上させる。

Critical infrastructure, such as transport networks and bridges, are systematically targeted during wars and suffer damage during extensive natural disasters because it is vital for enabling connectivity and transportation of people and goods, and hence, underpins national and international economic growth. Mass destruction of transport assets, in conjunction with minimal or no accessibility in the wake of natural and anthropogenic disasters, prevents us from delivering rapid recovery and adaptation. As a result, systemic operability is drastically reduced, leading to low levels of resilience. Thus, there is a need for rapid assessment of its condition to allow for informed decision-making for restoration prioritisation. A solution to this challenge is to use technology that enables stand-off observations. Nevertheless, no methods exist for automated characterisation of damage at multiple scales, i.e. regional (e.g., network), asset (e.g., bridges), and structural (e.g., road pavement) scales. We propose a methodology based on an integrated, multi-scale tiered approach to fill this capability gap. In doing so, we demonstrate how automated damage characterisation can be enabled by fit-for-purpose digital technologies. Next, the methodology is applied and validated to a case study in Ukraine that includes 17 bridges, damaged by human targeted interventions. From regional to component scale, we deploy technology to integrate assessments using Sentinel-1 SAR images, crowdsourced information, and high-resolution images for deep learning to facilitate automatic damage detection and characterisation. For the first time, the interferometric coherence difference and semantic segmentation of images were deployed in a tiered multi-scale approach to improve the reliability of damage characterisations at different scales.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 自律走査型プローブ顕微鏡における初期選択と初期介入が学習ダイナミクスに及ぼす影響について

Unraveling the Impact of Initial Choices and In-Loop Interventions on Learning Dynamics in Autonomous Scanning Probe Microscopy ( http://arxiv.org/abs/2402.00071v2 )

ライセンス: Link先を確認
Boris N. Slautin, Yongtao Liu, Hiroshi Funakubo, Sergei V. Kalinin, (参考訳) 自律実験(AE)の現在の焦点は、AEを効果的に実行する堅牢なワークフローの開発にある。 これには、ハイパーパラメータチューニングの戦略やワークフローループ内の高レベルな人間の介入など、AEプロセスをガイドするための明確に定義されたアプローチの必要性が伴います。 本稿では、走査型プローブ顕微鏡におけるAE領域におけるDeep Kernel Learning(DKL)の学習ダイナミクスに対する初期実験条件とループ内介入の影響を包括的に分析する。 本研究では,最初の実験装置がその後の学習軌跡に大きな影響を与える「シードエフェクト」の概念を探求する。 さらに,AEにおけるシードポイント介入のアプローチを導入し,オペレーターが探索プロセスに影響を及ぼすようにした。 PbTiO3薄膜上のPiezoresponse Force Microscopy (PFM) のデータセットを用いて、DKLの材料特性予測における「シード効果」と「インループシード介入」の影響について述べる。 本研究は,学習率の最適化と自動材料評価の効率化における初期選択と適応的介入の重要性を強調した。 この研究は、顕微鏡でより堅牢で効果的なAEワークフローを設計し、様々なキャラクタリゼーション技術にまたがる潜在的な応用について、貴重な洞察を提供する。 この資金調達をサポートする分析コードはhttps://github.com/Slautin/2024_Seed_effect_DKL_BOで公開されている。

The current focus in Autonomous Experimentation (AE) is on developing robust workflows to conduct the AE effectively. This entails the need for well-defined approaches to guide the AE process, including strategies for hyperparameter tuning and high-level human interventions within the workflow loop. This paper presents a comprehensive analysis of the influence of initial experimental conditions and in-loop interventions on the learning dynamics of Deep Kernel Learning (DKL) within the realm of AE in Scanning Probe Microscopy. We explore the concept of 'seed effect', where the initial experiment setup has a substantial impact on the subsequent learning trajectory. Additionally, we introduce an approach of the seed point interventions in AE allowing the operator to influence the exploration process. Using a dataset from Piezoresponse Force Microscopy (PFM) on PbTiO3 thin films, we illustrate the impact of the 'seed effect' and in-loop seed interventions on the effectiveness of DKL in predicting material properties. The study highlights the importance of initial choices and adaptive interventions in optimizing learning rates and enhancing the efficiency of automated material characterization. This work offers valuable insights into designing more robust and effective AE workflows in microscopy with potential applications across various characterization techniques. The analysis code that supports the funding is publicly available at https://github.com/Slautin/2024_Seed_effect_DKL_BO.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# ニューラルスケーリング法則の動的モデル

A Dynamical Model of Neural Scaling Laws ( http://arxiv.org/abs/2402.01092v2 )

ライセンス: Link先を確認
Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan, (参考訳) さまざまなタスクにおいて、ニューラルネットワークのパフォーマンスは、トレーニング時間、データセットサイズ、モデルサイズをさまざまな桁にわたって予測的に改善する。 この現象は神経スケーリング法則として知られている。 基本的重要性は計算最適スケーリング法であり、モデルサイズを最適に選択する際に計算単位の関数として性能を報告する。 ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。 これは、ニューラルスケーリング法則に関する多くの観察を再現する。 まず,本モデルでは,トレーニング時間とモデルサイズの違いによるパフォーマンスのスケーリングが,異なる法則指数を持つ理由を予測した。 その結果、この理論は、最近の経験的観測と一致して、トレーニングステップの数がモデルパラメータよりも速く増加する非対称な計算-最適スケーリングルールを予測する。 第二に、トレーニングの早い段階でネットワークは1/\textit{width}$で無限幅のダイナミクスに収束するが、遅くとも$\textit{width}^{-c}$はアーキテクチャやタスクの構造に依存する。 私たちはこの行動を示すモデルを示します。 最後に、我々の理論は、データの繰り返し再利用によって、トレーニングとテストの損失のギャップが徐々に増大することを示している。

On a variety of tasks, the performance of neural networks predictably improves with training time, dataset size and model size across many orders of magnitude. This phenomenon is known as a neural scaling law. Of fundamental importance is the compute-optimal scaling law, which reports the performance as a function of units of compute when choosing model sizes optimally. We analyze a random feature model trained with gradient descent as a solvable model of network training and generalization. This reproduces many observations about neural scaling laws. First, our model makes a prediction about why the scaling of performance with training time and with model size have different power law exponents. Consequently, the theory predicts an asymmetric compute-optimal scaling rule where the number of training steps are increased faster than model parameters, consistent with recent empirical observations. Second, it has been observed that early in training, networks converge to their infinite-width dynamics at a rate $1/\textit{width}$ but at late time exhibit a rate $\textit{width}^{-c}$, where $c$ depends on the structure of the architecture and task. We show that our model exhibits this behavior. Lastly, our theory shows how the gap between training and test loss can gradually build up over time due to repeated reuse of data.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 検証回路の再利用による言語モデルの信頼度向上

Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v3 )

ライセンス: Link先を確認
Philip Quirke, Clement Neo, Fazl Barez, (参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。 ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。 数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。 本稿では,n桁整数加算モデルを完全に検証する。 検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをトレーニングされていないモデルに挿入し、組み合わせたモデルで加算と減算の両方を行うように訓練する。 両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。 本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。 検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# 変化検出現実チェック

A Change Detection Reality Check ( http://arxiv.org/abs/2402.06994v2 )

ライセンス: Link先を確認
Isaac Corley, Caleb Robinson, Anthony Ortiz, (参考訳) 近年,遠隔センシング文献における変化検出深層学習アーキテクチャの提案が爆発的に増えている。 これらのアプローチは、異なる標準ベンチマークデータセットに対して最先端のパフォーマンスを提供すると主張している。 しかし、この分野は本当に大きな進歩を遂げたのだろうか? 本稿では,簡単なU-Netセグメンテーションベースラインをトレーニングのトリックや複雑なアーキテクチャ変更なしに結論付ける実験を行う。

In recent years, there has been an explosion of proposed change detection deep learning architectures in the remote sensing literature. These approaches claim to offer state-of-the-art performance on different standard benchmark datasets. However, has the field truly made significant progress? In this paper we perform experiments which conclude a simple U-Net segmentation baseline without training tricks or complicated architectural changes is still a top performer for the task of change detection.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# タナーグラフの再帰的拡張-高い符号化率で安定化器符号を構築する方法

Recursive expansion of Tanner graph: a method to construct stabilizer codes with high coding rate ( http://arxiv.org/abs/2402.07823v2 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Zicheng Wang, Jiahan Chen, Chen Qiu, Yulin Wu, Xuan Wang, (参考訳) 量子安定化器符号は符号化レートの低い問題に直面している。 本稿では,先程の論文で提案した再帰的にTannerグラフを拡張した上で,高い符号化率で新たな安定化器符号を構築し,XZ型Tanner-graph-recursive-expansion(XZ-TGRE)符号とTanner-graph-recursive-expansion hypergraph product(TGRE-HP)符号を提案する。 XZ-TGRE符号は漸近的な符号速度がゼロであるが、符号長の増加とともに符号速度が極端に遅くなる傾向にある。 同じコード長で、そのコードレートは表面コードよりもはるかに高い。 TGRE-HP の符号化速度は 0.2 である。 XZ-TGRE符号の符号距離は$O(log(N))$であり、TGRE-HP符号の符号距離は$O(\log \sqrt{N})$である。 さらに、XZ-TGRE符号の符号容量ノイズ閾値は約0.078であり、TGRE-HP符号の符号容量は0.096である。 この記事では、再帰的に拡張するタナーグラフのアイデアが、優れた性能で量子コードを構築する可能性を持っていることを示す。

Quantum stabilizer codes face the problem of low coding rate. In this article, following the idea of recursively expanding Tanner graph proposed in our previous work, we try to construct new stabilizer codes with high coding rate, and propose XZ-type Tanner-graph-recursive-expansion (XZ-TGRE) code and Tanner-graph-recursive-expansion hypergraph product (TGRE-HP) code. XZ-TGRE code have zero asymptotic coding rate, but its coding rate tends to zero extremely slowly with the growth of code length. Under the same code length, its coding rate is much higher than that of surface code. The coding rate of TGRE-HP is the constant 0.2, which is the highest constant coding rate of stabilizer codes to our best knowledge. We prove that the code distance of XZ-TGRE code scales as $O(log(N))$, and that of TGRE-HP code scales as $O(\log \sqrt{N})$, where $N$ is the code length. Moreover, the code capacity noise threshold of XZ-TGRE code is around 0.078, and that of TGRE-HP code is around 0.096. This articles shows that the idea of recursively expanding Tanner graph might have potential to construct quantum codes with good performance.
翻訳日:2024-04-15 19:16:06 公開日:2024-04-12
# コントラストプレトレーニングによるコメント支援型ビデオ言語アライメントによる短時間ビデオヒューム検出

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection ( http://arxiv.org/abs/2402.09055v2 )

ライセンス: Link先を確認
Yang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li, Guodong Zhou, (参考訳) 感情コンピューティングにおけるマルチモーダルなユーモア検出の重要性の高まりは、ソーシャルメディアプラットフォームにおけるショートフォームビデオ共有の影響の増大と相関している。 本稿では,データ拡張型マルチモーダルコントラスト事前学習により,SVHD(Commitment-aided Video-Language Alignment, CVLA)という2分岐階層モデルを提案する。 特に、CVLAは、様々なモーダルチャネルをまたいだ生信号を操作するだけでなく、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させることにより、適切なマルチモーダル表現を生成する。 DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端といくつかの競合するベースラインアプローチを劇的に上回っていることを示している。 データセット、コード、モデルリリースは、https://github.com/yliu-cs/CVLA。

The growing importance of multi-modal humor detection within affective computing correlates with the expanding influence of short-form video sharing on social media platforms. In this paper, we propose a novel two-branch hierarchical model for short-form video humor detection (SVHD), named Comment-aided Video-Language Alignment (CVLA) via data-augmented multi-modal contrastive pre-training. Notably, our CVLA not only operates on raw signals across various modal channels but also yields an appropriate multi-modal representation by aligning the video and language components within a consistent semantic space. The experimental results on two humor detection datasets, including DY11k and UR-FUNNY, demonstrate that CVLA dramatically outperforms state-of-the-art and several competitive baseline approaches. Our dataset, code and model release at https://github.com/yliu-cs/CVLA.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 推論的資源セマンティクス

Inferentialist Resource Semantics ( http://arxiv.org/abs/2402.09217v4 )

ライセンス: Link先を確認
Alexander V. Gheorghiu, Tao Gu, David J. Pym, (参考訳) システムモデリングでは、システムは典型的にどのプロセスが実行されるかを示すリソースから構成される。 情報学における論理学の重要な用途の1つは、それらの振る舞いと性質を推論(おそらく自動化)するためにそのようなシステムをモデル化することである。 この目的のために、システムの資源と状態の観点から論理式を解釈する必要がある;そのような解釈は論理の資源意味論と呼ばれる。 本稿では、推論的行動の観点から意味が与えられるという推論主義が、資源意味論の汎用的で表現力豊かな枠組みをいかに実現しているかを示す。 特に、推論主義は、バンドル・インプリケーションの論理のアサーションに基づくアプローチ、プログラム検証の基礎(例えば、分離論理の基礎)、線形論理の有名な使用数を読むことをシームレスに取り入れている。 この統合により、共有および分離されたリソースを直感的で親しみやすい方法で推論できるだけでなく、システムコンポーネントの構成とインターフェースについても推論できる。

In systems modelling, a system typically comprises located resources relative to which processes execute. One important use of logic in informatics is in modelling such systems for the purpose of reasoning (perhaps automated) about their behaviour and properties. To this end, one requires an interpretation of logical formulae in terms of the resources and states of the system; such an interpretation is called a resource semantics of the logic. This paper shows how inferentialism -- the view that meaning is given in terms of inferential behaviour -- enables a versatile and expressive framework for resource semantics. Specifically, how inferentialism seamlessly incorporates the assertion-based approach of the logic of Bunched Implications, foundational in program verification (e.g., as the basis of Separation Logic), and the renowned number-of-uses reading of Linear Logic. This integration enables reasoning about shared and separated resources in intuitive and familiar ways, as well as about the composition and interfacing of system components.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 米国における条件付き自動走行車の公的な受容度評価

Gauging Public Acceptance of Conditionally Automated Vehicles in the United States ( http://arxiv.org/abs/2402.11444v2 )

ライセンス: Link先を確認
Antonios Saravanos, Eleftheria K. Pissadaki, Wayne S. Singh, Donatella Delfino, (参考訳) 条件付き自動車両の公的な受容は、スマートシティの実現における重要なステップである。 ヨーロッパでの先行研究は、重要度の減少、影響受容におけるヘドニック・モチベーション、社会的影響、パフォーマンス期待の要因が示されている。 さらに、この技術に対する概して肯定的な受容が報告された。 しかし、米国では、条件付き自動車両が一般に受け入れられることに関する情報が不足している。 本研究では,この技術に関する情報を参加者が提供し,その知覚に関するアンケートを完了したWebベースの実験を行った。 収集したデータはPLS-SEMを用いて分析され、米国でこの技術が一般に受け入れられる可能性のある要因を調査した。 その結果, 社会的影響, 性能期待, 努力期待, ヘドニック・モチベーション, ファシリテート条件が, 条件付き自動車両の受け入れを決定することがわかった。 さらに、特定の要因が、この技術がどれほど有用であるか、それを使うのに必要な労力、そしてその使用の促進条件に影響を及ぼすことがわかった。 この研究から得られた知見を統合することで、ステークホルダーは自動運転車技術の採用をより促進し、スマートシティのビジョンの実現に役立つ、より安全で効率的でユーザフレンドリーな交通システムに寄与することができる。

Public acceptance of conditionally automated vehicles is a crucial step in the realization of smart cities. Prior research in Europe has shown that the factors of hedonic motivation, social influence, and performance expectancy, in decreasing order of importance, influence acceptance. Moreover, a generally positive acceptance of the technology was reported. However, there is a lack of information regarding the public acceptance of conditionally automated vehicles in the United States. In this study, we carried out a web-based experiment where participants were provided information regarding the technology and then completed a questionnaire on their perceptions. The collected data was analyzed using PLS-SEM to examine the factors that may lead to public acceptance of the technology in the United States. Our findings showed that social influence, performance expectancy, effort expectancy, hedonic motivation, and facilitating conditions determine conditionally automated vehicle acceptance. Additionally, certain factors were found to influence the perception of how useful the technology is, the effort required to use it, and the facilitating conditions for its use. By integrating the insights gained from this study, stakeholders can better facilitate the adoption of autonomous vehicle technology, contributing to safer, more efficient, and user-friendly transportation systems in the future that help realize the vision of the smart city.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# マルチサイズ画像の分類のための新しいフーリエニューラル演算子フレームワーク:3次元ディジタル多孔質媒体への応用

A novel Fourier neural operator framework for classification of multi-sized images: Application to three dimensional digital porous media ( http://arxiv.org/abs/2402.11568v2 )

ライセンス: Link先を確認
Ali Kashefi, Tapan Mukerji, (参考訳) フーリエニューラル演算子(FNO)は入力画像のサイズに関して不変であるため、従来の畳み込みニューラルネットワーク(CNN)とは対照的に、任意の大きさの画像をネットワークアーキテクチャの変更なしにFNOベースのフレームワークに入力することができる。 FNOの利点を生かして,様々な大きさの画像を分類する新しいディープラーニングフレームワークを提案する。 特に,マルチサイズの画像上で,提案するネットワークを同時に訓練する。 本稿では,3次元多孔質媒体のラベル(透過性など)の予測問題について検討する。 このフレームワークを構築するための直感的なアプローチは、適応的な最大プーリングを用いてFNO層を分類器に接続することである。 まず, 一定サイズを有する多孔質媒体に対してのみ有効であり, 異なるサイズを有する多孔質媒体に対して有効であることを示す。 この制限を克服するため,我々は適応的な最大プールを使用する代わりに,FNO層のチャネル幅の大きい静的最大プールを使用する。 FNO層のチャネル幅は入力画像サイズとは無関係であるため、導入したフレームワークはトレーニング中にマルチサイズの画像を処理できる。 導入したフレームワークの有効性を示し、様々な大きさの3次元デジタル多孔質媒体の分類例を例に、直感的な手法と比較する。

Fourier neural operators (FNOs) are invariant with respect to the size of input images, and thus images with any size can be fed into FNO-based frameworks without any modification of network architectures, in contrast to traditional convolutional neural networks (CNNs). Leveraging the advantage of FNOs, we propose a novel deep-learning framework for classifying images with varying sizes. Particularly, we simultaneously train the proposed network on multi-sized images. As a practical application, we consider the problem of predicting the label (e.g., permeability) of three-dimensional digital porous media. To construct the framework, an intuitive approach is to connect FNO layers to a classifier using adaptive max pooling. First, we show that this approach is only effective for porous media with fixed sizes, whereas it fails for porous media of varying sizes. To overcome this limitation, we introduce our approach: instead of using adaptive max pooling, we use static max pooling with the size of channel width of FNO layers. Since the channel width of the FNO layers is independent of input image size, the introduced framework can handle multi-sized images during training. We show the effectiveness of the introduced framework and compare its performance with the intuitive approach through the example of the classification of three-dimensional digital porous media of varying sizes.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# Ising Modelの機械学習ソリューションの説明

Explaining the Machine Learning Solution of the Ising Model ( http://arxiv.org/abs/2402.11701v2 )

ライセンス: Link先を確認
Roberto C. Alamino, (参考訳) 機械学習(ML)技術と同様に、大きな次元を持つデータに関わる問題を解く上でも強力であり、パラメータを組み込んだ結果を説明することは、特に物理学的な応用において最も重要な課題である。 この研究は、統計物理学におけるいくつかのML研究の主要なターゲットである強磁性イジングモデルに対して、どのようにこれを達成できるかを示す。 ここでは、主成分分析による位相と秩序パラメータの教師なし同定が成功し、スピンごとの磁化が相転移の実際の制御パラメータである温度に最も大きな変化があることを検出する。 次に、隠れた層を持たないニューラルネットワーク(NN)を用いて、ハミルトンの対称性によって情報を伝達することにより、モデルの連続相転移臨界温度に対する教師付き学習解を見つけるための戦略について説明する。 これにより、対称性が分かっていない場合、NNの最小拡張の予測が解ける。 これらの結果は、物理インフォームドされた説明可能な一般化されたフレームワークへの道を開き、モデルのパラメータから物理法則と原理を抽出することができる。

As powerful as machine learning (ML) techniques are in solving problems involving data with large dimensionality, explaining the results from the fitted parameters remains a challenging task of utmost importance, especially in physics applications. This work shows how this can be accomplished for the ferromagnetic Ising model, the main target of several ML studies in statistical physics. Here it is demonstrated that the successful unsupervised identification of the phases and order parameter by principal component analysis, a common method in those studies, detects that the magnetization per spin has its greatest variation with the temperature, the actual control parameter of the phase transition. Then, by using a neural network (NN) without hidden layers (the simplest possible) and informed by the symmetry of the Hamiltonian, an explanation is provided for the strategy used in finding the supervised learning solution for the critical temperature of the model's continuous phase transition. This allows the prediction of the minimal extension of the NN to solve the problem when the symmetry is not known, which becomes also explainable. These results pave the way to a physics-informed explainable generalized framework, enabling the extraction of physical laws and principles from the parameters of the models.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation (英語)

UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation ( http://arxiv.org/abs/2402.12730v2 )

ライセンス: Link先を確認
Shubhashis Roy Dipta, Sai Vallurupalli, (参考訳) SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages" の目的は、複数の言語(アフリカ語とアジア語)とセッティング(教師なし、教師なし、言語横断)を用いて2つの文間の意味的テキスト関連性(STR)を特定するモデルを開発することである。 大規模言語モデル(LLM)は、多言語機械翻訳(MMT)、意味的類似性(STS)、文埋め込みの符号化など、いくつかの自然言語理解タスクにおいて顕著なパフォーマンスを示している。 これらのタスクでうまく機能するLLMの組み合わせを使用して、教師付きおよび言語間設定のために、$\textit{TranSem}$と$\textit{FineSem}$という2つのSTRモデルを開発した。 本稿では,いくつかの学習手法の有効性と機械翻訳の有用性について検討する。 このタスクを直接微調整することは、文の埋め込みや英語への翻訳に匹敵するもので、一部の言語では性能が向上する。 教師付き設定では、モデルパフォーマンスは3言語の公式ベースラインよりも優れており、残りの4言語は同等である。 言語横断的な設定では、私たちのモデルパフォーマンスは、3つの言語のベースライン(アフリカ語で1^{st}$place、インドネシア語で2^{nd}$ place)よりも優れています。 私たちのコードはhttps://github.com/dipta007/SemEval24-Task8.comで公開されています。

The aim of SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages" is to develop models for identifying semantic textual relatedness (STR) between two sentences using multiple languages (14 African and Asian languages) and settings (supervised, unsupervised, and cross-lingual). Large language models (LLMs) have shown impressive performance on several natural language understanding tasks such as multilingual machine translation (MMT), semantic similarity (STS), and encoding sentence embeddings. Using a combination of LLMs that perform well on these tasks, we developed two STR models, $\textit{TranSem}$ and $\textit{FineSem}$, for the supervised and cross-lingual settings. We explore the effectiveness of several training methods and the usefulness of machine translation. We find that direct fine-tuning on the task is comparable to using sentence embeddings and translating to English leads to better performance for some languages. In the supervised setting, our model performance is better than the official baseline for 3 languages with the remaining 4 performing on par. In the cross-lingual setting, our model performance is better than the baseline for 3 languages (leading to $1^{st}$ place for Africaans and $2^{nd}$ place for Indonesian), is on par for 2 languages and performs poorly on the remaining 7 languages. Our code is publicly available at https://github.com/dipta007/SemEval24-Task8.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# マルチカット多面体の箱面と切削面

Box Facets and Cut Facets of Lifted Multicut Polytopes ( http://arxiv.org/abs/2402.16814v3 )

ライセンス: Link先を確認
Lucas Fabian Naumann, Jannik Irmai, Shengxian Zhao, Bjoern Andres, (参考訳) 持ち上げマルチカット問題は、グラフ $G = (V, E)$ の分解に 1 対 1 の可能な解を関連付ける組合せ最適化問題である。 augmentation $\widehat{G} = (V, E \cup F)$ of $G$ と与えられたコスト $c \in \mathbb{R}^{E \cup F}$ を与えられた場合、その$c_{uw}$ の和を $uw \in E \cup F$ で最小化することが目的である。 F = \emptyset$ の場合、問題はマルチカット問題に特化し、$E = \tbinom{V}{2}$ の場合はクリッド分割問題に特化する。 昇降型マルチカット問題の線形プログラム定式化について検討する。 より具体的には、我々は、関連する持ち上げマルチカットポリトープの分析に寄与する: まず、ファセットを定義するために、下位ボックスの不等式に必要な十分かつ効率的に決定可能な条件を確立する。 第二に、二項線形プログラムのカット不等式がファセットを定義するかどうかを決定することはNPハードであることを示す。

The lifted multicut problem is a combinatorial optimization problem whose feasible solutions relate one-to-one to the decompositions of a graph $G = (V, E)$. Given an augmentation $\widehat{G} = (V, E \cup F)$ of $G$ and given costs $c \in \mathbb{R}^{E \cup F}$, the objective is to minimize the sum of those $c_{uw}$ with $uw \in E \cup F$ for which $u$ and $w$ are in distinct components. For $F = \emptyset$, the problem specializes to the multicut problem, and for $E = \tbinom{V}{2}$ to the clique partitioning problem. We study a binary linear program formulation of the lifted multicut problem. More specifically, we contribute to the analysis of the associated lifted multicut polytopes: Firstly, we establish a necessary, sufficient and efficiently decidable condition for a lower box inequality to define a facet. Secondly, we show that deciding whether a cut inequality of the binary linear program defines a facet is NP-hard.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# クロスプロブレムゼロショット一般化を用いたルーティング問題に対するマルチタスク学習

Multi-Task Learning for Routing Problem with Cross-Problem Zero-Shot Generalization ( http://arxiv.org/abs/2402.16891v2 )

ライセンス: Link先を確認
Fei Liu, Xi Lin, Zhenkun Wang, Qingfu Zhang, Xialiang Tong, Mingxuan Yuan, (参考訳) 車両ルーティング問題(VRPs)は、何十年もの間、重要な研究課題であった。 近年,手動アルゴリズム設計なしでVRPを解く学習モデルを活用したニューラル組合せ最適化(NCO)アプローチが注目されている。 しかし、現在のNCO手法では、ルーティング問題に対して1つのモデルを構築する必要があり、様々な特性を持つ現実の産業問題に対する実践的応用を著しく妨げている。 本研究では,クロスプロブレム一般化という重要な課題に取り組むための最初の試みを行う。 特に,共有属性の異なる組み合わせとしてVRPを定式化し,属性合成を通じて単一モデルを用いて同時に解決する。 このようにして、提案モデルは、ゼロショットの一般化方式で、見当たらない属性の組み合わせで、VRPをうまく解くことができる。 大規模な実験は、11のVRP変種、ベンチマークデータセット、業界ロジスティックシナリオで実施されている。 その結果,11個のVRPにおいて統合モデルは優れた性能を示し,既存のアプローチの20%以上から平均的なギャップを約5%削減し,ベンチマークデータセットや実世界のロジスティクスアプリケーション上での大幅なパフォーマンス向上を実現した。 ソースコードはhttps://github.com/FeiLiu36/MTNCOに含まれる。

Vehicle routing problems (VRPs), which can be found in numerous real-world applications, have been an important research topic for several decades. Recently, the neural combinatorial optimization (NCO) approach that leverages a learning-based model to solve VRPs without manual algorithm design has gained substantial attention. However, current NCO methods typically require building one model for each routing problem, which significantly hinders their practical application for real-world industry problems with diverse attributes. In this work, we make the first attempt to tackle the crucial challenge of cross-problem generalization. In particular, we formulate VRPs as different combinations of a set of shared underlying attributes and solve them simultaneously via a single model through attribute composition. In this way, our proposed model can successfully solve VRPs with unseen attribute combinations in a zero-shot generalization manner. Extensive experiments are conducted on eleven VRP variants, benchmark datasets, and industry logistic scenarios. The results show that the unified model demonstrates superior performance in the eleven VRPs, reducing the average gap to around 5% from over 20% in the existing approach and achieving a significant performance boost on benchmark datasets as well as a real-world logistics application. The source code is included in https://github.com/FeiLiu36/MTNCO.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 再表現: LLM 応答における実誤差を低減した説明後の修正

Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses ( http://arxiv.org/abs/2402.17097v2 )

ライセンス: Link先を確認
Juyeon Kim, Jeongeun Lee, Yoonho Chang, Chanyeol Choi, Junseong Kim, Jy-yong Sohn, (参考訳) 幻覚の問題を緩和することは、現実のシナリオで大きな言語モデル(LLM)を確実にデプロイするために克服しなければならない重要な課題である。 近年,幻覚の低減を目的として,LLM生成テキストの事実誤りの検出と修正を行う手法が提案されている。 本稿では,LLM生成応答を後編集するRe-Exを提案する。 Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。 第1に,第1に,第1に,第1に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第3に,第2に,第2に,第2に,第2に,第2に,第2に,第3に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第2に,第3に,第2に,第2に,第2に,第3に,第2に,第3に,第3に,第2に,第2に,第2に,第2に,第2に,第3で,第2に,第3に,第2に,第2に,第2に,第3に,第2に,第2に,第2に,第2に,第2に,第2 説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。 FacTool、CoVE、RARRといった既存の方法と比較して、Re-Exは推論時間が少なく、複数のベンチマークでトークンが少なく、より優れた検出とリビジョンのパフォーマンスを提供する。

Mitigating hallucination issues is a key challenge that must be overcome to reliably deploy large language models (LLMs) in real-world scenarios. Recently, various methods have been proposed to detect and revise factual errors in LLM-generated texts, in order to reduce hallucination. In this paper, we propose Re-Ex, a method for post-editing LLM-generated responses. Re-Ex introduces a novel reasoning step dubbed as the factual error explanation step. Re-Ex revises the initial response of LLMs using 3-steps : first, external tools are used to retrieve the evidences of the factual errors in the initial LLM response; next, LLM is instructed to explain the problematic parts of the response based on the gathered evidence; finally, LLM revises the initial response using the explanations provided in the previous step. In addition to the explanation step, Re-Ex also incorporates new prompting techniques to reduce the token count and inference time required for the response revision process. Compared with existing methods including FacTool, CoVE, and RARR, Re-Ex provides better detection and revision performance with less inference time and fewer tokens in multiple benchmarks.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 理論に依存しない実在論

Theory-Independent Realism ( http://arxiv.org/abs/2402.17123v2 )

ライセンス: Link先を確認
D. M. Fucci, R. M. Angelo, (参考訳) 他の物理理論と区別できる量子力学の特徴は、現実主義の概念に挑戦するものである。 純粋に哲学的な根拠からリアリズムを回復させることにより、過去には量的かつ運用的な基準が提案されたが、単に量子力学の文脈だけのために提案された。 我々は、一般化確率論の枠組みを用いて、理論に依存しない文脈におけるリアリズムの概念を拡張し、測定結果に割り当てられた確率に基づいて一意に基準を与える。 より詳しくは、ロバストネスとクルバック・リーバーの発散を利用して、一般物理理論の特定の状態が与えられた任意の物理的性質の写実性に対する量化器を提案する。 これらの理論に依存しない量子化器は量子力学で使われ、他の確立された非存在論測度との関係について検討する。

The distinctive features of quantum mechanics, which set it apart from other physical theories, challenge our notions of realism. Recovering realism from purely philosophical grounds, a quantitative and operational criterion was proposed in the past, but solely for the context of quantum mechanics. We use a framework of generalized probabilistic theories to expand the notion of realism for a theory-independent context, providing a criterion uniquely based on the probabilities assigned to measurement outcomes. More so, using robustness and the Kullback-Leibler divergence, we propose quantifiers for the realism of arbitrary physical properties given a particular state of a generic physical theory. These theory-independent quantifiers are then employed in quantum mechanics and we investigate their relation with another well-established irrealism measure.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 多分ロバストなDPO:ノイズフィードバックを伴う言語モデルの調整

Provably Robust DPO: Aligning Language Models with Noisy Feedback ( http://arxiv.org/abs/2403.00409v2 )

ライセンス: Link先を確認
Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan, (参考訳) 嗜好に基づくフィードバックから学ぶことは、言語モデルと人間の関心を結びつけるための有望なアプローチとして、最近注目を集めている。 これらの整列生成モデルは、様々なタスクにまたがる印象的な能力を示しているが、高品質な人間の嗜好データへの依存は、実用的な応用においてボトルネックとなる。 具体的には、データセット内のノイズ(不正で曖昧な)選好ペアは、言語モデルが人間の意図を正確にキャプチャすることを制限する可能性がある。 実践者は近年、雑音の好みの影響を緩和するヒューリスティックスを提案しているが、彼らの仕事に関する完全な理論的理解はいまだに解明されていない。 本研究では、ランダムな選好フリップの存在下でポリシー最適化のための一般的な枠組みを導入することにより、このギャップを埋めることを目的とする。 特に、Bradley-Terry-Luce (BTL) モデルに優先権が従うことを前提としたDPOアルゴリズムに注目し、ノイズの多いデータが学習ポリシーに与える影響に関する懸念を提起する。 本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。 政策クラスのログ線形パラメータ化と、SFTポリシーの優れた特徴カバレッジを仮定すると、提案されたロバストDPO(rDPO)ポリシーの最適ポリシーに対する準最適ギャップは、$O(\frac{1}{1-2\epsilon}\sqrt {\frac{d}{n}})$、$\epsilon < 1/2$はラベルのフリップレート、$d$はポリシーパラメータ寸法、$n$はデータセットのサイズである。 IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO や実践者が提案した他のヒューリスティックと比較して,選好ラベルのノイズに対して頑健であることが示された。

Learning from preference-based feedback has recently gained traction as a promising approach to align language models with human interests. While these aligned generative models have demonstrated impressive capabilities across various tasks, their dependence on high-quality human preference data poses a bottleneck in practical applications. Specifically, noisy (incorrect and ambiguous) preference pairs in the dataset might restrict the language models from capturing human intent accurately. While practitioners have recently proposed heuristics to mitigate the effect of noisy preferences, a complete theoretical understanding of their workings remain elusive. In this work, we aim to bridge this gap by by introducing a general framework for policy optimization in the presence of random preference flips. We focus on the direct preference optimization (DPO) algorithm in particular since it assumes that preferences adhere to the Bradley-Terry-Luce (BTL) model, raising concerns about the impact of noisy data on the learned policy. We design a novel loss function, which de-bias the effect of noise on average, making a policy trained by minimizing that loss robust to the noise. Under log-linear parameterization of the policy class and assuming good feature coverage of the SFT policy, we prove that the sub-optimality gap of the proposed robust DPO (rDPO) policy compared to the optimal policy is of the order $O(\frac{1}{1-2\epsilon}\sqrt{\frac{d}{n}})$, where $\epsilon < 1/2$ is flip rate of labels, $d$ is policy parameter dimension and $n$ is size of dataset. Our experiments on IMDb sentiment generation and Anthropic's helpful-harmless dataset show that rDPO is robust to noise in preference labels compared to vanilla DPO and other heuristics proposed by practitioners.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# DUFOMap: 効率的なダイナミックアウェアネスマッピング

DUFOMap: Efficient Dynamic Awareness Mapping ( http://arxiv.org/abs/2403.01449v2 )

ライセンス: Link先を確認
Daniel Duberg, Qingwen Zhang, MingKai Jia, Patric Jensfelt, (参考訳) 現実世界のダイナミックな性質は、ロボット工学における大きな課題の1つだ。 それを扱う最初のステップは、世界のどの部分がダイナミックかを検出することです。 典型的なベンチマークタスクは、例えばローカライゼーションとプランニングをサポートする、世界の静的部分のみを含むマップを作成することである。 現在のソリューションは後処理によく適用され、パラメータチューニングによって特定のデータセットの設定を調整することができる。 本稿では,効率的なオンライン処理を目的とした動的認識マッピングフレームワークであるDUFOMapを提案する。 すべてのシナリオで同じパラメータ設定を持つにもかかわらず、パフォーマンスは向上し、最先端のメソッドと同等である。 レイキャスティングは、完全に観察された空の領域を識別し分類するために用いられる。 これらの領域は空で観測されているため、その中の任意の領域は動的でなければならない。 KITTIとArgoverse 2の屋外環境やKTHキャンパスのオープンエリア,センサタイプなど,さまざまなシナリオで評価が行われている。 DUFOMapは精度と計算効率の点で最先端の性能を誇っている。 使用したデータセットのソースコード、ベンチマーク、リンクが提供される。 詳細はhttps://kth-rpl.github.io/dufomapを参照。

The dynamic nature of the real world is one of the main challenges in robotics. The first step in dealing with it is to detect which parts of the world are dynamic. A typical benchmark task is to create a map that contains only the static part of the world to support, for example, localization and planning. Current solutions are often applied in post-processing, where parameter tuning allows the user to adjust the setting for a specific dataset. In this paper, we propose DUFOMap, a novel dynamic awareness mapping framework designed for efficient online processing. Despite having the same parameter settings for all scenarios, it performs better or is on par with state-of-the-art methods. Ray casting is utilized to identify and classify fully observed empty regions. Since these regions have been observed empty, it follows that anything inside them at another time must be dynamic. Evaluation is carried out in various scenarios, including outdoor environments in KITTI and Argoverse 2, open areas on the KTH campus, and with different sensor types. DUFOMap outperforms the state of the art in terms of accuracy and computational efficiency. The source code, benchmarks, and links to the datasets utilized are provided. See https://kth-rpl.github.io/dufomap for more details.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 深層学習における色彩とテクスチャの歪みが地球観測データに及ぼす影響

Impacts of Color and Texture Distortions on Earth Observation Data in Deep Learning ( http://arxiv.org/abs/2403.04385v2 )

ライセンス: Link先を確認
Martin Willbo, Aleksis Pirinen, John Martinsson, Edvin Listo Zec, Olof Mogren, Mikael Nilsson, (参考訳) 土地被覆分類と変化検出は、深層学習の進歩から大きな恩恵を受けたリモートセンシングと地球観測(EO)の2つの重要な応用である。 畳み込みとトランスフォーマーベースのU-netモデルは、これらのタスクの最先端アーキテクチャであり、そのパフォーマンスは、大規模なアノテーション付きEOデータセットの可用性の向上によって向上している。 しかし、入力EOデータの異なる視覚特性がモデルの予測に与える影響はよく分かっていない。 本研究では, 入力EOデータに対する色とテクスチャに基づく歪みに対して, モデル感度を系統的に検討する。 ランドカバー分類のための複数の最先端セグメンテーションネットワークを用いて実験を行い、色歪みよりも一般的にテクスチャに敏感であることを示す。 広範に使用されている土地被覆分類モデルの興味深い特徴を明らかにすることに加えて,EO領域内でのより堅牢なモデルの開発をガイドするためにも,この結果が有効である。

Land cover classification and change detection are two important applications of remote sensing and Earth observation (EO) that have benefited greatly from the advances of deep learning. Convolutional and transformer-based U-net models are the state-of-the-art architectures for these tasks, and their performances have been boosted by an increased availability of large-scale annotated EO datasets. However, the influence of different visual characteristics of the input EO data on a model's predictions is not well understood. In this work we systematically examine model sensitivities with respect to several color- and texture-based distortions on the input EO data during inference, given models that have been trained without such distortions. We conduct experiments with multiple state-of-the-art segmentation networks for land cover classification and show that they are in general more sensitive to texture than to color distortions. Beyond revealing intriguing characteristics of widely used land cover classification models, our results can also be used to guide the development of more robust models within the EO domain.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# QAQ: LLM KVキャッシュの品質適応量子化

QAQ: Quality Adaptive Quantization for LLM KV Cache ( http://arxiv.org/abs/2403.04643v2 )

ライセンス: Link先を確認
Shichen Dong, Wen Cheng, Jiayu Qin, Wei Wang, (参考訳) LLMの出現は、特に質問応答システムやテキスト生成といった分野において、NLPアプリケーションにおける突破口の急増に火をつけた。 長いコンテキストの必要性が増大するにつれて、コンテキスト長のキーバリュー(KV)キャッシュが線形に拡張されるため、モデルデプロイメントの重大なボトルネックが発生する。 既存の方法は、KVキャッシュを圧縮し、モデルスループットを改善するために、置換や消去のために注意スコアに基づいてKVキャッシュをソートするなど、様々な仮説に依存している。 しかし、これらの戦略で使用されるヒューリスティックスは、重要なKVキャッシュを誤って排除し、モデル性能を著しく低下させる可能性がある。 本稿では,KVキャッシュの品質適応量子化方式QAQを提案する。 理論的には、鍵キャッシュと値キャッシュは量子化に対する異なる感受性を示し、不均一な量子化のための別の量子化戦略が定式化される。 専用のアウトラヤハンドリングの統合と、注意認識アプローチの改善により、QAQは、モデルパフォーマンスに無視可能な影響で、KVキャッシュサイズの最大10倍の圧縮比を達成する。 QAQは、LLMをデプロイする際の現実的なハードルを著しく減らし、より長いコンテキストアプリケーションに新たな可能性を開く。 コードはgithub.com/ClubieDong/KVCacheQuantizationで入手できる。

The emergence of LLMs has ignited a fresh surge of breakthroughs in NLP applications, particularly in domains such as question-answering systems and text generation. As the need for longer context grows, a significant bottleneck in model deployment emerges due to the linear expansion of the Key-Value (KV) cache with the context length. Existing methods primarily rely on various hypotheses, such as sorting the KV cache based on attention scores for replacement or eviction, to compress the KV cache and improve model throughput. However, heuristics used by these strategies may wrongly evict essential KV cache, which can significantly degrade model performance. In this paper, we propose QAQ, a Quality Adaptive Quantization scheme for the KV cache. We theoretically demonstrate that key cache and value cache exhibit distinct sensitivities to quantization, leading to the formulation of separate quantization strategies for their non-uniform quantization. Through the integration of dedicated outlier handling, as well as an improved attention-aware approach, QAQ achieves up to 10x the compression ratio of the KV cache size with a neglectable impact on model performance. QAQ significantly reduces the practical hurdles of deploying LLMs, opening up new possibilities for longer-context applications. The code is available at github.com/ClubieDong/KVCacheQuantization.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 任意の次元におけるPXPおよび関連するモデルにおける体積絡み合った正確な固有状態

Volume-entangled exact eigenstates in the PXP and related models in any dimension ( http://arxiv.org/abs/2403.05515v2 )

ライセンス: Link先を確認
Andrew N. Ivanov, Olexei I. Motrunich, (参考訳) 本研究では,PXPがホストするEinstein-Podolsky-Rosen (EPR)型スカーステートについて,周期境界条件(PBC)と正方格子を含む,Rydberg-Blocked atom Systemの様々な幾何学的構成に対応して報告する。 まず、PBC鎖のゼロエネルギー固有状態を導入し、それを様々な測地線やハミルトンに一般化する。 このような状態の実験的妥当性を指摘するのは、近未来のRydberg量子デバイス上での具体的かつ実現可能なプロトコルを提供することである。 また,時間外相関関数(OTOC)を無限温度で測定するための単純なプロトコルを記述することで,量子力学の研究におけるこれらの状態の有用性を実証する。

In this work, we report first exact volume-entangled Einstein-Podolsky-Rosen (EPR) type scar states hosted by PXP and related Hamiltonians corresponding to various geometric configurations of Rydberg-blockaded atom systems, including the most extensively studied ones such as the chain with periodic boundary conditions (PBC) and square lattice. We start by introducing a new zero-energy eigenstate of the PBC chain and proceed by generalizing it to a wide variety of geometries and Hamiltonians. We point out the experimental relevance of such states by providing a concrete and feasible protocol for their preparation on near-term Rydberg quantum devices, which relies only on strictly local measurements and evolution under native Hamiltonians. We also demonstrate the utility of these states for the study of quantum dynamics by describing a simple protocol for measuring infinite-temperature out-of-time-order correlator (OTOC) functions.
翻訳日:2024-04-15 17:23:29 公開日:2024-04-12
# 放射線診断におけるコンテンツベース医用画像検索のための基礎モデルの構築

Leveraging Foundation Models for Content-Based Medical Image Retrieval in Radiology ( http://arxiv.org/abs/2403.06567v2 )

ライセンス: Link先を確認
Stefan Denner, David Zimmerer, Dimitrios Bounias, Markus Bujotzek, Shuhan Xiao, Lisa Kausch, Philipp Schader, Tobias Penzkofer, Paul F. Jäger, Klaus Maier-Hein, (参考訳) CBIR(Content-based Image Search)は、放射線学における診断支援と医学研究を大幅に改善する可能性がある。 現在のCBIRシステムは、特定の病態の専門化による限界に直面しており、実用性は制限されている。 そこで本研究では,視覚基盤モデルを用いて,コンテンツに基づく医用画像検索のための特徴抽出器を提案する。 これらのモデルを4つのモダリティと161の病理にまたがる1.6万の2D画像の総合的なデータセットでベンチマークすることにより、弱い教師付きモデルが優れていると判断し、最大0.594のP@1を達成する。 このパフォーマンスは、特殊なモデルと競合するだけでなく、微調整を必要としない。 さらに, 病理組織と解剖学的構造を検索する際の課題について検討し, 病理学的特徴の正確な検索が困難であることが示唆された。 これらの課題にも拘わらず,放射線学におけるCBIRの基礎モデルの可能性は大きく,特定のチューニングを必要としない汎用的な医用画像検索システムへの移行が提案されている。

Content-based image retrieval (CBIR) has the potential to significantly improve diagnostic aid and medical research in radiology. Current CBIR systems face limitations due to their specialization to certain pathologies, limiting their utility. In response, we propose using vision foundation models as powerful and versatile off-the-shelf feature extractors for content-based medical image retrieval. By benchmarking these models on a comprehensive dataset of 1.6 million 2D radiological images spanning four modalities and 161 pathologies, we identify weakly-supervised models as superior, achieving a P@1 of up to 0.594. This performance not only competes with a specialized model but does so without the need for fine-tuning. Our analysis further explores the challenges in retrieving pathological versus anatomical structures, indicating that accurate retrieval of pathological features presents greater difficulty. Despite these challenges, our research underscores the vast potential of foundation models for CBIR in radiology, proposing a shift towards versatile, general-purpose medical image retrieval systems that do not require specific tuning.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# QCSHQD: ハイブリッド古典量子ソフトウェア開発のためのサービスとしての量子コンピューティング:ビジョン

QCSHQD: Quantum computing as a service for Hybrid classical-quantum software development: A Vision ( http://arxiv.org/abs/2403.08663v3 )

ライセンス: Link先を確認
Maryam Tavassoli Sabzevari, Matteo Esposito, Arif Ali Khan, Davide Taibi, (参考訳) 量子コンピューティング(QC)は、理論的なフレームワークから計算能力の必要不可欠なパワーハウスへと移行し、産業と学術の両方の領域で広く採用されている。 QCは、非並列処理速度や、古典的なコンピュータの能力を超えた複雑な問題を解く可能性など、非常に利点がある。 それでも、学術研究者や業界実践者は、この技術の利点を活用する上で様々な課題に直面している。 古典的開発者にとってのQCリソースの限られたアクセシビリティ、およびドメイン知識と専門知識の欠如は、克服不可能な障壁を表しているため、これらの課題に対処するため、サービス指向戦略を活用するハイブリッド古典量子ソフトウェア開発のためのサービスとしての量子コンピューティング(QCSHQD)フレームワークを導入します。 本フレームワークは,ユーザインタラクションのための統合開発環境(IDE),量子サービスオーケストレーション専用の抽象化レイヤ,および量子コンピュータ上でサービスを実行するサービスプロバイダの3つの主要コンポーネントから構成される。 本研究は,QC パワーをシームレスに活用したい古典的開発者のために,QC リソースへのアクセスを民主化するために設計された QCSHQD の青写真を示す。 QCSHQDのビジョンは、古典的コンピュータと量子コンピュータのハイブリッド化における重要な課題に対処することで、イノベーションを画期的なものにする道を開く。

Quantum Computing (QC) is transitioning from theoretical frameworks to an indispensable powerhouse of computational capability, resulting in extensive adoption across both industrial and academic domains. QC presents exceptional advantages, including unparalleled processing speed and the potential to solve complex problems beyond the capabilities of classical computers. Nevertheless, academic researchers and industry practitioners encounter various challenges in harnessing the benefits of this technology. The limited accessibility of QC resources for classical developers, and a general lack of domain knowledge and expertise, represent insurmountable barrier, hence to address these challenges, we introduce a framework- Quantum Computing as a Service for Hybrid Classical-Quantum Software Development (QCSHQD), which leverages service-oriented strategies. Our framework comprises three principal components: an Integrated Development Environment (IDE) for user interaction, an abstraction layer dedicated to orchestrating quantum services, and a service provider responsible for executing services on quantum computer. This study presents a blueprint for QCSHQD, designed to democratize access to QC resources for classical developers who want to seamless harness QC power. The vision of QCSHQD paves the way for groundbreaking innovations by addressing key challenges of hybridization between classical and quantum computers.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# ガウススプラッティングによるビュー一貫性3次元編集

View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v3 )

ライセンス: Link先を確認
Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。 現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。 しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。 この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。 VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。 これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# アイ・ゲイズガイドによる放射線学用マルチモーダルアライメントフレームワーク

Eye-gaze Guided Multi-modal Alignment Framework for Radiology ( http://arxiv.org/abs/2403.12416v2 )

ライセンス: Link先を確認
Chong Ma, Hanqi Jiang, Wenting Chen, Zihao Wu, Xiaowei Yu, Fang Zeng, Lei Guo, Dajiang Zhu, Tuo Zhang, Dinggang Shen, Tianming Liu, Xiang Li, (参考訳) マルチモーダルフレームワークでは、クロスモーダル機能のアライメントが大きな課題となる。 マルチモーダル事前学習における主要なアプローチは、広範囲なデータセットを利用して、モダリティ間のグローバルまたはローカルなアライメントを強調している。 このボトムアップ駆動法は、しばしばラジオロジーにおいて重要な関心事である解釈可能性の欠如に悩まされる。 これまでの研究では、医療画像やテキストにハイレベルなラベルが組み込まれていたが、それでも手作業によるアノテーションに依存している。 本研究は,放射線医が診断評価中に同期的に収集した眼球運動データを用いた新しいアプローチを提案する。 このデータは、放射線医の焦点領域を示すもので、胸部X線と診断用テキストを自然に関連付けている。 画像とテキストの特徴の整合性を改善するためにアイ・ゲイズ・ガイドド・マルチモーダル・アライメント(EGMA)フレームワークを提案し,手動アノテーションへの依存を減らし,トレーニングコストを削減することを目的とした。 我々のモデルは、ゼロショット分類および検索タスクにおいて、他の最先端手法よりも優れたロバストな性能を示す。 定期的な放射線診断における目視データの導入は、手動のアノテーション依存を最小化するための一歩である。 さらに、様々な眼球運動データがモデル性能に与える影響について検討し、これらの補助データをマルチモーダル事前学習に組み込む可能性と有用性を強調した。

In multi-modal frameworks, the alignment of cross-modal features presents a significant challenge. The predominant approach in multi-modal pre-training emphasizes either global or local alignment between modalities, utilizing extensive datasets. This bottom-up driven method often suffers from a lack of interpretability, a critical concern in radiology. Previous studies have integrated high-level labels in medical images or text, but these still rely on manual annotation, a costly and labor-intensive process. Our work introduces a novel approach by using eye-gaze data, collected synchronously by radiologists during diagnostic evaluations. This data, indicating radiologists' focus areas, naturally links chest X-rays to diagnostic texts. We propose the Eye-gaze Guided Multi-modal Alignment (EGMA) framework to harness eye-gaze data for better alignment of image and text features, aiming to reduce reliance on manual annotations and thus cut training costs. Our model demonstrates robust performance, outperforming other state-of-the-art methods in zero-shot classification and retrieval tasks. The incorporation of easily-obtained eye-gaze data during routine radiological diagnoses signifies a step towards minimizing manual annotation dependency. Additionally, we explore the impact of varying amounts of eye-gaze data on model performance, highlighting the feasibility and utility of integrating this auxiliary data into multi-modal pre-training.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# Leap: 中間体を用いた分子合成性スコアリング

Leap: molecular synthesisability scoring with intermediates ( http://arxiv.org/abs/2403.13005v2 )

ライセンス: Link先を確認
Antonia Calvi, Théophile Gaudin, Dominik Miketa, Dominique Sydow, Liam Wilbraham, (参考訳) 分子を合成できるかどうかを評価することが、薬物発見の第一の課題である。 計算化学者は、生存可能な化合物やバイアス分子生成モデルのためにフィルターすることができる。 合成性の概念は、鍵化合物の可利用性に応じて進化するので、動的である。 薬物発見における一般的なアプローチは、合成アクセス可能な中間体を取り巻く化学空間を探索することである。 この戦略は、鍵中間体の可利用性により、導出分子の合成性を向上させる。 SAScore、SCScore、RAScoreなどの既存の合成可能性スコア法は、中間体を動的に条件付けできない。 提案手法であるLeapは、予測合成経路の深さ(長線形経路)に基づいて訓練されたGPT-2モデルであり、キー中間体を推論時に含めることができる。 本稿では、合成可能な分子を同定する際に、LeapがAUCスコアで少なくとも5%以上のスコア法を上回り、関連する中間化合物を提示した場合、予測スコアを順応できることを示す。

Assessing whether a molecule can be synthesised is a primary task in drug discovery. It enables computational chemists to filter for viable compounds or bias molecular generative models. The notion of synthesisability is dynamic as it evolves depending on the availability of key compounds. A common approach in drug discovery involves exploring the chemical space surrounding synthetically-accessible intermediates. This strategy improves the synthesisability of the derived molecules due to the availability of key intermediates. Existing synthesisability scoring methods such as SAScore, SCScore and RAScore, cannot condition on intermediates dynamically. Our approach, Leap, is a GPT-2 model trained on the depth, or longest linear path, of predicted synthesis routes that allows information on the availability of key intermediates to be included at inference time. We show that Leap surpasses all other scoring methods by at least 5% on AUC score when identifying synthesisable molecules, and can successfully adapt predicted scores when presented with a relevant intermediate compound.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# 2粒子伝送を用いたセキュアな量子鍵分配プロトコル

A Secure Quantum Key Distribution Protocol Using Two-Particle Transmission ( http://arxiv.org/abs/2403.13634v3 )

ライセンス: Link先を確認
Pratapaditya Bej, Vinod Jayakeerthi, (参考訳) 量子鍵分布(QKD)の進化は、そのセキュリティと効率を高める革新的な方法に依存している。 Unextendible Product Bases (UPB) は、その固有の不明瞭さのため、量子暗号において約束を守るが、QKDプロトコルでは未利用である。 本研究は, UPBを用いて遠隔者間の量子鍵を確立するプロトコルを提案する。 具体的には、AliceがBobに連続的に量子チャネルを通してサブシステム状態を送信する3ドル3ドルタイルUPBを利用するプロトコルを提案する。 プロトコルのセキュリティは、直交状態のクローンを禁じる非閉鎖定理によって支えられている。 我々は、量子チャネルがノイズのないときのインターセプション・リセプションやディテクター・ブラインド攻撃を含む潜在的な攻撃を分析し、盗聴者に対するプロトコルの不明瞭さによる課題について議論し、QKDセキュリティを向上させる。

The evolution of Quantum Key Distribution (QKD) relies on innovative methods to enhance its security and efficiency. Unextendible Product Bases (UPBs) hold promise in quantum cryptography due to their inherent indistinguishability, yet they are underutilized in QKD protocols. This work introduces a protocol utilizing UPBs to establish quantum keys between distant parties. Specifically, we propose a protocol utilizing a $3\times 3$ tile UPB, where Alice sequentially transmits subsystem states to Bob through quantum channels. The protocol's security is underpinned by the no-cloning theorem, prohibiting the cloning of orthogonal states. We analyze potential attacks, including intercept-resend and detector blinding attacks when quantum channels are noiseless, and discuss the challenges posed by the indistinguishability of our protocol for eavesdroppers, thereby enhancing QKD security.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# 静的および動的プルーニングによるFPGA上のViT推論の高速化

Accelerating ViT Inference on FPGA through Static and Dynamic Pruning ( http://arxiv.org/abs/2403.14047v2 )

ライセンス: Link先を確認
Dhruv Parikh, Shouyi Li, Bingyi Zhang, Rajgopal Kannan, Carl Busart, Viktor Prasanna, (参考訳) 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。 しかし、計算の複雑さが高いため、現実世界の多くのアプリケーションに適用できない。 ウェイトプルーニングはモデルサイズと関連する計算要求を減らし、トークンプルーニングは入力に基づく計算をさらに動的に減らし、ウェイトプルーニングとトークンプルーニングは複雑さを減らすためのよく知られた方法である。 これらの2つの手法を組み合わせることで、計算の複雑さとモデルサイズを大幅に削減できるが、この2つの手法を鼻で統合すると不規則な計算パターンとなり、ハードウェアアクセラレーションの大幅な精度低下と困難が生じる。 上記の課題に対処するため、我々はFPGA上でのViTの高速化を同時に行うための包括的なアルゴリズムハードウェア符号を提案する。 アルゴリズム設計において,モデルパラメータのプルーニングのためのハードウェア対応構造化ブロックプルーニング法と,重要でないトークンベクトルを除去する動的トークンプルーニング法を体系的に組み合わせた。 さらに,モデルの精度を回復するための新しいトレーニングアルゴリズムを設計する。 ハードウェア設計のための新しいハードウェアアクセラレーションを開発した。 提案するハードウェア設計では,2つのプルーニング手法によって導かれる不規則な計算パターンを効率的に処理するために,負荷分散戦略を用いたマルチレベル並列処理を用いる。 さらに、オンザフライトークンプルーニングを効率的に実行するための効率的なハードウェア機構を開発する。

Vision Transformers (ViTs) have achieved state-of-the-art accuracy on various computer vision tasks. However, their high computational complexity prevents them from being applied to many real-world applications. Weight and token pruning are two well-known methods for reducing complexity: weight pruning reduces the model size and associated computational demands, while token pruning further dynamically reduces the computation based on the input. Combining these two techniques should significantly reduce computation complexity and model size; however, naively integrating them results in irregular computation patterns, leading to significant accuracy drops and difficulties in hardware acceleration. Addressing the above challenges, we propose a comprehensive algorithm-hardware codesign for accelerating ViT on FPGA through simultaneous pruning -combining static weight pruning and dynamic token pruning. For algorithm design, we systematically combine a hardware-aware structured block-pruning method for pruning model parameters and a dynamic token pruning method for removing unimportant token vectors. Moreover, we design a novel training algorithm to recover the model's accuracy. For hardware design, we develop a novel hardware accelerator for executing the pruned model. The proposed hardware design employs multi-level parallelism with load balancing strategy to efficiently deal with the irregular computation pattern led by the two pruning approaches. Moreover, we develop an efficient hardware mechanism for efficiently executing the on-the-fly token pruning.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models ( http://arxiv.org/abs/2403.15388v4 )

ライセンス: Link先を確認
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan, (参考訳) 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。 LMMは通常、プレフィックスの内容としてCLIPビジュアルエンコーダのペナルティ層機能など、一定量のビジュアルトークンを使用する。 近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。 しかし、Transformerアーキテクチャの設計により、これらのモデルに関連する計算コストは入力トークンの数によって2次的に増加する傾向にある。 この問題に対処するため,トークン低減機構を探索し,多くの視覚的トークンが空間的に冗長であることを示す。 そこで我々はPruMergeを提案する。PruMergeは適応型ビジュアルトークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。 まず、クラストークンと空間トークンとの類似性に基づいて、未実行の視覚トークンを選択する。 次に、キーの類似性に基づいてプルーンドトークンをクラスタ化し、クラスタ化されたトークンと未実行トークンをマージして、情報を補完します。 LLaVA-1.5に適用した場合、我々の手法は平均18倍の視覚トークンを圧縮し、多様な視覚的質問応答および推論タスクに匹敵する性能を達成できる。 コードとチェックポイントはhttps://llava-prumerge.github.io/にある。

Large Multimodal Models (LMMs) have shown significant reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically use a fixed amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which increase the number of visual tokens significantly. However, due to the design of the Transformer architecture, computational costs associated with these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism and find, similar to prior work, that many visual tokens are spatially redundant. Based on this, we propose PruMerge, a novel adaptive visual token reduction approach, which largely reduces the number of visual tokens while maintaining comparable model performance. We first select the unpruned visual tokens based on their similarity to class tokens and spatial tokens. We then cluster the pruned tokens based on key similarity and merge the clustered tokens with the unpruned tokens to supplement their information. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 18 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# LLMにおける「培養」の測定とモデル化に向けて

Towards Measuring and Modeling "Culture" in LLMs: A Survey ( http://arxiv.org/abs/2403.15412v2 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Ashutosh Dwivedi, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury, (参考訳) 本稿では,大規模言語モデルにおける文化的表現と包摂性の研究を目的とした39の最近の論文について調査する。 いずれの研究も、複雑で多面的な概念である「文化」を定義しておらず、代わりに「文化」の特定の側面を表す特別に設計されたデータセット上でモデルを探索している。 これらの側面を文化のプロキシと呼び、人口統計学、意味学、言語-文化的相互作用の3つの側面にまたがってそれらを整理する。 また、使用する探索方法も分類する。 分析の結果,特にセマンティックドメインの多様さ (Thompson et al , 2020) と,非探索的な話題 (Hershcovich et al , 2022) が残されている。 その他の2つの重要なギャップは、現在の方法の堅牢性と位置性の欠如である。 これらの観測に基づいて, LLM と LLM に基づく応用における文化的包摂性を高めるための総合的かつ実用的な研究課題について, いくつか提言する。

We present a survey of 39 recent papers that aim to study cultural representation and inclusion in large language models. We observe that none of the studies define "culture," which is a complex, multifaceted concept; instead, they probe the models on some specially designed datasets which represent certain aspects of "culture." We call these aspects the proxies of cultures, and organize them across three dimensions of demographic, semantic and linguistic-cultural interaction proxies. We also categorize the probing methods employed. Our analysis indicates that only certain aspects of "culture," such as values and objectives, have been studied, leaving several other interesting and important facets, especially the multitude of semantic domains (Thompson et al., 2020) and aboutness (Hershcovich et al., 2022), unexplored. Two other crucial gaps are the lack of robustness and situatedness of the current methods. Based on these observations, we provide several recommendations for a holistic and practically useful research agenda for furthering cultural inclusion in LLMs and LLM-based applications.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# 時空アクティブディレクトリネットワークにおけるデコイを用いたサイバー応答時間最適化

Optimizing Cyber Response Time on Temporal Active Directory Networks Using Decoys ( http://arxiv.org/abs/2403.18162v2 )

ライセンス: Link先を確認
Huy Q. Ngo, Mingyu Guo, Hung Nguyen, (参考訳) Microsoft Active Directory (AD)は、Windowsドメインネットワークのデフォルトセキュリティ管理システムである。 我々はADネットワークにデコイを配置して潜在的な攻撃を検出する問題について検討する。 我々は,攻撃者がドメインアドミン(DA)に向かう途中で攻撃者を検出するために,ディフェンダーがデコイを使用するようなAD攻撃グラフ上で,攻撃者とディフェンダーとの間のスタックルバーグゲームとしてこの問題をモデル化する。 以前の研究とは対照的に、時間変化(時間変化)のアタックグラフを考える。 我々は、時間的攻撃グラフにおけるデコイ配置の有効性を測定するために、応答時間と呼ばれる新しい指標を提案した。 応答時間は、攻撃者がDAを侵害したときの最初のデコイをトリガーする時点までの時間として定義される。 我々の目標は、最悪の攻撃経路に対するディフェンダーの対応時間を最大化することです。 我々は,ディフェンダの最適化問題のNPハード性を確立し,進化的多様性最適化(EDO)アルゴリズムを開発する。 EDOアルゴリズムは最適化問題に対する様々な高品質な解の集合を同定する。 適合関数の多項式の性質にもかかわらず、より大きなグラフに対して実験的に遅いことが証明される。 拡張性を向上させるため,時相設定におけるADインフラストラクチャの静的特性を利用したアルゴリズムを提案する。 そして、我々は、より大規模なグラフのスケーラビリティを維持しながら、より良い結果に収束することを保証する、調整された修復操作を導入する。

Microsoft Active Directory (AD) is the default security management system for Window domain network. We study the problem of placing decoys in AD network to detect potential attacks. We model the problem as a Stackelberg game between an attacker and a defender on AD attack graphs where the defender employs a set of decoys to detect the attacker on their way to Domain Admin (DA). Contrary to previous works, we consider time-varying (temporal) attack graphs. We proposed a novel metric called response time, to measure the effectiveness of our decoy placement in temporal attack graphs. Response time is defined as the duration from the moment attackers trigger the first decoy to when they compromise the DA. Our goal is to maximize the defender's response time to the worst-case attack paths. We establish the NP-hard nature of the defender's optimization problem, leading us to develop Evolutionary Diversity Optimization (EDO) algorithms. EDO algorithms identify diverse sets of high-quality solutions for the optimization problem. Despite the polynomial nature of the fitness function, it proves experimentally slow for larger graphs. To enhance scalability, we proposed an algorithm that exploits the static nature of AD infrastructure in the temporal setting. Then, we introduce tailored repair operations, ensuring the convergence to better results while maintaining scalability for larger graphs.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# CosalPure:ロバストな共分散検出のためのグループ画像からの学習概念

CosalPure: Learning Concept from Group Images for Robust Co-Saliency Detection ( http://arxiv.org/abs/2403.18554v2 )

ライセンス: Link先を確認
Jiayi Zhu, Qing Guo, Felix Juefei-Xu, Yihao Huang, Yang Liu, Geguang Pu, (参考訳) Co-Salient Object Detection (CoSOD) は、ある画像群をまたいだ共通領域(通常は前景)を識別することを目的としている。 最先端のCoSODは, 対向性摂動の影響を受けやすいため, 精度は著しく低下した。 逆方向の摂動はCoSODを誤解させることがあるが、コサルトオブジェクトの高レベルな意味情報(例えば概念)は変化しない。 本稿では,まず,入力群画像に基づいて共塩性物体の概念を学習し,その概念を活用して対向摂動を浄化し,その後CoSODに供給してロバスト性向上を図ることによって,新しいロバストネス向上フレームワークを提案する。 具体的には,2つのモジュール,すなわちグループイメージ概念学習と概念誘導拡散浄化を含むCosalPureを提案する。 最初のモジュールでは、事前学習されたテキスト・画像拡散モデルを用いて、学習された概念が敵の例に対して堅牢である群画像内の共塩オブジェクトの概念を学習する。 第2のモジュールでは、逆画像を潜時空間にマッピングし、学習した概念を雑音予測関数に埋め込んで拡散生成する。 本手法は, 露光や騒音など, 異なる対向パターンを含むSOTA対向攻撃の影響を効果的に緩和することができる。 その結果,本手法はCoSODのロバスト性を大幅に向上する可能性が示唆された。

Co-salient object detection (CoSOD) aims to identify the common and salient (usually in the foreground) regions across a given group of images. Although achieving significant progress, state-of-the-art CoSODs could be easily affected by some adversarial perturbations, leading to substantial accuracy reduction. The adversarial perturbations can mislead CoSODs but do not change the high-level semantic information (e.g., concept) of the co-salient objects. In this paper, we propose a novel robustness enhancement framework by first learning the concept of the co-salient objects based on the input group images and then leveraging this concept to purify adversarial perturbations, which are subsequently fed to CoSODs for robustness enhancement. Specifically, we propose CosalPure containing two modules, i.e., group-image concept learning and concept-guided diffusion purification. For the first module, we adopt a pre-trained text-to-image diffusion model to learn the concept of co-salient objects within group images where the learned concept is robust to adversarial examples. For the second module, we map the adversarial image to the latent space and then perform diffusion generation by embedding the learned concept into the noise prediction function as an extra condition. Our method can effectively alleviate the influence of the SOTA adversarial attack containing different adversarial patterns, including exposure and noise. The extensive results demonstrate that our method could enhance the robustness of CoSODs significantly.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# マイクロサービスシステムにおけるFew-Shotクロスシステム異常トレース分類

Few-Shot Cross-System Anomaly Trace Classification for Microservice-based systems ( http://arxiv.org/abs/2403.18998v3 )

ライセンス: Link先を確認
Yuqing Wang, Mika V. Mäntylä, Serge Demeyer, Mutlu Beyazit, Joanna Kisaakye, Jesse Nyyssölä, (参考訳) マイクロサービスベースのシステム(MSS)は、複雑で動的な性質のため、さまざまな障害カテゴリで障害を経験する可能性がある。 障害を効果的に処理するために、AIOpsツールはトレースベースの異常検出と根本原因分析を利用する。 本稿では,MSSの異常トレース分類のための新しいフレームワークを提案する。 本フレームワークは,(1)システム固有のトレース表現を構築するためのマルチヘッドアテンションオートエンコーダ,(2)トランスフォーマーエンコーダに基づくモデル非依存メタラーニングの2つの主要コンポーネントから構成される。 提案するフレームワークは、TraticketとOnlineBoutiqueの2つの代表的なMSSで、オープンデータセットで評価されている。 以上の結果から,本フレームワークは学習知識に適応して,従来のMSSと同一システム内および異なるMSS内においても,新たな異常カテゴリの異常なトレースを識別できることが示唆された。 同じMSS内では、TraticketとOnlineBoutiqueの50のメタテストタスクの平均精度は93.26\%と85.2\%に達し、各タスクに10のインスタンスが提供される。 システム間のコンテキストでは、各システムの同じメタテストタスクに対して平均92.19.%と84.77.%の精度が得られ、各タスクに10のインスタンスが提供される。 本研究は,MSSの異常トレース分類を少数の異常トレース分類に適用可能であることを示し,システム間の適応性を実現する方法を示す。 これにより、異常検出と根本原因分析のためにシステム固有のデータラベリングを少なくする、より一般化されたAIOpsツールを構築するための道が開ける。

Microservice-based systems (MSS) may experience failures in various fault categories due to their complex and dynamic nature. To effectively handle failures, AIOps tools utilize trace-based anomaly detection and root cause analysis. In this paper, we propose a novel framework for few-shot abnormal trace classification for MSS. Our framework comprises two main components: (1) Multi-Head Attention Autoencoder for constructing system-specific trace representations, which enables (2) Transformer Encoder-based Model-Agnostic Meta-Learning to perform effective and efficient few-shot learning for abnormal trace classification. The proposed framework is evaluated on two representative MSS, Trainticket and OnlineBoutique, with open datasets. The results show that our framework can adapt the learned knowledge to classify new, unseen abnormal traces of novel fault categories both within the same system it was initially trained on and even in the different MSS. Within the same MSS, our framework achieves an average accuracy of 93.26\% and 85.2\% across 50 meta-testing tasks for Trainticket and OnlineBoutique, respectively, when provided with 10 instances for each task. In a cross-system context, our framework gets an average accuracy of 92.19\% and 84.77\% for the same meta-testing tasks of the respective system, also with 10 instances provided for each task. Our work demonstrates the applicability of achieving few-shot abnormal trace classification for MSS and shows how it can enable cross-system adaptability. This opens an avenue for building more generalized AIOps tools that require less system-specific data labeling for anomaly detection and root cause analysis.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-12
# 擬似アンタングルメントはチープではない

Pseudoentanglement Ain't Cheap ( http://arxiv.org/abs/2404.00126v2 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang, (参考訳) エントロピーの$t$ビットのギャップを持つ任意の擬アンタングル状態アンサンブルは、準備するために$\Omega(t)$非クリフォードゲートが必要であることを示す。 この境界は、線形時間量子セキュア擬ランドム関数が存在する場合、多元対数因子に強く依存する。 我々の結果は、任意の量子ビットのカットにわたる量子状態の絡み合いエントロピーを推定する多項式時間アルゴリズムから従う。 パウリ作用素によって安定化された$n$-qubit状態上で実行されるとき、我々のアルゴリズムは真のエンタングルメントエントロピーの$\frac{t}{2}$ビットの加算係数内にある推定を生成する。

We show that any pseudoentangled state ensemble with a gap of $t$ bits of entropy requires $\Omega(t)$ non-Clifford gates to prepare. This bound is tight up to polylogarithmic factors if linear-time quantum-secure pseudorandom functions exist. Our result follows from a polynomial-time algorithm to estimate the entanglement entropy of a quantum state across any cut of qubits. When run on an $n$-qubit state that is stabilized by at least $2^{n-t}$ Pauli operators, our algorithm produces an estimate that is within an additive factor of $\frac{t}{2}$ bits of the true entanglement entropy.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# レコンストラクションロスを用いたトランスファーラーニング

Transfer Learning with Reconstruction Loss ( http://arxiv.org/abs/2404.00505v2 )

ライセンス: Link先を確認
Wei Cui, Wei Yu, (参考訳) ニューラルネットワークを数学的最適化に利用するほとんどの場合、特定の最適化目標に対して専用モデルを訓練する。 しかし、多くのシナリオにおいて、いくつかの異なる相関した目的やタスクは、しばしば同じ問題入力のセットに最適化される必要がある。 各問題ごとに異なるニューラルネットワークを個別にトレーニングするのではなく、これらの目的間の相関を利用して、モデルパラメータと特徴表現を共有する複数のニューラルネットワークモデルをトレーニングする方が効率的である。 そこで本研究では,まず,関連課題の解決に必要な共有知識という共通情報の概念を確立し,モデルに新たな再構築段階を追加することで,モデルトレーニングの新たなアプローチを提案する。 この損失は、モデル内の選択された隠された層から始まる共通情報を再構築するためのものである。 提案手法は、学習した特徴を一般化し、伝達しやすくし、効率的な伝達学習に容易に利用できる。 数値シミュレーションでは、MNIST手書き桁の転送学習、デバイス間無線ネットワークの電力割り当て、複数入出力ネットワークのダウンリンクビームフォーミングとローカライゼーションの3つの応用が研究されている。 シミュレーションの結果,提案手法はデータおよびモデル複雑性において極めて効率的であり,過度な適合に耐性があり,競争性能が高いことが示唆された。

In most applications of utilizing neural networks for mathematical optimization, a dedicated model is trained for each specific optimization objective. However, in many scenarios, several distinct yet correlated objectives or tasks often need to be optimized on the same set of problem inputs. Instead of independently training a different neural network for each problem separately, it would be more efficient to exploit the correlations between these objectives and to train multiple neural network models with shared model parameters and feature representations. To achieve this, this paper first establishes the concept of common information: the shared knowledge required for solving the correlated tasks, then proposes a novel approach for model training by adding into the model an additional reconstruction stage associated with a new reconstruction loss. This loss is for reconstructing the common information starting from a selected hidden layer in the model. The proposed approach encourages the learned features to be general and transferable, and therefore can be readily used for efficient transfer learning. For numerical simulations, three applications are studied: transfer learning on classifying MNIST handwritten digits, the device-to-device wireless network power allocation, and the multiple-input-single-output network downlink beamforming and localization. Simulation results suggest that the proposed approach is highly efficient in data and model complexity, is resilient to over-fitting, and has competitive performances.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# 情報損失を低減したトランスフォーマーによる複数画像補完

Transformer based Pluralistic Image Completion with Reduced Information Loss ( http://arxiv.org/abs/2404.00513v2 )

ライセンス: Link先を確認
Qiankun Liu, Yuqi Jiang, Zhentao Tan, Dongdong Chen, Ying Fu, Qi Chu, Gang Hua, Nenghai Yu, (参考訳) トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。 しかし、これらのソリューションは各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。 1) 効率を考慮し, 入力画像をはるかに低い解像度に分解する。 2) 256^3$ RGB の値を小さな数(例えば 512 など)に量子化する。 量子化されたピクセルのインデックスは、トランスの入力および予測ターゲットのトークンとして使用される。 これらの問題を緩和するために、我々は"PUT"と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 具体的には、計算効率を保ちながら入力ダウンサンプリングを回避するため、パッチベースの自動エンコーダP-VQVAEを設計する。 エンコーダは、マスクされた画像を非オーバーラップされたパッチトークンに変換し、デコーダは、アンマスクされた領域を一定に保ちつつ、インペイントされたトークンからマスクされた領域を復元する。 入力量子化による情報損失を解消するため、Un-quantized Transformerを適用する。 P-VQVAEエンコーダの機能を量子化せずに入力とし、量子化トークンを予測ターゲットとみなす。 さらに, 塗布プロセスをより制御しやすくするために, 意味的および構造的条件を付加的なガイダンスとして導入する。 本手法は, 画像の忠実度に基づくトランスフォーマー法を著しく上回り, 複雑な大規模データセット(画像Netなど)上で, 最先端の多元的インペイント法よりもはるかに高い多様性と忠実度が得られることを示す。 コードはhttps://github.com/liuqk3/PUTで入手できる。

Transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration. 2) They quantize $256^3$ RGB values to a small number (such as 512) of quantized color values. The indices of quantized pixels are used as tokens for the inputs and prediction targets of the transformer. To mitigate these issues, we propose a new transformer based framework called "PUT". Specifically, to avoid input downsampling while maintaining computation efficiency, we design a patch-based auto-encoder P-VQVAE. The encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from the inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by input quantization, an Un-quantized Transformer is applied. It directly takes features from the P-VQVAE encoder as input without any quantization and only regards the quantized tokens as prediction targets. Furthermore, to make the inpainting process more controllable, we introduce semantic and structural conditions as extra guidance. Extensive experiments show that our method greatly outperforms existing transformer based methods on image fidelity and achieves much higher diversity and better fidelity than state-of-the-art pluralistic inpainting methods on complex large-scale datasets (e.g., ImageNet). Codes are available at https://github.com/liuqk3/PUT.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# 不確実性認識グラフ処理のための大規模言語モデルのパワーの調和

Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing ( http://arxiv.org/abs/2404.00589v2 )

ライセンス: Link先を確認
Zhenyu Qian, Yiming Qian, Yuting Song, Fei Gao, Hai Jin, Chen Yu, Xia Xie, (参考訳) グラフデータの処理は、最も難しいタスクの1つです。 幾何学や行列因数分解に基づくような伝統的な手法は、大規模で複雑なグラフデータを扱う際に不適切なデータ関係に関する仮定に依存する。 一方、ディープラーニングアプローチは、大きなグラフデータを扱う上で有望な結果を示すが、解釈可能な説明を提供するには足りないことが多い。 グラフ処理に高い精度と説明可能性を持たせるために,不確実性認識モジュールによって強化された大規模言語モデル(LLM)のパワーを利用する新しい手法を導入する。 筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。 その結果、パラメータ効率のよい微調整により、LLMは10種類のベンチマークデータセットに対して、最先端のアルゴリズムをかなり上回ります。 さらに,説明可能性の課題に対処するために,摂動に基づく不確実性推定と,生成した回答の信頼度を定量化するキャリブレーション手法を提案する。 LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。

Handling graph data is one of the most difficult tasks. Traditional techniques, such as those based on geometry and matrix factorization, rely on assumptions about the data relations that become inadequate when handling large and complex graph data. On the other hand, deep learning approaches demonstrate promising results in handling large graph data, but they often fall short of providing interpretable explanations. To equip the graph processing with both high accuracy and explainability, we introduce a novel approach that harnesses the power of a large language model (LLM), enhanced by an uncertainty-aware module to provide a confidence score on the generated answer. We experiment with our approach on two graph processing tasks: few-shot knowledge graph completion and graph classification. Our results demonstrate that through parameter efficient fine-tuning, the LLM surpasses state-of-the-art algorithms by a substantial margin across ten diverse benchmark datasets. Moreover, to address the challenge of explainability, we propose an uncertainty estimation based on perturbation, along with a calibration scheme to quantify the confidence scores of the generated answers. Our confidence measure achieves an AUC of 0.8 or higher on seven out of the ten datasets in predicting the correctness of the answer generated by LLM.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# SemEval-2024 Task 6 におけるAILS-NTUA:幻覚検出と解析のための効率的なモデルチューニング

AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis ( http://arxiv.org/abs/2404.01210v2 )

ライセンス: Link先を確認
Natalia Grigoriadou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, (参考訳) 本稿では,SemEval-2024 Task-6 - SHROOM, 幻覚と関連する過剰発生ミスの共有タスクについて紹介する。 参加者は、流動性増悪幻覚の症例を特定するために、二分分類の実行を依頼された。 実験では,幻覚検出の訓練済みモデルと自然言語推論(NLI)モデルを微調整した。 最も成功した戦略は、これらのモデルのアンサンブルの作成であり、それぞれモデルに依存しないデータセットで77.8%と79.9%の精度で、主催者のベースラインを上回り、競争における上位成績と対比した場合に顕著な結果が得られ、84.7%と81.3%の精度が報告された。

In this paper, we present our team's submissions for SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The participants were asked to perform binary classification to identify cases of fluent overgeneration hallucinations. Our experimentation included fine-tuning a pre-trained model on hallucination detection and a Natural Language Inference (NLI) model. The most successful strategy involved creating an ensemble of these models, resulting in accuracy rates of 77.8% and 79.9% on model-agnostic and model-aware datasets respectively, outperforming the organizers' baseline and achieving notable results when contrasted with the top-performing results in the competition, which reported accuracies of 84.7% and 81.3% correspondingly.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# グラフストリーム分類のための概念ドリフト検出とプロトタイプベース埋め込みによるインクリメンタルラーニング

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification ( http://arxiv.org/abs/2404.02572v2 )

ライセンス: Link先を確認
Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou, (参考訳) データストリームマイニングは、継続的な進化を続けるデータストリームから有意義な知識を抽出することを目的としており、非定常環境、特に、基礎となるデータ分散の変化を示す概念ドリフトによって引き起こされる課題に対処することを目的としている。 グラフ構造は、重要なインフラストラクチャシステムやソーシャルネットワークなど、複雑なシステムを表現する強力なモデリングツールを提供する。 グラフストリームから学ぶことは、グラフ構造のダイナミクスを理解し、情報的な意思決定を容易にするために必要となる。 本研究では、データ生成プロセスが時間とともに異なるノードとエッジを持つグラフを生成する、一般的な設定の下で機能するグラフストリーム分類の新しい手法を提案する。 この方法は、連続モデル適応のための漸進的な学習、各クラスの代表グラフ(プロトタイプ)の選択、グラフの埋め込みを作成する。 さらに、ドリフト検出時にグラフプロトタイプを再計算するロスベースのコンセプトドリフト検出機構も組み込まれている。

Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# テレコム標準を理解するために大規模言語モデルを使用する

Using Large Language Models to Understand Telecom Standards ( http://arxiv.org/abs/2404.02929v2 )

ライセンス: Link先を確認
Athanasios Karapantelakis, Mukesh Thakur, Alexandros Nikou, Farnaz Moradi, Christian Orlog, Fitsum Gaim, Henrik Holm, Doumitrou Daniil Nimara, Vincent Huang, (参考訳) 第3世代パートナーシッププロジェクト(3GPP)は、グローバルモビリティの標準の導入に成功している。 しかし、これらの標準の量と複雑さは時間とともに増加し、ベンダーやサービスプロバイダの関連情報へのアクセスが複雑化しています。 生成人工知能(AI)と特にLarge Language Models(LLM)の使用は、関連する情報へのより高速なアクセスを提供する可能性がある。 本稿では,3GPP文書参照のための質問応答 (QA) アシスタントとして使用する最先端のLCMの性能を評価する。 私たちの貢献は3倍です。 まず,LLMの性能評価のためのベンチマークと測定方法を提案する。 第2に、これらのLLMの1つのデータ前処理と微調整を行い、全てのLLMに適用される応答の精度を高めるためのガイドラインを提供する。 第3に、基礎的なLCMと同等に動作するが、パラメータの桁数が桁違い少ない独自のTeleRoBERTaのモデルを提供する。 その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用でき,トラブルシューティングやメンテナンス,ネットワーク操作,ソフトウェア製品開発など,さまざまな応用の可能性が示唆された。

The Third Generation Partnership Project (3GPP) has successfully introduced standards for global mobility. However, the volume and complexity of these standards has increased over time, thus complicating access to relevant information for vendors and service providers. Use of Generative Artificial Intelligence (AI) and in particular Large Language Models (LLMs), may provide faster access to relevant information. In this paper, we evaluate the capability of state-of-art LLMs to be used as Question Answering (QA) assistants for 3GPP document reference. Our contribution is threefold. First, we provide a benchmark and measuring methods for evaluating performance of LLMs. Second, we do data preprocessing and fine-tuning for one of these LLMs and provide guidelines to increase accuracy of the responses that apply to all LLMs. Third, we provide a model of our own, TeleRoBERTa, that performs on-par with foundation LLMs but with an order of magnitude less number of parameters. Results show that LLMs can be used as a credible reference tool on telecom technical documents, and thus have potential for a number of different applications from troubleshooting and maintenance, to network operations and software product development.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# ニュースから要約へ - 抽出的・抽象的要約のためのハンガリー語コーパスの構築

From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization ( http://arxiv.org/abs/2404.03555v2 )

ライセンス: Link先を確認
Botond Barta, Dorina Lakatos, Attila Nagy, Milán Konor Nyist, Judit Ács, (参考訳) 要約モデルのトレーニングには、かなりの量のトレーニングデータが必要である。 しかし、ハンガリー語のようなリソースの少ない言語では、オープンに利用可能なモデルやデータセットは特に少ない。 このギャップに対処するために,本稿では,抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスであるHunSum-2を紹介する。 データセットは、徹底的なクリーニング、前処理、重複処理を行うCommon Crawlコーパスのセグメントから組み立てられる。 抽象要約に加えて,文類似性を用いた抽出要約のための文レベルラベルを生成する。 収集したデータセットを用いて抽出および抽象的な要約のためのベースラインモデルを訓練する。 トレーニングモデルの有効性を示すため,定量的および定性的な評価を行った。 私たちのデータセット、モデル、コードは公開されており、様々なドメインにわたるレプリケーション、さらなる研究、および現実世界のアプリケーションを促進しています。

Training summarization models requires substantial amounts of training data. However for less resourceful languages like Hungarian, openly available models and datasets are notably scarce. To address this gap our paper introduces HunSum-2 an open-source Hungarian corpus suitable for training abstractive and extractive summarization models. The dataset is assembled from segments of the Common Crawl corpus undergoing thorough cleaning, preprocessing and deduplication. In addition to abstractive summarization we generate sentence-level labels for extractive summarization using sentence similarity. We train baseline models for both extractive and abstractive summarization using the collected dataset. To demonstrate the effectiveness of the trained models, we perform both quantitative and qualitative evaluation. Our dataset, models and code are publicly available, encouraging replication, further research, and real-world applications across various domains.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# Q-PEFT:大規模言語モデルを用いたテキスト検索のためのクエリ依存パラメータの効率的な微調整

Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models ( http://arxiv.org/abs/2404.04522v2 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Qifan Wang, Sravanthi Rajanala, Yi Fang, (参考訳) パラメータ効率の良いファインチューニング(PEFT)法はLarge Language Models (LLM) において,LLM全体を微調整するコストを伴わずにダウンストリームタスクを改善するために広く利用されている。 近年の研究では、異なる文書に対して学習プロンプトを固定すること、特定のタスクに過度に適合すること、適応能力の低下など、評価タスクの微調整にPEFTを効果的に利用する方法が示されている。 本稿では,LLM に真のクエリに関する情報を漏らし,入力文書から真のクエリを生成することを容易にするために,テキストの再ランク付けのためのクエリ依存パラメータ効率の良い微調整(Q-PEFT)手法を提案する。 具体的には、クエリを使用して、コンカレントドキュメントから上位$kのトークンを抽出し、コンテキストの手がかりとして機能する。 さらに,検索機構をマルチヘッドアテンション層に置換し,文書中のトークンをすべてカバーし,LCMを誘導してより文書固有の合成クエリを生成することにより,再配置性能を向上させることにより,Q-PEFTをさらに強化する。 提案手法の有効性を実証するため,4つの公開データセットを用いて大規模な実験を行った。

Parameter Efficient Fine-Tuning (PEFT) methods have been extensively utilized in Large Language Models (LLMs) to improve the down-streaming tasks without the cost of fine-tuing the whole LLMs. Recent studies have shown how to effectively use PEFT for fine-tuning LLMs in ranking tasks with convincing performance; there are some limitations, including the learned prompt being fixed for different documents, overfitting to specific tasks, and low adaptation ability. In this paper, we introduce a query-dependent parameter efficient fine-tuning (Q-PEFT) approach for text reranking to leak the information of the true queries to LLMs and then make the generation of true queries from input documents much easier. Specifically, we utilize the query to extract the top-$k$ tokens from concatenated documents, serving as contextual clues. We further augment Q-PEFT by substituting the retrieval mechanism with a multi-head attention layer to achieve end-to-end training and cover all the tokens in the documents, guiding the LLMs to generate more document-specific synthetic queries, thereby further improving the reranking performance. Extensive experiments are conducted on four public datasets, demonstrating the effectiveness of our proposed approach.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# GPU加速のためのテンソル化アントコロニー最適化

Tensorized Ant Colony Optimization for GPU Acceleration ( http://arxiv.org/abs/2404.04895v2 )

ライセンス: Link先を確認
Luming Yang, Tao Jiang, Ran Cheng, (参考訳) Ant Colony Optimization (ACO)は、トラベルセールスマン問題の解決に有効であることで有名だが、CPUベースの環境、特に大規模インスタンスでは計算上の課題に直面している。 これに対し、GPUアクセラレーションの進歩を活用するために、Tensorized Ant Colony Optimization (TensorACO)を導入する。 中心となるものとして、TensorACO は ant 系と ant 経路を完全にテンソル形式に変換する。 アリシステムのテンソル化のために,確率遷移行列を計算して計算オーバーヘッドを削減する前処理法を提案する。 アントパスのテンソル化において,逐次経路更新の機構を並列行列演算に置き換えることで,フェロモン行列の更新を高速化するインデックスマッピング手法を提案する。 さらに,GPU上でのACOの選択機構の並列化という課題を克服するために,Adaptive Independent Roulette (AdaIR) 手法を導入する。 総合的な実験は、標準的なACOよりも1921$\times$スピードアップを達成するTensorACOの優れた性能を示す。 さらに、AdaIR法は、テンソルACOの収束速度を80%、溶液品質を2%改善する。 ソースコードはhttps://github.com/EMI-Group/tensoraco.comで入手できる。

Ant Colony Optimization (ACO) is renowned for its effectiveness in solving Traveling Salesman Problems, yet it faces computational challenges in CPU-based environments, particularly with large-scale instances. In response, we introduce a Tensorized Ant Colony Optimization (TensorACO) to utilize the advancements of GPU acceleration. As the core, TensorACO fully transforms ant system and ant path into tensor forms, a process we refer to as tensorization. For the tensorization of ant system, we propose a preprocessing method to reduce the computational overhead by calculating the probability transition matrix. In the tensorization of ant path, we propose an index mapping method to accelerate the update of pheromone matrix by replacing the mechanism of sequential path update with parallel matrix operations. Additionally, we introduce an Adaptive Independent Roulette (AdaIR) method to overcome the challenges of parallelizing ACO's selection mechanism on GPUs. Comprehensive experiments demonstrate the superior performance of TensorACO achieving up to 1921$\times$ speedup over standard ACO. Moreover, the AdaIR method further improves TensorACO's convergence speed by 80% and solution quality by 2%. Source codes are available at https://github.com/EMI-Group/tensoraco.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# ニューラルネットワークの近似ベイズ推定による確率的生存分析

Probabilistic Survival Analysis by Approximate Bayesian Inference of Neural Networks ( http://arxiv.org/abs/2404.06421v2 )

ライセンス: Link先を確認
Christian Marius Lillelund, Martin Magris, Christian Fischer Pedersen, (参考訳) 将来の事象を予測することは、常に不確実性を伴うが、従来の非確率的手法は不確実性のある予測と区別できない。 生存分析においては、医療・バイオメディカル分野における最先端のソリューションに適用される確率的手法はまだ新しいものであり、その影響は十分に評価されていない。 本稿では,予測と校正性能に着目した生存分析のためのディープニューラルネットワークにおける不確実性モデリングの利点について検討する。 そこで我々は,3つの確率的ネットワークアーキテクチャからなるベイズ深層学習フレームワークを提案する。 これにより、生存曲線を予測する場合や、予測された中央値生存時間に対して確率密度関数として不確実性推定を信頼区間として提供することができる。 実験により,提案手法を4つのベンチマークデータセットで評価したところ,提案手法は一致指数に基づく最先端技術に匹敵する予測性能を示し,平均絶対誤差の観点から他のCoxベースの手法よりも優れていることがわかった。 我々の研究は、異なるベイズ近似技術が相違する範囲を明示的に比較し、従来の非確率的代替品に対する予測を改善する。

Predicting future events always comes with uncertainty, but traditional non-probabilistic methods cannot distinguish certain from uncertain predictions. In survival analysis, probabilistic methods applied to state-of-the-art solutions in the healthcare and biomedical field are still novel, and their implications have not been fully evaluated. In this paper, we study the benefits of modeling uncertainty in deep neural networks for survival analysis with a focus on prediction and calibration performance. For this, we present a Bayesian deep learning framework that consists of three probabilistic network architectures, which we train by optimizing the Cox partial likelihood and combining input-dependent aleatoric uncertainty together with epistemic uncertainty. This enables us to provide uncertainty estimates as credible intervals when predicting the survival curve or as a probability density function over the predicted median survival times. For our empirical analyses, we evaluated our proposed method on four benchmark datasets and found that our method demonstrates prediction performance comparable to the state-of-the-art based on the concordance index and outperforms all other Cox-based approaches in terms of the mean absolute error. Our work explicitly compares the extent to which different Bayesian approximation techniques differ from each other and improves the prediction over traditional non-probabilistic alternatives.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-12
# 複雑さはIllusionか?

Is Complexity an Illusion? ( http://arxiv.org/abs/2404.07227v2 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) 単純さは一般知能の鍵となると多くの人々が抱いている。 より単純なモデルは"一般化"する傾向があり、より優れたサンプル効率でデータの原因や生成元を特定する。 単純さと一般化の相関関係はコンピュータ科学をはるかに超え、物理学や生物学の問題にも対処している。 しかし、単純性は形式の性質であり、一般化は機能的である。 対話的な設定では、両者の相関は解釈に依存する。 理論的には相関はあり得ないが、実際には相関がある。 以前の理論的研究は、一般化は形式ではなく関数によって示される「弱」制約の結果であることを示した。 単純形式に対する弱い制約を選択する実験では、一般化率が110-500%向上した。 ここでは、弱い制約の複雑さを測定し、抽象層を前提としないなら、すべて同じ複雑さを持つことを示す。 しかし、空間的・時間的に拡張された抽象層の文脈では、効率性の強い制約は単純な形式をとり、単純さは一般化と相関する。 単純さは一般化に因果的な影響はないが、欠点があるように見える。

Simplicity is held by many to be the key to general intelligence. Simpler models tend to "generalise", identifying the cause or generator of data with greater sample efficiency. The implications of the correlation between simplicity and generalisation extend far beyond computer science, addressing questions of physics and even biology. Yet simplicity is a property of form, while generalisation is of function. In interactive settings, any correlation between the two depends on interpretation. In theory there could be no correlation and yet in practice, there is. Previous theoretical work showed generalisation to be a consequence of "weak" constraints implied by function, not form. Experiments demonstrated choosing weak constraints over simple forms yielded a 110-500% improvement in generalisation rate. Here we measure the complexity of weak constraints, and show that if one does not presuppose an abstraction layer, then all have equal complexity. However, in the context of a spatially and temporally extended abstraction layer, efficiency demands weak constraints take simple forms, and simplicity becomes correlated with generalisation. Simplicity has no causal influence on generalisation, but appears to due to confounding.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-12
# 機械学習によるコミュニティリスクとレジリエンスのポストアセスメント

Machine Learning-based Approach for Ex-post Assessment of Community Risk and Resilience Based on Coupled Human-infrastructure Systems Performance ( http://arxiv.org/abs/2404.07966v2 )

ライセンス: Link先を確認
Xiangpeng Li, Ali Mostafavi, (参考訳) 地域社会のリスクとレジリエンスの事前評価のためのデータ駆動分析の文献には、特に人・インフラシステムの性能に関する特徴を用いて制限がある。 このギャップに対処するために、我々は、コミュニティリスクとレジリエンスのポストアセスメントのための機械学習ベースの手法を作成し、人間-インフラシステムのパフォーマンスに関する特徴に基づいて、それらの相互作用について検討した。 テキサス州ハリス郡の2017年ハリケーン・ハーベイの状況において, 住民保護行動, インフラ・建築性能, 回復機能に関連する特徴群を用いて, 地域社会のリスクとレジリエンス性能について検討した。 これらの特徴は,K平均クラスタリング法を用いて,国勢調査ブロック群を4つの異なるクラスタに分類し,特徴分析に基づいて,これらのクラスタをラベル付け,4つのリスク耐性アーチタイプに指定した。 最後に、異なるクラスタと異なる所得集団の空間的領域におけるリスク・レジリエンス状態の相違について分析した。 これらの結果から, 人-インフラ系の複合性能と相互作用によって形成される空間領域のリスク・レジリエンス状態が明らかとなった。 結果は、高リスク領域における高いレジリエンスに寄与する特徴についても知らせる。 例えば, 高リスク地域では, 避難率は高いレジリエンスに寄与し, 低リスク地域では, 高いレジリエンスに寄与した。

There is a limitation in the literature of data-driven analyses for the ex-post evaluation of community risk and resilience, particularly using features related to the performance of coupled human-infrastructure systems. To address this gap, in this study we created a machine learning-based method for the ex-post assessment of community risk and resilience and their interplay based on features related to the coupled human-infrastructure systems performance. Utilizing feature groups related to population protective actions, infrastructure/building performance features, and recovery features, we examined the risk and resilience performance of communities in the context of the 2017 Hurricane Harvey in Harris County, Texas. These features related to the coupled human-infrastructure systems performance were processed using the K-means clustering method to classify census block groups into four distinct clusters then, based on feature analysis, these clusters were labeled and designated into four quadrants of risk-resilience archetypes. Finally, we analyzed the disparities in risk-resilience status of spatial areas across different clusters as well as different income groups. The findings unveil the risk-resilience status of spatial areas shaped by their coupled human-infrastructure systems performance and their interactions. The results also inform about features that contribute to high resilience in high-risk areas. For example, the results indicate that in high-risk areas, evacuation rates contributed to a greater resilience, while in low-risk areas, preparedness contributed to greater resilience.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-12
# シミュレーション最適化による言語モデルプロンプト選択

Language Model Prompt Selection via Simulation Optimization ( http://arxiv.org/abs/2404.08164v1 )

ライセンス: Link先を確認
Haoting Zhang, Jinghai He, Rhonda Righter, Zeyu Zheng, (参考訳) 生成言語モデルの発展に伴い,近年,プロンプトの選択が注目されている。 プロンプト(英: prompt)は、コンテンツ生成において生成言語モデルのガイドとして機能する、ユーザが提供する命令または記述である。 人間の労働力に基づくプロンプト選択手法は存在するが、シミュレーション最適化により、選択したプロンプトに対する事前定義されたスコアを最大化することを目的として、この選択を容易にすることを検討する。 具体的には,2段階のフレームワークを提案する。 第一段階では、各プロンプトが適度な次元ベクトルで表されるような十分数で可能なプロンプトの集合を決定する。 評価と選択の次の段階において、プロンプトを表す中等次元ベクトルに関するスコアの代理モデルを構築する。 この構築された代理モデルに基づいて、逐次評価のプロンプトを選択することを提案する。 本フレームワークにおける逐次評価手順の整合性を証明する。 また,提案手法の有効性を示す数値実験を行い,実装の実践的指導を行う。

With the advancement in generative language models, the selection of prompts has gained significant attention in recent years. A prompt is an instruction or description provided by the user, serving as a guide for the generative language model in content generation. Despite existing methods for prompt selection that are based on human labor, we consider facilitating this selection through simulation optimization, aiming to maximize a pre-defined score for the selected prompt. Specifically, we propose a two-stage framework. In the first stage, we determine a feasible set of prompts in sufficient numbers, where each prompt is represented by a moderate-dimensional vector. In the subsequent stage for evaluation and selection, we construct a surrogate model of the score regarding the moderate-dimensional vectors that represent the prompts. We propose sequentially selecting the prompt for evaluation based on this constructed surrogate model. We prove the consistency of the sequential evaluation procedure in our framework. We also conduct numerical experiments to demonstrate the efficacy of our proposed framework, providing practical instructions for implementation.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# IoT暗号化アルゴリズムの軽量クリプトアナリシス : Quota Smpling the Answer?

Lightweight Cryptanalysis of IoT Encryption Algorithms : Is Quota Sampling the Answer? ( http://arxiv.org/abs/2404.08165v1 )

ライセンス: Link先を確認
Jonathan Cook, Sabih ur Rehman, M. Arif Khan, (参考訳) IoT(Internet of Things, モノのインターネット)として知られる小さなセンサーデバイスが急速に増加し、軽量な暗号化アルゴリズムが開発されている。 2つの有名な軽量アルゴリズムはSIMONとSIMECKである。 これらの軽量暗号化アルゴリズムは、差分暗号解析の脆弱性を示すことが知られている、効率的なFeistelブロック構造に基づいている。 したがって、このような攻撃に対してレジリエンスのためにこれらのアルゴリズムをテストする必要がある。 既存の最先端の研究は、従来の手法の時間効率を改善するための新しいヒューリスティックな微分暗号解析法を実証しているが、これらの暗号アルゴリズムの大規模な状態サイズは、暗号解析の時間効率を阻害している。 本稿では,VISTA-CRYPT(Versatile Investigationative Smpling Technique for Advanced Cryptanalysis)を提案する。 提案手法は,既存の手法よりも最大7,6\%の時間短縮を達成し,最先端の結果を生成する,単純なクォータサンプリングの枠組みを導入する。 さらに、データ内の関係の同定のための出力差分に関する予備的なグラフベース解析を行い、さらに差分解析の性能を高めるための今後の研究機会について述べる。 この作業と関連するデータセットのために設計されたコードは、https://github.com/johncook1979/simon-cryptanalysis.comで入手できる。

Rapid growth in the number of small sensor devices known as the Internet of Things (IoT) has seen the development of lightweight encryption algorithms. Two well-known lightweight algorithms are SIMON and SIMECK which have been specifically designed for use on resource-constrained IoT devices. These lightweight encryption algorithms are based on the efficient Feistel block structure which is known to exhibit vulnerabilities to differential cryptanalysis. Consequently, it is necessary to test these algorithms for resilience against such attacks. While existing state-of-the-art research has demonstrated novel heuristic methods of differential cryptanalysis that improve time efficiency on previous techniques, the large state sizes of these encryption algorithms inhibit cryptanalysis time efficiency. In this paper, we introduce Versatile Investigative Sampling Technique for Advanced Cryptanalysis (VISTA-CRYPT) - a time-efficient enhancement of differential cryptanalysis of lightweight encryption algorithms. The proposed technique introduces a simple framework of quota sampling that produces state-of-the-art results with time reductions of up to $76\%$ over existing techniques. Further, we present a preliminary graph-based analysis of the output differentials for the identification of relationships within the data and future research opportunities to further enhance the performance of differential cryptanalysis. The code designed for this work and associated datasets will be available at https://github.com/johncook1979/simon-cryptanalysis.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# レグレッション・アズ・クラス化によるコンフォーマル予測

Conformal Prediction via Regression-as-Classification ( http://arxiv.org/abs/2404.08168v1 )

ライセンス: Link先を確認
Etash Guha, Shlok Natarajan, Thomas Möllenhoff, Mohammad Emtiyaz Khan, Eugene Ndiaye, (参考訳) 回帰のコンフォーマル予測(CP)は、特に出力分布がヘテロセダスティック、マルチモーダル、スキュードである場合、困難である。 問題のいくつかは、出力上の分布を推定することで解決できるが、実際には、そのようなアプローチは推定誤差に敏感であり、不安定な間隔を生じる。 そこで我々は、回帰を分類問題に変換し、分類にCPを用いて回帰のCP集合を得るという課題を回避する。 〜連続出力空間の順序を保つため、我々は新しい損失関数を設計し、CP分類技術に必要な修正を加える。 この単純なアプローチは、多くの実践的な問題に対して驚くほど良い結果をもたらすことを示している。

Conformal prediction (CP) for regression can be challenging, especially when the output distribution is heteroscedastic, multimodal, or skewed. Some of the issues can be addressed by estimating a distribution over the output, but in reality, such approaches can be sensitive to estimation error and yield unstable intervals.~Here, we circumvent the challenges by converting regression to a classification problem and then use CP for classification to obtain CP sets for regression.~To preserve the ordering of the continuous-output space, we design a new loss function and make necessary modifications to the CP classification techniques.~Empirical results on many benchmarks shows that this simple approach gives surprisingly good results on many practical problems.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# 統計的推論のための最適ユニバーサル量子符号化

Optimal Universal Quantum Encoding for Statistical Inference ( http://arxiv.org/abs/2404.08172v1 )

ライセンス: Link先を確認
Farhad Farokhi, (参考訳) 量子コンピューティングを用いた統計的推論のための古典データの最適符号化について検討した。 幅広い統計的推論タスクに最適なユニバーサルエンコーダを求める。 統計的推論の正確性は、古典的なデータ、すなわち推論モデルへの入力の量子符号化による最大量子リークに比例する用語によって上界であることが示されている。 このことは、最大量子リークは、推論タスク自体ではなくデータの量子符号化にのみ依存するため、統計的推論のための符号化戦略の品質の普遍的な尺度であることを示している。 最適普遍符号化戦略、すなわち最大量子リークを最大化する符号化戦略は、純粋な状態によって達成されることが証明される。 十分な量子ビットが存在する場合、基底符号化は普遍的に最適であることが証明される。 最適な普遍符号化戦略を数値計算する反復的手法を提案する。

Optimal encoding of classical data for statistical inference using quantum computing is investigated. A universal encoder is sought that is optimal for a wide array of statistical inference tasks. Accuracy of any statistical inference is shown to be upper bounded by a term that is proportional to maximal quantum leakage from the classical data, i.e., the input to the inference model, through its quantum encoding. This demonstrates that the maximal quantum leakage is a universal measure of the quality of the encoding strategy for statistical inference as it only depends on the quantum encoding of the data and not the inference task itself. The optimal universal encoding strategy, i.e., the encoding strategy that maximizes the maximal quantum leakage, is proved to be attained by pure states. When there are enough qubits, basis encoding is proved to be universally optimal. An iterative method for numerically computing the optimal universal encoding strategy is presented.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# ポリトピック不確かさグラフによるグラフ学習の導入

Introducing Graph Learning over Polytopic Uncertain Graph ( http://arxiv.org/abs/2404.08176v1 )

ライセンス: Link先を確認
Masako Kishida, Shunsuke Ono, (参考訳) この拡張抽象概念は、基礎となるグラフがポリトピー的不確実性を持つ場合、すなわちグラフが正確には知られていないが、そのパラメータや性質が既知の範囲内で異なる場合に適用できるグラフ学習のクラスを導入している。 グラフが2つの確立されたグラフ学習フレームワークにポリトピックセットにあるというこの仮定を取り入れることで、我々の手法はより少ない計算でより良い結果が得られることが分かる。

This extended abstract introduces a class of graph learning applicable to cases where the underlying graph has polytopic uncertainty, i.e., the graph is not exactly known, but its parameters or properties vary within a known range. By incorporating this assumption that the graph lies in a polytopic set into two established graph learning frameworks, we find that our approach yields better results with less computation.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# 近隣住民への支払い:訓練不要なオープンボキャブラリセマンティックセマンティックセグメンテーション

Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2404.08181v1 )

ライセンス: Link先を確認
Sina Hajimiri, Ismail Ben Ayed, Jose Dolz, (参考訳) セマンティックセグメンテーションのような濃密な視覚認識問題に対するディープラーニングの進歩にもかかわらず、従来の手法は固定クラスセットによって制約される。 一方、CLIPのような視覚言語基盤モデルは、その堅牢な一般化性のため、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。 近年,オープン語彙セマンティックセマンティックセグメンテーション(OVSS)におけるこれらのモデルの利用について研究が行われている。 しかし、既存のアプローチは、しばしば非現実的な事前訓練や、追加の事前訓練されたネットワークへのアクセスに依存している。 本研究では,Nighbour-Aware CLIP (NACLIP, Neighbour-Aware CLIP) と呼ばれる,トレーニング不要なOVSSのための強力なベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。 セグメンテーションを優先する設計選択を組み込むことで、付加データ、補助訓練ネットワーク、広範ハイパーパラメータチューニングを必要とせず、性能を著しく向上させ、現実のアプリケーションに非常に実用的である。 8つの一般的なセマンティックセグメンテーションベンチマークで実験が行われ、ほとんどのシナリオで最先端のパフォーマンスが得られる。 私たちのコードはhttps://github.com/sinahmr/NACLIPで公開されています。

Despite the significant progress in deep learning for dense visual recognition problems, such as semantic segmentation, traditional methods are constrained by fixed class sets. Meanwhile, vision-language foundation models, such as CLIP, have showcased remarkable effectiveness in numerous zero-shot image-level tasks, owing to their robust generalizability. Recently, a body of work has investigated utilizing these models in open-vocabulary semantic segmentation (OVSS). However, existing approaches often rely on impractical supervised pre-training or access to additional pre-trained networks. In this work, we propose a strong baseline for training-free OVSS, termed Neighbour-Aware CLIP (NACLIP), representing a straightforward adaptation of CLIP tailored for this scenario. Our method enforces localization of patches in the self-attention of CLIP's vision transformer which, despite being crucial for dense prediction tasks, has been overlooked in the OVSS literature. By incorporating design choices favouring segmentation, our approach significantly improves performance without requiring additional data, auxiliary pre-trained networks, or extensive hyperparameter tuning, making it highly practical for real-world applications. Experiments are performed on 8 popular semantic segmentation benchmarks, yielding state-of-the-art performance on most scenarios. Our code is publicly available at https://github.com/sinahmr/NACLIP .
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# 深層学習型リモート光胸波モデル類似性を用いた領域シフトの測定

Measuring Domain Shifts using Deep Learning Remote Photoplethysmography Model Similarity ( http://arxiv.org/abs/2404.08184v1 )

ライセンス: Link先を確認
Nathan Vance, Patrick Flynn, (参考訳) ディープラーニングモデルのトレーニングデータとデプロイメントコンテキストのドメインシフトの違いは、一般化に失敗するモデルのパフォーマンス上の深刻な問題を引き起こす可能性がある。 本稿では,遠隔光胸腺撮影(rPPG)のコンテキスト下での領域シフト問題について検討する。 ドメインシフトの尺度として使用できるモデル類似度に基づくメトリクスを提案し,これらの指標と経験的性能との間に高い相関関係を示す。 DS-diffと呼ばれる実効性のある相関を持つ指標の一つは、対象領域の基底的真理へのアクセスを前提としていない。 そこで,評価領域の真理結果が不明なモデル選択問題について検討し,平均ケースベースラインに対して13.9%の性能向上を示した。

Domain shift differences between training data for deep learning models and the deployment context can result in severe performance issues for models which fail to generalize. We study the domain shift problem under the context of remote photoplethysmography (rPPG), a technique for video-based heart rate inference. We propose metrics based on model similarity which may be used as a measure of domain shift, and we demonstrate high correlation between these metrics and empirical performance. One of the proposed metrics with viable correlations, DS-diff, does not assume access to the ground truth of the target domain, i.e. it may be applied to in-the-wild data. To that end, we investigate a model selection problem in which ground truth results for the evaluation domain is not known, demonstrating a 13.9% performance improvement over the average case baseline.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-12
# 魚眼カメラ用CNNのリトレーニングなし適応

Adapting CNNs for Fisheye Cameras without Retraining ( http://arxiv.org/abs/2404.08187v1 )

ライセンス: Link先を確認
Ryan Griffiths, Donald G. Dansereau, (参考訳) 画像処理アプローチの大多数は、画像が入っているか、あるいは視点投影に修正可能であると仮定している。 しかし、多くの応用において、より広い視野(FOV)を持つ魚眼カメラのような従来のカメラを使う方が有益である。 問題は、これらの大きなFOV画像は、元の画像のかなりの刈り取らなければ、視点投影に修正できないことである。 この問題に対処するために、我々は、事前学習された畳み込みネットワークを新たな非パースペクティブなイメージで運用するための新しいアプローチであるRectified Convolutions (RectConv)を提案する。 RectConvレイヤでネットワークの畳み込みレイヤをリプレースすることで、ネットワークは修正パッチとFOV全体を見ることができる。 RectConvは、複数のトレーニング済みネットワークに適応して、2つの公開データセットから魚眼画像のセグメンテーションと検出を行う。 このアプローチでは、追加のデータやトレーニングは必要とせず、カメラからキャプチャしたネイティブイメージを直接操作します。 この研究は、視野画像に利用可能な膨大なリソースを広い範囲のカメラジオメトリに適応させるための一歩だと私たちは考えています。

The majority of image processing approaches assume images are in or can be rectified to a perspective projection. However, in many applications it is beneficial to use non conventional cameras, such as fisheye cameras, that have a larger field of view (FOV). The issue arises that these large-FOV images can't be rectified to a perspective projection without significant cropping of the original image. To address this issue we propose Rectified Convolutions (RectConv); a new approach for adapting pre-trained convolutional networks to operate with new non-perspective images, without any retraining. Replacing the convolutional layers of the network with RectConv layers allows the network to see both rectified patches and the entire FOV. We demonstrate RectConv adapting multiple pre-trained networks to perform segmentation and detection on fisheye imagery from two publicly available datasets. Our approach requires no additional data or training, and operates directly on the native image as captured from the camera. We believe this work is a step toward adapting the vast resources available for perspective images to operate across a broad range of camera geometries.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# Retrieval-Augmented Generationによる構造出力の幻覚の低減

Reducing hallucination in structured outputs via Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.08189v1 )

ライセンス: Link先を確認
Patrice Béchard, Orlando Marquez Ayala, (参考訳) ジェネレーティブAI(GenAI)の共通かつ基本的な制限は、幻覚への適合性である。 大規模な言語モデル(LLM)は、少なくとも幻覚を排除または軽減することなく、世界を嵐に巻き込んだが、現実のGenAIシステムは、ユーザの採用において課題に直面している。 自然言語要求に基づいてワークフローを生成するエンタープライズアプリケーションをデプロイする過程で、そのようなワークフローを表す構造化アウトプットの品質を大幅に向上させるために、検索拡張生成(RAG)を利用したシステムを考案した。 RAGの実装により、提案システムは出力の幻覚を著しく低減し、ドメイン外設定でのLCMの一般化を改善する。 さらに,小型で訓練のよいレトリバーエンコーダを使用すれば,付随するLLMのサイズが小さくなり,LLMベースのシステムの展開が資源集約化されにくくなることを示す。

A common and fundamental limitation of Generative AI (GenAI) is its propensity to hallucinate. While large language models (LLM) have taken the world by storm, without eliminating or at least reducing hallucinations, real-world GenAI systems may face challenges in user adoption. In the process of deploying an enterprise application that produces workflows based on natural language requirements, we devised a system leveraging Retrieval Augmented Generation (RAG) to greatly improve the quality of the structured output that represents such workflows. Thanks to our implementation of RAG, our proposed system significantly reduces hallucinations in the output and improves the generalization of our LLM in out-of-domain settings. In addition, we show that using a small, well-trained retriever encoder can reduce the size of the accompanying LLM, thereby making deployments of LLM-based systems less resource-intensive.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# バイトにおける言語間移動の測定

Measuring Cross-lingual Transfer in Bytes ( http://arxiv.org/abs/2404.08191v1 )

ライセンス: Link先を確認
Leandro Rodrigues de Souza, Thales Sales Almeida, Roberto Lotufo, Rodrigo Nogueira, (参考訳) 多言語事前学習は、言語のためのリソースの不足によって引き起こされる課題に対するソリューションとして成功している。 これらのモデルは、最小または全く例のないターゲット言語に知識を伝達することができる。 近年の研究では、モノリンガルモデルも同様の機能を持つことが示唆されているが、この移動のメカニズムはいまだ不明である。 言語汚染や構文的類似性などの要因を調査する研究もある。 言語モデルによって学習された表現は、言語固有のコンポーネントと言語に依存しないコンポーネントの2つのコンポーネントを含んでいることを示唆している。 後者はより普遍的な知識を伝達する責任がある。 しかし、これらの特性を多種多様な対象言語で包括的に探索する能力は欠如している。 この仮説を考察するため,我々はScaling Laws for Transferに触発された実験を行った。 我々は,ソース言語から対象言語へ転送されるデータ量を測定し,多言語から初期化したモデルが,言語横断的な設定でターゲット言語と類似して機能することを発見した。 これは、スペイン語、韓国語、フィンランド語など10の多様なターゲット言語に転送されるデータの量にかなり似ているため、驚くべきことだった。 また,この移行が言語汚染や言語近接に関係しないという証拠も見出され,このモデルが言語に依存しない知識にも依存しているという仮説が強まった。 我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。

Multilingual pretraining has been a successful solution to the challenges posed by the lack of resources for languages. These models can transfer knowledge to target languages with minimal or no examples. Recent research suggests that monolingual models also have a similar capability, but the mechanisms behind this transfer remain unclear. Some studies have explored factors like language contamination and syntactic similarity. An emerging line of research suggests that the representations learned by language models contain two components: a language-specific and a language-agnostic component. The latter is responsible for transferring a more universal knowledge. However, there is a lack of comprehensive exploration of these properties across diverse target languages. To investigate this hypothesis, we conducted an experiment inspired by the work on the Scaling Laws for Transfer. We measured the amount of data transferred from a source language to a target language and found that models initialized from diverse languages perform similarly to a target language in a cross-lingual setting. This was surprising because the amount of data transferred to 10 diverse target languages, such as Spanish, Korean, and Finnish, was quite similar. We also found evidence that this transfer is not related to language contamination or language proximity, which strengthens the hypothesis that the model also relies on language-agnostic knowledge. Our experiments have opened up new possibilities for measuring how much data represents the language-agnostic representations learned during pretraining.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 弱教師付きセマンティックセグメンテーションにおける不確実性推論と親和性多様性の観点からの曖昧性への対処

Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.08195v1 )

ライセンス: Link先を確認
Zhiwei Yang, Yucong Meng, Kexue Fu, Shuo Wang, Zhijian Song, (参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに密集したタスクを達成しようとする。 しかし、あいまいな状況やファジィな地域のため、WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製は、それまでの文献ではほとんど知られていなかったあいまいさに悩まされている。 本稿では,不確実性推論と親和性多様化の観点から,この問題を効果的に解決するために,統一的な単一ステージWSSSフレームワークであるUniAを提案する。 クラスオブジェクトをアクティベートする場合、偽のアクティベーションは特徴抽出時のバイアスからあいまいな領域に起因していると論じる。 そこで,確率的ガウス分布を用いたより堅牢な特徴表現を設計し,バイアスを避けるために不確実性推定を導入する。 分散損失は特にプロセスの監督のために提案され、あいまいさを効果的に捉え、機能間の複雑な依存関係をモデル化する。 擬似ラベルを精錬する際,従来の改良手法の親和性はあいまいさに類似していることが観察された。 この目的のために、セマンティクス間の多様性を促進するために親和性多様化モジュールを提案する。 複数の擬似ラベルによるあいまいな親和性を補正する相互補完的改良を提案する。 さらに、対照的な親和性喪失は、関係のないセマンティクス間の関係を多様化し、特徴表現全体への多様性を確実に伝播させ、より良い擬似マスクを生成するようにも設計されている。 PASCAL VOC(英語版)、MS COCO(英語版)、医療ACDCデータセット(英語版)で大規模な実験が行われ、最近のシングルステージまたは最も多ステージの競合相手よりもUniAがあいまいに対処する効率と優越性を検証した。

Weakly supervised semantic segmentation (WSSS) with image-level labels intends to achieve dense tasks without laborious annotations. However, due to the ambiguous contexts and fuzzy regions, the performance of WSSS, especially the stages of generating Class Activation Maps (CAMs) and refining pseudo masks, widely suffers from ambiguity while being barely noticed by previous literature. In this work, we propose UniA, a unified single-staged WSSS framework, to efficiently tackle this issue from the perspective of uncertainty inference and affinity diversification, respectively. When activating class objects, we argue that the false activation stems from the bias to the ambiguous regions during the feature extraction. Therefore, we design a more robust feature representation with a probabilistic Gaussian distribution and introduce the uncertainty estimation to avoid the bias. A distribution loss is particularly proposed to supervise the process, which effectively captures the ambiguity and models the complex dependencies among features. When refining pseudo labels, we observe that the affinity from the prevailing refinement methods intends to be similar among ambiguities. To this end, an affinity diversification module is proposed to promote diversity among semantics. A mutual complementing refinement is proposed to initially rectify the ambiguous affinity with multiple inferred pseudo labels. More importantly, a contrastive affinity loss is further designed to diversify the relations among unrelated semantics, which reliably propagates the diversity into the whole feature representations and helps generate better pseudo masks. Extensive experiments are conducted on PASCAL VOC, MS COCO, and medical ACDC datasets, which validate the efficiency of UniA tackling ambiguity and the superiority over recent single-staged or even most multi-staged competitors.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# スケール(ダウン)CLIP: データ、アーキテクチャ、トレーニング戦略の総合的な分析

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies ( http://arxiv.org/abs/2404.08197v1 )

ライセンス: Link先を確認
Zichao Li, Cihang Xie, Ekin Dogus Cubuk, (参考訳) 本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。 データ、アーキテクチャ、トレーニング戦略の3つの側面に沿ってCLIPを調査します。 データに関して、高品質なトレーニングデータの重要性を示し、高品質なデータのデータセットがより少ない品質のデータセットよりも優れていることを示す。 また、モデルの性能がデータセットのサイズによってどう変化するかについても検討し、より小さなViTモデルはより小さなデータセットに適しており、大きなモデルはより大きなデータセットで、固定された計算でより良く動作することを示唆している。 さらに、CLIPトレーニングのためのCNNベースのアーキテクチャやVTベースのアーキテクチャを選択するタイミングに関するガイダンスも提供する。 SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。 私たちの分析によると、CLIP+Data Augmentationはトレーニングデータの半分しか使用せず、CLIPに匹敵するパフォーマンスを実現することができる。 この作業は、CLIPモデルを効果的にトレーニングし、デプロイする方法に関する実践的な洞察を提供する。

This paper investigates the performance of the Contrastive Language-Image Pre-training (CLIP) when scaled down to limited computation budgets. We explore CLIP along three dimensions: data, architecture, and training strategies. With regards to data, we demonstrate the significance of high-quality training data and show that a smaller dataset of high-quality data can outperform a larger dataset with lower quality. We also examine how model performance varies with different dataset sizes, suggesting that smaller ViT models are better suited for smaller datasets, while larger models perform better on larger datasets with fixed compute. Additionally, we provide guidance on when to choose a CNN-based architecture or a ViT-based architecture for CLIP training. We compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data Augmentation - and show that the choice of training strategy depends on the available compute resource. Our analysis reveals that CLIP+Data Augmentation can achieve comparable performance to CLIP using only half of the training data. This work provides practical insights into how to effectively train and deploy CLIP models, making them more accessible and affordable for practical use in various applications.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 絡み合い支援通信のための完全量子任意可変チャネル符号化

Fully quantum arbitrarily varying channel coding for entanglement-assisted communication ( http://arxiv.org/abs/2404.08200v1 )

ライセンス: Link先を確認
Paula Belzig, (参考訳) 送信側と受信側が接続する通信回線に関する正確な知識を欠いている場合、情報を確実に送信するスキームを設計することがより困難になる。 これは、複雑なチャネルモデルと任意に変化するチャネルモデルという文脈において古典的および量子的情報理論において研究されている。 しかし、システム不確実性の完全量子バージョンは、絡み合ったチャネルを使用するより難しいコーディングシナリオを可能にする。 この種のモデルは、以前は古典的および量子的容量について研究されてきた。 本稿では,このようなシステム不確実性の存在下での絡み合い支援能力の問題に対処する。 有限環境次元を仮定すると、対応する複合容量に等しいことが分かる。 興味深いことに,本研究の結果は,量子的に任意に変化するチャネルモデルにおいて,古典的なキャパシティが0に等しい間に,絡み合い支援容量が正となることを示唆している。

If a sender and a receiver lack precise knowledge about the communication line that connects them, designing a scheme to reliably transmit information becomes more challenging. This has been studied in classical and quantum information theory in the context of compound channel models and arbitrarily varying channel models. However, a fully quantum version of system uncertainty allows for an even more challenging coding scenario with entangled channel uses. This type of model has previously been investigated for classical and quantum capacity. Here, we address the problem of entanglement-assisted capacity in the presence of such system uncertainty. We find that, under the assumption of a finite environment dimension, it is equal to a corresponding compound capacity. Intriguingly, our results imply that in certain fully quantum arbitrarily varying channel models, the entanglement-assisted capacity can be positive while the classical capacity is equal to zero, a phenomenon that does not occur in regular single-channel coding.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 医用画像における高精度境界分割のための相互包摂機構

A Mutual Inclusion Mechanism for Precise Boundary Segmentation in Medical Images ( http://arxiv.org/abs/2404.08201v1 )

ライセンス: Link先を確認
Yizhi Pan, Junyi Xin, Tianhua Yang, Teeradaj Racharak, Le-Minh Nguyen, Guanqun Sun, (参考訳) 医用画像では、画像の正確なセグメンテーションは疾患の定量化、予後の評価、治療結果の評価に不可欠である。 しかし、既存の手法では、グローバルな特徴とローカルな特徴の深い統合が欠如しており、異常な領域や医療画像の境界の詳細に特別な注意を払わなかった。 この目的のために,医用画像の正確な境界セグメンテーションのための新しい深層学習ベースアプローチMIPC-Netを提案する。 私たちのアプローチは、放射線学者の作業パターンにインスパイアされたもので、2つの異なるモジュールを特徴付けています。 (i)<textbf{Mutual Inclusion of Position and Channel Attention (MIPC) module}:医療画像における境界セグメンテーションの精度を高めるために,位置特徴抽出時のチャネル情報へのフォーカスを高めるMIPCモジュールを導入する。 (ii) \textbf{GL-MIPC-Residue}: 医用画像の復元を改善するために, 無効な情報をフィルタリングし, 特徴抽出過程で失われた最も有効な情報を復元することにより, エンコーダとデコーダの統合性を高めるグローバルな残差接続であるGL-MIPC-Residueを提案する。 Dice coefficient (DSC) や Hausdorff Distance (HD) などの指標を用いて,Synapse, ISIC2018-Task, Segpc の3つの公開データセット上で提案モデルの性能を評価する。 本研究は,各モジュールがセグメンテーション結果の品質向上に寄与していることを示す。 さらに、両モジュールの助けを借りて、ベンチマークデータセット上のすべてのメトリクスの最先端メソッド、特にSynapseデータセット上のHDの2.23mm削減を実現し、精度の高い画像境界セグメンテーションのためのモデルの強化能力を強く評価する。 コードはhttps://github.com/SUN-1024/MIPC-Net.comで入手できる。

In medical imaging, accurate image segmentation is crucial for quantifying diseases, assessing prognosis, and evaluating treatment outcomes. However, existing methods lack an in-depth integration of global and local features, failing to pay special attention to abnormal regions and boundary details in medical images. To this end, we present a novel deep learning-based approach, MIPC-Net, for precise boundary segmentation in medical images. Our approach, inspired by radiologists' working patterns, features two distinct modules: (i) \textbf{Mutual Inclusion of Position and Channel Attention (MIPC) module}: To enhance the precision of boundary segmentation in medical images, we introduce the MIPC module, which enhances the focus on channel information when extracting position features and vice versa; (ii) \textbf{GL-MIPC-Residue}: To improve the restoration of medical images, we propose the GL-MIPC-Residue, a global residual connection that enhances the integration of the encoder and decoder by filtering out invalid information and restoring the most effective information lost during the feature extraction process. We evaluate the performance of the proposed model using metrics such as Dice coefficient (DSC) and Hausdorff Distance (HD) on three publicly accessible datasets: Synapse, ISIC2018-Task, and Segpc. Our ablation study shows that each module contributes to improving the quality of segmentation results. Furthermore, with the assistance of both modules, our approach outperforms state-of-the-art methods across all metrics on the benchmark datasets, notably achieving a 2.23mm reduction in HD on the Synapse dataset, strongly evidencing our model's enhanced capability for precise image boundary segmentation. Codes will be available at https://github.com/SUN-1024/MIPC-Net.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 一般二層非エルミート系による断熱への近道

Shortcuts to adiabaticity with general two-level non-Hermitian systems ( http://arxiv.org/abs/2404.08202v1 )

ライセンス: Link先を確認
T. Z. Luan, H. Z. Shen, X. X. Yi, (参考訳) 断熱性へのショートカット(英: shortcut to adiabaticity)は、有限あるいはそれ以上の時間で断熱過程と同じ最終状態を再現する代替の高速過程であり、近年ではエルミート系から非エルミート系へと拡張されているが、ハミルトニアンの非対角要素がエルミート系でない一般非エルミート系に対しては、ほとんど探索されていない。 本稿では, 一般の2レベル非エルミート系の集団移動を実現するために, 過渡的量子駆動アルゴリズムをベースとした非断熱処理手法のショートカットを提案し, 対応する反断熱駆動ハミルトニアンの正確な解析解と近似的解析解をそれぞれ与え, 後者は摂動理論を適用してゼロ次項と1次項に拡張することができる。 その結果, 1次補正項は, 対角要素の非ハーモニティ性に起因する前の結果と異なることがわかった。 制御関数の正確な表現と、その理論を示すためにゲインとロスを持つ一般的な2段階のシステムからなる実例について検討する。 以上の結果から,高忠実度集団移動は,強い非ハーミティティーと回転波近似を伴わずとも,一般の非エルミティアン系で実現可能であることが示唆された。 さらに, 量子情報処理に応用可能な原子-光相互作用系やささやき声の微小キャビティなどの実験技術により, 互いに共役しない非対角素子を多くの物理系で実装できることが示される。

Shortcuts to adiabaticity are alternative fast processes which reproduce the same final state as the adiabatic process in a finite or even shorter time, which have been extended from Hermitian systems to non-Hermitian systems in recent years, but they are barely explored for general non-Hermitian systems where off-diagonal elements of the Hamiltonian are not Hermitian. In this paper, we propose a shortcuts to adiabaticity technique which is based on a transitionless quantum driving algorithm to realize population transfer for general two-level non-Hermitian systems and give both exact and approximate analytical solutions of the corresponding counteradiabatic driving Hamiltonian, where the latter can be extended to the zeroth-order and first-order terms by applying perturbative theory. We find that the first-order correction term is different from the previous results, which is caused by the non-Hermiticity of the off-diagonal elements. We work out an exact expression for the control function and present examples consisting of a general two-level system with gain and loss to show the theory. The results suggest that the high-fidelity population transfer can be implemented in general non-Hermitian systems by our method, which works even with strong non-Hermiticity and without rotating wave approximation. Furthermore, we show that the general Hamiltonian the off-diagonal elements of which are not conjugate to each other can be implemented in many physical systems with the present experimental technology, such as an atom-light interaction system and whispering-gallery microcavity, which might have potential applications in quantum information processing.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# パラメトリック増幅器と非マルコフ効果を持つスピン共振器における光学的二階サイドバンドと群遅延

Optomechanical second-order sidebands and group delays in a spinning resonator with parametric amplifier and non-Markovian effects ( http://arxiv.org/abs/2404.08203v1 )

ライセンス: Link先を確認
Wei Zhang, H. Z. Shen, (参考訳) 縮退型光パラメトリック増幅器(OPA)を含むスピン共振器を用いて、2階サイドバンドにおける周波数成分の生成について検討した。 キャビティ内の異なるポンプ周波数で駆動されるOPAは、異なる影響で2階サイドバンドの振幅を増強・変調できることを示す。 OPAの非線形利得、OPAを駆動するフィールドの位相、共振器の回転速度、入力フィールドの入射方向に依存する。 OPAの励起周波数の調整は、光サニャック効果によるサイドバンド効率の最大値と非相互挙動の局所化に留まり、2階サイドバンドの抑制窓の幅を調整できる。 さらに、二階サイドバンドの研究を、無限発振器(ボソニックフォトニックモード)の集合からなる非マルコフ浴に拡張する。 スピン共振器における2次のサイドバンドは, 環境スペクトル幅を制御することによって, 非マルコフ系からマルコフ系への遷移を示す。 また、非マルコフ環境結合から外部貯留層への崩壊が2階上側バンドの効率に及ぼす影響についても検討する。 これは、非線形光学キャビティにおいて光学的に誘起される透明デバイスを拡張またはステアリングするための有望な新しい方法を示し、精度測定、光通信、量子センシングへの潜在的応用を提供する。

We investigate the generation of the frequency components at the second-order sidebands based on a spinning resonator containing a degenerate optical parametric amplifier (OPA). We show an OPA driven by different pumping frequencies inside a cavity can enhance and modulate the amplitude of the second-order sideband with different influences. We find that both the second-order sideband amplitude and its associated group delay sensitively depend on the nonlinear gain of the OPA, the phase of the field driving the OPA, the rotation speed of the resonator, and the incident direction of the input fields. Tuning the pumping frequency of the OPA can remain the localization of the maximum value of the sideband efficiency and nonreciprocal behavior due to the optical Sagnac effect, which also can adjust the linewidth of the suppressive window of the second-order sideband. Furthermore, we extend the study of second-order sideband to the non-Markovian bath which consists of a collection of infinite oscillators (bosonic photonic modes). We illustrate the second-order sidebands in a spinning resonator exhibit a transition from the non-Markovian to Markovian regime by controlling environmental spectral width. \textbf{We also study the influences of the decay from the non-Markovian environment coupling to an external reservoir on the efficiency of second-order upper sidebands.} This indicates a promising new way to enhance or steer optomechanically induced transparency devices in nonlinear optical cavities and provides potential applications for precision measurement, optical communications, and quantum sensing.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# クリロフ空間における量子多体カオスの分別

Dissecting Quantum Many-body Chaos in the Krylov Space ( http://arxiv.org/abs/2404.08207v1 )

ライセンス: Link先を確認
Liangyu Chen, Baoyuan Mu, Huajia Wang, Pengfei Zhang, (参考訳) 単純な作用素の成長はカオス力学と量子熱化の出現に不可欠である。 最近の研究では、時間外相関器やクリロフ複雑性など、さまざまな方法が提案されている。 時間外相関器は量子多体カオスのシグネチャとして機能し、クリロフ複雑性はその上限を提供する。 しかし、Krylov複雑性が指数関数的に増加する非カオス系が存在し、Krylov複雑性自体が多体カオスの証人ではないことを示している。 このレターでは、Krylov 計量 $K_{mn}$ という名前の欠落成分を紹介し、Krylov 基底のサイズを探索する。 本稿では,高速スクランブラーの普遍的基準について提案する。 i) クリロフ複雑性の指数的成長。 (ii) 対角元 $K_{nn}\sim n^h$ with $h\in(0,1]$, and (iii)非対角元 $K_{mn}$ と $m\neq n$ の無視性。 さらに、$h=\varkappa / 2\alpha$ は量子 Lyapunov exponent $\varkappa$ と Krylov exponent $\alpha$ の比であることを示す。 この提案は、解決可能なSYKモデル、Luttinger Liquids、多体ローカライズドシステムなど、一般的な議論と明示的な例の両方で支持されている。 この結果は、クリャロフ空間の観点からカオス力学がどのように現われるかの洗練された理解を与える。

The growth of simple operators is essential for the emergence of chaotic dynamics and quantum thermalization. Recent studies have proposed different measures, including the out-of-time-order correlator and Krylov complexity. It is established that the out-of-time-order correlator serves as the signature of quantum many-body chaos, while the Krylov complexity provides its upper bound. However, there exist non-chaotic systems in which Krylov complexity grows exponentially, indicating that the Krylov complexity itself is not a witness of many-body chaos. In this letter, we introduce the missing ingredient, named as the Krylov metric $K_{mn}$, which probes the size of the Krylov basis. We propose that the universal criteria for fast scramblers include (i) the exponential growth of Krylov complexity, (ii) the diagonal elements $K_{nn}\sim n^h$ with $h\in(0,1]$, and (iii) the negligibility of off-diagonal elements $K_{mn}$ with $m\neq n$. We further show that $h=\varkappa / 2\alpha$ is a ratio between the quantum Lyapunov exponent $\varkappa$ and the Krylov exponent $\alpha$. This proposal is supported by both generic arguments and explicit examples, including solvable SYK models, Luttinger Liquids, and many-body localized systems. Our results provide a refined understanding of how chaotic dynamics emerge from the Krylov space perspective.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# ツイスト二層格子におけるフラクタルスペクトル

Fractal spectrum in twisted bilayer optical lattice ( http://arxiv.org/abs/2404.08211v1 )

ライセンス: Link先を確認
Xu-Tao Wan, Chao Gao, Zhe-Yu Shi, (参考訳) 格子の翻訳対称性は、垂直磁場[Zak, Phys]を受けると大きく変化する。 Rev. \textbf{134}, A1602 (1964)] この対称性の変化は、元のものよりもかなり大きい磁気単位細胞に繋がる。 同様に、二重層格子の翻訳特性は劇的に変化し、2つの単層は小さな角度で相対的にねじれ、その結果、大規模なモワール{e} 単位細胞となる。 この類似性により、ツイスト2層光学格子の完全なバンド構造を計算し、幾何学的モワール{e}効果がフラクタルバンド構造を誘導できることを示す。 フラクタルは2つの単層間のねじれ角によって制御され、2次元ブロッホ電子の祝福バタフライスペクトルに磁場[ホフシュタッター, フィス]で密接に関連している。 B \textbf{14}, 2239 (1976)] このことは、ツイストされた2層光学格子が、長距離ホッピングを持つ一般化されたホフシュタッターのモデルにマッピング可能であることを証明して示している。 さらに、スペクトルの無限再帰構造に関する数値的な証拠を提供し、これらの構造を計算するためのアルゴリズムを提供する。

The translation symmetry of a lattice is greatly modified when subjected to a perpendicular magnetic field [Zak, Phys. Rev. \textbf{134}, A1602 (1964)]. This change in symmetry can lead to magnetic unit cells that are substantially larger than the original ones. Similarly, the translation properties of a double-layered lattice alters drastically while two monolayers are relatively twisted by a small angle, resulting in large-scale moir\'{e} unit cells. Intrigued by the resemblance, we calculate the complete band structures of a twisted bilayer optical lattice and show that the geometric moir\'{e} effect can induce fractal band structures. The fractals are controlled by the twist angle between two monolayers and are closely connected to the celebrated butterfly spectrum of two-dimensional Bloch electrons in a magnetic field [Hofstadter, Phys. Rev. B \textbf{14}, 2239 (1976)]. We demonstrate this by proving that the twisted bilayer optical lattice can be mapped to a generalized Hofstadter's model with long-range hopping. Furthermore, we provide numerical evidence on the infinite recursive structures of the spectrum and give an algorithm for computing these structures.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 単一イオンフォノンレーザーによる量子同期のためのエンタングルメントシグネチャ

Entanglement signatures for quantum synchronization with single-ion phonon laser ( http://arxiv.org/abs/2404.08214v1 )

ライセンス: Link先を確認
Si-Wen He, Zhi-Jiao Deng, Yi Xie, Yan-Yi Wang, Ping-Xing Chen, (参考訳) 外部駆動を受ける単一イオンフォノンレーザーに基づく量子同期の絡み合い特性について検討した。 イオンの内部状態と外部状態の間の定常な絡み合いの最大値は、同期から非同期化までのノイズレス境界付近で発生し、絡み合いの対応する時間進化の間に顕著な振動挙動が伴う。 さらに、後続のエンタングルメントのダイナミクスは、観測された周波数の曲げと、Liouvillian 固有スペクトルの最初の2つの固有値におけるLiouvillian 例外点(LEPs)の出現との強い一貫性によって証明されるように、周波数エントレメントの発生も示している。 さらに、周波数エントレメントと密接に関連しているLEPの出現は、量子同期において広く観察され、LEPベースのアプリケーションで探索できる。

The entanglement properties of quantum synchronization, based on a single-ion phonon laser subjected to an external drive, have been studied. It is found that the maximum value of steady-state entanglement between the ion's internal and external states occurs near the noiseless boundary from synchronization to unsynchronization, accompanied by noticeable oscillatory behaviors during the corresponding time evolution of entanglement. In addition, the later time dynamics of entanglement also indicates the occurrence of frequency entrainment, as evidenced by the strong consistency between the bending of the observed frequency and the emergence of Liouvillian exceptional points (LEPs) in the first two eigenvalues of the Liouvillian eigenspectrum. Moreover, the emergence of LEPs, which is intimately associated with frequency entrainment, should be widely observed in quantum synchronization and can be explored in LEPs-based applications.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 動的チャンス制約Knapsack問題に対するスライディングウィンドウ選択を用いた多目的進化アルゴリズム

Multi-Objective Evolutionary Algorithms with Sliding Window Selection for the Dynamic Chance-Constrained Knapsack Problem ( http://arxiv.org/abs/2404.08219v1 )

ライセンス: Link先を確認
Kokila Kasuni Perera, Aneta Neumann, (参考訳) 進化的アルゴリズムは、動的および確率的成分の最適化問題に特に有効である。 静的および動的重み制約の下で確率的利益を持つknapsack問題に対する多目的進化的アプローチを提案する。 確率制約問題モデルにより、確率的利益を効果的に捉え、信頼性レベルをソリューションの利益に関連付けることができる。 我々は、期待される利益を最大化し、分散を最小限にし、利益に対する特定の信頼レベルに依存しない問題を最適化できる、双目的の定式化を考える。 重み制約を緩和して3目的の定式化を導出する。 本稿では,GSEMOアルゴリズムの標準およびスライディングウインドウに基づく親選択について検討し,目的とする定式化を評価する。 さらに、動的問題変種に対する適合度定式化とアルゴリズムを変更し、将来的な変化に対応するために、いくつかの実現不可能なソリューションを格納する。 提案した問題定式化とアルゴリズムを用いて,両問題を実験的に検討する。 以上の結果から,GSEMOがスライディングウインドウ選択を用いた場合,2目的の定式化を用いた3目的のアプローチの方が優れており,さらに改善されていることが明らかとなった。

Evolutionary algorithms are particularly effective for optimisation problems with dynamic and stochastic components. We propose multi-objective evolutionary approaches for the knapsack problem with stochastic profits under static and dynamic weight constraints. The chance-constrained problem model allows us to effectively capture the stochastic profits and associate a confidence level to the solutions' profits. We consider a bi-objective formulation that maximises expected profit and minimises variance, which allows optimising the problem independent of a specific confidence level on the profit. We derive a three-objective formulation by relaxing the weight constraint into an additional objective. We consider the GSEMO algorithm with standard and a sliding window-based parent selection to evaluate the objective formulations. Moreover, we modify fitness formulations and algorithms for the dynamic problem variant to store some infeasible solutions to cater to future changes. We conduct experimental investigations on both problems using the proposed problem formulations and algorithms. Our results show that three-objective approaches outperform approaches that use bi-objective formulations, and they further improve when GSEMO uses sliding window selection.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 量子幾何テンソルと拡張Su-Schrieffer-Heegerモデルの位相特性

Quantum geometric tensor and the topological characterization of the extended Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2404.08222v1 )

ライセンス: Link先を確認
Xiang-Long Zeng, Wen-Xi Lai, Yi-Wen Wei, Yu-Quan Ma, (参考訳) 長距離ホッピング項を持つ周期変調Su-Schrieffer-Heeger(SSH)モデルにおける量子計量およびトポロジカルオイラー数について検討する。 量子幾何学テンソルを計算することにより、エネルギーバンド電子の量子計量とベリー曲率の正確な式を導出し、第1チャーン数でマークされたモデルの位相図を得る。 さらに、第1ブリルアンゾーンにおける閉ブロッホ状態多様体の位相的特徴付けに関するガウス・ボンネットの定理に基づくエネルギーバンドの位相的オイラー数も得られる。 しかしながら、ベリー曲率が第1ブリルアンゾーンで等しくゼロであるいくつかの領域は、量子計量の縮退をもたらし、不定義の非整数位相オイラー数をもたらす。 それでも、非整数の「オイラー数」は貴重な洞察を与え、チャーン数の絶対値の上限を与える。

We investigate the quantum metric and topological Euler number in a cyclically modulated Su-Schrieffer-Heeger (SSH) model with long-range hopping terms. By computing the quantum geometry tensor, we derive exactly expressions for the quantum metric and Berry curvature of the energy band electrons, and we obtain the phase diagram of the model marked by the first Chern number. Furthermore, we also obtain the topological Euler number of the energy band based on the Gauss-Bonnet theorem on the topological characterization of the closed Bloch states manifold in the first Brillouin zone. However, some regions where the Berry curvature is identically zero in the first Brillouin zone results in the degeneracy of the quantum metric, which leads to ill-defined non-integer topological Euler numbers. Nevertheless, the non-integer "Euler number" provides valuable insights and provide an upper bound for absolute values of the Chern numbers.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# HCL-MTSAD:産業用多変量時系列異常の高精度検出のための階層的コントラスト整合学習

HCL-MTSAD: Hierarchical Contrastive Consistency Learning for Accurate Detection of Industrial Multivariate Time Series Anomalies ( http://arxiv.org/abs/2404.08224v1 )

ライセンス: Link先を確認
Haili Sun, Yan Huang, Lansheng Han, Cai Fu, Chunjie Zhou, (参考訳) 多変量時系列(MTS)異常検出は、産業用アプリケーションの安全性と安全性を確保する上で重要な、標準的な運用パターンから分岐するサンプルをピンポイントで検出することに焦点を当てている。 この領域の最大の課題は、異常を効果的に識別できる表現を開発することである。 文献における異常検出の一般的な方法は、主に再構築ベースで、自然界で予測的である。 しかし、それらは典型的には一次元のインスタンスレベルに集中しており、工業的MSSに固有の複雑な関連を十分に利用していない。 この問題に対処するために,HCL-MTSADと呼ばれるMTSの異常を検出するための,自己教師付き階層的コントラスト整合学習手法を提案する。 産業MSSに固有の複数のレベルでデータの一貫性を革新的に活用し、4つの潜伏レベル、サンプル、チャネル、プロセスにわたる一貫性のある関連を体系的にキャプチャする。 HCL-MTSADは、多層的な対照的な損失を発生させることで、データの一貫性と時空間的関連を広範囲にマイニングし、より情報的な表現をもたらす。 その後、自己教師付き階層的コントラスト学習に基づく異常識別モジュールが、マルチスケールデータの一貫性を計算してタイムスタンプレベルの異常を検出するように設計されている。 HCL-MTSADの異常検出能力は、実際のサイバー物理システムとサーバマシンから取得した6つの多様なMSSデータセットで実施された大規模な実験により、F1スコアの平均1.8\%で最先端のベンチマークモデルより優れていることが示されている。

Multivariate Time Series (MTS) anomaly detection focuses on pinpointing samples that diverge from standard operational patterns, which is crucial for ensuring the safety and security of industrial applications. The primary challenge in this domain is to develop representations capable of discerning anomalies effectively. The prevalent methods for anomaly detection in the literature are predominantly reconstruction-based and predictive in nature. However, they typically concentrate on a single-dimensional instance level, thereby not fully harnessing the complex associations inherent in industrial MTS. To address this issue, we propose a novel self-supervised hierarchical contrastive consistency learning method for detecting anomalies in MTS, named HCL-MTSAD. It innovatively leverages data consistency at multiple levels inherent in industrial MTS, systematically capturing consistent associations across four latent levels-measurement, sample, channel, and process. By developing a multi-layer contrastive loss, HCL-MTSAD can extensively mine data consistency and spatio-temporal association, resulting in more informative representations. Subsequently, an anomaly discrimination module, grounded in self-supervised hierarchical contrastive learning, is designed to detect timestamp-level anomalies by calculating multi-scale data consistency. Extensive experiments conducted on six diverse MTS datasets retrieved from real cyber-physical systems and server machines, in comparison with 20 baselines, indicate that HCL-MTSAD's anomaly detection capability outperforms the state-of-the-art benchmark models by an average of 1.8\% in terms of F1 score.
翻訳日:2024-04-15 16:05:17 公開日:2024-04-12
# 適応画像モデルによる連続手話認識の改善

Improving Continuous Sign Language Recognition with Adapted Image Models ( http://arxiv.org/abs/2404.08226v1 )

ライセンス: Link先を確認
Lianyu Hu, Tongkai Shi, Liqing Gao, Zekang Liu, Wei Feng, (参考訳) ウェブスケールの弱ラベル付き画像テキストペアの増大は、大規模な視覚言語モデル(例えばCLIP)の開発を大いに促進し、一連の下流タスクにおいて顕著な一般化性能を示した。 しかし、利用可能なデータの巨大なモデルサイズと不足は、ダウンストリームタスクでモデル全体を微調整するアプリケーションを制限する。 さらに、モデルを完全に微調整することで、事前学習段階で得られた一般的な本質的な知識を忘れやすくなり、下流データに過度に適合する。 このような大きな視覚言語モデル(例えばCLIP)を、一般化性を維持しつつCSLR(Continuous sign Language Recognition)の実行に適用する上で、高い効率性を実現するために、新しい戦略(AdaptSign)を提案する。 特に、パラメータが固定されたフレームワイズ特徴を抽出する視覚バックボーンとしてCLIPを採用し、空間記号の変動をモデル化したり、時間記号の動きをキャプチャするために学習可能なモジュールセットを導入する。 追加モジュールは非常に軽量で、高い効率で3.2%の余分な計算しか持たない。 プレトレーニング段階で得られた一般的な知識は、この過程で凍結したCLIPのバックボーンによく保存されている。 大規模な実験によると、AdaptSignは効率が良いにもかかわらず、既存の手法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れた性能を示すことができる。 可視化によって、AdaptSignは、手話ビデオにおける情報的空間領域やクロスフレームの軌跡に動的に注意を払うことができる。

The increase of web-scale weakly labelled image-text pairs have greatly facilitated the development of large-scale vision-language models (e.g., CLIP), which have shown impressive generalization performance over a series of downstream tasks. However, the massive model size and scarcity of available data limit their applications to fine-tune the whole model in downstream tasks. Besides, fully fine-tuning the model easily forgets the generic essential knowledge acquired in the pretraining stage and overfits the downstream data. To enable high efficiency when adapting these large vision-language models (e.g., CLIP) to performing continuous sign language recognition (CSLR) while preserving their generalizability, we propose a novel strategy (AdaptSign). Especially, CLIP is adopted as the visual backbone to extract frame-wise features whose parameters are fixed, and a set of learnable modules are introduced to model spatial sign variations or capture temporal sign movements. The introduced additional modules are quite lightweight, only owning 3.2% extra computations with high efficiency. The generic knowledge acquired in the pretraining stage is well-preserved in the frozen CLIP backbone in this process. Extensive experiments show that despite being efficient, AdaptSign is able to demonstrate superior performance across a series of CSLR benchmarks including PHOENIX14, PHOENIX14-T, CSL-Daily and CSL compared to existing methods. Visualizations show that AdaptSign could learn to dynamically pay major attention to the informative spatial regions and cross-frame trajectories in sign videos.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 終端イベント解析のためのパラレルデンスビデオキャプションによる交通安全向上

Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis ( http://arxiv.org/abs/2404.08229v1 )

ライセンス: Link先を確認
Maged Shoman, Dongdong Wang, Armstrong Aboah, Mohamed Abdel-Aty, (参考訳) 本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。 この課題は,詳細な空間的理解のための現実の歩行者中心交通映像データセットであるWoven Traffic Safety (WTS) のデータセットを用いて,交通安全記述と解析を解くことを目的としている。 私たちのソリューションは主に以下の点に焦点を当てています。 1) ビデオキャプションの高密度化を実現するために, パラレルデコード(PDVC)を用いた高密度ビデオキャプションの枠組みを活用し, ビデオの章によって高密度なキャプションを生成する。 2)本研究は,CLIPを利用して視覚的特徴を抽出し,視覚的表現とテキスト表現の相互モダリティトレーニングをより効率的に行う。 3)ビデオ理解における認識課題を生じさせる領域シフト問題を緩和するために,ドメイン固有のモデル適応を行う。 4) BDD-5Kキャプションビデオを利用して知識伝達を行い, WTSビデオの理解を深め, より正確なキャプションを行う。 私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。 オープンソースコードはhttps://github.com/UCF-SST-Lab/AICity2024CVPRWで公開される。

This paper introduces our solution for Track 2 in AI City Challenge 2024. The task aims to solve traffic safety description and analysis with the dataset of Woven Traffic Safety (WTS), a real-world Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding. Our solution mainly focuses on the following points: 1) To solve dense video captioning, we leverage the framework of dense video captioning with parallel decoding (PDVC) to model visual-language sequences and generate dense caption by chapters for video. 2) Our work leverages CLIP to extract visual features to more efficiently perform cross-modality training between visual and textual representations. 3) We conduct domain-specific model adaptation to mitigate domain shift problem that poses recognition challenge in video understanding. 4) Moreover, we leverage BDD-5K captioned videos to conduct knowledge transfer for better understanding WTS videos and more accurate captioning. Our solution has yielded on the test set, achieving 6th place in the competition. The open source code will be available at https://github.com/UCF-SST-Lab/AICity2024CVPRW
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 機械学習モデルにおけるフェアネスとパフォーマンスの向上:モンテカルロ・ドロップアウトとパレート最適性を用いたマルチタスク学習アプローチ

Enhancing Fairness and Performance in Machine Learning Models: A Multi-Task Learning Approach with Monte-Carlo Dropout and Pareto Optimality ( http://arxiv.org/abs/2404.08230v1 )

ライセンス: Link先を確認
Khadija Zanna, Akane Sano, (参考訳) 本稿では,機械学習における一般化可能なバイアス緩和手法の必要性について考察する。 機械学習におけるバイアスを軽減する既存の方法の多くは特定のケースで成功したが、一般化性に欠け、異なるデータタイプやモデルに容易に適用できないことが多い。 さらに、正確性と公平性の間のトレードオフは、この分野における根本的な緊張関係を保っている。 これらの問題に対処するために,モンテカルロ・ドロップアウトの概念と多目的最適化によるパレート最適性を利用して,マルチタスク学習に基づくバイアス軽減手法を提案する。 本手法は、機密情報を用いることなく、モデルの説明性を向上しつつ、精度と公平性を最適化する。 我々は、異なるドメインの3つのデータセットでこの手法を検証し、モデルフェアネスとパフォーマンスの最も望ましいトレードオフを提供する方法を示す。 これにより、あるメトリックが他のメトリックよりも重要かもしれない特定のドメインのチューニングが可能になる。 本稿では,機械学習におけるバイアス緩和手法の一般化可能性問題に対する解決策を提供するとともに,公平性とパフォーマンスのトレードオフを高めることを目的とする。

This paper considers the need for generalizable bias mitigation techniques in machine learning due to the growing concerns of fairness and discrimination in data-driven decision-making procedures across a range of industries. While many existing methods for mitigating bias in machine learning have succeeded in specific cases, they often lack generalizability and cannot be easily applied to different data types or models. Additionally, the trade-off between accuracy and fairness remains a fundamental tension in the field. To address these issues, we propose a bias mitigation method based on multi-task learning, utilizing the concept of Monte-Carlo dropout and Pareto optimality from multi-objective optimization. This method optimizes accuracy and fairness while improving the model's explainability without using sensitive information. We test this method on three datasets from different domains and show how it can deliver the most desired trade-off between model fairness and performance. This allows for tuning in specific domains where one metric may be more important than another. With the framework we introduce in this paper, we aim to enhance the fairness-performance trade-off and offer a solution to bias mitigation methods' generalizability issues in machine learning.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 量子セキュリティリスク評価のための評価枠組み:量子セーフマイグレーションに関する総合的研究

Evaluation Framework for Quantum Security Risk Assessment: A Comprehensive Study for Quantum-Safe Migration ( http://arxiv.org/abs/2404.08231v1 )

ライセンス: Link先を確認
Yaser Baseri, Vikas Chouhan, Ali Ghorbani, Aaron Chow, (参考訳) 大規模量子コンピューティングの台頭は、従来の暗号セキュリティ対策に重大な脅威をもたらす。 量子攻撃は、現在の非対称暗号アルゴリズムを損なう。 対称鍵暗号でさえ、セキュリティのために長い鍵や拡張されたハッシュ関数を示唆するが、より脆弱である。 したがって、現在の暗号解は、出現する量子脅威に対して不十分である。 組織は、堅牢な連続計画と綿密なリスク管理を備えた量子セーフ環境に移行する必要がある。 本研究では,量子セーフな暗号状態に移行する上での課題について検討し,包括的セキュリティリスク評価フレームワークを導入する。 本稿では、マイグレーションプロセス全体(移行前、移行後、移行後)を通じて、アルゴリズム、証明書、プロトコルの脆弱性を調査するセキュリティリスク評価フレームワークを提案する。 これらの脆弱性をSTRIDE脅威モデルにリンクして、その影響と可能性を評価します。 そこで我々は,アルゴリズムや公開鍵基盤,プロトコルといった重要なコンポーネントの実践的緩和戦略について議論する。 本研究は,各層および移行段階における潜在的な攻撃や脆弱性を識別するだけでなく,システムのレジリエンスを高めるための対策や代替策を提案する。 これらの取り組みを通じて、量子時代の課題の中で、ネットワークシステムにおけるセキュリティを持続する基盤を確立する。

The rise of large-scale quantum computing poses a significant threat to traditional cryptographic security measures. Quantum attacks undermine current asymmetric cryptographic algorithms, rendering them ineffective. Even symmetric key cryptography is vulnerable, albeit to a lesser extent, suggesting longer keys or extended hash functions for security. Thus, current cryptographic solutions are inadequate against emerging quantum threats. Organizations must transition to quantum-safe environments with robust continuity plans and meticulous risk management. This study explores the challenges of migrating to quantum-safe cryptographic states, introducing a comprehensive security risk assessment framework. We propose a security risk assessment framework that examines vulnerabilities across algorithms, certificates, and protocols throughout the migration process (pre-migration, during migration, post-migration). We link these vulnerabilities to the STRIDE threat model to assess their impact and likelihood. Then, we discuss practical mitigation strategies for critical components like algorithms, public key infrastructures, and protocols. Our study not only identifies potential attacks and vulnerabilities at each layer and migration stage but also suggests possible countermeasures and alternatives to enhance system resilience, empowering organizations to construct a secure infrastructure for the quantum era. Through these efforts, we establish the foundation for enduring security in networked systems amid the challenges of the quantum era.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# ネットワーク環境における量子セキュリティリスクのナビゲート:量子セーフネットワークプロトコルの総合的研究

Navigating Quantum Security Risks in Networked Environments: A Comprehensive Study of Quantum-Safe Network Protocols ( http://arxiv.org/abs/2404.08232v1 )

ライセンス: Link先を確認
Yaser Baseri, Vikas Chouhan, Abdelhakim Hafid, (参考訳) 量子コンピューティングの出現は、古典的な暗号アルゴリズムによって伝統的に保護されてきたネットワークプロトコルに対して、重大なセキュリティ上の課題をもたらす。 本稿では、TLS、IPsec、SSH、PGPなどを含むTCP/IPモデルの層にまたがる様々なセキュリティプロトコルにおいて、量子コンピューティングによって導入された脆弱性を網羅的に分析する。 本研究は、各プロトコルの様々な移行段階における量子敵による悪用による脆弱性の特定と、関連するリスクと安全性の高い通信結果の評価に焦点をあてる。 量子コンピューティングが各プロトコルに与える影響を深く掘り下げ、量子攻撃による潜在的な脅威を強調し、量子後暗号ソリューションの有効性を精査する。 本研究は,ネットワークプロトコルがポストクォータ時代に直面する脆弱性やリスクを慎重に評価することによって,適切な対策の開発を導く上で重要な知見を提供する。 我々の研究は、量子コンピューティングがネットワークセキュリティに与える影響のより広範な理解に寄与し、量子コンピューティングの進歩に伴う課題に対処するプロトコルデザイナ、実装者、政策立案者に実践的なガイダンスを提供する。 この包括的な研究は、量子時代のネットワーク環境のセキュリティを強化するための重要なステップである。

The emergence of quantum computing poses a formidable security challenge to network protocols traditionally safeguarded by classical cryptographic algorithms. This paper provides an exhaustive analysis of vulnerabilities introduced by quantum computing in a diverse array of widely utilized security protocols across the layers of the TCP/IP model, including TLS, IPsec, SSH, PGP, and more. Our investigation focuses on precisely identifying vulnerabilities susceptible to exploitation by quantum adversaries at various migration stages for each protocol while also assessing the associated risks and consequences for secure communication. We delve deep into the impact of quantum computing on each protocol, emphasizing potential threats posed by quantum attacks and scrutinizing the effectiveness of post-quantum cryptographic solutions. Through carefully evaluating vulnerabilities and risks that network protocols face in the post-quantum era, this study provides invaluable insights to guide the development of appropriate countermeasures. Our findings contribute to a broader comprehension of quantum computing's influence on network security and offer practical guidance for protocol designers, implementers, and policymakers in addressing the challenges stemming from the advancement of quantum computing. This comprehensive study is a crucial step toward fortifying the security of networked environments in the quantum age.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 強化学習におけるハイパーパラメータ最適化のための一般人口ベーストレーニング

Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning ( http://arxiv.org/abs/2404.08233v1 )

ライセンス: Link先を確認
Hui Bai, Ran Cheng, (参考訳) ハイパーパラメータ最適化は、機械学習領域において重要な役割を果たす。 その重要性は特に強化学習(RL)において顕著であり、エージェントは継続的に環境に適応し、学習軌跡の動的調整を必要とする。 このダイナミクスに対応するために、同時に学習するエージェントの集団知性を活用して、人口ベーストレーニング(PBT)が導入された。 しかしながら、PBTは高いパフォーマンスのエージェントを好む傾向にあり、大きな進歩の瀬戸際において、エージェントの爆発的ポテンシャルを無視する可能性がある。 PBTの限界を軽減するために,超パラメータ適応における粒度と柔軟性の向上を目的とした改良されたフレームワークであるGPBT(Generalized Population-Based Training)を提案する。 GPBTを補完し、さらにペアワイズラーニング(PL)を導入する。 PLは単にエリートエージェントに焦点を当てるのではなく、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。 GPBT と PL の機能を統合することで,従来の PBT よりも適応性と計算効率が大幅に向上する。 様々なRLベンチマークにおける厳密な経験的評価は、我々のアプローチが従来のPBTだけでなくベイズ最適化の変種よりも一貫して優れていることを証明している。

Hyperparameter optimization plays a key role in the machine learning domain. Its significance is especially pronounced in reinforcement learning (RL), where agents continuously interact with and adapt to their environments, requiring dynamic adjustments in their learning trajectories. To cater to this dynamicity, the Population-Based Training (PBT) was introduced, leveraging the collective intelligence of a population of agents learning simultaneously. However, PBT tends to favor high-performing agents, potentially neglecting the explorative potential of agents on the brink of significant advancements. To mitigate the limitations of PBT, we present the Generalized Population-Based Training (GPBT), a refined framework designed for enhanced granularity and flexibility in hyperparameter adaptation. Complementing GPBT, we further introduce Pairwise Learning (PL). Instead of merely focusing on elite agents, PL employs a comprehensive pairwise strategy to identify performance differentials and provide holistic guidance to underperforming agents. By integrating the capabilities of GPBT and PL, our approach significantly improves upon traditional PBT in terms of adaptability and computational efficiency. Rigorous empirical evaluations across a range of RL benchmarks confirm that our approach consistently outperforms not only the conventional PBT but also its Bayesian-optimized variant.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# IFViT:視覚変換器による指紋照合のための解釈可能な固定長表現

IFViT: Interpretable Fixed-Length Representation for Fingerprint Matching via Vision Transformer ( http://arxiv.org/abs/2404.08237v1 )

ライセンス: Link先を確認
Yuhang Qiu, Honghui Chen, Xingbo Dong, Zheng Lin, Iman Yi Liao, Massimo Tistarelli, Zhe Jin, (参考訳) 指紋の高密度特徴点の決定は、特に画素レベルでの正確なマッチングのために、深い固定長の表現を構築するために用いられる。 指紋マッチングの解釈可能性を探るため,2つの主要モジュールからなるIFViTによる指紋マッチングのための多段階対応型指紋マッチングネットワークを提案する。 解釈可能な高密度登録モジュールである最初のモジュールは、ViT(Vision Transformer)ベースのSiamese Networkを確立し、指紋ペア内の長距離依存関係とグローバルコンテキストをキャプチャする。 指紋アライメントのための特徴点の解釈可能な高密度画素対応を提供し、その後のマッチング段階における解釈可能性を高める。 第2のモジュールは、整列されたフィンガーペアの局所的および大域的表現を考慮に入れ、解釈可能な固定長表現抽出とマッチングを実現する。 第1のモジュールでトレーニングされたViTに、追加の完全連結層を追加し、それらを再訓練して、識別的固定長表現と、特徴点の高密度ピクセルワイド対応を同時に生成する。 各種公開指紋データベースの広範な実験結果から,提案手法は密度登録とマッチングにおいて優れた性能を示すだけでなく,深部固定長表現に基づく指紋マッチングの解釈可能性も著しく向上することが示された。

Determining dense feature points on fingerprints used in constructing deep fixed-length representations for accurate matching, particularly at the pixel level, is of significant interest. To explore the interpretability of fingerprint matching, we propose a multi-stage interpretable fingerprint matching network, namely Interpretable Fixed-length Representation for Fingerprint Matching via Vision Transformer (IFViT), which consists of two primary modules. The first module, an interpretable dense registration module, establishes a Vision Transformer (ViT)-based Siamese Network to capture long-range dependencies and the global context in fingerprint pairs. It provides interpretable dense pixel-wise correspondences of feature points for fingerprint alignment and enhances the interpretability in the subsequent matching stage. The second module takes into account both local and global representations of the aligned fingerprint pair to achieve an interpretable fixed-length representation extraction and matching. It employs the ViTs trained in the first module with the additional fully connected layer and retrains them to simultaneously produce the discriminative fixed-length representation and interpretable dense pixel-wise correspondences of feature points. Extensive experimental results on diverse publicly available fingerprint databases demonstrate that the proposed framework not only exhibits superior performance on dense registration and matching but also significantly promotes the interpretability in deep fixed-length representations-based fingerprint matching.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 視覚補正表示システムのシミュレーション

Simulation of a Vision Correction Display System ( http://arxiv.org/abs/2404.08238v1 )

ライセンス: Link先を確認
Vidya Sunil, Renu M Rameshan, (参考訳) 目は感覚器官として機能し、感覚入力の最大80%を処理します。 しかし、近視や近視といった一般的な視覚異常は、世界の人口の大部分に影響を及ぼす。 本稿では,視覚障害者の視覚体験を高めるために,視覚補正ディスプレイ(VCD)のシミュレーションに焦点を当てた。 Blenderを利用すると、近視や視神経過誤などの屈折誤差を補正するVCDの機能をデジタル的にモデル化する。 これらのシミュレーションでは、視覚力と快適さの潜在的な改善が見られる。 これらのシミュレーションは、将来のVCD技術の設計と開発のための貴重な洞察を与え、最終的に視覚障害のある個人に対するアクセシビリティとユーザビリティを向上する。

Eyes serve as our primary sensory organs, responsible for processing up to 80\% of our sensory input. However, common visual aberrations like myopia and hyperopia affect a significant portion of the global population. This paper focuses on simulating a Vision Correction Display (VCD) to enhance the visual experience of individuals with various visual impairments. Utilising Blender, we digitally model the functionality of a VCD in correcting refractive errors such as myopia and hyperopia. With these simulations we can see potential improvements in visual acuity and comfort. These simulations provide valuable insights for the design and development of future VCD technologies, ultimately advancing accessibility and usability for individuals with visual challenges.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 深層強化学習による進化計算における自動探索・探索トレードオフ

Auto-configuring Exploration-Exploitation Tradeoff in Evolutionary Computation via Deep Reinforcement Learning ( http://arxiv.org/abs/2404.08239v1 )

ライセンス: Link先を確認
Zeyuan Ma, Jiacheng Chen, Hongshu Guo, Yining Ma, Yue-Jiao Gong, (参考訳) 進化的計算(EC)アルゴリズムは、強力なブラックボックスオプティマイザとして知られ、個人のグループを活用して最適な解を求める。 調査・探索トレードオフ(EET)はECにおいて重要な役割を担っているが、伝統的に手動で設計された規則によって統治されてきた。 本稿では,EC検索プロセスを通じてEETを自律的に構成し,適応する,深層強化学習に基づくフレームワークを提案する。 この枠組みにより、人口の異なる個人が、現在の検索状況に基づいて、グローバルおよびローカルな見習いに選択的に参加し、協力的な検索結果を最大化することができる。 提案するフレームワークは,その単純さ,有効性,一般化性を特徴とし,多数の既存ECアルゴリズムを拡張できる可能性を秘めている。 本手法をいくつかの代表的ECアルゴリズムに適用し,拡張型CEC2021ベンチマークで広範な実験を行った。 その結果、バックボーンアルゴリズムの性能は大幅に向上し、様々な問題クラス、次元、人口規模にまたがる優れた一般化が得られた。 さらに、ECの学習動作を解釈することで、EET問題の詳細な分析を行う。

Evolutionary computation (EC) algorithms, renowned as powerful black-box optimizers, leverage a group of individuals to cooperatively search for the optimum. The exploration-exploitation tradeoff (EET) plays a crucial role in EC, which, however, has traditionally been governed by manually designed rules. In this paper, we propose a deep reinforcement learning-based framework that autonomously configures and adapts the EET throughout the EC search process. The framework allows different individuals of the population to selectively attend to the global and local exemplars based on the current search state, maximizing the cooperative search outcome. Our proposed framework is characterized by its simplicity, effectiveness, and generalizability, with the potential to enhance numerous existing EC algorithms. To validate its capabilities, we apply our framework to several representative EC algorithms and conduct extensive experiments on the augmented CEC2021 benchmark. The results demonstrate significant improvements in the performance of the backbone algorithms, as well as favorable generalization across diverse problem classes, dimensions, and population sizes. Additionally, we provide an in-depth analysis of the EET issue by interpreting the learned behaviors of EC.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# RLEMMO: 深層強化学習を支援する進化的マルチモーダル最適化

RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning ( http://arxiv.org/abs/2404.08242v1 )

ライセンス: Link先を確認
Hongqiao Lian, Zeyuan Ma, Hongshu Guo, Ting Huang, Yue-Jiao Gong, (参考訳) マルチモーダル最適化問題 (MMOP) の解法には最適解の探索が必要である。 既存の研究は手作りの適応戦略を通じて探索と搾取のバランスをとるが、専門家の知識を必要とするため、異なる特性でMMOPを扱うには柔軟性がない。 本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。このフレームワークは,解の集団を維持するとともに,個人レベルの探索戦略を柔軟に調整し,最新の最適化状態に適合させ,MMOP上での探索性能を向上させるための強化学習エージェントを備えている。 具体的には、ランドスケープ特性と進化経路情報を各個人にエンコードし、アテンションネットワークを活用して人口情報の共有を促進する。 品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。 CEC2013 MMOPベンチマークの実験結果は、RLEMMOのいくつかの強力なベースラインに対する競合最適化性能を裏付けるものである。

Solving multimodal optimization problems (MMOP) requires finding all optimal solutions, which is challenging in limited function evaluations. Although existing works strike the balance of exploration and exploitation through hand-crafted adaptive strategies, they require certain expert knowledge, hence inflexible to deal with MMOP with different properties. In this paper, we propose RLEMMO, a Meta-Black-Box Optimization framework, which maintains a population of solutions and incorporates a reinforcement learning agent for flexibly adjusting individual-level searching strategies to match the up-to-date optimization status, hence boosting the search performance on MMOP. Concretely, we encode landscape properties and evolution path information into each individual and then leverage attention networks to advance population information sharing. With a novel reward mechanism that encourages both quality and diversity, RLEMMO can be effectively trained using a policy gradient algorithm. The experimental results on the CEC2013 MMOP benchmark underscore the competitive optimization performance of RLEMMO against several strong baselines.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 強化学習によるアジャイル・多目的二足歩行ロボットのトラッキング制御

Agile and versatile bipedal robot tracking control through reinforcement learning ( http://arxiv.org/abs/2404.08246v1 )

ライセンス: Link先を確認
Jiayi Li, Linqi Ye, Yi Cheng, Houde Liu, Bin Liang, (参考訳) ダンスや体操などの複雑な運動において人間によって示される顕著な運動知能は、生物学的生物のバランス機構が特定の運動パターンから切り離されていることを示唆している。 この分離により、学習運動と未学習運動の両方を一定の制約の下で実行し、小さな全身調整を通じてバランスを維持することができる。 本稿では,このバランス能力と体敏性を再現するために,二足歩行ロボットのための多目的制御器を提案する。 本制御器は、モデルベースIKソルバと強化学習に基づく1つの小型ニューラルネットワークを用いて、幅広い歩行域における足首・体軌道追跡を実現する。 単一ステップを最小の制御単位とみなし、任意の単一ステップ変動に適した普遍的な制御入力形式を設計する。 これらの最小限の制御ユニットを、拡張可能な制御インタフェースを通じて高レベルなポリシーと組み合わせることで、高いフレキシブルな歩行制御を実現することができる。 制御器の軌道追跡能力を高めるために,3段階の学習カリキュラムを利用する。 トレーニングの後、ロボットはターゲットの足場の間を、さまざまな距離と高さで自由に移動することができる。 このロボットは、姿勢を調整するために歩みを繰り返すことなく、静止バランスを維持することができる。 最後に, 各種二足歩行作業における制御器のトラッキング精度を評価し, シミュレーション環境における制御フレームワークの有効性を検証した。

The remarkable athletic intelligence displayed by humans in complex dynamic movements such as dancing and gymnastics suggests that the balance mechanism in biological beings is decoupled from specific movement patterns. This decoupling allows for the execution of both learned and unlearned movements under certain constraints while maintaining balance through minor whole-body coordination. To replicate this balance ability and body agility, this paper proposes a versatile controller for bipedal robots. This controller achieves ankle and body trajectory tracking across a wide range of gaits using a single small-scale neural network, which is based on a model-based IK solver and reinforcement learning. We consider a single step as the smallest control unit and design a universally applicable control input form suitable for any single-step variation. Highly flexible gait control can be achieved by combining these minimal control units with high-level policy through our extensible control interface. To enhance the trajectory-tracking capability of our controller, we utilize a three-stage training curriculum. After training, the robot can move freely between target footholds at varying distances and heights. The robot can also maintain static balance without repeated stepping to adjust posture. Finally, we evaluate the tracking accuracy of our controller on various bipedal tasks, and the effectiveness of our control framework is verified in the simulation environment.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 4-times 4$ Involutory MDS 行列の体系的構成法

A Systematic Construction Approach for All $4\times 4$ Involutory MDS Matrices ( http://arxiv.org/abs/2404.08250v1 )

ライセンス: Link先を確認
Yogesh Kumar, P. R. Mishra, Susanta Samanta, Atul Gaur, (参考訳) 最大距離分離(MDS)行列は、符号化理論だけでなく、ブロック暗号やハッシュ関数の設計においても重要な役割を果たす。 特に興味深いのは、ハードウェア実装における暗号化と復号化の両方に単一の回路を使用することを容易にする不揮発性MDS行列である。 本稿では、偶数次不揮発性MDS行列のいくつかの特性について述べる。 さらに、偶数列のすべての不揮発性MDS行列を得るための新しい行列形式を導入し、文献で利用可能な他の行列形式と比較する。 次に、有限体 $\mathbb{F}_{2^m}$ 上の 4 つの時間 4$ のインボリュートな MDS 行列を体系的に構築する手法を提案する。 この方法では,不揮発性MDSクラス代表行列に着目して探索空間を著しく減少させ,これらすべての行列を4,4,4$不揮発性行列と比較すると,かなり小さいセットで生成する。 具体的には、これらの代表行列を濃度の集合((2^m-1)^5$)で探索する。 この方法を通じて、$$$\mathbb{F}_{2^m}$ for $m=3,4,\ldots,8$ の総数 4 \times 4$ involutory MDS 行列を明示的に列挙する。

Maximum distance separable (MDS) matrices play a crucial role not only in coding theory but also in the design of block ciphers and hash functions. Of particular interest are involutory MDS matrices, which facilitate the use of a single circuit for both encryption and decryption in hardware implementations. In this article, we present several characterizations of involutory MDS matrices of even order. Additionally, we introduce a new matrix form for obtaining all involutory MDS matrices of even order and compare it with other matrix forms available in the literature. We then propose a technique to systematically construct all $4 \times 4$ involutory MDS matrices over a finite field $\mathbb{F}_{2^m}$. This method significantly reduces the search space by focusing on involutory MDS class representative matrices, leading to the generation of all such matrices within a substantially smaller set compared to considering all $4 \times 4$ involutory matrices. Specifically, our approach involves searching for these representative matrices within a set of cardinality $(2^m-1)^5$. Through this method, we provide an explicit enumeration of the total number of $4 \times 4$ involutory MDS matrices over $\mathbb{F}_{2^m}$ for $m=3,4,\ldots,8$.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# MonoPatchNeRF: パッチに基づく単眼誘導による神経放射場の改善

MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance ( http://arxiv.org/abs/2404.08252v1 )

ライセンス: Link先を確認
Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem, (参考訳) 最新の正規化ニューラルラジアンスフィールド(NeRF)アプローチは、ETH3Dのようなマルチビューステレオ(MVS)ベンチマークに対して、ジオメトリとビューの外挿が貧弱である。 本論文では,NeRF法と従来のMVS法の間の大きな幾何学的性能ギャップを部分的に解消し,正確な幾何学的およびビュー合成を提供する3次元モデルを作成することを目的とする。 単分子表面の正規化と相対深度予測を効果的に活用するパッチベースのアプローチを提案する。 パッチベースのレイサンプリングはまた、ランダムにサンプリングされた仮想ビューとトレーニングビューの間の正規化相互相関(NCC)と構造類似性(SSIM)の出現規則化を可能にする。 さらに、運動点からのスパース構造に基づく「密度制限」は、新しいビュー合成指標をわずかに低下させることで、幾何的精度を大幅に向上させることができることを示す。 ETH3D MVSベンチマークでは、平均F1@2cmにおけるRegNeRFとFreeNeRFの8倍の性能を示し、NeRFベースのモデルの幾何精度を改善するための実りある研究方向を示唆し、NeRFベースの最適化を最終的に従来のMVSを上回るものにするための潜在的アプローチに光を当てた。

The latest regularized Neural Radiance Field (NeRF) approaches produce poor geometry and view extrapolation for multiview stereo (MVS) benchmarks such as ETH3D. In this paper, we aim to create 3D models that provide accurate geometry and view synthesis, partially closing the large geometric performance gap between NeRF and traditional MVS methods. We propose a patch-based approach that effectively leverages monocular surface normal and relative depth predictions. The patch-based ray sampling also enables the appearance regularization of normalized cross-correlation (NCC) and structural similarity (SSIM) between randomly sampled virtual and training views. We further show that "density restrictions" based on sparse structure-from-motion points can help greatly improve geometric accuracy with a slight drop in novel view synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a fruitful research direction to improve the geometric accuracy of NeRF-based models, and sheds light on a potential future approach to enable NeRF-based optimization to eventually outperform traditional MVS.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 拡散モデルを用いた平衡混合型タブラルデータ合成

Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models ( http://arxiv.org/abs/2404.08254v1 )

ライセンス: Link先を確認
Zeyu Yang, Peikun Guo, Khadija Zanna, Akane Sano, (参考訳) 拡散モデルは、画像や音声合成などの様々な生成タスクのための堅牢なフレームワークとして登場し、連続変数と離散変数の両方からなる混合型表データを生成する顕著な能力を示した。 しかしながら、混合型表型データ上での拡散モデルをトレーニングするための現在のアプローチは、トレーニングデータセットに存在する機能の不均衡分布を継承する傾向にあり、バイアスサンプリングが発生する。 本研究では, 感度特性のバランスデータを生成するために, 公平な拡散モデルを提案する。 本研究では,本手法が学習データにおけるクラス不均衡を効果的に軽減し,生成したサンプルの品質を維持できることを示す実証的証拠を示す。 さらに,本手法は,従来の表データの合成手法よりも性能と公平性に優れていたことを示す。

Diffusion models have emerged as a robust framework for various generative tasks, such as image and audio synthesis, and have also demonstrated a remarkable ability to generate mixed-type tabular data comprising both continuous and discrete variables. However, current approaches to training diffusion models on mixed-type tabular data tend to inherit the imbalanced distributions of features present in the training dataset, which can result in biased sampling. In this research, we introduce a fair diffusion model designed to generate balanced data on sensitive attributes. We present empirical evidence demonstrating that our method effectively mitigates the class imbalance in training data while maintaining the quality of the generated samples. Furthermore, we provide evidence that our approach outperforms existing methods for synthesizing tabular data in terms of performance and fairness.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# セグメンテーションモデルに対する実践的地域レベルアタック

Practical Region-level Attack against Segment Anything Models ( http://arxiv.org/abs/2404.08255v1 )

ライセンス: Link先を確認
Yifan Shen, Zhengyuan Li, Gang Wang, (参考訳) Segment Anything Models (SAM) は画像のセグメンテーションを大幅に進歩させ、ユーザーは画像のターゲット部分をワンクリック(つまりユーザープロンプト)でセグメント化できる。 幅広い応用を考えると、SAMの敵攻撃に対する堅牢性は重要な懸念事項である。 最近の研究では、事前に定義されたプロンプト/クリックに対する敵攻撃を探索しているが、その脅威モデルはまだ現実的ではない。 本稿では,攻撃者が正確なユーザプロンプトを知る必要のない,より実用的な地域レベルの攻撃を提案する。 イメージ内のターゲットオブジェクトの任意のポイントをクリックし、SAMからオブジェクトを隠すことで、攻撃は依然として有効である。 また、スペクトル変換法を適用することにより、ブラックボックス設定で攻撃をより伝達しやすくする。 実世界のSAMサービスに対する制御実験とテストの両方が、その有効性を確認している。

Segment Anything Models (SAM) have made significant advancements in image segmentation, allowing users to segment target portions of an image with a single click (i.e., user prompt). Given its broad applications, the robustness of SAM against adversarial attacks is a critical concern. While recent works have explored adversarial attacks against a pre-defined prompt/click, their threat model is not yet realistic: (1) they often assume the user-click position is known to the attacker (point-based attack), and (2) they often operate under a white-box setting with limited transferability. In this paper, we propose a more practical region-level attack where attackers do not need to know the precise user prompt. The attack remains effective as the user clicks on any point on the target object in the image, hiding the object from SAM. Also, by adapting a spectrum transformation method, we make the attack more transferable under a black-box setting. Both control experiments and testing against real-world SAM services confirm its effectiveness.
翻訳日:2024-04-15 15:55:31 公開日:2024-04-12
# 低リソース言語のためのニューラルネットワーク翻訳の検討:バイエルン語を事例として

Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study ( http://arxiv.org/abs/2404.08259v1 )

ライセンス: Link先を確認
Wan-Hua Her, Udo Kruschwitz, (参考訳) 機械翻訳は近年、多くの言語で人間レベルのパフォーマンスに近づき、目覚ましい進歩を遂げています。 大規模言語モデルの成長の助けにより、他の言語の存在によって、より低リソースな言語がより良い結果を得るようになる。 しかし、低リソース言語が多言語システム、特に訓練と評価の不十分な言語から恩恵を受けるわけではないことが研究で示されている。 本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。 我々は,データ不足やパラメータ感度などの低リソース言語の条件を調査し,低リソースの困難に対処する洗練されたソリューションと,言語類似性を利用した創造的ソリューションに焦点をあてる。 我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。 データのノイズを実証し,テキスト前処理を広範囲に行うためのアプローチを提案する。 BLEU, chrF, TERを併用して評価を行った。 ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。 さらに,翻訳エラーとシステム制限の質的解析について述べる。

Machine Translation has made impressive progress in recent years offering close to human-level performance on many languages, but studies have primarily focused on high-resource languages with broad online presence and resources. With the help of growing Large Language Models, more and more low-resource languages achieve better results through the presence of other languages. However, studies have shown that not all low-resource languages can benefit from multilingual systems, especially those with insufficient training and evaluation data. In this paper, we revisit state-of-the-art Neural Machine Translation techniques to develop automatic translation systems between German and Bavarian. We investigate conditions of low-resource languages such as data scarcity and parameter sensitivity and focus on refined solutions that combat low-resource difficulties and creative solutions such as harnessing language similarity. Our experiment entails applying Back-translation and Transfer Learning to automatically generate more training data and achieve higher translation performance. We demonstrate noisiness in the data and present our approach to carry out text preprocessing extensively. Evaluation was conducted using combined metrics: BLEU, chrF and TER. Statistical significance results with Bonferroni correction show surprisingly high baseline systems, and that Back-translation leads to significant improvement. Furthermore, we present a qualitative analysis of translation errors and system limitations.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 言語とドメイン固有の大規模言語モデルの事前学習と更新:日本のビジネスドメインを事例として

Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain ( http://arxiv.org/abs/2404.08262v1 )

ライセンス: Link先を確認
Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki, (参考訳) 言語とドメイン固有の大規模言語モデル (LLM) を別のトピックとして検討した以前の研究もある。 本研究では、非英語と高需要産業ドメインの組み合わせについて、日本のビジネス特化LLMに着目して検討する。 この種のモデルには、ビジネス領域の専門知識、強力な言語スキル、そしてその知識の定期的な更新が必要です。 私たちは、ビジネステキストと特許の新しいデータセットを使用して、スクラッチから13億パラメータのLMをトレーニングし、最新のビジネスドキュメントで継続的に事前トレーニングしました。 また,日本語ビジネス領域質問応答(QA)のための新しいベンチマークを提案し,そのモデルの評価を行った。 その結果,事前学習モデルでは一般知識を失うことなくQA精度が向上し,継続事前学習により新たな情報への適応が促進されることがわかった。 事前訓練されたモデルとビジネスドメインのベンチマークが公開されています。

Several previous studies have considered language- and domain-specific large language models (LLMs) as separate topics. This study explores the combination of a non-English language and a high-demand industry domain, focusing on a Japanese business-specific LLM. This type of a model requires expertise in the business domain, strong language skills, and regular updates of its knowledge. We trained a 13-billion-parameter LLM from scratch using a new dataset of business texts and patents, and continually pretrained it with the latest business documents. Further we propose a new benchmark for Japanese business domain question answering (QA) and evaluate our models on it. The results show that our pretrained model improves QA accuracy without losing general knowledge, and that continual pretraining enhances adaptation to new information. Our pretrained model and business domain benchmark are publicly available.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# リレーショナル・プロンプトに基づく社会的事象検出のための事前学習言語モデル

Relational Prompt-based Pre-trained Language Models for Social Event Detection ( http://arxiv.org/abs/2404.08263v1 )

ライセンス: Link先を確認
Pu Li, Xiaoyan Yu, Hao Peng, Yantuan Xian, Linqin Wang, Li Sun, Jingyun Zhang, Philip S. Yu, (参考訳) ソーシャルイベント検出(SED)は、社会的ストリームから重要なイベントを識別することを目的としており、世論分析からリスク管理まで幅広い応用がある。 近年、グラフニューラルネットワーク(GNN)ベースのソリューションは最先端のパフォーマンスを実現している。 しかし、GNNベースの手法は、しばしばメッセージ間のノイズやエッジの欠如に悩まされ、学習されたメッセージの埋め込みの品質に影響を及ぼす。 さらに、これらの手法は訓練前にノード埋め込みを静的に初期化し、メッセージテキストと関係から同時に学習する能力を制限する。 本稿では,事前学習言語モデル(PLM)に基づく新たな視点から,社会的事象検出とRPLM_SED(Relational prompt-based Pre-trained Language Models for Social Event Detection)を提案する。 まず,マルチリレーショナル・シーケンスを持つメッセージ・ペアにソーシャル・メッセージを構築するためのペアワイズ・メッセージ・モデリング手法を提案する。 第2に,PLMを用いたマルチリレーショナルプロンプトを用いたメッセージペアから,より包括的なメッセージ表現を学習するための,新しいマルチリレーショナルプロンプトベースのペアワイドメッセージ学習機構を提案する。 第3に、クラスタ内コンパクト性とクラスタ間分散性を高め、メッセージ表現をより区別しやすくすることで、符号化プロセスを最適化する新しいクラスタリング制約を設計する。 実世界の3つのデータセット上でRPLM_SEDを評価し、RPLM_SEDモデルが、ソーシャルイベント検出タスクにおけるオフライン、オンライン、低リソース、ロングテールの分散シナリオにおける最先端のパフォーマンスを達成することを実証した。

Social Event Detection (SED) aims to identify significant events from social streams, and has a wide application ranging from public opinion analysis to risk management. In recent years, Graph Neural Network (GNN) based solutions have achieved state-of-the-art performance. However, GNN-based methods often struggle with noisy and missing edges between messages, affecting the quality of learned message embedding. Moreover, these methods statically initialize node embedding before training, which, in turn, limits the ability to learn from message texts and relations simultaneously. In this paper, we approach social event detection from a new perspective based on Pre-trained Language Models (PLMs), and present RPLM_SED (Relational prompt-based Pre-trained Language Models for Social Event Detection). We first propose a new pairwise message modeling strategy to construct social messages into message pairs with multi-relational sequences. Secondly, a new multi-relational prompt-based pairwise message learning mechanism is proposed to learn more comprehensive message representation from message pairs with multi-relational prompts using PLMs. Thirdly, we design a new clustering constraint to optimize the encoding process by enhancing intra-cluster compactness and inter-cluster dispersion, making the message representation more distinguishable. We evaluate the RPLM_SED on three real-world datasets, demonstrating that the RPLM_SED model achieves state-of-the-art performance in offline, online, low-resource, and long-tail distribution scenarios for social event detection tasks.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 分散マルチメディアセンサイベント解析のための誘導マスク型自己蒸留モデル

Guided Masked Self-Distillation Modeling for Distributed Multimedia Sensor Event Analysis ( http://arxiv.org/abs/2404.08264v1 )

ライセンス: Link先を確認
Masahiro Yasuda, Noboru Harada, Yasunori Ohishi, Shoichiro Saito, Akira Nakayama, Nobutaka Ono, (参考訳) 分散センサを用いた観測は、複雑で広範囲な実環境下での一連の人間と機械の活動(この論文では「イベント」と呼ばれる)の分析に不可欠である。 これは、単一のセンサから得られる情報が、そのような環境で欠落したり断片化されたりすることが多いためであり、複数の位置やモードからの観測を総合的に分析するために統合する必要がある。 しかし、そのような分散観測を効果的に組み合わせた共同表現を抽出する学習方法はまだ確立されていない。 そこで本研究では,センサ間関係モデリングのためのガイドメイドsELf-Distillation Modeling (Guided-MELD)を提案する。 Guided-MELDの基本的な考え方は、イベントを検出するのに必要な他のセンサーからの情報をマスクされたセンサーから補うことにある。 Guided-MELDは、特定のセンサに過度に依存することなく、センサによって得られた断片化された、または冗長なターゲットイベント情報を効果的に蒸留できるように設計されている。 分散マルチメディアセンサイベント分析の新しいタスクにおける提案手法の有効性を検証するため,MM-Store と MM-Office の2つの新しいデータセットを作成した。 これらのデータセットは、分散カメラとマイクを使用して記録されたコンビニエンスストアとオフィスでのヒューマンアクティビティで構成されている。 これらのデータセットを用いた実験結果から,提案したガイド-MELDはイベントタギングと検出性能を改善し,従来のセンサ間関係モデルよりも優れた性能を示した。 さらに,センサを小さくしても頑健に動作した。

Observations with distributed sensors are essential in analyzing a series of human and machine activities (referred to as 'events' in this paper) in complex and extensive real-world environments. This is because the information obtained from a single sensor is often missing or fragmented in such an environment; observations from multiple locations and modalities should be integrated to analyze events comprehensively. However, a learning method has yet to be established to extract joint representations that effectively combine such distributed observations. Therefore, we propose Guided Masked sELf-Distillation modeling (Guided-MELD) for inter-sensor relationship modeling. The basic idea of Guided-MELD is to learn to supplement the information from the masked sensor with information from other sensors needed to detect the event. Guided-MELD is expected to enable the system to effectively distill the fragmented or redundant target event information obtained by the sensors without being overly dependent on any specific sensors. To validate the effectiveness of the proposed method in novel tasks of distributed multimedia sensor event analysis, we recorded two new datasets that fit the problem setting: MM-Store and MM-Office. These datasets consist of human activities in a convenience store and an office, recorded using distributed cameras and microphones. Experimental results on these datasets show that the proposed Guided-MELD improves event tagging and detection performance and outperforms conventional inter-sensor relationship modeling methods. Furthermore, the proposed method performed robustly even when sensors were reduced.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 量子インスパイアされたアルゴリズムによる量子分子ドッキング

Quantum molecular docking with quantum-inspired algorithm ( http://arxiv.org/abs/2404.08265v1 )

ライセンス: Link先を確認
Yunting Li, Xiaopeng Cui, Zhaoping Xiong, Bowen Liu, Bi-Ying Wang, Runqiu Shu, Nan Qiao, Man-Hong Yung, (参考訳) 分子ドッキング(MD)は、標的タンパク質に結合したリガンドの位置、配向、配座を予測する薬物設計において重要な課題である。 これは組合せ最適化問題と解釈でき、量子アニール(QA)は組合せ最適化を解く上で有望な利点を示している。 本研究では,QAに着想を得た新しい量子分子ドッキング(QMD)手法を提案する。 2つのバイナリ符号化法を構築し、指数的にビット数を減らした自由度を効率的に判別し、頑健な目的関数を再スケールするスムースなフィルタを提案する。 本稿では,量子に着想を得た新しいアルゴリズムであるホップスコッチ・シミュレート・バイファーケーション(hSB)を提案する。 このhSBは、バイナリ変数の下での任意の目的関数の定式化に適用できる。 また、hSBからの離散化解をさらに最適化するために、適応的な局所連続探索も導入されている。 ドッキングの安定性について,候補ポーズのランク付けを支援するため,摂動検出手法を提案する。 典型的なデータセットにアプローチを示します。 QMDは、検索ベースのAutodock VinaとディープラーニングのDIFFDOCKに対して、再ドッキングと自己ドッキングの両方のシナリオでアドバンテージを示している。 これらの結果は、量子ハードウェアが成熟する以前にも、薬物発見の実践的な問題を解決するために量子インスパイアされたアルゴリズムが適用可能であることを示唆している。

Molecular docking (MD) is a crucial task in drug design, which predicts the position, orientation, and conformation of the ligand when bound to a target protein. It can be interpreted as a combinatorial optimization problem, where quantum annealing (QA) has shown promising advantage for solving combinatorial optimization. In this work, we propose a novel quantum molecular docking (QMD) approach based on QA-inspired algorithm. We construct two binary encoding methods to efficiently discretize the degrees of freedom with exponentially reduced number of bits and propose a smoothing filter to rescale the rugged objective function. We propose a new quantum-inspired algorithm, hopscotch simulated bifurcation (hSB), showing great advantage in optimizing over extremely rugged energy landscapes. This hSB can be applied to any formulation of objective function under binary variables. An adaptive local continuous search is also introduced for further optimization of the discretized solution from hSB. Concerning the stability of docking, we propose a perturbation detection method to help ranking the candidate poses. We demonstrate our approach on a typical dataset. QMD has shown advantages over the search-based Autodock Vina and the deep-learning DIFFDOCK in both re-docking and self-docking scenarios. These results indicate that quantum-inspired algorithms can be applied to solve practical problems in the drug discovery even before quantum hardware become mature.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 移動変圧器を用いた軌道予測の伝達学習

Transfer Learning Study of Motion Transformer-based Trajectory Predictions ( http://arxiv.org/abs/2404.08271v1 )

ライセンス: Link先を確認
Lars Ullrich, Alex McMaster, Knut Graichen, (参考訳) 自動運転における軌道計画は、他の道路利用者の緊急行動を予測することに大きく依存している。 学習ベースの手法は現在、シミュレーションベースの課題において印象的な成果を上げており、トランスフォーマーベースのアーキテクチャが技術的に先導している。 しかし、究極的には、現実の世界では予測が必要である。 シミュレーションから現実へのシフトに加えて、センサーシステム、融合および認識アルゴリズム、交通規則や法則の違いなど、車種や国種による多くのシフトが議題となっている。 すべてのシステム設定と設計ドメインを一度にカバーできるモデルは、まだ予測できないため、モデル適応は中心的な役割を果たす。 そこで,トランスフォーマーモデルに基づくトランスファーラーニング手法のシミュレーションに基づく研究を行った。 さらに,本研究は,実世界への効果的な転送を支援するために,計算時間と性能のトレードオフの可能性に関する洞察を提供することを目的としている。

Trajectory planning in autonomous driving is highly dependent on predicting the emergent behavior of other road users. Learning-based methods are currently showing impressive results in simulation-based challenges, with transformer-based architectures technologically leading the way. Ultimately, however, predictions are needed in the real world. In addition to the shifts from simulation to the real world, many vehicle- and country-specific shifts, i.e. differences in sensor systems, fusion and perception algorithms as well as traffic rules and laws, are on the agenda. Since models that can cover all system setups and design domains at once are not yet foreseeable, model adaptation plays a central role. Therefore, a simulation-based study on transfer learning techniques is conducted on basis of a transformer-based model. Furthermore, the study aims to provide insights into possible trade-offs between computational time and performance to support effective transfers into the real world.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 敵防衛と肩を並べる : 拡散を試してみる

Struggle with Adversarial Defense? Try Diffusion ( http://arxiv.org/abs/2404.08273v1 )

ライセンス: Link先を確認
Yujie Li, Yanbin Wang, Haitao xu, Bin Liu, Jianguo Sun, Zhenhao Guo, Wenrui Ma, (参考訳) 敵攻撃は微妙な摂動を導入して誤分類を引き起こす。 近年、画像分類器に拡散モデルを適用し、対向訓練や対向雑音の浄化により対向ロバスト性を向上させる。 しかし、拡散に基づく敵の訓練は、しばしば収束課題と高い計算費用に遭遇する。 さらに、拡散ベースの浄化は必然的にデータシフトを引き起こし、より強い適応攻撃の影響を受けやすいと考えられる。 これらの問題に対処するために,事前学習した拡散モデルとベイズ定理に基づく生成ベイズ分類器である真最大拡散分類器 (TMDC) を提案する。 データ駆動型分類器とは異なり、TMDCは拡散モデルからの条件付き確率を利用して入力画像のクラス確率を判定し、データシフトの影響と敵対的訓練の限界に対して絶縁する。 さらに,TMDCの強力な敵攻撃に対するレジリエンスを高めるため,拡散分類器の最適化戦略を提案する。 この戦略は、乱れたデータセット上の拡散モデルを条件として訓練し、拡散モデルを誘導し、データ分布を学習し、地絡ラベル下での確率を最大化する。 提案手法は,CIFAR10データセットにおける重度ホワイトボックス攻撃と強い適応攻撃に対する最先端性能を実現する。 具体的には、TMDCは、標準有界摂動に対して82.81%、標準有界摂動で86.05%、標準有界摂動で86.05%、それぞれ$\epsilon=0.05$である。

Adversarial attacks induce misclassification by introducing subtle perturbations. Recently, diffusion models are applied to the image classifiers to improve adversarial robustness through adversarial training or by purifying adversarial noise. However, diffusion-based adversarial training often encounters convergence challenges and high computational expenses. Additionally, diffusion-based purification inevitably causes data shift and is deemed susceptible to stronger adaptive attacks. To tackle these issues, we propose the Truth Maximization Diffusion Classifier (TMDC), a generative Bayesian classifier that builds upon pre-trained diffusion models and the Bayesian theorem. Unlike data-driven classifiers, TMDC, guided by Bayesian principles, utilizes the conditional likelihood from diffusion models to determine the class probabilities of input images, thereby insulating against the influences of data shift and the limitations of adversarial training. Moreover, to enhance TMDC's resilience against more potent adversarial attacks, we propose an optimization strategy for diffusion classifiers. This strategy involves post-training the diffusion model on perturbed datasets with ground-truth labels as conditions, guiding the diffusion model to learn the data distribution and maximizing the likelihood under the ground-truth labels. The proposed method achieves state-of-the-art performance on the CIFAR10 dataset against heavy white-box attacks and strong adaptive attacks. Specifically, TMDC achieves robust accuracies of 82.81% against $l_{\infty}$ norm-bounded perturbations and 86.05% against $l_{2}$ norm-bounded perturbations, respectively, with $\epsilon=0.05$.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# FaceFilterSense: フィルタ型顔認識と顔属性分析フレームワーク

FaceFilterSense: A Filter-Resistant Face Recognition and Facial Attribute Analysis Framework ( http://arxiv.org/abs/2404.08277v1 )

ライセンス: Link先を確認
Shubham Tiwari, Yash Sethia, Ritesh Kumar, Ashwani Tanwar, Rudresh Dwivedi, (参考訳) ソーシャルメディアの出現に伴い、楽しい自撮りフィルターは顔の生体認証システムだけでなく、画像認識システムの機能にも大きな影響を与えている。 これらのフィルターは、美容フィルターや拡張現実(AR)ベースのフィルターから、顔のランドマークを変更するフィルターまで様々である。 したがって,既存の顔認識システムの性能に及ぼすフィルタの影響を評価する必要がある。 既存の解にまつわる制限は、これらの解がより美化フィルタに焦点をあてることである。 しかし、顔のキーポイントを歪ませる現在のARベースのフィルターやフィルターは、最近流行し、肉眼でも顔が認識不能になっている。 また、考慮されたフィルタはほとんどが時代遅れであり、バリエーションは限られている。 これらの制約を緩和するため、我々は最新のフィルタの全体的影響分析を行い、フィルタ画像を用いたユーザ認識モデルを提案する。 ベースライン画像のベンチマークデータセットを利用して、最新のフィルタを適用して、美容/フィルタデータセットを生成しました。 次に、美化ユーザ認識のためのモデルFaceFilterNetを紹介した。 この枠組みでは、年齢、性別、民族など、個人のさまざまな属性について、モデルを用いてコメントする。 また, 顔認識, 年齢推定, 性別, 民族性予測に対するフィルタによる影響分析も行った。 提案手法は,87.25%の精度でデータセットの有効性を確認し,顔の属性分析に最適な精度を示す。

With the advent of social media, fun selfie filters have come into tremendous mainstream use affecting the functioning of facial biometric systems as well as image recognition systems. These filters vary from beautification filters and Augmented Reality (AR)-based filters to filters that modify facial landmarks. Hence, there is a need to assess the impact of such filters on the performance of existing face recognition systems. The limitation associated with existing solutions is that these solutions focus more on the beautification filters. However, the current AR-based filters and filters which distort facial key points are in vogue recently and make the faces highly unrecognizable even to the naked eye. Also, the filters considered are mostly obsolete with limited variations. To mitigate these limitations, we aim to perform a holistic impact analysis of the latest filters and propose an user recognition model with the filtered images. We have utilized a benchmark dataset for baseline images, and applied the latest filters over them to generate a beautified/filtered dataset. Next, we have introduced a model FaceFilterNet for beautified user recognition. In this framework, we also utilize our model to comment on various attributes of the person including age, gender, and ethnicity. In addition, we have also presented a filter-wise impact analysis on face recognition, age estimation, gender, and ethnicity prediction. The proposed method affirms the efficacy of our dataset with an accuracy of 87.25% and an optimal accuracy for facial attribute analysis.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# カーネルステイン差分法による最小最適適合性試験

Minimax Optimal Goodness-of-Fit Testing with Kernel Stein Discrepancy ( http://arxiv.org/abs/2404.08278v1 )

ライセンス: Link先を確認
Omar Hagrass, Bharath Sriperumbudur, Krishnakumar Balasubramanian, (参考訳) 我々は、カーネル化されたStein discrepancy (KSD) を用いて、一般領域における適合性テストの極小最適性について検討する。 KSDフレームワークは、適合性テストのための柔軟なアプローチを提供し、強い分布仮定を避け、ユークリッド空間を超えて多様なデータ構造を収容し、計算効率を維持しながら参照分布の部分的知識のみに依存する。 我々は、文献における多くの既存のKSDテストを含む一般フレームワークとKSDの演算論的表現を確立し、ドメインによって異なる。 分離計量として$\chi^2$-divergence を考えると、KSDの特性と限界を明らかにし、その非最適性をある代替空間の下で示し、一般領域上で定義される。 非最適性のこの問題に対処するため、スペクトル正則化器を組み込んだ修正された最小限の最適試験を提案し、標準KSDテストの欠点を克服する。 本研究は,Steinカーネル上での弱いモーメント条件の下で確立され,カーネルベースの仮説テストの解析において,先行研究で要求される境界カーネル仮定を緩和する。 さらに,未知のパラメータに適応することで,対数係数まで最小限の最適性を達成できる適応テストを導入する。 数値実験により, 提案した試験の非正規化試験と比較して, 種々の領域における優れた性能を示す。

We explore the minimax optimality of goodness-of-fit tests on general domains using the kernelized Stein discrepancy (KSD). The KSD framework offers a flexible approach for goodness-of-fit testing, avoiding strong distributional assumptions, accommodating diverse data structures beyond Euclidean spaces, and relying only on partial knowledge of the reference distribution, while maintaining computational efficiency. We establish a general framework and an operator-theoretic representation of the KSD, encompassing many existing KSD tests in the literature, which vary depending on the domain. We reveal the characteristics and limitations of KSD and demonstrate its non-optimality under a certain alternative space, defined over general domains when considering $\chi^2$-divergence as the separation metric. To address this issue of non-optimality, we propose a modified, minimax optimal test by incorporating a spectral regularizer, thereby overcoming the shortcomings of standard KSD tests. Our results are established under a weak moment condition on the Stein kernel, which relaxes the bounded kernel assumption required by prior work in the analysis of kernel-based hypothesis testing. Additionally, we introduce an adaptive test capable of achieving minimax optimality up to a logarithmic factor by adapting to unknown parameters. Through numerical experiments, we illustrate the superior performance of our proposed tests across various domains compared to their unregularized counterparts.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# がん細胞病理像の畳み込みニューラルネットワーク分類--乳癌を例に

Convolutional neural network classification of cancer cytopathology images: taking breast cancer as an example ( http://arxiv.org/abs/2404.08279v1 )

ライセンス: Link先を確認
MingXuan Xiao, Yufeng Li, Xu Yan, Min Gao, Weimin Wang, (参考訳) 乳がんは婦人科領域で比較的多いがんである。 その診断は、しばしば病変内の細胞の病理に頼っている。 乳がんの病理診断は専門医や時間だけでなく、主観的判断も伴うことがある。 そこで本研究では,病理画像の迅速分類に畳み込みニューラルネットワーク(CNN)を活用する手法を提案する。 この手法により,病理像を良性群と悪性群に迅速かつ自動分類することができる。 この手法は、Inceptionv3アーキテクチャと転送学習アルゴリズムを活用する畳み込みニューラルネットワーク(CNN)モデルを使用して、病理画像から特徴を抽出する。 完全に接続された層を持つニューラルネットワークを使用し、画像分類にSoftMax関数を使用する。 さらに、高解像度画像を扱うために、画像分割の概念を導入している。 最終的な分類結果を達成するために、各画像ブロックの分類確率を和、積、最大の3つのアルゴリズムを用いて集約する。 4つの倍率係数(40X, 100X, 200X, 400X)の精度は0.92を超える。 本手法は乳がんの病理像の分類における精度を効果的に向上することを示す。

Breast cancer is a relatively common cancer among gynecological cancers. Its diagnosis often relies on the pathology of cells in the lesion. The pathological diagnosis of breast cancer not only requires professionals and time, but also sometimes involves subjective judgment. To address the challenges of dependence on pathologists expertise and the time-consuming nature of achieving accurate breast pathological image classification, this paper introduces an approach utilizing convolutional neural networks (CNNs) for the rapid categorization of pathological images, aiming to enhance the efficiency of breast pathological image detection. And the approach enables the rapid and automatic classification of pathological images into benign and malignant groups. The methodology involves utilizing a convolutional neural network (CNN) model leveraging the Inceptionv3 architecture and transfer learning algorithm for extracting features from pathological images. Utilizing a neural network with fully connected layers and employing the SoftMax function for image classification. Additionally, the concept of image partitioning is introduced to handle high-resolution images. To achieve the ultimate classification outcome, the classification probabilities of each image block are aggregated using three algorithms: summation, product, and maximum. Experimental validation was conducted on the BreaKHis public dataset, resulting in accuracy rates surpassing 0.92 across all four magnification coefficients (40X, 100X, 200X, and 400X). It demonstrates that the proposed method effectively enhances the accuracy in classifying pathological images of breast cancer.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 校正と再構成:画像分割参照のための深層統合言語

Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation ( http://arxiv.org/abs/2404.08281v1 )

ライセンス: Link先を確認
Yichen Yan, Xingjian He, Sihan Chen, Jing Liu, (参考訳) 画像セグメンテーションの参照は、画像から自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。 主な課題は、テキストの特徴から視覚的特徴まで、きめ細かい意味情報の効率的な伝播である。 最近の多くの研究では、この課題に対処するためにTransformerを利用している。 しかし、従来の変圧器デコーダは、より深い層で言語情報を歪め、最適以下の結果をもたらす。 本稿では,トランスデコーダのマルチモーダル機能を反復的に校正するモデルであるCRFormerを紹介する。 まず、視覚機能を使って言語クエリを生成し、入力言語の異なる側面を強調します。 そこで本研究では,複数モーダルな特徴を入力言語の特徴によって反復的に校正できる新しい校正デコーダ(CDec)を提案する。 キャリブレーションデコーダでは、各デコーダ層と元の言語特徴の出力を用いて、連続キャリブレーションのための新しいクエリを生成し、徐々に言語特徴を更新する。 CDecをベースとして,言語再構成モジュールと再構成損失を導入する。 このモジュールはデコーダの最終層からのクエリを利用して、入力言語を再構築し、再構成損失を計算する。 これにより、言語情報が失われたり歪んだりするのを防ぐことができる。 我々の実験は、RefCOCO、RefCOCO+、G-Refデータセットにまたがるアプローチの優れた性能を最先端の手法と比較して一貫して示している。

Referring image segmentation aims to segment an object referred to by natural language expression from an image. The primary challenge lies in the efficient propagation of fine-grained semantic information from textual features to visual features. Many recent works utilize a Transformer to address this challenge. However, conventional transformer decoders can distort linguistic information with deeper layers, leading to suboptimal results. In this paper, we introduce CRFormer, a model that iteratively calibrates multi-modal features in the transformer decoder. We start by generating language queries using vision features, emphasizing different aspects of the input language. Then, we propose a novel Calibration Decoder (CDec) wherein the multi-modal features can iteratively calibrated by the input language features. In the Calibration Decoder, we use the output of each decoder layer and the original language features to generate new queries for continuous calibration, which gradually updates the language features. Based on CDec, we introduce a Language Reconstruction Module and a reconstruction loss. This module leverages queries from the final layer of the decoder to reconstruct the input language and compute the reconstruction loss. This can further prevent the language information from being lost or distorted. Our experiments consistently show the superior performance of our approach across RefCOCO, RefCOCO+, and G-Ref datasets compared to state-of-the-art methods.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 画像認識におけるニューラルネットワークのロバスト性評価に関する調査

A Survey of Neural Network Robustness Assessment in Image Recognition ( http://arxiv.org/abs/2404.08285v1 )

ライセンス: Link先を確認
Jie Wang, Jun Ai, Minyan Lu, Haoran Su, Dan Yu, Yutao Zhang, Junda Zhu, Jingyu Liu, (参考訳) 近年,ニューラルネットワークの堅牢性評価に注目が集まっている。 ロバスト性は、複雑で不確実な環境で人工知能(AI)システムの信頼性の高い運用を保証する上で重要な役割を果たしている。 ディープラーニングの堅牢性問題は特に重要であり、画像分類モデルに対する敵対的攻撃の発見によって強調される。 画像認識タスクの多様な摂動条件におけるロバスト性を評価するために、研究者は懸命に努力してきた。 ロバストネスアセスメントには、故意の敵攻撃に対するロバストネス検証/認証と、ランダムなデータ破損に対するロバストネステストの2つの主要なテクニックが含まれている。 本稿では, ニューラルネットワーク評価において, 対向ロバスト性 (AR) と汚職ロバスト性 (CR) の両方を詳細に検討した。 現在の研究論文や規格を分析し,画像認識におけるロバスト性評価について概観する。 概念、メトリクス、評価方法の3つの重要な側面が分析される。 本研究では,画像の摂動度を測定するために使用される摂動指標と範囲表現について検討し,分類モデルのロバストネス条件に特化してロバストネス指標について検討する。 既存手法の強みと限界についても論じ,今後の研究の方向性について考察する。

In recent years, there has been significant attention given to the robustness assessment of neural networks. Robustness plays a critical role in ensuring reliable operation of artificial intelligence (AI) systems in complex and uncertain environments. Deep learning's robustness problem is particularly significant, highlighted by the discovery of adversarial attacks on image classification models. Researchers have dedicated efforts to evaluate robustness in diverse perturbation conditions for image recognition tasks. Robustness assessment encompasses two main techniques: robustness verification/ certification for deliberate adversarial attacks and robustness testing for random data corruptions. In this survey, we present a detailed examination of both adversarial robustness (AR) and corruption robustness (CR) in neural network assessment. Analyzing current research papers and standards, we provide an extensive overview of robustness assessment in image recognition. Three essential aspects are analyzed: concepts, metrics, and assessment methods. We investigate the perturbation metrics and range representations used to measure the degree of perturbations on images, as well as the robustness metrics specifically for the robustness conditions of classification models. The strengths and limitations of the existing methods are also discussed, and some potential directions for future research are provided.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 畳み込みニューラルネットワークによるレーダマイクロドップラー信号処理のための入力フォーマットについて

On Input Formats for Radar Micro-Doppler Signature Processing by Convolutional Neural Networks ( http://arxiv.org/abs/2404.08291v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Carmine Clemente, Craig Michie, Christos Tachtatzis, (参考訳) 畳み込みニューラルネットワークは、しばしばレーダーマイクロドップラーシグネチャを処理するために提案され、最も一般的には信号の分類が目的である。 ほとんどの研究は、複雑な時間周波数表現から位相情報を無視する傾向にある。 ここでは、位相情報の有用性と畳み込みニューラルネットワークに対するドップラー時間入力の最適なフォーマットを解析する。 畳み込みニューラルネットワーク分類器によって達成された性能は、等価な情報を持つフォーマットにわたっても、入力表現の種類に大きく影響されている。 さらに、ドップラー時間表現の位相成分は、分類に有用な豊富な情報を含み、時間次元における位相の切り離しは、マグニチュードのみの解に比べて結果を改善することができ、試験された人間の活動データセット上での精度が0.920から0.938に向上することを示した。 0.947のさらなる改善は、複数形式からの埋め込みに対する線形分類器の訓練によって達成される。

Convolutional neural networks have often been proposed for processing radar Micro-Doppler signatures, most commonly with the goal of classifying the signals. The majority of works tend to disregard phase information from the complex time-frequency representation. Here, the utility of the phase information, as well as the optimal format of the Doppler-time input for a convolutional neural network, is analysed. It is found that the performance achieved by convolutional neural network classifiers is heavily influenced by the type of input representation, even across formats with equivalent information. Furthermore, it is demonstrated that the phase component of the Doppler-time representation contains rich information useful for classification and that unwrapping the phase in the temporal dimension can improve the results compared to a magnitude-only solution, improving accuracy from 0.920 to 0.938 on the tested human activity dataset. Further improvement of 0.947 is achieved by training a linear classifier on embeddings from multiple-formats.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# AdaContour:階層表現による適応型輪郭記述子

AdaContour: Adaptive Contour Descriptor with Hierarchical Representation ( http://arxiv.org/abs/2404.08292v1 )

ライセンス: Link先を確認
Tianyu Ding, Jinxin Zhou, Tianyi Chen, Zhihui Zhu, Ilya Zharkov, Luming Liang, (参考訳) 既存の角度ベースの輪郭記述子は、非星空形状の損失表現に悩まされる。 概してこれは、単一の大域内心と極座標パラメタライゼーションに対応するラジイの集合に登録されている形状の結果である。 本稿では,複数の局所表現を用いて複雑な形状を好ましく特徴付ける適応型輪郭記述子であるAdaContourを提案する。 トレーニングセット内のオブジェクト形状を階層的に符号化し、すべての部分分割領域の輪郭行列を構成すると、ロバストな低ランクなロバストな部分空間を計算し、共有基底ベクトルを線形に結合してオブジェクトを表現することによって各局所輪郭を近似する。 実験によると、AdaContourは他の記述子よりも正確で堅牢な形状を表現でき、有効性を維持している。 我々は、AdaContourを市販の検出器に統合し、忠実な性能を示すインスタンスセグメンテーションを可能にすることで検証する。 コードはhttps://github.com/tding1/AdaContour.comで公開されている。

Existing angle-based contour descriptors suffer from lossy representation for non-starconvex shapes. By and large, this is the result of the shape being registered with a single global inner center and a set of radii corresponding to a polar coordinate parameterization. In this paper, we propose AdaContour, an adaptive contour descriptor that uses multiple local representations to desirably characterize complex shapes. After hierarchically encoding object shapes in a training set and constructing a contour matrix of all subdivided regions, we compute a robust low-rank robust subspace and approximate each local contour by linearly combining the shared basis vectors to represent an object. Experiments show that AdaContour is able to represent shapes more accurately and robustly than other descriptors while retaining effectiveness. We validate AdaContour by integrating it into off-the-shelf detectors to enable instance segmentation which demonstrates faithful performance. The code is available at https://github.com/tding1/AdaContour.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# ディディルタを用いた野生環境における物体検出のための環境制約の克服

Overcoming Scene Context Constraints for Object Detection in wild using Defilters ( http://arxiv.org/abs/2404.08293v1 )

ライセンス: Link先を確認
Vamshi Krishna Kancharla, Neelam sinha, (参考訳) 本稿では,未制御の取得環境においてよく発生する画像歪みの問題に対処し,物体検出性能の向上に焦点をあてる。 物体検出、認識、セグメンテーションなどの高レベルのコンピュータビジョンタスクは、特に画像歪みに敏感である。 この問題に対処するため,物体検出に先立って画像歪みを補正する画像デファイラを用いた新しい手法を提案する。 この方法では、非歪画像のトレーニング時にモデルが最適に実行されるため、オブジェクト検出精度が向上する。 本実験は, 歪み画像における物体検出モデルの訓練に比べて, 平均精度が有意に向上することを示した。 その結果,提案手法は画像歪みに悩まされる現実世界のアプリケーションに多大な恩恵をもたらす。 我々の知る限り、この貢献は自然の環境で撮影された画像に対する物体検出に歪み除去パラダイムを採用することにある。 検証および試験データの平均精度は0.562と0.564に向上した。

This paper focuses on improving object detection performance by addressing the issue of image distortions, commonly encountered in uncontrolled acquisition environments. High-level computer vision tasks such as object detection, recognition, and segmentation are particularly sensitive to image distortion. To address this issue, we propose a novel approach employing an image defilter to rectify image distortion prior to object detection. This method enhances object detection accuracy, as models perform optimally when trained on non-distorted images. Our experiments demonstrate that utilizing defiltered images significantly improves mean average precision compared to training object detection models on distorted images. Consequently, our proposed method offers considerable benefits for real-world applications plagued by image distortion. To our knowledge, the contribution lies in employing distortion-removal paradigm for object detection on images captured in natural settings. We achieved an improvement of 0.562 and 0.564 of mean Average precision on validation and test data.
翻訳日:2024-04-15 15:45:46 公開日:2024-04-12
# 多層型マルチモーダル潜在ディリクレアロケーションを用いた視覚・生理・単語情報の統合による感情概念形成の検討

Study of Emotion Concept Formation by Integrating Vision, Physiology, and Word Information using Multilayered Multimodal Latent Dirichlet Allocation ( http://arxiv.org/abs/2404.08295v1 )

ライセンス: Link先を確認
Kazuki Tsurumaki, Chie Hieida, Kazuki Miyazawa, (参考訳) 感情はどのように形成されますか? 広範囲にわたる議論と多様な理論の公布を通じて、構築された感情の理論は、近年の感情研究で一般的になっている。 この理論によれば、感情の概念は特定の感情に関連付けられた知覚的・外受容的な情報によって形成されたカテゴリーを指す。 感情概念は過去の経験を知識として記憶し、獲得した情報から観測されていない情報を予測することができる。 そこで本研究では,構成的感情論の観点から構成主義的アプローチを用いて,感情概念の形成をモデル化する試みを行った。 特に,確率的生成モデルである多層多モード潜在ディリクレアロケーションを用いたモデルを構築した。 次に、異なる視覚的感情誘発刺激を経験した複数の人から得られた視覚、生理学、単語情報を用いて、各被験者のモデルを訓練した。 モデルを評価するため,生成したカテゴリがヒトの主観性と一致したかどうかを検証し,未観測情報がカテゴリによって予測できるかどうかを判定した。 検証結果はチャンスレベルを超え,提案モデルにより感情概念の形成を説明できる可能性が示唆された。

How are emotions formed? Through extensive debate and the promulgation of diverse theories , the theory of constructed emotion has become prevalent in recent research on emotions. According to this theory, an emotion concept refers to a category formed by interoceptive and exteroceptive information associated with a specific emotion. An emotion concept stores past experiences as knowledge and can predict unobserved information from acquired information. Therefore, in this study, we attempted to model the formation of emotion concepts using a constructionist approach from the perspective of the constructed emotion theory. Particularly, we constructed a model using multilayered multimodal latent Dirichlet allocation , which is a probabilistic generative model. We then trained the model for each subject using vision, physiology, and word information obtained from multiple people who experienced different visual emotion-evoking stimuli. To evaluate the model, we verified whether the formed categories matched human subjectivity and determined whether unobserved information could be predicted via categories. The verification results exceeded chance level, suggesting that emotion concept formation can be explained by the proposed model.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 変分エンコーダ・デコーダニューラルネットワークを用いたドップラーレーダーバイタル信号検出のための干渉運動除去

Interference Motion Removal for Doppler Radar Vital Sign Detection Using Variational Encoder-Decoder Neural Network ( http://arxiv.org/abs/2404.08298v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Christos Ilioudis, Carmine Clemente, Craig Michie, Ivan Andonovic, Christos Tachtatzis, (参考訳) 干渉運動によるコントリビューションの処理は、レーダーベースのバイタルサイン監視の領域における重要な課題の1つとして残されている。 バイタルサインの寄与を抽出するための干渉の除去は、重なり合うドップラーバンド、干渉運動の複雑な構造、およびそれらの寄与のパワーレベルの大きな変化によって要求される。 本稿では,確率論的深層学習モデルを用いた干渉除去手法を提案する。 その結果、変分目的を持つ畳み込みエンコーダ・デコーダニューラルネットワークは、混合信号からの抽出を容易にするバイタルサインドップラー時間分布の有意義な表現空間を学習できることを示した。 この手法は、実際のバイタルサインシグネチャを含む半実験データと、干渉体の動きからのシミュレーションリターンで検証される。 提案するネットワークの適用により,呼吸速度に応じたマイクロドップラー周波数の抽出が促進される。

The treatment of interfering motion contributions remains one of the key challenges in the domain of radar-based vital sign monitoring. Removal of the interference to extract the vital sign contributions is demanding due to overlapping Doppler bands, the complex structure of the interference motions and significant variations in the power levels of their contributions. A novel approach to the removal of interference through the use of a probabilistic deep learning model is presented. Results show that a convolutional encoder-decoder neural network with a variational objective is capable of learning a meaningful representation space of vital sign Doppler-time distribution facilitating their extraction from a mixture signal. The approach is tested on semi-experimental data containing real vital sign signatures and simulated returns from interfering body motions. The application of the proposed network enhances the extraction of the micro-Doppler frequency corresponding to the respiration rate is demonstrated.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 消費不確実性下における新ダウンロードモバイルゲームにおけるスペンディング予測の協調的強化

Collaborative-Enhanced Prediction of Spending on Newly Downloaded Mobile Games under Consumption Uncertainty ( http://arxiv.org/abs/2404.08301v1 )

ライセンス: Link先を確認
Peijie Sun, Yifan Wang, Min Zhang, Chuhan Wu, Yan Fang, Hong Zhu, Yuan Fang, Meng Wang, (参考訳) モバイルゲームの普及に伴い、新しくダウンロードされたゲームに対するユーザーの支出を正確に予測することが、収益を最大化するための最重要課題となっている。 しかし、ユーザー行動の本質的に予測不可能な性質は、この取り組みに重大な課題をもたらす。 そこで本稿では,ラベルのばらつきと極端な変化を緩和し,モデリングプロセスの安定性を確保するために,使用データの標準化を目的とした堅牢なモデルトレーニングと評価フレームワークを提案する。 本フレームワークでは,ユーザIDに頼ることなく,ユーザのゲーム使用量を予測し,ユーザのプライバシを確保するとともに,シームレスなオンライントレーニングを実現するための協調型モデルを導入する。 本モデルでは,利用者の好みやゲームの特徴を個別に表現し,消費予測モジュールへの入力としてマージする。 厳密な実験を通じて,本手法は実運用モデルよりも顕著な改善を実現し,オフラインデータに対する注目すべき \textbf{17.11}\% の強化,オンラインA/B テストにおける印象的な \textbf{50.65}\% の強化を実現した。 要約すると,モバイルゲームにおけるユーザ消費行動予測における,安定したモデルトレーニングフレームワークの重要性と,協調型モデルの有効性を強調した。

With the surge in mobile gaming, accurately predicting user spending on newly downloaded games has become paramount for maximizing revenue. However, the inherently unpredictable nature of user behavior poses significant challenges in this endeavor. To address this, we propose a robust model training and evaluation framework aimed at standardizing spending data to mitigate label variance and extremes, ensuring stability in the modeling process. Within this framework, we introduce a collaborative-enhanced model designed to predict user game spending without relying on user IDs, thus ensuring user privacy and enabling seamless online training. Our model adopts a unique approach by separately representing user preferences and game features before merging them as input to the spending prediction module. Through rigorous experimentation, our approach demonstrates notable improvements over production models, achieving a remarkable \textbf{17.11}\% enhancement on offline data and an impressive \textbf{50.65}\% boost in an online A/B test. In summary, our contributions underscore the importance of stable model training frameworks and the efficacy of collaborative-enhanced models in predicting user spending behavior in mobile gaming.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# ソフトウェア開発におけるモチベーションの大規模調査とその妥当性分析

A Large Scale Survey of Motivation in Software Development and Analysis of its Validity ( http://arxiv.org/abs/2404.08303v1 )

ライセンス: Link先を確認
Idan Amit, Dror G. Feitelson, (参考訳) コンテキスト: モチベーションはパフォーマンスを改善するために知られています。 特にソフトウェア開発では、オープンソースへの貢献者の動機付けにかなりの関心が寄せられている。 目的: 文献(プログラミング、コードの所有、学習、自己利用など)から11人のモチベータを特定し、モチベーションに対する相対的な影響を評価します。 モチベーションは内的主観的感情であるため,回答の有効性も分析する。 方法: 521人の開発者によるモチベーションに関する66の質問に答えて調査を行った。 質問の多くは11点の尺度を使用した。 関連質問を比較し,GitHubの実際の行動と比較し,同じ開発者との比較を行い,回答の有効性を評価した。 結果: 妥当性の問題には、関連する質問に対する回答の適度な相関、自己促進と回答の誤りが含まれる。 これらの問題にもかかわらず、様々なモチベーターが高いモチベーションの確率にどのように影響するかを研究する予測分析は、貴重な洞察を与えた。 異なるモチベーター間の相関は低く、独立を示唆している。 11つのモチベーターの高い値は、高いモチベーションの確率の増加を予測する。 さらに、改善分析は、ほとんどのモチベーターの増加は、一般的なモチベーターの増加を予測していることを示している。

Context: Motivation is known to improve performance. In software development in particular, there has been considerable interest in the motivation of contributors to open source. Objective: We identify 11 motivators from the literature (enjoying programming, ownership of code, learning, self use, etc.), and evaluate their relative effect on motivation. Since motivation is an internal subjective feeling, we also analyze the validity of the answers. Method: We conducted a survey with 66 questions on motivation which was completed by 521 developers. Most of the questions used an 11 point scale. We evaluated the validity of the answers validity by comparing related questions, comparing to actual behavior on GitHub, and comparison with the same developer in a follow up survey. Results: Validity problems include moderate correlations between answers to related questions, as well as self promotion and mistakes in the answers. Despite these problems, predictive analysis, investigating how diverse motivators influence the probability of high motivation, provided valuable insights. The correlations between the different motivators are low, implying their independence. High values in all 11 motivators predict increased probability of high motivation. In addition, improvement analysis shows that an increase in most motivators predicts an increase in general motivation.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 量子チャネルの$ρ$-absolute分散に基づく不確実性関係

Uncertainty relations based on the $ρ$-absolute variance for quantum channels ( http://arxiv.org/abs/2404.08304v1 )

ライセンス: Link先を確認
Cong Xu, Wen Zhou, Qing-Hua Zhang, Shao-Ming Fei, (参考訳) 不確実性原理は、量子情報理論において重要な役割を果たす古典的世界と量子的世界の内在的な違いを明らかにしている。 $\rho$-absolute分散を用いることで、量子チャネルの不確実性を導入し、その性質を探求する。 コーシー=シュワルツの不等式と平行グラフ法則を用いて、任意の2つの量子チャネルに対する不確実性関係の積と和形式をそれぞれ確立する。 また、任意の$N$量子チャネルに対する$\rho$-absolute分散に基づく不確かさの不等式の和形式も検討し、最適な下界を示す。 この結果は、いくつかの典型的な例から説明します。

Uncertainty principle reveals the intrinsic differences between the classical and quantum worlds, which plays a significant role in quantum information theory. By using $\rho$-absolute variance, we introduce the uncertainty of quantum channels and explore its properties. By using Cauchy-Schwarz inequality and the parallelogram law, we establish the product and summation forms of the uncertainty relations for arbitrary two quantum channels, respectively. The summation form of the uncertainty inequalities based on the $\rho$-absolute variance for arbitrary $N$ quantum channels are also investigated and the optimal lower bounds are presented. We illustrate our results by several typical examples.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 分散型物理インフラネットワークと集中クラウドの性能解析

Performance Analysis of Decentralized Physical Infrastructure Networks and Centralized Clouds ( http://arxiv.org/abs/2404.08306v1 )

ライセンス: Link先を確認
Jan von der Assen, Christian Killer, Alessandro De Carli, Burkhard Stiller, (参考訳) DePIN(Decentralized Physical Infrastructure Networks)の出現は、今日のインターネットのデジタルインフラストラクチャの変化を表している。 中央サービスプロバイダ(CSP)がクラウドコンピューティングを独占する一方で、DePINはデータの主権と機密性を高め、単一障害点に対するレジリエンスを高めることを目指している。 DePINの新興分野の新規性のため、この研究は、IoT(Internet of Things)デバイスとブロックチェーンの組み合わせによる暗号経済設計を活用することで、DePINが従来の集中型アーキテクチャを破壊できる可能性に焦点を当てている。 この組み合わせによってAcurastは、より分散され、レジリエントで、ユーザ中心の物理的なインフラストラクチャデプロイメントになります。 集中型システム、特にサーバレスコンピューティング環境での比較分析を通じて、この研究は、DePINを科学的に評価し、実世界のアプリケーションにおける効率性と有効性の観点からそれらを定量的に比較する第一歩を踏み出そうとしている。 以上の結果からDePINsの可能性が示唆された。 一 信頼の前提及び物理的に分権されたインフラを縮小すること。 (二)計算の効率化を図りながら、効率と性能を同時に向上させる 三 秘密性及び検証可能性

The advent of Decentralized Physical Infrastructure Networks (DePIN) represents a shift in the digital infrastructure of today's Internet. While Centralized Service Providers (CSP) monopolize cloud computing, DePINs aim to enhance data sovereignty and confidentiality and increase resilience against a single point of failure. Due to the novelty of the emerging field of DePIN, this work focuses on the potential of DePINs to disrupt traditional centralized architectures by taking advantage of the Internet of Things (IoT) devices and crypto-economic design in combination with blockchains. This combination yields Acurast, a more distributed, resilient, and user-centric physical infrastructure deployment. Through comparative analysis with centralized systems, particularly in serverless computing contexts, this work seeks to lay the first steps in scientifically evaluating DePINs and quantitatively comparing them in terms of efficiency and effectiveness in real-world applications. The findings suggest DePINs' potential to (i) reduce trust assumptions and physically decentralized infrastructure, (ii) increase efficiency and performance simultaneously while improving the computation's (iii) confidentiality and verifiability.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 過毒性問題: 脱獄の試みにおけるLCMの反応の態度変化

Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts ( http://arxiv.org/abs/2404.08309v1 )

ライセンス: Link先を確認
Tianyu Zhang, Zixuan Zhao, Jiaqi Huang, Jingyu Hua, Sheng Zhong, (参考訳) Prompt JailbreakingのLarge Language Model(LLM)がますます注目される中、攻撃強度を評価するための一般化された研究パラダイムと、より微妙な実験を行うための基本モデルを上げることが非常に重要である。 本稿では,LLMのセキュリティ強化による制約を回避することを目的とした,ジェイルブレイクのプロンプトに本質的に敏感な,対象とする一連の質問に焦点をあてて,新たなアプローチを提案する。 本稿では,これらのセンシティブな質問を設計,分析することにより,LSMの脆弱性を識別するより効果的な手法を明らかにし,LCMのセキュリティ向上に寄与する。 この研究は、既存のジェイルブレイク手法に挑戦するだけでなく、潜在的エクスプロイトに対するLLMの強化にも挑戦する。

As Large Language Models (LLMs) of Prompt Jailbreaking are getting more and more attention, it is of great significance to raise a generalized research paradigm to evaluate attack strengths and a basic model to conduct subtler experiments. In this paper, we propose a novel approach by focusing on a set of target questions that are inherently more sensitive to jailbreak prompts, aiming to circumvent the limitations posed by enhanced LLM security. Through designing and analyzing these sensitive questions, this paper reveals a more effective method of identifying vulnerabilities in LLMs, thereby contributing to the advancement of LLM security. This research not only challenges existing jailbreaking methodologies but also fortifies LLMs against potential exploits.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# Manifest V3が公開:ブラウザ拡張の新しい時代を旅する

Manifest V3 Unveiled: Navigating the New Era of Browser Extensions ( http://arxiv.org/abs/2404.08310v1 )

ライセンス: Link先を確認
Nikolaos Pantelaios, Alexandros Kapravelos, (参考訳) 10年以上前に導入されたChromeエクステンションは、今や20万を超えている。 2020年、Googleは、2023年1月までに以前のバージョン2(V2)を置き換えることを目的として、Manifest Version 3(V3)による拡張開発の変更を発表した。 この期限は後に2025年1月まで延長された。 同社の決定は、プライバシ、セキュリティ、パフォーマンスの3つの柱を強化することにある。 本稿では,Manifest V3エコシステムを包括的に分析する。 まず、V3の採用率を調査し、発表から2024年までの採用率について詳しく説明します。 2023年の停止前には、V2の完全な削除期限が迫っているにもかかわらず、全エクステンションの5%以下がV3に移行した。 さらに、V2とV3間のセキュリティとプライバシの強化を比較し、V3のより安全なAPIに起因する改善されたセキュリティを評価する。 確認済みの悪意のある拡張517を動的に実行し、V3の改善により悪意のある振る舞いに関連するAPIを87.8%削除しました。 これらの拡張のうち154(29.8%)のみが機能的なポストコンバージョンのままであることがわかった。 この分析は、V3がそのようなAPIを悪用するための道のりを減らせるという結論に繋がる。 しかし、悪意のあるアクティビティに関連するAPIの減少にもかかわらず、新しいManifest V3プロトコルはそのような振る舞いに免疫がない。 我々の研究は、概念実証を通じて、悪意ある活動のV3への適応性を実証している。 概念変更の証明が適用された後、検証された悪意のある拡張のうち290(56%)が、V3フレームワーク内で有害な活動を行う能力を維持していることを示す。

Introduced over a decade ago, Chrome extensions now exceed 200,000 in number. In 2020, Google announced a shift in extension development with Manifest Version 3 (V3), aiming to replace the previous Version 2 (V2) by January 2023. This deadline was later extended to January 2025. The company's decision is grounded in enhancing three main pillars: privacy, security, and performance. This paper presents a comprehensive analysis of the Manifest V3 ecosystem. We start by investigating the adoption rate of V3, detailing the percentage of adoption from its announcement up until 2024. Our findings indicate, prior to the 2023 pause, less than 5% of all extensions had transitioned to V3, despite the looming deadline for the complete removal of V2, while currently nine out of ten new extensions are being uploaded in Manifest V3. Furthermore, we compare the security and privacy enhancements between V2 and V3 and we evaluate the improved security attributable to V3's safer APIs, examining how certain APIs, which were vulnerable or facilitated malicious behavior, have been deprecated or removed in V3. We dynamically execute 517 confirmed malicious extensions and we see a 87.8% removal of APIs related to malicious behavior due to the improvements of V3. We discover that only 154 (29.8%) of these extensions remain functional post-conversion. This analysis leads to the conclusion that V3 reduces the avenues for abuse of such APIs. However, despite the reduction in APIs associated with malicious activities, the new Manifest V3 protocol is not immune to such behavior. Our research demonstrates, through a proof of concept, the adaptability of malicious activities to V3. After the proof of concept changes are applied, we showcase 290 (56%) of the examined malicious extensions retain their capability to conduct harmful activities within the V3 framework.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# GPN: 生成点ベースのNeRF

GPN: Generative Point-based NeRF ( http://arxiv.org/abs/2404.08312v1 )

ライセンス: Link先を確認
Haipeng Wang, (参考訳) 現代の登録装置で現実のシーンをスキャンすると、主に部分走査、3D閉塞、動的光条件の制限により、不完全な点雲が表現される。 不完全なポイントクラウドの処理に関する最近の研究は、常にポイントクラウドの補完に焦点を当ててきた。 しかし、これらのアプローチは、完成した点雲と、色と幾何学に関するキャプチャ画像との整合性を保証するものではない。 我々は, 部分的雲の再構成と修復に生成点ベースのNeRF (GPN) を用い, スキャン画像と対応する再構成雲をフル活用することを提案する。 補修された点雲は、高空間分解能で撮像された画像との多視点整合を達成することができる。 単一シーンの微調整のために,マルチビューの一貫性を維持しながらAuto-Decoderアーキテクチャを組み込むことにより,グローバルな潜伏条件を最適化する。 その結果、生成された点雲は滑らかで、可塑性であり、幾何学的に部分走査画像と一致している。 ShapeNetに関する大規模な実験は、我々の研究が他の最先端のクラウドベースのニューラルシーンレンダリングと編集のパフォーマンスと競合する性能を達成することを実証している。

Scanning real-life scenes with modern registration devices typically gives incomplete point cloud representations, primarily due to the limitations of partial scanning, 3D occlusions, and dynamic light conditions. Recent works on processing incomplete point clouds have always focused on point cloud completion. However, these approaches do not ensure consistency between the completed point cloud and the captured images regarding color and geometry. We propose using Generative Point-based NeRF (GPN) to reconstruct and repair a partial cloud by fully utilizing the scanning images and the corresponding reconstructed cloud. The repaired point cloud can achieve multi-view consistency with the captured images at high spatial resolution. For the finetunes of a single scene, we optimize the global latent condition by incorporating an Auto-Decoder architecture while retaining multi-view consistency. As a result, the generated point clouds are smooth, plausible, and geometrically consistent with the partial scanning images. Extensive experiments on ShapeNet demonstrate that our works achieve competitive performances to the other state-of-the-art point cloud-based neural scene rendering and editing performances.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 知識グラフエンティティタイピングにおける意味的知識と構造的知識の統合

The Integration of Semantic and Structural Knowledge in Knowledge Graph Entity Typing ( http://arxiv.org/abs/2404.08313v1 )

ライセンス: Link先を確認
Muzhi Li, Minda Hu, Irwin King, Ho-fung Leung, (参考訳) Knowledge Graph Entity Typing (KGET)タスクは、知識グラフ内のエンティティの欠落した型アノテーションを予測することを目的としている。 最近の研究は、エンティティの局所的な近傍にある \textit{\textbf{structureural knowledge}} のみを使用し、型推論に不可欠なエンティティ、関係、型のテキスト表現では \textit{\textbf{semantic knowledge}} を無視している。 さらに, 意味的知識と構造的知識の相互作用を利用して, 偽陰性問題に対処できることが観察された。 本稿では,3つのモジュールからなる新規な \textbf{\underline{S}}emantic および \textbf{\underline{S}}tructure-aware KG \textbf{\underline{E}}ntity \textbf{\underline{T}}yping~{(SSET)} フレームワークを提案する。 まず、textit{Semantic Knowledge Encoding}モジュールは、KGの事実知識をMasked Entity Typingタスクでエンコードする。 次に、‘textit{Structural Knowledge Aggregation} モジュールは、エンティティのマルチホップ近傍からの知識を集約して、欠落した型を推測する。 最後に、\textit{Unsupervised Type Re- rank}モジュールは、上記の2つのモデルからの推論結果を利用して、偽陰性サンプルに対して堅牢な型予測を生成する。 大規模な実験により、SSETは既存の最先端手法を著しく上回っていることが示された。

The Knowledge Graph Entity Typing (KGET) task aims to predict missing type annotations for entities in knowledge graphs. Recent works only utilize the \textit{\textbf{structural knowledge}} in the local neighborhood of entities, disregarding \textit{\textbf{semantic knowledge}} in the textual representations of entities, relations, and types that are also crucial for type inference. Additionally, we observe that the interaction between semantic and structural knowledge can be utilized to address the false-negative problem. In this paper, we propose a novel \textbf{\underline{S}}emantic and \textbf{\underline{S}}tructure-aware KG \textbf{\underline{E}}ntity \textbf{\underline{T}}yping~{(SSET)} framework, which is composed of three modules. First, the \textit{Semantic Knowledge Encoding} module encodes factual knowledge in the KG with a Masked Entity Typing task. Then, the \textit{Structural Knowledge Aggregation} module aggregates knowledge from the multi-hop neighborhood of entities to infer missing types. Finally, the \textit{Unsupervised Type Re-ranking} module utilizes the inference results from the two models above to generate type predictions that are robust to false-negative samples. Extensive experiments show that SSET significantly outperforms existing state-of-the-art methods.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 光ネットワークにおける多段階計画のためのマルチステップ交通予測

Multi-Step Traffic Prediction for Multi-Period Planning in Optical Networks ( http://arxiv.org/abs/2404.08314v1 )

ライセンス: Link先を確認
Hafsa Maryam, Tania Panayiotou, Georgios Ellinas, (参考訳) サービスオーバープロビジョンに対処し、必要な品質・オブ・サービス(QoS)レベルを確保しつつ、トラフィック変更への適応性を改善するために、複数段階の事前トラフィック予測を活用する多周期計画フレームワークが提案されている。 エンコーダ・デコーダ深層学習モデルは,まず,実交通トラヒックを解析して,複数ステップ先進予測に活用される。 この情報は多周期計画ヒューリスティックによって利用され、望ましくないサービス障害(光路の再配置による)を最小限に抑えつつ、利用可能なネットワークリソースを効率的に活用する。

A multi-period planning framework is proposed that exploits multi-step ahead traffic predictions to address service overprovisioning and improve adaptability to traffic changes, while ensuring the necessary quality-of-service (QoS) levels. An encoder-decoder deep learning model is initially leveraged for multi-step ahead prediction by analyzing real-traffic traces. This information is then exploited by multi-period planning heuristics to efficiently utilize available network resources while minimizing undesired service disruptions (caused due to lightpath re-allocations), with these heuristics outperforming a single-step ahead prediction approach.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# BOND:マルチタスクプロモートによるボトムスクラッチ名の曖昧化

BOND: Bootstrapping From-Scratch Name Disambiguation with Multi-task Promoting ( http://arxiv.org/abs/2404.08322v1 )

ライセンス: Link先を確認
Yuqing Cheng, Bo Chen, Fanjin Zhang, Jie Tang, (参考訳) 学界プラットフォームのための信頼性の高い基盤を確立するためには,学名の曖昧さが不可欠である。 これは、同一人物によって書かれた文書を、異なる実生活の専門家を表すグループに分割することを含む。 典型的には、このプロセスは2つの分離されたタスクに分けられる: 文書間のペアの類似性を局所的に推定し、その後グローバルにこれらの文書を適切なクラスタにグループ化する。 しかし、このような分離されたアプローチは、しばしばこれらの相互接続されたタスク間の最適な情報交換を阻害する。 そこで本研究では,ローカルおよびグローバルな情報伝達信号をブートストラップして,エンドツーエンドで相互にプロモートするBONDを提案する。 具体的には、BONDは局所的なペアの類似性を利用してグローバルクラスタリングを駆動し、その後擬似クラスタリングラベルを生成する。 これらのグローバル信号は、さらに局所的なペアワイズ特性を洗練させる。 実験結果は、BONDの優位性を確立し、他の先進的なベースラインよりもかなりの差で上回った。 さらに、アンサンブルとポストマッチのテクニックを取り入れた拡張版であるBOND+は、WhoIsWhoコンペティションのトップメソッドと競合する。

From-scratch name disambiguation is an essential task for establishing a reliable foundation for academic platforms. It involves partitioning documents authored by identically named individuals into groups representing distinct real-life experts. Canonically, the process is divided into two decoupled tasks: locally estimating the pairwise similarities between documents followed by globally grouping these documents into appropriate clusters. However, such a decoupled approach often inhibits optimal information exchange between these intertwined tasks. Therefore, we present BOND, which bootstraps the local and global informative signals to promote each other in an end-to-end regime. Specifically, BOND harnesses local pairwise similarities to drive global clustering, subsequently generating pseudo-clustering labels. These global signals further refine local pairwise characterizations. The experimental results establish BOND's superiority, outperforming other advanced baselines by a substantial margin. Moreover, an enhanced version, BOND+, incorporating ensemble and post-match techniques, rivals the top methods in the WhoIsWho competition.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 衛星データによる熱帯低気圧風速推定の不確実性

Uncertainty Aware Tropical Cyclone Wind Speed Estimation from Satellite Data ( http://arxiv.org/abs/2404.08325v1 )

ライセンス: Link先を確認
Nils Lehmann, Nina Maria Gottschling, Stefan Depeweg, Eric Nalisnick, (参考訳) 深部ニューラルネットワーク(DNN)は、地球観測(EO)データに適用され、新しい研究の道を開いた。 これらの手法の理論的および実践的な進歩にもかかわらず、DNNは依然としてブラックボックスツールと見なされ、デフォルトではポイント予測を提供するように設計されている。 しかし、ほとんどのEOアプリケーションでは、重要な意思決定タスクにおいて実践者を支援する信頼性の高い不確実性推定が要求される。 本研究は,熱帯低気圧の衛星画像における風速推定の課題に適用されたDNNの既存の不確実性定量化手法の理論的,定量的比較を提供する。 DNNの最先端不確実性定量化(UQ)手法による予測不確実性推定の詳細な評価を行う。 その結果, 予測不確実性を利用して精度を向上し, 各種手法の予測不確実性を分析することができた。

Deep neural networks (DNNs) have been successfully applied to earth observation (EO) data and opened new research avenues. Despite the theoretical and practical advances of these techniques, DNNs are still considered black box tools and by default are designed to give point predictions. However, the majority of EO applications demand reliable uncertainty estimates that can support practitioners in critical decision making tasks. This work provides a theoretical and quantitative comparison of existing uncertainty quantification methods for DNNs applied to the task of wind speed estimation in satellite imagery of tropical cyclones. We provide a detailed evaluation of predictive uncertainty estimates from state-of-the-art uncertainty quantification (UQ) methods for DNNs. We find that predictive uncertainties can be utilized to further improve accuracy and analyze the predictive uncertainties of different methods across storm categories.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# サリエンスに基づく適応型マスキング:事前訓練強化のためのトークンダイナミクスの再検討

Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training ( http://arxiv.org/abs/2404.08327v1 )

ライセンス: Link先を確認
Hyesong Choi, Hyejin Park, Kwang Moo Yi, Sungmin Cha, Dongbo Min, (参考訳) 本稿では,SBAM(Salliency-Based Adaptive Masking)を導入し,トークン・サリエンスを優先することで,MIM(Masked Image Modeling)アプローチの事前学習性能を大幅に向上させる手法を提案する。 本手法はマスキング比の変動に対するロバスト性を提供し,既存の手法に共通する性能不安定性問題を効果的に軽減する。 これにより、MIMベースの事前学習からマスキング比への感度を緩和し、既存の方法では提供できないデータサンプルごとに「調整済み」マスキング比の適応戦略を提案できる。 そこで本研究では,トークンサリエンスに基づく各画像のユニークな内容に対するマスキングの割合を動的に調整する適応型マスキング比(AMR)戦略を提案する。 本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。

In this paper, we introduce Saliency-Based Adaptive Masking (SBAM), a novel and cost-effective approach that significantly enhances the pre-training performance of Masked Image Modeling (MIM) approaches by prioritizing token salience. Our method provides robustness against variations in masking ratios, effectively mitigating the performance instability issues common in existing methods. This relaxes the sensitivity of MIM-based pre-training to masking ratios, which in turn allows us to propose an adaptive strategy for `tailored' masking ratios for each data sample, which no existing method can provide. Toward this goal, we propose an Adaptive Masking Ratio (AMR) strategy that dynamically adjusts the proportion of masking for the unique content of each image based on token salience. We show that our method significantly improves over the state-of-the-art in mask-based pre-training on the ImageNet-1K dataset.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 非対称超伝導回路における2量子ゲートと多体絡み合い状態の実現

Realization of two-qubit gates and multi-body entanglement states in an asymmetric superconducting circuits ( http://arxiv.org/abs/2404.08328v1 )

ライセンス: Link先を確認
Tao Zhang, Chaoying Zhao, (参考訳) 近年,超伝導クオンタム回路の設計において,チューナブルカップリング方式が主流となっている。 分散状態で働くことにより、ZZ結合と高エネルギーレベルのリークを効果的に抑制し、高忠実度量子ゲートを実現することができる。 本研究では, 可変フラキソニウム-トランスモン (FTT) コープリング方式を提案する。 我々のシステムでは、カプラは周波数可変トランスモン量子ビットである。 キュービットとカプラはともに容量結合である。 フラクソニウムとトランスモンからなる非対称構造は周波数空間を最適化し、高忠実度2量子ビットの量子ゲートを形成する。 疎結合により、有効結合強度はキュービット間のネット結合に近いように容易に調整できる。 我々は主方程式を数値シミュレーションし、量子ノイズをゼロに減らした。 一般のシングルキュービットX{\pi}/2ゲートと2キュービット(iSWAP)ゲートをシミュレートし,本方式の性能について検討した。 量子ビットのバイアス点において、99.99%の忠実度を持つ1つの量子ビットゲートと99.95%の忠実度を持つ2つの量子ビットゲートを達成する。 フラキソニウムの非線形カー係数を適切な値に調整することにより、多体絡み状態が得られる。 二つの量子ビットとカプラの相関を考察し、一方の量子ビットを通過する磁束が他方の量子ビットとカプラに与える影響を考察する。 最後に,2体の絡み合い状態の量子相関を解析する。

In recent years, the tunable coupling scheme has become the mainstream scheme for designing superconducting quan tum circuits. By working in the dispersive regime, the ZZ coupling and high-energy level leakage can be effectively suppressed and realize a high fidelity quantum gate. We propose a tunable fluxonium-transmon-transmon (FTT) cou pling scheme. In our system, the coupler is a frequency tunable transmon qubit. Both qubits and coupler are capacitively coupled. The asymmetric structure composed of fluxonium and transmon will optimize the frequency space and form a high fidelity two-qubit quantum gate. By decoupling, the effective coupling strength can be easily adjusted to close to the net coupling between qubits. We numerical simulation the master equation to reduce the quantum noise to zero. We study the performance of this scheme by simulating the general single-qubit X{\pi}/2 gate and two-qubit (iSWAP) gate. In the bias point of the qubits, we achieve a single qubit gate with 99.99% fidelity and a two-qubit gate with 99.95% fidelity. By adjusting the nonlinear Kerr coefficient of fluxonium to an appropriate value, we can achieve a multi-body entanglement state. We consider the correlation between the two qubits and the coupler, and the magnetic flux passing through one qubit has an effect on the other qubit and the coupler. Finally, we analyze the quantum correlation of the two-body entanglement state.
翻訳日:2024-04-15 15:35:59 公開日:2024-04-12
# 効果的な予修訓練のためのマスケトウキの創成特性

Emerging Property of Masked Token for Effective Pre-training ( http://arxiv.org/abs/2404.08330v1 )

ライセンス: Link先を確認
Hyesong Choi, Hunsang Lee, Seyoung Joung, Hyejin Park, Jiyeong Kim, Dongbo Min, (参考訳) Masked Language Modeling (MLM)の成功によって、コンピュータビジョンのための自己教師型学習の領域は、最近のブレークスルーの推進におけるMasked Image Modeling (MIM)の中心的な役割によって活性化された。 様々な下流タスクにおけるMIMの達成にもかかわらず、その全体的な効率は、事前学習フェーズの長い持続時間によって妨げられることがある。 本稿では,一般的な問題に対処する手段として,マスクトークンの最適化について述べる。 最初は、マスクされたトークンが持つべき固有の性質を探索しました。 それらの特性の中では、主にマスキングトークンに固有の 'data singularity' 属性の明瞭化と強調に重点を置いている。 マスク付きトークンと事前訓練されたモデル内の可視トークンの不均一性を包括的に分析することにより,マスク付きトークンの重み付けとキー特性の強化によるモデル効率の向上を目的とした,マスク付きトークン最適化(MTO)と呼ばれる新しいアプローチを提案する。 提案手法は,マスクトークンを利用したMIM手法をシームレスに統合した適応型ソリューションとして機能する。 その結果、MTOは事前学習効率を大幅に向上させ、近年のアプローチの収束性能を達成するために必要な事前学習エポックを約50%削減することに成功した。

Driven by the success of Masked Language Modeling (MLM), the realm of self-supervised learning for computer vision has been invigorated by the central role of Masked Image Modeling (MIM) in driving recent breakthroughs. Notwithstanding the achievements of MIM across various downstream tasks, its overall efficiency is occasionally hampered by the lengthy duration of the pre-training phase. This paper presents a perspective that the optimization of masked tokens as a means of addressing the prevailing issue. Initially, we delve into an exploration of the inherent properties that a masked token ought to possess. Within the properties, we principally dedicated to articulating and emphasizing the `data singularity' attribute inherent in masked tokens. Through a comprehensive analysis of the heterogeneity between masked tokens and visible tokens within pre-trained models, we propose a novel approach termed masked token optimization (MTO), specifically designed to improve model efficiency through weight recalibration and the enhancement of the key property of masked tokens. The proposed method serves as an adaptable solution that seamlessly integrates into any MIM approach that leverages masked tokens. As a result, MTO achieves a considerable improvement in pre-training efficiency, resulting in an approximately 50% reduction in pre-training epochs required to attain converged performance of the recent approaches.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# LLMにおけるトークン化の理論に向けて

Toward a Theory of Tokenization in LLMs ( http://arxiv.org/abs/2404.08335v1 )

ライセンス: Link先を確認
Nived Rajaraman, Jiantao Jiao, Kannan Ramchandran, (参考訳) 言語モデリングのためのトークン化(Clark et al , 2022; Xue et al , 2022)を回避しようとする研究が数多く行われているが、現在のコンセンサスでは、最先端のパフォーマンス言語モデルを設計するための必要な初期ステップである。 本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化を考察する。 ある単純な$k^{\text{th}}$-order Markovプロセスから$k > 1$のデータをトレーニングすると、トランスフォーマーは驚くべき現象を示す。 しかし、トークン化の追加により、トランスフォーマーがこの障壁を突破し、ほぼ最適にソースから引き出されたシーケンスの確率をモデル化し、小さなクロスエントロピー損失を達成することを実証的に観察する。 この観測を出発点として,トークン化のないトランスフォーマーによって達成されるエンドツーエンドのクロスエントロピー損失について検討する。 適切なトークン化により、変換子によって学習された最も単純なユニグラムモデルでさえ、$k^{\text{th}}$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることが示される。 我々の分析は,マルコフデータ上でのトランスフォーマーの挙動を研究することによって,トークン化の実践的利用を正当化するものである。

While there has been a large body of research attempting to circumvent tokenization for language modeling (Clark et al., 2022; Xue et al., 2022), the current consensus is that it is a necessary initial step for designing state-of-the-art performant language models. In this paper, we investigate tokenization from a theoretical point of view by studying the behavior of transformers on simple data generating processes. When trained on data drawn from certain simple $k^{\text{th}}$-order Markov processes for $k > 1$, transformers exhibit a surprising phenomenon - in the absence of tokenization, they empirically fail to learn the right distribution and predict characters according to a unigram model (Makkuva et al., 2024). With the addition of tokenization, however, we empirically observe that transformers break through this barrier and are able to model the probabilities of sequences drawn from the source near-optimally, achieving small cross-entropy loss. With this observation as starting point, we study the end-to-end cross-entropy loss achieved by transformers with and without tokenization. With the appropriate tokenization, we show that even the simplest unigram models (over tokens) learnt by transformers are able to model the probability of sequences drawn from $k^{\text{th}}$-order Markov sources near optimally. Our analysis provides a justification for the use of tokenization in practice through studying the behavior of transformers on Markovian data.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# アーチファクトの対向的除去による顔偽造検出のための対向的説明

Counterfactual Explanations for Face Forgery Detection via Adversarial Removal of Artifacts ( http://arxiv.org/abs/2404.08341v1 )

ライセンス: Link先を確認
Yang Li, Songlin Yang, Wei Wang, Ziwen He, Bo Peng, Jing Dong, (参考訳) ディープフェイクとして知られる、非常にリアルなAI生成顔偽造は、深刻な社会的懸念を引き起こしている。 DNNベースの顔偽造検出モデルは優れた性能を達成しているが、偽造トレースや敵攻撃の少ない最新の生成手法に弱い。 この一般化と堅牢性の制限は、検出結果の信頼性を妨げ、より多くの説明を必要とする。 本研究では,人工物除去の観点からの顔偽造検出の事実的説明を行う。 具体的には、まず、偽画像をStyleGAN潜在空間に反転させ、次にターゲット検出モデルから識別監督を行い、その潜在表現を逆向きに最適化する。 提案手法の有効性を2つの側面から検証する:(1)非現実的トレース可視化:強化された偽画像は、原画像と2つの異なる可視化方法とを視覚的に対比することで、人工物を明らかにするのに有用である。 実験の結果,攻撃成功率は90%以上であり,高い攻撃伝達性を示した。 自然対向雑音法と比較して,本手法は生成モデルと識別モデルの両方の先行モデルを採用し,その潜在表現を解析的手法で最適化することにより,自然面多様体上の反実的説明の探索を強制する。 したがって、より一般的な対物的トレースを見つけることができ、より良い対物的攻撃伝達性を達成することができる。

Highly realistic AI generated face forgeries known as deepfakes have raised serious social concerns. Although DNN-based face forgery detection models have achieved good performance, they are vulnerable to latest generative methods that have less forgery traces and adversarial attacks. This limitation of generalization and robustness hinders the credibility of detection results and requires more explanations. In this work, we provide counterfactual explanations for face forgery detection from an artifact removal perspective. Specifically, we first invert the forgery images into the StyleGAN latent space, and then adversarially optimize their latent representations with the discrimination supervision from the target detection model. We verify the effectiveness of the proposed explanations from two aspects: (1) Counterfactual Trace Visualization: the enhanced forgery images are useful to reveal artifacts by visually contrasting the original images and two different visualization methods; (2) Transferable Adversarial Attacks: the adversarial forgery images generated by attacking the detection model are able to mislead other detection models, implying the removed artifacts are general. Extensive experiments demonstrate that our method achieves over 90% attack success rate and superior attack transferability. Compared with naive adversarial noise methods, our method adopts both generative and discriminative model priors, and optimize the latent representations in a synthesis-by-analysis way, which forces the search of counterfactual explanations on the natural face manifold. Thus, more general counterfactual traces can be found and better adversarial attack transferability can be achieved.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# 量子集積センシングと絡み合いによる通信

Quantum integrated sensing and communication via entanglement ( http://arxiv.org/abs/2404.08342v1 )

ライセンス: Link先を確認
Yu-Chen Liu, Yuan-Bin Cheng, Xing-Bo Pan, Ze-Zhou Sun, Dong Pan, Gui-Lu Long, (参考訳) 量子通信と量子気象学は量子情報科学の分野で広く応用されており、量子リモートセンシングは両者の交差点である。 これらの違いにもかかわらず、量子通信と量子リモートセンシングの間には顕著な共通点があり、量子状態の伝達によってそれらの機能を達成する。 本稿では,ハイゼンベルク限界下での量子センシングを実現するとともに,絡み合いの伝達による量子セキュアな通信を可能にする新しいQISACプロトコルを提案する。 われわれは盗聴者に対する安全を理論的に証明した。 QISACのセキュリティは、情報ビットの秘密容量と、センシングのための非対称なFisher情報ゲインとが特徴である。 限られた絡み合い資源の制約下で行われるシミュレーションを通して、QISACは位相推定において高い精度を維持していることを示す。 したがって、我々のQISACは将来の量子ネットワークの応用に新たな視点を提供する。

Quantum communication and quantum metrology are widely compelling applications in the field of quantum information science, and quantum remote sensing is an intersection of both. Despite their differences, there are notable commonalities between quantum communication and quantum remote sensing, as they achieve their functionalities through the transmission of quantum states. Here we propose a novel quantum integrated sensing and communication (QISAC) protocol, which achieves quantum sensing under the Heisenberg limit while simultaneously enabling quantum secure communication through the transmission of entanglements. We have theoretically proven its security against eavesdroppers. The security of QISAC is characterized by the secrecy capacity for information bit as well as asymmetric Fisher information gain for sensing. Through simulations conducted under the constraints of limited entanglement resources, we illustrate that QISAC maintains high accuracy in the estimation of phase. Hence our QISAC offers a fresh perspective for the applications of future quantum networks.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# FastSpell: LangId Magic Spell

FastSpell: the LangId Magic Spell ( http://arxiv.org/abs/2404.08345v1 )

ライセンス: Link先を確認
Marta Bañón, Jaume Zaragoza-Bernabeu, Gema Ramírez-Sánchez, Sergio Ortiz-Rojas, (参考訳) 言語識別は、特に多言語およびビッグデータのコンテキストにおいて、言語リソースの自動生成において重要な要素である。 しかし、一般的に使われている言語識別子は、類似言語と近縁言語を区別するのに苦労する。 本稿では,FastSpellについて紹介する。FastText(事前訓練済みの言語識別子ツール)とHunspell(スペルチェッカー)を組み合わせた言語識別子で,テキストにどの言語を割り当てるべきかを決定する前に,洗練された第2のオピニオンを持つことを目的としている。 我々は、FastSpellアルゴリズムの使い方や構成についての説明とともに、FastSpellアルゴリズムの説明を提供する。 そのために、そのようなツールの必要性を動機付け、FastSpellの開発中に評価された人気のある言語識別子を含むベンチマークを示す。 我々は、FastSpellが、類似言語の識別を改善するだけでなく、他のツールによって無視される新しい言語を特定するためにも有用であることを示す。

Language identification is a crucial component in the automated production of language resources, particularly in multilingual and big data contexts. However, commonly used language identifiers struggle to differentiate between similar or closely-related languages. This paper introduces FastSpell, a language identifier that combines fastText (a pre-trained language identifier tool) and Hunspell (a spell checker) with the aim of having a refined second-opinion before deciding which language should be assigned to a text. We provide a description of the FastSpell algorithm along with an explanation on how to use and configure it. To that end, we motivate the need of such a tool and present a benchmark including some popular language identifiers evaluated during the development of FastSpell. We show how FastSpell is useful not only to improve identification of similar languages, but also to identify new ones ignored by other tools.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# 適応型マスキングサブネットによるマルチモーダル最適化の再バランス学習

Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks ( http://arxiv.org/abs/2404.08347v1 )

ライセンス: Link先を確認
Yang Yang, Hongpeng Pan, Qing-Yuan Jiang, Yi Xu, Jinghui Tang, (参考訳) マルチモーダル学習は、様々なモダリティからモデルを統一することでパフォーマンスを向上させることを目的としているが、実データにおいて「モダリティの不均衡」問題に直面し、支配的なモダリティへの偏見を生じさせ、他を無視し、全体的な効果を制限する。 この課題に対処するため、中心となるアイデアは、各モダリティの最適化のバランスをとることで、共同最適化を実現することである。 既存のアプローチでは、各モーダルパラメータの更新を調整するためのモーダルレベル制御機構がしばしば使用されている。 しかし、このようなグローバルな更新メカニズムは各パラメータの異なる重要性を無視している。 サブネットワーク最適化にインスパイアされ、一様サンプリングに基づく最適化戦略を探求し、グローバルな更新よりも効果的であることを示す。 そこで本研究では,モーダル重要度(AMSS)を考慮したアダプティヴマスク・サブネット工法 (Adaptively Mask Subnetworks) という,サンプリングベースで要素ワイドな共同最適化手法を提案する。 具体的には,モーダルの重要度を決定するために相互情報レートを組み込んだ非一様適応サンプリングを用いて,パラメータ更新のために各モーダルから前景サブネットを選択することにより,マルチモーダル学習の再バランスを図る。 さらに,収束解析によるAMSS戦略の信頼性を示す。 理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。 大規模な実験により、比較法よりもアプローチの優位性が明らかとなった。

Multi-modal learning aims to enhance performance by unifying models from various modalities but often faces the "modality imbalance" problem in real data, leading to a bias towards dominant modalities and neglecting others, thereby limiting its overall effectiveness. To address this challenge, the core idea is to balance the optimization of each modality to achieve a joint optimum. Existing approaches often employ a modal-level control mechanism for adjusting the update of each modal parameter. However, such a global-wise updating mechanism ignores the different importance of each parameter. Inspired by subnetwork optimization, we explore a uniform sampling-based optimization strategy and find it more effective than global-wise updating. According to the findings, we further propose a novel importance sampling-based, element-wise joint optimization method, called Adaptively Mask Subnetworks Considering Modal Significance(AMSS). Specifically, we incorporate mutual information rates to determine the modal significance and employ non-uniform adaptive sampling to select foreground subnetworks from each modality for parameter updates, thereby rebalancing multi-modal learning. Additionally, we demonstrate the reliability of the AMSS strategy through convergence analysis. Building upon theoretical insights, we further enhance the multi-modal mask subnetwork strategy using unbiased estimation, referred to as AMSS+. Extensive experiments reveal the superiority of our approach over comparison methods.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# 量子エミッタからの時間結合絡み合った光子の理論

Theory of time-bin entangled photons from quantum emitters ( http://arxiv.org/abs/2404.08348v1 )

ライセンス: Link先を確認
Thomas K. Bracht, Florian Kappe, Moritz Cygorek, Tim Seidelmann, Yusuf Karli, Vikas Remesh, Gregor Weihs, Vollrath Martin Axt, Doris E. Reiter, (参考訳) 絡み合った光子対は、量子通信の領域における多くの応用の基礎となる。 絡み合った光子対の光ファイバー移動では、時間ビン符号化は偏光符号化量子ビットに比べて安定性が向上する可能性がある。 ここでは、時間双絡光子の測定を記述するための理論的基礎を定めている。 我々は、量子状態トモグラフィー測定に対応する時間ビン符号化光子対の多重時間相関関数を導出する。 我々の理論は、量子エミッタからの時間ビン絡みの現実的なシミュレーションのために、特定の量子システムに適用されるあらゆる種類の損失やデコヒーレンス効果を含むようにシミュレーションを拡張する出発点となる。

Entangled photon pairs form the foundation for many applications in the realm of quantum communication. For fiber-optic transfer of entangled photon pairs, time-bin encoding can potentially offer an improved stability compared to polarization encoded qubits. Here, we lay the theoretical foundations to describe the measurement of time-bin entangled photons. We derive multi-time correlation functions of the time-bin encoded photon pairs, corresponding to quantum state tomographic measurements. Our theory can be the starting point to extend the simulations to include all kinds of loss or decoherence effects that apply in a specific quantum system for realistic simulation for time-bin entanglement from quantum emitters.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# Neural Implicit k-Space Representation を用いた動作改善型腹部MRIの自己改善k-Space Regularization

Self-Supervised k-Space Regularization for Motion-Resolved Abdominal MRI Using Neural Implicit k-Space Representation ( http://arxiv.org/abs/2404.08350v1 )

ライセンス: Link先を確認
Veronika Spieker, Hannah Eichhorn, Jonathan K. Stelter, Wenqi Huang, Rickmer F. Braren, Daniel Rückert, Francisco Sahli Costabal, Kerstin Hammernik, Claudia Prieto, Dimitrios C. Karampinos, Julia A. Schnabel, (参考訳) ニューラル暗黙的k空間表現は、高時間分解能の動的MRIに対して有望な結果を示した。 しかし、k空間における排他的訓練は、最終的な再構成を改善するために共通画像正規化法の適用を制限する。 本研究では, 並列画像に着想を得た自己整合性(PISCO)の概念を導入する。 追加のデータコストがなければ、提案された正規化はシミュレーションデータの暗黙的k空間再構成を大幅に改善する。 PISCOを用いた腹部in-vivo再建術では, 経時的画像品質が高められた。 コードはhttps://github.com/vjspi/PISCO-NIKで公開されている。

Neural implicit k-space representations have shown promising results for dynamic MRI at high temporal resolutions. Yet, their exclusive training in k-space limits the application of common image regularization methods to improve the final reconstruction. In this work, we introduce the concept of parallel imaging-inspired self-consistency (PISCO), which we incorporate as novel self-supervised k-space regularization enforcing a consistent neighborhood relationship. At no additional data cost, the proposed regularization significantly improves neural implicit k-space reconstructions on simulated data. Abdominal in-vivo reconstructions using PISCO result in enhanced spatio-temporal image quality compared to state-of-the-art methods. Code is available at https://github.com/vjspi/PISCO-NIK.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# オムニサット:地球観測のための自己監督されたモーダリティ融合

OmniSat: Self-Supervised Modality Fusion for Earth Observation ( http://arxiv.org/abs/2404.08351v1 )

ライセンス: Link先を確認
Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu, (参考訳) 地球観測(EO)の分野は、多様なセンサーからの豊富なデータを提供し、自己監督型マルチモーダル学習を前進させる大きな機会を提供する。 しかし、現在のマルチモーダルなEOデータセットとモデルは、単一のデータタイプ、すなわちモノデート画像または時系列に焦点を合わせ、表現性を制限している。 OmniSatは,複数のEOモダリティ間の空間的アライメントを利用して,ラベルのない表現型マルチモーダル表現を学習する新しいアーキテクチャである。 異なる性質のモダリティを組み合わせる利点を示すため、既存の2つのデータセットを新しいモダリティで拡張する。 下流の3つの課題:林業、土地被覆分類、作物マッピング。 OmniSatは、教師なしの方法でリッチな表現を学習することができ、推論に1つのモダリティしか利用できない場合でも、半教師付き設定と完全教師付き設定のパフォーマンスが改善される。 コードとデータセットはgithub.com/gastruc/OmniSatで入手できる。

The field of Earth Observations (EO) offers a wealth of data from diverse sensors, presenting a great opportunity for advancing self-supervised multimodal learning. However, current multimodal EO datasets and models focus on a single data type, either mono-date images or time series, which limits their expressivity. We introduce OmniSat, a novel architecture that exploits the spatial alignment between multiple EO modalities to learn expressive multimodal representations without labels. To demonstrate the advantages of combining modalities of different natures, we augment two existing datasets with new modalities. As demonstrated on three downstream tasks: forestry, land cover classification, and crop mapping. OmniSat can learn rich representations in an unsupervised manner, leading to improved performance in the semi- and fully-supervised settings, even when only one modality is available for inference. The code and dataset are available at github.com/gastruc/OmniSat.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# TDANet:ゼロショット機能を備えたオブジェクト指向視覚ナビゲーションのためのターゲット指向アテンションネットワーク

TDANet: Target-Directed Attention Network For Object-Goal Visual Navigation With Zero-Shot Ability ( http://arxiv.org/abs/2404.08353v1 )

ライセンス: Link先を確認
Shiwei Lian, Feitian Zhang, (参考訳) オブジェクト指向ビジュアルナビゲーションのためのエンドツーエンド深層学習(DRL)の一般化は、新しいテスト環境においてオブジェクトクラスと配置が異なるため、長年にわたる課題である。 ドメインに依存しない視覚表現の学習は、訓練されたDRLエージェントが見えないシーンやオブジェクトに一般化できるために重要である。 本稿では,目標指向アテンションネットワーク(TDANet)を提案する。 TDANetは、オブジェクト間の空間的および意味的な関係を学習し、TDANetが最も関連性の高い観測対象にフォーカスするのに役立つ新しいターゲットアテンション(TA)モジュールを備えている。 Siameseアーキテクチャ(SA)設計では、TDANetは現在の状態とターゲット状態の違いを区別し、ドメインに依存しない視覚表現を生成する。 TDANetのナビゲーション性能を評価するため,AI2-THORを具体化したAI環境で広範囲な実験を行った。 シミュレーションの結果,TDANetのシーンや対象物への一般化能力が強く,航法成功率(SR)が向上し,SPLが他の最先端モデルよりも重み付けされた。

The generalization of the end-to-end deep reinforcement learning (DRL) for object-goal visual navigation is a long-standing challenge since object classes and placements vary in new test environments. Learning domain-independent visual representation is critical for enabling the trained DRL agent with the ability to generalize to unseen scenes and objects. In this letter, a target-directed attention network (TDANet) is proposed to learn the end-to-end object-goal visual navigation policy with zero-shot ability. TDANet features a novel target attention (TA) module that learns both the spatial and semantic relationships among objects to help TDANet focus on the most relevant observed objects to the target. With the Siamese architecture (SA) design, TDANet distinguishes the difference between the current and target states and generates the domain-independent visual representation. To evaluate the navigation performance of TDANet, extensive experiments are conducted in the AI2-THOR embodied AI environment. The simulation results demonstrate a strong generalization ability of TDANet to unseen scenes and target objects, with higher navigation success rate (SR) and success weighted by length (SPL) than other state-of-the-art models.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# ベンチマークによるニューラルセマンティック構文解析への洞察獲得

Gaining More Insight into Neural Semantic Parsing with Challenging Benchmarks ( http://arxiv.org/abs/2404.08354v1 )

ライセンス: Link先を確認
Xiao Zhang, Chunliu Wang, Rik van Noord, Johan Bos, (参考訳) Parallel Meaning Bank (PMB) はセマンティック処理のためのコーパスとして機能し、セマンティック解析とテキスト生成に重点を置いている。 現在、我々はPMBにおけるニューラルパーサーとジェネレータの優れたパフォーマンスを目撃している。 これは、このようなセマンティックな処理タスクが、大きく解決されたことを示唆するかもしれない。 PMBにおける過去のパフォーマンススコアは、最適でないデータ分割とテストセットによって膨らませられている、と我々は主張する。 これに応えて、いくつかの変更を加えます。 まず、事前のランダム分割の代わりに、標準的なテストデータの信頼性を向上させるために、より体系的な分割手法を提案する。 第二に、標準的なテストセットを除いて、談話構造を含む長いテキストを持つものと、構成的一般化に対処するものという2つの課題セットを提案する。 意味解析と意味テキスト生成のための5つのニューラルモデルを評価する。 以上の結果から,モデルの性能は(場合によっては)課題セットで低下し,このような課題に直面する際のニューラルネットワークの限界が明らかになった。

The Parallel Meaning Bank (PMB) serves as a corpus for semantic processing with a focus on semantic parsing and text generation. Currently, we witness an excellent performance of neural parsers and generators on the PMB. This might suggest that such semantic processing tasks have by and large been solved. We argue that this is not the case and that performance scores from the past on the PMB are inflated by non-optimal data splits and test sets that are too easy. In response, we introduce several changes. First, instead of the prior random split, we propose a more systematic splitting approach to improve the reliability of the standard test data. Second, except for the standard test set, we also propose two challenge sets: one with longer texts including discourse structure, and one that addresses compositional generalization. We evaluate five neural models for semantic parsing and meaning-to-text generation. Our results show that model performance declines (in some cases dramatically) on the challenge sets, revealing the limitations of neural models when confronting such challenges.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# 信頼性と時間的証拠検索による健康質問応答の改善

Improving Health Question Answering with Reliable and Time-Aware Evidence Retrieval ( http://arxiv.org/abs/2404.08359v1 )

ライセンス: Link先を確認
Juraj Vladika, Florian Matthes, (参考訳) 今日のデジタル世界では、インターネット上で健康問題に対する回答を求めるのが一般的である。 しかし、既存の質問応答(QA)システムは、しばしば事前選択された、注釈付きエビデンス文書に頼っているため、新しい質問に対処するには不十分である。 本研究は,オープンドメインのQA設定に焦点をあて,重要な課題は,まず大きな知識ベースで関連する証拠を明らかにすることである。 一般的な検索対象QAパイプラインとPubMedを信頼できる医療研究資料のコレクションとして活用することにより、3つの多様なデータセットからの健康問題に答える。 我々は、検索された文書の数、文章の選択プロセス、記事の発行年、引用数など、QAパイプラインのパフォーマンスへの影響を観察するために、異なる検索設定を変更した。 以上の結果から,検索した文書の量を削減し,最近かつ高度に引用された文書を優先することで,最終マクロF1スコアを最大10%向上させることができることがわかった。 結果について議論し、興味深い事例を取り上げ、エビデンスの不一致の管理やユーザフレンドリーな説明の作成など、今後の研究の課題を概説する。

In today's digital world, seeking answers to health questions on the Internet is a common practice. However, existing question answering (QA) systems often rely on using pre-selected and annotated evidence documents, thus making them inadequate for addressing novel questions. Our study focuses on the open-domain QA setting, where the key challenge is to first uncover relevant evidence in large knowledge bases. By utilizing the common retrieve-then-read QA pipeline and PubMed as a trustworthy collection of medical research documents, we answer health questions from three diverse datasets. We modify different retrieval settings to observe their influence on the QA pipeline's performance, including the number of retrieved documents, sentence selection process, the publication year of articles, and their number of citations. Our results reveal that cutting down on the amount of retrieved documents and favoring more recent and highly cited documents can improve the final macro F1 score up to 10%. We discuss the results, highlight interesting examples, and outline challenges for future research, like managing evidence disagreement and crafting user-friendly explanations.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# 大規模マルチドメインレコメンデーション:自動ドメイン特徴抽出とパーソナライズド統合フレームワーク

Large-Scale Multi-Domain Recommendation: an Automatic Domain Feature Extraction and Personalized Integration Framework ( http://arxiv.org/abs/2404.08361v1 )

ライセンス: Link先を確認
Dongbo Xi, Zhen Chen, Yuexian Wang, He Cui, Chong Peng, Fuzhen Zhuang, Peng Yan, (参考訳) フィードレコメンデーションは、現在、多くの現実世界アプリケーション(例えば、TikTok、Dianping)のメインストリームモードであり、通常、アプリケーション内外の複数のシナリオ(ドメイン)でユーザーの関心をモデル化し、予測する必要がある。 マルチドメイン学習はこの点において典型的な解決策である。 この点に関してかなりの努力がなされているが、(1)ドメインの特徴を用いたドメイン間の差異の正確な描写が各ドメインの性能向上に不可欠である、という2つの長年の課題がまだ残っている。 しかし、多くのドメインのドメイン機能やモデルを手動で設計するのは、面倒な作業です。 2) ユーザは通常、少数のドメインで限定的な印象を持つ。 他のドメインから自動的に機能を抽出し、それらを活用して各ドメインの予測能力を改善することは、一貫して困難な問題となっている。 本稿では,大規模マルチドメインレコメンデーションのための自動ドメイン特徴抽出とパーソナライズド統合(DFEI)フレームワークを提案する。 このフレームワークは個々のユーザの振る舞いを自動的にドメイン内のすべてのユーザの振る舞いの集約に変換し、ドメインの機能として機能します。 オフラインの特徴工学手法とは異なり、抽出された領域の特徴は高次表現であり、ターゲットラベルに直接関連している。 さらに、各ユーザのためのドメイン機能のパーソナライズされた統合とトレーニングモードの革新によって、DFEIフレームワークはより正確な変換識別を行うことができる。 20以上のドメインからなるパブリックデータセットと産業データセットの実験結果から,提案フレームワークがSOTAベースラインと比較して大幅に性能が向上していることが明らかとなった。 さらに、提案されたフレームワークのソースコードをhttps://github.com/xidongbo/DFEIで公開しました。

Feed recommendation is currently the mainstream mode for many real-world applications (e.g., TikTok, Dianping), it is usually necessary to model and predict user interests in multiple scenarios (domains) within and even outside the application. Multi-domain learning is a typical solution in this regard. While considerable efforts have been made in this regard, there are still two long-standing challenges: (1) Accurately depicting the differences among domains using domain features is crucial for enhancing the performance of each domain. However, manually designing domain features and models for numerous domains can be a laborious task. (2) Users typically have limited impressions in only a few domains. Extracting features automatically from other domains and leveraging them to improve the predictive capabilities of each domain has consistently posed a challenging problem. In this paper, we propose an Automatic Domain Feature Extraction and Personalized Integration (DFEI) framework for the large-scale multi-domain recommendation. The framework automatically transforms the behavior of each individual user into an aggregation of all user behaviors within the domain, which serves as the domain features. Unlike offline feature engineering methods, the extracted domain features are higher-order representations and directly related to the target label. Besides, by personalized integration of domain features from other domains for each user and the innovation in the training mode, the DFEI framework can yield more accurate conversion identification. Experimental results on both public and industrial datasets, consisting of over 20 domains, clearly demonstrate that the proposed framework achieves significantly better performance compared with SOTA baselines. Furthermore, we have released the source code of the proposed framework at https://github.com/xidongbo/DFEI.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# フローにしよう:3次元フローとオブジェクトクラスタリングの同時最適化

Let It Flow: Simultaneous Optimization of 3D Flow and Object Clustering ( http://arxiv.org/abs/2404.08363v1 )

ライセンス: Link先を確認
Patrik Vacek, David Hurych, Tomáš Svoboda, Karel Zimmermann, (参考訳) 本研究では,実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題について検討する。 地上真実のシーンフローラベルが存在しない現代的アプローチでは、フローとオブジェクトの剛性に基づく構造的正規化を取り入れることで、点雲の逐次対にわたる最適化フローの低減に重点を置いている。 剛体物体は様々な3次元空間クラスタリング法により推定される。 最先端の手法はニューラル・プリエント構造を用いてシーン全体の動きをキャプチャすることに成功したが、複数の物体の動きを識別する際の課題に直面した。 そこで本研究では, 重なり合うソフトクラスタと非重なり合う固いクラスタ表現を組み合わせたクラスタリング手法を提案する。 フローは、徐々に増大する非重なり合う固いクラスターと、一定の大きさの重なり合う柔らかいクラスターとで、共同で推定される。 提案手法をLiDAR点雲を用いた複数データセット上で評価し,新たな最先端結果に到達した自己教師付きベースラインよりも優れた性能を示す。 本手法は,歩行者やサイクリスト,その他の脆弱な道路利用者を含む,複数の独立移動物体が近接する複雑な動的シーンにおける流れの解消に優れる。 私たちのコードは公開されます。

We study the problem of self-supervised 3D scene flow estimation from real large-scale raw point cloud sequences, which is crucial to various tasks like trajectory prediction or instance segmentation. In the absence of ground truth scene flow labels, contemporary approaches concentrate on deducing optimizing flow across sequential pairs of point clouds by incorporating structure based regularization on flow and object rigidity. The rigid objects are estimated by a variety of 3D spatial clustering methods. While state-of-the-art methods successfully capture overall scene motion using the Neural Prior structure, they encounter challenges in discerning multi-object motions. We identified the structural constraints and the use of large and strict rigid clusters as the main pitfall of the current approaches and we propose a novel clustering approach that allows for combination of overlapping soft clusters as well as non-overlapping rigid clusters representation. Flow is then jointly estimated with progressively growing non-overlapping rigid clusters together with fixed size overlapping soft clusters. We evaluate our method on multiple datasets with LiDAR point clouds, demonstrating the superior performance over the self-supervised baselines reaching new state of the art results. Our method especially excels in resolving flow in complicated dynamic scenes with multiple independently moving objects close to each other which includes pedestrians, cyclists and other vulnerable road users. Our codes will be publicly available.
翻訳日:2024-04-15 15:26:16 公開日:2024-04-12
# ASRによる先住民語の発展 - Quechua, Guarani, Bribri, Kotiria, Wa'ikhana

ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana ( http://arxiv.org/abs/2404.08368v1 )

ライセンス: Link先を確認
Monica Romero, Sandra Gomez, Iván G. Torre, (参考訳) 先住民族言語は、アメリカの地域社会のユニークなアイデンティティと文化を具現化した、人間のコミュニケーションの発展における基本的遺産である。 NeurIPS 2022のSecond AmericasNLPコンペティショントラック1では、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つのネイティブ言語のための自動音声認識(ASR)システムの開発が提案された。 本稿では,多種多様なソースにまたがる音声コーパスをクローリングし,この競合に勝利をもたらすデータ拡張手法を適用することにより,各ターゲット言語に対する信頼性の高いASRモデルを提案する。 これを実現するため,ベイズ探索により異なるハイパーパラメータが言語モデルの性能に与える影響を系統的に検討し,特に300Mと1BのパラメータであるWav2vec2.0 XLS-Rモデルの変種に着目した。 さらに, 最適モデルの性能に対する各種ハイパーパラメトリック構成の寄与を評価するために, グローバル感度解析を行った。 以上の結果から, 微調整更新とドロップアウト率の凍結は, lr の総エポック数よりも重要なパラメータであることが示唆された。 さらに、私たちは最高のモデル -- これまでに2つのWa'ikhanaとKotiriaで報告された他のASRモデル -- を解放し、他の研究者が少数言語でASRを改善し続けるための多くの実験を実施しました。 この知見は将来の研究への興味深い道を開き、少数民族の保存におけるASR技術の発展と、この重要な取り組みに関わる複雑さの認識を可能にした。

Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities of America. The Second AmericasNLP Competition Track 1 of NeurIPS 2022 proposed developing automatic speech recognition (ASR) systems for five indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana. In this paper, we propose a reliable ASR model for each target language by crawling speech corpora spanning diverse sources and applying data augmentation methods that resulted in the winning approach in this competition. To achieve this, we systematically investigated the impact of different hyperparameters by a Bayesian search on the performance of the language models, specifically focusing on the variants of the Wav2vec2.0 XLS-R model: 300M and 1B parameters. Moreover, we performed a global sensitivity analysis to assess the contribution of various hyperparametric configurations to the performances of our best models. Importantly, our results show that freeze fine-tuning updates and dropout rate are more vital parameters than the total number of epochs of lr. Additionally, we liberate our best models -- with no other ASR model reported until now for two Wa'ikhana and Kotiria -- and the many experiments performed to pave the way to other researchers to continue improving ASR in minority languages. This insight opens up interesting avenues for future work, allowing for the advancement of ASR techniques in the preservation of minority indigenous and acknowledging the complexities involved in this important endeavour.
翻訳日:2024-04-15 15:26:15 公開日:2024-04-12
# ノイズ相関測定によるスピン電荷分離を伴う自然対称性破壊相の探索

Probing spontaneously symmetry-broken phases with spin-charge separation through noise correlation measurements ( http://arxiv.org/abs/2404.08374v1 )

ライセンス: Link先を確認
Javier Argüello-Luengo, Sergi Julià-Farré, Maciej Lewenstein, Christof Weitenberg, Luca Barbiero, (参考訳) 自発的対称性破壊(SSB)相は、多種多様な物理系を特徴づける物質が局所的に秩序づけられた状態である。 特定の順序付けのため、それらの存在は普通、局所的な順序パラメータによって観察される。 本稿では,原子雲の弾道膨張後の雑音の統計的相関に基づく代替手法を提案する。 このようなノイズ相関器を探索することで、スピン電荷分離を特徴とする様々なSSB位相を判別できることを示す。 このモデルでは、局所結合と非局所結合の競合により電荷密度波、結合秩序波、反強磁性の3つの異なるSSB相が生じる。 数値解析により、この手法はこれらの異なるSSB相の存在を正確に捉えることができ、強く相互作用する量子物質を特徴づけるための代替的で強力な戦略を表現できることを示す。

Spontaneously symmetry-broken (SSB) phases are locally ordered states of matter characterizing a large variety of physical systems. Because of their specific ordering, their presence is usually witnessed by means of local order parameters. Here, we propose an alternative approach based on statistical correlations of noise after the ballistic expansion of an atomic cloud. We indeed demonstrate that probing such noise correlators allows one to discriminate among different SSB phases characterized by spin-charge separation. As a particular example, we test our prediction on a 1D extended Fermi-Hubbard model, where the competition between local and nonlocal couplings gives rise to three different SSB phases: a charge density wave, a bond-ordering wave, and an antiferromagnet. Our numerical analysis shows that this approach can accurately capture the presence of these different SSB phases, thus representing an alternative and powerful strategy to characterize strongly interacting quantum matter.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# Gromow-Wasserstein Barycentersを用いたグラフデータ拡張

Graph data augmentation with Gromow-Wasserstein Barycenters ( http://arxiv.org/abs/2404.08376v1 )

ライセンス: Link先を確認
Andrea Ponti, (参考訳) グラフは様々な分野でユビキタスであり、深層学習法はグラフ分類タスクに応用されている。 しかし、トレーニングのために大規模で多様なグラフデータセットを構築するのはコストがかかる。 画像や数値データのような構造化データには拡張技術が存在するが、グラフデータの増大は依然として困難である。 これは主にグラフデータの複雑で非ユークリッド性に起因する。 本稿では,非ユークリッド空間で動作するグラフに対する新たな拡張戦略を提案する。 このアプローチは、ネットワークシーケンスの生成機構をモデル化したグラフトン推定を利用する。 計算結果は,グラフ分類モデルの性能向上における拡張フレームワークの有効性を示す。 さらに、非ユークリッド距離、特にグロモウ=ワッサーシュタイン距離を用いることで、グラノンの近似がより良くなる。 このフレームワークは、特に真のグラフオンが未知の現実のシナリオにおいて、異なるグラフオン推定アプローチを検証する手段を提供する。

Graphs are ubiquitous in various fields, and deep learning methods have been successful applied in graph classification tasks. However, building large and diverse graph datasets for training can be expensive. While augmentation techniques exist for structured data like images or numerical data, the augmentation of graph data remains challenging. This is primarily due to the complex and non-Euclidean nature of graph data. In this paper, it has been proposed a novel augmentation strategy for graphs that operates in a non-Euclidean space. This approach leverages graphon estimation, which models the generative mechanism of networks sequences. Computational results demonstrate the effectiveness of the proposed augmentation framework in improving the performance of graph classification models. Additionally, using a non-Euclidean distance, specifically the Gromow-Wasserstein distance, results in better approximations of the graphon. This framework also provides a means to validate different graphon estimation approaches, particularly in real-world scenarios where the true graphon is unknown.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 独立したニオブ酸リチウムオン絶縁体光子対源間のオンチップ量子干渉

On-chip quantum interference between independent lithium niobate-on-insulator photon-pair sources ( http://arxiv.org/abs/2404.08378v1 )

ライセンス: Link先を確認
Robert J. Chapman, Tristan Kuttner, Jost Kellner, Alessandra Sabatti, Andreas Maeder, Giovanni Finco, Fabian Kaufmann, Rachel Grange, (参考訳) 光の古典的でない状態の生成と干渉は、光量子情報科学と技術の基礎である。 量子フォトニック集積回路は、センチメートル規模のデバイスにおいて、非古典的な光とプログラム可能な回路の非線形ソースを組み合わせることにより、スケーラビリティへの一経路を提供する。 量子応用の鍵となる要件は、区別不能な光子対の効率的な生成と高可視性プログラマブル量子干渉である。 ここでは、2光子パスの絡み合った状態を生成するリチウムニオブ酸イオン絶縁体(LNOI)集積フォトニック回路と、量子干渉のためのプログラム可能な干渉計を実証する。 我々は、$\sim2.3\times10^8$ pairs/s/mWの明るさで絡み合った光子を生成し、9.6.8\pm3.6\%の可視性を持つチップ上で量子干渉実験を行う。 LNOIは、高速変調器と効率的な周波数変換に革命をもたらした新興フォトニクス技術である。 本研究は, ボソンサンプリングや量子通信などの応用において, 効率的な光子対生成やプログラム可能な回路を含む, 大規模集積量子フォトニクスへの道を提供するものである。

Generating and interfering non-classical states of light is fundamental to optical quantum information science and technology. Quantum photonic integrated circuits provide one pathway towards scalability by combining nonlinear sources of non-classical light and programmable circuits in centimeter-scale devices. The key requirements for quantum applications include efficient generation of indistinguishable photon-pairs and high-visibility programmable quantum interference. Here, we demonstrate a lithium niobate-on-insulator (LNOI) integrated photonic circuit that generates a two-photon path-entangled state, and a programmable interferometer for quantum interference. We generate entangled photons with $\sim2.3\times10^8$ pairs/s/mW brightness and perform quantum interference experiments on the chip with $96.8\pm3.6\%$ visibility. LNOI is an emerging photonics technology that has revolutionized high-speed modulators and efficient frequency conversion. Our results provide a path towards large-scale integrated quantum photonics including efficient photon-pair generation and programmable circuits for applications such as boson sampling and quantum communications.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# テキストをご覧ください:命令付き言語モデルは、あなたが考えるよりもロバストな複数の選択者です

Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think ( http://arxiv.org/abs/2404.08382v1 )

ライセンス: Link先を確認
Xinpeng Wang, Chengzhi Hu, Bolei Ma, Paul Röttger, Barbara Plank, (参考訳) 複数選択質問(MCQ)は、大規模言語モデル(LLM)の機能を評価するために一般的に用いられる。 モデル応答を評価する一般的な方法は、第1のトークン予測のログ確率に基づいて、候補の回答をランク付けすることである。 別の方法は、テキスト出力を調べることである。 従来の研究では、最初のトークン確率はMCQのフレーズの変更に対して堅牢性に欠けており、最初のトークン確率は命令調整されたモデルに対するテキストの答えと一致しない。 そこで本研究では,テキスト回答のロバスト性について検討する。 テキスト回答は、最初のトークン回答がテキスト回答を間違えたときに、最初のトークン確率よりも摂動を問う方が堅牢であることを示す。 ミスマッチ速度が大きくなるにつれて、ロバスト性の違いが増大する。 ミスマッチが50%以上に達すると、テキスト回答はPriDeのような最先端のデバイアス手法を使用して、デバイアスされたファーストトークンの確率よりも、順番変更をオプションにするとより堅牢になる。 本研究は,第1トークン確率評価よりもテキスト応答評価が有効であることを示す。

Multiple choice questions (MCQs) are commonly used to evaluate the capabilities of large language models (LLMs). One common way to evaluate the model response is to rank the candidate answers based on the log probability of the first token prediction. An alternative way is to examine the text output. Prior work has shown that first token probabilities lack robustness to changes in MCQ phrasing, and that first token probabilities do not match text answers for instruction-tuned models. Therefore, in this paper, we investigate the robustness of text answers. We show that the text answers are more robust to question perturbations than the first token probabilities, when the first token answers mismatch the text answers. The difference in robustness increases as the mismatch rate becomes greater. As the mismatch reaches over 50\%, the text answer is more robust to option order changes than the debiased first token probabilities using state-of-the-art debiasing methods such as PriDe. Our findings provide further evidence for the benefits of text answer evaluation over first token probability evaluation.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 電子スピン浴に結合したダイヤモンド中のNV中心アンサンブルのコヒーレンス特性

Coherence properties of NV-center ensembles in diamond coupled to an electron-spin bath ( http://arxiv.org/abs/2404.08388v1 )

ライセンス: Link先を確認
Reyhaneh Ghassemizadeh, Wolfgang Körner, Daniel F. Urban, Christian Elsässer, (参考訳) 強相関電子スピン浴によるダイヤモンド中の窒素空孔中心(NV)アンサンブルについて検討した。 クラスタ相関展開法 (CCE) を用いて, NV中心スピンの脱コヒーレンス特性を0.1-100ppmの浴中濃度で完全に計算した。 文献で報告された$T_2$コヒーレンス時間における有意なずれの原因を系統的に分析した。 本研究は,アンサンブル平均に使用する平均的・適合的な手順の選択に起因し,様々な理論的研究を比較する際に考慮すべき諸側面を指摘する。 我々の研究は、読者が中央スピン問題に対して信頼性と高速なシミュレーションを行うのを容易にするかもしれない。 これは、局所的な浴室スピンのダイナミクスを記述する結果パラメータの理解と解釈を提供する。

We investigate nitrogen-vacancy center (NV) ensembles in diamond under the influence of strongly-correlated electron-spin baths. We thoroughly calculate the decoherence properties of the NV central spin for bath concentrations of 0.1-100 ppm using the cluster-correlation expansion (CCE) method. We systematically analyze possible origins of the significant deviations in the values of the $T_2$ coherence time reported in literature. We demonstrate that significant variations can originate from the choice of averaging and fitting procedures used for the ensemble average and we point out the respective aspects that need to be considered, when comparing the various theoretical studies. Our study may ease readers to perform reliable and fast simulations on the central spin problem. It provides an understanding and interpretation of the outcome parameters describing the dynamics of the local bath spins.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# NC-TTT:テストタイムトレーニングにおけるノイズコントラストアプローチ

NC-TTT: A Noise Contrastive Approach for Test-Time Training ( http://arxiv.org/abs/2404.08392v1 )

ライセンス: Link先を確認
David Osowiechi, Gustavo A. Vargas Hakim, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers, (参考訳) ビジョンタスクにおける優れたパフォーマンスにもかかわらず、ディープラーニングモデルはテスト中にドメインシフトに直面したときに苦労することが多い。 テストタイムトレーニング(TTT)手法は,主課題と共同で最適化された補助目標を追加することで,モデルの堅牢性を高める能力によって最近人気を集めている。 厳密に監督されていないこの補助的目的は、ラベルにアクセスせずにモデルを適応するためにテスト時に使用される。 本研究では,ノイズコントラストテストタイムトレーニング(NC-TTT)を提案する。 予測された特徴写像のノイズの多いビューを分類し、新しい領域に応じてモデルを適応させることで、分類性能を重要なマージンで回復させることができる。 いくつかの一般的なテスト時間適応ベースラインの実験は、この課題に対する最近のアプローチと比較して、我々の手法の利点を実証している。 コードは、https://github.com/GustavoVargasHakim/NCTTT.gitにある。

Despite their exceptional performance in vision tasks, deep learning models often struggle when faced with domain shifts during testing. Test-Time Training (TTT) methods have recently gained popularity by their ability to enhance the robustness of models through the addition of an auxiliary objective that is jointly optimized with the main task. Being strictly unsupervised, this auxiliary objective is used at test time to adapt the model without any access to labels. In this work, we propose Noise-Contrastive Test-Time Training (NC-TTT), a novel unsupervised TTT technique based on the discrimination of noisy feature maps. By learning to classify noisy views of projected feature maps, and then adapting the model accordingly on new domains, classification performance can be recovered by an important margin. Experiments on several popular test-time adaptation baselines demonstrate the advantages of our method compared to recent approaches for this task. The code can be found at:https://github.com/GustavoVargasHakim/NCTTT.git
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# Floquet SYKワームホール

Floquet SYK wormholes ( http://arxiv.org/abs/2404.08394v1 )

ライセンス: Link先を確認
Martí Berenguer, Anshuman Dey, Javier Mas, Juan Santos-Suárez, Alfonso V. Ramallo, (参考訳) 本稿では,AdS$_2$における2つの結合SYKモデルの非平衡ダイナミクスについて検討した。 システムのパラメータの周期的駆動について検討する。 本研究では, ドライビング周波数の関数として, モデル内のワームホールおよびブラックホール相のエネルギーフローを解析した。 数値計算の結果, エネルギー吸収と加熱が著しく向上し, 伝送係数が低下し, ワームホールの閉鎖を示唆する一連の共振周波数が得られた。 これらの周波数は状態の共形塔の一部と双対重力理論の境界重力子に対応する。 さらに,ブラックホールとワームホール相の間のホットワームホール相の存在を裏付ける証拠を提供する。 分離したSYK項の強度を駆動すると、駆動を適宜調整することで伝送性を高めることができる。

We study the non-equilibrium dynamics of two coupled SYK models, conjectured to be holographically dual to an eternal traversable wormhole in AdS$_2$. We consider different periodic drivings of the parameters of the system. We analyze the energy flows in the wormhole and black hole phases of the model as a function of the driving frequency. Our numerical results show a series of resonant frequencies in which the energy absorption and heating are enhanced significantly and the transmission coefficients drop, signalling a closure of the wormhole. These frequencies correspond to part of the conformal tower of states and to the boundary graviton of the dual gravitational theory. Furthermore, we provide evidence supporting the existence of a hot wormhole phase between the black hole and wormhole phases. When driving the strength of the separate SYK terms we find that the transmission can be enhanced by suitably tuning the driving.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# Paretoフロントエンド学習のためのデータ駆動推論サンプリング

Data-Driven Preference Sampling for Pareto Front Learning ( http://arxiv.org/abs/2404.08397v1 )

ライセンス: Link先を確認
Rongguang Ye, Lei Chen, Weiduo Liao, Jinyuan Zhang, Hisao Ishibuchi, (参考訳) Paretoフロントエンド学習は、ニューラルネットワークに好みベクトルを導入して、Paretoフロントを近似するテクニックである。 従来のParetoフロント学習手法は,単純なParetoフロントの近似において高い性能を示した。 これらの方法はしばしば、固定されたディリクレ分布から選好ベクトルをサンプリングする。 しかし、固定サンプリング分布は多様なパレートフロントに適応できない。 選好ベクトルを効率的にサンプリングし、パレートフロントを正確に推定することは困難である。 そこで本研究では,Paretoフロントエンド学習のためのデータ駆動型選好ベクトルサンプリングフレームワークを提案する。 対象関数の後方情報を用いて、サンプリング分布のパラメータを柔軟に調整する。 このようにして、提案手法は、高い確率でパレートフロントの位置から選好ベクトルをサンプリングすることができる。 さらに、選好ベクトルの分布をディリクレ分布の混合として設計し、不連結なパレートフロントにおけるモデルの性能を向上させる。 大規模実験により,提案手法の精度を最先端のアルゴリズムと比較した。

Pareto front learning is a technique that introduces preference vectors in a neural network to approximate the Pareto front. Previous Pareto front learning methods have demonstrated high performance in approximating simple Pareto fronts. These methods often sample preference vectors from a fixed Dirichlet distribution. However, no fixed sampling distribution can be adapted to diverse Pareto fronts. Efficiently sampling preference vectors and accurately estimating the Pareto front is a challenge. To address this challenge, we propose a data-driven preference vector sampling framework for Pareto front learning. We utilize the posterior information of the objective functions to adjust the parameters of the sampling distribution flexibly. In this manner, the proposed method can sample preference vectors from the location of the Pareto front with a high probability. Moreover, we design the distribution of the preference vector as a mixture of Dirichlet distributions to improve the performance of the model in disconnected Pareto fronts. Extensive experiments validate the superiority of the proposed method compared with state-of-the-art algorithms.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# マルチエージェントeXperimenter(MAX)

Multi-Agent eXperimenter (MAX) ( http://arxiv.org/abs/2404.08398v1 )

ライセンス: Link先を確認
Önder Gürcan, (参考訳) 複数種類のエージェントが1つまたは複数の環境で動作するブロックチェーン実験をシミュレートするために設計された,新しいマルチエージェントシミュレータであるMulti-Agent eXperimenter(MAX)を提案する。 MAXのアーキテクチャは高度にモジュール化されており、新しいモデルを簡単に追加できる。

We present a novel multi-agent simulator named Multi-Agent eXperimenter (MAX) that is designed to simulate blockchain experiments involving large numbers of agents of different types acting in one or several environments. The architecture of MAX is highly modular, enabling easy addition of new models.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 搭載人工知能における宇宙環境の課題 -SpIRITにおけるイメージング負荷の概観-

Mitigating Challenges of the Space Environment for Onboard Artificial Intelligence: Design Overview of the Imaging Payload on SpIRIT ( http://arxiv.org/abs/2404.08399v1 )

ライセンス: Link先を確認
Miguel Ortiz del Castillo, Jonathan Morgan, Jack McRobbie, Clint Therakam, Zaher Joukhadar, Robert Mearns, Simon Barraclough, Richard Sinnott, Andrew Woods, Chris Bayliss, Kris Ehinger, Ben Rubinstein, James Bailey, Airlie Chapman, Michele Trenti, (参考訳) 宇宙における人工知能(AI)と自律エッジコンピューティングは、ナノサテライトの能力増強に新たな関心を集めている。 本稿では,SpIRIT上にホストされた搭載AIサブシステムのハードウェアおよびソフトウェア設計について述べる。 このシステムは、可視光と長波赤外線カメラに基づくコンピュータビジョン実験のために最適化されている。 本稿では, 厳密な空間条件下でのシステムのロバスト性を最大化するための重要な設計選択と, 限られた計算資源, 宇宙放射線に対するレジリエンス, 極端温度変化, 分布シフト, 送信帯域幅の超低といった重要なミッション要件に対するモチベーションについて述べる。 Lorisと呼ばれるペイロードは、可視光カメラ6台、赤外線カメラ3台、カメラ制御ボード、グラフィックス処理ユニット(GPU)システムオンモジュールで構成されている。 Lorisは、軌道上の微調整によるAIモデルの実行と、プログレッシブコーディングを含む次世代の画像圧縮アルゴリズムを可能にする。 この革新的なアプローチは、ナノサテライトのデータ処理能力を向上するだけでなく、宇宙からのリモートセンシングへの幅広い応用の基礎となる。

Artificial intelligence (AI) and autonomous edge computing in space are emerging areas of interest to augment capabilities of nanosatellites, where modern sensors generate orders of magnitude more data than can typically be transmitted to mission control. Here, we present the hardware and software design of an onboard AI subsystem hosted on SpIRIT. The system is optimised for on-board computer vision experiments based on visible light and long wave infrared cameras. This paper highlights the key design choices made to maximise the robustness of the system in harsh space conditions, and their motivation relative to key mission requirements, such as limited compute resources, resilience to cosmic radiation, extreme temperature variations, distribution shifts, and very low transmission bandwidths. The payload, called Loris, consists of six visible light cameras, three infrared cameras, a camera control board and a Graphics Processing Unit (GPU) system-on-module. Loris enables the execution of AI models with on-orbit fine-tuning as well as a next-generation image compression algorithm, including progressive coding. This innovative approach not only enhances the data processing capabilities of nanosatellites but also lays the groundwork for broader applications to remote sensing from space.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# No Bells, Just Whistles: 幾何学的特性の活用による競技場登録

No Bells, Just Whistles: Sports Field Registration by Leveraging Geometric Properties ( http://arxiv.org/abs/2404.08401v1 )

ライセンス: Link先を確認
Marc Gutiérrez-Pérez, Antonio Agudo, (参考訳) 放送スポーツフィールドの登録は、伝統的にホモグラフィー推定タスクとして扱われ、可視画像領域を平面場モデルにマッピングし、主にメインカメラショットに焦点を当てる。 従来のアプローチの欠点に対処するため,3次元サッカー場モデルを用いたカメラキャリブレーションが可能なキャリブレーションパイプラインを提案し,そのプロセスを拡張し,放送ビデオのマルチビュー特性を評価する。 当社のアプローチは,裁判所の幾何学的特性を活用するために,FocoNetデータセットアノテーションをベースとしたキーポイント生成パイプラインから始まります。 その後、DLTアルゴリズムによる古典的なカメラキャリブレーションを最小限の方法で実行し、さらなる改善は行わない。 SoccerNet-Calibration, WorldCup 2014, TS-WorldCupなどの実世界のサッカー放送データセットに関する広範な実験を通じて, マルチビュー・シングルビューの3Dカメラキャリブレーションにおいて, 最先端技術と比較して, ホモグラフィー推定の競争力を保ちながら, 優れた性能を示す。

Broadcast sports field registration is traditionally addressed as a homography estimation task, mapping the visible image area to a planar field model, predominantly focusing on the main camera shot. Addressing the shortcomings of previous approaches, we propose a novel calibration pipeline enabling camera calibration using a 3D soccer field model and extending the process to assess the multiple-view nature of broadcast videos. Our approach begins with a keypoint generation pipeline derived from SoccerNet dataset annotations, leveraging the geometric properties of the court. Subsequently, we execute classical camera calibration through DLT algorithm in a minimalist fashion, without further refinement. Through extensive experimentation on real-world soccer broadcast datasets such as SoccerNet-Calibration, WorldCup 2014 and TS- WorldCup, our method demonstrates superior performance in both multiple- and single-view 3D camera calibration while maintaining competitive results in homography estimation compared to state-of-the-art techniques.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 学習表現の学習表現

Learning representations of learning representations ( http://arxiv.org/abs/2404.08403v1 )

ライセンス: Link先を確認
Rita González-Márquez, Dmitry Kobak, (参考訳) ICLRカンファレンスは、提出されたすべての論文が公開されているという点で、トップクラスの機械学習カンファレンスの中でもユニークなものだ。 ここでは、メタデータ、決定スコア、カスタムキーワードベースのラベルを含む2017-2024の24万のICLRサブミッションの抽象化からなるICLRデータセットを示す。 このデータセットでは、back-of-words表現は、$k$NNの分類精度でほとんどの専用文変換器モデルより優れており、上位言語モデルはTF-IDFよりほとんど優れていない。 これはNLPコミュニティにとっての課題だと考えています。 さらに、ICLRデータセットを使用して、機械学習の分野が過去7年間でどのように変化したかを調べ、ジェンダーバランスのいくつかの改善を見出した。 要約のテキストの2D埋め込みを用いて、2017年から2024年までの研究トピックのシフトを説明し、最も多くのICLR提出者がいる著者の間では、ヘッジホッグとキツネを識別する。

The ICLR conference is unique among the top machine learning conferences in that all submitted papers are openly available. Here we present the ICLR dataset consisting of abstracts of all 24 thousand ICLR submissions from 2017-2024 with meta-data, decision scores, and custom keyword-based labels. We find that on this dataset, bag-of-words representation outperforms most dedicated sentence transformer models in terms of $k$NN classification accuracy, and the top performing language models barely outperform TF-IDF. We see this as a challenge for the NLP community. Furthermore, we use the ICLR dataset to study how the field of machine learning has changed over the last seven years, finding some improvement in gender balance. Using a 2D embedding of the abstracts' texts, we describe a shift in research topics from 2017 to 2024 and identify hedgehogs and foxes among the authors with the highest number of ICLR submissions.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# ニューロシンボリック分類法における確率的推論の複雑さ

Complexity of Probabilistic Reasoning for Neurosymbolic Classification Techniques ( http://arxiv.org/abs/2404.08404v1 )

ライセンス: Link先を確認
Arthur Ledaguenel, Céline Hudelot, Mostepha Khouadjia, (参考訳) ニューロシンボリック人工知能(Neurosymbolic AI)は、ニューラルネットワーク学習能力とシンボリックシステムの推論能力を組み合わせることを目的とした研究分野である。 インフォームド・マルチラベル分類(Informed Multi-label classification)は、ニューロシンボリックAIのサブフィールドであり、事前知識を活用して神経分類システムを改善する方法を研究する。 情報分類のためのよく知られたニューロシンボリックテクニックのファミリーは、確率論的推論を使用して、学習、推論、あるいはその両方の間にこの知識を統合する。 したがって,確率論的推論の漸近的複雑性は,そのような手法のスケーラビリティを評価する上で重要である。 しかし、この話題は神経記号学の文献ではほとんど取り上げられず、確率論的神経記号学技法の限界についての理解が不十分になる可能性がある。 本稿では,情報制御型分類タスクと手法の形式化について紹介する。 次に、確率論的推論に基づく3つの抽象的神経象徴的手法を定義する。 最後に、ニューロシンボリックな文献でよく見られる事前知識の表現言語について、計算複雑性の結果を示す。

Neurosymbolic artificial intelligence is a growing field of research aiming to combine neural network learning capabilities with the reasoning abilities of symbolic systems. Informed multi-label classification is a sub-field of neurosymbolic AI which studies how to leverage prior knowledge to improve neural classification systems. A well known family of neurosymbolic techniques for informed classification use probabilistic reasoning to integrate this knowledge during learning, inference or both. Therefore, the asymptotic complexity of probabilistic reasoning is of cardinal importance to assess the scalability of such techniques. However, this topic is rarely tackled in the neurosymbolic literature, which can lead to a poor understanding of the limits of probabilistic neurosymbolic techniques. In this paper, we introduce a formalism for informed supervised classification tasks and techniques. We then build upon this formalism to define three abstract neurosymbolic techniques based on probabilistic reasoning. Finally, we show computational complexity results on several representation languages for prior knowledge commonly found in the neurosymbolic literature.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# マンバDFuse:マルチモード画像融合のためのマンバ型デュアルフェーズモデル

MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion ( http://arxiv.org/abs/2404.08406v1 )

ライセンス: Link先を確認
Zhe Li, Haiwei Pan, Kejia Zhang, Yuhua Wang, Fengming Yu, (参考訳) MMIF(Multi-modality Image fusion)は、異なるモードからの相補的な情報を単一の融合画像に統合し、画像シーンを表現し、下流の視覚的タスクを包括的に支援することを目的としている。 近年,深層ニューラルネットワークの進歩によりMMIFタスクが大幅に進歩している。 しかし、既存の手法では、固有の局所還元バイアス (CNN) や二次計算複雑性 (Transformers) によって制約されるモダリティ特異性とモダリティ融合の特徴を効果的に抽出することはできない。 そこで本研究では,マンバをベースとしたDual-phase Fusion(MambaDFuse)モデルを提案する。 まず,CNN や Mamba ブロックから低次・高次特徴を抽出することにより,単一モダリティ画像から長距離特徴を抽出する。 そこで, 2相機能融合モジュールを提案し, 異なるモードの相補的情報を組み合わせた融合特性を求める。 浅層核融合のためのチャネル交換法と深層核融合のための拡張マルチモーダルマンバ(M3)ブロックを用いる。 最後に、融合画像再構成モジュールは、特徴抽出の逆変換を利用して融合結果を生成する。 広汎な実験により,近赤外可視画像融合と医用画像融合の有望な融合が達成される。 さらに、統一されたベンチマークでは、MambaDFuseはオブジェクト検出などの下流タスクのパフォーマンスも改善している。 チェックポイント付きのコードは、ピアレビュープロセス後に利用可能になる。

Multi-modality image fusion (MMIF) aims to integrate complementary information from different modalities into a single fused image to represent the imaging scene and facilitate downstream visual tasks comprehensively. In recent years, significant progress has been made in MMIF tasks due to advances in deep neural networks. However, existing methods cannot effectively and efficiently extract modality-specific and modality-fused features constrained by the inherent local reductive bias (CNN) or quadratic computational complexity (Transformers). To overcome this issue, we propose a Mamba-based Dual-phase Fusion (MambaDFuse) model. Firstly, a dual-level feature extractor is designed to capture long-range features from single-modality images by extracting low and high-level features from CNN and Mamba blocks. Then, a dual-phase feature fusion module is proposed to obtain fusion features that combine complementary information from different modalities. It uses the channel exchange method for shallow fusion and the enhanced Multi-modal Mamba (M3) blocks for deep fusion. Finally, the fused image reconstruction module utilizes the inverse transformation of the feature extraction to generate the fused result. Through extensive experiments, our approach achieves promising fusion results in infrared-visible image fusion and medical image fusion. Additionally, in a unified benchmark, MambaDFuse has also demonstrated improved performance in downstream tasks such as object detection. Code with checkpoints will be available after the peer-review process.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 深部グラフ学習を用いた高次元地震波ファーストブレークピッキング

Seismic First Break Picking in a Higher Dimension Using Deep Graph Learning ( http://arxiv.org/abs/2404.08408v1 )

ライセンス: Link先を確認
Hongtao Wang, Li Long, Jiangshe Zhang, Xiaoli Wei, Chunxia Zhang, Zhenbo Guo, (参考訳) 現代の自動ファーストブレイク(FB)抽出法は、通常、1D信号、2Dソース収集、または3Dソース受信者が収集する。 2Dや3Dのような高次元データを活用すると、グローバルな特徴が取り入れられ、局所的なピッキングの安定性が向上する。 この利点にもかかわらず、高次元データは構造化された入力を必要とし、計算要求を増加させる。 そこで本稿では,DGL-FBと呼ばれる深層グラフ学習手法を提案する。 このグラフでは、各地震の痕跡はノードとして表現され、類似性を反映するエッジによって接続される。 グラフのサイズを管理するため,モデルトレーニングと推論を合理化するためのサブグラフサンプリング手法を開発した。 提案するフレームワークであるDGL-FBは、深層グラフ学習をFBピッキングに活用する。 ディープグラフエンコーダを使用して、サブグラフをグローバルな機能にエンコードする。 その後、符号化されたグローバルな特徴とローカルノード信号が組み合わされ、FB検出のためのResUNetベースの1Dセグメンテーションネットワークに入力される。 DGL-FBのフィールドサーベイ評価は2次元U-Netベンチマーク法と比較して精度と安定性が優れている。

Contemporary automatic first break (FB) picking methods typically analyze 1D signals, 2D source gathers, or 3D source-receiver gathers. Utilizing higher-dimensional data, such as 2D or 3D, incorporates global features, improving the stability of local picking. Despite the benefits, high-dimensional data requires structured input and increases computational demands. Addressing this, we propose a novel approach using deep graph learning called DGL-FB, constructing a large graph to efficiently extract information. In this graph, each seismic trace is represented as a node, connected by edges that reflect similarities. To manage the size of the graph, we develop a subgraph sampling technique to streamline model training and inference. Our proposed framework, DGL-FB, leverages deep graph learning for FB picking. It encodes subgraphs into global features using a deep graph encoder. Subsequently, the encoded global features are combined with local node signals and fed into a ResUNet-based 1D segmentation network for FB detection. Field survey evaluations of DGL-FB show superior accuracy and stability compared to a 2D U-Net-based benchmark method.
翻訳日:2024-04-15 15:16:32 公開日:2024-04-12
# 物理インフォームド残差拡散法による流れ場再構成

PiRD: Physics-informed Residual Diffusion for Flow Field Reconstruction ( http://arxiv.org/abs/2404.08412v1 )

ライセンス: Link先を確認
Siming Shan, Pengkai Wang, Song Chen, Jiaxu Liu, Chao Xu, Shengze Cai, (参考訳) 流体力学における機械学習の利用は、偏微分方程式の前方および逆問題を解く際に計算を高速化することが一般的になりつつある。 しかし、既存の畳み込みニューラルネットワーク(CNN)ベースのデータ忠実度向上手法における注目すべき課題は、トレーニングフェーズ中の特定の低忠実度データパターンと分散に依存することである。 さらに、CNNベースの手法では、フロー再構成タスクを、物理的・数学的説明に欠ける要素の精度を優先するコンピュータビジョンタスクとして扱う。 この依存は、特に低忠実度入力がトレーニングデータから逸脱したり、トレーニング中に説明されていないノイズを含む場合、実際のシナリオにおけるモデルの有効性に劇的に影響する可能性がある。 この文脈における拡散モデルの導入は、性能と一般化可能性を改善することを約束している。 特定の低忠実度から高忠実度分布への直接写像とは異なり、拡散モデルは任意の低忠実度分布から高忠実度分布への遷移を学ぶ。 提案したモデル - 物理インフォームド残差拡散(Residual Diffusion)は、標準の低忠実度入力から、ガウス雑音を注入した低忠実度入力、ランダムに収集したサンプルまで、データの質を高める能力を示す。 物理に基づく洞察を目的関数に統合することにより、推論された高品質なデータの精度と忠実度をさらに改善する。 実験結果より, 本手法は, 低忠実度入力条件の2次元乱流に対して, 再学習を必要とせず, 効果的に高品質な流れを再現できることが示唆された。

The use of machine learning in fluid dynamics is becoming more common to expedite the computation when solving forward and inverse problems of partial differential equations. Yet, a notable challenge with existing convolutional neural network (CNN)-based methods for data fidelity enhancement is their reliance on specific low-fidelity data patterns and distributions during the training phase. In addition, the CNN-based method essentially treats the flow reconstruction task as a computer vision task that prioritizes the element-wise precision which lacks a physical and mathematical explanation. This dependence can dramatically affect the models' effectiveness in real-world scenarios, especially when the low-fidelity input deviates from the training data or contains noise not accounted for during training. The introduction of diffusion models in this context shows promise for improving performance and generalizability. Unlike direct mapping from a specific low-fidelity to a high-fidelity distribution, diffusion models learn to transition from any low-fidelity distribution towards a high-fidelity one. Our proposed model - Physics-informed Residual Diffusion, demonstrates the capability to elevate the quality of data from both standard low-fidelity inputs, to low-fidelity inputs with injected Gaussian noise, and randomly collected samples. By integrating physics-based insights into the objective function, it further refines the accuracy and the fidelity of the inferred high-quality data. Experimental results have shown that our approach can effectively reconstruct high-quality outcomes for two-dimensional turbulent flows from a range of low-fidelity input conditions without requiring retraining.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 指数壁の低下:ニューラルネットワーク電位による局所表面エネルギー記述子を用いた高エントロピー合金触媒のスクリーニング

Lowering the Exponential Wall: Accelerating High-Entropy Alloy Catalysts Screening using Local Surface Energy Descriptors from Neural Network Potentials ( http://arxiv.org/abs/2404.08413v1 )

ライセンス: Link先を確認
Tomoya Shiota, Kenji Ishihara, Wataru Mizukami, (参考訳) 高エントロピー合金(HEAs)の効率的な設計には計算スクリーニングが不可欠である。 しかし、HEAsの化学空間は構成要素の数に関して指数関数的に広大であり、機械学習ポテンシャルを用いた計算のスクリーニングにも膨大な時間を要する可能性がある。 この課題に対処するために, 単金属系(または数成分合金)のデータから, HEAの特性を予測するモデルを高速に構築する手法を提案する。 このアプローチの核となるのは、局所表面エネルギー(LSE$)と呼ばれる新しく導入された記述子で、原子分解能における固体表面の局所的反応性を反映している。 我々は, 単金属系からのLSEに基づいて, HEA上の分子の吸着エネルギーを測定するために線形回帰を用いたモデルの構築に成功した。 さらに,従来の機械学習と量子機械学習の両方を用いて高精度なモデル開発を行った。 提案手法を用いて,201原子からなるクエンタリーナノ粒子の1000パターン上で,CO分子の吸着エネルギーを数時間で計算することができた。 これらの計算は、密度汎関数理論とニューラルネットワークポテンシャルを用いて、数百年と数百日を要した。 提案手法は, 新規触媒の設計を促進するため, HEAの広大な化学空間の迅速探索を可能にする。

Computational screening is indispensable for the efficient design of high-entropy alloys (HEAs), which hold great potential for catalytic applications. However, the chemical space of HEAs is exponentially vast with respect to the number of constituent elements, and even screening calculations using machine learning potentials can be enormously time-consuming. To address this challenge, we propose a method to rapidly construct models that predict the properties of HEAs from data on monometallic systems (or few-component alloys). The core of our approach is a newly-introduced descriptor called local surface energy ($LSE$), which reflects the local reactivity of solid surfaces at atomic resolution. We successfully created a model using linear regression to screen the adsorption energies of molecules on HEAs based on LSEs from monometallic systems. Furthermore, we made high-precision model development by employing both classical machine learning and quantum machine learning. Using our method, we were able to complete the adsorption energy calculations of CO molecules on 1000 patterns of quinary nanoparticles consisting of 201 atoms within a few hours. These calculations would have taken hundreds of years and hundreds of days using density functional theory and a neural network potential, respectively. Our approach allows accelerated exploration of the vast chemical space of HEAs facilitating the design of novel catalysts.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# パレート・セット学習のための進化的選好サンプリング

Evolutionary Preference Sampling for Pareto Set Learning ( http://arxiv.org/abs/2404.08414v1 )

ライセンス: Link先を確認
Rongguang Ye, Longcan Chen, Jinyuan Zhang, Hisao Ishibuchi, (参考訳) 最近、ニューラルネットワークを用いてPareto集合全体を学ぶためにPareto Set Learning (PSL)が提案されている。 PSLは選好ベクトルを用いて複数の目的をスキャラライズし、選好ベクトルから特定のパレート最適解への写像の学習を容易にする。 従来のPSL法は、一様選好ベクトルサンプリングを用いた人工多目的最適化問題(MOP)の解法の有効性を示した。 学習したPareto集合の品質は、好みベクトルのサンプリング戦略の影響を受けており、好みベクトルのサンプリングは、Pareto前方形状に基づいて決定する必要がある。 しかし、固定された選好サンプリング戦略は、複数のMOPのParetoフロントを同時に適応することはできない。 本稿では,この制限に対処するため,優先ベクトルを効率的にサンプリングするためのEPS(Evolutionary Preference Smpling)戦略を提案する。 進化的アルゴリズムに着想を得て、ニューラルネットワーク学習のための選好ベクトルを生成する進化過程として、選好サンプリングを考える。 EPS戦略を5つの先進的なPSL手法に統合する。 大規模な実験により,提案手法は7つの試験問題に対するベースラインアルゴリズムよりも高速な収束速度を有することが示された。 私たちの実装はhttps://github.com/rG223/EPS.comで公開されています。

Recently, Pareto Set Learning (PSL) has been proposed for learning the entire Pareto set using a neural network. PSL employs preference vectors to scalarize multiple objectives, facilitating the learning of mappings from preference vectors to specific Pareto optimal solutions. Previous PSL methods have shown their effectiveness in solving artificial multi-objective optimization problems (MOPs) with uniform preference vector sampling. The quality of the learned Pareto set is influenced by the sampling strategy of the preference vector, and the sampling of the preference vector needs to be decided based on the Pareto front shape. However, a fixed preference sampling strategy cannot simultaneously adapt the Pareto front of multiple MOPs. To address this limitation, this paper proposes an Evolutionary Preference Sampling (EPS) strategy to efficiently sample preference vectors. Inspired by evolutionary algorithms, we consider preference sampling as an evolutionary process to generate preference vectors for neural network training. We integrate the EPS strategy into five advanced PSL methods. Extensive experiments demonstrate that our proposed method has a faster convergence speed than baseline algorithms on 7 testing problems. Our implementation is available at https://github.com/rG223/EPS.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# AdapterSwap: データ削除とアクセシビリティ保証を備えたLCMの継続的トレーニング

AdapterSwap: Continuous Training of LLMs with Data Removal and Access-Control Guarantees ( http://arxiv.org/abs/2404.08417v1 )

ライセンス: Link先を確認
William Fleshman, Aleem Khan, Marc Marone, Benjamin Van Durme, (参考訳) 大規模言語モデル(LLM)は、静的事前学習コーパスからの情報をリコールすることで、知識集約的なタスクを完了させる能力がますます高まっている。 ここでは、データ要求の進化という文脈でLLMを懸念する。 例えば、定期的に導入された新しいデータのバッチ、ユーザベースのアクセス制御を備えたデータのサブセット、あるいは関連する知識をリコールできないことを保証したドキュメントの動的削除要求などです。 これらの要件を満たすと同時に、モデルが新しいデータが利用可能になったときに古い情報を忘れないようにしたいと考えています。 これらの問題に対処するため,データ収集からの知識を推論中に動的に構成する低ランクアダプタの集合に整理するトレーニングおよび推論スキームであるAdapterSwapを導入する。 実験では、AdapterSwapが効率的な継続的学習をサポートすると同時に、データアクセスと削除をきめ細かな制御が可能であることを実証した。

Large language models (LLMs) are increasingly capable of completing knowledge intensive tasks by recalling information from a static pretraining corpus. Here we are concerned with LLMs in the context of evolving data requirements. For instance: batches of new data that are introduced periodically; subsets of data with user-based access controls; or requirements on dynamic removal of documents with guarantees that associated knowledge cannot be recalled. We wish to satisfy these requirements while at the same time ensuring a model does not forget old information when new data becomes available. To address these issues, we introduce AdapterSwap, a training and inference scheme that organizes knowledge from a data collection into a set of low-rank adapters, which are dynamically composed during inference. Our experiments demonstrate AdapterSwap's ability to support efficient continual learning, while also enabling organizations to have fine-grained control over data access and deletion.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# ポーズ・ジェネレーションの進化を振り返る(動画あり)

Direct May Not Be the Best: An Incremental Evolution View of Pose Generation ( http://arxiv.org/abs/2404.08419v1 )

ライセンス: Link先を確認
Yuelong Li, Tengfei Xiao, Lei Geng, Jianming Wang, (参考訳) ポース多様性は2次元画像に固有の特徴である。 3次元から2次元の投影機構により、異なるポーズ画像の間には明らかな内容差がある。 これは、変換に関連する研究を悩ませる主要な障害である。 この課題に対処するために、我々は、従来の直接対一ではなく、細粒度で漸進的な進化中心のポーズ生成フレームワークを提案する。 提案手法は, 劇的な非線形変動を直接モデル化する理論的困難さを回避し, コンテンツ歪みやぼやけを効果的に抑制できると同時に, 個々のポーズの詳細, 特に衣服のテクスチャを正確に保持することができる。 進化過程を体系的に導くために、グローバルおよびインクリメンタルな進化の制約は、精巧に設計され、全体フレームにマージされますか? 仕事だ そして、高品質なポーズ合成を行うために利用可能なすべての貴重な知識を最大限に活用するために、新しい三重経路知識融合構造が研究されている。 さらに、我々のフレームワークは、様々な中間ポーズという、価値のある副産物を生成できる。 提案手法の有効性を検証するため, 広範囲な実験を行った。 コードはhttps://github.com/Xiaofei-CN/Incremental-Evolution-Pose-Generationで入手できる。

Pose diversity is an inherent representative characteristic of 2D images. Due to the 3D to 2D projection mechanism, there is evident content discrepancy among distinct pose images. This is the main obstacle bothering pose transformation related researches. To deal with this challenge, we propose a fine-grained incremental evolution centered pose generation framework, rather than traditional direct one-to-one in a rush. Since proposed approach actually bypasses the theoretical difficulty of directly modeling dramatic non-linear variation, the incurred content distortion and blurring could be effectively constrained, at the same time the various individual pose details, especially clothes texture, could be precisely maintained. In order to systematically guide the evolution course, both global and incremental evolution constraints are elaborately designed and merged into the overall frame?work. And a novel triple-path knowledge fusion structure is worked out to take full advantage of all available valuable knowledge to conduct high-quality pose synthesis. In addition, our framework could generate a series of valuable byproducts, namely the various intermediate poses. Extensive experiments have been conducted to verify the effectiveness of the proposed approach. Code is available at https://github.com/Xiaofei-CN/Incremental-Evolution-Pose-Generation.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 新しい状況下でのセグメンテーションモデルの適用

Adapting the Segment Anything Model During Usage in Novel Situations ( http://arxiv.org/abs/2404.08421v1 )

ライセンス: Link先を確認
Robin Schön, Julian Lorenz, Katja Ludwig, Rainer Lienhart, (参考訳) 対話型セグメンテーションタスクは、ユーザインタラクションに基づいたオブジェクトセグメンテーションマスクの作成によって構成される。 正しいセグメンテーションを生成するためにモデルを導く最も一般的な方法は、オブジェクトとバックグラウンドのクリックである。 先日発表されたSegment Anything Model (SAM)は、インタラクティブセグメンテーション問題の一般化バージョンをサポートし、1.1Bマスクを含むオブジェクトセグメンテーションデータセットでトレーニングされている。 基礎モデルとして機能することを目的として、広範囲に訓練されているが、新しいドメインやオブジェクトの対話的セグメンテーションに適用された場合、SAMの重大な制限が示される。 使用されるデータセットでは、SAMは失敗率$\text{FR}_{30}@90$を72.6 \%$まで表示する。 我々は依然としてそのような基盤モデルを直ちに適用したいので、即時使用時にSAMを適応できるフレームワークを提示します。 このために、対話的なセグメンテーションプロセスで構築されるユーザインタラクションとマスクを活用します。 この情報を用いて擬似ラベルを生成し、損失関数を計算し、SAMモデルの一部を最適化する。 この方法では、$\text{FR}_{20}@85$で48.1 \%$、$\text{FR}_{30}@90$で$46.6 \%$が相対的に減少する。

The interactive segmentation task consists in the creation of object segmentation masks based on user interactions. The most common way to guide a model towards producing a correct segmentation consists in clicks on the object and background. The recently published Segment Anything Model (SAM) supports a generalized version of the interactive segmentation problem and has been trained on an object segmentation dataset which contains 1.1B masks. Though being trained extensively and with the explicit purpose of serving as a foundation model, we show significant limitations of SAM when being applied for interactive segmentation on novel domains or object types. On the used datasets, SAM displays a failure rate $\text{FR}_{30}@90$ of up to $72.6 \%$. Since we still want such foundation models to be immediately applicable, we present a framework that can adapt SAM during immediate usage. For this we will leverage the user interactions and masks, which are constructed during the interactive segmentation process. We use this information to generate pseudo-labels, which we use to compute a loss function and optimize a part of the SAM model. The presented method causes a relative reduction of up to $48.1 \%$ in the $\text{FR}_{20}@85$ and $46.6 \%$ in the $\text{FR}_{30}@90$ metrics.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# SIR-RL:新興市場における疫学的アウトブレイクと経済発展における最適政策管理のための強化学習

SIR-RL: Reinforcement Learning for Optimized Policy Control during Epidemiological Outbreaks in Emerging Market and Developing Economies ( http://arxiv.org/abs/2404.08423v1 )

ライセンス: Link先を確認
Maeghal Jain, Ziya Uddin, Wubshet Ibrahim, (参考訳) 新型コロナウイルスの感染拡大は、公衆衛生と世界規模での経済安定の複雑な相互作用を浮き彫りにした。 本研究では,パンデミック時の健康・経済的成果の最適化を目的とした,新たな強化学習フレームワークを提案する。 このフレームワークはSIRモデルを活用し、(文字列インデックスを介して)ロックダウン対策と予防接種戦略の両方を統合して、病気のダイナミクスをシミュレートする。 厳密性指数は、ロックダウン対策の深刻さを示すもので、病気の拡散と国の経済の健全性の両方に影響を与える。 厳格なロックダウンの下で不均衡な経済負担を負う発展途上国が、我々の研究の主眼だ。 強化学習を実施することで、政府の対応を最適化し、公衆衛生と経済の安定に関わる競争コストのバランスをとることを目指す。 このアプローチはまた、強化学習エージェントに対して明確に定義された報酬関数を確立することにより、政府の意思決定における透明性を高める。 本研究は,感染拡大に伴う公衆衛生と経済の安定のバランスをとるための,革新的かつ倫理的な戦略を導入するものである。

The outbreak of COVID-19 has highlighted the intricate interplay between public health and economic stability on a global scale. This study proposes a novel reinforcement learning framework designed to optimize health and economic outcomes during pandemics. The framework leverages the SIR model, integrating both lockdown measures (via a stringency index) and vaccination strategies to simulate disease dynamics. The stringency index, indicative of the severity of lockdown measures, influences both the spread of the disease and the economic health of a country. Developing nations, which bear a disproportionate economic burden under stringent lockdowns, are the primary focus of our study. By implementing reinforcement learning, we aim to optimize governmental responses and strike a balance between the competing costs associated with public health and economic stability. This approach also enhances transparency in governmental decision-making by establishing a well-defined reward function for the reinforcement learning agent. In essence, this study introduces an innovative and ethical strategy to navigate the challenge of balancing public health and economic stability amidst infectious disease outbreaks.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# アップルとオレンジの比較:オブジェクト分類タスクにおけるLLMによるマルチモーダルインテンション予測

Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task ( http://arxiv.org/abs/2404.08424v1 )

ライセンス: Link先を確認
Hassan Ali, Philipp Allgeuer, Stefan Wermter, (参考訳) インテンションベースのヒューマンロボットインタラクション(Human-Robot Interaction, HRI)システムは、ロボットがユーザーの行動を知覚し、解釈し、人間と積極的に対話し、行動に適応することを可能にする。 したがって、人間とロボットの自然な対話的なコラボレーションを作成する上で、意図的な予測が重要である。 本稿では,ロボットとの協調的な対象分類作業において,人間の意図を推定するためのLarge Language Models (LLMs) について検討する。 本研究では,手振り,ポーズ,表情などの非言語的手がかりを解釈する階層的アプローチを導入し,既存の自動音声認識(ASR)システムを用いて取得した環境状態とユーザ言語的手がかりとを組み合わせる。 我々の評価は,LLMが非言語的手がかりを解釈し,その文脈理解能力と実世界の知識とを組み合わせて,人間とロボットの相互作用における意図的予測を支援する可能性を実証するものである。

Intention-based Human-Robot Interaction (HRI) systems allow robots to perceive and interpret user actions to proactively interact with humans and adapt to their behavior. Therefore, intention prediction is pivotal in creating a natural interactive collaboration between humans and robots. In this paper, we examine the use of Large Language Models (LLMs) for inferring human intention during a collaborative object categorization task with a physical robot. We introduce a hierarchical approach for interpreting user non-verbal cues, like hand gestures, body poses, and facial expressions and combining them with environment states and user verbal cues captured using an existing Automatic Speech Recognition (ASR) system. Our evaluation demonstrates the potential of LLMs to interpret non-verbal cues and to combine them with their context-understanding capabilities and real-world knowledge to support intention prediction during human-robot interaction.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 最適化量子オートエンコーダ

Optimized Quantum Autoencoder ( http://arxiv.org/abs/2404.08429v1 )

ライセンス: Link先を確認
Yibin Huang, Muchun Yang, D. L. Zhou, (参考訳) 量子オートエンコーダ(QAE)は、2部量子状態を自己チェック機構によってサブシステムに圧縮する。 このプロセスで失われた情報をどう特徴付けるかは、QAE\@の圧縮メカニズムを理解するために不可欠である。 ここでは、任意の入力混合状態に対して、QAEにおける損失情報を減少させる方法について検討する。 理論的には、失われた情報は残りのサブシステムと無知なサブシステムの間の量子的相互情報であり、符号化ユニタリ変換は、この相互情報を最小化するように設計されている。 さらに、最適化されたユニタリ変換は、置換ユニタリ変換とアンタングル化ユニタリ変換の積として分解可能であり、置換ユニタリ変換は正規ヤングテーブルーアルゴリズムによって探索可能であることを示す。 最後に、我々の圧縮方式が量子変分回路に基づくQAE\@より優れていることを数値的に同定する。

Quantum autoencoder (QAE) compresses a bipartite quantum state into its subsystem by a self-checking mechanism. How to characterize the lost information in this process is essential to understand the compression mechanism of QAE\@. Here we investigate how to decrease the lost information in QAE for any input mixed state. We theoretically show that the lost information is the quantum mutual information between the remaining subsystem and the ignorant one, and the encoding unitary transformation is designed to minimize this mutual information. Further more, we show that the optimized unitary transformation can be decomposed as the product of a permutation unitary transformation and a disentanglement unitary transformation, and the permutation unitary transformation can be searched by a regular Young tableau algorithm. Finally we numerically identify that our compression scheme outperforms the quantum variational circuit based QAE\@.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# MSSTNet:動的顔表情認識のためのマルチスケール時空間CNN変換器ネットワーク

MSSTNet: A Multi-Scale Spatio-Temporal CNN-Transformer Network for Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2404.08433v1 )

ライセンス: Link先を確認
Linhuang Wang, Xin Kang, Fei Ding, Satoshi Nakagawa, Fuji Ren, (参考訳) 典型的なビデオ行動認識とは異なり、動的顔表情認識(DFER)は特定の移動目標を含まないが、顔面筋肉の局所的な変化に依存している。 この特徴に対処し,マルチスケール時空間CNN-Transformer Network (MSSTNet)を提案する。 提案手法は,CNN が抽出した異なるスケールの空間的特徴を多スケール埋め込み層 (MELayer) に供給する。 MELayerは、T-Former(T-Former)に送信する前に、マルチスケールの空間情報を抽出し、これらの特徴を符号化する。 T-Formerは、マルチスケール空間情報を連続的に統合しつつ、同時に時間情報を抽出する。 このプロセスは、最終分類に使用されるマルチスケールの時空間的特徴の生成を決定づける。 提案手法は,2つのアプリ内データセットの最先端結果を実現する。 さらに、一連のアブレーション実験と可視化により、DFER内の時空間情報を活用するためのアプローチの習熟度をさらに検証することができる。

Unlike typical video action recognition, Dynamic Facial Expression Recognition (DFER) does not involve distinct moving targets but relies on localized changes in facial muscles. Addressing this distinctive attribute, we propose a Multi-Scale Spatio-temporal CNN-Transformer network (MSSTNet). Our approach takes spatial features of different scales extracted by CNN and feeds them into a Multi-scale Embedding Layer (MELayer). The MELayer extracts multi-scale spatial information and encodes these features before sending them into a Temporal Transformer (T-Former). The T-Former simultaneously extracts temporal information while continually integrating multi-scale spatial information. This process culminates in the generation of multi-scale spatio-temporal features that are utilized for the final classification. Our method achieves state-of-the-art results on two in-the-wild datasets. Furthermore, a series of ablation experiments and visualizations provide further validation of our approach's proficiency in leveraging spatio-temporal information within DFER.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# VAE-GMM統合による表型データ生成装置の改良

An improved tabular data generator with VAE-GMM integration ( http://arxiv.org/abs/2404.08434v1 )

ライセンス: Link先を確認
Patricia A. Apellániz, Juan Parras, Santiago Zazo, (参考訳) さまざまな分野における機械学習の利用の増加は、合成表データを作成するための堅牢な方法を必要とする。 データ不足の課題に対処しながら、データは重要な特性を保持する必要がある。 現状のCTGANモデルのようなジェネレーティブ・アドバイサル・ネットワークに基づく現在のアプローチは、表データに固有の複雑な構造と競合する。 これらのデータは、非ガウス分布を持つ連続的特徴と離散的特徴の両方を含むことが多い。 そこで本研究では,これらの制約に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。 本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。 これにより、厳密なガウス潜在空間を仮定することで課される制限を回避し、データ生成中に基礎となるデータ分布をより正確に表現することができる。 さらに,本モデルでは,個々の特徴に対して様々な微分可能な分布を利用可能にすることで,連続データ型と離散データ型の両方を扱えるようにし,柔軟性の向上を実現している。 我々は,その類似性と有用性に基づいて,医療関連データを含む3つの実世界のデータセットに対して,我々のモデルを徹底的に検証する。 この評価はCTGANとTVAEに対する顕著な成績を示し、特に医療において、様々な領域で合成表データを生成する貴重なツールとしての可能性を確立した。

The rising use of machine learning in various fields requires robust methods to create synthetic tabular data. Data should preserve key characteristics while addressing data scarcity challenges. Current approaches based on Generative Adversarial Networks, such as the state-of-the-art CTGAN model, struggle with the complex structures inherent in tabular data. These data often contain both continuous and discrete features with non-Gaussian distributions. Therefore, we propose a novel Variational Autoencoder (VAE)-based model that addresses these limitations. Inspired by the TVAE model, our approach incorporates a Bayesian Gaussian Mixture model (BGM) within the VAE architecture. This avoids the limitations imposed by assuming a strictly Gaussian latent space, allowing for a more accurate representation of the underlying data distribution during data generation. Furthermore, our model offers enhanced flexibility by allowing the use of various differentiable distributions for individual features, making it possible to handle both continuous and discrete data types. We thoroughly validate our model on three real-world datasets with mixed data types, including two medically relevant ones, based on their resemblance and utility. This evaluation demonstrates significant outperformance against CTGAN and TVAE, establishing its potential as a valuable tool for generating synthetic tabular data in various domains, particularly in healthcare.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 巨大振り子の空間的猫状態に向けて

Towards a spatial cat state of a massive pendulum ( http://arxiv.org/abs/2404.08435v1 )

ライセンス: Link先を確認
Satoshi Iso, Jinyang Li, Nobuyuki Matsumoto, Katsuta Sakai, (参考訳) 本研究では,吊り鏡の空間猫状態を$\mathcal{O}$(mg)の順序で構築する実験を提案する。 鏡は2つの鏡の中心にセットされ、2つの光学キャビティと光バネを生み出している。 誘導電位は二重井戸形状を示し、その変形はレーザーパワーの関数として二階相転移に似ている。 メカニカルノイズおよび環境騒音によって決定されたコヒーレンス時間において, 基底状態の波動関数を, 原点の局在状態から空間的猫状態へ変態させるための断熱条件を推定する。 我々の推定では、F = 2.5 \times 10^5$と0.3$cmの超高精細光キャビティと、7.9$nWのショットノイズ制限レーザーを提供することで、そのような構成が可能であることを示唆している。 必要な機械的コヒーレンス時間はおよそ1秒である。

We propose an experiment for constructing a spatial cat state of a suspended mirror with an order of $\mathcal{O}$(mg). The mirror is set at the center of two mirrors, creating two optical cavities and optical springs. The induced potential exhibits a double-well shape, and its deformation resembles a second-order phase transition as a function of laser power. We estimate an adiabatic condition for the ground state wave function to metamorphose from a localized state at the origin to a spatial cat state within the double-well potential, within a coherence time determined by mechanical and environmental noises. Our estimation suggests that such a construction is possible if we can provide an ultra-high finesse optical cavity with $F = 2.5 \times 10^5$ and a length of $0.3$ cm, along with a shot-noise-limited laser at $7.9$ nW. The necessary mechanical coherence time is approximately one second.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 非位相共変雑音による量子メトロロジーの強化

Enhanced Quantum Metrology with Non-Phase-Covariant Noise ( http://arxiv.org/abs/2404.08436v1 )

ライセンス: Link先を確認
Jia-Xin Peng, Baiqiang Zhu, Weiping Zhang, Keye Zhang, (参考訳) 量子気象学におけるノイズの検知性能に対する有害な影響は、この分野の研究者によって広く認識されている。 しかし、ノイズが量子力学を弱めるという物理学の明確な基本法則は存在しない。 非位相共変(NPC)ノイズは、ノイズがない場合に達成できる究極の精度限界を超過して、パラメータ推定を向上できる可能性がある。 これは、非エルミート量子センサが、知覚性能の点でハーミート量子センサよりも優れていることを示唆している。 我々の理論を実証し、検証するために、磁場干渉学のパラダイム的な例をいくつか提示する。

The detrimental impact of noise on sensing performance in quantum metrology has been widely recognized by researchers in the field. However, there are no explicit fundamental laws of physics stating that noise invariably weakens quantum metrology. We reveal that phase-covariant (PC) noise either degrades or remains neutral to sensing precision, whereas non-phase-covariant (NPC) noise can potentially enhance parameter estimation, surpassing even the ultimate precision limit achievable in the absence of noise. This implies that a non-Hermitian quantum sensor may outperform its Hermitian counterpart in terms of sensing performance. To illustrate and validate our theory, we present several paradigmatic examples of magnetic field metrology.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# ベクトルエッジコンピューティングにおける非同期フェデレーション学習のための車両選択を可能にする抗ビザンチン攻撃

Anti-Byzantine Attacks Enabled Vehicle Selection for Asynchronous Federated Learning in Vehicular Edge Computing ( http://arxiv.org/abs/2404.08444v1 )

ライセンス: Link先を確認
Cui Zhang, Xiao Xu, Qiong Wu, Pingyi Fan, Qiang Fan, Huiling Zhu, Jiangzhou Wang, (参考訳) 車両エッジコンピューティング(VEC)では、エッジがローカルモデルを受け取り、グローバルモデルを更新する非同期フェデレーション学習(AFL)が使用され、グローバルモデルの更新が効果的に行われる。 しかし、深層強化学習(DRL)に基づき、これらの要因を総合的に検討し、性能の悪い車両を可能な限り排除し、AFLより前にビザンツの攻撃を受けた車両を排除できる。 同時に、AFLを集約する場合、より優れた性能でこれらの車両に焦点を合わせ、システムの精度と安全性を向上させることができる。 本稿では,VECにおけるDRLに基づく車両選択方式を提案する。 本研究では, 車両の移動性, 時間的変動を伴うチャネル条件, 時間的変動を伴う計算資源, 異なるデータ量, 車両の送信チャネル状態, ビザンチン攻撃を考慮したシミュレーション結果から, 提案手法はグローバルモデルの安全性と精度を効果的に向上することを示した。

In vehicle edge computing (VEC), asynchronous federated learning (AFL) is used, where the edge receives a local model and updates the global model, effectively reducing the global aggregation latency.Due to different amounts of local data,computing capabilities and locations of the vehicles, renewing the global model with same weight is inappropriate.The above factors will affect the local calculation time and upload time of the local model, and the vehicle may also be affected by Byzantine attacks, leading to the deterioration of the vehicle data. However, based on deep reinforcement learning (DRL), we can consider these factors comprehensively to eliminate vehicles with poor performance as much as possible and exclude vehicles that have suffered Byzantine attacks before AFL. At the same time, when aggregating AFL, we can focus on those vehicles with better performance to improve the accuracy and safety of the system. In this paper, we proposed a vehicle selection scheme based on DRL in VEC. In this scheme, vehicle s mobility, channel conditions with temporal variations, computational resources with temporal variations, different data amount, transmission channel status of vehicles as well as Byzantine attacks were taken into account.Simulation results show that the proposed scheme effectively improves the safety and accuracy of the global model.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# 二重正規化ドリフト補正によるフェデレーション最適化

Federated Optimization with Doubly Regularized Drift Correction ( http://arxiv.org/abs/2404.08447v1 )

ライセンス: Link先を確認
Xiaowen Jiang, Anton Rodomanov, Sebastian U. Stich, (参考訳) フェデレートラーニング(Federated Learning)は、データをローカライズしながら、分散デバイス間で機械学習モデルをトレーニングする分散最適化パラダイムである。 標準的なメソッドであるFedAvgは、クライアントのドリフトに悩まされ、パフォーマンスを阻害し、集中型メソッドよりも通信コストを増大させる。 以前の研究では、ドリフトを緩和するための様々な戦略が提案されていたが、バニラ勾配よりも通信計算のトレードオフが一様に改善されたことは示されていない。 本研究では分散最適化の確立された方法であるDANEを再検討する。 私たちはそれを示します (i)DANEはヘッセン類似性制約の下で所望の通信削減を実現することができる。 さらに (II) 任意の局所解法をサポートする拡張DANE+を提示し, 局所的な更新を集約する方法を選択する自由度を高める。 特集にあたって 三 局所計算複雑性を改善し、DANE/DANE+と同一の通信複雑性を維持した新しいFedRed法。 これは2つの正規化ドリフト補正を用いることで達成される。

Federated learning is a distributed optimization paradigm that allows training machine learning models across decentralized devices while keeping the data localized. The standard method, FedAvg, suffers from client drift which can hamper performance and increase communication costs over centralized methods. Previous works proposed various strategies to mitigate drift, yet none have shown uniformly improved communication-computation trade-offs over vanilla gradient descent. In this work, we revisit DANE, an established method in distributed optimization. We show that (i) DANE can achieve the desired communication reduction under Hessian similarity constraints. Furthermore, (ii) we present an extension, DANE+, which supports arbitrary inexact local solvers and has more freedom to choose how to aggregate the local updates. We propose (iii) a novel method, FedRed, which has improved local computational complexity and retains the same communication complexity compared to DANE/DANE+. This is achieved by using doubly regularized drift correction.
翻訳日:2024-04-15 15:06:48 公開日:2024-04-12
# OccGaussian: OccGaussian Splatting for Occluded Human Rendering

OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering ( http://arxiv.org/abs/2404.08449v1 )

ライセンス: Link先を確認
Jingrui Ye, Zongkai Zhang, Yujiao Jiang, Qingmin Liao, Wenming Yang, Zongqing Lu, (参考訳) モノクロビデオからダイナミックな3D人間をレンダリングすることは、仮想現実やデジタルエンターテイメントといった様々なアプリケーションに不可欠である。 ほとんどの方法は、人々が邪魔されていないシーンにいると仮定するが、様々な物体が現実のシナリオで身体部分の閉塞を引き起こす可能性がある。 表面レンダリングにNeRFを使用した従来手法では、隠蔽領域を復元する必要があったが、トレーニングに1日以上かかり、レンダリングに数秒を要し、リアルタイムインタラクティブなアプリケーションの要件を満たしていなかった。 これらの問題に対処するため,OccGaussianは3D Gaussian Splattingをベースとして6分以内のトレーニングが可能で,最大160FPSまでの高品質な人体レンダリングを実現する。 OccGaussianは標準空間で3次元ガウス分布を初期化し、隠蔽領域で閉塞特徴クエリを行い、集約された画素アライメント特徴を抽出して不足情報を補う。 次に,Gaussian Feature MLPを用いて,隠蔽領域をよりよく知覚するために,その特徴をさらに処理する。 シミュレーション実験と実世界のオクルージョン実験の両方において,本手法が最先端の手法と比較して,同等あるいは優れた性能を達成できることが実証された。 トレーニングと推論のスピードは,それぞれ250倍,800倍向上しました。 私たちのコードは研究目的で利用できます。

Rendering dynamic 3D human from monocular videos is crucial for various applications such as virtual reality and digital entertainment. Most methods assume the people is in an unobstructed scene, while various objects may cause the occlusion of body parts in real-life scenarios. Previous method utilizing NeRF for surface rendering to recover the occluded areas, but it requiring more than one day to train and several seconds to render, failing to meet the requirements of real-time interactive applications. To address these issues, we propose OccGaussian based on 3D Gaussian Splatting, which can be trained within 6 minutes and produces high-quality human renderings up to 160 FPS with occluded input. OccGaussian initializes 3D Gaussian distributions in the canonical space, and we perform occlusion feature query at occluded regions, the aggregated pixel-align feature is extracted to compensate for the missing information. Then we use Gaussian Feature MLP to further process the feature along with the occlusion-aware loss functions to better perceive the occluded area. Extensive experiments both in simulated and real-world occlusions, demonstrate that our method achieves comparable or even superior performance compared to the state-of-the-art method. And we improving training and inference speeds by 250x and 800x, respectively. Our code will be available for research purposes.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# スポーフィングキュールを模擬した身体・デジタル顔同時検出

Joint Physical-Digital Facial Attack Detection Via Simulating Spoofing Clues ( http://arxiv.org/abs/2404.08450v1 )

ライセンス: Link先を確認
Xianhua He, Dashuang Liang, Song Yang, Zhanlong Hao, Hui Ma, Binjie Mao, Xi Li, Yao Wang, Pengfei Yan, Ajian Liu, (参考訳) 顔認識システムは、様々なタイプの物理的およびデジタル攻撃を受けることが多い。 従来は物理的攻撃とデジタル攻撃に対処するシナリオにおいて,それぞれ満足な性能を達成してきた。 しかし、物理的攻撃とデジタル攻撃の両方に同時に対処するモデルを統合する方法はほとんどないため、複数のモデルの開発と維持の必要性が示唆される。 単一モデル内で物理的およびデジタル攻撃を共同検出するために,ネットワークアーキテクチャに適応可能な革新的なアプローチを提案する。 提案手法は主に,SPSC(Simulated Physical Spoofing Clues Augmentation)とSDSC(Simulated Digital Spoofing Clues Augmentation)という2種類のデータ拡張を含む。 SPSCとSDSCは、物理的およびデジタル攻撃の手がかりをシミュレートすることで、ライブサンプルをシミュレートされた攻撃サンプルに増強し、"見えない"攻撃タイプを検出するモデルの能力を大幅に向上させた。 広範な実験により、SPSCとSDSCは、それぞれUniAttackDataデータセットのプロトコル2.1と2.2の最先端の一般化を達成できることが示されている。 The 5th Face Anti-Spoofing Challenge@CVPR2024の"Unified Physical-Digital Face Detection"で優勝した。 APCERは3.75%,BPCERは0.93%,ACERは2.34%であった。 私たちのコードはhttps://github.com/Xianhua-He/cvpr2024-face-anti-spoofing-challengeで公開されています。

Face recognition systems are frequently subjected to a variety of physical and digital attacks of different types. Previous methods have achieved satisfactory performance in scenarios that address physical attacks and digital attacks, respectively. However, few methods are considered to integrate a model that simultaneously addresses both physical and digital attacks, implying the necessity to develop and maintain multiple models. To jointly detect physical and digital attacks within a single model, we propose an innovative approach that can adapt to any network architecture. Our approach mainly contains two types of data augmentation, which we call Simulated Physical Spoofing Clues augmentation (SPSC) and Simulated Digital Spoofing Clues augmentation (SDSC). SPSC and SDSC augment live samples into simulated attack samples by simulating spoofing clues of physical and digital attacks, respectively, which significantly improve the capability of the model to detect "unseen" attack types. Extensive experiments show that SPSC and SDSC can achieve state-of-the-art generalization in Protocols 2.1 and 2.2 of the UniAttackData dataset, respectively. Our method won first place in "Unified Physical-Digital Face Attack Detection" of the 5th Face Anti-spoofing Challenge@CVPR2024. Our final submission obtains 3.75% APCER, 0.93% BPCER, and 2.34% ACER, respectively. Our code is available at https://github.com/Xianhua-He/cvpr2024-face-anti-spoofing-challenge.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# MoE-FFD:一般化およびパラメータ効率の良い顔偽造検出の専門家の混在

MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection ( http://arxiv.org/abs/2404.08452v1 )

ライセンス: Link先を確認
Chenqi Kong, Anwei Luo, Song Xia, Yi Yu, Haoliang Li, Alex C. Kot, (参考訳) ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現している。 しかし、これらのアプローチには次のような制限がある。 ImageNetの重みから完全に微調整されたViTベースのモデルには、相当な計算とストレージリソースが必要です。 ViTベースの手法は、局所的な偽の手がかりを捉えるのに苦労し、モデルバイアスと限定的な一般化性をもたらす。 これらの課題に対処するため、この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入している。 MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンを凍結させ、パラメータ効率のトレーニングを実現する。 さらに、MoE-FFDはトランスフォーマーの表現性とCNNの局所的先行性を利用して、グローバルおよび局所的な偽の手がかりを同時に抽出する。 さらに、新しいMoEモジュールはモデルのキャパシティを拡大し、最適な偽造の専門家を選択するように設計されており、偽造検出性能をさらに高めている。 The proposed MoE learning scheme can be seamlessly adapt to various transformer backbones in a plug-and-play manner。 実験結果から,提案手法はパラメータのオーバーヘッドを低減し,最先端の顔偽造検出性能を実現することを示した。 コードは受理時にリリースされます。

Deepfakes have recently raised significant trust issues and security concerns among the public. Compared to CNN face forgery detectors, ViT-based methods take advantage of the expressivity of transformers, achieving superior detection performance. However, these approaches still exhibit the following limitations: (1). Fully fine-tuning ViT-based models from ImageNet weights demands substantial computational and storage resources; (2). ViT-based methods struggle to capture local forgery clues, leading to model bias and limited generalizability. To tackle these challenges, this work introduces Mixture-of-Experts modules for Face Forgery Detection (MoE-FFD), a generalized yet parameter-efficient ViT-based approach. MoE-FFD only updates lightweight Low-Rank Adaptation (LoRA) and Adapter layers while keeping the ViT backbone frozen, thereby achieving parameter-efficient training. Moreover, MoE-FFD leverages the expressivity of transformers and local priors of CNNs to simultaneously extract global and local forgery clues. Additionally, novel MoE modules are designed to scale the model's capacity and select optimal forgery experts, further enhancing forgery detection performance. The proposed MoE learning scheme can be seamlessly adapted to various transformer backbones in a plug-and-play manner. Extensive experimental results demonstrate that the proposed method achieves state-of-the-art face forgery detection performance with reduced parameter overhead. The code will be released upon acceptance.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 軽量マルチシステム多変量相互接続と多様性発見

Lightweight Multi-System Multivariate Interconnection and Divergence Discovery ( http://arxiv.org/abs/2404.08453v1 )

ライセンス: Link先を確認
Mulugeta Weldezgina Asres, Christian Walter Omlin, Jay Dittmann, Pavel Parygin, Joshua Hiltbrand, Seth I. Cooper, Grace Cummings, David Yu, (参考訳) センサとサブシステム間の異常な振る舞いを識別することは、大規模システムにおける障害発見と診断の促進に不可欠である。 同時に、多数の多変量データセットを持つ大規模システムの探索も困難である。 本研究では,多系統環境における異常な挙動を識別する軽量な相互接続・分散発見機構(LIDD)を提案する。 このアプローチでは,まず各システムのセンサ間の類似度ヒートマップを推定し,関連する多レベル相互接続と不一致の詳細を提供するために情報検索アルゴリズムを適用する多変量解析手法を採用している。 CERNにおけるコンパクト・ミューオン・ソレノイド(CMS)実験におけるハドロン・カロリメータの読み出しシステムに関する実験により,提案手法の有効性が示された。 提案手法は,異なるクラスターにおける異常な挙動を捉え,根本原因を推定しながら,予測されるカロリーメータの相互接続構成と一致した可読性システムとそのセンサである。

Identifying outlier behavior among sensors and subsystems is essential for discovering faults and facilitating diagnostics in large systems. At the same time, exploring large systems with numerous multivariate data sets is challenging. This study presents a lightweight interconnection and divergence discovery mechanism (LIDD) to identify abnormal behavior in multi-system environments. The approach employs a multivariate analysis technique that first estimates the similarity heatmaps among the sensors for each system and then applies information retrieval algorithms to provide relevant multi-level interconnection and discrepancy details. Our experiment on the readout systems of the Hadron Calorimeter of the Compact Muon Solenoid (CMS) experiment at CERN demonstrates the effectiveness of the proposed method. Our approach clusters readout systems and their sensors consistent with the expected calorimeter interconnection configurations, while capturing unusual behavior in divergent clusters and estimating their root causes.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 高次元非線形後方確率微分方程式を解くための後方微分深層学習に基づくアルゴリズム

A backward differential deep learning-based algorithm for solving high-dimensional nonlinear backward stochastic differential equations ( http://arxiv.org/abs/2404.08456v1 )

ライセンス: Link先を確認
Lorenc Kapllani, Long Teng, (参考訳) 本研究では,高次元非線形後方確率微分方程式 (BSDEs) を解くための後方微分深層学習に基づく新しいアルゴリズムを提案し,深部ニューラルネットワーク(DNN)モデルは入力やラベルだけでなく,対応するラベルの微分も学習する。 これは、差分ディープラーニングが、入力に対するラベルとそのデリバティブの効率的な近似を提供するという事実に動機づけられている。 BSDE は、Malliavin calculus を用いて微分ディープラーニング問題として再構成される。 BSDE への解のマリアビン微分は、別の BSDE を満たすので、結果として BSDE の系となる。 そのような定式化は、解、勾配、ヘッセン行列を$\left(Y, Z, \Gamma\right)の3重プロセスで表す必要がある。 この系内のすべての積分は、オイラー・丸山法を用いて離散化される。 その後、DNNはこれらの未知のプロセスの3倍を近似するために使用される。 DNNパラメータは、離散化されたBSDEシステムの力学の重み付け和として定義される差分学習型損失関数を最小化し、各タイミングで後方に最適化される。 提案アルゴリズムの収束を示すために,誤差解析を行った。 高い効率を示すために、最大50ドルの数値実験が提供されている。 理論的にも数値的にも,提案手法は従来の深層学習手法よりも効率的であることが実証された。

In this work, we propose a novel backward differential deep learning-based algorithm for solving high-dimensional nonlinear backward stochastic differential equations (BSDEs), where the deep neural network (DNN) models are trained not only on the inputs and labels but also the differentials of the corresponding labels. This is motivated by the fact that differential deep learning can provide an efficient approximation of the labels and their derivatives with respect to inputs. The BSDEs are reformulated as differential deep learning problems by using Malliavin calculus. The Malliavin derivatives of solution to a BSDE satisfy themselves another BSDE, resulting thus in a system of BSDEs. Such formulation requires the estimation of the solution, its gradient, and the Hessian matrix, represented by the triple of processes $\left(Y, Z, \Gamma\right).$ All the integrals within this system are discretized by using the Euler-Maruyama method. Subsequently, DNNs are employed to approximate the triple of these unknown processes. The DNN parameters are backwardly optimized at each time step by minimizing a differential learning type loss function, which is defined as a weighted sum of the dynamics of the discretized BSDE system, with the first term providing the dynamics of the process $Y$ and the other the process $Z$. An error analysis is carried out to show the convergence of the proposed algorithm. Various numerical experiments up to $50$ dimensions are provided to demonstrate the high efficiency. Both theoretically and numerically, it is demonstrated that our proposed scheme is more efficient compared to other contemporary deep learning-based methodologies, especially in the computation of the process $\Gamma$.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# ニューロシンボリックラーニングにおける独立性評価について

On the Independence Assumption in Neurosymbolic Learning ( http://arxiv.org/abs/2404.08458v1 )

ライセンス: Link先を確認
Emile van Krieken, Pasquale Minervini, Edoardo M. Ponti, Antonio Vergari, (参考訳) 最先端のニューロシンボリック学習システムは確率論的推論を用いて、ニューラルネットワークを記号に対する論理的制約に従う予測へと導く。 このようなシステムの多くは、学習と推論を簡略化するために入力が与えられた場合、考慮されたシンボルの確率は条件的に独立であると仮定する。 我々は、この仮定を研究、批判し、最適化を妨げ、不確実な定量化を防ぐ方法について強調する。 損失関数が条件付き独立ニューラルネットワークの予測において過信されることを示す。 その結果、複数の有効な選択肢に対して不確実性を表現できない。 さらに、これらの損失関数は非凸であり、そのミニマは通常高度に非連結であるので最適化が難しいことを証明している。 我々の理論分析は、条件付き独立仮定を置き換え、より表現力のあるニューロシンボリック確率モデルを設計するための基礎となる。

State-of-the-art neurosymbolic learning systems use probabilistic reasoning to guide neural networks towards predictions that conform to logical constraints over symbols. Many such systems assume that the probabilities of the considered symbols are conditionally independent given the input to simplify learning and reasoning. We study and criticise this assumption, highlighting how it can hinder optimisation and prevent uncertainty quantification. We prove that loss functions bias conditionally independent neural networks to become overconfident in their predictions. As a result, they are unable to represent uncertainty over multiple valid options. Furthermore, we prove that these loss functions are difficult to optimise: they are non-convex, and their minima are usually highly disconnected. Our theoretical analysis gives the foundation for replacing the conditional independence assumption and designing more expressive neurosymbolic probabilistic models.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# OTTER: 最適輸送によるゼロショット分類の改善

OTTER: Improving Zero-Shot Classification via Optimal Transport ( http://arxiv.org/abs/2404.08461v1 )

ライセンス: Link先を確認
Changho Shin, Jitian Zhao, Sonia Cromp, Harit Vishwakarma, Frederic Sala, (参考訳) 一般的なゼロショットモデルは、事前訓練によって継承されたアーティファクトに悩まされる。 特に不均衡なWebスケール事前学習データによって引き起こされる有害なアーティファクトは、ラベル分布のミスマッチである。 ラベルの分布を修復しようとする既存のアプローチは、ラベル付き下流タスクデータへのアクセスや事前学習中の真のラベルバランスの知識といった互換性のない要件があるため、ゼロショット設定には適さない。 我々はこれらの課題を脇取りし、最適な輸送によって事前訓練されたモデル予測を調整するためのシンプルで軽量なアプローチを導入する。 本手法では,下流タスクのラベル分布を推定するだけでよい。 理論的には,特定の軽度条件下での手順による改善を特徴付けるとともに,誤特定による誤りに限界を与える。 実験的に、我々は、ゼロショット画像とテキスト分類タスクの幅広い範囲でメソッドを検証し、精度を平均で4.8%と15.9%改善し、21のデータセットのうち17でプリミティブマッチング(多くの場合、大きなマージンで)のようなベースラインを上回りました。

Popular zero-shot models suffer due to artifacts inherited from pretraining. A particularly detrimental artifact, caused by unbalanced web-scale pretraining data, is mismatched label distribution. Existing approaches that seek to repair the label distribution are not suitable in zero-shot settings, as they have incompatible requirements such as access to labeled downstream task data or knowledge of the true label balance in the pretraining distribution. We sidestep these challenges and introduce a simple and lightweight approach to adjust pretrained model predictions via optimal transport. Our technique requires only an estimate of the label distribution of a downstream task. Theoretically, we characterize the improvement produced by our procedure under certain mild conditions and provide bounds on the error caused by misspecification. Empirically, we validate our method in a wide array of zero-shot image and text classification tasks, improving accuracy by 4.8% and 15.9% on average, and beating baselines like Prior Matching -- often by significant margins -- in 17 out of 21 datasets.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# ランダウ・ツェナー力学の異なる視点

A different perspective on the Landau-Zener dynamics ( http://arxiv.org/abs/2404.08466v1 )

ライセンス: Link先を確認
Eric P. Glasbrenner, Yannik Gerdes, Sándor Varró, Wolfgang P. Schleich, (参考訳) ランダウ・ツェナー問題に対する2つの異なるアプローチを提案する。 一 二つの確率振幅の1つに対する積分微分方程式におけるマルコフ近似、及び (II)同じ確率振幅に対する線形二階微分方程式の振幅・位相解析 我々の処理はマルコフ近似が方程式の非線形性を無視していることを示しているが、それでも正確な漸近結果を与えてくれる。

We present two different approaches towards the Landau-Zener problem: (i) The Markov approximation in the integro-differential equation for one of the two probability amplitudes, and (ii) an amplitude-and-phase analysis of the linear second order differential equation for same probability amplitude. Our treatment shows that the Markov approximation neglects the non-linearity of the equation but still provides us with the exact asymptotic result.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# TSLANet: 時系列表現学習のためのトランスフォーマー再考

TSLANet: Rethinking Transformers for Time Series Representation Learning ( http://arxiv.org/abs/2404.08472v1 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Xiaoli Li, (参考訳) 時系列データは、その固有の長距離および短距離の依存関係によって特徴づけられ、分析アプリケーションに固有の課題を生じさせる。 Transformerベースのモデルは、長距離依存関係のキャプチャに優れていますが、ノイズ感度、計算効率、より小さなデータセットとのオーバーフィットの制限に直面しています。 そこで本研究では,TSLANet(Time Series Lightweight Adaptive Network)を,時系列タスクの普遍的畳み込みモデルとして導入する。 具体的には,適応スペクトルブロック(Adaptive Spectral Block)を提案し,Fourier解析を用いて特徴表現を強化し,適応しきい値による雑音の緩和を図りながら,長期的・短期的な相互作用を捉える。 さらに、Interactive Convolution Blockを導入し、自己教師付き学習を活用して、複雑な時間パターンを復号化するためのTSLANetの能力を強化し、異なるデータセットでの堅牢性を向上させる。 我々の総合的な実験により、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れており、そのレジリエンスと適応性は様々なノイズレベルとデータサイズで示される。 コードは \url{https://github.com/emadeldeen24/TSLANet} で公開されている。

Time series data, characterized by its intrinsic long and short-range dependencies, poses a unique challenge across analytical applications. While Transformer-based models excel at capturing long-range dependencies, they face limitations in noise sensitivity, computational efficiency, and overfitting with smaller datasets. In response, we introduce a novel Time Series Lightweight Adaptive Network (TSLANet), as a universal convolutional model for diverse time series tasks. Specifically, we propose an Adaptive Spectral Block, harnessing Fourier analysis to enhance feature representation and to capture both long-term and short-term interactions while mitigating noise via adaptive thresholding. Additionally, we introduce an Interactive Convolution Block and leverage self-supervised learning to refine the capacity of TSLANet for decoding complex temporal patterns and improve its robustness on different datasets. Our comprehensive experiments demonstrate that TSLANet outperforms state-of-the-art models in various tasks spanning classification, forecasting, and anomaly detection, showcasing its resilience and adaptability across a spectrum of noise levels and data sizes. The code is available at \url{https://github.com/emadeldeen24/TSLANet}
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 不確実性定量化のための統計的深さと発酵距離の組み合わせ

Combining Statistical Depth and Fermat Distance for Uncertainty Quantification ( http://arxiv.org/abs/2404.08476v1 )

ライセンス: Link先を確認
Hai-Vy Nguyen, Fabrice Gamboa, Reda Chhaibi, Sixin Zhang, Serge Gratton, Thierry Giaccone, (参考訳) 本稿では,Fermat Distanceと組み合わせた統計的概念である''Lens Depth'' (LD) を用いて,ニューラルネットワークの予測における領域外不確実性を測定する。 私たちのメソッドにはトレーニング可能なパラメータがありません。 この方法は任意の分類モデルに適用可能であり、テスト時に特徴空間に直接適用され、トレーニングプロセスに介入しない。 そのため、オリジナルのモデルの性能には影響しない。 提案手法は,おもちゃのデータセットに対して優れた定性的な結果を与えるとともに,標準ディープラーニングデータセットに対して,強力なベースライン手法と比較して,競争力や不確実性を評価することができる。

We measure the Out-of-domain uncertainty in the prediction of Neural Networks using a statistical notion called ``Lens Depth'' (LD) combined with Fermat Distance, which is able to capture precisely the ``depth'' of a point with respect to a distribution in feature space, without any assumption about the form of distribution. Our method has no trainable parameter. The method is applicable to any classification model as it is applied directly in feature space at test time and does not intervene in training process. As such, it does not impact the performance of the original model. The proposed method gives excellent qualitative result on toy datasets and can give competitive or better uncertainty estimation on standard deep learning datasets compared to strong baseline methods.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 新しい効率的なビジュアルOILUマーカ

New Efficient Visual OILU Markers ( http://arxiv.org/abs/2404.08477v1 )

ライセンス: Link先を確認
Youssef Chahir, Messaoud Mostefai, Hamza Saida, (参考訳) 基本的なパターンは、多かれ少なかれ複雑な幾何学構造の起源である。 我々はこのようなパターンを利用して、新しい効率的な視覚マーカーを開発する。 プロジェクティブ不変性に加えて、提案されたマーカーは、リソース集約的なナビゲーションや拡張現実アプリケーションに必要な、ユニークな識別子の豊富なパネルを生成することができる。 マーカーのスパイラルトポロジーは、レベルセット法に基づく正確な識別スキームの検証を可能にする。 取得および幾何学的歪みに対するマーカーのロバスト性は、広範囲な実験によって検証される。

Basic patterns are the source of a wide range of more or less complex geometric structures. We will exploit such patterns to develop new efficient visual markers. Besides being projective invariants, the proposed markers allow producing rich panel of unique identifiers, highly required for resource-intensive navigation and augmented reality applications. The spiral topology of our markers permits the validation of an accurate identification scheme, which is based on level set methods. The robustness of the markers against acquisition and geometric distortions is validated by extensive experimental tests.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# AIをデコードする - ChatGPTにおけるデータ分析の内部ストーリ

Decoding AI: The inside story of data analysis in ChatGPT ( http://arxiv.org/abs/2404.08480v1 )

ライセンス: Link先を確認
Ozan Evkaya, Miguel de Carvalho, (参考訳) 生成AIの最近の進歩の結果、データサイエンスの分野は様々な変化を起こす傾向にある。 本稿では、ChatGPTのデータ分析(DA)機能について、幅広いタスクでその性能を評価する。 DAは前例のない分析能力を持つ研究者や実践者を提供するが、完璧とは程遠いものであり、その限界を認識し、対処することが重要である。

As a result of recent advancements in generative AI, the field of Data Science is prone to various changes. This review critically examines the Data Analysis (DA) capabilities of ChatGPT assessing its performance across a wide range of tasks. While DA provides researchers and practitioners with unprecedented analytical capabilities, it is far from being perfect, and it is important to recognize and address its limitations.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 密度支援トンネルから強化ペアトンネルへのフロケット駆動クロスオーバー

Floquet-driven crossover from density-assisted tunneling to enhanced pair tunneling ( http://arxiv.org/abs/2404.08482v1 )

ライセンス: Link先を確認
Nick Klemmer, Janek Fleper, Valentin Jonas, Ameneh Sheikhan, Corinna Kollath, Michael Köhl, Andrea Bergschneider, (参考訳) Floquet Engineering を用いた二重井戸電位におけるペアトンネルの実験的制御について検討した。 実効的な相互作用を調整し,密度支援型トンネル法から支配的なペアトンネル法へのクロスオーバーを実証する。 さらに,Floquet-reduced single- Particle tunnelingに比較してペアトンネリング率を向上できるだけでなく,静的超交換速度を超えても,有効相互作用を関連範囲で維持できることを示す。 これにより、超低温原子系における明示的なペアトンネルによるモデルの実現が可能となる。

We investigate the experimental control of pair tunneling in a double-well potential using Floquet engineering. We demonstrate a crossover from a regime with density-assisted tunneling to dominant pair tunneling by tuning the effective interactions. Furthermore, we show that the pair tunneling rate can be enhanced not only compared to the Floquet-reduced single-particle tunneling but even beyond the static superexchange rate, while keeping the effective interaction in a relevant range. This opens possibilities to realize models with explicit pair tunneling in ultracold atomic systems.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 無線ネットワーク上での協調マルチタスク処理のための意味コミュニケーション

Semantic Communication for Cooperative Multi-Task Processing over Wireless Networks ( http://arxiv.org/abs/2404.08483v1 )

ライセンス: Link先を確認
Ahmad Halimi Razlighi, Carsten Bockelmann, Armin Dekorsy, (参考訳) 本稿では,複数のタスクを同時に処理できるより汎用的なシステムに,ひとつのタスクの処理に限定したセマンティックコミュニケーションの現状を拡張した。 そこで我々はまず「意味源」の定義を導入し、一つの観察に基づく複数の意味論の解釈を可能にした。 次にセマンティックエンコーダの設計を導入し、エンコーダを共通ユニットに分割し、協調マルチタスク処理を可能にする複数の特定ユニットを特徴とする。 シミュレーションの結果,提案するセマンティックソースの有効性とシステム設計の有効性が示された。 当社のアプローチでは,情報最大化(infomax)とエンドツーエンド設計の原則を採用しています。

In this paper, we have expanded the current status of semantic communication limited to processing one task to a more general system that can handle multiple tasks concurrently. In pursuit of this, we first introduced our definition of the "semantic source", enabling the interpretation of multiple semantics based on a single observation. A semantic encoder design is then introduced, featuring the division of the encoder into a common unit and multiple specific units enabling cooperative multi-task processing. Simulation results demonstrate the effectiveness of the proposed semantic source and the system design. Our approach employs information maximization (infomax) and end-to-end design principles.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# 大規模言語モデルを用いたセマンティック分析 : 英語以外の言語で動作するか?イタリアにおけるターゲットテスト

Thematic Analysis with Large Language Models: does it work with languages other than English? A targeted test in Italian ( http://arxiv.org/abs/2404.08488v1 )

ライセンス: Link先を確認
Stefano De Paoli, (参考訳) 本稿では,大言語モデル(Large Language Model,LLM)を用いた主題解析(TA)を英語と異なる言語で行うテストを提案する。 英語のデータ上で、事前学習されたLLMをTAに使用するという有望な取り組みはあったが、これらのモデルが他の言語で良い品質で同じ分析を合理的に行うことができるかどうかについては、テストがない。 本稿では,イタリア語におけるセミ構造化インタビューのオープンアクセスデータセットを用いたテストを提案する。 テストでは、事前訓練されたモデルが、イタリア語のプロンプトを使用して、データ上でそのようなTAを実行可能であることを示す。 比較テストは、人間の研究者が独立して作り出したものとよく似たテーマを作るためのモデル能力を示している。 本研究の主な意味は、言語が使用されるモデルでサポートされている限り、事前学習されたLLMは多言語状況における分析を支援するのに適している可能性があるということである。

This paper proposes a test to perform Thematic Analysis (TA) with Large Language Model (LLM) on data which is in a different language than English. While there has been initial promising work on using pre-trained LLMs for TA on data in English, we lack any tests on whether these models can reasonably perform the same analysis with good quality in other language. In this paper a test will be proposed using an open access dataset of semi-structured interviews in Italian. The test shows that a pre-trained model can perform such a TA on the data, also using prompts in Italian. A comparative test shows the model capacity to produce themes which have a good resemblance with those produced independently by human researchers. The main implication of this study is that pre-trained LLMs may thus be suitable to support analysis in multilingual situations, so long as the language is supported by the model used.
翻訳日:2024-04-15 14:57:03 公開日:2024-04-12
# SpectralMamba:ハイパースペクトル画像分類のための効率的なMamba

SpectralMamba: Efficient Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.08489v1 )

ライセンス: Link先を確認
Jing Yao, Danfeng Hong, Chenyu Li, Jocelyn Chanussot, (参考訳) リカレントニューラルネットワークとトランスフォーマーは、近年、スペクトルシーケンスから長距離依存関係をキャプチャする能力のため、ハイパースペクトル(HS)イメージングにおけるほとんどのアプリケーションを支配している。 しかし、これらの連続的なアーキテクチャの成功にもかかわらず、並列化の困難さや計算的に禁止された注意が原因で生じる非無視的な非効率性は、特にリモートセンシングシナリオにおける大規模観測において、その実用性を妨げている。 本稿では、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ、新しい状態空間モデルであるSpectralMambaを提案する。 SpectralMambaは、HSデータダイナミクスのシンプルだが適切なモデリングを2つのレベルで特徴付けている。 第一に、空間スペクトル空間において、動的マスクは効率的な畳み込みによって学習され、空間規則性とスペクトル特異性を同時に符号化することにより、識別的表現学習におけるスペクトルのばらつきと混乱を緩和する。 第二に、マージされたスペクトルは、入力依存の全てのパラメータで隠された状態空間で効率的に操作でき、冗長な注意や不動の再帰に依存することなく、選択的に集中した応答が得られる。 さらなる計算量縮小のための空間を探索するために、数百のバンド間の短期的および長期的コンテキストプロファイルを維持しながら、ほぼ連続したスペクトルを圧縮された長さのシーケンスに転送する、ピースワイズ走査機構を用いる。 SpectralMambaは、衛星、航空機、UAVに搭載された画像によって取得された4つのHSデータセットに関する広範な実験を通じて、パフォーマンスと効率の両方の観点から、驚くほど有望な勝利を生み出した。

Recurrent neural networks and Transformers have recently dominated most applications in hyperspectral (HS) imaging, owing to their capability to capture long-range dependencies from spectrum sequences. However, despite the success of these sequential architectures, the non-ignorable inefficiency caused by either difficulty in parallelization or computationally prohibitive attention still hinders their practicality, especially for large-scale observation in remote sensing scenarios. To address this issue, we herein propose SpectralMamba -- a novel state space model incorporated efficient deep learning framework for HS image classification. SpectralMamba features the simplified but adequate modeling of HS data dynamics at two levels. First, in spatial-spectral space, a dynamical mask is learned by efficient convolutions to simultaneously encode spatial regularity and spectral peculiarity, thus attenuating the spectral variability and confusion in discriminative representation learning. Second, the merged spectrum can then be efficiently operated in the hidden state space with all parameters learned input-dependent, yielding selectively focused responses without reliance on redundant attention or imparallelizable recurrence. To explore the room for further computational downsizing, a piece-wise scanning mechanism is employed in-between, transferring approximately continuous spectrum into sequences with squeezed length while maintaining short- and long-term contextual profiles among hundreds of bands. Through extensive experiments on four benchmark HS datasets acquired by satellite-, aircraft-, and UAV-borne imagers, SpectralMamba surprisingly creates promising win-wins from both performance and efficiency perspectives.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# 教師言語選択と言語間自己拡張によるmPLMの言語レベル性能格差の緩和

Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation ( http://arxiv.org/abs/2404.08491v1 )

ライセンス: Link先を確認
Haozhe Zhao, Zefan Cai, Shuzheng Si, Liang Chen, Yufeng He, Kaikai An, Baobao Chang, (参考訳) 大規模多言語事前学習言語モデル(mPLM)は、言語間タスクにおいて顕著な性能を発揮するが、同じmPLM内で異なる言語間で大きな性能格差が存在する。 これまでの研究では、mPLMを多言語データで微調整することで、これらの格差を狭めようと努力していた。 しかし、ラベル付き多言語データを取得するのに時間がかかり、ラベル付き多言語データに制限のある微調整mPLMはラベル付きデータ固有の知識をカプセル化するだけである。 そこで本稿では, ALSACEを導入して, 性能のよい言語から学んだ知識を活用して, mPLM内の低性能言語をガイドし, ラベル付き多言語データの追加の必要性を解消する。 実験により、ALSACEは様々なmPLM間の言語レベルの性能格差を効果的に軽減し、フルリソースから限られたリソース設定まで様々な多言語NLUタスクにおける競合性能を示した。 このアプローチのコードはhttps://github.com/pkunlp-icler/ALSACEで公開されています。

Large-scale multilingual Pretrained Language Models (mPLMs) yield impressive performance on cross-language tasks, yet significant performance disparities exist across different languages within the same mPLM. Previous studies endeavored to narrow these disparities by supervise fine-tuning the mPLMs with multilingual data. However, obtaining labeled multilingual data is time-consuming, and fine-tuning mPLM with limited labeled multilingual data merely encapsulates the knowledge specific to the labeled data. Therefore, we introduce ALSACE to leverage the learned knowledge from the well-performing languages to guide under-performing ones within the same mPLM, eliminating the need for additional labeled multilingual data. Experiments show that ALSACE effectively mitigates language-level performance disparity across various mPLMs while showing the competitive performance on different multilingual NLU tasks, ranging from full resource to limited resource settings. The code for our approach is available at https://github.com/pkunlp-icler/ALSACE.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# RLHFのデータセットリセットポリシー最適化

Dataset Reset Policy Optimization for RLHF ( http://arxiv.org/abs/2404.08495v1 )

ライセンス: Link先を確認
Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun, (参考訳) Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative model, has been produced impressive model such as GPT-4 and Claude3 Opus。 オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。 本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。 オフラインの嗜好データセットが情報的状態(ラベル付け者が好むデータ)を提供するという事実により、我々の新しいアルゴリズムであるデータセットリセットポリシー最適化(DR-PO)は、既存のオフラインの嗜好データセットをデータセットリセットを介してオンラインのポリシートレーニング手順に統合する。 理論的には, DR-POは, 一般関数近似の下でのオフラインデータセットでカバーされる任意のポリシーと同程度に, 有限サンプルの複雑さで実行できることが示される。 実験では,TL;DR要約とHHデータセットの両方において,GPT4の勝利率の基準の下でDR-POの生成がPPO(Proximal Policy Optimization)とDPO(Direction Preference Optimization)より優れていることを示した。 この作業のコードはhttps://github.com/Cornell-RL/drpoにある。

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# 分解に基づく進化的アルゴリズムによる複雑多目的最適化における局所最適化の解析と克服

Analyzing and Overcoming Local Optima in Complex Multi-Objective Optimization by Decomposition-Based Evolutionary Algorithms ( http://arxiv.org/abs/2404.08501v1 )

ライセンス: Link先を確認
Ting Dong, Haoxin Wang, Hengxi Zhang, Wenbo Ding, (参考訳) 複雑な多目的最適化問題、特に非凸および非一様パレートフロントの問題に対処する際、分解に基づく多目的進化アルゴリズム(MOEAD)はしばしば局所最適に収束し、解の多様性を制限する。 その重要性にもかかわらず、この問題は限定的な理論的探求を受けている。 包括的幾何学的解析により,従来の参照点選択法が本課題に根本的に寄与することが確認された。 そこで我々は,局所最適問題を克服するために,革新的なRP選択戦略であるウェイトベクトルガイド法とガウス・ハイブリッド法を導入する。 このアプローチでは、ウェイトベクトル方向と整合し、ガウス分布を統合して3つの異なるRP圏を結合する新しいRP型を用いる。 本研究は,2014年から2022年までのMOEADsフレームワーク内の14のアルゴリズムを対象とするアブレーション実験と,提案手法の有効性を評価するための実証実験の2つの要素からなる。 その結果,本手法は個体数の多様性と収束性の両方において顕著な改善を達成できた。

When addressing the challenge of complex multi-objective optimization problems, particularly those with non-convex and non-uniform Pareto fronts, Decomposition-based Multi-Objective Evolutionary Algorithms (MOEADs) often converge to local optima, thereby limiting solution diversity. Despite its significance, this issue has received limited theoretical exploration. Through a comprehensive geometric analysis, we identify that the traditional method of Reference Point (RP) selection fundamentally contributes to this challenge. In response, we introduce an innovative RP selection strategy, the Weight Vector-Guided and Gaussian-Hybrid method, designed to overcome the local optima issue. This approach employs a novel RP type that aligns with weight vector directions and integrates a Gaussian distribution to combine three distinct RP categories. Our research comprises two main experimental components: an ablation study involving 14 algorithms within the MOEADs framework, spanning from 2014 to 2022, to validate our theoretical framework, and a series of empirical tests to evaluate the effectiveness of our proposed method against both traditional and cutting-edge alternatives. Results demonstrate that our method achieves remarkable improvements in both population diversity and convergence.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# 動くイベントカメラで3D人間をスキャン

3D Human Scan With A Moving Event Camera ( http://arxiv.org/abs/2404.08504v1 )

ライセンス: Link先を確認
Kai Kohyama, Shintaro Shiba, Yoshimitsu Aoki, (参考訳) 3Dの人体を捕獲することは、仮想現実やスポーツ分析といった幅広い応用でコンピュータビジョンにおいて重要なタスクの1つである。 しかし、従来のフレームカメラは時間分解能とダイナミックレンジによって制限されており、現実世界のアプリケーション設定に制約が課されている。 イベントカメラは、高時間分解能と高ダイナミックレンジ(HDR)の利点があるが、異なる特徴を持つデータを扱うためには、イベントベースの手法の開発が必要である。 本稿では,3次元ポーズ推定とヒューマンメッシュ復元のためのイベントベース手法を提案する。 イベントベースのヒューマンメッシュリカバリに関する以前の作業では、フレーム(イメージ)とイベントデータが必要だった。 提案手法は,イベントカメラを静止体に移動させて3Dボクセルを彫り,減衰した光線で人間のポーズとメッシュを再構成し,統計モデルに適合させ,高周波の詳細を保存することによって,イベントのみに依存する。 実験の結果,提案手法は従来のフレームベース手法よりも,ポーズとボディーメッシュの両方の推定精度が高いことがわかった。 また,従来のカメラの動作がぼやけている状況においても,その結果が示される。 これは、イベントのみの人間のメッシュリカバリを初めて示すもので、視覚センサーから堅牢で正確な3D人体スキャンを実現するための第一歩になることを願っています。

Capturing the 3D human body is one of the important tasks in computer vision with a wide range of applications such as virtual reality and sports analysis. However, conventional frame cameras are limited by their temporal resolution and dynamic range, which imposes constraints in real-world application setups. Event cameras have the advantages of high temporal resolution and high dynamic range (HDR), but the development of event-based methods is necessary to handle data with different characteristics. This paper proposes a novel event-based method for 3D pose estimation and human mesh recovery. Prior work on event-based human mesh recovery require frames (images) as well as event data. The proposed method solely relies on events; it carves 3D voxels by moving the event camera around a stationary body, reconstructs the human pose and mesh by attenuated rays, and fit statistical body models, preserving high-frequency details. The experimental results show that the proposed method outperforms conventional frame-based methods in the estimation accuracy of both pose and body mesh. We also demonstrate results in challenging situations where a conventional camera has motion blur. This is the first to demonstrate event-only human mesh recovery, and we hope that it is the first step toward achieving robust and accurate 3D human body scanning from vision sensors.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# LaSagnA:複雑なクエリのための言語ベースのセグメンテーションアシスタント

LaSagnA: Language-based Segmentation Assistant for Complex Queries ( http://arxiv.org/abs/2404.08506v1 )

ライセンス: Link先を確認
Cong Wei, Haoxian Tan, Yujie Zhong, Yujiu Yang, Lin Ma, (参考訳) 近年の進歩により、Large Language Models for Vision (vLLMs) が強化され、バウンディングボックスやマスクなど、知覚結果の詳細な生成が可能になった。 しかしながら、これらのvLLMのさらなる適用を制限する2つの制約がある。クエリ毎に複数のターゲットを処理できないことと、イメージ内のクエリオブジェクトの欠如を識別できないことだ。 本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。 その結果、複雑なクエリに対する一般的なシーケンス形式を定義した。 次に、トレーニングデータの要求を満たすために、現在のパイプラインにセマンティックセグメンテーションタスクを組み込む。 さらに,提案方式の直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。 複雑なクエリの処理における本モデルの有効性は、クローズセットとオープンセットのセマンティックセマンティックセグメンテーションデータセットにおける従来の手法と同等の結果によって検証される。 さらに、セグメンテーションの推論と参照において、モデルの顕著な機能を示す一連のvLLMよりも優れています。 コードをhttps://github.com/congvvc/LaSagnA.comでリリースします。

Recent advancements have empowered Large Language Models for Vision (vLLMs) to generate detailed perceptual outcomes, including bounding boxes and masks. Nonetheless, there are two constraints that restrict the further application of these vLLMs: the incapability of handling multiple targets per query and the failure to identify the absence of query objects in the image. In this study, we acknowledge that the main cause of these problems is the insufficient complexity of training queries. Consequently, we define the general sequence format for complex queries. Then we incorporate a semantic segmentation task in the current pipeline to fulfill the requirements of training data. Furthermore, we present three novel strategies to effectively handle the challenges arising from the direct integration of the proposed format. The effectiveness of our model in processing complex queries is validated by the comparable results with conventional methods on both close-set and open-set semantic segmentation datasets. Additionally, we outperform a series of vLLMs in reasoning and referring segmentation, showcasing our model's remarkable capabilities. We release the code at https://github.com/congvvc/LaSagnA.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# Proxy Model-based Sequence長予測を用いた対話型LLMの高速化

Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction ( http://arxiv.org/abs/2404.08509v1 )

ライセンス: Link先を確認
Haoran Qiu, Weichao Mao, Archit Patke, Shengkun Cui, Saurabh Jha, Chen Wang, Hubertus Franke, Zbigniew T. Kalbarczyk, Tamer Başar, Ravishankar K. Iyer, (参考訳) 大規模言語モデル(LLM)は、多くのドメインにわたる対話型AIアプリケーションの新しい波を駆動している。 しかし、生成モデルの自己回帰性から生じる予測不可能な実行時間のため、LLM推論要求を効率的に行うことは困難である。 既存のLLMサービスシステムは、ヘッド・オブ・ラインブロッキングの問題に悩まされ、ファースト・カム・ファースト・サービス(FCFS)スケジューリングを利用する。 LLMの非決定論的性質に対処し、効率的なLLM提供を可能にするために、光プロキシモデルを用いてLLM出力シーケンス長を予測する投機的ショートストジョブファースト(SSJF)スケジューラを提案する。 オープンソースのSSJF実装では、メモリ管理やバッチ戦略の変更は必要ありません。 実世界のデータセットとプロダクションワークロードトレースの評価によると、SSJFは平均的なジョブ完了時間を30.5-39.6%削減し、バッチ処理、動的バッチ処理、連続バッチ設定を伴わないFCFSスケジューラに比べてスループットを2.2-3.6倍に向上している。

Large language models (LLMs) have been driving a new wave of interactive AI applications across numerous domains. However, efficiently serving LLM inference requests is challenging due to their unpredictable execution times originating from the autoregressive nature of generative models. Existing LLM serving systems exploit first-come-first-serve (FCFS) scheduling, suffering from head-of-line blocking issues. To address the non-deterministic nature of LLMs and enable efficient interactive LLM serving, we present a speculative shortest-job-first (SSJF) scheduler that uses a light proxy model to predict LLM output sequence lengths. Our open-source SSJF implementation does not require changes to memory management or batching strategies. Evaluations on real-world datasets and production workload traces show that SSJF reduces average job completion times by 30.5-39.6% and increases throughput by 2.2-3.6x compared to FCFS schedulers, across no batching, dynamic batching, and continuous batching settings.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# クロスドメイン知識発見のためのマルチAIエージェントの活用

Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery ( http://arxiv.org/abs/2404.08511v1 )

ライセンス: Link先を確認
Shiva Aryal, Tuyen Do, Bisesh Heyojoo, Sandeep Chataut, Bichar Dip Shrestha Gurung, Venkataramana Gadhamshetty, Etienne Gnimpieba, (参考訳) 人工知能の急速に発展する分野では、様々な領域にまたがる知識の活用と統合が最大の課題と機会である。 本研究では,異なる知識領域を専門とするマルチAIエージェントの展開を通じて,ドメイン間知識発見のための新たなアプローチを提案する。 これらのAIエージェントは、ドメイン固有の専門家として機能するように設計されており、単一のドメインの専門知識の限界を超越する包括的な洞察を合成し提供するために統合されたフレームワークで協力する。 これらのエージェント間のシームレスな相互作用を促進することで,各エージェントの独特な強みと視点を活かし,知識発見と意思決定のプロセスを強化することを目的としている。 本稿では,各種マルチエージェントワークフローシナリオの比較分析を行い,その性能を効率,精度,知識統合の幅の観点から評価する。 複雑な学際的な問合せを含む一連の実験を通じて,知識ギャップの特定とブリッジングにおいて,ドメイン固有のマルチAIエージェントシステムが優れていることを示す。 この研究は、イノベーションの推進におけるコラボレーティブAIの重要性を浮き彫りにするだけでなく、AI駆動の学際的な研究と応用における将来の進歩のステージも立てている。 提案手法は小さなパイロットデータに基づいて評価され,エージェントをカスタムトレーニングするデータの量を増やすと,よりスムーズな傾向が期待される。

In the rapidly evolving field of artificial intelligence, the ability to harness and integrate knowledge across various domains stands as a paramount challenge and opportunity. This study introduces a novel approach to cross-domain knowledge discovery through the deployment of multi-AI agents, each specialized in distinct knowledge domains. These AI agents, designed to function as domain-specific experts, collaborate in a unified framework to synthesize and provide comprehensive insights that transcend the limitations of single-domain expertise. By facilitating seamless interaction among these agents, our platform aims to leverage the unique strengths and perspectives of each, thereby enhancing the process of knowledge discovery and decision-making. We present a comparative analysis of the different multi-agent workflow scenarios evaluating their performance in terms of efficiency, accuracy, and the breadth of knowledge integration. Through a series of experiments involving complex, interdisciplinary queries, our findings demonstrate the superior capability of domain specific multi-AI agent system in identifying and bridging knowledge gaps. This research not only underscores the significance of collaborative AI in driving innovation but also sets the stage for future advancements in AI-driven, cross-disciplinary research and application. Our methods were evaluated on a small pilot data and it showed a trend we expected, if we increase the amount of data we custom train the agents, the trend is expected to be more smooth.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# ブースティングによる対人模倣学習

Adversarial Imitation Learning via Boosting ( http://arxiv.org/abs/2404.08513v1 )

ライセンス: Link先を確認
Jonathan D. Chang, Dhruv Sreenivas, Yingbing Huang, Kianté Brantley, Wen Sun, (参考訳) AIL(Adversarial mimicion Learning)は、様々な模倣学習(IL)アプリケーションにまたがる支配的なフレームワークとして注目されており、より高次元の観察にサンプル効率とスケーラビリティを向上させるために、非政治的な学習アルゴリズムの有効性を実証している(Kostrikov et al , 2019)。 DACの実証的な成功にもかかわらず、元々のAILの目的は政治上であり、DACの非政治トレーニングのアドホックな適用は、模倣の成功を保証するものではない(Kostrikov et al , 2019; 2020)。 ValueDICE (Kostrikov et al , 2020) のようなフォローアップ作業は、完全な非政治的 AIL 目標を導出することでこの問題に対処する。 本研究では, ブースティングの枠組みを用いて, 斬新で原理化された AIL アルゴリズムを開発する。 ブースティングと同様に、我々の新しいアルゴリズムであるAILBoostは、適切に重み付けされた弱い学習者のアンサンブル(すなわちポリシー)を維持し、アンサンブルの分布とエキスパートポリシーの最大の相違を目撃する識別器を訓練する。 我々は、アンサンブルによって引き起こされる状態-作用分布を表現するために重み付けされたリプレイバッファを保持しており、これまで収集された全データを用いて差別者を訓練することができる。 重み付きリプレイバッファでは、古いポリシーからのデータの寄与を、ブースティングフレームワークに基づいて計算された重みで適切に割引する。 実験により,DeepMind Control Suiteから,コントローラの状態ベースと画素ベースの環境の両方でアルゴリズムを評価した。 AILBoostは、両方の種類の環境でDACより優れており、オフポリシートレーニングのためにリプレイバッファデータを適切に重み付けする利点を示している。 国家ベースの環境では、DACはValueDICEとIQ-Learn(Gary et al , 2021)を上回り、1つの専門家の軌道で競争力を発揮する。

Adversarial imitation learning (AIL) has stood out as a dominant framework across various imitation learning (IL) applications, with Discriminator Actor Critic (DAC) (Kostrikov et al.,, 2019) demonstrating the effectiveness of off-policy learning algorithms in improving sample efficiency and scalability to higher-dimensional observations. Despite DAC's empirical success, the original AIL objective is on-policy and DAC's ad-hoc application of off-policy training does not guarantee successful imitation (Kostrikov et al., 2019; 2020). Follow-up work such as ValueDICE (Kostrikov et al., 2020) tackles this issue by deriving a fully off-policy AIL objective. Instead in this work, we develop a novel and principled AIL algorithm via the framework of boosting. Like boosting, our new algorithm, AILBoost, maintains an ensemble of properly weighted weak learners (i.e., policies) and trains a discriminator that witnesses the maximum discrepancy between the distributions of the ensemble and the expert policy. We maintain a weighted replay buffer to represent the state-action distribution induced by the ensemble, allowing us to train discriminators using the entire data collected so far. In the weighted replay buffer, the contribution of the data from older policies are properly discounted with the weight computed based on the boosting framework. Empirically, we evaluate our algorithm on both controller state-based and pixel-based environments from the DeepMind Control Suite. AILBoost outperforms DAC on both types of environments, demonstrating the benefit of properly weighting replay buffer data for off-policy training. On state-based environments, DAC outperforms ValueDICE and IQ-Learn (Gary et al., 2021), achieving competitive performance with as little as one expert trajectory.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# NIR-Assisted Image Denoising: A selective Fusion Approach and a Real-World Benchmark datase

NIR-Assisted Image Denoising: A Selective Fusion Approach and A Real-World Benchmark Datase ( http://arxiv.org/abs/2404.08514v1 )

ライセンス: Link先を確認
Rongjian Xu, Zhilu Zhang, Renlong Wu, Wangmeng Zuo, (参考訳) 画像復調の著しい進歩にもかかわらず、特に極低照度環境では、ノイズを取り除きながら微細な細部を復元することは依然として困難である。 近赤外(NIR)画像を活用して視認可能なRGB画像の復調を支援することは、この問題に対処する可能性を示し、有望な技術となった。 それでも、NIR-RGB画像と実世界のペア化データセットの不足との間のコンテンツ不整合のため、既存の作業では、実世界の画像復調に有効なNIR情報の活用に苦慮している。 この問題を軽減するために,提案するSFM (Selective Fusion Module) は,NIR-RGB の深い機能を統合するために,先進的なデノナイズネットワークにプラグイン・アンド・プレイできる。 具体的には, NIR と RGB のグローバル・局所変調を逐次実行し, 2 つの変調特徴を統合する。 さらに,様々なシナリオと様々なノイズレベルをカバーする実世界のNIR支援画像デノイング(Real-NAID)データセットを提案する。 人工と実世界の両方のデータセットに対する大規模な実験により、提案手法は最先端のデータセットよりも優れた結果が得られることを示した。 データセット、コード、事前トレーニングされたモデルは、https://github.com/ronjonxu/NAIDで公開される。

Despite the significant progress in image denoising, it is still challenging to restore fine-scale details while removing noise, especially in extremely low-light environments. Leveraging near-infrared (NIR) images to assist visible RGB image denoising shows the potential to address this issue, becoming a promising technology. Nonetheless, existing works still struggle with taking advantage of NIR information effectively for real-world image denoising, due to the content inconsistency between NIR-RGB images and the scarcity of real-world paired datasets. To alleviate the problem, we propose an efficient Selective Fusion Module (SFM), which can be plug-and-played into the advanced denoising networks to merge the deep NIR-RGB features. Specifically, we sequentially perform the global and local modulation for NIR and RGB features, and then integrate the two modulated features. Furthermore, we present a Real-world NIR-Assisted Image Denoising (Real-NAID) dataset, which covers diverse scenarios as well as various noise levels. Extensive experiments on both synthetic and our real-world datasets demonstrate that the proposed method achieves better results than state-of-the-art ones. The dataset, codes, and pre-trained models will be publicly available at https://github.com/ronjonxu/NAID.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# ChatGPTと汎用AIは、絵の中の果物を驚くほどよく数える

ChatGPT and general-purpose AI count fruits in pictures surprisingly well ( http://arxiv.org/abs/2404.08515v1 )

ライセンス: Link先を確認
Konlavach Mengsuwan, Juan Camilo Rivera Palacio, Masahiro Ryo, (参考訳) オブジェクトカウントは、農業を含む様々な分野のディープラーニングアプリケーションにおいて一般的なタスクである。 従来のディープラーニングアプローチでは大量のトレーニングデータが必要で、現実のアプリケーションではロジスティックな問題が多い。 この問題に対処するために,ChatGPT(GPT4V)と汎用AI(オブジェクトカウントのための基礎モデル,T-Rex)が,100枚の画像で果実(コーヒーチェリー)を数えるかを検討した。 数ショットの学習による基礎モデルは、訓練されたYOLOv8モデル(それぞれR2 = 0.923と0.900)より優れていた。 また、ChatGPTは興味深い可能性を示し、特に人間のフィードバックによる少数ショット学習(R2 = 0.360 と 0.460)が適用された。 さらに,実践的な問題として実装に要する時間についても検討した。 基礎モデルとChatGPTはYOLOv8モデル(0.83 hr, 1.75 hr, 161 hr)よりもはるかに短かった。 ドメイン固有の学習がほとんどない基礎モデルは、従来のアプローチに比べて、時間と労力を大幅に節約することができ、ChatGPTは比較的優れたパフォーマンスを示すことができます。 どちらのアプローチもコーディングスキルは必要とせず、AI教育と普及を促進することができる。

Object counting is a popular task in deep learning applications in various domains, including agriculture. A conventional deep learning approach requires a large amount of training data, often a logistic problem in a real-world application. To address this issue, we examined how well ChatGPT (GPT4V) and a general-purpose AI (foundation model for object counting, T-Rex) can count the number of fruit bodies (coffee cherries) in 100 images. The foundation model with few-shot learning outperformed the trained YOLOv8 model (R2 = 0.923 and 0.900, respectively). ChatGPT also showed some interesting potential, especially when few-shot learning with human feedback was applied (R2 = 0.360 and 0.460, respectively). Moreover, we examined the time required for implementation as a practical question. Obtaining the results with the foundation model and ChatGPT were much shorter than the YOLOv8 model (0.83 hrs, 1.75 hrs, and 161 hrs). We interpret these results as two surprises for deep learning users in applied domains: a foundation model with few-shot domain-specific learning can drastically save time and effort compared to the conventional approach, and ChatGPT can reveal a relatively good performance. Both approaches do not need coding skills, which can foster AI education and dissemination.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# LLMのオンライン安全分析--ベンチマーク,アセスメント,パスフォワード

Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward ( http://arxiv.org/abs/2404.08517v1 )

ライセンス: Link先を確認
Xuan Xie, Jiayang Song, Zhehua Zhou, Yuheng Huang, Da Song, Lei Ma, (参考訳) LLM(Large Language Models)は、様々な分野に広く応用されているが、その限定的な解釈可能性には、複数の側面から安全な操作(例えば、真理性、堅牢性、公正性)に関する懸念が生じる。 近年,LLMの品質保証手法の開発が始まっており,オフライン検出法や不確実性推定法などの手法が導入されている。 しかし、これらの手法は主にポストジェネレーション分析に重点を置いており、生成段階におけるLCMのオンライン安全分析は未調査領域として残されている。 このギャップを埋めるため,既存のオンライン安全分析手法がLCMに与える影響を網羅的に評価する。 まず、初期生成プロセスにおいて、安全でない出力を検出する可能性を検証するパイロット研究から始める。 これに続いて、我々は、LLMのオンライン安全分析の初めての公開ベンチマークを確立し、幅広い手法、モデル、タスク、データセット、評価指標を含む。 本ベンチマークを用いて,オープンソースのLCMとクローズドソースの両方で,最先端のオンライン安全分析手法の性能を広範囲に解析する。 この分析は、個々のメソッドの長所と短所を明らかにし、特定のアプリケーションシナリオとタスク要求に基づいて、最も適切なメソッドを選択するための貴重な洞察を提供する。 さらに,LLMのオンライン安全分析の有効性を高めるために,複数手法を組み合わせて総合的安全結論を導出するハイブリダイゼーション手法の可能性についても検討した。 本研究は,LLMの革新的かつ信頼性の高い品質保証手法の開発に向けた有望な方向性を示すものである。

While Large Language Models (LLMs) have seen widespread applications across numerous fields, their limited interpretability poses concerns regarding their safe operations from multiple aspects, e.g., truthfulness, robustness, and fairness. Recent research has started developing quality assurance methods for LLMs, introducing techniques such as offline detector-based or uncertainty estimation methods. However, these approaches predominantly concentrate on post-generation analysis, leaving the online safety analysis for LLMs during the generation phase an unexplored area. To bridge this gap, we conduct in this work a comprehensive evaluation of the effectiveness of existing online safety analysis methods on LLMs. We begin with a pilot study that validates the feasibility of detecting unsafe outputs in the early generation process. Following this, we establish the first publicly available benchmark of online safety analysis for LLMs, including a broad spectrum of methods, models, tasks, datasets, and evaluation metrics. Utilizing this benchmark, we extensively analyze the performance of state-of-the-art online safety analysis methods on both open-source and closed-source LLMs. This analysis reveals the strengths and weaknesses of individual methods and offers valuable insights into selecting the most appropriate method based on specific application scenarios and task requirements. Furthermore, we also explore the potential of using hybridization methods, i.e., combining multiple methods to derive a collective safety conclusion, to enhance the efficacy of online safety analysis for LLMs. Our findings indicate a promising direction for the development of innovative and trustworthy quality assurance methodologies for LLMs, facilitating their reliable deployments across diverse domains.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# ヨーロッパにおける非差別法--原案--非法律家への欧州非差別法の導入

Non-discrimination law in Europe: a primer. Introducing European non-discrimination law to non-lawyers ( http://arxiv.org/abs/2404.08519v1 )

ライセンス: Link先を確認
Frederik Zuiderveen Borgesius, Nina Baranowska, Philipp Hacker, Alessandro Fabris, (参考訳) 本報告では、ヨーロッパでの非差別法について紹介する。 欧州における非差別法の主な特徴は何か、そして、異なる法令は互いにどのように関連しているのか? 私たちの主なターゲットは、コンピュータ科学者と、ヨーロッパでの非差別法導入に関心を持つ人工知能(AI)ユーザです。 特に、ヨーロッパの非差別法は、米国など他の国の非差別法と大きく異なる。 我々は、非法律家や非欧州の弁護士が、その内容や課題を容易に把握できるように、この法律を記述することを目指している。 この論文は、人間による非差別の権利が、ある程度は、個人を企業などの民間の俳優から保護していることを示している。 我々は、多くのEU指令に含まれるEU全体の非差別規則を導入し、また、直接差別と間接差別の違いを説明します。 企業やそのAIシステムが事故によって差別されたとしても、組織は間接的な差別に対して罰金を科すことができる。 最後の節では、バイアス関連法とGDPR、EU AI Act、および関連する法令の事例を含むよう、地平を広げている。 最後に、ヨーロッパでの非差別法についてもっと学ぶ傾向にある人々に対して、読書のヒントを与えます。

This brief paper provides an introduction to non-discrimination law in Europe. It answers the questions: What are the key characteristics of non-discrimination law in Europe, and how do the different statutes relate to one another? Our main target group is computer scientists and users of artificial intelligence (AI) interested in an introduction to non-discrimination law in Europe. Notably, non-discrimination law in Europe differs significantly from non-discrimination law in other countries, such as the US. We aim to describe the law in such a way that non-lawyers and non-European lawyers can easily grasp its contents and challenges. The paper shows that the human right to non-discrimination, to some extent, protects individuals against private actors, such as companies. We introduce the EU-wide non-discrimination rules which are included in a number of EU directives, and also explain the difference between direct and indirect discrimination. Significantly, an organization can be fined for indirect discrimination even if the company, or its AI system, discriminated by accident. The last section broadens the horizon to include bias-relevant law and cases from the GDPR, the EU AI Act, and related statutes. Finally, we give reading tips for those inclined to learn more about non-discrimination law in Europe.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# Fuxi-DA:衛星観測を同化するための一般ディープラーニングデータ同化フレームワーク

Fuxi-DA: A Generalized Deep Learning Data Assimilation Framework for Assimilating Satellite Observations ( http://arxiv.org/abs/2404.08522v1 )

ライセンス: Link先を確認
Xiaoze Xu, Xiuyu Sun, Wei Han, Xiaohui Zhong, Lei Chen, Hao Li, (参考訳) データ同化(DA)は、現代の数値気象予測(NWP)システムにおいて欠かせない要素であり、予測性能に大きな影響を及ぼす分析を生成する上で重要な役割を果たしている。 それにもかかわらず、効率的なDAシステムの開発は、特に運用環境における限られた時間窓内で、背景データと大量のマルチソース観測データとの間の複雑な関係を確立する上で、大きな課題を生んでいる。 これらの課題に対処するため、研究者は、近似モデリングとスーパーコンピュータクラスタのパワーを活用して、各観測タイプの複雑な前処理方法を設計した。 深層学習(DL)モデルの出現はゲームチェンジャーであり、統合マルチモーダルモデリング、強化された非線形表現機能、優れた並列化を提供する。 これらの利点は、DLモデルを様々な気象モデリング分野に統合する努力を加速させた。 注目すべきことに、DLモデルは、世界中で運用されているNWPモデルの予測精度と一致し、さらに上回っている。 この成功は、天気予報モデルに適したDLベースのDAフレームワークの探索を動機付けている。 本研究では,衛星観測をシミュレートする汎用的なDLベースDAフレームワークであるFuxiDAを紹介する。 Fengyun-4Bに搭載されたAdvanced Geosynchronous Radiation Imager(AGRI)のデータを同調することにより、FuXi-DAは解析誤差を一貫して軽減し、予測性能を大幅に改善する。 さらに、一連の単一観測実験を通じて、Fuxi-DAは、その一貫性と信頼性を実証し、確立された大気物理学に対して検証された。

Data assimilation (DA), as an indispensable component within contemporary Numerical Weather Prediction (NWP) systems, plays a crucial role in generating the analysis that significantly impacts forecast performance. Nevertheless, the development of an efficient DA system poses significant challenges, particularly in establishing intricate relationships between the background data and the vast amount of multi-source observation data within limited time windows in operational settings. To address these challenges, researchers design complex pre-processing methods for each observation type, leveraging approximate modeling and the power of super-computing clusters to expedite solutions. The emergence of deep learning (DL) models has been a game-changer, offering unified multi-modal modeling, enhanced nonlinear representation capabilities, and superior parallelization. These advantages have spurred efforts to integrate DL models into various domains of weather modeling. Remarkably, DL models have shown promise in matching, even surpassing, the forecast accuracy of leading operational NWP models worldwide. This success motivates the exploration of DL-based DA frameworks tailored for weather forecasting models. In this study, we introduces FuxiDA, a generalized DL-based DA framework for assimilating satellite observations. By assimilating data from Advanced Geosynchronous Radiation Imager (AGRI) aboard Fengyun-4B, FuXi-DA consistently mitigates analysis errors and significantly improves forecast performance. Furthermore, through a series of single-observation experiments, Fuxi-DA has been validated against established atmospheric physics, demonstrating its consistency and reliability.
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# 森林火災防止の強化 : 効果的な防火設備のための深層強化学習

Advancing Forest Fire Prevention: Deep Reinforcement Learning for Effective Firebreak Placement ( http://arxiv.org/abs/2404.08523v1 )

ライセンス: Link先を確認
Lucas Murray, Tatiana Castillo, Jaime Carrasco, Andrés Weintraub, Richard Weber, Isaac Martín de Diego, José Ramón González, Jordi García-Gonzalo, (参考訳) 過去数十年間、気候変動による大規模な山火事の頻度と強度の増加は、大きな自然の脅威として現れてきた。 このような災害に耐えられるレジリエントな景観を設計する必要性が最重要視され、先進的な意思決定支援ツールの開発が求められている。 Mixed Integer Programming、Stochastic Optimization、Network Theoryなどの既存の方法論は、有効であることが証明されているが、計算要求によって妨げられ、適用性が制限されている。 この課題に対して,我々は,現場における火災発生の複雑な問題に対処するために,人工知能技術,特に深層強化学習(Deep Reinforcement Learning)を提案する。 価値関数に基づくアプローチとして、Deep Q-Learning、Double Q-Learning、Dueling Double Q-Learningがある。 本研究では,Cell2ファイアスプレッドシミュレータと畳み込みニューラルネットワークを組み合わせることで,森林環境内の火災発生箇所を学習し,良好な結果を得られる計算エージェントの実装に成功した。 さらに、事前学習ループを組み込み、当初はエージェントにヒューリスティックなアルゴリズムを模倣するように教え、これらのソリューションの性能を常に上回っていることを観察する。 本研究は,特に火災防止における深層強化学習の可能性を明らかにするものである。 提案手法は,40×40セル程度の問題事例の収束性を示し,この重要な問題に強化学習を適用する上で重要なマイルストーンとなる。 我々の知る限りでは、この研究は前述の問題に対処するために強化学習を用いた先駆的な取り組みであり、火災防止と景観管理において有望な視点を提供する。

Over the past decades, the increase in both frequency and intensity of large-scale wildfires due to climate change has emerged as a significant natural threat. The pressing need to design resilient landscapes capable of withstanding such disasters has become paramount, requiring the development of advanced decision-support tools. Existing methodologies, including Mixed Integer Programming, Stochastic Optimization, and Network Theory, have proven effective but are hindered by computational demands, limiting their applicability. In response to this challenge, we propose using artificial intelligence techniques, specifically Deep Reinforcement Learning, to address the complex problem of firebreak placement in the landscape. We employ value-function based approaches like Deep Q-Learning, Double Deep Q-Learning, and Dueling Double Deep Q-Learning. Utilizing the Cell2Fire fire spread simulator combined with Convolutional Neural Networks, we have successfully implemented a computational agent capable of learning firebreak locations within a forest environment, achieving good results. Furthermore, we incorporate a pre-training loop, initially teaching our agent to mimic a heuristic-based algorithm and observe that it consistently exceeds the performance of these solutions. Our findings underscore the immense potential of Deep Reinforcement Learning for operational research challenges, especially in fire prevention. Our approach demonstrates convergence with highly favorable results in problem instances as large as 40 x 40 cells, marking a significant milestone in applying Reinforcement Learning to this critical issue. To the best of our knowledge, this study represents a pioneering effort in using Reinforcement Learning to address the aforementioned problem, offering promising perspectives in fire prevention and landscape management
翻訳日:2024-04-15 14:47:19 公開日:2024-04-12
# 関係データベーススキーマの進化のための自動レコメンデーション

Automatic Recommendations for Evolving Relational Databases Schema ( http://arxiv.org/abs/2404.08525v1 )

ライセンス: Link先を確認
Anne Etien, Nicolas Anquetil, (参考訳) 関係データベースは多くの情報システムにおいて中心的な役割を果たす。 スキーマには構造的(例えばテーブルや列)と行動的(例えばストアドプロシージャやビュー)エンティティ記述が含まれている。 そして、‘通常の’ソフトウェアと同じように、法律の変更、機能、あるいは機能コンテキストを提供し、データベースとスキーマの進化を強制します。 しかし、いくつかのシナリオでは、スキーマの望まれる進化を正確な操作列に分解するのは容易ではない。 データベーススキーマの変更は、依存するエンティティを手動でドロップして再生成することや、ストアドプロシージャ内の依存関係を手動で検索することを強制する。 演算子の適用順序さえも困難であり、重大な結果をもたらす可能性があるため、これは重要である。 このメタモデルは、計画されている変更の影響を計算し、RDBMSの制約が常に検証されることを保証する追加の変更を推奨します。 次に、リコメンデーションを有効なSQLパッチにコンパイルし、実際にデータベーススキーマを整然と更新する。 データベースの詳細な知識がなければ、専門家のデータベースアーキテクトよりも75%の時間で同じ変更を実行できる、という過去の進化を再現しました。 私たちはまた、他の計画された変更に対するアプローチの使用を例示します。

Relational databases play a central role in many information systems. Their schema contains structural (e.g. tables and columns) and behavioral (e.g. stored procedures or views) entity descriptions. Then, just like for ``normal'' software, changes in legislation, offered functionalities, or functional contexts, impose to evolve databases and their schemas. But in some scenarios, it is not so easy to deconstruct a wished evolution of the schema into a precise sequence of operations. Changing a database schema may impose manually dropping and recreating dependent entities, or manually searching for dependencies in stored procedures. This is important because getting even the order of application of the operators can be difficult and have profound consequences. This meta-model allows us to compute the impact of planned changes and recommend additional changes that will ensure that the RDBMS constraints are always verified. The recommendations can then be compiled into a valid SQL patch actually updating the database schema in an orderly way. We replicated a past evolution showing that, without detailed knowledge of the database, we could perform the same change in 75\% less time than the expert database architect. We also exemplify the use of our approach on other planned changes.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 眼球運動における自己監督学習の枠組みとしてのマスケ画像モデリング

Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements ( http://arxiv.org/abs/2404.08526v1 )

ライセンス: Link先を確認
Robin Weiler, Matthias Brucklacher, Cyriel M. A. Pennartz, Sander M. Bohté, (参考訳) 環境を理解するためには、知的システムは複雑な感覚入力を、オブジェクトカテゴリのようなタスク関連情報に還元される構造化コードに変換する必要がある。 生物学的エージェントは、おそらくセルフ・アンド・ローブブレイク・スーパー・アンド・ローブブレイク・ヴィジュアルド・ラーニング(英語版)を通じて、ほぼ自律的にこれを達成している。 基礎となるメカニズムをモデル化する以前の試みは、主に自然界で差別的だったが、脳が世界の生成モデルを使用しているという証拠は豊富である。 本稿では,眼球運動と霊長類視覚の焦点を合わせることで,視覚情報を予測し,明らかにする生成的,自己指導的なタスクを構成することを提案する。 我々は,深層表現学習における一般的なアプローチであるマスク画像モデリング(MIM)の枠組みから,プリンシプルモデルを構築する。 そこで我々は,MIMのコアコンポーネントであるマスキング技術やデータ拡張が,カテゴリ固有の表現の形成にどのように影響するかを分析する。 これにより、MIMの背後にある原則をよりよく理解するだけでなく、生物学的知覚の焦点を絞った性質に合わせてMIMを再組み立てすることが可能になります。 理論的な角度から、MIMは、明示的な制御なしに霊長類の視覚的表現を構造化するために提案された性質である潜在空間のニューロンをアンタングルする。 従来の分散学習の成果と合わせて,MIMと潜時正規化アプローチとの興味深い関連性を強調した。 ソースコードはhttps://github.com/RobinWeiler/FocusMIMで入手できる。

To make sense of their surroundings, intelligent systems must transform complex sensory inputs to structured codes that are reduced to task-relevant information such as object category. Biological agents achieve this in a largely autonomous manner, presumably via self-\allowbreak super-\allowbreak vised learning. Whereas previous attempts to model the underlying mechanisms were largely discriminative in nature, there is ample evidence that the brain employs a generative model of the world. Here, we propose that eye movements, in combination with the focused nature of primate vision, constitute a generative, self-supervised task of predicting and revealing visual information. We construct a proof-of-principle model starting from the framework of masked image modeling (MIM), a common approach in deep representation learning. To do so, we analyze how core components of MIM such as masking technique and data augmentation influence the formation of category-specific representations. This allows us not only to better understand the principles behind MIM, but to then reassemble a MIM more in line with the focused nature of biological perception. From a theoretical angle, we find that MIM disentangles neurons in latent space, a property that has been suggested to structure visual representations in primates, without explicit regulation. Together with previous findings of invariance learning, this highlights an interesting connection of MIM to latent regularization approaches for self-supervised learning. The source code is available under https://github.com/RobinWeiler/FocusMIM
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 弱教師付きビデオ異常検出のための正規化誘導型テキストプロンプト

Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2404.08531v1 )

ライセンス: Link先を確認
Zhiwei Yang, Jing Liu, Peng Wu, (参考訳) 弱教師付きビデオ異常検出(WSVAD)は難しい課題である。 弱いラベルに基づいてきめ細かな擬似ラベルを生成し、次に分類器を自己学習することは、現在有望な解決策である。 しかし、既存の手法ではRGBの視覚的モダリティしか使用せず、カテゴリテキスト情報の活用は無視されているため、より正確な擬似ラベルの生成が制限され、自己学習の性能に影響を及ぼす。 本稿では、イベント記述に基づく手動ラベリングプロセスに触発され、WSVADのためのテキスト・プロンプト(TPWNG)に基づく新しい擬似ラベル生成と自己学習フレームワークを提案する。 我々の考えは、ビデオイベント記述テキストと対応するビデオフレームを整列させて擬似ラベルを生成するために、コントラッシブ言語画像事前学習(CLIP)モデルのリッチ言語視覚知識を変換することである。 具体的には、まず2つのランク付け損失と分布不整合損失を設計し、ドメイン適応のためのCLIPを微調整する。 さらに、ビデオイベント記述テキストとビデオフレームのマッチング精度をさらに向上させるために、正規度視覚的プロンプトを補助する学習可能なテキストプロンプト機構を提案する。 そこで我々は,信頼度に基づく擬似ラベル生成モジュールを設計し,信頼度の高いフレームレベルの擬似ラベルを推論する。 最後に,ビデオイベントの時間的依存関係をより柔軟かつ正確に学習するための時間的文脈自己適応学習モジュールを提案する。 大規模実験により,UCF-CrimeとXD-Violeの2つのベンチマークデータセット上での最先端性能が得られた。

Weakly supervised video anomaly detection (WSVAD) is a challenging task. Generating fine-grained pseudo-labels based on weak-label and then self-training a classifier is currently a promising solution. However, since the existing methods use only RGB visual modality and the utilization of category text information is neglected, thus limiting the generation of more accurate pseudo-labels and affecting the performance of self-training. Inspired by the manual labeling process based on the event description, in this paper, we propose a novel pseudo-label generation and self-training framework based on Text Prompt with Normality Guidance (TPWNG) for WSVAD. Our idea is to transfer the rich language-visual knowledge of the contrastive language-image pre-training (CLIP) model for aligning the video event description text and corresponding video frames to generate pseudo-labels. Specifically, We first fine-tune the CLIP for domain adaptation by designing two ranking losses and a distributional inconsistency loss. Further, we propose a learnable text prompt mechanism with the assist of a normality visual prompt to further improve the matching accuracy of video event description text and video frames. Then, we design a pseudo-label generation module based on the normality guidance to infer reliable frame-level pseudo-labels. Finally, we introduce a temporal context self-adaptive learning module to learn the temporal dependencies of different video events more flexibly and accurately. Extensive experiments show that our method achieves state-of-the-art performance on two benchmark datasets, UCF-Crime and XD-Viole
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# マルチモーダル検索とランク付けのための一般化されたコントラスト学習

Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking ( http://arxiv.org/abs/2404.08535v1 )

ライセンス: Link先を確認
Tianyu Zhu, Myong Chol Jung, Jesse Clark, (参考訳) コントラスト学習は、手動アノテーションの最小限の要件のため、検索タスクに広く採用されている。 しかし、一般的なコントラストフレームワークは、二項関係から学習し、直接のきめ細かいランキングを組み込むのに効果がない。 本稿では,各問合せ文書の関連点を詳述した大規模データセットをキュレートし,今後の研究と評価を容易にする。 次に,2次関係点を超える詳細なランク付けから学習するための多モード検索・ランク付けのための一般化コントラスト学習を提案する。 以上の結果から,GCLはドメイン内NDCG@10が94.5%,コールドスタート評価が26.3~48.8%,CLIPベースラインと接地真実ランキングが94.5%増加した。

Contrastive learning has gained widespread adoption for retrieval tasks due to its minimal requirement for manual annotations. However, popular contrastive frameworks typically learn from binary relevance, making them ineffective at incorporating direct fine-grained rankings. In this paper, we curate a large-scale dataset featuring detailed relevance scores for each query-document pair to facilitate future research and evaluation. Subsequently, we propose Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking (GCL), which is designed to learn from fine-grained rankings beyond binary relevance scores. Our results show that GCL achieves a 94.5% increase in NDCG@10 for in-domain and 26.3 to 48.8% increases for cold-start evaluations, all relative to the CLIP baseline and involving ground truth rankings.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# VertAttack: Text Classifiersの水平ビジョンを活用する

VertAttack: Taking advantage of Text Classifiers' horizontal vision ( http://arxiv.org/abs/2404.08538v1 )

ライセンス: Link先を確認
Jonathan Rusert, (参考訳) テキスト分類システムは、長年にわたって継続的に性能を改善してきた。 しかし、現在のほとんどのSOTA分類器も同様の欠点があり、テキストを水平に処理する。 垂直に書かれた単語は分類器によって認識されない。 対照的に、人間は水平と垂直の両方に書かれた単語を容易に認識し、読み取ることができる。 したがって、人間の敵は問題のある言葉を垂直に書くことができ、その意味はいまだに他の人間に残されることになる。 私たちはそのような攻撃をシミュレートします。 VertAttackは、分類器が依存している単語を特定し、それらの単語を垂直に書き直す。 VertAttackは5つのデータセット上で4つの異なるトランスフォーマーモデルの精度を大幅に低下させることができる。 例えば、SST2データセットでは、VertAttackはRoBERTaの精度を94から13%に下げることができる。 さらに、VertAttackは単語を置き換えないので、簡単に保存できる。 我々はこれを人間による研究で検証し、クラウドワーカーはオリジナルのテキストの81%に比べて77%の混乱したテキストを正しくラベル付けできることがわかった。 VertAttackは、人間が将来分類を回避し、より堅牢なアルゴリズムに目を向ける方法を示していると信じています。

Text classification systems have continuously improved in performance over the years. However, nearly all current SOTA classifiers have a similar shortcoming, they process text in a horizontal manner. Vertically written words will not be recognized by a classifier. In contrast, humans are easily able to recognize and read words written both horizontally and vertically. Hence, a human adversary could write problematic words vertically and the meaning would still be preserved to other humans. We simulate such an attack, VertAttack. VertAttack identifies which words a classifier is reliant on and then rewrites those words vertically. We find that VertAttack is able to greatly drop the accuracy of 4 different transformer models on 5 datasets. For example, on the SST2 dataset, VertAttack is able to drop RoBERTa's accuracy from 94 to 13%. Furthermore, since VertAttack does not replace the word, meaning is easily preserved. We verify this via a human study and find that crowdworkers are able to correctly label 77% perturbed texts perturbed, compared to 81% of the original texts. We believe VertAttack offers a look into how humans might circumvent classifiers in the future and thus inspire a look into more robust algorithms.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 低レベル視覚課題に対する言語指導のロバスト性について:深さ推定からの検討

On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation ( http://arxiv.org/abs/2404.08540v1 )

ライセンス: Link先を確認
Agneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang, (参考訳) 近年のモノクル深度推定の進歩は、自然言語を付加的なガイダンスとして組み込むことによってなされている。 印象的な結果をもたらすが、特に一般化と堅牢性の観点からの言語の影響は未解明のままである。 本稿では,この影響を定量化することで,このギャップに対処し,その効果を様々な設定で評価する方法を提案する。 対象中心の3次元空間的関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。 我々の重要な発見は、現在の言語誘導深度推定器は、シーンレベルの記述でのみ最適に動作し、低レベルの記述では反故意に悪くなることである。 追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。 最後に、将来の研究の基盤を提供するため、障害点を特定し、これらの欠点をよりよく理解するための洞察を提供する。 言語を用いた深度推定手法の増加に伴い,実環境における効果的な展開に注意を要する機会と落とし穴が浮き彫りになってきた。

Recent advances in monocular depth estimation have been made by incorporating natural language as additional guidance. Although yielding impressive results, the impact of the language prior, particularly in terms of generalization and robustness, remains unexplored. In this paper, we address this gap by quantifying the impact of this prior and introduce methods to benchmark its effectiveness across various settings. We generate "low-level" sentences that convey object-centric, three-dimensional spatial relationships, incorporate them as additional language priors and evaluate their downstream impact on depth estimation. Our key finding is that current language-guided depth estimators perform optimally only with scene-level descriptions and counter-intuitively fare worse with low level descriptions. Despite leveraging additional data, these methods are not robust to directed adversarial attacks and decline in performance with an increase in distribution shift. Finally, to provide a foundation for future research, we identify points of failures and offer insights to better understand these shortcomings. With an increasing number of methods using language for depth estimation, our findings highlight the opportunities and pitfalls that require careful consideration for effective deployment in real-world settings
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# メモリトレース: トランスフォーマーはマシンを学習しているのか?

Memory Traces: Are Transformers Tulving Machines? ( http://arxiv.org/abs/2404.08543v1 )

ライセンス: Link先を確認
Jean-Marie Chauvet, (参考訳) メモリトレース - 1975年にエンデル・タルヴィングとマイケル・J・ワトキンスによる先駆的な研究で測定されたイベントの認識とエンコーディングから生じるメモリシステムの変化。 これらの実験は、GAPS(General Abstract Processing System)からSPI(Serial-Parallel Independent)モデルまで、Tulvingのメモリモデルの成熟を知らせた。 LLMの現在の上位にオリジナルのTulving-Watkinsテストを再考させることは、基礎モデルがこのタイプの心理学モデルを完全にインスタンス化するかどうかを評価するのに役立つかもしれない。

Memory traces--changes in the memory system that result from the perception and encoding of an event--were measured in pioneering studies by Endel Tulving and Michael J. Watkins in 1975. These and further experiments informed the maturation of Tulving's memory model, from the GAPS (General Abstract Processing System} to the SPI (Serial-Parallel Independent) model. Having current top of the line LLMs revisit the original Tulving-Watkins tests may help in assessing whether foundation models completely instantiate or not this class of psychological models.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 考古学的航空写真と深層学習を用いたナミビアの10年にわたる環境変化の分析

Analyzing Decades-Long Environmental Changes in Namibia Using Archival Aerial Photography and Deep Learning ( http://arxiv.org/abs/2404.08544v1 )

ライセンス: Link先を確認
Girmaw Abebe Tadesse, Caleb Robinson, Gilles Quentin Hacheme, Akram Zaytar, Rahul Dodhia, Tsering Wangyal Shawa, Juan M. Lavista Ferres, Emmanuel H. Kreike, (参考訳) 本研究では,ナミビアの歴史的航空写真における物体検出について検討し,長期的環境変化を同定する。 具体的には,1943年から1972年にかけてのナミビアのオシカンゴ周辺で, キーオブジェクト - textit{Waterholes}, \textit{Omuti homesteads}, \textit{Big trees} - を, サブメーターグレースケールの空中画像を用いて識別することを目的としている。 本研究では,スパース・ハンドラベルの深部セマンティック・セマンティック・セグメンテーション・モデルを用いて,歴史的空中画像を分析するワークフローを提案する。 そこで本研究では, クラス重み付け, 擬似ラベル付け, 経験的p値フィルタリングなどの手法を用いて, 実データ中のオブジェクトの歪んだ表現とスパース表現のバランスをとる。 結果は、1943年と1972年の3つの画像に対して、平均$F_1=0.661$と$F_1=0.755$という異なるトレーニング戦略の利点を示している。 また,戦後の大規模経済,農業,人口動態,環境変化の地域的影響を反映して,1943年から1972年にかけてはオムティスの平均規模が減少する一方で,水孔とビッグツリーの平均サイズが増加したことも確認した。 この研究は、ナミビア(およびアフリカ)以外の長期的な環境変化を理解する上で、歴史的な航空写真が未完成の可能性があることも強調している。 過去に十分な衛星技術がなかったため、考古学的航空写真は数十年にわたる環境変化を解明するための優れた代替手段となる。

This study explores object detection in historical aerial photographs of Namibia to identify long-term environmental changes. Specifically, we aim to identify key objects -- \textit{Waterholes}, \textit{Omuti homesteads}, and \textit{Big trees} -- around Oshikango in Namibia using sub-meter gray-scale aerial imagery from 1943 and 1972. In this work, we propose a workflow for analyzing historical aerial imagery using a deep semantic segmentation model on sparse hand-labels. To this end, we employ a number of strategies including class-weighting, pseudo-labeling and empirical p-value-based filtering to balance skewed and sparse representations of objects in the ground truth data. Results demonstrate the benefits of these different training strategies resulting in an average $F_1=0.661$ and $F_1=0.755$ over the three objects of interest for the 1943 and 1972 imagery, respectively. We also identified that the average size of Waterhole and Big trees increased while the average size of Omutis decreased between 1943 and 1972 reflecting some of the local effects of the massive post-Second World War economic, agricultural, demographic, and environmental changes. This work also highlights the untapped potential of historical aerial photographs in understanding long-term environmental changes beyond Namibia (and Africa). With the lack of adequate satellite technology in the past, archival aerial photography offers a great alternative to uncover decades-long environmental changes.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 深部マルチスケールエンタングルメント再正規化アザッツを用いたクビットフラジアルエンタングルメント決定

Qubit frugal entanglement determination with the deep multi-scale entanglement renormalization ansatz ( http://arxiv.org/abs/2404.08548v1 )

ライセンス: Link先を確認
Kushagra Garg, Zeeshan Ahmed, Andreas Thomasen, (参考訳) 量子ハードウェア上でのDMERA(Deep Multi-scale entanglement renormalization ansatz)と、それを構成する量子ビットのサブセットの因果錐について検討する。 この因果錐は量子デバイス上の$O(M+\log{N})$物理量子ビットにまたがっており、$M$と$N$はそれぞれアンサッツのサブセットサイズと総数量子ビットである。 これにより、還元密度行列(RDM)の対角化により、$O(M+\log{N})$ qubits を用いて、$N$ qubit波動関数のフォン・ノイマン絡みエントロピーを決定することができる。 16-qubit DMERAをランダムに初期化し、密度行列シミュレーションを用いて$M$-qubitサブシステムの結果のRDMを対角化する。 実用的関心の例として、DMERAを用いて8スピン上の量子臨界長距離逆場イジングモデル(LRTIM)の変動基底状態を符号化する。 4量子ビットしか持たない別の実験でエンタングルメントエントロピーを得るため,ノイズを伴わない密度行列シミュレーションを行った。 最後に、IBM京都バックエンドのシミュレーション結果を再現する実験を繰り返す。

We study the deep multi-scale entanglement renormalization ansatz (DMERA) on quantum hardware and the causal cone of a subset of the qubits which make up the ansatz. This causal cone spans $O(M+\log{N})$ physical qubits on a quantum device, where $M$ and $N$ are the subset size and the total number qubits in the ansatz respectively. This allows for the determination of the von Neumann entanglement entropy of the $N$ qubit wave-function using $O(M+\log{N})$ qubits by diagonalization of the reduced density matrix (RDM). We show this by randomly initializing a 16-qubit DMERA and diagonalizing the resulting RDM of the $M$-qubit subsystem using density matrix simulation. As an example of practical interest, we also encode the variational ground state of the quantum critical long-range transverse field Ising model (LRTIM) on 8 spins using DMERA. We perform density matrix simulation with and without noise to obtain entanglement entropies in separate experiments using only 4 qubits. Finally we repeat the experiment on the IBM Kyoto backend reproducing simulation results.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 顕微鏡光収差によるセル画像分割モデルのロバスト性評価

Benchmarking the Cell Image Segmentation Models Robustness under the Microscope Optical Aberrations ( http://arxiv.org/abs/2404.08549v1 )

ライセンス: Link先を確認
Boyuan Peng, Jiaju Chen, Qihui Ye, Minjiang Chen, Peiwu Qin, Chenggang Yan, Dongmei Yu, Zhenglin Chen, (参考訳) 細胞セグメンテーションは、細胞の形態や行動を分析するために、生物医学的な研究に欠かせない。 深層学習法、特に畳み込みニューラルネットワーク(CNN)は、画像から複雑な特徴を抽出することによって細胞セグメンテーションに革命をもたらした。 しかし、顕微鏡光収差下でのこれらの手法の堅牢性は依然として重要な課題である。 本研究では、DynamicNuclearNet(DNN)とLIVECellデータセットを用いて、シミュレーション収差条件下でのセルインスタンスセグメンテーションモデルの性能を包括的に評価する。 Astigmatism、Coma、Spherical、Trefoilなどの収差はZernike多項式方程式を用いてシミュレートされた。 ネットワークヘッドが異なるMask R-CNN(FPN、C3)やバックボーン(ResNet、VGG19、SwinS)などのセグメンテーションモデルは、異常条件下でトレーニングされ、テストされた。 以上の結果より,FPNとSwinSの併用は,小収差による単純細胞像の処理において優れた堅牢性を示すことが示唆された。 逆に、Cellpose2.0は、同様の条件下で複雑な細胞画像に有効であることを証明している。 本研究は, 細胞形態および収差重症度に基づく適切なセグメンテーションモデルの選択に関する知見を提供し, バイオメディカル応用におけるセルセグメンテーションの信頼性を高めた。 さらに、様々な収差型と新しいセグメンテーションモデルを用いてこれらの手法を検証することが保証されている。 本研究は,光収差が小さい場合において,細胞セグメンテーションモデルを効果的に活用するための研究者の指導を目的としている。

Cell segmentation is essential in biomedical research for analyzing cellular morphology and behavior. Deep learning methods, particularly convolutional neural networks (CNNs), have revolutionized cell segmentation by extracting intricate features from images. However, the robustness of these methods under microscope optical aberrations remains a critical challenge. This study comprehensively evaluates the performance of cell instance segmentation models under simulated aberration conditions using the DynamicNuclearNet (DNN) and LIVECell datasets. Aberrations, including Astigmatism, Coma, Spherical, and Trefoil, were simulated using Zernike polynomial equations. Various segmentation models, such as Mask R-CNN with different network heads (FPN, C3) and backbones (ResNet, VGG19, SwinS), were trained and tested under aberrated conditions. Results indicate that FPN combined with SwinS demonstrates superior robustness in handling simple cell images affected by minor aberrations. Conversely, Cellpose2.0 proves effective for complex cell images under similar conditions. Our findings provide insights into selecting appropriate segmentation models based on cell morphology and aberration severity, enhancing the reliability of cell segmentation in biomedical applications. Further research is warranted to validate these methods with diverse aberration types and emerging segmentation models. Overall, this research aims to guide researchers in effectively utilizing cell segmentation models in the presence of minor optical aberrations.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# RLHF解読:LLMのための人間フィードバックからの強化学習の批判的分析

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs ( http://arxiv.org/abs/2404.08555v1 )

ライセンス: Link先を確認
Shreyas Chaudhari, Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, Bruno Castro da Silva, (参考訳) 最先端の大規模言語モデル(LLM)は、様々なタスクに欠かせないツールとなっている。 しかし、人間のための効果的なアシスタントとしてLLMを訓練するには、慎重に考慮する必要がある。 有望なアプローチは、人間からのフィードバック(RLHF)からの強化学習であり、人間の好みに応じてモデルを更新し、毒性や幻覚などの問題を緩和する。 しかし、LLMに対するRLHFの理解は、この手法を普及させた初期の設計選択と大きく絡み合っており、現在の研究は、フレームワークを根本的に改善するのではなく、これらの選択を拡大することに重点を置いている。 本稿では,RLHFを強化学習原理のレンズを通して解析し,その基礎の理解を深め,報酬モデルであるRLHFのコアコンポーネントに大きく焦点をあてる。 本研究は,RLHFトレーニングアルゴリズムにおけるモデル選択,関数近似の注意点,およびそれらの意味について検討し,報酬の表現性に関する基礎的な仮定を明らかにする。 我々の分析は、現在の方法論の限界を同時に明らかにし、報酬モデルと訓練方法の役割の理解を改善します。 言語モデルの性能に影響を及ぼすとともに、誤一般化、モデル不特定、フィードバックの空間性など、これらの制限を特徴付ける。 議論と分析は、研究者や実践者がRLHFの課題を理解し、既存の取り組みを構築するための参考となる、現在の文献の分類学的レビューによって裏付けられている。

State-of-the-art large language models (LLMs) have become indispensable tools for various tasks. However, training LLMs to serve as effective assistants for humans requires careful consideration. A promising approach is reinforcement learning from human feedback (RLHF), which leverages human feedback to update the model in accordance with human preferences and mitigate issues like toxicity and hallucinations. Yet, an understanding of RLHF for LLMs is largely entangled with initial design choices that popularized the method and current research focuses on augmenting those choices rather than fundamentally improving the framework. In this paper, we analyze RLHF through the lens of reinforcement learning principles to develop an understanding of its fundamentals, dedicating substantial focus to the core component of RLHF -- the reward model. Our study investigates modeling choices, caveats of function approximation, and their implications on RLHF training algorithms, highlighting the underlying assumptions made about the expressivity of reward. Our analysis improves the understanding of the role of reward models and methods for their training, concurrently revealing limitations of the current methodology. We characterize these limitations, including incorrect generalization, model misspecification, and the sparsity of feedback, along with their impact on the performance of a language model. The discussion and analysis are substantiated by a categorical review of current literature, serving as a reference for researchers and practitioners to understand the challenges of RLHF and build upon existing efforts.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 量子エントロピー対の幾何学的問題

Quantum entropy couples matter with geometry ( http://arxiv.org/abs/2404.08556v1 )

ライセンス: Link先を確認
Ginestra Bianconi, (参考訳) 我々は、高次ネットワーク上の離散幾何学、すなわちセルコンプレックス上の物質場を結合する理論を提案する。 このアプローチの鍵となる考え方は、その計量の量子エントロピーを高次のネットワークに関連付けることである。 具体的には、高階ネットワークの計量と物質とゲージ場によって誘導される計量との間の量子相対エントロピーによって与えられる作用を提案する。 誘導計量はトポロジカルスピノルと離散ディラック作用素の項で定義される。 ノード、エッジ、高次元セルで定義されたトポロジカルスピノルは、物質場を符号化する。 離散ディラック作用素はトポロジカルスピノル上で作用し、高階ネットワークの計量と極小置換の離散版によるゲージ場に依存する。 距離、物質およびゲージ場に対する結合力学方程式を導出し、離散曲線空間における場理論方程式を得るための情報理論の原理を提供する。

We propose a theory for coupling matter fields with discrete geometry on higher-order networks, i.e. cell complexes. The key idea of the approach is to associate to a higher-order network the quantum entropy of its metric. Specifically we propose an action given by the quantum relative entropy between the metric of the higher-order network and the metric induced by the matter and gauge fields. The induced metric is defined in terms of the topological spinors and the discrete Dirac operators. The topological spinors, defined on nodes, edges and higher-dimensional cells, encode for the matter fields. The discrete Dirac operators act on topological spinors, and depend on the metric of the higher-order network as well as on the gauge fields via a discrete version of the minimal substitution. We derive the coupled dynamical equations for the metric, the matter and the gauge fields, providing an information theory principle to obtain the field theory equations in discrete curved space.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# コンポーネントデータアノテーション構築におけるスケーラビリティ - 合成データによるファサード素材分類の強化

Scalability in Building Component Data Annotation: Enhancing Facade Material Classification with Synthetic Data ( http://arxiv.org/abs/2404.08557v1 )

ライセンス: Link先を確認
Josie Harrison, Alexander Hollberg, Yinan Yu, (参考訳) Googleストリートビューの画像で訓練されたコンピュータビジョンモデルは、物質カダストを作成することができる。 しかし、現在のアプローチでは、入手が難しく、しばしばクラス不均衡を持つ手動のアノテートデータセットが必要である。 これらの課題に対処するため、DALL-Eで生成された合成データセット上でSwin Transformerモデルを微調整し、同様の手動注釈付きデータセットと比較した。 手動のアノテーションは依然として金の標準であるが、合成データセットのパフォーマンスは妥当な代替手段であることを示している。 この発見は、材料カダストリーの開発に必要なアノテーションを緩和し、材料再利用の機会に関するアーキテクトの洞察を提供することで、廃棄廃棄物の削減に寄与する。

Computer vision models trained on Google Street View images can create material cadastres. However, current approaches need manually annotated datasets that are difficult to obtain and often have class imbalance. To address these challenges, this paper fine-tuned a Swin Transformer model on a synthetic dataset generated with DALL-E and compared the performance to a similar manually annotated dataset. Although manual annotation remains the gold standard, the synthetic dataset performance demonstrates a reasonable alternative. The findings will ease annotation needed to develop material cadastres, offering architects insights into opportunities for material reuse, thus contributing to the reduction of demolition waste.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# MoPE: ゼロショット対話状態追跡のためのプレフィックスエキスパートの混在

MoPE: Mixture of Prefix Experts for Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2404.08559v1 )

ライセンス: Link先を確認
Tianwen Tang, Tong Zhu, Haodong Liu, Yin Bai, Jia Cheng, Wenliang Chen, (参考訳) ゼロショット対話状態トラッキング(DST)は、知識を未知のドメインに転送することで、新たなデータセットのアノテートコストを低減する。 以前のゼロショットDSTモデルは、主にドメイン転送と部分予測の問題に悩まされていた。 これらの課題に対処するために、異なるドメインの類似したスロット間の接続を確立するために、Mixture of Prefix Experts (MoPE)を提案する。 MoPE-DSTはMultiWOZ2.1では57.13%、SGDでは55.40%である。

Zero-shot dialogue state tracking (DST) transfers knowledge to unseen domains, reducing the cost of annotating new datasets. Previous zero-shot DST models mainly suffer from domain transferring and partial prediction problems. To address these challenges, we propose Mixture of Prefix Experts (MoPE) to establish connections between similar slots in different domains, which strengthens the model transfer performance in unseen domains. Empirical results demonstrate that MoPE-DST achieves the joint goal accuracy of 57.13% on MultiWOZ2.1 and 55.40% on SGD.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# IDD-X:Ego-relative important Object Localization and Explanation in Dense and Unstructured Trafficのためのマルチビューデータセット

IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic ( http://arxiv.org/abs/2404.08561v1 )

ライセンス: Link先を確認
Chirag Parikh, Rohit Saluja, C. V. Jawahar, Ravi Kiran Sarvadevabhatla, (参考訳) インテリジェントな車両システムは、安全かつ効率的なナビゲーションのために、道路の状態、周囲のエンティティ、およびエゴ車両の運転行動の間の相互作用を深く理解する必要がある。 これは、交通状況がしばしば密集し、異質な道路利用者で非構造化されている発展途上国において特に重要である。 既存のデータセットは、主に構造化され、スパースなトラフィックシナリオを対象としており、そのような環境での運転の複雑さを捉えていない。 このギャップを埋めるために、大規模なデュアルビュー駆動ビデオデータセットであるIDD-Xを提案する。 697Kのバウンディングボックス、9Kの重要なオブジェクトトラック、ビデオ毎の1-12のオブジェクトにより、IDD-Xは10のカテゴリと19の説明ラベルカテゴリをカバーする複数の重要なロードオブジェクトに対する包括的なエゴ相対アノテーションを提供する。 データセットにはバックビュー情報も組み込まれており、運転環境のより完全な表現を提供する。 また、複数の重要なオブジェクトのローカライゼーションとオブジェクトごとの説明予測を目的とした、カスタムデザインのディープネットワークも導入する。 総合的に、私たちのデータセットと導入した予測モデルは、複雑な交通状況下での運転行動がどのように影響するかを研究する基盤となる。

Intelligent vehicle systems require a deep understanding of the interplay between road conditions, surrounding entities, and the ego vehicle's driving behavior for safe and efficient navigation. This is particularly critical in developing countries where traffic situations are often dense and unstructured with heterogeneous road occupants. Existing datasets, predominantly geared towards structured and sparse traffic scenarios, fall short of capturing the complexity of driving in such environments. To fill this gap, we present IDD-X, a large-scale dual-view driving video dataset. With 697K bounding boxes, 9K important object tracks, and 1-12 objects per video, IDD-X offers comprehensive ego-relative annotations for multiple important road objects covering 10 categories and 19 explanation label categories. The dataset also incorporates rearview information to provide a more complete representation of the driving environment. We also introduce custom-designed deep networks aimed at multiple important object localization and per-object explanation prediction. Overall, our dataset and introduced prediction models form the foundation for studying how road conditions and surrounding entities affect driving behavior in complex traffic situations.
翻訳日:2024-04-15 14:37:30 公開日:2024-04-12
# 高速分子電子基底エネルギー推定のための軌道最適化による初期状態重なりの強調

Enhancing initial state overlap through orbital optimization for faster molecular electronic ground-state energy estimation ( http://arxiv.org/abs/2404.08565v1 )

ライセンス: Link先を確認
Pauline J. Ollitrault, Cristian L. Cortes, Jerome F. Gonthier, Robert M. Parrish, Dario Rocca, Gian-Luca Anselmetti, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif, (参考訳) 量子位相推定アルゴリズムは、量子コンピュータ上で分子電子ハミルトニアンの基底状態エネルギーを決定する主要な方法である。 この文脈では、所望の基底状態と強く重なり合う古典的に抽出可能な状態を初期化する能力は、アルゴリズムのランタイムに直接影響するため、重要である。 しかし、いくつかの数値的な研究により、この重複はシステムサイズと指数関数的に崩壊することが示されている。 本研究では,1つのスレーター行列式から構築した初期状態に対して,分子軌道基底を最適化することにより,この崩壊を緩和できることを実証する。 そこで本研究では,真の分子基底状態を知ることなく,この最適化を実現するための実用的な手法を提案し,数値的に検証する。 得られた最適化された軌道と自然軌道を比較することで、オーバーラップが改善された。 具体的には, 上記崩壊に苦しむ4つの鉄-硫黄分子について, 局所化分子軌道に比べて1~2桁の精度向上が得られた。

The quantum phase estimation algorithm stands as the primary method for determining the ground state energy of a molecular electronic Hamiltonian on a quantum computer. In this context, the ability to initialize a classically tractable state that has a strong overlap with the desired ground state is critical as it directly affects the runtime of the algorithm. However, several numerical studies have shown that this overlap decays exponentially with system size. In this work, we demonstrate that this decay can be alleviated by optimizing the molecular orbital basis, for an initial state constructed from a single Slater determinant. We propose a practical method to achieve this optimization without knowledge of the true molecular ground state and test this method numerically. By comparing the resulting optimized orbitals to the natural orbitals, we find improved overlap. Specifically, for four iron-sulfur molecules, which are known to suffer from the mentioned decay, we show that our method yields one to two orders of magnitude improvement compared to localized molecular orbitals.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 領域適応による高周波指紋識別における受信者の影響の緩和

Mitigating Receiver Impact on Radio Frequency Fingerprint Identification via Domain Adaptation ( http://arxiv.org/abs/2404.08566v1 )

ライセンス: Link先を確認
Liu Yang, Qiang Li, Xiaoyang Ren, Yi Fang, Shafei Wang, (参考訳) 無線周波数フィンガープリント識別(RFFI)は、送信信号に常駐する非理想的ハードウェアによる独自の歪みを利用してエミッタを識別し、通信システムのセキュリティを高める手段として浮上している。 近年、機械学習は最先端のRFFIモデルの開発において大きな成功を収めている。 しかし、RFFIモデルを訓練し、異なる受信機に展開するクロスレシーバRFFI問題を考える研究はほとんどない。 受信特性の変化により、RFFIモデルの新しい受信機への直接展開により、性能が著しく低下する。 この問題に対処するため、クロスレシーバRFFIをモデル適応問題として定式化し、トレーニングされたモデルを新しい受信機からの未ラベル信号に適応させる。 まず,適応モデルに対する理論的一般化誤差を導出する。 そこで本研究では,ドメインアライメントと適応的な擬似ラベリングを含むクロスレシーバRFFI問題の解法を提案する。 前者は、両方のドメインが類似した分布を示す機能空間を見つけることを目的としており、ドメインの差異を効果的に減らしている。 一方、後者では、ラベル付き受信機から新しい受信機にラベル情報を暗黙的に転送する動的擬似ラベル方式を採用している。 実験結果から,提案手法は受信者への影響を効果的に軽減し,受信者間RFFI性能を向上させることができることがわかった。

Radio Frequency Fingerprint Identification (RFFI), which exploits non-ideal hardware-induced unique distortion resident in the transmit signals to identify an emitter, is emerging as a means to enhance the security of communication systems. Recently, machine learning has achieved great success in developing state-of-the-art RFFI models. However, few works consider cross-receiver RFFI problems, where the RFFI model is trained and deployed on different receivers. Due to altered receiver characteristics, direct deployment of RFFI model on a new receiver leads to significant performance degradation. To address this issue, we formulate the cross-receiver RFFI as a model adaptation problem, which adapts the trained model to unlabeled signals from a new receiver. We first develop a theoretical generalization error bound for the adaptation model. Motivated by the bound, we propose a novel method to solve the cross-receiver RFFI problem, which includes domain alignment and adaptive pseudo-labeling. The former aims at finding a feature space where both domains exhibit similar distributions, effectively reducing the domain discrepancy. Meanwhile, the latter employs a dynamic pseudo-labeling scheme to implicitly transfer the label information from the labeled receiver to the new receiver. Experimental results indicate that the proposed method can effectively mitigate the receiver impact and improve the cross-receiver RFFI performance.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 言語モデル統合と臨界シナリオ生成による自律走行訓練の強化

Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation ( http://arxiv.org/abs/2404.08570v1 )

ライセンス: Link先を確認
Hanlin Tian, Kethan Reddy, Yuxiang Feng, Mohammed Quddus, Yiannis Demiris, Panagiotis Angeloudis, (参考訳) 本稿では、自動運転車(AV)のトレーニングとテストのための新しいクローズドループフレームワークであるCRITICALを紹介する。 CRITICALは、Reinforcement Learning (RL)エージェントで特定された特定の学習とパフォーマンスギャップをターゲットとした、重要な運転状況に焦点を当てた、多様なシナリオを生成する能力を強調している。 このフレームワークは、現実世界のトラフィックダイナミクス、運転行動分析、安全性対策、オプションのLarge Language Model (LLM)コンポーネントを統合することで、これを実現する。 データ生成パイプラインとトレーニングプロセスの間に閉じたフィードバックループを確立することで、トレーニング中の学習率を高め、システムパフォーマンスを向上し、安全性を高めることができることが実証された。 The Proximal Policy Optimization (PPO) and the HighwayEnv Simulation environment, showed a noticeable performance improve with the integration of critical case generation and LLM analysis, showed CRITICAL's potential to improve the robustness of AV systems and streamline the generation of critical scenarios。 これは最終的に、AVエージェントの開発を加速し、RLトレーニングの一般範囲を広げ、AV安全性の検証作業を改善するのに役立ちます。

This paper introduces CRITICAL, a novel closed-loop framework for autonomous vehicle (AV) training and testing. CRITICAL stands out for its ability to generate diverse scenarios, focusing on critical driving situations that target specific learning and performance gaps identified in the Reinforcement Learning (RL) agent. The framework achieves this by integrating real-world traffic dynamics, driving behavior analysis, surrogate safety measures, and an optional Large Language Model (LLM) component. It is proven that the establishment of a closed feedback loop between the data generation pipeline and the training process can enhance the learning rate during training, elevate overall system performance, and augment safety resilience. Our evaluations, conducted using the Proximal Policy Optimization (PPO) and the HighwayEnv simulation environment, demonstrate noticeable performance improvements with the integration of critical case generation and LLM analysis, indicating CRITICAL's potential to improve the robustness of AV systems and streamline the generation of critical scenarios. This ultimately serves to hasten the development of AV agents, expand the general scope of RL training, and ameliorate validation efforts for AV safety.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 小型モデルは(まだ)有効なクロスドメイン引数エクストラクタである

Small Models Are (Still) Effective Cross-Domain Argument Extractors ( http://arxiv.org/abs/2404.08579v1 )

ライセンス: Link先を確認
William Gantt, Aaron Steven White, (参考訳) 近年のイベント引数抽出(EAE)研究において,効果的なオントロジー伝達が大きな目標となっている。 特に質問応答(QA)とテンプレート補充(TI)という2つの手法が,この問題に対する有望なアプローチとして現れている。 しかし、これらの技術が実際にこの移行を可能にする能力について、詳細な調査は行われていない。 本研究では,文レベルと文書レベルの両方で,主要なAEデータセットの6つの手法を用いてゼロショット転送を探索する。 さらに, ゼロショット抽出におけるLCMへの依存度の向上に挑戦し, GPT-3.5 や GPT-4 に比べて, 適切なオントロジーで訓練したモデルの方がはるかに小さなモデルでゼロショット性能が得られることを示した。

Effective ontology transfer has been a major goal of recent work on event argument extraction (EAE). Two methods in particular -- question answering (QA) and template infilling (TI) -- have emerged as promising approaches to this problem. However, detailed explorations of these techniques' ability to actually enable this transfer are lacking. In this work, we provide such a study, exploring zero-shot transfer using both techniques on six major EAE datasets at both the sentence and document levels. Further, we challenge the growing reliance on LLMs for zero-shot extraction, showing that vastly smaller models trained on an appropriate source ontology can yield zero-shot performance superior to that of GPT-3.5 or GPT-4.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 基礎拡散モデルによる損失画像圧縮

Lossy Image Compression with Foundation Diffusion Models ( http://arxiv.org/abs/2404.08580v1 )

ライセンス: Link先を確認
Lucas Relic, Roberto Azevedo, Markus Gross, Christopher Schroers, (参考訳) 画像圧縮領域における拡散モデルの導入は、特に極低ビットレートにおいて、現実的で詳細な再構成を生成する可能性がある。 従来の手法では,条件付き信号の量子化誤差に頑健な表現的デコーダとして拡散モデルを使用することに重点を置いていたが,この方法での競合的な結果を得るためには,反復生成プロセスによる拡散モデルと長大な推論時間を費用対効果で訓練する必要がある。 本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。 提案手法では, 全拡散生成プロセスの10倍未満の実行が可能であり, 拡散モデルにアーキテクチャ的な変更は必要とせず, バックボーンの微調整を伴わずに, 基礎モデルを強力な先行として使用することができる。 提案するコーデックは,従来の手法よりも定量的リアリズムの指標で優れており,他の手法が2倍のビットレートを使用する場合でも,エンドユーザーに定性的に有利であることを確認した。

Incorporating diffusion models in the image compression domain has the potential to produce realistic and detailed reconstructions, especially at extremely low bitrates. Previous methods focus on using diffusion models as expressive decoders robust to quantization errors in the conditioning signals, yet achieving competitive results in this manner requires costly training of the diffusion model and long inference times due to the iterative generative process. In this work we formulate the removal of quantization error as a denoising task, using diffusion to recover lost information in the transmitted image latent. Our approach allows us to perform less than 10\% of the full diffusion generative process and requires no architectural changes to the diffusion model, enabling the use of foundation models as a strong prior without additional fine tuning of the backbone. Our proposed codec outperforms previous methods in quantitative realism metrics, and we verify that our reconstructions are qualitatively preferred by end users, even when other methods use twice the bitrate.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# FashionFail: ファッションオブジェクトの検出とセグメンテーションにおける障害事例への対応

FashionFail: Addressing Failure Cases in Fashion Object Detection and Segmentation ( http://arxiv.org/abs/2404.08582v1 )

ライセンス: Link先を確認
Riza Velioglu, Robin Chan, Barbara Hammer, (参考訳) オンラインショッピング画像のファッションオブジェクトの検出とセグメンテーションの領域では、既存の最先端のファッションパーシングモデルは、特に非モデルウーンのアパレルやクローズアップショットに晒された場合、制限に直面する。 これらの障害に対処するために、オブジェクトの検出とセグメンテーションのためのEコマースイメージを備えた新しいファッションデータセットであるFashionFailを紹介します。 データセットは、最近の基礎モデルを活用する新しいアノテーションツールを使用して、効率的にキュレートされます。 FashionFailの主な目的は、モデルの堅牢性を評価するテストベッドとして機能することである。 分析の結果,Attribute-Mask R-CNN や Fashionformer など,主要なモデルの欠点が明らかになった。 さらに,一般的な障害を緩和し,モデルロバスト性を改善するために,単純データ拡張を用いたベースラインアプローチを提案する。 本研究は,産業用途におけるファッションアイテムの検出とセグメンテーションに関するさらなる研究を刺激し,支援することを目的としている。 データセット、アノテーションツール、コード、モデルは、 \url{https://rizavelioglu.github.io/fashionfail/}で入手できる。

In the realm of fashion object detection and segmentation for online shopping images, existing state-of-the-art fashion parsing models encounter limitations, particularly when exposed to non-model-worn apparel and close-up shots. To address these failures, we introduce FashionFail; a new fashion dataset with e-commerce images for object detection and segmentation. The dataset is efficiently curated using our novel annotation tool that leverages recent foundation models. The primary objective of FashionFail is to serve as a test bed for evaluating the robustness of models. Our analysis reveals the shortcomings of leading models, such as Attribute-Mask R-CNN and Fashionformer. Additionally, we propose a baseline approach using naive data augmentation to mitigate common failure cases and improve model robustness. Through this work, we aim to inspire and support further research in fashion item detection and segmentation for industrial applications. The dataset, annotation tool, code, and models are available at \url{https://rizavelioglu.github.io/fashionfail/}.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# ゼロショットマスク生成による視覚基礎モデルに基づく病的原始的セグメンテーション

Pathological Primitive Segmentation Based on Visual Foundation Model with Zero-Shot Mask Generation ( http://arxiv.org/abs/2404.08584v1 )

ライセンス: Link先を確認
Abu Bakor Hayat Arnob, Xiangxue Wang, Yiping Jiao, Xiao Gan, Wenlong Ming, Jun Xu, (参考訳) 医用画像処理は通常、特に病理学において、ユニークな画像の特徴とドメイン固有の課題のために、慎重に構築されたデータセットで訓練されたモデルを必要とする。 デジタル化組織サンプルの原始的検出とセグメンテーションは、がんの客観的および自動診断および予後に不可欠である。 SAM(Segment Anything Model)は、最近、自然画像から一般的な物体を高精度に分割するために開発されたが、マスクを生成するには人間のプロンプトが必要である。 本研究では,SAMの学習済み自然画像エンコーダを検出ベース領域提案に適用する手法を提案する。 事前訓練されたエンコーダによって提案された領域は、投影のためにカスケードされた特徴伝搬層に送られる。 次に、ボックスの局所化と分類のためのマルチスケールから局所意味とグローバルコンテキストを集約する。 最後に、SAMデコーダは識別された境界ボックスを必須のプロンプトとして使用し、包括的なプリミティブセグメンテーションマップを生成する。 SAMというベースフレームワーク全体は、追加のトレーニングや微調整を必要としないが、病理学における2つの基本的なセグメンテーションタスクに対してエンドツーエンドの結果をもたらす可能性がある。 提案手法は,F1の原子核検出のための最先端モデルと,PanNukeデータセットのセグメンテーション品質のための2値/マルチクラスパン光学(bPQ/mPQ)とマスク品質(dice)を比較し,エンドツーエンド効率を実現した。 我々のモデルは、Faster RCNNと比較して、セカンダリデータセット(HuBMAP Kidney)で顕著な平均精度(+4.5%)を達成する。 コードはhttps://github.com/learner-codec/autoprom_sam.comで公開されている。

Medical image processing usually requires a model trained with carefully crafted datasets due to unique image characteristics and domain-specific challenges, especially in pathology. Primitive detection and segmentation in digitized tissue samples are essential for objective and automated diagnosis and prognosis of cancer. SAM (Segment Anything Model) has recently been developed to segment general objects from natural images with high accuracy, but it requires human prompts to generate masks. In this work, we present a novel approach that adapts pre-trained natural image encoders of SAM for detection-based region proposals. Regions proposed by a pre-trained encoder are sent to cascaded feature propagation layers for projection. Then, local semantic and global context is aggregated from multi-scale for bounding box localization and classification. Finally, the SAM decoder uses the identified bounding boxes as essential prompts to generate a comprehensive primitive segmentation map. The entire base framework, SAM, requires no additional training or fine-tuning but could produce an end-to-end result for two fundamental segmentation tasks in pathology. Our method compares with state-of-the-art models in F1 score for nuclei detection and binary/multiclass panoptic(bPQ/mPQ) and mask quality(dice) for segmentation quality on the PanNuke dataset while offering end-to-end efficiency. Our model also achieves remarkable Average Precision (+4.5%) on the secondary dataset (HuBMAP Kidney) compared to Faster RCNN. The code is publicly available at https://github.com/learner-codec/autoprom_sam.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 複数の解剖学的断面と深部構造移動と融合を用いた木材種同定

Advanced wood species identification based on multiple anatomical sections and using deep feature transfer and fusion ( http://arxiv.org/abs/2404.08585v1 )

ライセンス: Link先を確認
Kallil M. Zielinski, Leonardo Scabini, Lucas C. Ribas, Núbia R. da Silva, Hans Beeckman, Jan Verwaeren, Odemir M. Bruno, Bernard De Baets, (参考訳) 近年,木質種の同定が盛んに行われている。 DNA分析、近赤外分光法(NIR)、DART質量分析法(Direct Analysis in Real Time、DART)といった手法は、長年確立されてきた細胞および組織形態の解剖学的評価を補完する。 しかし、これらの手法の多くは、高コスト、データ解釈のための熟練した専門家の必要性、専門家参照のための優れたデータセットの欠如など、いくつかの制限がある。 したがって、これらの手法のほとんどは、間違いなく木製解剖学的評価であり、人工知能に基づくツールの恩恵を受ける可能性がある。 本稿では, コンボリューショナルニューラルネットワーク(CNN)を用いた2つの伝達学習手法を, 異なる方向からのセクションを含む多視点コンゴ種木種データセットに適用し, 異なる微視的拡大を観察する。 我々は, 木材種同定の効率化と高精度化を目的として, GAP (Global Average Pooling) とRADAM (Random Encoding of Aggregated Deep Activation Maps) の2つの特徴抽出手法を詳細に検討した。 以上の結果から,多様なデータセットや解剖学的部分の精度が,他の手法よりも優れていたことが示唆された。 本提案は,森林生態系の保全と持続可能な林業の促進を支援するための堅牢なツールとして,木材種識別の大幅な進歩を示すものである。

In recent years, we have seen many advancements in wood species identification. Methods like DNA analysis, Near Infrared (NIR) spectroscopy, and Direct Analysis in Real Time (DART) mass spectrometry complement the long-established wood anatomical assessment of cell and tissue morphology. However, most of these methods have some limitations such as high costs, the need for skilled experts for data interpretation, and the lack of good datasets for professional reference. Therefore, most of these methods, and certainly the wood anatomical assessment, may benefit from tools based on Artificial Intelligence. In this paper, we apply two transfer learning techniques with Convolutional Neural Networks (CNNs) to a multi-view Congolese wood species dataset including sections from different orientations and viewed at different microscopic magnifications. We explore two feature extraction methods in detail, namely Global Average Pooling (GAP) and Random Encoding of Aggregated Deep Activation Maps (RADAM), for efficient and accurate wood species identification. Our results indicate superior accuracy on diverse datasets and anatomical sections, surpassing the results of other methods. Our proposal represents a significant advancement in wood species identification, offering a robust tool to support the conservation of forest ecosystems and promote sustainable forestry practices.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# プロンプトとしての質問駆動イメージキャプションによる視覚的質問応答の強化

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts ( http://arxiv.org/abs/2404.08589v1 )

ライセンス: Link先を確認
Övgü Özdemir, Erdem Akagündüz, (参考訳) 視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。 ここ数年、VQA問題に対して多くのニューラルアーキテクチャが提案されてきた。 しかしながら、ゼロショットVQAの成功は、高度な一般化と推論技術を必要とするため、依然として課題である。 本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。 具体的には、画像の代わりに画像キャプションを活用することや、大型言語モデル(LLM)を活用してゼロショット設定を確立することの有効性について検討する。 このプロセスでは画像キャプションが最も重要なステップであるため、構造や意味論の観点から、VQA性能に対する最先端画像キャプティングモデルの影響を比較する。 本稿では,質問応答モデル(QA)に文脈情報を伝達する,単純で効率的な質問駆動型画像キャプション手法を提案する。 この方法は、質問からキーワードを抽出し、キーワードを用いて各画像検索ペアのキャプションを生成し、質問駆動のキャプションをLSMプロンプトに組み込む。 本稿では,VQAパイプラインにおける汎用イメージキャプションと質問駆動イメージキャプションの有効性を評価する。 本研究は,ゼロショット設定下でのGQAにおける画像キャプションの活用とLLMの能力を活用した競合性能の実現の可能性を明らかにする。 私たちのコードは \url{https://github.com/ovguyo/captions-in-VQA} で利用可能です。

Visual question answering (VQA) is known as an AI-complete task as it requires understanding, reasoning, and inferring about the vision and the language content. Over the past few years, numerous neural architectures have been suggested for the VQA problem. However, achieving success in zero-shot VQA remains a challenge due to its requirement for advanced generalization and reasoning skills. This study explores the impact of incorporating image captioning as an intermediary process within the VQA pipeline. Specifically, we explore the efficacy of utilizing image captions instead of images and leveraging large language models (LLMs) to establish a zero-shot setting. Since image captioning is the most crucial step in this process, we compare the impact of state-of-the-art image captioning models on VQA performance across various question types in terms of structure and semantics. We propose a straightforward and efficient question-driven image captioning approach within this pipeline to transfer contextual information into the question-answering (QA) model. This method involves extracting keywords from the question, generating a caption for each image-question pair using the keywords, and incorporating the question-driven caption into the LLM prompt. We evaluate the efficacy of using general-purpose and question-driven image captions in the VQA pipeline. Our study highlights the potential of employing image captions and harnessing the capabilities of LLMs to achieve competitive performance on GQA under the zero-shot setting. Our code is available at \url{https://github.com/ovguyo/captions-in-VQA}.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 視覚対応テキスト特徴量を用いた参照画像分割の改善

Improving Referring Image Segmentation using Vision-Aware Text Features ( http://arxiv.org/abs/2404.08590v1 )

ライセンス: Link先を確認
Hai Nguyen-Truong, E-Ro Nguyen, Tuan-Anh Vu, Minh-Triet Tran, Binh-Son Hua, Sai-Kit Yeung, (参考訳) 画像セグメンテーションの参照は、自然言語の記述に基づいて画素単位のセグメンテーションマスクを生成するという課題である。 既存の手法は、主に視覚的特徴に依存してセグメンテーションマスクを生成し、テキスト特徴をサポートコンポーネントとして扱う。 この視覚的特徴への過度な依存は、特にテキストプロンプトが曖昧であるか文脈に依存している複雑なシナリオにおいて、最適以下の結果をもたらす可能性がある。 これらの課題を克服するために、視覚認識テキスト機能を用いたオブジェクトとコンテキスト理解を強化し、参照画像セグメンテーションを改善するための新しいフレームワークVATEXを提案する。 提案手法では,CLIPを用いてオブジェクト中心のビジュアルヒートマップをテキスト記述と統合し,セグメンテーションタスクのDETRアーキテクチャの初期クエリとして使用できるCLIPを導出する。 さらに,画像にインスタンスを記述する方法が複数あることを観察することにより,同じ視覚的入力を参照するテキスト間の特徴的類似性,すなわち,テキストの埋め込みを視覚に適応したテキスト特徴に変換する新しいコンテキスト型マルチモーダルデコーダと,その画像から得られる文脈理解による言語表現の一貫性と一貫性の両立を確実にするための意味一貫性制約を具備する。 提案手法は,RefCOCO,RefCOCO+,G-Refの3つのベンチマークデータセットに対して,大幅な性能向上を実現する。 コードは、https://nero1342.github.io/VATEX\_RIS.comで入手できる。

Referring image segmentation is a challenging task that involves generating pixel-wise segmentation masks based on natural language descriptions. Existing methods have relied mostly on visual features to generate the segmentation masks while treating text features as supporting components. This over-reliance on visual features can lead to suboptimal results, especially in complex scenarios where text prompts are ambiguous or context-dependent. To overcome these challenges, we present a novel framework VATEX to improve referring image segmentation by enhancing object and context understanding with Vision-Aware Text Feature. Our method involves using CLIP to derive a CLIP Prior that integrates an object-centric visual heatmap with text description, which can be used as the initial query in DETR-based architecture for the segmentation task. Furthermore, by observing that there are multiple ways to describe an instance in an image, we enforce feature similarity between text variations referring to the same visual input by two components: a novel Contextual Multimodal Decoder that turns text embeddings into vision-aware text features, and a Meaning Consistency Constraint to ensure further the coherent and consistent interpretation of language expressions with the context understanding obtained from the image. Our method achieves a significant performance improvement on three benchmark datasets RefCOCO, RefCOCO+ and G-Ref. Code is available at: https://nero1342.github.io/VATEX\_RIS.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 機械学習に頼ったリソースの割り当てはランダムにすべき

Scarce Resource Allocations That Rely On Machine Learning Should Be Randomized ( http://arxiv.org/abs/2404.08592v1 )

ライセンス: Link先を確認
Shomik Jain, Kathleen Creel, Ashia Wilson, (参考訳) アルゴリズムフェアネスの伝統的な決定論的概念とは対照的に、機械学習を用いて不足資源を割当するにはランダム性を必要とすることが多い、と本論文は主張する。 個人がソーシャルグッズや機会を割り当てなければならないという主張を、より適切に考慮する確率的手続きを提案することによって、なぜ、いつ、どのようにランダム化するかに対処する。

Contrary to traditional deterministic notions of algorithmic fairness, this paper argues that fairly allocating scarce resources using machine learning often requires randomness. We address why, when, and how to randomize by proposing stochastic procedures that more adequately account for all of the claims that individuals have to allocations of social goods or opportunities.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# サイバー物理システムのための合成時系列データの生成

Generating Synthetic Time Series Data for Cyber-Physical Systems ( http://arxiv.org/abs/2404.08601v1 )

ライセンス: Link先を確認
Alexander Sommers, Somayeh Bakhtiari Ramezani, Logan Cummins, Sudip Mittal, Shahram Rahimi, Maria Seale, Joseph Jaboure, (参考訳) データ拡張は、時系列ドメインにおけるディープラーニングアプリケーションの重要なファシリテータである。 文献でギャップを識別し、時系列におけるデータ拡張のためのシークエンスモデルであるトランスフォーマーのスパース探索を実証する。 いくつかの成功した事前をハイブリダイズしたアーキテクチャは、強力な時間領域類似度メトリックを使用してテストされる。 結果は、この領域の課題と、将来の作業に有用ないくつかの方向を示唆している。

Data augmentation is an important facilitator of deep learning applications in the time series domain. A gap is identified in the literature, demonstrating sparse exploration of the transformer, the dominant sequence model, for data augmentation in time series. A architecture hybridizing several successful priors is put forth and tested using a powerful time domain similarity metric. Results suggest the challenge of this domain, and several valuable directions for future work.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 階段を滑り降りる:ニューラルネットワークによる学習の相関性

Sliding down the stairs: how correlated latent variables accelerate learning with neural networks ( http://arxiv.org/abs/2404.08602v1 )

ライセンス: Link先を確認
Lorenzo Bardone, Sebastian Goldt, (参考訳) ニューラルネットワークは確率勾配勾配(SGD)を用いたデータから特徴を抽出する。 特に、高次入力累積器(HOC)はその性能に不可欠である。 しかし、$d$-dimensional 入力の$p$th cumulantから情報を抽出するのは計算が困難であり、オンライン SGD を用いた注文$p$tensor (tensor PCA) から単一方向を復元するのに必要なサンプルの数は $d^{p-1}$ として増加し、高次元入力は禁じられている。 この結果は、ニューラルネットワークが入力のHOCからどのように関連する方向を効率的に抽出するかという問題を提起する。 ここでは,異なる入力累積で符号化された方向に沿った潜伏変数間の相関が,高次相関から学習を高速化することを示す。 単一ニューロンが高次元のランダムスタートからオンラインSGDを用いてこれらの方向を弱く復元するために必要なサンプル数に対して、ほぼ鋭い閾値を導出することにより、この効果を解析的に示す。 我々の分析結果は、2層ニューラルネットワークのシミュレーションで確認され、ニューラルネットワークにおける階層学習の新しいメカニズムが明らかにされる。

Neural networks extract features from data using stochastic gradient descent (SGD). In particular, higher-order input cumulants (HOCs) are crucial for their performance. However, extracting information from the $p$th cumulant of $d$-dimensional inputs is computationally hard: the number of samples required to recover a single direction from an order-$p$ tensor (tensor PCA) using online SGD grows as $d^{p-1}$, which is prohibitive for high-dimensional inputs. This result raises the question of how neural networks extract relevant directions from the HOCs of their inputs efficiently. Here, we show that correlations between latent variables along the directions encoded in different input cumulants speed up learning from higher-order correlations. We show this effect analytically by deriving nearly sharp thresholds for the number of samples required by a single neuron to weakly-recover these directions using online SGD from a random start in high dimensions. Our analytical results are confirmed in simulations of two-layer neural networks and unveil a new mechanism for hierarchical learning in neural networks.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 信頼集約を用いたオープンボキャブラリ物体検出のための訓練不要ブースト

Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation ( http://arxiv.org/abs/2404.08603v1 )

ライセンス: Link先を確認
Yanhao Zheng, Kai Liu, (参考訳) Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。 一方、先進的な検出器は一般的に、推論中に不注意に抑制され、非最大抑圧 (NMS) のような一般的に採用されている欲求戦略によって、新しいクラスの準最適検出性能をもたらす新規なインスタンスに低いスコアを割り当てる。 本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。 具体的には、地域プロモーサル段階では、トレーニング期間中に背景提案として扱われるため、新規な事例を含む提案は低い客観性スコアを示す。 一方、オブジェクト分類段階では、新しいオブジェクトは、観察されたトレーニングサンプルによる視覚的アライメントのバイアスにより、より低い領域テキスト類似度(分類スコア)を共有する。 この問題を軽減するために,(1)領域/対象提案の重複度によるクラス非依存の局所化品質推定,(2)新規クラス用プロキシプロトタイプを用いたテキスト誘導視覚的類似度推定という,信頼スコアの調整と誤検出対象の保存という2つの先進的な手段を導入する。 本稿では,AggDet(オープンボキャブラリオブジェクト検出パラダイム)の集合的信頼度推定を導出する。 私たちのAggDetは汎用的でトレーニング不要な後処理スキームで、モデルスケールとアーキテクチャ設計をまたいだオープン語彙検出を一貫して強化しています。 例えば、AggDetはトレーニングコストなしでOV-COCOとOV-LVISのベンチマークで3.3%と1.5%のゲインを得ている。

Open-vocabulary object detection (OVOD) aims at localizing and recognizing visual objects from novel classes unseen at the training time. Whereas, empirical studies reveal that advanced detectors generally assign lower scores to those novel instances, which are inadvertently suppressed during inference by commonly adopted greedy strategies like Non-Maximum Suppression (NMS), leading to sub-optimal detection performance for novel classes. This paper systematically investigates this problem with the commonly-adopted two-stage OVOD paradigm. Specifically, in the region-proposal stage, proposals that contain novel instances showcase lower objectness scores, since they are treated as background proposals during the training phase. Meanwhile, in the object-classification stage, novel objects share lower region-text similarities (i.e., classification scores) due to the biased visual-language alignment by seen training samples. To alleviate this problem, this paper introduces two advanced measures to adjust confidence scores and conserve erroneously dismissed objects: (1) a class-agnostic localization quality estimate via overlap degree of region/object proposals, and (2) a text-guided visual similarity estimate with proxy prototypes for novel classes. Integrated with adjusting techniques specifically designed for the region-proposal and object-classification stages, this paper derives the aggregated confidence estimate for the open-vocabulary object detection paradigm (AggDet). Our AggDet is a generic and training-free post-processing scheme, which consistently bolsters open-vocabulary detectors across model scales and architecture designs. For instance, AggDet receives 3.3% and 1.5% gains on OV-COCO and OV-LVIS benchmarks respectively, without any training cost.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 微分方程式の量子反復解法と計算流体力学への応用

Quantum Iterative Methods for Solving Differential Equations with Application to Computational Fluid Dynamics ( http://arxiv.org/abs/2404.08605v1 )

ライセンス: Link先を確認
Chelsea A. Williams, Antonio A. Gentile, Vincent E. Elfving, Daniel Berger, Oleksandr Kyriienko, (参考訳) 本稿では, 逐次的プロセスによる解の漸進的改善に基づく微分方程式の解法を提案し, 流体力学の応用を目標とする。 まず、経路情報を格納するためのユニタリ(LCU)アプローチを線形に組み合わせた量子レジスタに、Jacobi反復を実装した。 第二に、量子法をガウス・シーデル反復法に拡張する。 さらに,ウッドベリーのアイデンティティに基づく量子に適した分解法を提案する。 技術的観点から、特定の行列のブロック符号化と乗算のためのツールを開発し、活用する。 パラダイム流体力学の問題に対するアプローチをベンチマークする。 この結果から,大規模行列を逆転させる代わりに,マルチグリッド型計算をプログラムし,それに対応する科学計算の進歩を活用できることが強調された。

We propose quantum methods for solving differential equations that are based on a gradual improvement of the solution via an iterative process, and are targeted at applications in fluid dynamics. First, we implement the Jacobi iteration on a quantum register that utilizes a linear combination of unitaries (LCU) approach to store the trajectory information. Second, we extend quantum methods to Gauss-Seidel iterative methods. Additionally, we propose a quantum-suitable resolvent decomposition based on the Woodbury identity. From a technical perspective, we develop and utilize tools for the block encoding of specific matrices as well as their multiplication. We benchmark the approach on paradigmatic fluid dynamics problems. Our results stress that instead of inverting large matrices, one can program quantum computers to perform multigrid-type computations and leverage corresponding advances in scientific computing.
翻訳日:2024-04-15 14:27:45 公開日:2024-04-12
# 双曲型デラウネー幾何学的アライメント

Hyperbolic Delaunay Geometric Alignment ( http://arxiv.org/abs/2404.08608v1 )

ライセンス: Link先を確認
Aniss Aiman Medbouhi, Giovanni Luca Marchetti, Vladislav Polianskii, Alexander Kravberg, Petra Poklukar, Anastasia Varava, Danica Kragic, (参考訳) ハイパーボリック機械学習は、階層構造を持つデータを表現することを目的とした、新興分野である。 しかし、結果として得られる双曲型データ表現の評価と分析のためのツールが不足している。 この目的のために、双曲空間におけるデータセットを比較するための類似度スコアであるHyperDGA(Hyperbolic Delaunay Geometric Alignment)を提案する。 中心となる考え方は、与えられた集合をまたいだデータポイントを接続する双曲デラウネーグラフのエッジを数えることである。 人工および実生活の生物学的データに関する実証的研究を行い、HyperDGAが集合間の古典的距離の双曲バージョンより優れていることを示す。 さらに,ハイパーボリック変分オートエンコーダによって推定される潜在表現を評価するためのHyperDGAの可能性を示す。

Hyperbolic machine learning is an emerging field aimed at representing data with a hierarchical structure. However, there is a lack of tools for evaluation and analysis of the resulting hyperbolic data representations. To this end, we propose Hyperbolic Delaunay Geometric Alignment (HyperDGA) -- a similarity score for comparing datasets in a hyperbolic space. The core idea is counting the edges of the hyperbolic Delaunay graph connecting datapoints across the given sets. We provide an empirical investigation on synthetic and real-life biological data and demonstrate that HyperDGA outperforms the hyperbolic version of classical distances between sets. Furthermore, we showcase the potential of HyperDGA for evaluating latent representations inferred by a Hyperbolic Variational Auto-Encoder.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 小児ホジキンリンパ腫における経時的PET/CT画像の自動定量化

Automatic Quantification of Serial PET/CT Images for Pediatric Hodgkin Lymphoma Patients Using a Longitudinally-Aware Segmentation Network ( http://arxiv.org/abs/2404.08611v1 )

ライセンス: Link先を確認
Xin Tie, Muheon Shin, Changhee Lee, Scott B. Perlman, Zachary Huemann, Amy J. Weisman, Sharon M. Castellino, Kara M. Kelly, Kathleen M. McCarten, Adina L. Alazraki, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw, (参考訳) $\textbf{Purpose}$: 悪性リンパ腫患者に対するPETスキャンの経時的変化の自動定量化は困難であることが証明されている。 本研究の目的は, 小児Hodgkinリンパ腫患者に対して, PET/CT画像の定量化が可能な縦型セグメンテーションネットワーク(LAS-Net)を開発することである。 $\textbf{Materials and Methods}$: この振り返り研究は、2つの小児腫瘍群臨床試験(AHOD1331とAHOD0831)に登録された297人のPET/CT画像のベースライン(PET1)と中間(PET2)を含む。 LAS-Netは、PET1から関連する特徴を伝達し、PET2の分析を知らせる。 PET1のDice係数とPET2のF1スコアを用いてモデル性能を評価した。 さらに, PET1の代謝性腫瘍容積 (MTV) と総病変解糖 (TLG) , PET2のqPETおよび$\Delta$SUVmaxを, 医師による測定と比較した。 我々はSpearmanの$\rho$相関を用いてそれらの合意を定量化し、統計解析にブートストラップ再サンプリングを用いた。 $\textbf{Results}$: LAS-Net は F1 スコア 0.606 (精度/リコール: 0.615/0.600) の PET2 の残留リンパ腫を検出し、全てのコンパレータ法より優れている(P<0.01)。 ベースラインセグメンテーションでは、LAS-Netは平均Diceスコア0.772を達成した。 PET定量では, LAS-NetのqPET, $\Delta$SUVmax, MTV, TLGの値は, それぞれ0.78, 0.80, 0.93, 0.96の医師測定値と強く相関していた。 性能は高いままで、外部テストコホートではわずかに低下した。 $\textbf{Conclusion}$: LAS-Netは、シリアルスキャン全体にわたるPETメトリクスの定量化において、ハイパフォーマンスを実現した。

$\textbf{Purpose}$: Automatic quantification of longitudinal changes in PET scans for lymphoma patients has proven challenging, as residual disease in interim-therapy scans is often subtle and difficult to detect. Our goal was to develop a longitudinally-aware segmentation network (LAS-Net) that can quantify serial PET/CT images for pediatric Hodgkin lymphoma patients. $\textbf{Materials and Methods}$: This retrospective study included baseline (PET1) and interim (PET2) PET/CT images from 297 patients enrolled in two Children's Oncology Group clinical trials (AHOD1331 and AHOD0831). LAS-Net incorporates longitudinal cross-attention, allowing relevant features from PET1 to inform the analysis of PET2. Model performance was evaluated using Dice coefficients for PET1 and detection F1 scores for PET2. Additionally, we extracted and compared quantitative PET metrics, including metabolic tumor volume (MTV) and total lesion glycolysis (TLG) in PET1, as well as qPET and $\Delta$SUVmax in PET2, against physician measurements. We quantified their agreement using Spearman's $\rho$ correlations and employed bootstrap resampling for statistical analysis. $\textbf{Results}$: LAS-Net detected residual lymphoma in PET2 with an F1 score of 0.606 (precision/recall: 0.615/0.600), outperforming all comparator methods (P<0.01). For baseline segmentation, LAS-Net achieved a mean Dice score of 0.772. In PET quantification, LAS-Net's measurements of qPET, $\Delta$SUVmax, MTV and TLG were strongly correlated with physician measurements, with Spearman's $\rho$ of 0.78, 0.80, 0.93 and 0.96, respectively. The performance remained high, with a slight decrease, in an external testing cohort. $\textbf{Conclusion}$: LAS-Net achieved high performance in quantifying PET metrics across serial scans, highlighting the value of longitudinal awareness in evaluating multi-time-point imaging datasets.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 説明可能なAIと転送学習を用いて限られた観測データによる大西洋封鎖の維持を理解・予測する

Using Explainable AI and Transfer Learning to understand and predict the maintenance of Atlantic blocking with limited observational data ( http://arxiv.org/abs/2404.08613v1 )

ライセンス: Link先を確認
Huan Zhang, Justin Finkel, Dorian S. Abbot, Edwin P. Gerber, Jonathan Weare, (参考訳) ブロッキング・イベントは、極度の気象、特に気象システムを妨害する長期のブロッキング・イベントの重要な原因である。 しかし、ブロックイベントの期間は、気候モデルでは過小評価されている。 説明可能な人工知能(Explainable Artificial Intelligence)は、長いブロッキングイベントの物理的原因を特定し、モデルの欠陥を診断するのに役立つ、データ分析手法のクラスである。 このアプローチを、Marshall and Molteni (1993) によって開発された理想化された準地球栄養モデル上で実証する。 我々は、畳み込みニューラルネットワーク(CNN)を訓練し、その後、初期高圧異常を条件とした大西洋封鎖の持続性に対するスパース予測モデルを構築した。 Shapley Additive ExPlanation (SHAP) 分析により、大西洋上のトラフによって分離された米国南東部と北大西洋の高圧異常が、大西洋地域の持続的なブロッキング現象の予測に大きく貢献していることが明らかになった。 これは、ウェーブトレイン解析を通じて同一領域の前駆体を特定する以前の研究と一致している。 ERA5大気再分析におけるブロックに同じCNNを適用すると、持続的ブロックを正確に予測するデータは不十分である。 我々は、マーシャル・モルテニモデルの豊富なデータに基づいてCNNを事前訓練し、トランスファーラーニングを用いて直接訓練よりも優れた予測を行うことにより、この制限を部分的に克服する。 移行学習前後のSHAP分析は、再解析における予測的特徴と準ゲオゾフィックモデルの比較を可能にし、理想化されたモデルにおける動的バイアスを定量化する。 この研究は、極端な気象事象の有意義な前駆体を抽出し、限られた観測データを用いてより良い予測を行う機械学習手法の可能性を示す。

Blocking events are an important cause of extreme weather, especially long-lasting blocking events that trap weather systems in place. The duration of blocking events is, however, underestimated in climate models. Explainable Artificial Intelligence are a class of data analysis methods that can help identify physical causes of prolonged blocking events and diagnose model deficiencies. We demonstrate this approach on an idealized quasigeostrophic model developed by Marshall and Molteni (1993). We train a convolutional neural network (CNN), and subsequently, build a sparse predictive model for the persistence of Atlantic blocking, conditioned on an initial high-pressure anomaly. Shapley Additive ExPlanation (SHAP) analysis reveals that high-pressure anomalies in the American Southeast and North Atlantic, separated by a trough over Atlantic Canada, contribute significantly to prediction of sustained blocking events in the Atlantic region. This agrees with previous work that identified precursors in the same regions via wave train analysis. When we apply the same CNN to blockings in the ERA5 atmospheric reanalysis, there is insufficient data to accurately predict persistent blocks. We partially overcome this limitation by pre-training the CNN on the plentiful data of the Marshall-Molteni model, and then using Transfer Learning to achieve better predictions than direct training. SHAP analysis before and after transfer learning allows a comparison between the predictive features in the reanalysis and the quasigeostrophic model, quantifying dynamical biases in the idealized model. This work demonstrates the potential for machine learning methods to extract meaningful precursors of extreme weather events and achieve better prediction using limited observational data.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 捕捉イオン量子コンピュータ上のステアン符号に符号化された論理的3量子量子フーリエ変換のベンチマーク

Benchmarking logical three-qubit quantum Fourier transform encoded in the Steane code on a trapped-ion quantum computer ( http://arxiv.org/abs/2404.08616v1 )

ライセンス: Link先を確認
Karl Mayer, Ciarán Ryan-Anderson, Natalie Brown, Elijah Durso-Sabina, Charles H. Baldwin, David Hayes, Joan M. Dreiling, Cameron Foltz, John P. Gaebler, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Jacob Johansen, Tanner Mengle, Michael Mills, Steven A. Moses, Peter E. Siegfried, Brian Neyenhuis, Juan Pino, Russell Stutz, (参考訳) 量子フーリエ変換(QFT)のために論理的に符号化された3量子ビット回路を[7,1,3]ステアン符号を用いて実装し、量子H2-1トラップイオン量子コンピュータ上で回路をベンチマークする。 回路には複数の論理的2量子ゲートが必要で、これはトランスバース的に実装され、また非フォールトトレラントな状態準備とテレポーテーションガジェットによって実行される論理的非クリフォード単量子回転も必要である。 まず、論理的2ビットゲートに対するランダム化ベンチマークと、論理的$T$ゲートに対するラムゼー型実験を用いて、個々の論理的成分をベンチマークする。 次に、論理制御を行うための2つの異なる方法を用いて完全なQFT回路を実装し、プロセスの忠実度を低くするのに十分なベースセットの各々の基底状態に適用することで、回路をベンチマークする。 論理的QFTベンチマークの結果を,論理的成分ベンチマークに基づく予測と比較する。

We implement logically encoded three-qubit circuits for the quantum Fourier transform (QFT), using the [[7,1,3]] Steane code, and benchmark the circuits on the Quantinuum H2-1 trapped-ion quantum computer. The circuits require multiple logical two-qubit gates, which are implemented transversally, as well as logical non-Clifford single-qubit rotations, which are performed by non-fault-tolerant state preparation followed by a teleportation gadget. First, we benchmark individual logical components using randomized benchmarking for the logical two-qubit gate, and a Ramsey-type experiment for the logical $T$ gate. We then implement the full QFT circuit, using two different methods for performing a logical control-$T$, and benchmark the circuits by applying it to each basis state in a set of bases that is sufficient to lower bound the process fidelity. We compare the logical QFT benchmark results to predictions based on the logical component benchmarks.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# セルビアにおける質問応答のための変換器モデルの合成データセット作成と微調整

Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian ( http://arxiv.org/abs/2404.08617v1 )

ライセンス: Link先を確認
Aleksa Cvetanović, Predrag Tadić, (参考訳) 本稿では,適応型Translate-Align-Retrieve法を用いて,合成質問応答(QA)データセットを生成することに焦点を当てる。 この手法を用いて,87K以上のサンプルからなるセルビアのQAデータセットを作成し,SQuAD-srと命名した。 セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。 データセットの品質を調査し,事前学習したいくつかのQAモデルを微調整する。 最高の結果は、我々のラテンSQuAD-srデータセットでBERTi\'cモデルを微調整し、ベンチマークXQuADデータセットで73.91%のExact Matchと82.97%のF1スコアを獲得し、評価のためにセルビア語に翻訳した。 その結果,本モデルはゼロショットベースラインを超えるが,人的性能を超えないことがわかった。 複数言語にまたがる単言語事前学習モデルを使用することの利点と,キリル語にラテン語を使うことによる性能向上に留意する。 追加分析を行うことで、数値値や日付に関する質問は、他の種類の質問よりも正しく答えられる可能性が高いことを示す。 最後に,SQuAD-srは手作業による注釈付きデータセットがない場合に,セルビアのQAモデルを微調整するのに十分な品質である,という結論を得た。

In this paper, we focus on generating a synthetic question answering (QA) dataset using an adapted Translate-Align-Retrieve method. Using this method, we created the largest Serbian QA dataset of more than 87K samples, which we name SQuAD-sr. To acknowledge the script duality in Serbian, we generated both Cyrillic and Latin versions of the dataset. We investigate the dataset quality and use it to fine-tune several pre-trained QA models. Best results were obtained by fine-tuning the BERTi\'c model on our Latin SQuAD-sr dataset, achieving 73.91% Exact Match and 82.97% F1 score on the benchmark XQuAD dataset, which we translated into Serbian for the purpose of evaluation. The results show that our model exceeds zero-shot baselines, but fails to go beyond human performance. We note the advantage of using a monolingual pre-trained model over multilingual, as well as the performance increase gained by using Latin over Cyrillic. By performing additional analysis, we show that questions about numeric values or dates are more likely to be answered correctly than other types of questions. Finally, we conclude that SQuAD-sr is of sufficient quality for fine-tuning a Serbian QA model, in the absence of a manually crafted and annotated dataset.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# インフォメーションフローを使って開発者間の干渉を見積もる

Using Information Flow to estimate interference between developers same method contributions ( http://arxiv.org/abs/2404.08619v1 )

ライセンス: Link先を確認
Roberto Souto Maior de Barros Filho, Paulo Borba, (参考訳) この作業の主な目的は、ソフトウェアのリークを発見するために使用されるセキュリティ技術であるInformation Flow Control(IFC)が、統合シナリオにおける開発者のコントリビューション間の動的セマンティックコンフリクトの存在を示すために使用できるかどうかを理解することである。 しかしながら、動的セマンティックコンフリクトが存在すると、システムの期待される振る舞いを理解し、そのような振る舞い仕様をキャプチャ、フォーマライズ、そして推論することが難しい場合、私たちは代わりに、GoguenとMeseguerの干渉の概念のコードレベル適応を検知しようとします。 同じメソッドに対する開発者のコントリビューションによって引き起こされる干渉に、スコープを制限します。 そこで我々は,干渉を推定するために情報フローを利用することができるかを理解するために評価を行う。 特に、JavaプログラムのIFCを行うために、Java Object-sensitive Analysis (JOANA)を使用します。 JOANA は System Dependence Graph (SDG) を用いて Java プログラムの IFC を行う。 さらに、評価したシナリオの約64%で、開発者間の情報フローが同じメソッドのコントリビューションで発生した証拠も提供します。 最後に,同メソッドのコントリビューション間の干渉を推定するために情報フローを使用することの限界を理解するために,開発者間の情報フローを用いた35のシナリオを手動で分析した。 35のシナリオから、実際に干渉があったと考えるのはわずか15のケースだけだった。 情報の流れを検知し干渉しない主な理由として, 変化の性質, 戦略からの過剰なアノテーション, JOANAが認識したフローの保守性, の3つを見出した。 情報フローは干渉を推定するために用いられるが、理想的には偽陽性の数を削減すべきである。

This work's main goal is to understand if Information Flow Control (IFC), a security technique used for discovering leaks in software, could be used to indicate the presence of dynamic semantic conflicts between developers contributions in merge scenarios. However, as defining if a dynamic semantic conflict exists involves understanding the expected behaviour of a system, and as such behavioural specifications are often hard to capture, formalize and reason about, we instead try to detect a code level adaptation of the notion of interference from Goguen and Meseguer. We limit our scope to interference caused by developers contributions on the same method. Therefore, we conduct an evaluation to understand if information flow may be used to estimate interference. In particular, we use Java Object-sensitive Analysis (JOANA) to do the IFC for Java programs. JOANA does the IFC of Java programs by using a System Dependence Graph (SDG), a directed graph representing the information flow through a program. Additionally, we bring evidence that information flow between developers same-method contributions occurred for around 64% of the scenarios we evaluated. Finally, we conducted a manual analysis, on 35 scenarios with information flow between developers same-method contributions, to understand the limitations of using information flow to estimate interference between same-method contributions. From the 35 analysed scenarios, for only 15 we considered that an interference in fact existed. We found three different major reasons for detecting information flow and no interference: cases related to the nature of changes, to excessive annotation from our strategy and to the conservativeness of the flows identified by JOANA. We conclude that information flow may be used to estimate interference, but, ideally, the number of false positives should be reduced.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# ニューラルネットを訓練する正規化グラディエント・クリッピング

Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks ( http://arxiv.org/abs/2404.08624v1 )

ライセンス: Link先を確認
Matteo Tucat, Anirbit Mukherjee, (参考訳) 本研究では、勾配クリッピングアルゴリズムの正規化形式をインスタンス化し、網の幅が十分であるようなディープニューラルネットワーク損失関数の大域的最小値に収束できることを証明する。 我々は、我々の理論的に確立された正規化勾配クリッピングアルゴリズムが、最先端のディープラーニングヒューリスティックと競合する経験的証拠を提示する。 したがって、ここで提示されるアルゴリズムは厳密なディープラーニングに対する新しいアプローチを構成する。 標準勾配クリッピングへの修正はPL*条件を利用するように設計されており、これはPolyak-Lojasiewicz不等式の変種である。

In this work, we instantiate a regularized form of the gradient clipping algorithm and prove that it can converge to the global minima of deep neural network loss functions provided that the net is of sufficient width. We present empirical evidence that our theoretically founded regularized gradient clipping algorithm is also competitive with the state-of-the-art deep-learning heuristics. Hence the algorithm presented here constitutes a new approach to rigorous deep learning. The modification we do to standard gradient clipping is designed to leverage the PL* condition, a variant of the Polyak-Lojasiewicz inequality which was recently proven to be true for various neural networks for any depth within a neighborhood of the initialisation.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 大都市ファイバを用いた高速度高密度偏光共役光子の自動分布

Automated distribution of high-rate, high-fidelity polarization entangled photons using deployed metropolitan fibers ( http://arxiv.org/abs/2404.08626v1 )

ライセンス: Link先を確認
Alexander N. Craddock, Anne Lazenby, Gabriel Bello Portmann, Rourke Sekelsky, Mael Flament, Mehdi Namazi, (参考訳) 高忠実で高速な通信インフラへの絡み合いは、量子暗号化やネットワーク保護、ブラインド量子コンピューティング、分散量子コンピューティング、分散量子センシングなどの応用を可能にする、大規模量子ネットワークへの主要な道の1つである。 しかし、現実世界のファイバインフラストラクチャで動作している絡み合った光子の脆弱な性質は、歴史的にそのようなネットワークの連続的な動作に制限されている。 ここでは、ニューヨーク市内の34kmの光ファイバー上に偏光束縛された光子を分散できる完全自動システムを提案する。 ほぼ5-times10^5$ペア/sのエンドツーエンドペア率と約99-%のエンタングルメント忠実度を実現している。 同時に、ネットワークアップタイムが99.84\%$の15日間の継続的分散を実現しています。 我々の研究は24/7の絡み合いに基づくネットワークの実践的展開の道を開いた。

Distributing high-fidelity, high-rate entanglement over telecommunication infrastructure is one of the main paths towards large-scale quantum networks, enabling applications such as quantum encryption and network protection, blind quantum computing, distributed quantum computing, and distributed quantum sensing. However, the fragile nature of entangled photons operating in real-world fiber infrastructure has historically limited continuous operation of such networks. Here, we present a fully automated system capable of distributing polarization entangled photons over a 34 km deployed fiber in New York City. We achieve end-to-end pair rates of nearly $5\times10^5$ pairs/s and entanglement fidelity of approximately $99\%$. Separately, we achieve 15 days of continuous distribution, with a network up-time of $99.84\%$. Our work paves the way for practical deployment of 24/7 entanglement-based networks with rates and fidelity adequate for many current and future use-cases.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# ChatGPTは学者の書き方を変えるか?

Is ChatGPT Transforming Academics' Writing Style? ( http://arxiv.org/abs/2404.08627v1 )

ライセンス: Link先を確認
Mingmeng Geng, Roberto Trotta, (参考訳) 2018年5月から2024年1月までに提出された100万件のarXiv論文に基づいて,単語の頻度変化の統計的解析により,ChatGPTの文章スタイルのテキスト密度を解析した。 本モデルでは, 注意深いノイズ解析の後, 実抽象とChatGPT修飾抽象(シミュレーションデータ)を混合して校正し, 検証する。 特に計算機科学の分野では、最も単純なプロンプトの1つを「次の文を改訂する」とすると、ChatGPTが修正した抽象文の割合はおよそ35%と見積もられている。 筆者らは,ChatGPTの書体への浸透の肯定的側面と否定的側面の両方について分析を行った。

Based on one million arXiv papers submitted from May 2018 to January 2024, we assess the textual density of ChatGPT's writing style in their abstracts by means of a statistical analysis of word frequency changes. Our model is calibrated and validated on a mixture of real abstracts and ChatGPT-modified abstracts (simulated data) after a careful noise analysis. We find that ChatGPT is having an increasing impact on arXiv abstracts, especially in the field of computer science, where the fraction of ChatGPT-revised abstracts is estimated to be approximately 35%, if we take the output of one of the simplest prompts, "revise the following sentences", as a baseline. We conclude with an analysis of both positive and negative aspects of the penetration of ChatGPT into academics' writing style.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 対話的探索と推薦のための概念的枠組み:会話的探索過程におけるエージェントとヒューマンの相互作用の概念化

A Conceptual Framework for Conversational Search and Recommendation: Conceptualizing Agent-Human Interactions During the Conversational Search Process ( http://arxiv.org/abs/2404.08630v1 )

ライセンス: Link先を確認
Leif Azzopardi, Mateusz Dubiel, Martin Halvey, Jeffery Dalton, (参考訳) 対話型検索タスクは、エージェントとの自然言語対話を通じて、ユーザが情報ニーズを解決できるようにすることを目的としている。 本稿では,ユーザが検索空間を探索し,情報ニーズを解決するためにどのような行動を行うかを説明する,ユーザとエージェントの行動と意図に関する概念的枠組みを開発することを目的とする。 我々は,会話における重要な決定ポイントを議論する前に,エージェントが会話の探索プロセスを成功と満足のいく結論へと導く方法を決定する必要がある,さまざまな行動と意図を概説する。 本論文は, エージェントとユーザ間の会話検索プロセスの概念化を提供し, 対話検索エージェントの研究, 開発, 評価のための枠組みと出発点を提供する。

The conversational search task aims to enable a user to resolve information needs via natural language dialogue with an agent. In this paper, we aim to develop a conceptual framework of the actions and intents of users and agents explaining how these actions enable the user to explore the search space and resolve their information need. We outline the different actions and intents, before discussing key decision points in the conversation where the agent needs to decide how to steer the conversational search process to a successful and/or satisfactory conclusion. Essentially, this paper provides a conceptualization of the conversational search process between an agent and user, which provides a framework and a starting point for research, development and evaluation of conversational search agents.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# FCert: ファンデーションモデル時代におけるロバストなFew-Shot分類

FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models ( http://arxiv.org/abs/2404.08631v1 )

ライセンス: Link先を確認
Yanting Wang, Wei Zou, Jinyuan Jia, (参考訳) ファンデーションモデル(例えば、CLIP、DINOv2、PaLM-2)を使ったほとんどショットの分類では、分類タスクのためにいくつかのラベル付きトレーニングサンプル(サポートサンプルと呼ばれる)で正確な分類器を構築することができる。 しかし、攻撃者は、いくつかのサポートサンプルを操作することでデータ中毒攻撃を行うことができ、分類器は、テスト入力に対して攻撃者が欲しがる任意の予測を行う。 実証的な防御は形式的な堅牢性を保証することができないため、攻撃者と防御者の間の猫とマウスのゲームに繋がる。 既存の認証された防御は、従来の教師付き学習のために設計されており、結果として、数発の分類に拡張された際の準最適性能をもたらす。 本研究で提案するFCertは,データ中毒攻撃に対する最初の認証された防御であり,数発の分類である。 筆者らのFCertは, 有毒な支持サンプルの総数が拘束されている場合, 任意のデータ中毒攻撃を受けた場合, テスト入力について, 同じラベルを確実に予測することを示した。 視覚領域とテキスト領域の両方でOpenAI、Meta、Googleがリリースした基礎モデルを用いて、ベンチマーク数ショットの分類データセットについて広範な実験を行った。 実験結果からFCertが得られました。 1)攻撃なしで分類精度を維持する。 2)データ中毒攻撃に対する既成の最先端の防犯を上回り、 3) 効率的で汎用性が高い。

Few-shot classification with foundation models (e.g., CLIP, DINOv2, PaLM-2) enables users to build an accurate classifier with a few labeled training samples (called support samples) for a classification task. However, an attacker could perform data poisoning attacks by manipulating some support samples such that the classifier makes the attacker-desired, arbitrary prediction for a testing input. Empirical defenses cannot provide formal robustness guarantees, leading to a cat-and-mouse game between the attacker and defender. Existing certified defenses are designed for traditional supervised learning, resulting in sub-optimal performance when extended to few-shot classification. In our work, we propose FCert, the first certified defense against data poisoning attacks to few-shot classification. We show our FCert provably predicts the same label for a testing input under arbitrary data poisoning attacks when the total number of poisoned support samples is bounded. We perform extensive experiments on benchmark few-shot classification datasets with foundation models released by OpenAI, Meta, and Google in both vision and text domains. Our experimental results show our FCert: 1) maintains classification accuracy without attacks, 2) outperforms existing state-of-the-art certified defenses for data poisoning attacks, and 3) is efficient and general.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# 少ないトーケンを用いた小形鋼板のプレトレーニング

Pre-training Small Base LMs with Fewer Tokens ( http://arxiv.org/abs/2404.08634v1 )

ライセンス: Link先を確認
Sunny Sanyal, Sujay Sanghavi, Alexandros G. Dimakis, (参考訳) 提案手法は,既存の大規模 LM から始まる小さなベース言語モデル (LM) を構築するための単純なアプローチの有効性について検討する。まず,大規模 LM からいくつかのトランスフォーマーブロックを継承し,この小さなモデルを大規模 LM の生事前学習データの非常に小さなサブセット (0.1 %) で訓練する。 簡単なレシピをInherituneと呼び、1Bトークン(および3Bパラメータの大きなLMの開始数層)を使用して1.5Bパラメータを持つ小さなベースLMを構築するために、まずそれをデモします。 9つの多様な評価データセットとMMLUベンチマークで、結果として得られたモデルは、50~1000倍のトークンを使用してトレーニングされた1B-2Bサイズの公開ベースモデルと好適に比較できる。 我々はInherituneを少し異なる環境で調査し、より大きなLMと完全な事前学習データセットを用いて小さなLMを訓練する。 ここでは, GPT2-medium (355M) と GPT-2-large (770M) の層を利用してトレーニングされた小規模なLMが,OpenWebTextデータセットの9Bトークンによるトレーニングステップと同じ数に対して,スクラッチからトレーニングを行った場合の,より大きなレイヤの損失に効果的に対応可能であることを示す。 レシピを広範囲な実験で分析し,多種多様な設定で有効性を示す。 私たちのコードはhttps://github.com/sanyalsunny111/LLM-Inherituneで利用可能です。

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# ビジュアルファウンデーションモデルにおける3次元認識の探索

Probing the 3D Awareness of Visual Foundation Models ( http://arxiv.org/abs/2404.08636v1 )

ライセンス: Link先を確認
Mohamed El Banani, Amit Raj, Kevis-Kokitsi Maninis, Abhishek Kar, Yuanzhen Li, Michael Rubinstein, Deqing Sun, Leonidas Guibas, Justin Johnson, Varun Jampani, (参考訳) 大規模プレトレーニングの最近の進歩は、強力な機能を持つ視覚基盤モデルを生み出している。 最近のモデルは、トレーニングタスクの任意の画像に一般化できるだけでなく、その中間表現は検出やセグメンテーションといった他の視覚的タスクにも有用である。 そのようなモデルが2Dでオブジェクトを分類、デライン化し、ローカライズできることを考えると、それらがそれらの3D構造を表わすかどうかを問う。 本研究では,視覚基盤モデルの3次元認識を分析する。 我々は,(1)表現がシーンの3次元構造をエンコードし,(2)図面を連続的に表現することを3次元認識が意味していると仮定する。 凍結した特徴に対するタスク固有プローブとゼロショット推論手順を用いて一連の実験を行う。 我々の実験は、現在のモデルのいくつかの制限を明らかにした。 私たちのコードと分析はhttps://github.com/mbanani/probe3d.comで確認できます。

Recent advances in large-scale pretraining have yielded visual foundation models with strong capabilities. Not only can recent models generalize to arbitrary images for their training task, their intermediate representations are useful for other visual tasks such as detection and segmentation. Given that such models can classify, delineate, and localize objects in 2D, we ask whether they also represent their 3D structure? In this work, we analyze the 3D awareness of visual foundation models. We posit that 3D awareness implies that representations (1) encode the 3D structure of the scene and (2) consistently represent the surface across views. We conduct a series of experiments using task-specific probes and zero-shot inference procedures on frozen features. Our experiments reveal several limitations of the current models. Our code and analysis can be found at https://github.com/mbanani/probe3d.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# COCONut:COCOセグメンテーションの近代化

COCONut: Modernizing COCO Segmentation ( http://arxiv.org/abs/2404.08639v1 )

ライセンス: Link先を確認
Xueqing Deng, Qihang Yu, Peng Wang, Xiaohui Shen, Liang-Chieh Chen, (参考訳) 最近の数十年間、ビジョンコミュニティは、部分的にはデータセットのベンチマークの進歩のために、視覚認識の顕著な進歩を目撃してきた。 特に、確立されたCOCOベンチマークは、近代的な検出とセグメンテーションシステムの開発を推進している。 しかし、COCOセグメンテーションのベンチマークは、ここ10年で比較的緩やかに改善されている。 もともとは粗い多角形アノテーションが備わっていたが、次第に粗いスーパーピクセルアノテーションをモノの領域に組み込んでいき、その後、汎視的セグメンテーションアノテーションを得るためにヒューリスティックに融合した。 これらのアノテーションは、アレーダの異なるグループによって実行され、粗いセグメンテーションマスクだけでなく、セグメンテーションタイプ間の矛盾も生じている。 本研究ではCOCOセグメンテーションアノテーションの総合的な再評価を行う。 アノテーションの品質を高め,5.18M以上のパノラママスクを用いた383K画像にデータセットを拡張することにより,COCO Next Universal segmenTationデータセットであるCOCONutを導入する。 COCONutはセグメンテーションアノテーションをセグメンテーション、セグメンテーション、パノプティクスセグメンテーションと調和させ、すべてのセグメンテーションタスクに対して堅牢なベンチマークを確立する。 我々の知る限り、COCONutは人間のレーダによって検証された、最初の大規模な普遍的セグメンテーションデータセットである。 我々は、COCONutのリリースが、新しいニューラルネットワークの進歩を評価するコミュニティの能力に大きく貢献することを期待している。

In recent decades, the vision community has witnessed remarkable progress in visual recognition, partially owing to advancements in dataset benchmarks. Notably, the established COCO benchmark has propelled the development of modern detection and segmentation systems. However, the COCO segmentation benchmark has seen comparatively slow improvement over the last decade. Originally equipped with coarse polygon annotations for thing instances, it gradually incorporated coarse superpixel annotations for stuff regions, which were subsequently heuristically amalgamated to yield panoptic segmentation annotations. These annotations, executed by different groups of raters, have resulted not only in coarse segmentation masks but also in inconsistencies between segmentation types. In this study, we undertake a comprehensive reevaluation of the COCO segmentation annotations. By enhancing the annotation quality and expanding the dataset to encompass 383K images with more than 5.18M panoptic masks, we introduce COCONut, the COCO Next Universal segmenTation dataset. COCONut harmonizes segmentation annotations across semantic, instance, and panoptic segmentation with meticulously crafted high-quality masks, and establishes a robust benchmark for all segmentation tasks. To our knowledge, COCONut stands as the inaugural large-scale universal segmentation dataset, verified by human raters. We anticipate that the release of COCONut will significantly contribute to the community's ability to assess the progress of novel neural networks.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# EventEgo3D:エゴセントリックなイベントストリームからの3Dヒューマンモーションキャプチャ

EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams ( http://arxiv.org/abs/2404.08640v1 )

ライセンス: Link先を確認
Christen Millerdurai, Hiroyasu Akada, Jian Wang, Diogo Luvizon, Christian Theobalt, Vladislav Golyanik, (参考訳) 単眼のエゴセントリックな3Dモーションキャプチャは、挑戦的で活発に研究されている問題である。 既存の方法は、同期的に動作する視覚センサー(例えばRGBカメラ)を使用し、低照度と高速な動作で失敗することが多く、ヘッドマウントデバイスを含む多くのアプリケーションで制限される可能性がある。 既存の制限に応えて,本論文は, 1)魚眼レンズ付き自我中心型単眼イベントカメラからの3次元モーションキャプチャーという新しい問題を導入する。 EventEgo3D (EE3D) と呼ばれる最初のアプローチを提案する。 イベントストリームは、時間分解能が高く、高速な人間の動作下での3次元モーションキャプチャーと、急速に変化する照明のための信頼性の高い手がかりを提供する。 提案するEE3Dフレームワークは,LNES表現におけるイベントストリームの学習に特化して,高い3D再構成精度を実現する。 また、イベントカメラを備えた携帯型ヘッドマウントデバイスのプロトタイプを設計し、実際のデータセットにイベント観測と地上3D人間のポーズ(合成データセットに加えて)を記録する。 我々のEE3Dは、リアルタイム3Dポーズ更新レートを140Hzでサポートしながら、様々な挑戦的な実験における既存のソリューションと比較して、堅牢性と優れた3D精度を示す。

Monocular egocentric 3D human motion capture is a challenging and actively researched problem. Existing methods use synchronously operating visual sensors (e.g. RGB cameras) and often fail under low lighting and fast motions, which can be restricting in many applications involving head-mounted devices. In response to the existing limitations, this paper 1) introduces a new problem, i.e., 3D human motion capture from an egocentric monocular event camera with a fisheye lens, and 2) proposes the first approach to it called EventEgo3D (EE3D). Event streams have high temporal resolution and provide reliable cues for 3D human motion capture under high-speed human motions and rapidly changing illumination. The proposed EE3D framework is specifically tailored for learning with event streams in the LNES representation, enabling high 3D reconstruction accuracy. We also design a prototype of a mobile head-mounted device with an event camera and record a real dataset with event observations and the ground-truth 3D human poses (in addition to the synthetic dataset). Our EE3D demonstrates robustness and superior 3D accuracy compared to existing solutions across various challenging experiments while supporting real-time 3D pose update rates of 140Hz.
翻訳日:2024-04-15 14:18:01 公開日:2024-04-12
# FloCoDe: 時間一貫性と相関バイアスを考慮した非バイアス動的シーングラフ生成

FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing ( http://arxiv.org/abs/2310.16073v3 )

ライセンス: Link先を確認
Anant Khandelwal, (参考訳) ビデオからの動的シーングラフ生成(SGG)は、シーン全体にわたるオブジェクトの包括的な理解だけでなく、時間的動きと異なるオブジェクトとの相互作用をキャプチャする手法も必要である。 さらに、視覚的関係の長期分布は、ほとんどの動的SGG法にとって重要なボトルネックである。 これは、多くの場合、複雑なアーキテクチャを使って時空間をキャプチャすることに集中しており、バイアスのあるシーングラフが生成されるためである。 これらの課題に対処するために、フロー対応の時間一貫性と相関デバイアスを、非バイアスの動的シーングラフに対する不確実性の減衰と併用するFloCoDeを提案する。 FloCoDeでは、フローを使ってフレーム間の時間的に一貫したオブジェクトを検出する。 視覚的関係の長期的問題に対処するために、長い尾を持つクラスに対する非バイアス付き関係表現を学習するために相関バイアスとラベル相関に基づく損失を提案する。 具体的には,コントラッシブ・ロスを用いてラベル相関を組み込むことにより,長い尾を持つクラスに対するロバストな表現の学習を支援する共通共起関係を捉えることを提案する。 さらに,SGGデータにおけるノイズの多いアノテーションを扱うために,不確実性減衰に基づく分類器フレームワークを採用する。 大規模な実験的評価により、パフォーマンスは4.1%まで向上し、より偏りのないシーングラフを生成するという優位性を示している。

Dynamic scene graph generation (SGG) from videos requires not only a comprehensive understanding of objects across scenes but also a method to capture the temporal motions and interactions with different objects. Moreover, the long-tailed distribution of visual relationships is a crucial bottleneck for most dynamic SGG methods. This is because many of them focus on capturing spatio-temporal context using complex architectures, leading to the generation of biased scene graphs. To address these challenges, we propose FloCoDe: Flow-aware Temporal Consistency and Correlation Debiasing with uncertainty attenuation for unbiased dynamic scene graphs. FloCoDe employs feature warping using flow to detect temporally consistent objects across frames. To address the long-tail issue of visual relationships, we propose correlation debiasing and a label correlation-based loss to learn unbiased relation representations for long-tailed classes. Specifically, we propose to incorporate label correlations using contrastive loss to capture commonly co-occurring relations, which aids in learning robust representations for long-tailed classes. Further, we adopt the uncertainty attenuation-based classifier framework to handle noisy annotations in the SGG data. Extensive experimental evaluation shows a performance gain as high as 4.1%, demonstrating the superiority of generating more unbiased scene graphs.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# ドローンの短期対長期協調:分散最適化が深層強化学習と出会うとき

Short vs. Long-term Coordination of Drones: When Distributed Optimization Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2311.09852v5 )

ライセンス: Link先を確認
Chuhao Qin, Evangelos Pournaras, (参考訳) リチャージ技術をサポートする自律型インタラクティブドローンの群れは、交通監視や災害対応など、スマートシティーに魅力的なセンシング機能を提供する。 本稿では,コスト効率の高いナビゲーション,センシング,リチャージのための新しいコーディネートソリューションの提供を目的とする。 ディープラーニング(DRL)のような既存のアプローチは、長期適応性を提供するが、動的環境におけるエネルギー効率、レジリエンス、柔軟性に欠ける。 そこで本研究では,各ドローンがDRLを用いて飛行方向と充電位置を独立に決定すると同時に,分散最適化によるナビゲーションとセンシングを適応し,検知時のエネルギー効率を向上する手法を提案する。 さらに、構造木通信モデルを介して意思決定自律性を保ちながら、効率的に情報交換を行う。 現実的な都市移動から生成されたデータセットによる大規模な実験は、最先端の手法と比較して、提案手法の卓越した性能を示している。 重要な新たな洞察は、長期的手法が交通管理に欠かせないドローン資源を最適化する一方で、短期的手法の統合は充電ポリシーの助言とバッテリーの安全性維持に不可欠であることを示している。

Swarms of autonomous interactive drones, with the support of recharging technology, can provide compelling sensing capabilities in Smart Cities, such as traffic monitoring and disaster response. This paper aims to deliver a novel coordination solution for the cost-effective navigation, sensing, and recharging of drones. Existing approaches, such as deep reinforcement learning (DRL), offer long-term adaptability, but lack energy efficiency, resilience, and flexibility in dynamic environments. Therefore, this paper proposes a novel approach where each drone independently determines its flying direction and recharging place using DRL, while adapting navigation and sensing through distributed optimization, which improves energy-efficiency during sensing tasks. Furthermore, drones efficiently exchange information while retaining decision-making autonomy via a structured tree communication model. Extensive experimentation with datasets generated from realistic urban mobility underscores an outstanding performance of the proposed solution compared to state-of-the-art methods. Significant new insights show that long-term methods optimize scarce drone resource for traffic management, while the integration of short-term methods is crucial for advising on charging policies and maintaining battery safety.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# 処理効果推定のための表現誘発共起バイアスの境界

Bounds on Representation-Induced Confounding Bias for Treatment Effect Estimation ( http://arxiv.org/abs/2311.11321v3 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel, (参考訳) 条件平均処理効果(CATE)推定のための最先端手法は、表現学習を広く活用する。 ここでは、(潜在的に制約された)低次元表現による低サンプルCATE推定のばらつきを低減する。 しかし、低次元の表現は、観測された共同設立者に関する情報を失う可能性があり、その結果、CATE推定のための表現学習の妥当性が典型的に侵害されるため、バイアスにつながる。 本稿では,CATE推定における次元減少(あるいは表現上の他の制約)から生じる表現誘発共起バイアスの境界を推定する,表現に依存しない新しい難読化フレームワークを提案する。 まず、CATEが低次元(制約付き)表現を非識別する条件を理論的に確立する。 第二に,我々はCATEの部分的同定を行うニューラル・リフューテーション・フレームワークを提案する。 我々は一連の実験において境界の有効性を実証する。 まとめると、我々の難燃フレームワークは、CATE推定の有効性が重要である実践において、直接的な関連性を持っている。

State-of-the-art methods for conditional average treatment effect (CATE) estimation make widespread use of representation learning. Here, the idea is to reduce the variance of the low-sample CATE estimation by a (potentially constrained) low-dimensional representation. However, low-dimensional representations can lose information about the observed confounders and thus lead to bias, because of which the validity of representation learning for CATE estimation is typically violated. In this paper, we propose a new, representation-agnostic refutation framework for estimating bounds on the representation-induced confounding bias that comes from dimensionality reduction (or other constraints on the representations) in CATE estimation. First, we establish theoretically under which conditions CATE is non-identifiable given low-dimensional (constrained) representations. Second, as our remedy, we propose a neural refutation framework which performs partial identification of CATE or, equivalently, aims at estimating lower and upper bounds of the representation-induced confounding bias. We demonstrate the effectiveness of our bounds in a series of experiments. In sum, our refutation framework is of direct relevance in practice where the validity of CATE estimation is of importance.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# テキスト表現による心内電図の解釈

Interpretation of Intracardiac Electrograms Through Textual Representations ( http://arxiv.org/abs/2402.01115v3 )

ライセンス: Link先を確認
William Jongwon Han, Diana Gomez, Avi Alok, Chaojing Duan, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao, (参考訳) 心房細動(AFib)の不規則な電気活動を理解することは心電図における重要な課題である。 重篤なAFib症例では、心内電図(EGM)の収集のためにカテーテル・アブレーションが施行される。 EGMは、心臓の複雑な詳細で局所的な電気活動を提供し、解釈可能な心臓研究に理想的なモダリティである。 人工知能(AI)の最近の進歩は、深層学習フレームワークを使用して、AFib中にEGMを解釈する作業を可能にしている。 さらに、言語モデル(LM)は、特に医療において、目に見えない領域に一般化できるという、例外的な性能を示している。 本研究では,マスク付き言語モデリングによるEMG補間とAFib分類の微調整に事前学習したLMを初めて活用する。 テキストシーケンスとしてEGMを定式化し、他の表現と比較してAFib分類における競合性能を示す。 最後に, モデル行動の多視点的直観を提供するための総合的解釈可能性研究を行い, 臨床応用に大きな恩恵をもたらす可能性がある。

Understanding the irregular electrical activity of atrial fibrillation (AFib) has been a key challenge in electrocardiography. For serious cases of AFib, catheter ablations are performed to collect intracardiac electrograms (EGMs). EGMs offer intricately detailed and localized electrical activity of the heart and are an ideal modality for interpretable cardiac studies. Recent advancements in artificial intelligence (AI) has allowed some works to utilize deep learning frameworks to interpret EGMs during AFib. Additionally, language models (LMs) have shown exceptional performance in being able to generalize to unseen domains, especially in healthcare. In this study, we are the first to leverage pretrained LMs for finetuning of EGM interpolation and AFib classification via masked language modeling. We formulate the EGM as a textual sequence and present competitive performances on AFib classification compared against other representations. Lastly, we provide a comprehensive interpretability study to provide a multi-perspective intuition of the model's behavior, which could greatly benefit the clinical use.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# マルチスケールサブグラフコントラスト学習

Multi-Scale Subgraph Contrastive Learning ( http://arxiv.org/abs/2403.02719v3 )

ライセンス: Link先を確認
Yanbei Liu, Yu Zhao, Xiao Wang, Lei Geng, Zhitao Xiao, (参考訳) グラフレベルのコントラスト学習は、2つの拡張グラフを対比して各グラフの表現を学習することを目的としており、注目されている。 先行研究は通常、グラフとその拡張グラフを正の対、さもなくば負の対と仮定する。 しかし、グラフ構造は常に複雑でマルチスケールであることはよく知られており、これは根本的な疑問を引き起こしている。 実験により、拡張グラフ構造の意味情報は元のグラフ構造と一致しない可能性があり、2つの拡張グラフが正か負のペアかが、マルチスケール構造と強く関連していることが判明した。 そこで本研究では,微粒な意味情報を特徴付けることができるマルチスケール・サブグラフ・コントラスト学習アーキテクチャを提案する。 具体的には、サブグラフサンプリングに基づいて、異なるスケールでグローバルおよびローカルなビューを生成し、それらのセマンティックアソシエーションに基づいて複数のコントラスト関係を構築し、よりリッチな自己教師付き信号を提供する。 8つのグラフ分類実世界のデータセットの大規模な実験とパラメトリック分析により,提案手法の有効性がよく示されている。

Graph-level contrastive learning, aiming to learn the representations for each graph by contrasting two augmented graphs, has attracted considerable attention. Previous studies usually simply assume that a graph and its augmented graph as a positive pair, otherwise as a negative pair. However, it is well known that graph structure is always complex and multi-scale, which gives rise to a fundamental question: after graph augmentation, will the previous assumption still hold in reality? By an experimental analysis, we discover the semantic information of an augmented graph structure may be not consistent as original graph structure, and whether two augmented graphs are positive or negative pairs is highly related with the multi-scale structures. Based on this finding, we propose a multi-scale subgraph contrastive learning architecture which is able to characterize the fine-grained semantic information. Specifically, we generate global and local views at different scales based on subgraph sampling, and construct multiple contrastive relationships according to their semantic associations to provide richer self-supervised signals. Extensive experiments and parametric analyzes on eight graph classification real-world datasets well demonstrate the effectiveness of the proposed method.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# CoBra:ロバスト弱監視セマンティックセグメンテーションのための補足分枝融合クラスとセマンティック知識

CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.08801v4 )

ライセンス: Link先を確認
Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang, (参考訳) セグメンテーションのための画像レベルのクラス知識、すなわち、画像レベルのWeakly Supervised Semantic Segmentation (WSSS)から派生した意味論的に正確な擬似マスクを活用することは依然として困難である。 CNNを用いたクラスアクティベーションマップ(CAM)は、WSSSの成功に着実に貢献しているが、結果として得られるアクティベーションマップは、しばしばクラス固有の部分(例えば、人間の顔のみ)に焦点を絞っている。 一方、視覚変換器(ViT)を用いた最近の研究は、セマンティック部分を捕捉する自己認識機構に基づく有望な結果を示しているが、完全なクラス固有の詳細(例えば、人間の全身部分だけでなく、近くに犬と一緒にいるもの)を捉えることに失敗している。 本研究では、クラス(CNN)とセマンティック(ViT)をそれぞれのブランチに有意義な補完的知識を提供する2つの異なるアーキテクチャからなる、新しい二重分岐フレームワークであるComplementary Branch(CoBra)を提案する。 特に、CNNブランチのクラス・アウェア・プロジェクション(CAP)とViTブランチのセマンティック・アウェア・プロジェクション(SAP)を学び、補完的な知識を明確に融合させ、新たなタイプのパッチレベルの監視を容易にする。 我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。 CNNとViTはPASCAL VOC 2012データセット上でどのように相互に補完するかを質的に定量的に検証し、最先端のWSSS結果を示している。 これは、我々のモデルによって生成されるマスクだけでなく、これらのマスクを擬似ラベルとして利用することによって得られるセグメンテーション結果も含まれる。

Leveraging semantically precise pseudo masks derived from image-level class knowledge for segmentation, namely image-level Weakly Supervised Semantic Segmentation (WSSS), still remains challenging. While Class Activation Maps (CAMs) using CNNs have steadily been contributing to the success of WSSS, the resulting activation maps often narrowly focus on class-specific parts (e.g., only face of human). On the other hand, recent works based on vision transformers (ViT) have shown promising results based on their self-attention mechanism to capture the semantic parts but fail in capturing complete class-specific details (e.g., entire body parts of human but also with a dog nearby). In this work, we propose Complementary Branch (CoBra), a novel dual branch framework consisting of two distinct architectures which provide valuable complementary knowledge of class (from CNN) and semantic (from ViT) to each branch. In particular, we learn Class-Aware Projection (CAP) for the CNN branch and Semantic-Aware Projection (SAP) for the ViT branch to explicitly fuse their complementary knowledge and facilitate a new type of extra patch-level supervision. Our model, through CoBra, fuses CNN and ViT's complementary outputs to create robust pseudo masks that integrate both class and semantic information effectively. Extensive experiments qualitatively and quantitatively investigate how CNN and ViT complement each other on the PASCAL VOC 2012 dataset, showing a state-of-the-art WSSS result. This includes not only the masks generated by our model, but also the segmentation results derived from utilizing these masks as pseudo labels.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# MC$^2$:カスタマイズマルチコンセプト生成のためのマルチコンセプトガイダンス

MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation ( http://arxiv.org/abs/2404.05268v2 )

ライセンス: Link先を確認
Jiaxiu Jiang, Yabo Zhang, Kailai Feng, Xiaohe Wu, Wangmeng Zuo, (参考訳) カスタマイズされたテキスト・ツー・イメージ生成は、ユーザ特定概念のインスタンス化を合成することを目的としており、個別概念の扱いにおいて前例のない進歩を遂げている。 しかし、複数のカスタマイズされた概念に拡張する場合、既存の手法は柔軟性と忠実さの限界を示し、限られた種類のモデルの組み合わせを調節するだけであり、異なる概念の特徴が混在する可能性がある。 本稿では,MC$^2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入する。 MC$^2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離し、様々な異種単一概念のカスタマイズモデルの統合を可能にする。 視覚的およびテキスト的トークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中させ、無関係なトークンの影響を減少させる。 MC$^2$は、入力プロンプトや参照画像との整合性において追加の訓練を必要とする従来の手法を超越することを示した。 さらに、MC$^2$はテキスト・画像生成の合成能力を高めるために拡張され、魅力的な結果が得られる。 コードはhttps://github.com/JIANGJiaXiu/MC-2.comで公開される。

Customized text-to-image generation aims to synthesize instantiations of user-specified concepts and has achieved unprecedented progress in handling individual concept. However, when extending to multiple customized concepts, existing methods exhibit limitations in terms of flexibility and fidelity, only accommodating the combination of limited types of models and potentially resulting in a mix of characteristics from different concepts. In this paper, we introduce the Multi-concept guidance for Multi-concept customization, termed MC$^2$, for improved flexibility and fidelity. MC$^2$ decouples the requirements for model architecture via inference time optimization, allowing the integration of various heterogeneous single-concept customized models. It adaptively refines the attention weights between visual and textual tokens, directing image regions to focus on their associated words while diminishing the impact of irrelevant ones. Extensive experiments demonstrate that MC$^2$ even surpasses previous methods that require additional training in terms of consistency with input prompt and reference images. Moreover, MC$^2$ can be extended to elevate the compositional capabilities of text-to-image generation, yielding appealing results. Code will be publicly available at https://github.com/JIANGJiaXiu/MC-2.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# 摂動と最も急激なエントロピー上昇が絡み合いの時間進化に及ぼす影響のモデル化

Modeling the effects of perturbations and steepest entropy ascent on the time evolution of entanglement ( http://arxiv.org/abs/2404.05473v2 )

ライセンス: Link先を確認
Cesar Damian, Robert Holladay, Adriana Saldana, Michael von Spakovsky, (参考訳) この研究は、急激なエントロピーを持つ量子熱力学(SEAQT)の運動方程式、リンドブラッド方程式、および絡み合いの損失の様々な尺度を用いて、摂動ベル対角状態の進化を解析する。 まず、ベル対角状態がSEAQT運動方程式に対する安定平衡状態ではない定常状態であることを示し、近くの状態の進化を研究する摂動法の開発の必要性を強調した短い導出を示す。 これは、ベル対角線状態のいくつかだけが定常であるリンドブラッド運動方程式とは対照的である。 次に2つの摂動法を示す。 第1は双極子系を摂動する一般的な方法であり、第2は系エネルギーと系エントロピー定数を保持するために制約された一元演算の集合に基づく方法である。 密度演算子の集合を各手法でランダムに生成し、その結果のシステムの絡み合いの時間変化特性を解析する。 その結果, 拘束摂動に伴う進化は非局所性の喪失を正確に予測し, 測定されたコンカレンスとよく一致していることが判明した。

This work presents an analysis of the evolution of perturbed Bell diagonal states using the equation of motion of steepest-entropy-ascent quantum thermodynamics (SEAQT), the Lindblad equation, and various measures of loss of entanglement. First, a brief derivation is presented showing that Bell diagonal states are stationary states that are not stable equilibrium states relative to the SEAQT equation of motion, highlighting the need for the development of perturbation methods to study the evolutions of nearby states. This contrasts with the Lindblad equation of motion for which only some of the Bell diagonal states are stationary. Next, two perturbation methods are presented. The first is a general method for perturbing bipartite systems and the second is a method based on a set of unitary operations that are constrained to hold the system energy and system entropy constant. Sets of density operators are randomly generated with each method and the resulting time-varying characteristics of the system's entanglement are analyzed. The findings reveal that the evolutions associated with the constrained perturbations accurately predict the loss of non-locality and align well with the measured concurrence.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# 対数トフォリ数とゲート深さを用いた1量子回転アルゴリズム

Single-qubit rotation algorithm with logarithmic Toffoli count and gate depth ( http://arxiv.org/abs/2404.05618v2 )

ライセンス: Link先を確認
Christoffer Hindlycke, Jan-Åke Larsson, (参考訳) Clifford+Toffoli ゲートセットを用いた単一キュービットに対して、回転 $R_{\theta^\ast}$, $\epsilon$-close を所望の回転 $R_\theta$ に適用するための直接(再帰的でない)アルゴリズムを提案する。 我々のアルゴリズムは固定回転を繰り返すのではなく、直ちに$R_{\theta^\ast}$を適用する。 厳密に1/2$以上の確率で成功し、予想されるトフォリ数対数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線

We propose a direct (non-recursive) algorithm for applying a rotation $R_{\theta^\ast}$, $\epsilon$-close to a desired rotation $R_\theta$, to a single qubit using the Clifford+Toffoli gate set. Our algorithm does not rely on repeatedly applying a fixed rotation, but immediately applies $R_{\theta^\ast}$. It succeeds with probability strictly greater than $1/2$, has an expected number of repetitions strictly less than 2, expected Toffoli count logarithmic in $\tfrac{1}{\epsilon}$, and expected gate depth also logarithmic in $\tfrac{1}{\epsilon}$.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# EasyTrack: 効率的でコンパクトなワンストリーム3Dポイントクラウドトラッカー

EasyTrack: Efficient and Compact One-stream 3D Point Clouds Tracker ( http://arxiv.org/abs/2404.05960v2 )

ライセンス: Link先を確認
Baojie Fan, Wuyang Zhou, Kai Wang, Shijun Zhou, Fengyu Xu, Jiandong Tian, (参考訳) ポイントクラウド内の3Dシングルオブジェクトトラッカー(SOT)のほとんどは、2ストリームのマルチステージ3Dシームス(Motion Tracking)パラダイムに従っており、テンプレートと検索領域のポイントクラウドを2つの並列ブランチで処理し、監督されたポイントクラウドのバックボーン上に構築する。 本研究は,典型的な3Dシームズやモーショントラッキング以外にも,新しい視点から,3つの特殊設計からなる「textbf{EasyTrack}」と呼ばれる,簡潔でコンパクトな1ストリームトランスフォーマー3D SOTパラダイムを提案する。 1)3Dポイントクラウド追跡機能付き事前学習モジュールを開発し、3Dポイントクラウド追跡表現の学習にマスク付きオートエンコーディングを利用する。 2) 目標認識型3次元特徴を同時に学習し, フレキシブルな自己認識機構を通じて相互相関を広範囲に捉えるために, 統合された3次元追跡特徴学習・融合ネットワークを提案する。 3)高密度鳥眼ビュー(BEV)特徴空間における目標位置ネットワークを構築し,目標分類と回帰を行う。 さらに,ノイズポイント雲の背景情報による不明瞭なターゲットを減らすために,中心点相互作用(CPI)戦略を設計するEasyTrack++という拡張版を開発した。 提案されたEasyTrackとEasyTrack++は、KITTI、NuScenes、Waymoで、いくつかのパラメータを持つ \textbf{52.6fps} で実行中に、新しい最先端のパフォーマンス($\textbf{18\%}$, $\textbf{40\%}$, $\textbf{3\%}$ success gains)を設定した。 コードはhttps://github.com/KnightApple427/Easytrack.comから入手できる。

Most of 3D single object trackers (SOT) in point clouds follow the two-stream multi-stage 3D Siamese or motion tracking paradigms, which process the template and search area point clouds with two parallel branches, built on supervised point cloud backbones. In this work, beyond typical 3D Siamese or motion tracking, we propose a neat and compact one-stream transformer 3D SOT paradigm from the novel perspective, termed as \textbf{EasyTrack}, which consists of three special designs: 1) A 3D point clouds tracking feature pre-training module is developed to exploit the masked autoencoding for learning 3D point clouds tracking representations. 2) A unified 3D tracking feature learning and fusion network is proposed to simultaneously learns target-aware 3D features, and extensively captures mutual correlation through the flexible self-attention mechanism. 3) A target location network in the dense bird's eye view (BEV) feature space is constructed for target classification and regression. Moreover, we develop an enhanced version named EasyTrack++, which designs the center points interaction (CPI) strategy to reduce the ambiguous targets caused by the noise point cloud background information. The proposed EasyTrack and EasyTrack++ set a new state-of-the-art performance ($\textbf{18\%}$, $\textbf{40\%}$ and $\textbf{3\%}$ success gains) in KITTI, NuScenes, and Waymo while runing at \textbf{52.6fps} with few parameters (\textbf{1.3M}). The code will be available at https://github.com/KnightApple427/Easytrack.
翻訳日:2024-04-15 12:25:11 公開日:2024-04-12
# 言語モデルジェイルブレイクを評価する方法の再考

Rethinking How to Evaluate Language Model Jailbreak ( http://arxiv.org/abs/2404.06407v2 )

ライセンス: Link先を確認
Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションとますます統合されている。 LLMが安全でない応答を生成しないことを保証するため、制限されたコンテンツを指定するセーフガードと整合している。 しかし、このようなアライメントは、一般的にジェイルブレイクと呼ばれる技法を用いて禁止コンテンツを作成するためにバイパスすることができる。 ジェイルブレイクを自動実行する様々なシステムが提案されている。 これらのシステムは、ジェイルブレイクの試みが成功したかどうかを判断するために評価手法に依存している。 しかし,本分析の結果,現在の脱獄評価法には2つの限界があることが判明した。 1) 目的は明確さを欠き, 安全でない応答を識別する目標と一致しない。 2) 2つの結果としてジェイルブレイク結果を過度に単純化する。 本稿では,言語モデルジェイルブレイクを評価するために,保護侵害,情報性,相対真理性の3つの指標を提案する。 さらに、これらの指標が、異なる悪意あるアクターの目標とどのように相関しているかを示す。 これらのメトリクスを計算するために,応答前処理後の自然言語生成評価手法を拡張する多面的手法を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。 ベンチマークデータセットには3つのアノテーションがラベル付けされている。 多面的アプローチと既存の3つのジェイルブレイク評価手法を比較した。 実験の結果,F1スコアは既存のベースラインに比べて平均17%向上した。 以上の結果から,脱獄問題のバイナリビューから脱却し,言語モデルの安全性を確保するために,より包括的な評価を組み込むことの必要性が示唆された。

Large language models (LLMs) have become increasingly integrated with various applications. To ensure that LLMs do not generate unsafe responses, they are aligned with safeguards that specify what content is restricted. However, such alignment can be bypassed to produce prohibited content using a technique commonly referred to as jailbreak. Different systems have been proposed to perform the jailbreak automatically. These systems rely on evaluation methods to determine whether a jailbreak attempt is successful. However, our analysis reveals that current jailbreak evaluation methods have two limitations. (1) Their objectives lack clarity and do not align with the goal of identifying unsafe responses. (2) They oversimplify the jailbreak result as a binary outcome, successful or not. In this paper, we propose three metrics, safeguard violation, informativeness, and relative truthfulness, to evaluate language model jailbreak. Additionally, we demonstrate how these metrics correlate with the goal of different malicious actors. To compute these metrics, we introduce a multifaceted approach that extends the natural language generation evaluation method after preprocessing the response. We evaluate our metrics on a benchmark dataset produced from three malicious intent datasets and three jailbreak systems. The benchmark dataset is labeled by three annotators. We compare our multifaceted approach with three existing jailbreak evaluation methods. Experiments demonstrate that our multifaceted evaluation outperforms existing methods, with F1 scores improving on average by 17% compared to existing baselines. Our findings motivate the need to move away from the binary view of the jailbreak problem and incorporate a more comprehensive evaluation to ensure the safety of the language model.
翻訳日:2024-04-15 12:17:42 公開日:2024-04-12
# SpikeNVS:スパイクカメラによるBlurry画像からの新たなビュー合成

SpikeNVS: Enhancing Novel View Synthesis from Blurry Images via Spike Camera ( http://arxiv.org/abs/2404.06710v3 )

ライセンス: Link先を確認
Gaole Dai, Zhenyu Wang, Qinwen Xu, Ming Lu, Wen Chen, Boxin Shi, Shanghang Zhang, Tiejun Huang, (参考訳) ニューラルレイディアンス場(NeRF)や3Dガウススプラッティング(3DGS)といったニューラルフィールド法を用いて、鋭いノベルビュー合成(NVS)を実現する上で最も重要な要因の1つは、トレーニング画像の品質である。 しかし、従来のRGBカメラは動きがぼやけやすい。 対照的に、イベントカメラやスパイクカメラのようなニューロモルフィックカメラは、本質的にはより包括的な時間的情報をキャプチャし、追加のトレーニングデータとしてシーンのシャープな表現を提供する。 近年,NVSの品質向上を目的としたイベントカメラの統合が検討されている。 イベント-RGBアプローチには、トレーニングコストの高さや、バックグラウンドで効果的に動作できないことなど、いくつかの制限がある。 その代わりに、スパイクカメラを使ってこれらの制限を克服する新しい方法を紹介した。 スパイクストリームからのテクスチャ再構築を真実として考慮し、スパイク(TfS)損失のテクスチャを設計する。 スパイクカメラは、イベントカメラの時間差ではなく、時間積分に依存しているため、提案したTfS損失は、管理可能なトレーニングコストを維持できる。 背景を持つ前景オブジェクトを同時に処理する。 また、スパイクRGBカメラシステムで捉えた現実世界のデータセットも提供し、将来の研究活動を促進する。 合成および実世界のデータセットを用いて広範な実験を行い、NeRFおよび3DGS間の新規なビュー合成を向上できることを実証する。 コードとデータセットはパブリックアクセスで利用できる。

One of the most critical factors in achieving sharp Novel View Synthesis (NVS) using neural field methods like Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) is the quality of the training images. However, Conventional RGB cameras are susceptible to motion blur. In contrast, neuromorphic cameras like event and spike cameras inherently capture more comprehensive temporal information, which can provide a sharp representation of the scene as additional training data. Recent methods have explored the integration of event cameras to improve the quality of NVS. The event-RGB approaches have some limitations, such as high training costs and the inability to work effectively in the background. Instead, our study introduces a new method that uses the spike camera to overcome these limitations. By considering texture reconstruction from spike streams as ground truth, we design the Texture from Spike (TfS) loss. Since the spike camera relies on temporal integration instead of temporal differentiation used by event cameras, our proposed TfS loss maintains manageable training costs. It handles foreground objects with backgrounds simultaneously. We also provide a real-world dataset captured with our spike-RGB camera system to facilitate future research endeavors. We conduct extensive experiments using synthetic and real-world datasets to demonstrate that our design can enhance novel view synthesis across NeRF and 3DGS. The code and dataset will be made available for public access.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# Llama-VITS:意味的認識によるTS合成の強化

Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness ( http://arxiv.org/abs/2404.06714v2 )

ライセンス: Link先を確認
Xincan Feng, Akifumi Yoshimoto, (参考訳) 自然言語処理(NLP)の最近の進歩は、様々な目的のために高品質なテキストを生成するために、大規模言語モデル(LLM)が優れている。 特に,テキスト音声合成システム(TTS)では,セマンティックトークン生成のためのBERTの統合が,コヒーレント音声出力の生成において意味内容の重要性を強調している。 それにもかかわらず、TS合成の強化におけるLSMの具体的な用途は依然としてかなり限られている。 本研究は,LLMを用いてテキストのセマンティックコンテンツを充実させることにより,TS合成を向上させる,革新的なアプローチであるLlama-VITSを紹介する。 Llama-VITSは、Llama2からのセマンティック埋め込みと、主要なエンドツーエンドTTSフレームワークであるVITSモデルを統合する。 Llama2を一次音声合成プロセスに利用することにより、Llama-VITSが元のVITS(ORI-VITS)とBERT(BERT-VITS)の自然性にマッチすることを示した。 さらに,EmoV_DB_bea_semデータセットの感情的表現性を著しく向上させ,感情的一貫した音声をEmoV_DBデータセットからキュレートし,動機的音声を生成する可能性を強調した。

Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# 放射基底関数とディープニューラルネットワークを用いたパラメトリックPDEの解法

Solving Parametric PDEs with Radial Basis Functions and Deep Neural Networks ( http://arxiv.org/abs/2404.06834v2 )

ライセンス: Link先を確認
Guanhang Lei, Zhen Lei, Lei Shi, Chenyu Zeng, (参考訳) 本稿では,不規則領域におけるパラメトリック偏微分方程式のパラメトリックマッピングを近似することを目的とした,固有直交分解法(POD)削減基底法(RBM)の文脈において,ディープニューラルネットワーク(DNN)と放射基底関数(RBF)を併用した新しいアルゴリズムであるPOD-DNNを提案する。 POD-DNNアルゴリズムは、パラメータ方程式の解多様体の低次元特性と、RBMとDNNの本質的にオフラインの計算戦略を併用する。 数値実験では、POD-DNNはオンラインフェーズにおいて計算速度を大幅に高速化することを示した。 DNNを統合することなくRBFを利用する他のアルゴリズムと比較して、POD-DNNはオンライン推論プロセスにおける計算速度を大幅に改善する。 さらに、妥当な仮定の下では、POD-DNNとのパラメトリックマッピングの近似の複雑さに関する上限を厳格に導出し、アルゴリズムの経験的性能に関する理論的解析を行う。

We propose the POD-DNN, a novel algorithm leveraging deep neural networks (DNNs) along with radial basis functions (RBFs) in the context of the proper orthogonal decomposition (POD) reduced basis method (RBM), aimed at approximating the parametric mapping of parametric partial differential equations on irregular domains. The POD-DNN algorithm capitalizes on the low-dimensional characteristics of the solution manifold for parametric equations, alongside the inherent offline-online computational strategy of RBM and DNNs. In numerical experiments, POD-DNN demonstrates significantly accelerated computation speeds during the online phase. Compared to other algorithms that utilize RBF without integrating DNNs, POD-DNN substantially improves the computational speed in the online inference process. Furthermore, under reasonable assumptions, we have rigorously derived upper bounds on the complexity of approximating parametric mappings with POD-DNN, thereby providing a theoretical analysis of the algorithm's empirical performance.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# 一次元フェルミオンにおけるバイパルタイトの揺らぎの厳密解」について

A note on "Exact Solution of Bipartite Fluctuations in One-Dimensional Fermions" ( http://arxiv.org/abs/2404.06881v2 )

ライセンス: Link先を確認
Oleksandr Gamayun, (参考訳) 自由フェルミオンの1次元系に対して、ドメインウォールの完全な数え上げ統計と交互占有状態の関連を導出する。 後者の場合の偶数モーメントに対して、長い時間で線形成長を導出する。

For a one-dimensional system of free fermions, we derive a connection between the full counting statistics of domain-wall and alternating occupancy states. We derive linear growth with time at the long times for the even moments in the latter case.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# RQMアナロジーにおける量子等方宇宙:宇宙の地平線

Quantum Isotropic Universe in RQM Analogy: the Cosmological Horizon ( http://arxiv.org/abs/2404.07056v2 )

ライセンス: Link先を確認
Gabriele Barca, Luisa Boglioni, Giovanni Montani, (参考訳) 我々は、自由質量のないスカラー場の存在下での等方宇宙の量子力学を考察し、物理時計の役割を担っている。 ヒルベルト空間は、ミニ超空間のホイーラー・デウィット方程式と物理空間の相対論的スカラー方程式の直接的な類似によって構成される。 特に、宇宙の進化における「転回点」の導入によって、膨張し崩壊する宇宙を表現するという本質的な曖昧さを克服できることを示す。 このように、正および負の周波数は単に時間反転状態と同一視される。 本分析の主目的は地平線演算子の構築であり, 初期特異点近傍の漸近的進化を記述するために, 高分子量子力学を実装した際の量子的挙動について検討する。 この選択の理由は、ポリマーの分散関係が量子力学を支配するとき、局所的なウェーブパケットの固有の拡散によって動機づけられる。 量子地平線作用素の平均値がその半古典的挙動(重合のために修正された)に従うという証拠は、因果性の概念が量子宇宙論の図でも復元可能であることを明確に示している。

We investigate the quantum dynamics of the isotropic Universe in the presence of a free massless scalar field, playing the role of a physical clock. The Hilbert space is constructed via a direct analogy between the Wheeler-DeWitt equation in the minisuperspace and a relativistic scalar one in physical space. In particular, we show how the introduction of a "turning point" in the Universe evolution allows to overcome an intrinsic ambiguity in representing the expanding and collapsing Universe. In this way, the positive and negative frequencies are simply identified with time reversed states. The main subject of the present analysis is the construction of a horizon operator, whose quantum behavior is investigated when Polymer Quantum Mechanics is implemented to describe the asymptotic evolution near the initial singularity. The reason of this choice is motivated by the intrinsic spreading of localized wavepackets when the polymer dispersion relation governs the quantum dynamics. The evidence that the mean value of the quantum horizon operator follows its semiclassical behavior (corrected for polymerization) is a clear indication that a concept of causality can be restored also in the quantum cosmological picture.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# BAMBOO:液体電解質開発のための予測および伝達可能な機械学習力場フレームワーク

BAMBOO: a predictive and transferable machine learning force field framework for liquid electrolyte development ( http://arxiv.org/abs/2404.07181v3 )

ライセンス: Link先を確認
Sheng Gong, Yumin Zhang, Zhenliang Mu, Zhichen Pu, Hongyi Wang, Zhiao Yu, Mengyi Chen, Tianze Zheng, Zhi Wang, Lifei Chen, Xiaojie Wu, Shaochen Shi, Weihao Gao, Wen Yan, Liang Xiang, (参考訳) 機械学習力場(MLFF)が固体や小分子に広く応用されているにもかかわらず、複雑な液体電解質にMLFFを適用する際には顕著なギャップがある。 本研究では,分子動力学(MD)シミュレーションのための新しいフレームワークであるBAMBOO(ByteDance AI Molecular Simulation Booster)を紹介する。 我々は、量子力学シミュレーションから学ぶため、BAMBOOのバックボーンとして、物理に着想を得たグラフ同変変変圧器アーキテクチャを設計する。 さらに,本手法をMLFFに適用し,MDシミュレーションの安定性向上を図る。 最後に,BAMBOOを実験値と整合させる密度アライメントアルゴリズムを提案する。 BAMBOOは、密度、粘性、および様々な溶媒と塩の組み合わせにおけるイオン伝導率などの主要な電解質特性を予測するための最先端の精度を示す。 現在のモデルでは15種以上の化学種で訓練し, 各種組成における平均密度誤差0.01g/cm$^3$を実験データと比較した。 さらに,本モデルでは,量子力学的データセットに含まれない分子への転移性を示す。 この研究は、一般的な有機液体の性質をシミュレートできる「ユニバーサルMLFF」への道を開くことを目的としている。

Despite the widespread applications of machine learning force field (MLFF) on solids and small molecules, there is a notable gap in applying MLFF to complex liquid electrolytes. In this work, we introduce BAMBOO (ByteDance AI Molecular Simulation Booster), a novel framework for molecular dynamics (MD) simulations, with a demonstration of its capabilities in the context of liquid electrolytes for lithium batteries. We design a physics-inspired graph equivariant transformer architecture as the backbone of BAMBOO to learn from quantum mechanical simulations. Additionally, we pioneer an ensemble knowledge distillation approach and apply it on MLFFs to improve the stability of MD simulations. Finally, we propose the density alignment algorithm to align BAMBOO with experimental measurements. BAMBOO demonstrates state-of-the-art accuracy in predicting key electrolyte properties such as density, viscosity, and ionic conductivity across various solvents and salt combinations. Our current model, trained on more than 15 chemical species, achieves the average density error of 0.01 g/cm$^3$ on various compositions compared with experimental data. Moreover, our model demonstrates transferability to molecules not included in the quantum mechanical dataset. We envision this work as paving the way to a "universal MLFF" capable of simulating properties of common organic liquids.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# 資源制約環境のための軽量ディープラーニング:サーベイ

Lightweight Deep Learning for Resource-Constrained Environments: A Survey ( http://arxiv.org/abs/2404.07236v2 )

ライセンス: Link先を確認
Hou-I Liu, Marco Galindo, Hongxia Xie, Lai-Kuan Wong, Hong-Han Shuai, Yung-Hui Li, Wen-Huang Cheng, (参考訳) 過去10年間で、ディープラーニングの優位性は、自然言語処理、コンピュータビジョン、バイオメディカル信号処理など、人工知能のさまざまな分野に広まりました。 モデル精度は著しく改善されているが、携帯電話やマイクロコントローラなどの軽量デバイスにこれらのモデルをデプロイすることは、限られたリソースによって制限されている。 本調査では, 軽量モデル, 圧縮方法, ハードウェアアクセラレーション戦略の厳密な設計を詳述する。 この研究の主目的は、モデルの精度を損なうことなく、ハードウェア制約を回避する方法や概念を探ることである。 さらに,TinyMLとLarge Language Modelsのデプロイメントテクニックという,ライトウェイトなディープラーニングのための2つの重要なパスについても検討する。 これらの経路には間違いなく潜在的な可能性があるが、探索されていない領域の研究を奨励する重要な課題も提示している。

Over the past decade, the dominance of deep learning has prevailed across various domains of artificial intelligence, including natural language processing, computer vision, and biomedical signal processing. While there have been remarkable improvements in model accuracy, deploying these models on lightweight devices, such as mobile phones and microcontrollers, is constrained by limited resources. In this survey, we provide comprehensive design guidance tailored for these devices, detailing the meticulous design of lightweight models, compression methods, and hardware acceleration strategies. The principal goal of this work is to explore methods and concepts for getting around hardware constraints without compromising the model's accuracy. Additionally, we explore two notable paths for lightweight deep learning in the future: deployment techniques for TinyML and Large Language Models. Although these paths undoubtedly have potential, they also present significant challenges, encouraging research into unexplored areas.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# PromptSync:クラスアウェアなプロトタイプアライメントと識別による視覚言語モデルにおけるドメインギャップのブリッジ

PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination ( http://arxiv.org/abs/2404.07520v2 )

ライセンス: Link先を確認
Anant Khandelwal, (参考訳) CLIPのような視覚言語(V-L)モデルにおけるゼロショット一般化の可能性は、多くの下流タスクに対処する上で広く採用されている。 従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。 本研究では,テストサンプルとフィルタ付き拡張ビューの平均クラス確率を重み付けしたクラス認識型プロトタイプアライメントを用いて,この問題に対処する。 さらに,コントラスト学習を用いたプロトタイプ識別を行うことにより,クラス確率が可能な限り正確であることを保証する。 アライメントと差別的損失の組み合わせは幾何学的正則化器として機能し、迅速な表現が単一クラスに崩壊するのを防ぎ、ソースとテストドメイン間の分配ギャップを効果的にブリッジする。 提案手法はPmptSyncと呼ばれ,V-Lモデルのテキストとビジョンの両方で各テストサンプルのプロンプトを同期させる。 ドメイン一般化ベンチマークの実証的評価では,提案手法は,従来のベストメソッドよりも2.33%,ベース・ツー・ノーベル一般化では1%,クロスデータセット転送タスクでは2.84%,性能は2.33%向上した。

The potential for zero-shot generalization in vision-language (V-L) models such as CLIP has spurred their widespread adoption in addressing numerous downstream tasks. Previous methods have employed test-time prompt tuning to adapt the model to unseen domains, but they overlooked the issue of imbalanced class distributions. In this study, we explicitly address this problem by employing class-aware prototype alignment weighted by mean class probabilities obtained for the test sample and filtered augmented views. Additionally, we ensure that the class probabilities are as accurate as possible by performing prototype discrimination using contrastive learning. The combination of alignment and discriminative loss serves as a geometric regularizer, preventing the prompt representation from collapsing onto a single class and effectively bridging the distribution gap between the source and test domains. Our method, named PromptSync, synchronizes the prompts for each test sample on both the text and vision branches of the V-L model. In empirical evaluations on the domain generalization benchmark, our method outperforms previous best methods by 2.33% in overall performance, by 1% in base-to-novel generalization, and by 2.84% in cross-dataset transfer tasks.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# テキスト誘導による視覚的注意の影響 : データベースとモデル

How is Visual Attention Influenced by Text Guidance? Database and Model ( http://arxiv.org/abs/2404.07537v2 )

ライセンス: Link先を確認
Yinan Sun, Xiongkuo Min, Huiyu Duan, Guangtao Zhai, (参考訳) 視覚的注意の分析と予測は、コンピュータビジョンと画像処理の分野で長い間重要な課題であった。 実際の応用では、画像には様々なテキスト記述が伴うことが多いが、テキスト記述が視覚的注意に与える影響を調査する研究は少ない。 本稿では、主観的視点と客観的視点の両方から、テキスト誘導画像サリエンシ(TIS)について包括的な研究を行う。 具体的には、1200のテキストイメージ対とそれに対応するアイトラッキングデータを含む、SJTU-TISというTISデータベースを構築する。 確立されたSJTU-TISデータベースに基づいて、様々なテキスト記述が視覚的注意に与える影響を分析する。 そこで本研究では,テキストの影響を考慮したサリエンシ予測モデルの開発を容易にするために,最先端のサリエンシモデルを用いたSJTU-TISデータベースのベンチマークを構築した。 最後に,テキスト記述が視覚的注意に与える影響を考慮し,既存のサリエンシモデルの多くがこの影響を無視する一方で,様々なテキスト記述条件下で画像特徴とテキスト特徴の両方を抽出・統合するテキスト誘導サリエンシ(TGSal)予測モデルを提案する。 提案手法は,SJTU-TISデータベースと純画像サリエンシデータベースの両モデルにおいて,各種評価指標において,最先端のサリエンシモデルよりも優れていた。 SJTU-TISデータベースと提案されたTGSalモデルのコードは、https://github.com/IntMeGroup/TGSalでリリースされる。

The analysis and prediction of visual attention have long been crucial tasks in the fields of computer vision and image processing. In practical applications, images are generally accompanied by various text descriptions, however, few studies have explored the influence of text descriptions on visual attention, let alone developed visual saliency prediction models considering text guidance. In this paper, we conduct a comprehensive study on text-guided image saliency (TIS) from both subjective and objective perspectives. Specifically, we construct a TIS database named SJTU-TIS, which includes 1200 text-image pairs and the corresponding collected eye-tracking data. Based on the established SJTU-TIS database, we analyze the influence of various text descriptions on visual attention. Then, to facilitate the development of saliency prediction models considering text influence, we construct a benchmark for the established SJTU-TIS database using state-of-the-art saliency models. Finally, considering the effect of text descriptions on visual attention, while most existing saliency models ignore this impact, we further propose a text-guided saliency (TGSal) prediction model, which extracts and integrates both image features and text features to predict the image saliency under various text-description conditions. Our proposed model significantly outperforms the state-of-the-art saliency models on both the SJTU-TIS database and the pure image saliency databases in terms of various evaluation metrics. The SJTU-TIS database and the code of the proposed TGSal model will be released at: https://github.com/IntMeGroup/TGSal.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# データスカシティと不均衡分布の緩和のための効果的な発話評価手法

An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution ( http://arxiv.org/abs/2404.07575v2 )

ライセンス: Link先を確認
Tien-Hong Lo, Fu-An Chao, Tzu-I Wu, Yao-Ting Sung, Berlin Chen, (参考訳) 自動発話アセスメント(ASA)は通常、自動音声認識(ASR)と学習者の音声のASR書き起こしから手作りの特徴抽出を含む。 近年,自己教師付き学習(SSL)は,従来の手法に比べて高い性能を示している。 しかし、SSLベースのASAシステムは、限られたアノテートデータ、学習者の習熟度の不均一分布、CEFR習熟度間の不均一スコア間隔という、少なくとも3つのデータ関連課題に直面している。 これらの課題に対処するために、メトリックベースの分類と損失再重み付けという、2つの新しいモデリング戦略について検討する。 ICNALEベンチマークデータセットの大規模な実験結果から,提案手法は既存の強いベースラインを大きなマージンで上回り,CEFR予測精度が10%以上向上する可能性が示唆された。

Automated speaking assessment (ASA) typically involves automatic speech recognition (ASR) and hand-crafted feature extraction from the ASR transcript of a learner's speech. Recently, self-supervised learning (SSL) has shown stellar performance compared to traditional methods. However, SSL-based ASA systems are faced with at least three data-related challenges: limited annotated data, uneven distribution of learner proficiency levels and non-uniform score intervals between different CEFR proficiency levels. To address these challenges, we explore the use of two novel modeling strategies: metric-based classification and loss reweighting, leveraging distinct SSL-based embedding features. Extensive experimental results on the ICNALE benchmark dataset suggest that our approach can outperform existing strong baselines by a sizable margin, achieving a significant improvement of more than 10% in CEFR prediction accuracy.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# NeuroNCAP: 自動運転のための光リアルクローズドループ安全試験

NeuroNCAP: Photorealistic Closed-loop Safety Testing for Autonomous Driving ( http://arxiv.org/abs/2404.07762v2 )

ライセンス: Link先を確認
William Ljungbergh, Adam Tonderski, Joakim Johnander, Holger Caesar, Kalle Åström, Michael Felsberg, Christoffer Petersson, (参考訳) 我々は,センサリアルなクローズループ評価と安全クリティカルシナリオの作成に焦点をあてた,自律走行(AD)ソフトウェアシステムをテストする汎用的なNeRFベースのシミュレータを提案する。 シミュレータは実世界の駆動センサーデータのシーケンスから学習し、新しい、目に見えないシナリオの再構成とレンダリングを可能にする。 本研究では,欧州新車評価プログラム(Euro NCAP)に触発された安全クリティカルシナリオに対するADモデルの応答をシミュレータを用いて検証する。 我々の評価では、最先端のエンド・ツー・エンドのプランナーは、オープンループ設定で名目上の運転シナリオに優れているが、クローズドループ設定で安全クリティカルなシナリオをナビゲートする際には、重大な欠陥が現れる。 これは、エンド・ツー・エンド・プランナーの安全性と現実のユーザビリティの向上の必要性を強調している。 シミュレータとシナリオを簡単に実行可能な評価スイートとして公開することにより、研究コミュニティにADモデルを制御されながら、高度に構成可能で、困難なセンサー現実的な環境を探索し、洗練し、検証するよう呼びかけます。 コードと指示はhttps://github.com/wljungbergh/NeuroNCAPで確認できる。

We present a versatile NeRF-based simulator for testing autonomous driving (AD) software systems, designed with a focus on sensor-realistic closed-loop evaluation and the creation of safety-critical scenarios. The simulator learns from sequences of real-world driving sensor data and enables reconfigurations and renderings of new, unseen scenarios. In this work, we use our simulator to test the responses of AD models to safety-critical scenarios inspired by the European New Car Assessment Programme (Euro NCAP). Our evaluation reveals that, while state-of-the-art end-to-end planners excel in nominal driving scenarios in an open-loop setting, they exhibit critical flaws when navigating our safety-critical scenarios in a closed-loop setting. This highlights the need for advancements in the safety and real-world usability of end-to-end planners. By publicly releasing our simulator and scenarios as an easy-to-run evaluation suite, we invite the research community to explore, refine, and validate their AD models in controlled, yet highly configurable and challenging sensor-realistic environments. Code and instructions can be found at https://github.com/wljungbergh/NeuroNCAP
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# 連続学習モデルの校正

Calibration of Continual Learning Models ( http://arxiv.org/abs/2404.07817v2 )

ライセンス: Link先を確認
Lanpei Li, Elia Piccoli, Andrea Cossu, Davide Bacciu, Vincenzo Lomonaco, (参考訳) 連続学習(CL)は、非定常データストリームにわたるモデルの予測性能の最大化に重点を置いている。 残念ながら、CLモデルは以前の知識を忘れる傾向があるため、データストリーム全体を共同でトレーニングしたオフラインモデルと比較すると、しばしばパフォーマンスが低下する。 どんなCLモデルでも最終的にミスを犯すことを考えると、キャリブレーションされたCLモデルを構築することが重要である。 モデルキャリブレーションは機械学習において活発な研究テーマであるが、CLでは適切に研究されていない。 CLにおけるキャリブレーションアプローチの挙動に関する最初の実証的研究を行い、CL戦略が本質的にキャリブレーションモデルを学習しないことを示す。 この問題を軽減するために,さまざまなベンチマークやCL戦略を用いて,後処理キャリブレーション手法の性能を向上させるための連続キャリブレーション手法を設計する。 CLは必ずしも完全な予測モデルを必要としないが、信頼性のある予測モデルの恩恵を受けることができる。 連続キャリブレーションの研究は、この方向への第一歩だと我々は信じている。

Continual Learning (CL) focuses on maximizing the predictive performance of a model across a non-stationary stream of data. Unfortunately, CL models tend to forget previous knowledge, thus often underperforming when compared with an offline model trained jointly on the entire data stream. Given that any CL model will eventually make mistakes, it is of crucial importance to build calibrated CL models: models that can reliably tell their confidence when making a prediction. Model calibration is an active research topic in machine learning, yet to be properly investigated in CL. We provide the first empirical study of the behavior of calibration approaches in CL, showing that CL strategies do not inherently learn calibrated models. To mitigate this issue, we design a continual calibration approach that improves the performance of post-processing calibration methods over a wide range of different benchmarks and CL strategies. CL does not necessarily need perfect predictive models, but rather it can benefit from reliable predictive models. We believe our study on continual calibration represents a first step towards this direction.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12
# 時変オーディオシステムのための微分可能な全極フィルタ

Differentiable All-pole Filters for Time-varying Audio Systems ( http://arxiv.org/abs/2404.07970v2 )

ライセンス: Link先を確認
Chin-Yun Yu, Christopher Mitcheltree, Alistair Carson, Stefan Bilbao, Joshua D. Reiss, György Fazekas, (参考訳) 無限インパルス応答フィルタは、音声効果やシンセサイザーなど、多くの時間変化のオーディオシステムにおいて重要な構成要素である。 しかし, 再帰的構造は, 自動微分によるエンド・ツー・エンドの学習を阻害する。 周波数サンプリングやフレームベース処理などの非再帰的なフィルタ近似が提案され、過去に広く用いられてきたが、元のシステムの勾配を正確に反映することはできない。 我々は、時間変化のある全極フィルタを再表現して勾配をバックプロパゲートすることで、この難しさを軽減するので、フィルタの実装は自動微分フレームワークの技術的な制限に縛られません。 この実装は、効率の良い勾配評価のためにポール付きフィルタを含む任意のオーディオシステムで使用することができる。 本研究では,位相器,時間変化型減算合成器,フィードフォワード圧縮器を用いて実世界の動的オーディオシステムをモデル化するための学習効率と表現能力を示す。 コードを利用可能にし、https://christhetree.github.io/all_pole_filters/のVSTプラグインでトレーニングされたオーディオエフェクトと合成モデルを提供します。

Infinite impulse response filters are an essential building block of many time-varying audio systems, such as audio effects and synthesisers. However, their recursive structure impedes end-to-end training of these systems using automatic differentiation. Although non-recursive filter approximations like frequency sampling and frame-based processing have been proposed and widely used in previous works, they cannot accurately reflect the gradient of the original system. We alleviate this difficulty by re-expressing a time-varying all-pole filter to backpropagate the gradients through itself, so the filter implementation is not bound to the technical limitations of automatic differentiation frameworks. This implementation can be employed within any audio system containing filters with poles for efficient gradient evaluation. We demonstrate its training efficiency and expressive capabilities for modelling real-world dynamic audio systems on a phaser, time-varying subtractive synthesiser, and feed-forward compressor. We make our code available and provide the trained audio effect and synth models in a VST plugin at https://christhetree.github.io/all_pole_filters/.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-12