このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231130となっている論文です。

PDF登録状況(公開日: 20231130)

TitleAuthorsAbstract論文公表日・翻訳日
# 非有界暗号を用いた非有界暗号

Unclonable Cryptography with Unbounded Collusions ( http://arxiv.org/abs/2311.18318v1 )

ライセンス: Link先を確認
Alper Çakan, Vipul Goyal, (参考訳) 量子非閉定理は、k状態のユーザがk + 1の動作コピーを生成できないような量子状態のプログラムを符号化する量子コピー保護の興味深い可能性をもたらす。 10年以上前にAaronson (CCC 09)によって紹介されたコピー保護は、達成が難しいことが判明した。 本研究では,秘密鍵を平板モデルの非有界コラシオン(理想化されたオークレス)に対してコピー保護した公開鍵暗号と機能暗号スキームを構築し,サブ指数的にセキュアなiO,一方方向関数,LWEを仮定する。 このことは、複数の先行研究によって提起された完全共謀耐性のコピー保護機能を構築するという長年にわたるオープンな問題を解決している。 本研究に先立ち, コピー保護機能は, 共謀サイズに有界なアプリオリが要求されるような限定的共謀モデル, われわれの仮定と同一のモデル (Liu, Liu, Qian, Zhandry [TCC 22]) , あるいは, 量子オラクルモデル (Aaronson [CCC 09]) においてのみ知られていた。 我々は,1対2のセキュアなスキームから非有界コロシアン耐性コピー保護スキームを構築するために,IDベースの暗号を用いた新しい手法により,その結果を得た。 これは、デジタル署名を用いて単一紙幣スキーム1(Lutomirski et al [ICS 09], Farhi et al [ITCS 12], Aaronson and Christiano (STOC 12])から本格的な量子マネーを構築する手法に類似している。 私たちの技術は独立した関心事だと信じています。 また、f (m0) のように、すべての関数 f でマスター秘密鍵を句読できる、句読可能な機能暗号化スキームも構築する。 f (m1)。 これはまた、独立した関心事であるかもしれない。

Quantum no-cloning theorem gives rise to the intriguing possibility of quantum copy protection where we encode a program in a quantum state such that a user in possession of k such states cannot create k + 1 working copies. Introduced by Aaronson (CCC 09) over a decade ago, copy protection has proven to be notoriously hard to achieve. In this work, we construct public-key encryption and functional encryption schemes whose secret keys are copy-protected against unbounded collusions in the plain model (i.e. without any idealized oracles), assuming (post-quantum) subexponentially secure iO, one-way functions and LWE. This resolves a long-standing open question of constructing fully collusion-resistant copy-protected functionalities raised by multiple previous works. Prior to our work, copy-protected functionalities were known only in restricted collusion models where either an a-priori bound on the collusion size was needed, in the plain model with the same assumptions as ours (Liu, Liu, Qian, Zhandry [TCC 22]), or adversary was only prevented from doubling their number of working programs, in a structured quantum oracle model (Aaronson [CCC 09]). We obtain our results through a novel technique which uses identity-based encryption to construct unbounded collusion resistant copy-protection schemes from 1-to-2 secure schemes. This is analogous to the technique of using digital signatures to construct full-fledged quantum money from single banknote schemes1 (Lutomirski et al. [ICS 09], Farhi et al. [ITCS 12], Aaronson and Christiano [STOC 12]). We believe our technique is of independent interest. Along the way, we also construct a puncturable functional encryption scheme whose master secret key can be punctured at all functions f such that f (m0) != f (m1). This might also be of independent interest.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-30
# テキストベースのCAPTCHAにおける視覚的特徴の役割 : 使用可能なセキュリティのためのfNIRS研究

The Role of Visual Features in Text-Based CAPTCHAs: An fNIRS Study for Usable Security ( http://arxiv.org/abs/2311.18436v1 )

ライセンス: Link先を確認
Emre Mulazimoglu, Murat P. Cakir, Cengiz Acarturk, (参考訳) 辞書攻撃や同様の望ましくない自動攻撃を情報システムに緩和するために、開発者はCAPTCHAの課題をヒューマン・インタラクティブ・プローフ(Human Interactive Proofs、HIP)として使用することを好む。 CAPTCHAの適切な使用には、課題の設計において堅牢性とユーザビリティのバランスをとるためのセットアップが必要である。 前回の研究では、ほとんどのユーザビリティ研究は、定量分析のための測定基準として精度と応答時間を用いていることが明らかとなった。 本研究の目的は、CAPTCHA設計解析に光学的ニューロイメージング技術を適用することである。 機能的近赤外分光法を用いて,様々な種類のCAPTCHA刺激により誘発される前頭前皮質の血行動態を調べた。 以上の結果から,右前頭前野と右前頭前野の領域は,CAPTCHA内に存在する線閉塞,回転,波動歪みの程度に反応することが示唆された。 視覚効果の体系的な付加は、行動的および前頭前酸素化対策に非線形効果を導入し、CAPTCHAの全体像の知覚に影響を及ぼした可能性のあるゲシュタルト効果の出現を示唆した。

To mitigate dictionary attacks or similar undesirable automated attacks to information systems, developers mostly prefer using CAPTCHA challenges as Human Interactive Proofs (HIPs) to distinguish between human users and scripts. Appropriate use of CAPTCHA requires a setup that balances between robustness and usability during the design of a challenge. The previous research reveals that most usability studies have used accuracy and response time as measurement criteria for quantitative analysis. The present study aims at applying optical neuroimaging techniques for the analysis of CAPTCHA design. The functional Near-Infrared Spectroscopy technique was used to explore the hemodynamic responses in the prefrontal cortex elicited by CAPTCHA stimulus of varying types. )e findings suggest that regions in the left and right dorsolateral and right dorsomedial prefrontal cortex respond to the degrees of line occlusion, rotation, and wave distortions present in a CAPTCHA. The systematic addition of the visual effects introduced nonlinear effects on the behavioral and prefrontal oxygenation measures, indicative of the emergence of Gestalt effects that might have influenced the perception of the overall CAPTCHA figure.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-30
# 暗号ウォッシュ取引 - 直接対間接推定

Crypto Wash Trading: Direct vs. Indirect Estimation ( http://arxiv.org/abs/2311.18717v1 )

ライセンス: Link先を確認
Brett Hemenway Falk, Gerry Tsoukalas, Niuniu Zhang, (参考訳) 間接統計手法を用いた最近の研究は、Binanceのような中央集権的な暗号通貨取引所における取引価値の約70%が、洗浄取引として特徴づけられると見積もっている。 この論文は、ラウンドトリップ取引や一般的なウォレット活動の分析を含むトランザクションの透明性が、より正確な直接推定方法を適用できるNTT市場へと転換する。 NFTボリュームの約30%と取引された価値の45-95%は、洗剤取引に関係している。 さらに,本手法は,文献で用いられる一般的な間接的推定手法の批判的評価を可能にする。 その効果には大きな違いがあり、一部は完全に失敗しています。 Cong et al (2023) で使用されるようなラウンドドネスフィルタは、最も正確である。 実際、2つのアプローチは、直接データが利用可能であれば、ハイパーパラメータ最適化によって密に一致させることができる。

Recent studies using indirect statistical methods estimate that around 70% of traded value on centralized crypto exchanges like Binance, can be characterized as wash trading. This paper turns to NFT markets, where transaction transparency, including analysis of roundtrip trades and common wallet activities, allows for more accurate direct estimation methods to be applied. We find roughly 30% of NFT volume and between 45-95% of traded value, involve wash trading. More importantly, our approach enables a critical evaluation of common indirect estimation methods used in the literature. We find major differences in their effectiveness; some failing entirely. Roundedness filters, like those used in Cong et al. (2023), emerge as the most accurate. In fact, the two approaches can be closely aligned via hyper-parameter optimization if direct data is available.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-30
# SPAM: Secure & Private Aircraft Management

SPAM: Secure & Private Aircraft Management ( http://arxiv.org/abs/2312.00245v1 )

ライセンス: Link先を確認
Yaman Jandali, Nojan Sheybani, Farinaz Koushanfar, (参考訳) 災害救助から戦争まで、航空機の使用が増加しているため、敵の攻撃のリスクが高まっている。 悪意のある機体はしばしばこれらの攻撃のために航空機の位置のみを必要とする。 現在の人工衛星と航空機の通信と追跡プロトコルは、平文で計算されているため、衛星が妥協した場合、航空機を危険にさらしている。 本研究では,航空機の位置を学習することなく,衛星が航空機の追跡角度を効率的に管理・維持することのできる,プライベートでセキュアで正確なシステムである「texttt{SPAM}」を提案する。 \texttt{SPAM}は、プライバシと高効率を保証するために、マルチパーティ計算とゼロ知識証明に基づいて構築されている。 航空機に向けられているが、‘texttt{SPAM}’のゼロ知識フリート管理は、非常に少ないオーバーヘッドで簡単にIoTに拡張できる。

With the rising use of aircrafts for operations ranging from disaster-relief to warfare, there is a growing risk of adversarial attacks. Malicious entities often only require the location of the aircraft for these attacks. Current satellite-aircraft communication and tracking protocols put aircrafts at risk if the satellite is compromised, due to computation being done in plaintext. In this work, we present \texttt{SPAM}, a private, secure, and accurate system that allows satellites to efficiently manage and maintain tracking angles for aircraft fleets without learning aircrafts' locations. \texttt{SPAM} is built upon multi-party computation and zero-knowledge proofs to guarantee privacy and high efficiency. While catered towards aircrafts, \texttt{SPAM}'s zero-knowledge fleet management can be easily extended to the IoT, with very little overhead.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-30
# Unrolled Networks によるインダクティブビアーゼのクラスタリング

Clustering Inductive Biases with Unrolled Networks ( http://arxiv.org/abs/2402.10213v1 )

ライセンス: Link先を確認
Jonathan Huml, Abiy Tasissa, Demba Ba, (参考訳) 古典的スパース符号化(SC)モデルは、視覚刺激を、自然な画像データに基づいて訓練されたときにガボールに似た少数の学習基底関数の線形結合として表現する。 しかし、古典的なスパース符号化によって学習されたガボール様フィルタは、経験的に観察された、十分に調整された単純細胞受容野プロファイルをはるかに過度に予測する。 神経細胞はわずかに発火するが、特定の特徴に対する感受性によって、神経細胞の個体群も物理的空間で組織される。 V1では、この構造は皮質シートに沿った配向の円滑な進行である。 その後のモデルのいくつかは、スパース辞書学習フレームワークを完全に破棄するか、あるいは未学習のニューラルネットワーク学習アーキテクチャの急増をまだ活用していない。 これらの更新に欠けている重要なテーマは、より強力な概念である \emph{structured sparsity} である。 本稿では,2部グラフのラプラシア二次形式を通したスペクトルクラスタリングのために,潜在表現を暗黙的に局所的に構成したオートエンコーダアーキテクチャ(WLSC)を提案する。 オートエンコーダによる初期視覚野のモデルにおけるスパースとスムーズなコーディングを統一することにより、我々の正規化はある種の刺激のクラスに対する受容野の早期特殊化として解釈できることを示す。 以上の結果から,V1以降の特徴的絡み合いを記述し始めるために,受容野と発射速度の両面において,emph{spatial regularization} が必須であることが示唆された。

The classical sparse coding (SC) model represents visual stimuli as a linear combination of a handful of learned basis functions that are Gabor-like when trained on natural image data. However, the Gabor-like filters learned by classical sparse coding far overpredict well-tuned simple cell receptive field profiles observed empirically. While neurons fire sparsely, neuronal populations are also organized in physical space by their sensitivity to certain features. In V1, this organization is a smooth progression of orientations along the cortical sheet. A number of subsequent models have either discarded the sparse dictionary learning framework entirely or whose updates have yet to take advantage of the surge in unrolled, neural dictionary learning architectures. A key missing theme of these updates is a stronger notion of \emph{structured sparsity}. We propose an autoencoder architecture (WLSC) whose latent representations are implicitly, locally organized for spectral clustering through a Laplacian quadratic form of a bipartite graph, which generates a diverse set of artificial receptive fields that match primate data in V1 as faithfully as recent contrastive frameworks like Local Low Dimensionality, or LLD \citep{lld} that discard sparse dictionary learning. By unifying sparse and smooth coding in models of the early visual cortex through our autoencoder, we also show that our regularization can be interpreted as early-stage specialization of receptive fields to certain classes of stimuli; that is, we induce a weak clustering bias for later stages of cortex where functional and spatial segregation (i.e. topography) are known to occur. The results show an imperative for \emph{spatial regularization} of both the receptive fields and firing rates to begin to describe feature disentanglement in V1 and beyond.
翻訳日:2024-03-18 07:28:31 公開日:2023-11-30
# 機械学習におけるデータの階層表現

Hierarchy Representation of Data in Machine Learnings ( http://arxiv.org/abs/2402.09965v1 )

ライセンス: Link先を確認
Han Yegang, Park Minjun, Byun Duwon, Park Inkyu(参考訳) いくつかのデータポイントに対して明確な判断結果を持つモデルが存在する場合、ほとんどのモデルは、あるターゲットを正しく判断するなら、別のターゲットを正しく判断する関係を示す可能性がある。 逆に、ほとんどのモデルが1つのターゲットを誤って判断する場合、別のターゲットを誤って判断することもある。 ターゲット間の階層を可視化する手法を提案する。 この情報はモデル改善に有用であることが期待される。

When there are models with clear-cut judgment results for several data points, it is possible that most models exhibit a relationship where if they correctly judge one target, they also correctly judge another target. Conversely, if most models incorrectly judge one target, they may also incorrectly judge another target. We propose a method for visualizing this hierarchy among targets. This information is expected to be beneficial for model improvement.
翻訳日:2024-02-18 12:52:16 公開日:2023-11-30
# ゼロバブルパイプライン並列性

Zero Bubble Pipeline Parallelism ( http://arxiv.org/abs/2401.10241v1 )

ライセンス: Link先を確認
Penghui Qi, Xinyi Wan, Guangxing Huang and Min Lin(参考訳) パイプライン並列性は大規模分散トレーニングの重要なコンポーネントの1つだが、その効率性は必然的なパイプラインバブルに苦しんでいる。 本稿では,我々の知識を活かし,同期学習セマンティクスの下でゼロ・パイプライン・バブルを成功させた最初のスケジューリング戦略を提案する。 この改善の鍵となる考え方は、後方の計算を2つの部分に分割することであり、1つは入力の勾配を計算し、もう1つはパラメータを計算している。 この考え方に基づき、ベースラインメソッドを大幅に上回る新しいパイプラインスケジュールを手作りする。 さらに,特定のモデル構成とメモリ制限に基づいて最適なスケジュールを自動的に見つけるアルゴリズムを開発した。 さらに、ゼロバブルを実現するために、オプティマイザステップ中に同期をバイパスする新しい手法を導入する。 実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。 この数は、メモリ制約が緩和されたときにさらに31%にプッシュできる。 パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。 我々はMegatron-LMリポジトリのhttps://github.com/sail-sg/zero-bubble-pipeline-parallelismに基づいて実装をオープンソース化した。

Pipeline parallelism is one of the key components for large-scale distributed training, yet its efficiency suffers from pipeline bubbles which were deemed inevitable. In this work, we introduce a scheduling strategy that, to our knowledge, is the first to successfully achieve zero pipeline bubbles under synchronous training semantics. The key idea behind this improvement is to split the backward computation into two parts, one that computes gradient for the input and another that computes for the parameters. Based on this idea, we handcraft novel pipeline schedules that significantly outperform the baseline methods. We further develop an algorithm that automatically finds an optimal schedule based on specific model configuration and memory limit. Additionally, to truly achieve zero bubble, we introduce a novel technique to bypass synchronizations during the optimizer step. Experimental evaluations show that our method outperforms the 1F1B schedule up to 23% in throughput under a similar memory limit. This number can be further pushed to 31% when the memory constraint is relaxed. We believe our results mark a major step forward in harnessing the true potential of pipeline parallelism. We open sourced our implementation based on the popular Megatron-LM repository on https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
翻訳日:2024-02-11 17:48:32 公開日:2023-11-30
# 非構造化データのプロセスマイニング:課題と研究方向

Process Mining for Unstructured Data: Challenges and Research Directions ( http://arxiv.org/abs/2401.13677v1 )

ライセンス: Link先を確認
Agnes Koschmider, Milda Aleknonyt\.e-Resch, Frederik Fonger, Christian Imenkamp, Arvid Lepsien, Kaan Apaydin, Maximilian Harms, Dominik Janssen, Dominic Langhammer, Tobias Ziolkowski, Yorck Zisgen(参考訳) 非構造化データに対するプロセスマイニングの適用は、非構造化データが共通のデータフォーマットである分野への新たな洞察を著しく高める可能性がある。 プロセスマイニングによる非構造化データを効率よく分析し、分析結果に対する信頼性を付与し、複数の課題を橋渡しする必要がある。 本研究の目的は,これらの課題について議論し,最初の解決策を示し,今後の研究方向性を説明することである。 この記事が今後のコラボレーションの基礎となることを願っています。

The application of process mining for unstructured data might significantly elevate novel insights into disciplines where unstructured data is a common data format. To efficiently analyze unstructured data by process mining and to convey confidence into the analysis result, requires bridging multiple challenges. The purpose of this paper is to discuss these challenges, present initial solutions and describe future research directions. We hope that this article lays the foundations for future collaboration on this topic.
翻訳日:2024-02-11 17:43:47 公開日:2023-11-30
# DFU:ゼロショット超解像生成のためのスケールロバスト拡散モデル

DFU: scale-robust diffusion model for zero-shot super-resolution image generation ( http://arxiv.org/abs/2401.06144v1 )

ライセンス: Link先を確認
Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao(参考訳) 拡散生成モデルは、固定解像度で画像を生成することに成功している。 しかし、既存のモデルは、これらの解像度でデータをトレーニングできない場合に、異なる解像度に一般化する能力に制限がある。 演算子学習の手法を活用し,複数の解像度で空間情報とスペクトル情報を組み合わせることで,楽譜演算子を近似した新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。 DFUとベースラインの比較はスケーラビリティを示している。 1) 多重解像度の同時訓練は、任意の固定解像度でのトレーニングよりもFIDを改善する。 2)DFUは、トレーニング解像度を超えて一般化し、同じモデルで高解像度でコヒーレントで高忠実な生成を可能にする。 3)我々のモデルのゼロショット超解像度画像生成能力をさらに向上させるための微調整戦略を提案し,ffhqの最大トレーニング解像度の1.66倍の11.3倍のfidを実現した。

Diffusion generative models have achieved remarkable success in generating images with a fixed resolution. However, existing models have limited ability to generalize to different resolutions when training data at those resolutions are not available. Leveraging techniques from operator learning, we present a novel deep-learning architecture, Dual-FNO UNet (DFU), which approximates the score operator by combining both spatial and spectral information at multiple resolutions. Comparisons of DFU to baselines demonstrate its scalability: 1) simultaneously training on multiple resolutions improves FID over training at any single fixed resolution; 2) DFU generalizes beyond its training resolutions, allowing for coherent, high-fidelity generation at higher-resolutions with the same model, i.e. zero-shot super-resolution image-generation; 3) we propose a fine-tuning strategy to further enhance the zero-shot super-resolution image-generation capability of our model, leading to a FID of 11.3 at 1.66 times the maximum training resolution on FFHQ, which no other method can come close to achieving.
翻訳日:2024-01-22 13:04:49 公開日:2023-11-30
# reconの再定義:uav、360度カメラ、神経放射野によるギャップの橋渡し

Redefining Recon: Bridging Gaps with UAVs, 360 degree Cameras, and Neural Radiance Fields ( http://arxiv.org/abs/2401.06143v1 )

ライセンス: Link先を確認
Hartmut Surmann, Niklas Digakis, Jan-Nicklas Kremer, Julien Meine, Max Schulte, Niklas Voigt(参考訳) 災害時のデジタル状況認識の分野では、3dモデルのような正確なデジタル表現が不可欠の役割を担っている。 救助隊の安全を確保するため、ロボットプラットフォームはこれらのモデルを生成するためにしばしば配備される。 本稿では,360度カメラとニューラル・レージアンス・フィールド(NeRF)の進歩により,小型の無人航空機(UAV)を30cm以下の小型化する革新的な手法を提案する。 特殊なニューラルネットワークであるNeRFは、2D画像を使用して任意のシーンの3D表現を推論し、要求に応じて様々な角度から合成することができる。 この手法は, 建築物の構造的整合性が, 地震後, 激しい火災後の入射を抑える点まで損なわれている都市環境に特化している。 我々は,近年の火災後シナリオを通じて,水,雪,照明条件の変動,反射面などの屋外環境においても,nerfの有効性を概説する手法を検証した。

In the realm of digital situational awareness during disaster situations, accurate digital representations, like 3D models, play an indispensable role. To ensure the safety of rescue teams, robotic platforms are often deployed to generate these models. In this paper, we introduce an innovative approach that synergizes the capabilities of compact Unmaned Arial Vehicles (UAVs), smaller than 30 cm, equipped with 360 degree cameras and the advances of Neural Radiance Fields (NeRFs). A NeRF, a specialized neural network, can deduce a 3D representation of any scene using 2D images and then synthesize it from various angles upon request. This method is especially tailored for urban environments which have experienced significant destruction, where the structural integrity of buildings is compromised to the point of barring entry-commonly observed post-earthquakes and after severe fires. We have tested our approach through recent post-fire scenario, underlining the efficacy of NeRFs even in challenging outdoor environments characterized by water, snow, varying light conditions, and reflective surfaces.
翻訳日:2024-01-22 13:04:30 公開日:2023-11-30
# 軽量学習者のアンサンブルによる降水予測

Precipitation Prediction Using an Ensemble of Lightweight Learners ( http://arxiv.org/abs/2401.09424v1 )

ライセンス: Link先を確認
Xinzhe Li, Sun Rui, Yiming Niu, Yao Liu(参考訳) 降水予測は近代農業と産業において重要な役割を担っている。 しかし、それは時間と空間の多様なパターンとダイナミクス、そして降水イベントの希少さによって重大な課題をもたらす。 この課題に対処するために,複数の学習者を活用して降水分布の多様なパターンを捉えるアンサンブル学習フレームワークを提案する。 具体的には、このフレームワークは、複数の軽量ヘッド(学習者)を備えた降水予測器と、これらのヘッドからの出力を組み合わせたコントローラで構成される。 学習者とコントローラは、提案する3段階のトレーニングスキームで別々に最適化される。 提案手法は, 得られた衛星画像を利用して降雨パターンを効果的にモデル化することができる。 このレースはweather4cast 2023コンペティションにおいて、コアテストで1位を獲得した。 実装の詳細は、githubリポジトリのhttps://github.com/lxz1217/weather4cast-2023-lxzを参照してください。

Precipitation prediction plays a crucial role in modern agriculture and industry. However, it poses significant challenges due to the diverse patterns and dynamics in time and space, as well as the scarcity of high precipitation events. To address this challenge, we propose an ensemble learning framework that leverages multiple learners to capture the diverse patterns of precipitation distribution. Specifically, the framework consists of a precipitation predictor with multiple lightweight heads (learners) and a controller that combines the outputs from these heads. The learners and the controller are separately optimized with a proposed 3-stage training scheme. By utilizing provided satellite images, the proposed approach can effectively model the intricate rainfall patterns, especially for high precipitation events. It achieved 1st place on the core test as well as the nowcasting leaderboards of the Weather4Cast 2023 competition. For detailed implementation, please refer to our GitHub repository at: https://github.com/lxz1217/weather4cast-2023-lxz.
翻訳日:2024-01-22 09:41:32 公開日:2023-11-30
# FIDの再考:画像生成のためのより良い評価基準を目指して

Rethinking FID: Towards a Better Evaluation Metric for Image Generation ( http://arxiv.org/abs/2401.09603v1 )

ライセンス: Link先を確認
Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar(参考訳) 多くの機械学習の問題と同様に、画像生成手法の進歩は良い評価基準にかかっている。 最も人気のあるものはFrechet Inception Distance (FID)である。 fidは実画像のインセプションv3特徴の分布とアルゴリズムによって生成された画像との距離を推定する。 インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。 我々は、FIDを生成画像の一次品質指標として用いることの再評価を求める。 実験により,FIDは人間のレーダと矛盾し,反復的テキスト・画像モデルの段階的改善を反映せず,歪みレベルを捉えず,サンプルサイズが変化しても矛盾しない結果が得られた。 また,よりリッチなクリップ埋め込みとガウス rbf カーネルとの最大平均偏差距離に基づく新しいメトリック cmmd を提案する。 埋め込みの確率分布を仮定せず、サンプル効率も良い偏りのない推定器である。 広範な実験と分析を通じて,fidに基づく画像間モデルの評価は信頼性が低く,cmmdは画像品質をより堅牢で信頼性の高い評価ができることを示す。

As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
翻訳日:2024-01-22 09:16:45 公開日:2023-11-30
# 二相構造と二粒子複合材料(ダイマー)を含む軸状暗黒物質モデル

Axionlike Dark Matter Model Involving Two-Phase Structure and Two-Particle Composites (Dimers) ( http://arxiv.org/abs/2309.03290v2 )

ライセンス: Link先を確認
A. M. Gavrilik, A. V. Nazarenko(参考訳) 暗黒物質(DM)の自己重力型ボース・アインシュタイン凝縮(BEC)モデルの中では、超軽量ボソンの軸状自己相互作用は、(ドワーフ)銀河のDMハロー核に希薄相と密度相の両方が存在することを保証している。 実際、これは同じモデルパラメータに対応するグロス・ピタエフスキー方程式の2つの独立解に由来する。 少数の粒子では、この構造は重力相互作用とともに消失し、グロス=ピタエフスキー方程式はハロコアの単相DM半径分布を模倣する1次元のアンチキンク解である定常シネ=ゴルドン方程式に還元される。 量子力学的には、この解は有限漸近性を持つ磁壁ポテンシャルによって形成される閉散乱チャネル内の2つの粒子のゼロエネルギー結合状態に対応する。 低正のエネルギーと有限の寿命を持つ2粒子複合体を作成するため、開放チャネル(モデル散乱電位を持つ)から閉チャネルへのペアの漸近的に自由粒子の共鳴遷移に目を向ける。 フェシュバッハ共鳴の概念を用いて、2チャネルの量子力学の問題は、2つのチャネルを結合する小さな外部の影響の存在下で解決され、第1近似で解析解が得られる。 散乱データの相互作用パラメータ依存性を解析した結果,何百万年という長寿命の2粒子複合材料(dimer)が得られた。 この結果は意外な結果であり、ダイマーが大きなDM構造形成に関与していることの重要な意味を推測する。 ダイマーの外観は共鳴による無限散乱長の規則と関係があることが示されている。 相互作用のパラメータに対するDM散乱長$a$の明らかな依存は、DM支配銀河における$a$の変動を理論的に正当化することができる。

Within the self-gravitating Bose-Einstein condensate (BEC) model of dark matter (DM), we argue that the axionlike self-interaction of ultralight bosons ensures the existence of both rarefied and dense phases in the DM halo core of (dwarf) galaxies. In fact, this stems from two independent solutions of the Gross-Pitaevskii equation corresponding to the same model parameters. For a small number of particles, this structure disappears along with the gravitational interaction, and the Gross-Pitaevskii equation reduces to the stationary sine-Gordon equation, the one-dimensional antikink solution of which mimics a single-phase DM radial distribution in the halo core. Quantum mechanically, this solution corresponds to a zero-energy bound state of two particles in a closed scattering channel formed by the domain-wall potential with a finite asymptotics. To produce a two-particle composite with low positive energy and a finite lifetime, we appeal to the resonant transition of one asymptotically free particle of a pair from an open channel (with a model scattering potential) to the closed channel. Using the Feshbach resonance concept, the problem of two-channel quantum mechanics is solved in the presence of a small external influence which couples the two channels, and an analytical solution is obtained in the first approximation. Analyzing the dependence of scattering data on interaction parameters, we reveal a long-lived two-particle composite (dimer) possessing a lifetime of millions of years. This result is rather surprising and supposes important implications of dimers' being involved in forming large DM structures. It is shown that the dimers' appearance is related with the regime of infinite scattering length due to resonance. The revealed dependence of the DM scattering length $a$ on the parameters of interactions can theoretically justify variation of $a$ in the DM dominated galaxies.
翻訳日:2024-01-15 16:49:19 公開日:2023-11-30
# 関連データオブジェクトのグルーピングと計算による低レイテンシML推論

Low-Latency ML Inference by Grouping Correlated Data Objects and Computation ( http://arxiv.org/abs/2312.11488v1 )

ライセンス: Link先を確認
Thiago Garrett, Weijia Song, Roman Vitenberg, Ken Birman(参考訳) ML推論ワークフローは、低レイテンシと高いスループットを必要とすることが多いが、このニーズに対処するための優れた選択肢がない。 他のストリーミング設定(キャッシュや最適化駆動スケジューリングなど)のレイテンシを低減するテクニックは、MLデータの依存関係が非常に大きく、トリガーイベントによって劇的に変化するため、制限された値である。 本稿では,アプリケーション固有のデータアクセス相関の表現を容易にし,ストリーミング推論タスクをホストするサーバクラスタ内のデータオブジェクトの協調管理を可能にする,新たな相関グループ化機構を提案する。 レイテンシに敏感なMLベースのアプリケーションに基づく実験では、標準手法の限界を確認しながら、ソリューションが劇的にパフォーマンスが向上することを示した。 提案されたメカニズムは、かなり低いレイテンシと一貫性を維持でき、ワークロードやスケールアウトの増加に伴ってノードの利用率を高くすることができるが、アプリケーションを実装するコードに小さな変更を加えるだけでよい。

ML inference workflows often require low latency and high throughput, yet we lack good options for addressing this need. Techniques that reduce latency in other streaming settings (such as caching and optimization-driven scheduling) are of limited value because ML data dependencies are often very large and can change dramatically depending on the triggering event. In this work, we propose a novel correlation grouping mechanism that makes it easier for developers to express application-specific data access correlations, enabling coordinated management of data objects in server clusters hosting streaming inference tasks. Experiments based on a latency-sensitive ML-based application confirm the limitations of standard techniques while showing that our solution yields dramatically better performance. The proposed mechanism is able to maintain significantly lower and more consistent latency, achieves higher node utilization as workload and scale-out increase, and yet requires only minor changes to the code implementing the application.
翻訳日:2024-01-15 13:38:31 公開日:2023-11-30
# 材料発見のための記号学習

Symbolic Learning for Material Discovery ( http://arxiv.org/abs/2312.11487v1 )

ライセンス: Link先を確認
Daniel Cunnington, Flaviu Cipcigan, Rodrigo Neumann Barros Ferreira, Jonathan Booth(参考訳) 気候変動や持続可能性、医療における課題を解決するには、新しい素材の発見が不可欠である。 材料発見における典型的なタスクは、関数の価値を最大化するデータベース内の材料を探すことである。 この関数は多くの場合、評価にコストがかかり、シミュレーションや実験に頼ることができる。 本稿では,シンボル学習に基づく効率的な最適化手法であるSyMDisを紹介する。 SyMDisは最先端のオプティマイザと互換性があり、物理的および化学的検証を支援するための解釈可能なルールを学習する。 さらに、SyMDisが学んだルールは、目に見えないデータセットに一般化し、ゼロショット評価でハイパフォーマンスな候補を返す。

Discovering new materials is essential to solve challenges in climate change, sustainability and healthcare. A typical task in materials discovery is to search for a material in a database which maximises the value of a function. That function is often expensive to evaluate, and can rely upon a simulation or an experiment. Here, we introduce SyMDis, a sample efficient optimisation method based on symbolic learning, that discovers near-optimal materials in a large database. SyMDis performs comparably to a state-of-the-art optimiser, whilst learning interpretable rules to aid physical and chemical verification. Furthermore, the rules learned by SyMDis generalise to unseen datasets and return high performing candidates in a zero-shot evaluation, which is difficult to achieve with other approaches.
翻訳日:2024-01-15 13:38:17 公開日:2023-11-30
# レコメンダシステムのためのベイズグラフニューラルネットワークの選好と共起性

Preference and Concurrence Aware Bayesian Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2312.11486v1 )

ライセンス: Link先を確認
Hongjian Gu, Yaochen Hu, Yingxue Zhang(参考訳) グラフベースの協調フィルタリング手法は、ユーザとアイテム間の高次情報をキャプチャできるため、インダストリアルシナリオにおけるリンクを欠いたり、刺激的なポジティブなインタラクションを含む可能性のある、観測されたユーザとイテムのインタラクションからグラフを構築することができるため、レコメンデータシステムの性能が向上している。 Bayesian Graph Neural Networkフレームワークは、相互作用グラフの生成モデルによってこの問題にアプローチする。 重要な問題は、レコメンデーターシステムに適したグラフ生成モデルの適切なファミリーを考案することである。 本稿では,ユーザの好みや項目の一致,重要なグラフ構造情報などを共同で検討する効率的な生成モデルを提案する。 提案したグラフ生成手法の有効性を示す4つのベンチマークデータセットの実験を行った。

Graph-based collaborative filtering methods have prevailing performance for recommender systems since they can capture high-order information between users and items, in which the graphs are constructed from the observed user-item interactions that might miss links or contain spurious positive interactions in industrial scenarios. The Bayesian Graph Neural Network framework approaches this issue with generative models for the interaction graphs. The critical problem is to devise a proper family of graph generative models tailored to recommender systems. We propose an efficient generative model that jointly considers the preferences of users, the concurrence of items and some important graph structure information. Experiments on four popular benchmark datasets demonstrate the effectiveness of our proposed graph generative methods for recommender systems.
翻訳日:2024-01-15 13:38:06 公開日:2023-11-30
# QKDにおける情報和解のためのフレキシブル極符号化

Flexible polar encoding for information reconciliation in QKD ( http://arxiv.org/abs/2312.03100v1 )

ライセンス: Link先を確認
Snehasis Addy, Sabyasachi Dutta, Somnath Panja, Kunal Dey, Reihaneh Safavi-Naini, and Daniel Oblak(参考訳) qkd(quantum key distribution)は、量子ビットとしてエンコードされ量子チャネル経由で送信されるランダムビットを送信し、情報和解と鍵抽出として知られる古典的な情報処理ステップによって、情報理論上安全となる共通の秘密鍵を確立することを可能にする。 量子チャネル上での情報伝達は、一般に敵の量子チャネルとのテンパリングに起因すると考えられるエラーをもたらし、(認証された)パブリックチャネル上の古典的な通信を使用して修正する必要がある。 QKDの文脈で一般的に使用されるエラー訂正符号には、カスケード符号、低密度パリティチェック(LDPC)符号、より最近の極性符号などがある。 本研究では,チャネル信頼性系列に基づく極性コードエンコーダの設計の適用可能性について検討する。 信頼性シーケンスを導出し、デコーダの選択に依存しないエンコーダの設計に用いることができることを示す。 そして、その設計を実装し、従来のqkd用極性コードエンコーダや他の典型的な誤り訂正符号に対する性能評価を行う。 このアプローチの重要な利点は、エンコーダ設計とデコーダ設計を分離し、それぞれを独立に最適化できるモジュラー設計である。 我々の研究は、qkdシステムにおいて、より多彩な極性コードベースのエラー調整をもたらし、より広い範囲のシナリオでデプロイすることになります。

Quantum Key Distribution (QKD) enables two parties to establish a common secret key that is information-theoretically secure by transmitting random bits that are encoded as qubits and sent over a quantum channel, followed by classical information processing steps known as information reconciliation and key extraction. Transmission of information over a quantum channel introduces errors that are generally considered to be due to the adversary's tempering with the quantum channel and needs to be corrected using classical communication over an (authenticated) public channel. Commonly used error-correcting codes in the context of QKD include cascade codes, low-density parity check (LDPC) codes, and more recently polar codes. In this work, we explore the applicability of designing of a polar code encoder based on a channel reliability sequence. We show that the reliability sequence can be derived and used to design an encoder independent of the choice of decoder. We then implement our design and evaluate its performance against previous implementations of polar code encoders for QKD as well as other typical error-correcting codes. A key advantage of our approach is the modular design which decouples the encoder and decoder design and allows independent optimization of each. Our work leads to more versatile polar code-based error reconciliation in QKD systems that would result in deployment in a broader range of scenarios.
翻訳日:2023-12-11 03:19:29 公開日:2023-11-30
# ダウンリンクFD-RANのためのチャネルフィードバックフリー伝送:無線マップに基づく複素数値プリコーディングネットワークアプローチ

Channel-Feedback-Free Transmission for Downlink FD-RAN: A Radio Map based Complex-valued Precoding Network Approach ( http://arxiv.org/abs/2312.02184v1 )

ライセンス: Link先を確認
Jiwei Zhao, Jiacheng Chen, Zeyu Sun, Yuhang Shi, Haibo Zhou, Xuemin (Sherman) Shen(参考訳) 高品質なサービスに対する需要が高まるにつれて、革新的なネットワークアーキテクチャであるfd-ran(full-decoupled ran)が登場し、より柔軟なスペクトル資源利用とネットワークコストの低減が図られている。 しかし、FD-RANにおけるアップリンク基地局とダウンリンク基地局の分離により、リアルタイムチャネルフィードバックに依存する従来の送信機構は、受信機が正確にタイムリーなチャネル状態情報を送信者にフィードバックできないため、適していない。 本稿では,物理層チャネルフィードバックに頼ることなく,新しい伝送方式を提案する。 具体的には,無線地図に基づく複合値プリコーディングネットワーク~RMCPNetモデルを設計し,ユーザ位置に基づいて基地局プリコーディングを出力する。 RMCPNetは複数のサブネットから構成され、各サブネットは様々な入力モーダルからユニークなモーダル特徴を抽出する。 さらに、これら異なるサブネットから派生したマルチモーダル埋め込みは情報融合層内に統合され、統一表現にまとめられる。 また,損失関数として負のスペクトル効率を用いる特定のrmcpnetトレーニングアルゴリズムを開発した。 提案手法をパブリックなDeepMIMOデータセット上で評価し,RMCPNetが従来の実数値ニューラルネットワークと統計コードブックのアプローチでそれぞれ16倍,76倍の性能向上を実現可能であることを示す。

As the demand for high-quality services proliferates, an innovative network architecture, the fully-decoupled RAN (FD-RAN), has emerged for more flexible spectrum resource utilization and lower network costs. However, with the decoupling of uplink base stations and downlink base stations in FD-RAN, the traditional transmission mechanism, which relies on real-time channel feedback, is not suitable as the receiver is not able to feedback accurate and timely channel state information to the transmitter. This paper proposes a novel transmission scheme without relying on physical layer channel feedback. Specifically, we design a radio map based complex-valued precoding network~(RMCPNet) model, which outputs the base station precoding based on user location. RMCPNet comprises multiple subnets, with each subnet responsible for extracting unique modal features from diverse input modalities. Furthermore, the multi-modal embeddings derived from these distinct subnets are integrated within the information fusion layer, culminating in a unified representation. We also develop a specific RMCPNet training algorithm that employs the negative spectral efficiency as the loss function. We evaluate the performance of the proposed scheme on the public DeepMIMO dataset and show that RMCPNet can achieve 16\% and 76\% performance improvements over the conventional real-valued neural network and statistical codebook approach, respectively.
翻訳日:2023-12-11 03:18:00 公開日:2023-11-30
# 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用

Applying Large Language Models and Chain-of-Thought for Automatic Scoring ( http://arxiv.org/abs/2312.03748v1 )

ライセンス: Link先を確認
Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming Zhai(参考訳) 本研究では,gpt-3.5とgpt-4を用いた大規模言語モデル(llms)の理科評価への学生書面応答の自動スコアリングにおける適用について検討した。 研究者や教育者の間では,これまで自動評価ツールの使用が制限されていたアクセシビリティ,技術的な複雑さ,説明可能性の欠如といった課題を克服することに注力した。 6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを使用した。 ゼロショットや少数ショットの学習をCoTと組み合わせた6つの迅速なエンジニアリング戦略を採用しました。 その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6\%増加した。 CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。 しかし、コンテクストアイテムのstemとrubricsと組み合わせたcotプロンプトはスコアリングの精度に重要な貢献をした(ゼロショットでは13.44\%、少数ショットでは3.7\%)。 新しいアプローチppeasを用いて、異なる熟練度カテゴリ間でよりバランスの取れた精度を示し、スコアリングタスクにおけるllmの有効性を高めるためのドメイン固有の推論の重要性を強調した。 また, GPT-4 は GPT-3.5 よりも優れた性能を示し, 8.64 % の差を示した。 本研究は, GPT-4を用いた単一呼出方式, 特にグリーディサンプリングを用いた場合, アンサンブル投票方式を含む他の手法よりも優れていることを示した。 本研究は,自動スコアリングの容易化におけるllmの可能性を示し,特に点数や点数において,cotが精度を高めることを強調する。

This study investigates the application of large language models (LLMs), specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT)in the automatic scoring of student-written responses to science assessments. We focused on overcoming the challenges of accessibility, technical complexity, and lack of explainability that have previously limited the use of automatic assessment tools among researchers and educators. We used a testing dataset comprising six assessment tasks (three binomial and three trinomial) with 1,650 student responses. We employed six prompt engineering strategies, combining zero-shot or few-shot learning with CoT, either alone or alongside item stem and scoring rubrics. Results indicated that few-shot (acc = .67) outperformed zero-shot learning (acc = .60), with 12.6\% increase. CoT, when used without item stem and scoring rubrics, did not significantly affect scoring accuracy (acc = .60). However, CoT prompting paired with contextual item stems and rubrics proved to be a significant contributor to scoring accuracy (13.44\% increase for zero-shot; 3.7\% increase for few-shot). Using a novel approach PPEAS, we found a more balanced accuracy across different proficiency categories, highlighting the importance of domain-specific reasoning in enhancing the effectiveness of LLMs in scoring tasks. Additionally, we also found that GPT-4 demonstrated superior performance over GPT-3.5 in various scoring tasks, showing 8.64\% difference. The study revealed that the single-call strategy with GPT-4, particularly using greedy sampling, outperformed other approaches, including ensemble voting strategies. This study demonstrates the potential of LLMs in facilitating automatic scoring, emphasizing that CoT enhances accuracy, particularly when used with item stem and scoring rubrics.
翻訳日:2023-12-11 02:57:10 公開日:2023-11-30
# ニューラルネットワークを用いたソーシャルメディアデータ中の患者音声の分類:異なるデータソースと治療領域におけるAIモデルの比較

Classifying patient voice in social media data using neural networks: A comparison of AI models on different data sources and therapeutic domains ( http://arxiv.org/abs/2312.03747v1 )

ライセンス: Link先を確認
Giorgos Lysandrou, Roma English Owen, Vanja Popovic, Grant Le Brun, Beatrice Alex, Elizabeth A. L. Fairley(参考訳) 医療専門家や医療コミュニティのメンバーは、実世界での患者体験にアクセスし、容易に理解し、ケア標準を改善し、パーソナライズされた薬物治療に向けて推進することが不可欠である。 ソーシャルメディアプラットフォームとメッセージボードは、患者が知識を議論したり、交換したり、オンラインで支援したりするために観察され、患者体験情報の適切な情報源とみなされている。 本論文は, 個人が旅行, 異なる治療領域, あるいはデータソースで話す方法に固有の違いがあるとして, すべてのオンライン患者体験情報を同じように扱ったり収集したりできるわけではないという仮説を検証した。 言語分析を用いて, 患者言語間, データソース(reddit, socialgist)と治療領域(心血管系, 腫瘍学, 免疫学, 神経学)の類似性を理解し, 同定した。 同一治療領域の患者が用いた共通語彙は,2つのデータソース間の独自の語彙を用いて,他のすべてのデータセットと比較した免疫学的患者を除いて検出した。 言語学的に類似したデータセットをトレーニング分類器(CNN, Transformer)と組み合わせて,ソーシャルメディアからの患者体験投稿を正確に識別する。 心臓血管と神経学のトランスフォーマー分類器は、Redditのデータソースの比較において、それぞれ0.865と1.0のF1スコアを達成している。 全体として最高のパフォーマンスの分類器は、この実験のために収集されたすべてのデータに基づいて訓練されたトランスフォーマー分類器であり、全ての治療領域とデータソース固有のテストデータセットで0.863から0.995までのF1スコアを達成する。

It is essential that healthcare professionals and members of the healthcare community can access and easily understand patient experiences in the real world, so that care standards can be improved and driven towards personalised drug treatment. Social media platforms and message boards are deemed suitable sources of patient experience information, as patients have been observed to discuss and exchange knowledge, look for and provide support online. This paper tests the hypothesis that not all online patient experience information can be treated and collected in the same way, as a result of the inherent differences in the way individuals talk about their journeys, in different therapeutic domains and or data sources. We used linguistic analysis to understand and identify similarities between datasets, across patient language, between data sources (Reddit, SocialGist) and therapeutic domains (cardiovascular, oncology, immunology, neurology). We detected common vocabulary used by patients in the same therapeutic domain across data sources, except for immunology patients, who use unique vocabulary between the two data sources, and compared to all other datasets. We combined linguistically similar datasets to train classifiers (CNN, transformer) to accurately identify patient experience posts from social media, a task we refer to as patient voice classification. The cardiovascular and neurology transformer classifiers perform the best in their respective comparisons for the Reddit data source, achieving F1-scores of 0.865 and 1.0 respectively. The overall best performing classifier is the transformer classifier trained on all data collected for this experiment, achieving F1-scores ranging between 0.863 and 0.995 across all therapeutic domain and data source specific test datasets.
翻訳日:2023-12-11 02:56:34 公開日:2023-11-30
# 文学的視点による大規模言語モデルの創造性評価

Evaluating Large Language Model Creativity from a Literary Perspective ( http://arxiv.org/abs/2312.03746v1 )

ライセンス: Link先を確認
Murray Shanahan and Catherine Clarke(参考訳) 本稿では,大規模言語モデル (LLM) が創造的記述プロセスにおける補助的ツールとして機能する可能性について,単一のケーススタディを用いて評価する。 研究の過程で,背景記述(シーン設定,プロット要素)をインターリーブする対話的・多声的促進戦略,構成を案内する指示,ターゲットスタイルのテキストのサンプル,与えられたサンプルの批判的議論を行う。 我々は、計算創造性(人工知能のサブフィールド)の観点からも、文学的批判的な観点からの結果を定性的に評価する。 LLMで達成できる結果の高度化は,プロンプトの高度化を反映している,という見解を裏付けるものである。

This paper assesses the potential for large language models (LLMs) to serve as assistive tools in the creative writing process, by means of a single, in-depth case study. In the course of the study, we develop interactive and multi-voice prompting strategies that interleave background descriptions (scene setting, plot elements), instructions that guide composition, samples of text in the target style, and critical discussion of the given samples. We qualitatively evaluate the results from a literary critical perspective, as well as from the standpoint of computational creativity (a sub-field of artificial intelligence). Our findings lend support to the view that the sophistication of the results that can be achieved with an LLM mirrors the sophistication of the prompting.
翻訳日:2023-12-11 02:56:03 公開日:2023-11-30
# セマンティック一貫性のための非クロス拡散

Non-Cross Diffusion for Semantic Consistency ( http://arxiv.org/abs/2312.00820v1 )

ライセンス: Link先を確認
Ziyang Zheng, Ruiyuan Gao, Qiang Xu(参考訳) 拡散モデルでは、まっすぐな生成フローからの逸脱が一般的な問題であり、意味的不整合と準最適世代をもたらす。 この課題に対処するために,正規微分方程式(ode)モデル学習のための生成モデルにおける革新的アプローチである'non-cross diffusion'を導入する。 提案手法は,2つの分布からサンプリングされた点を非交差経路で効果的に接続する入力の上昇次元を戦略的に組み込む。 この設計は、画像編集や補間タスクの基本的な蒸留法や決定論的サンプリングなど、一貫性のある生成フローに依存するアプリケーションにとって特に重要な、推論プロセス全体を通して意味的一貫性の強化を保証する上で重要である。 実験の結果,非クロス拡散の有効性が示され,異なる推論ステップにおける意味的不整合が著しく減少し,拡散モデル全体の性能が顕著に向上した。

In diffusion models, deviations from a straight generative flow are a common issue, resulting in semantic inconsistencies and suboptimal generations. To address this challenge, we introduce `Non-Cross Diffusion', an innovative approach in generative modeling for learning ordinary differential equation (ODE) models. Our methodology strategically incorporates an ascending dimension of input to effectively connect points sampled from two distributions with uncrossed paths. This design is pivotal in ensuring enhanced semantic consistency throughout the inference process, which is especially critical for applications reliant on consistent generative flows, including various distillation methods and deterministic sampling, which are fundamental in image editing and interpolation tasks. Our empirical results demonstrate the effectiveness of Non-Cross Diffusion, showing a substantial reduction in semantic inconsistencies at different inference steps and a notable enhancement in the overall performance of diffusion models.
翻訳日:2023-12-05 20:52:43 公開日:2023-11-30
# 旅行行動予測のための大規模言語モデル

Large Language Models for Travel Behavior Prediction ( http://arxiv.org/abs/2312.00819v1 )

ライセンス: Link先を確認
Baichuan Mo, Hanyong Xu, Dingyi Zhuang, Ruoyun Ma, Xiaotong Guo, Jinhua Zhao(参考訳) 旅行行動予測は交通需要管理の基本的な課題である。 従来の旅行行動予測法は、数理モデルを構築し、人間の好みを表すモデルパラメータを校正するために数値データに依存する。 大規模言語モデル(LLM)の最近の進歩は、複雑な問題を解く大きな推論能力を示している。 本研究では,データに基づくパラメータ学習を必要とせず,迅速なエンジニアリングによる旅行行動の予測にLLMを用いることを提案する。 具体的には プロンプトを慎重に設計し 1)タスク記述。 2)旅行の特徴 3)個々の属性、および 4) ドメイン知識による思考のガイドを行い, LLMに個人の旅行行動の予測と結果の説明を依頼する。 我々は,旅行モード選択タスクをケーススタディとして選択する。 その結果、トレーニングサンプルは提供されていないが、llmベースの予測は競合精度があり、多項ロジット、ランダムフォレスト、ニューラルネットワークなどの標準教師付き学習方法としてf1-scoreが用いられる。 LLMは予測をサポートする理由を出力することもできる。 しかし、ほとんどの場合、アウトプットの説明は妥当であるが、論理に反するケースや幻覚を伴うケースは依然として観察されている。

Travel behavior prediction is a fundamental task in transportation demand management. The conventional methods for travel behavior prediction rely on numerical data to construct mathematical models and calibrate model parameters to represent human preferences. Recent advancement in large language models (LLMs) has shown great reasoning abilities to solve complex problems. In this study, we propose to use LLMs to predict travel behavior with prompt engineering without data-based parameter learning. Specifically, we carefully design our prompts that include 1) task description, 2) travel characteristics, 3) individual attributes, and 4) guides of thinking with domain knowledge, and ask the LLMs to predict an individual's travel behavior and explain the results. We select the travel mode choice task as a case study. Results show that, though no training samples are provided, LLM-based predictions have competitive accuracy and F1-score as canonical supervised learning methods such as multinomial logit, random forest, and neural networks. LLMs can also output reasons that support their prediction. However, though in most of the cases, the output explanations are reasonable, we still observe cases that violate logic or with hallucinations.
翻訳日:2023-12-05 20:52:28 公開日:2023-11-30
# TLControl:人間の運動合成のための軌道と言語制御

TLControl: Trajectory and Language Control for Human Motion Synthesis ( http://arxiv.org/abs/2311.17135v2 )

ライセンス: Link先を確認
Weilin Wan, Zhiyang Dou, Taku Komura, Wenping Wang, Dinesh Jayaraman, Lingjie Liu(参考訳) 制御可能な人間のモーション合成は、AR/VR、ゲーム、映画、エンボディドAIの応用に不可欠である。 既存の手法は言語または完全な軌道制御にのみ焦点をあてることが多く、特にマルチジョイント制御において、ユーザが特定した軌道に合わせた合成動作の精度に欠ける。 これらの問題に対処するため,TLControlは,低レベルな軌跡と高レベルな言語セマンティクス制御の両方を取り入れた,リアルな人間の動作合成のための新しい手法である。 具体的には、まずVQ-VAEをトレーニングし、ボディパーツによって構成されたコンパクトな潜在運動空間を学習する。 次に,学習された潜在運動空間に基づく関節の完全な軌跡の粗い初期予測を行うために,ユーザが指定した部分的軌跡とテキスト記述を条件として仮面付き軌跡変換器を提案する。 最後に, 高精度軌道制御のための粗い予測を洗練するために, 効率的なテストタイム最適化を提案する。 実験により,TLControlはトラジェクトリの精度と時間効率に優れており,インタラクティブで高品質なアニメーション生成に実用的であることが示された。

Controllable human motion synthesis is essential for applications in AR/VR, gaming, movies, and embodied AI. Existing methods often focus solely on either language or full trajectory control, lacking precision in synthesizing motions aligned with user-specified trajectories, especially for multi-joint control. To address these issues, we present TLControl, a new method for realistic human motion synthesis, incorporating both low-level trajectory and high-level language semantics controls. Specifically, we first train a VQ-VAE to learn a compact latent motion space organized by body parts. We then propose a Masked Trajectories Transformer to make coarse initial predictions of full trajectories of joints based on the learned latent motion space, with user-specified partial trajectories and text descriptions as conditioning. Finally, we introduce an efficient test-time optimization to refine these coarse predictions for accurate trajectory control. Experiments demonstrate that TLControl outperforms the state-of-the-art in trajectory accuracy and time efficiency, making it practical for interactive and high-quality animation generation.
翻訳日:2023-12-05 20:48:19 公開日:2023-11-30
# AV-RIR:音響視覚室インパルス応答推定

AV-RIR: Audio-Visual Room Impulse Response Estimation ( http://arxiv.org/abs/2312.00834v1 )

ライセンス: Link先を確認
Anton Ratnarajah, Sreyan Ghosh, Sonal Kumar, Purva Chiniya, Dinesh Manocha(参考訳) 環境音響特性を捉えた室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。 本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。 AV-RIRは、環境の幾何学や材料特性を効果的に捉え、マルチタスク学習を用いて音声認識を補助タスクとして解決する新しいニューラルコーデックベースのアーキテクチャに基づいている。 また,画像からRIRの検索によって推定されたRIRの残響成分を86%改善するビジュアルキューとCRIPに素材情報を付加するGeo-Mat機能を提案する。 AV-RIRは、RIR推定における様々な音響指標の36%から63%の改善によって、従来の音声のみのアプローチと視覚のみのアプローチを定量的に上回ることを示す。 また、人間評価において高い選好スコアが得られる。 補助的な利点として、AV-RIRから派生した音声は、様々な言語処理タスクにおける最先端技術との競合性能を示し、実世界のAVSpeechデータセットにおける残響時間誤差スコアよりも優れていた。 合成残響音声と拡張音声の質的な例はhttps://www.youtube.com/watch? v=tTsKhviukAE。

Accurate estimation of Room Impulse Response (RIR), which captures an environment's acoustic properties, is important for speech processing and AR/VR applications. We propose AV-RIR, a novel multi-modal multi-task learning approach to accurately estimate the RIR from a given reverberant speech signal and the visual cues of its corresponding environment. AV-RIR builds on a novel neural codec-based architecture that effectively captures environment geometry and materials properties and solves speech dereverberation as an auxiliary task by using multi-task learning. We also propose Geo-Mat features that augment material information into visual cues and CRIP that improves late reverberation components in the estimated RIR via image-to-RIR retrieval by 86%. Empirical results show that AV-RIR quantitatively outperforms previous audio-only and visual-only approaches by achieving 36% - 63% improvement across various acoustic metrics in RIR estimation. Additionally, it also achieves higher preference scores in human evaluation. As an auxiliary benefit, dereverbed speech from AV-RIR shows competitive performance with the state-of-the-art in various spoken language processing tasks and outperforms reverberation time error score in the real-world AVSpeech dataset. Qualitative examples of both synthesized reverberant speech and enhanced speech can be found at https://www.youtube.com/watch?v=tTsKhviukAE.
翻訳日:2023-12-05 20:38:24 公開日:2023-11-30
# lasagna:不等角点灯のための層状スコア蒸留

Lasagna: Layered Score Distillation for Disentangled Object Relighting ( http://arxiv.org/abs/2312.00833v1 )

ライセンス: Link先を確認
Dina Bashkirova, Arijit Ray, Rupayan Mallick, Sarah Adel Bargal, Jianming Zhang, Ranjay Krishna, Kate Saenko(参考訳) プロのアーティスト、写真家、その他のビジュアルコンテンツクリエイターは、写真の望ましい効果を確立するためにオブジェクトリライティングを使用する。 残念ながら、リライトを可能にする手動ツールは急な学習曲線を持ち、習得が難しい。 生成的な編集方法によって何らかの画像編集が可能になるが、リライトは依然として今日の機能を超えている。既存の方法では、編集後に画像の他の側面(色、形、テクスチャ)を一貫性を保つのに苦労している。 直感的なテキスト誘導型リライト制御を実現する手法であるLasagnaを提案する。 lasagnaは、スコア蒸留サンプリングを用いて、合成照明データに基づいて微調整された拡散モデルの前の蒸留を行い、照明を学習する。 ラザニアを訓練するために、複数の光源位置から再リライトされた3Dオブジェクトを含む新しい合成データセットReLiTをキュレートする。 合成画像の学習にもかかわらず、ラザグナは入力画像の他の側面を保ちながら実世界の画像を再現し、最先端のテキストガイド画像編集手法を上回っている。 lasagnaは、自然画像やデジタルアート作品のリアルで制御された結果を可能とし、91%以上のケースで他の方法よりも人間に好まれる。 最後に,画像編集の別の形態であるカラー化を可能にするように拡張することで,学習目標の汎用性を示す。

Professional artists, photographers, and other visual content creators use object relighting to establish their photo's desired effect. Unfortunately, manual tools that allow relighting have a steep learning curve and are difficult to master. Although generative editing methods now enable some forms of image editing, relighting is still beyond today's capabilities; existing methods struggle to keep other aspects of the image -- colors, shapes, and textures -- consistent after the edit. We propose Lasagna, a method that enables intuitive text-guided relighting control. Lasagna learns a lighting prior by using score distillation sampling to distill the prior of a diffusion model, which has been finetuned on synthetic relighting data. To train Lasagna, we curate a new synthetic dataset ReLiT, which contains 3D object assets re-lit from multiple light source locations. Despite training on synthetic images, quantitative results show that Lasagna relights real-world images while preserving other aspects of the input image, outperforming state-of-the-art text-guided image editing methods. Lasagna enables realistic and controlled results on natural images and digital art pieces and is preferred by humans over other methods in over 91% of cases. Finally, we demonstrate the versatility of our learning objective by extending it to allow colorization, another form of image editing.
翻訳日:2023-12-05 20:37:58 公開日:2023-11-30
# 最適化された一般一様量子状態形成

Optimized General Uniform Quantum State Preparation ( http://arxiv.org/abs/2312.00832v1 )

ライセンス: Link先を確認
Mark Ariel Levin(参考訳) 構造化されていない探索問題に対する量子アルゴリズムは、伝統的にアダマール門を通して達成された均一な重ね合わせの準備に依存する。 しかし、これは同時に、探索空間に属さない非感覚的な回答からなる補助的な探索空間を生成し、それらを無視、非計算、破壊的に妨害する必要があるため、アルゴリズムの効率を低下させる。 この補助探索空間を除去する以前のアプローチは、大きな回路深度をもたらし、補助量子ビットの使用を必要とした。 我々は,任意のN状態の均一な重ね合わせを調製する回路に最適化された一般解法を開発し,奥行きを最小化しつつ,アシラリー量子ビットを使わずに実現した。 このアルゴリズムは、特に2つのワイヤゲートの使用において効率的であり、ionq量子コンピュータ上で検証され、量子非構造化探索アルゴリズムへの応用により検証されている。

Quantum algorithms for unstructured search problems rely on the preparation of a uniform superposition, traditionally achieved through Hadamard gates. However, this incidentally creates an auxiliary search space consisting of nonsensical answers that do not belong in the search space and reduce the efficiency of the algorithm due to the need to neglect, un-compute, or destructively interfere with them. Previous approaches to removing this auxiliary search space yielded large circuit depth and required the use of ancillary qubits. We have developed an optimized general solver for a circuit that prepares a uniform superposition of any N states while minimizing depth and without the use of ancillary qubits. We show that this algorithm is efficient, especially in its use of two wire gates, and that it has been verified on an IonQ quantum computer and through application to a quantum unstructured search algorithm.
翻訳日:2023-12-05 20:37:32 公開日:2023-11-30
# 騒音のモデリングと騒音検出の強化のための一元化フレームワーク

A Unified Framework for Connecting Noise Modeling to Boost Noise Detection ( http://arxiv.org/abs/2312.00827v1 )

ライセンス: Link先を確認
Siqi Wang, Chau Pham, Bryan A. Plummer(参考訳) ノイズラベルはモデル性能を損なう可能性があるため、ノイズラベルを用いた学習の研究が重要なトピックとなる。 従来の2つのアプローチはノイズモデリングとノイズ検出である。 しかし、これらの2つの方法は一般的に独立して研究されており、コラボレーションに関する作業は限られている。 本研究では,これら2つの手法の統合について検討し,ノイズモデリング,ソース知識同定,ノイズソース知識統合手法を用いたノイズ検出の強化という3つの重要なブロックによる相互接続構造を提案する。 このコラボレーション構造は、ハードネガティブの識別や、疑わしいうる真にクリーンなラベルの保存といった利点を提供する。 3種類のノイズと各ブロックの異なる組み合わせを特徴とする4つのデータセットの実験を行い、これらのコンポーネントの協調の有効性を実証した。 我々の協調構造法は、合成ノイズデータセットにおけるトップ1分類精度が10%向上し、実世界のノイズデータセットでは3.5%向上する。 また, これらのコンポーネントは, 様々なノイズシナリオにおいて, 全体的な性能に異なる貢献をすることが示唆された。 これらの知見は,将来,特定の騒音シナリオ用にカスタマイズされた雑音ラベル学習手法の設計に有用である。 私たちのコードは一般公開されている。

Noisy labels can impair model performance, making the study of learning with noisy labels an important topic. Two conventional approaches are noise modeling and noise detection. However, these two methods are typically studied independently, and there has been limited work on their collaboration. In this work, we explore the integration of these two approaches, proposing an interconnected structure with three crucial blocks: noise modeling, source knowledge identification, and enhanced noise detection using noise source-knowledge-integration methods. This collaboration structure offers advantages such as discriminating hard negatives and preserving genuinely clean labels that might be suspiciously noisy. Our experiments on four datasets, featuring three types of noise and different combinations of each block, demonstrate the efficacy of these components' collaboration. Our collaborative structure methods achieve up to a 10% increase in top-1 classification accuracy in synthesized noise datasets and 3-5% in real-world noisy datasets. The results also suggest that these components make distinct contributions to overall performance across various noise scenarios. These findings provide valuable insights for designing noisy label learning methods customized for specific noise scenarios in the future. Our code is accessible to the public.
翻訳日:2023-12-05 20:37:18 公開日:2023-11-30
# devias: 総合的映像理解のための行動と場面の絡み合った映像表現の学習

DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding ( http://arxiv.org/abs/2312.00826v1 )

ライセンス: Link先を確認
Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi(参考訳) ビデオを見るとき、アクションシーンの組み合わせが珍しい場合でも、人間は周囲のシーンから自然に人間の行動を抽出することができる。 しかし、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータにおけるスプリアス相関から、シーンバイアスのあるアクション表現をしばしば学習し、文脈外のシナリオではパフォーマンスが低下する。 シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。 この課題に対処するため,本研究では,包括的映像理解の実現を目的としたDistangled VIdeo representations of Action and Scene (DEVIAS)を提案する。 本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。 絡み合ったアクションとシーン表現は、コンテキスト内とコンテキスト外の両方のビデオ理解に有益である。 この目的のために,スロットアテンションを用いて,スロットアテンションを誘導する補助タスクとともに,一つのモデルで絡み合った動作やシーンの表現を学習する。 提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の両方で検証する。 提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。

When watching a video, humans can naturally extract human actions from the surrounding scene context, even when action-scene combinations are unusual. However, unlike humans, video action recognition models often learn scene-biased action representations from the spurious correlation in training data, leading to poor performance in out-of-context scenarios. While scene-debiased models achieve improved performance in out-of-context scenarios, they often overlook valuable scene information in the data. Addressing this challenge, we propose Disentangled VIdeo representations of Action and Scene (DEVIAS), which aims to achieve holistic video understanding. Disentangled action and scene representations with our method could provide flexibility to adjust the emphasis on action or scene information depending on downstream task and dataset characteristics. Disentangled action and scene representations could be beneficial for both in-context and out-of-context video understanding. To this end, we employ slot attention to learn disentangled action and scene representations with a single model, along with auxiliary tasks that further guide slot attention. We validate the proposed method on both in-context datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT. Our proposed method shows favorable performance across different datasets compared to the baselines, demonstrating its effectiveness in diverse video understanding scenarios.
翻訳日:2023-12-05 20:36:59 公開日:2023-11-30
# 実例を用いた視覚言語モデルにおける間欠的社会バイアスの探索と緩和

Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual Examples ( http://arxiv.org/abs/2312.00825v1 )

ライセンス: Link先を確認
Phillip Howard, Avinash Madasu, Tiep Le, Gustavo Lujan Moreno, Anahita Bhiwandiwalla, and Vasudev Lal(参考訳) 視覚言語モデル(VLM)は近年顕著な性能向上を遂げているが、性別や人種などの社会的属性に関して有害なバイアスが生じる証拠も増えている。 先行研究は、社会的属性間の交点に関連するバイアスを無視しながら、個別にバイアス属性を探索することに焦点を当ててきた。 これは、様々な社会的属性の組み合わせに対して、徹底した画像テキストペアを集めるのが難しいためかもしれない。 この課題に対処するため,我々は,テキストから画像への拡散モデルを用いて,大規模社会バイアスを探究する反事実的例を作成した。 本手法では, 対象の描写(例えば, 与えられた職業)に非常に類似する対物的イメージテキストペアを生成できる一方で, 交叉的社会的属性(例えば, 人種や性別)の描写においてのみ異なる対物的イメージテキストペアの組を生成するために, クロスアテンション制御を伴う安定した拡散を利用する。 性別,人種,身体特性に関連する交叉バイアスを推定するための171k以上の画像テキストペアを含む高品質なデータセットであるSocialCounterfactualsを作成した。 我々は、最先端のVLMにおける交叉社会的バイアスの探索と緩和に生成されたデータセットの有用性を実証するための広範な実験を行った。

While vision-language models (VLMs) have achieved remarkable performance improvements recently, there is growing evidence that these models also posses harmful biases with respect to social attributes such as gender and race. Prior studies have primarily focused on probing such bias attributes individually while ignoring biases associated with intersections between social attributes. This could be due to the difficulty of collecting an exhaustive set of image-text pairs for various combinations of social attributes. To address this challenge, we employ text-to-image diffusion models to produce counterfactual examples for probing intserctional social biases at scale. Our approach utilizes Stable Diffusion with cross attention control to produce sets of counterfactual image-text pairs that are highly similar in their depiction of a subject (e.g., a given occupation) while differing only in their depiction of intersectional social attributes (e.g., race & gender). Through our over-generate-then-filter methodology, we produce SocialCounterfactuals, a high-quality dataset containing over 171k image-text pairs for probing intersectional biases related to gender, race, and physical characteristics. We conduct extensive experiments to demonstrate the usefulness of our generated dataset for probing and mitigating intersectional social biases in state-of-the-art VLMs.
翻訳日:2023-12-05 20:36:31 公開日:2023-11-30
# 適応型マルチモダリティ学習

Adaptive Multi-Modality Prompt Learning ( http://arxiv.org/abs/2312.00823v1 )

ライセンス: Link先を確認
Zongqian Wu, Yujing Liu, Mengmeng Zhan, Jialie Shen, Ping Hu, Xiaofeng Zhu(参考訳) 現在のプロンプト学習法は、多数のパラメータを微調整することなく、大規模な事前学習モデルを効果的に再利用するように設計されているが、各画像における意味のないパッチの悪影響や、サンプル内一般化やサンプル外一般化を考慮せずに、対処すべき制限がある。 本稿では,上記の問題に対処するために,適応型マルチモダリティプロンプト学習を提案する。 そこで我々は,従来のテキストプロンプト学習を採用し,新しい画像プロンプト学習を提案する。 画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。 さらに、各プロンプトは互いに補助情報を提供し、これら2種類の一般化をさらに強化する。 実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。

Although current prompt learning methods have successfully been designed to effectively reuse the large pre-trained models without fine-tuning their large number of parameters, they still have limitations to be addressed, i.e., without considering the adverse impact of meaningless patches in every image and without simultaneously considering in-sample generalization and out-of-sample generalization. In this paper, we propose an adaptive multi-modality prompt learning to address the above issues. To do this, we employ previous text prompt learning and propose a new image prompt learning. The image prompt learning achieves in-sample and out-of-sample generalization, by first masking meaningless patches and then padding them with the learnable parameters and the information from texts. Moreover, each of the prompts provides auxiliary information to each other, further strengthening these two kinds of generalization. Experimental results on real datasets demonstrate that our method outperforms SOTA methods, in terms of different downstream tasks.
翻訳日:2023-12-05 20:35:41 公開日:2023-11-30
# ドメイン適応: 境界とアルゴリズムを学習する

Domain Adaptation: Learning Bounds and Algorithms ( http://arxiv.org/abs/0902.3430v3 )

ライセンス: Link先を確認
Yishay Mansour, Mehryar Mohri, Afshin Rostamizadeh(参考訳) 本稿では,ラベル付きサンプルの分布がテストデータと多少異なる様々なアプリケーションにおいて生じる,ドメイン適応の一般的な問題について述べる。 ben-david et al. (2007) による先行研究に基づき, 任意の損失関数を持つ適応問題に適応した, 分布間の新しい距離である不一致距離を導入する。 有限標本からの損失関数の差を推定するためにラデマッハの複雑性境界を与える。 この距離を用いて、広い損失関数族に対する領域適応のための新しい一般化境界を導出する。 また,経験的差分に基づくサポートベクトルマシンやカーネルリッジ回帰を含む,正規化に基づくアルゴリズムの大規模クラスに対する新しい適応境界も提示する。 これは,新しいアルゴリズムを与える様々な損失関数に対する経験的不一致を最小化する問題の解析を動機づける。 ドメイン適応のための不一致最小化アルゴリズムの利点を実証する予備実験の結果を報告する。

This paper addresses the general problem of domain adaptation which arises in a variety of applications where the distribution of the labeled sample available somewhat differs from that of the test data. Building on previous work by Ben-David et al. (2007), we introduce a novel distance between distributions, discrepancy distance, that is tailored to adaptation problems with arbitrary loss functions. We give Rademacher complexity bounds for estimating the discrepancy distance from finite samples for different loss functions. Using this distance, we derive novel generalization bounds for domain adaptation for a wide family of loss functions. We also present a series of novel adaptation bounds for large classes of regularization-based algorithms, including support vector machines and kernel ridge regression based on the empirical discrepancy. This motivates our analysis of the problem of minimizing the empirical discrepancy for various loss functions for which we also give novel algorithms. We report the results of preliminary experiments that demonstrate the benefits of our discrepancy minimization algorithms for domain adaptation.
翻訳日:2023-12-04 19:26:21 公開日:2023-11-30
# ゼロショット言語スタイルカスタマイズにおける言語モデルの拡張性プロンプト

Extensible Prompts for Language Models on Zero-shot Language Style Customization ( http://arxiv.org/abs/2212.00616v2 )

ライセンス: Link先を確認
Tao Ge, Jing Hu, Li Dong, Shaoguang Mao, Yan Xia, Xun Wang, Si-Qing Chen, Furu Wei(参考訳) 本稿では,自然言語(nl)を超えた大規模言語モデル(llm)の推進を目的とした拡張性プロンプト(x-prompt)を提案する。 X-Prompt は、NL だけでなく、想像上の単語の拡張可能な語彙で LLM を指示する。 新しい想像上の単語を登録することで、llmにnlの単語で記述するのが難しい概念を理解させるように指示することができる。 また、これらの想像上の単語は、様々なプロンプトでnl単語のように(再)使われるように、分散(ood)が堅牢であるように設計されており、x-promptと、分散データに適合するソフトプロンプトとを区別している。 本稿では,一般ユーザビリティのための仮想単語学習のための文脈拡張学習(CAL)を提案し,OOD(unseen)プロンプトで適切に機能させる。 ゼロショット言語スタイルカスタマイズのためのx-promptをケーススタディとして実験する。 X-Promptの有望な結果は、自然言語インターフェースを超えて高度な対話を促進する可能性を示し、人間とLLM間のコミュニケーションギャップを埋める。

We propose eXtensible Prompt (X-Prompt) for prompting a large language model (LLM) beyond natural language (NL). X-Prompt instructs an LLM with not only NL but also an extensible vocabulary of imaginary words. Registering new imaginary words allows us to instruct the LLM to comprehend concepts that are difficult to describe with NL words, thereby making a prompt more descriptive. Also, these imaginary words are designed to be out-of-distribution (OOD) robust so that they can be (re)used like NL words in various prompts, distinguishing X-Prompt from soft prompt that is for fitting in-distribution data. We propose context-augmented learning (CAL) to learn imaginary words for general usability, enabling them to work properly in OOD (unseen) prompts. We experiment X-Prompt for zero-shot language style customization as a case study. The promising results of X-Prompt demonstrate its potential to facilitate advanced interaction beyond the natural language interface, bridging the communication gap between humans and LLMs.
翻訳日:2023-12-04 19:19:21 公開日:2023-11-30
# フーリエ変換雑音分光法

Fourier Transform Noise Spectroscopy ( http://arxiv.org/abs/2210.00386v3 )

ライセンス: Link先を確認
Arian Vezvaee, Nanako Shitara, Shuo Sun, Andr\'es Montoya-Castillo(参考訳) 量子ビットのデコヒーレンスにつながる雑音環境のスペクトル的特徴は、堅牢な量子技術を開発する上で重要である。 動的デカップリングはノイズスペクトルを特徴付ける最も成功した方法の1つを提供するが、その方法の複雑さとコストを増大させる$\pi$パルスの大規模なシーケンスを適用する必要がある。 本稿では,自由誘導減衰またはスピンエコー測定のフーリエ変換のみを利用する雑音分光法を提案する。 提案手法は, 様々な環境(例えば1/f$型ノイズを含む)における正しいノイズスペクトルを忠実に復元し, 従来の動的デカップリング方式より優れ, 実験オーバーヘッドを大幅に低減することを示す。 また,本提案の実験的実現可能性について検討し,統計的測定誤差の存在下でのロバスト性を示す。 提案手法は幅広い量子プラットフォームに適用可能であり,量子デバイスのより正確なスペクトル評価を行うための簡単な経路を提供する。

Spectral characterization of noise environments that lead to the decoherence of qubits is critical to developing robust quantum technologies. While dynamical decoupling offers one of the most successful approaches to characterize noise spectra, it necessitates applying large sequences of $\pi$ pulses that increase the complexity and cost of the method. Here, we introduce a noise spectroscopy method that utilizes only the Fourier transform of free induction decay or spin echo measurements, thus removing the need for the application many $\pi$ pulses. We show that our method faithfully recovers the correct noise spectra for a variety of different environments (including $1/f$-type noise) and outperforms previous dynamical decoupling schemes while significantly reducing their experimental overhead. We also discuss the experimental feasibility of our proposal and demonstrate its robustness in the presence of statistical measurement error. Our method is applicable to a wide range of quantum platforms and provides a simpler path toward a more accurate spectral characterization of quantum devices, thus offering possibilities for tailored decoherence mitigation.
翻訳日:2023-12-04 19:16:10 公開日:2023-11-30
# NeRF:3Dビジョンにおけるニューラル・ラジアンス・フィールドの総合的レビュー

NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review ( http://arxiv.org/abs/2210.00379v5 )

ライセンス: Link先を確認
Kyle Gao, Yina Gao, Hongjie He, Dening Lu, Linlin Xu and Jonathan Li(参考訳) neural radiance field (nerf) は最近コンピュータビジョンの分野で重要な発展を遂げており、暗黙的なニューラルネットワークベースのシーン表現と新しいビュー合成を可能にしている。 NeRFモデルは、ロボット工学、都市マッピング、自律ナビゲーション、仮想現実/拡張現実など、さまざまな応用を見出している。 NeRFの普及と研究領域の拡大により,過去2年間のNeRF論文を包括的に調査した。 本調査は,アーキテクチャとアプリケーションに基づく分類に分類され,nerfの理論と微分可能なボリュームレンダリングによるトレーニングについて紹介する。 また、重要なNeRFモデルの性能と速度をベンチマークで比較する。 この調査を作成することで、新しい研究者をNeRFに紹介し、この分野における影響力のある研究の参考となるとともに、今後の研究方向性を議論節で動機付けることを期待する。

Neural Radiance Field (NeRF) has recently become a significant development in the field of Computer Vision, allowing for implicit, neural network-based scene representation and novel view synthesis. NeRF models have found diverse applications in robotics, urban mapping, autonomous navigation, virtual reality/augmented reality, and more. Due to the growing popularity of NeRF and its expanding research area, we present a comprehensive survey of NeRF papers from the past two years. Our survey is organized into architecture and application-based taxonomies and provides an introduction to the theory of NeRF and its training via differentiable volume rendering. We also present a benchmark comparison of the performance and speed of key NeRF models. By creating this survey, we hope to introduce new researchers to NeRF, provide a helpful reference for influential works in this field, as well as motivate future research directions with our discussion section.
翻訳日:2023-12-04 19:15:53 公開日:2023-11-30
# 地域重み付けによるクラウドソースラベルを組み合わせた曖昧なタスクの同定

Identify ambiguous tasks combining crowdsourced labels by weighting Areas Under the Margin ( http://arxiv.org/abs/2209.15380v3 )

ライセンス: Link先を確認
Tanguy Lefort and Benjamin Charlier and Alexis Joly and Joseph Salmon(参考訳) 教師付き学習(例えば画像分類)では、現代の大規模データセットは、一般に労働者の群れによってラベル付けされる。 このクラウドソーシング設定で得られたラベルは、トレーニングのために集約され、一般的に、同僚毎の信頼スコアを利用する。 しかし、そのような労働者指向のアプローチはタスクの曖昧さを捨てる。 曖昧なタスクは専門家の労働者を騙しかねない。 標準的な教師付き学習設定 - タスク毎にひとつのラベル - では、マージン(aum)下の領域は、誤ったラベルデータを特定するために調整された。 我々は、クラウドソーシング学習シナリオにおけるあいまいなタスクを特定するためにAUMを適用し、Weighted Areas Under the Margin (WAUM)を導入した。 WAUMはタスク依存スコアに応じて重み付けされたAUMの平均値である。 WAUMはトレーニングセットからあいまいなタスクを捨てるのに役立ち、より優れた一般化性能が得られることを示す。 CIFAR-10H(多数の回答ラベルを持つクラウドソースデータセット)、LabelMe、Music(回答数が少ない2つのデータセット)といった実際のデータセット上で、群衆による学習戦略の改善について報告する。

In supervised learning - for instance in image classification - modern massive datasets are commonly labeled by a crowd of workers. The obtained labels in this crowdsourcing setting are then aggregated for training, generally leveraging a per-worker trust score. Yet, such workers oriented approaches discard the tasks' ambiguity. Ambiguous tasks might fool expert workers, which is often harmful for the learning step. In standard supervised learning settings - with one label per task - the Area Under the Margin (AUM) was tailored to identify mislabeled data. We adapt the AUM to identify ambiguous tasks in crowdsourced learning scenarios, introducing the Weighted Areas Under the Margin (WAUM). The WAUM is an average of AUMs weighted according to task-dependent scores. We show that the WAUM can help discarding ambiguous tasks from the training set, leading to better generalization performance. We report improvements over existing strategies for learning with a crowd, both on simulated settings, and on real datasets such as CIFAR-10H (a crowdsourced dataset with a high number of answered labels),LabelMe and Music (two datasets with few answered votes).
翻訳日:2023-12-04 19:15:36 公開日:2023-11-30
# 量子通信ネットワークにおける偏光補償法

Polarization compensation methods for quantum communication networks ( http://arxiv.org/abs/2208.13584v2 )

ライセンス: Link先を確認
Matej Peranic, Marcus Clark, Rui Wang, Sima Bahrani, Obada Alia, Soren Wengerowsky, Anton Radman, Martin Loncaric, Mario Stipcevic, John Rarity, Reza Nejabati, Siddarth K Joshi(参考訳) 量子鍵分布によって提供される情報理論的な無条件セキュリティは、より大きな量子通信ネットワークの発展を促した。 しかし、これらのネットワークが成長するにつれて、複雑さとオーバーヘッドを少なくする必要がある。 偏光に基づく絡み合った分散ネットワークは、そのスケーラビリティと信頼されたノードの欠如により、有望なアプローチである。 それでも、ネットワーク内のすべての光分布ファイバーの複屈折が、偏光に基づく量子状態を保存するために補償される場合のみ有効である。 ブルート力のアプローチでは、適度な大きさのネットワークでも数百個のファイバー偏光制御装置が必要となる。 そこで本研究では4種類の偏光補償法を提案する。 複雑性、労力、破壊のレベル、ネットワークの操作やパフォーマンスなどに基づいて比較します。

The information-theoretic unconditional security offered by quantum key distribution has spurred the development of larger quantum communication networks. However, as these networks grow so does the strong need to reduce complexity and overheads. Polarization based entanglement distribution networks are a promising approach due to their scalability and lack of trusted nodes. Nevertheless, they are only viable if the birefringence of all optical distribution fibres in the network is compensated to preserve the polarization based quantum state. The brute force approach would require a few hundred fibre polarization controllers for even a moderately sized network. Instead, we propose and investigate four different methods of polarization compensation. We compare them based on complexity, effort, level of disruption to network operations and performance.
翻訳日:2023-12-04 19:15:17 公開日:2023-11-30
# ParrotTTS:自己教師付き表現を利用した音声合成

ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations ( http://arxiv.org/abs/2303.01261v2 )

ライセンス: Link先を確認
Neil Shah, Saiteja Kosgi, Vishal Tambrahalli, Neha Sahipjohn, Anil Kumar Nelakanti, Niranjan Pedanekar, Vineet Gandhi(参考訳) 本稿では,不規則な自己教師付き音声表現を活用するモジュール化テキスト音声合成モデルであるParrotTTSを提案する。 単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。 ParrotTTSは低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。 さらに、パラレルな例やバイリンガルな例を訓練せずに、ParrotTTSはフランス語話者の声とアクセントを使って、流れるヒンディー語を合成するなど、話者固有の特徴を保ちながら、言語間で音声を転送することができる。 単言語および多言語シナリオにおける広範な結果を示す。 ParrotTTSは、ペアデータのごく一部を後者として、最先端の多言語TSモデルより優れている。

We present ParrotTTS, a modularized text-to-speech synthesis model leveraging disentangled self-supervised speech representations. It can train a multi-speaker variant effectively using transcripts from a single speaker. ParrotTTS adapts to a new language in low resource setup and generalizes to languages not seen while training the self-supervised backbone. Moreover, without training on bilingual or parallel examples, ParrotTTS can transfer voices across languages while preserving the speaker specific characteristics, e.g., synthesizing fluent Hindi speech using a French speaker's voice and accent. We present extensive results in monolingual and multi-lingual scenarios. ParrotTTS outperforms state-of-the-art multi-lingual TTS models using only a fraction of paired data as latter.
翻訳日:2023-12-04 19:07:26 公開日:2023-11-30
# CHeart : 心臓解剖における条件時空間生成モデル

CHeart: A Conditional Spatio-Temporal Generative Model for Cardiac Anatomy ( http://arxiv.org/abs/2301.13098v3 )

ライセンス: Link先を確認
Mengyun Qiao, Shuo Wang, Huaqi Qiu, Antonio de Marvao, Declan P. O'Regan, Daniel Rueckert, Wenjia Bai(参考訳) 心画像解析における2つの重要な疑問は、画像から心臓の解剖と運動を評価することと、それが性別、年齢、疾患などの非画像的臨床因子とどのように関連しているかを理解することである。 第1の質問はしばしば画像分割とモーショントラッキングアルゴリズムによって解決されるが、第2の質問をモデル化して答える能力はまだ限られている。 本研究では,心臓の4次元時空間解剖とその非画像的臨床因子との相互作用を記述するための条件生成モデルを提案する。 臨床因子は生成モデリングの条件として統合され, これらの因子が心臓解剖にどのように影響するかを調べることができる。 主に解剖学的シーケンス完了とシーケンス生成の2つのタスクでモデル性能を評価する。 このモデルは解剖学的シーケンスの完成度において、他の最先端生成モデルに匹敵する高い性能を達成している。 臨床条件が与えられた場合、このモデルは、類似した分布を実際のデータと共有するリアルな4Dシーケンシャル解剖を生成できる。

Two key questions in cardiac image analysis are to assess the anatomy and motion of the heart from images; and to understand how they are associated with non-imaging clinical factors such as gender, age and diseases. While the first question can often be addressed by image segmentation and motion tracking algorithms, our capability to model and to answer the second question is still limited. In this work, we propose a novel conditional generative model to describe the 4D spatio-temporal anatomy of the heart and its interaction with non-imaging clinical factors. The clinical factors are integrated as the conditions of the generative modelling, which allows us to investigate how these factors influence the cardiac anatomy. We evaluate the model performance in mainly two tasks, anatomical sequence completion and sequence generation. The model achieves a high performance in anatomical sequence completion, comparable to or outperforming other state-of-the-art generative models. In terms of sequence generation, given clinical conditions, the model can generate realistic synthetic 4D sequential anatomies that share similar distributions with the real data.
翻訳日:2023-12-04 19:05:34 公開日:2023-11-30
# ReCEval: 正確性とインフォーマル性による推論チェーンの評価

ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness ( http://arxiv.org/abs/2304.10703v2 )

ライセンス: Link先を確認
Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal(参考訳) 多段階推論能力は多くの自然言語処理に基本的だが、何が適切な推論連鎖を構成するのか、どのように評価するかは定かではない。 既存のほとんどの手法は、推論連鎖が正しい結論に至るかどうかにのみ焦点を絞っているが、この回答指向の見解は、推論品質を他の急激なショートカットと混同して答えを予測する。 このギャップを埋めるために、最終的な答えを導く非公式な証明として、推論連鎖を評価する。 具体的には、(1)正確性、すなわち、各ステップは、ステップ、先行ステップ、入力コンテキストに含まれる情報に基づいて妥当な推論を行い、(2)有益性、すなわち、各ステップは、生成された回答の導出に役立つ新しい情報を提供する、という2つの重要な特性を通して推論チェーンを評価するフレームワークであるreceval(reasoning chain evaluation)を提案する。 自然言語推論モデルとV-情報を用いて,これらの特性を評価する。 複数のデータセットにおいて、ReCEvalは様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。 我々は,ステップ境界の影響と,その正確性を評価するための前回のステップを分析し,高品質な推論チェーンにおいて,情報の流れが期待できることを示す。 最後に,recevalに基づくスコアリング推論チェインが下流タスクのパフォーマンスを向上させることを示す。 私たちのコードは、https://github.com/archiki/ReCEvalで公開されています。

Multi-step reasoning ability is fundamental to many natural language tasks, yet it is unclear what constitutes a good reasoning chain and how to evaluate them. Most existing methods focus solely on whether the reasoning chain leads to the correct conclusion, but this answer-oriented view may confound reasoning quality with other spurious shortcuts to predict the answer. To bridge this gap, we evaluate reasoning chains by viewing them as informal proofs that derive the final answer. Specifically, we propose ReCEval (Reasoning Chain Evaluation), a framework that evaluates reasoning chains via two key properties: (1) correctness, i.e., each step makes a valid inference based on information contained within the step, preceding steps, and input context, and (2) informativeness, i.e., each step provides new information that is helpful towards deriving the generated answer. We evaluate these properties by developing metrics using natural language inference models and V-Information. On multiple datasets, we show that ReCEval effectively identifies various error types and yields notable improvements compared to prior methods. We analyze the impact of step boundaries, and previous steps on evaluating correctness and demonstrate that our informativeness metric captures the expected flow of information in high-quality reasoning chains. Finally, we show that scoring reasoning chains based on ReCEval improves downstream task performance. Our code is publicly available at: https://github.com/archiki/ReCEval
翻訳日:2023-12-04 18:56:39 公開日:2023-11-30
# シミュレーションデータの後処理による雷雨予報への機械学習アプローチ

A machine-learning approach to thunderstorm forecasting through post-processing of simulation data ( http://arxiv.org/abs/2303.08736v2 )

ライセンス: Link先を確認
Kianusch Vahid Yousefnia, Tobias B\"olle, Isabella Z\"obisch, Thomas Gerz(参考訳) 雷雨は社会や経済に大きな危険をもたらし、信頼できる雷雨予報が求められている。 本研究では,数値気象予測(NWP)データから雷雨の発生を識別するためのフィードフォワードニューラルネットワークモデルであるSALAMAを紹介する。 このモデルは、中央ヨーロッパにおける対流分解アンサンブル予測と雷観測で訓練されている。 NWPデータから抽出され、雷雨発生に関連する画素単位の入力パラメータのみを考慮し、SALAMAは雷雨の発生確率を確実に調整した方法で推定する。 リードタイムを最大11時間にすると、NWP反射率のみに基づく分類よりも優れた予測スキルが見つかる。 雷観測とNWPデータとを関連づけた時空間基準を用いて, 熟練した雷雨予測の時間スケールが予測の空間スケールと線形に増加することを示す。

Thunderstorms pose a major hazard to society and economy, which calls for reliable thunderstorm forecasts. In this work, we introduce SALAMA, a feedforward neural network model for identifying thunderstorm occurrence in numerical weather prediction (NWP) data. The model is trained on convection-resolving ensemble forecasts over Central Europe and lightning observations. Given only a set of pixel-wise input parameters that are extracted from NWP data and related to thunderstorm development, SALAMA infers the probability of thunderstorm occurrence in a reliably calibrated manner. For lead times up to eleven hours, we find a forecast skill superior to classification based only on NWP reflectivity. Varying the spatiotemporal criteria by which we associate lightning observations with NWP data, we show that the time scale for skillful thunderstorm predictions increases linearly with the spatial scale of the forecast.
翻訳日:2023-12-04 18:53:43 公開日:2023-11-30
# ロバスト制御による原子干渉型慣性センサの感度向上

Enhancing the sensitivity of atom-interferometric inertial sensors using robust control ( http://arxiv.org/abs/2303.03683v3 )

ライセンス: Link先を確認
J. C. Saywell, M. S. Carey, P. S. Light, S. S. Szigeti, A. R. Milne, K. S. Gill, M. L. Goh, V. S. Perunicic, N. M. Wilson, C. D. Macrae, A. Rischka, P. J. Everitt, N. P. Robins, R. P. Anderson, M. R. Hush, and M. J. Biercuk(参考訳) 原子干渉型量子センサーはナビゲーション、土木工学、地球観測に革命をもたらす可能性がある。 しかし、外的干渉、プラットフォームノイズ、サイズ、重量、電力の制約などにより、実世界の環境での運用は困難である。 ここでは,ロバストな制御技術を用いて設計した調整された光パルスが,原子干渉加速度計において大きな誤差源を軽減できることを実験的に実証する。 予測不能な側方移動の効果を模倣するため,パルス対パルスから最大20$\%のレーザー強度雑音を適用した。 我々のロバスト制御ソリューションは、従来のパルスの効用が崩壊する間、パフォーマンスセンシングを維持している。 局所重力を測定することで、我々の頑健なパルスが干渉計スケール係数を保ち、このノイズの存在下で10$\times$で測定精度を向上させることを示す。 さらに,200$\mu g$範囲から21$\times$までの適用加速度を,最も高い適用雑音レベルにおいて正確に測定することで,これらの拡張を検証した。 実世界の環境における原子干渉計測慣性センシングを改善する経路を提供する。

Atom-interferometric quantum sensors could revolutionize navigation, civil engineering, and Earth observation. However, operation in real-world environments is challenging due to external interference, platform noise, and constraints on size, weight, and power. Here we experimentally demonstrate that tailored light pulses designed using robust control techniques mitigate significant error sources in an atom-interferometric accelerometer. To mimic the effect of unpredictable lateral platform motion, we apply laser-intensity noise that varies up to 20$\%$ from pulse-to-pulse. Our robust control solution maintains performant sensing, while the utility of conventional pulses collapses. By measuring local gravity, we show that our robust pulses preserve interferometer scale factor and improve measurement precision by 10$\times$ in the presence of this noise. We further validate these enhancements by measuring applied accelerations over a 200 $\mu g$ range up to 21$\times$ more precisely at the highest applied noise level. Our demonstration provides a pathway to improved atom-interferometric inertial sensing in real-world settings.
翻訳日:2023-12-04 18:52:34 公開日:2023-11-30
# アクティブラーニングとベイズ最適化:ゴールで学ぶための統一的な視点

Active Learning and Bayesian Optimization: a Unified Perspective to Learn with a Goal ( http://arxiv.org/abs/2303.01560v3 )

ライセンス: Link先を確認
Francesco Di Fiore, Michela Nardelli and Laura Mainini(参考訳) 科学と工学の応用は通常、最適な設計ソリューションと関心のあるシステムの状態を特定するために高価な最適化問題と関連付けられる。 ベイズ最適化と能動的学習計算サロゲートモデルに対し,効率的な適応サンプリング手法を用いて,与えられた最適化目標に向けて探索タスクを支援し,高速化する。 これら2つの方法論は、最適化変数の未知の組み合わせに対する客観的関数を評価するための設定目標に関して、ユーティリティを定量化する特定のインフィル/ラーニング基準によって駆動される。 この2つの分野は、過去数十年で指数関数的に人気が伸びているが、その双対性と相乗効果は、これまであまり注目されていない。 本稿では,共通原理による共生適応サンプリング手法としてベイズ最適化とアクティブラーニングの相乗効果について論じる。 特に,ゴール駆動手続きの推進原理として,ベイジアン・インフィル基準とアクティブ・ラーニング基準の類似性を形式化することにより,この統一的な視点を示す。 そこで本研究では,適応的サンプリング,アクティブラーニング,ベイズ最適化の膨大なファミリー間の類似性と相違を強調する適応的サンプリング手法の一般分類を提案する。 したがって、このシナジーはベイズインフィル基準とアクティブラーニング基準をマッピングし、単一の情報ソースと複数の忠実度レベルの両方から情報を得た検索のために形式化されたものである。 さらに,実世界の応用を特徴付ける数学的特性に対する利点や限界を明らかにするために,様々なベンチマーク問題に対するベイズ的スキームの性能を調査する学習基準を適用するためのガイドラインを提供する。

Science and Engineering applications are typically associated with expensive optimization problem to identify optimal design solutions and states of the system of interest. Bayesian optimization and active learning compute surrogate models through efficient adaptive sampling schemes to assist and accelerate this search task toward a given optimization goal. Both those methodologies are driven by specific infill/learning criteria which quantify the utility with respect to the set goal of evaluating the objective function for unknown combinations of optimization variables. While the two fields have seen an exponential growth in popularity in the past decades, their dualism and synergy have received relatively little attention to date. This paper discusses and formalizes the synergy between Bayesian optimization and active learning as symbiotic adaptive sampling methodologies driven by common principles. In particular, we demonstrate this unified perspective through the formalization of the analogy between the Bayesian infill criteria and active learning criteria as driving principles of both the goal-driven procedures. To support our original perspective, we propose a general classification of adaptive sampling techniques to highlight similarities and differences between the vast families of adaptive sampling, active learning, and Bayesian optimization. Accordingly, the synergy is demonstrated mapping the Bayesian infill criteria with the active learning criteria, and is formalized for searches informed by both a single information source and multiple levels of fidelity. In addition, we provide guidelines to apply those learning criteria investigating the performance of different Bayesian schemes for a variety of benchmark problems to highlight benefits and limitations over mathematical properties that characterize real-world applications.
翻訳日:2023-12-04 18:51:59 公開日:2023-11-30
# 不整合深部回帰問題に対する不確かさ投票専門家の混在

Mixture of Experts with Uncertainty Voting for Imbalanced Deep Regression Problems ( http://arxiv.org/abs/2305.15178v2 )

ライセンス: Link先を確認
Yuchang Jiang, Vivien Sainte Fare Garnot, Konrad Schindler, Jan Dirk Wegner(参考訳) 現実の問題、特に回帰問題に機械学習を適用する場合、データの不均衡は普遍的である。 トレーニングデータが不均衡であれば、学習はターゲット分布の密集した領域に支配され、その結果、学習された回帰器は疎有な領域で性能が低下する傾向にある。 オーバーサンプリングや再重み付けといった標準的な手段以外にも、不均衡なデータから学ぶための2つの主な方向があります。 回帰については、最近の研究は分布の連続性に依存しているが、分類では、混合・オブ・エキスパートモデルを採用し、いくつかのアンサンブルのメンバーがスパーサー領域の予測を専門とする傾向があった。 そこで本研究では, 確率的深層学習に関する最近の研究を活用し, 不均衡回帰のための総合的手法に組み入れることを提案する。 従来の回帰損失を負のログ類似度に置き換え,サンプル単位のアレエータ的不確実性も予測する。 このような損失が不均衡をうまく扱えることを示した。 第2に、利用可能なアレタリック不確実性値を用いて、混合専門家モデルの予測を融合させ、個別のアグリゲーションモジュールの必要性を回避した。 提案手法は,複数の公開ベンチマークで既存の手法と比較し,mouvが先行技術よりも常に優れており,同時に不確実性の推定精度も向上していることを示した。 私たちのコードはリンクアップ公開で利用可能です。

Data imbalance is ubiquitous when applying machine learning to real-world problems, particularly regression problems. If training data are imbalanced, the learning is dominated by the densely covered regions of the target distribution, consequently, the learned regressor tends to exhibit poor performance in sparsely covered regions. Beyond standard measures like over-sampling or re-weighting, there are two main directions to handle learning from imbalanced data. For regression, recent work relies on the continuity of the distribution; whereas for classification there has been a trend to employ mixture-of-expert models and let some ensemble members specialize in predictions for the sparser regions. In our method, dubbed MOUV, we propose to leverage recent work on probabilistic deep learning and integrate it in a mixture-of-experts approach for imbalanced regression. We replace traditional regression losses with negative log-likelihood which also predicts sample-wise aleatoric uncertainty. We show experimentally that such a loss handles the imbalance better. Secondly, we use the readily available aleatoric uncertainty values to fuse the predictions of a mixture-of-experts model, thus obviating the need for a separate aggregation module. We compare our method with existing alternatives on multiple public benchmarks and show that MOUV consistently outperforms the prior art, while at the same time producing better calibrated uncertainty estimates. Our code is available at link-upon-publication.
翻訳日:2023-12-04 18:44:59 公開日:2023-11-30
# SmartChoices: 学習した実装によるソフトウェアの拡張

SmartChoices: Augmenting Software with Learned Implementations ( http://arxiv.org/abs/2304.13033v2 )

ライセンス: Link先を確認
Daniel Golovin, Gabor Bartok, Eric Chen, Emily Donahue, Tzu-Kuo Huang, Efi Kokiopoulou, Ruoyan Qin, Nikhil Sarda, Justin Sybrandt, Vincent Tjeng(参考訳) 私たちは機械学習の黄金時代に生きている。 パワフルなモデルは、従来のソフトウェアエンジニアリングアプローチだけでは不可能なほど多くのタスクを実行します。 しかし、これらのモデルを既存のソフトウェアシステムに開発、デプロイすることは依然として困難である。 本稿では,成熟したソフトウェアスタックに機械学習を組み込むための新しいアプローチであるsmartchoicesを提案する。 本稿では,SmartChoicesを大規模産業システムに応用した重要な設計決定とケーススタディを紹介する。

We are living in a golden age of machine learning. Powerful models perform many tasks far better than is possible using traditional software engineering approaches alone. However, developing and deploying these models in existing software systems remains challenging. In this paper, we present SmartChoices, a novel approach to incorporating machine learning into mature software stacks easily, safely, and effectively. We highlight key design decisions and present case studies applying SmartChoices within a range of large-scale industrial systems.
翻訳日:2023-12-04 18:40:42 公開日:2023-11-30
# ランキングフェアネスのためのマッチングペア校正

Matched Pair Calibration for Ranking Fairness ( http://arxiv.org/abs/2306.03775v3 )

ライセンス: Link先を確認
Hannah Korevaar, Chris McConnell, Edmund Tong, Erik Brinkman, Alana Shine, Misam Abbas, Blossom Metevier, Sam Corbett-Davies, Khalid El-Arini(参考訳) マッチングペアキャリブレーションと呼ばれるスコアベースランキングシステムにおける公平性テストを提案する。 本手法は,集合上のランク付け誤差の適切な尺度を計算する前に,部分群間の差異を最小化するマッチングアイテムペアを構成する。 一致ステップにより、評価結果の差がサブグループレベルの露光において直接不公平であることを暗示する。 本手法は,二分分類設定からランク付けまでの校正の公平さ直観を一般化する方法を示し,公平度尺度の他の提案と結びつける。 さらに,提案手法は,分析者がモデルスコアにアクセス可能な場合に,限界結果テストの論理がどのように拡張されるかを示す。 最後に,実単語ランキングデータセットにマッチしたペアキャリブレーションを適用し,ランキングバイアスの検出に有効性を示す例を示す。

We propose a test of fairness in score-based ranking systems called matched pair calibration. Our approach constructs a set of matched item pairs with minimal confounding differences between subgroups before computing an appropriate measure of ranking error over the set. The matching step ensures that we compare subgroup outcomes between identically scored items so that measured performance differences directly imply unfairness in subgroup-level exposures. We show how our approach generalizes the fairness intuitions of calibration from a binary classification setting to ranking and connect our approach to other proposals for ranking fairness measures. Moreover, our strategy shows how the logic of marginal outcome tests extends to cases where the analyst has access to model scores. Lastly, we provide an example of applying matched pair calibration to a real-word ranking data set to demonstrate its efficacy in detecting ranking bias.
翻訳日:2023-12-04 18:32:33 公開日:2023-11-30
# サイト対称性によるy$_2$o$_3$のエルビウムドープタントの識別:2つのスピン-光子界面の \textit{ ab initio} 理論

Distinguishing erbium dopants in Y$_2$O$_3$ by site symmetry: \textit{ ab initio} theory of two spin-photon interfaces ( http://arxiv.org/abs/2305.16231v3 )

ライセンス: Link先を確認
Churna Bhandari, C\"uneyt \c{S}ahin, Durga Paudyal, Michael E. Flatt\'e(参考訳) エルビウム(er)ドープイットリア(y$_2$o$_3$)の欠陥形成と電子構造に関する第一原理研究を行った。 これは、標準電気通信波長におけるErドーパントからの狭い直線幅の光放射と、量子記憶とトランスデューサのポテンシャルによる量子情報科学におけるスピン光子インターフェースの新たな材料である。 我々は、中性、負、正に荷電されたerドーパントの形成エネルギーを計算し、電荷中性配置が最も安定であり、実験と一致することを見出した。 Er for Y の2つの置換点のうち、$C_2$(より量子メモリに関係)と$C_{3i}$(より量子トランスダクションに関係)のうち、前者は最低生成エネルギーを持つものとみなす。 電子特性は、ハバード$U$パラメータとスピン軌道結合(SOC)とともにパーデューバーバーク=エルンツァーホフ(PBE)関数を用いて計算され、これは、$\sim$ 6 $\mu_B$軌道と$\sim$ 3 $\mu_B$スピン磁気モーメント、Er4f$シェル内の11個の電子を生成し、電荷ニュートラルEr$^{3+}軌道の形成を確認する。 この標準密度汎関数理論(DFT)アプローチは、ホストのバンドギャップを過小評価し、$U$の第一原理の正当化を欠いている。 これらの問題を克服するために、我々は4f$軌道に対して負の$U$、混合($\alpha$)およびスクリーニング($w$)パラメータを含むスクリーニングハイブリッド関数(HSE)計算を行った。 これらは、バンドギャップのわずかな変更と、チューニングパラメータの選択に応じて4f$の分割を含むロバストな電子的特徴を生み出した。 また,多粒子電子励起エネルギーを計算し,発光実験値と比較した。

We present a first-principles study of defect formation and electronic structure of erbium (Er)-doped yttria (Y$_2$O$_3$). This is an emerging material for spin-photon interfaces in quantum information science due to the narrow linewidth optical emission from Er dopants at standard telecommunication wavelengths and their potential for quantum memories and transducers. We calculate formation energies of neutral, negatively, and positively charged Er dopants and find the charge neutral configuration to be the most stable, consistent with experiment. Of the two substitutional sites of Er for Y, the $C_2$ (more relevant for quantum memories) and $C_{3i}$ (more relevant for quantum transduction), we identify the former as possessing the lowest formation energy. The electronic properties are calculated using the Perdew-Burke-Ernzerhof (PBE) functional along with the Hubbard $U$ parameter and spin-orbit coupling (SOC), which yields a $\sim$ 6 $\mu_B$ orbital and a $\sim$ 3 $\mu_B$ spin magnetic moment, and 11 electrons in the Er $4f$ shell, confirming the formation of charge-neutral Er$^{3+}$. This standard density functional theory (DFT) approach underestimates the band gap of the host and lacks a first-principles justification for $U$. To overcome these issues, we performed screened hybrid functional (HSE) calculations, including a negative $U$ for the $4f$ orbitals, with mixing ($\alpha$) and screening ($w$) parameters. These produced robust electronic features with slight modifications in the band gap and the $4f$ splittings depending on the choice of tuning parameters. We also computed the many-particle electronic excitation energies and compared them with experimental values from photoluminescence.
翻訳日:2023-12-04 18:29:32 公開日:2023-11-30
# 量子調和振動子と相互作用する重力波のルイス位相とベリー位相

Lewis and Berry phases for a gravitational wave interacting with a quantum harmonic oscillator ( http://arxiv.org/abs/2307.00901v4 )

ライセンス: Link先を確認
Soham Sen, Manjari Dutta and Sunandan Gangopadhyay(参考訳) 本研究では、横トラスレスゲージにおける量子調和振動子と相互作用する重力波について考察する。 重力波は、最初はプラス偏光とクロス偏光の両方のシグネチャを持っている。 次に、位置変数と運動量変数の両方からの二次次寄与のみを考慮しつつ、可能な限り一般的な形式を用いてルイス不変量の適切な形式を求める。 さらに進むために、第1と第2の空間座標の観点で分離可能なハミルトニアンを得るクロス項をドロップする。 次に、系のハミルトニアン全体の分離可能部分に対応する2つのルイス不変量を得る。 両方のルイス不変量を用いて、エルマコフ・ピンニー方程式を2つ得ることができ、そこから対応するルイス相と最終的にシステム全体のベリー相が得られる。 最後に、高調波発振器周波数の異なる平面偏極重力波に対するベリー位相の明示的な表現を得る。

In this work, we consider a gravitational wave interacting with a quantum harmonic oscillator in the transverse-traceless gauge. We take the gravitational wave to be carrying the signatures of both plus and cross polarization at first. We then try to obtain a suitable form of the Lewis invariant using the most general form possible while considering only quadratic order contributions from both position and momentum variables. In order to progress further, we then drop the cross terms obtaining a separable Hamiltonian in terms of the first and the second spatial coordinates. We then obtain two Lewis invariants corresponding to each separable parts of the entire Hamiltonian of the system. Using both Lewis invariants, one can obtain two Ermakov-Pinney equations, from which we finally obtain the corresponding Lewis phase and eventually the Berry phase for the entire system. Finally, we obtain some explicit expressions of the Berry phase for a plane polarized gravitational wave with different choices of the harmonic oscillator frequency.
翻訳日:2023-12-04 18:18:27 公開日:2023-11-30
# MDSC:音楽とダンスのスタイル整合性の評価に向けて

MDSC: Towards Evaluating the Style Consistency Between Music and Dance ( http://arxiv.org/abs/2309.01340v3 )

ライセンス: Link先を確認
Zixiang Zhou, Weiyuan Li, Baoyuan Wang(参考訳) ダンスと音楽の一致度を評価する最初の評価指標であるMDSC(Music-Dance-Style Consistency)を提案する。 既存の測定基準では、動きの忠実性と多様性、音楽とダンスのリズムマッチングの程度のみが評価できる。 MDSCは、生成したダンス・モーション・シーケンスとコンディショニング・ミュージック・シーケンスがいかにスタイリスティックに相関しているかを測定する。 運動と音楽の埋め込み距離を直接測定することは最適解ではないことがわかった。 代わりに、クラスタリング問題としてモデル化することで、この問題に取り組みます。 具体的には 1)音楽エンコーダとモーションエンコーダの事前訓練を行い、 2) クラスタ内距離を最小化し, クラスタ間距離を最大化し, 共同空間内での動作と音楽の埋め込みを地図化・調整することを学ぶ。 3) 評価のために, ダンスの動きをエンコードし, クラスタ内距離とクラスタ間距離と, クラスタ間の比率を計測する。 提案手法は,音楽条件付き動作生成手法の結果に基づいて評価し,ユーザスタディと組み合わせることで,音楽距離スタイルの相関を計測する上で,ロバストな評価基準であることが判明した。

We propose MDSC(Music-Dance-Style Consistency), the first evaluation metric that assesses to what degree the dance moves and music match. Existing metrics can only evaluate the motion fidelity and diversity and the degree of rhythmic matching between music and dance. MDSC measures how stylistically correlated the generated dance motion sequences and the conditioning music sequences are. We found that directly measuring the embedding distance between motion and music is not an optimal solution. We instead tackle this through modeling it as a clustering problem. Specifically, 1) we pre-train a music encoder and a motion encoder, then 2) we learn to map and align the motion and music embedding in joint space by jointly minimizing the intra-cluster distance and maximizing the inter-cluster distance, and 3) for evaluation purposes, we encode the dance moves into embedding and measure the intra-cluster and inter-cluster distances, as well as the ratio between them. We evaluate our metric on the results of several music-conditioned motion generation methods, combined with user study, we found that our proposed metric is a robust evaluation metric in measuring the music-dance style correlation.
翻訳日:2023-12-04 18:11:39 公開日:2023-11-30
# PathLDM:病理組織学におけるテキスト条件付潜在拡散モデル

PathLDM: Text conditioned Latent Diffusion Model for Histopathology ( http://arxiv.org/abs/2309.00748v2 )

ライセンス: Link先を確認
Srikar Yellapragada, Alexandros Graikos, Prateek Prasanna, Tahsin Kurc, Joel Saltz, Dimitris Samaras(参考訳) 高品質な結果を得るためには、大きなデータセットで拡散モデルを訓練する必要がある。 これは計算病理学のような専門分野のモデルでは特に禁止される。 ラベル付きデータの条件付けは、データ効率のよいモデルトレーニングに役立つことが知られている。 したがって, 貴重な臨床情報に富む病理組織学的報告は, 病理組織学的生成モデルの指導として理想的な選択である。 本稿では,良質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介する。 病理文献からのリッチな文脈情報を活用することで,画像とテキストデータを融合させて生成プロセスを強化する。 複雑なテキストレポートを抽出・要約するGPTの機能を活用して,効果的な条件付け機構を確立する。 戦略的条件付けとアーキテクチャの強化により,TGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID 30.1と最も近いテキスト・コンディション・コントラストを著しく上回った。

To achieve high-quality results, diffusion models must be trained on large datasets. This can be notably prohibitive for models in specialized domains, such as computational pathology. Conditioning on labeled data is known to help in data-efficient model training. Therefore, histopathology reports, which are rich in valuable clinical information, are an ideal choice as guidance for a histopathology generative model. In this paper, we introduce PathLDM, the first text-conditioned Latent Diffusion Model tailored for generating high-quality histopathology images. Leveraging the rich contextual information provided by pathology text reports, our approach fuses image and textual data to enhance the generation process. By utilizing GPT's capabilities to distill and summarize complex text reports, we establish an effective conditioning mechanism. Through strategic conditioning and necessary architectural enhancements, we achieved a SoTA FID score of 7.64 for text-to-image generation on the TCGA-BRCA dataset, significantly outperforming the closest text-conditioned competitor with FID 30.1.
翻訳日:2023-12-04 18:11:19 公開日:2023-11-30
# eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー

EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting ( http://arxiv.org/abs/2308.12831v2 )

ライセンス: Link先を確認
Zitao Wang and Qiguang Miao and Peipei Zhao and Yue Xi(参考訳) ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。 CNNベースのアプローチと比較して、自己アテンションモジュールを持つトランスフォーマーは、長距離依存やポートレートの低周波セマンティック情報をキャプチャする能力が優れている。 しかし,近年の研究では,高頻度輪郭情報のモデル化や細かな輪郭の詳細の把握に自己着脱機構が苦労していることが示されている。 この問題に対処するため、我々はEFormerを提案し、低周波セマンティクスと高周波輪郭特徴の両方に対するモデルの注意力を高める。 高周波輪郭については,異なる解像度間のクロス・アテンション・モジュールが,これらの輪郭領域に対して適切な注意を向けるためにモデルが導かれることを実証する。 画像の輪郭に関する高頻度の詳細情報を,これまで自己注意で無視されていた情報から抽出することができる。 クロスアテンションモジュールをベースとして,低周波セマンティックと高周波コンターの両方の特徴を正確に捉えるためのセマンティック・コンター検出器(SCD)を構築した。 また,洗練された高周波輪郭特徴と完全低周波意味情報を抽出するために,輪郭エッジ抽出分枝と意味抽出分枝を設計する。 最後に、2種類の特徴を融合させ、セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。 VideoMatte240K(JPEG SD Format)とAdobe Image Matting(AIM)データセットの実験は、EFormerが以前のポートレートマットメソッドより優れていることを示している。

The portrait matting task aims to extract an alpha matte with complete semantics and finely-detailed contours. In comparison to CNN-based approaches, transformers with self-attention module have a better capacity to capture long-range dependencies and low-frequency semantic information of a portrait. However, the recent research shows that self-attention mechanism struggles with modeling high-frequency contour information and capturing fine contour details, which can lead to bias while predicting the portrait's contours. To deal with this issue, we propose EFormer to enhance the model's attention towards both of the low-frequency semantic and high-frequency contour features. For the high-frequency contours, our research demonstrates that cross-attention module between different resolutions can guide our model to allocate attention appropriately to these contour regions. Supported on this, we can successfully extract the high-frequency detail information around the portrait's contours, which are previously ignored by self-attention. Based on cross-attention module, we further build a semantic and contour detector (SCD) to accurately capture both of the low-frequency semantic and high-frequency contour features. And we design contour-edge extraction branch and semantic extraction branch to extract refined high-frequency contour features and complete low-frequency semantic information, respectively. Finally, we fuse the two kinds of features and leverage segmentation head to generate a predicted portrait matte. Experiments on VideoMatte240K (JPEG SD Format) and Adobe Image Matting (AIM) datasets demonstrate that EFormer outperforms previous portrait matte methods.
翻訳日:2023-12-04 18:09:21 公開日:2023-11-30
# バグレポートにおける意味的テキスト類似性のためのテキスト埋め込みモデルの比較研究

A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports ( http://arxiv.org/abs/2308.09193v2 )

ライセンス: Link先を確認
Avinash Patil, Kihwan Han, Aryan Jadon(参考訳) バグレポートはソフトウェア開発の重要な側面であり、ソフトウェアシステムの一貫した機能を保証するために、それらを素早く特定し、解決することが重要である。 既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。 本稿では,類似度スコアに基づく類似バグレポート検索における意味的テキスト類似性手法の有効性を比較した。 我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルを探索した。 さまざまなソフトウェアプロジェクトでバグレポートを含むソフトウェア欠陥データを使用して、これらのモデルのパフォーマンスを評価しました。 実験の結果、BERTはリコールに関する他のモデルよりも優れており、ADA、Gensim、FastText、TFIDFが続くことがわかった。 本研究は,同様のバグレポートを検索するための様々な組込み手法の有効性に関する洞察を提供し,このタスクに適切な方法を選択することの影響を強調する。 コードはgithubから入手できます。

Bug reports are an essential aspect of software development, and it is crucial to identify and resolve them quickly to ensure the consistent functioning of software systems. Retrieving similar bug reports from an existing database can help reduce the time and effort required to resolve bugs. In this paper, we compared the effectiveness of semantic textual similarity methods for retrieving similar bug reports based on a similarity score. We explored several embedding models such as TF-IDF (Baseline), FastText, Gensim, BERT, and ADA. We used the Software Defects Data containing bug reports for various software projects to evaluate the performance of these models. Our experimental results showed that BERT generally outperformed the rest of the models regarding recall, followed by ADA, Gensim, FastText, and TFIDF. Our study provides insights into the effectiveness of different embedding methods for retrieving similar bug reports and highlights the impact of selecting the appropriate one for this task. Our code is available on GitHub.
翻訳日:2023-12-04 18:07:56 公開日:2023-11-30
# DroidDissector: Androidのマルウェア検出のための静的かつ動的解析ツール

DroidDissector: A Static and Dynamic Analysis Tool for Android Malware Detection ( http://arxiv.org/abs/2308.04170v3 )

ライセンス: Link先を確認
Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones(参考訳) DroidDissectorは静的機能と動的機能の両方を抽出するツールである。 その目的は、androidのマルウェア研究者とアナリストに、androidのマルウェア検出でもっとも広く使われている機能をすべて一箇所から抽出できる統合ツールを提供することだ。 静的解析モジュールは、マニフェストファイルとアプリケーションのソースコードの両方から機能を抽出し、パーミッション、APIコールグラフ、オプコードを含む幅広い機能を取得する。 動的解析モジュールはandroidの最新バージョン上で動作し、使用するシステムコール、ネットワークトラフィックの生成、apiコールの使用、アプリケーションによって生成されたログファイルの追跡によって、アプリケーションの完全な動作を分析する。

DroidDissector is an extraction tool for both static and dynamic features. The aim is to provide Android malware researchers and analysts with an integrated tool that can extract all of the most widely used features in Android malware detection from one location. The static analysis module extracts features from both the manifest file and the source code of the application to obtain a broad array of features that include permissions, API call graphs and opcodes. The dynamic analysis module runs on the latest version of Android and analyses the complete behaviour of an application by tracking the system calls used, network traffic generated, API calls used and log files produced by the application.
翻訳日:2023-12-04 18:06:45 公開日:2023-11-30
# ニサンの自然証明から学ぶ分布型PAC

Distributional PAC-Learning from Nisan's Natural Proofs ( http://arxiv.org/abs/2310.03641v2 )

ライセンス: Link先を確認
Ari Karchmer(参考訳) Carmosino et al. (2016) は、$\Lambda$-circuits の回路下界の自然な証明は、$\Lambda$-circuits を学ぶための暗黙のアルゴリズムであるが、 \textit{the uniform distribution} にのみ適用され、$\AC^0[p] \subseteq \Lambda$ を提供することを示した。 この意味を$\Lambda \not\supseteq \AC^0[p]$と、ランダムな例のみを用いて任意の例分布を学習する学習アルゴリズム(ValiantのPAC学習モデル)に一般化できるかどうかを検討する。 まず、任意の回路クラス $\Lambda$ に対して、$\Lambda$ の自然証明から$\Lambda$ の PAC-learning への帰結がある場合、格子ベースの暗号の標準的な仮定は成立しない。 特に,Nisan (1993) は自然証明を与えたが,Klivans and Sherstov (2009) は格子に基づく仮定の下でのPAC学習の困難さを示した。 私たちは、 nisan の自然な証明から、合理的に従える学習アルゴリズムは何でしょうか? 我々の主な成果は、ValiantのPACモデルにおける新しい‘textit{distributional} 変種(つまり 'average-case''' 緩和)における、Nisan の PAC 学習アルゴリズムを含む、通信複雑性の議論から生じる全ての自然な証明である。 分布pacモデルは,blum et al. (1993) の平均ケース予測モデルやnanashima (2021) のヒューリスティックpacモデルよりも強く,textit{boosting-friendly} のような独立した特性を持つ。 本研究の主な用途は,深度2の多数回路,ポリトープ,DNFの自然分布に対する新しい分散PAC学習アルゴリズム,および深度2の多数回路で評価できるエンコードインプット弱PRFの非存在性である。

Carmosino et al. (2016) demonstrated that natural proofs of circuit lower bounds for $\Lambda$ imply efficient algorithms for learning $\Lambda$-circuits, but only over \textit{the uniform distribution}, with \textit{membership queries}, and provided $\AC^0[p] \subseteq \Lambda$. We consider whether this implication can be generalized to $\Lambda \not\supseteq \AC^0[p]$, and to learning algorithms which use only random examples and learn over arbitrary example distributions (Valiant's PAC-learning model). We first observe that, if, for any circuit class $\Lambda$, there is an implication from natural proofs for $\Lambda$ to PAC-learning for $\Lambda$, then standard assumptions from lattice-based cryptography do not hold. In particular, we observe that depth-2 majority circuits are a (conditional) counter example to the implication, since Nisan (1993) gave a natural proof, but Klivans and Sherstov (2009) showed hardness of PAC-learning under lattice-based assumptions. We thus ask: what learning algorithms can we reasonably expect to follow from Nisan's natural proofs? Our main result is that all natural proofs arising from a type of communication complexity argument, including Nisan's, imply PAC-learning algorithms in a new \textit{distributional} variant (i.e., an ``average-case'' relaxation) of Valiant's PAC model. Our distributional PAC model is stronger than the average-case prediction model of Blum et al. (1993) and the heuristic PAC model of Nanashima (2021), and has several important properties which make it of independent interest, such as being \textit{boosting-friendly}. The main applications of our result are new distributional PAC-learning algorithms for depth-2 majority circuits, polytopes and DNFs over natural target distributions, as well as the nonexistence of encoded-input weak PRFs that can be evaluated by depth-2 majority circuits.
翻訳日:2023-12-04 17:59:32 公開日:2023-11-30
# フィードバックの贈与:連合学習によるユーザ補正からの学習によるasrモデル品質の向上

The Gift of Feedback: Improving ASR Model Quality by Learning from User Corrections through Federated Learning ( http://arxiv.org/abs/2310.00141v2 )

ライセンス: Link先を確認
Lillian Zhou, Yuxin Ding, Mingqing Chen, Harry Zhang, Rohit Prabhavalkar, Dhruv Guliani, Giovanni Motta, Rajiv Mathews(参考訳) 自動音声認識(ASR)モデルは典型的には、転写された音声の大きなデータセットで訓練される。 言語が進化し、新しい用語が使われるようになると、これらのモデルは時代遅れになり、古くなります。 サーバ上でトレーニングされ、エッジデバイスにデプロイされるモデルのコンテキストでは、エラーは、サーバトレーニングデータと実際のオンデバイス使用とのミスマッチに起因する可能性がある。 本研究では,デバイス上でのユーザ修正からフェデレートラーニング(FL)を通じて継続的に学習し,この問題に対処する。 我々は、モデルがこれまで遭遇したことのない新しい用語をターゲットとした手法を検討し、長い単語を学習し、破滅的な忘れを緩和する。 実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することがわかった。

Automatic speech recognition (ASR) models are typically trained on large datasets of transcribed speech. As language evolves and new terms come into use, these models can become outdated and stale. In the context of models trained on the server but deployed on edge devices, errors may result from the mismatch between server training data and actual on-device usage. In this work, we seek to continually learn from on-device user corrections through Federated Learning (FL) to address this issue. We explore techniques to target fresh terms that the model has not previously encountered, learn long-tail words, and mitigate catastrophic forgetting. In experimental evaluations, we find that the proposed techniques improve model recognition of fresh terms, while preserving quality on the overall language distribution.
翻訳日:2023-12-04 17:58:46 公開日:2023-11-30
# 生成エッシャーメッシュ

Generative Escher Meshes ( http://arxiv.org/abs/2309.14564v3 )

ライセンス: Link先を確認
Noam Aigerman and Thibault Groueix(参考訳) 本稿では, 床, モザイク, セラミックス, M.C.エッシャーの作品など, 周期的, 反復的, タイル可能な2Dアートを製作するための, 完全自動, テキスト誘導型生成法を提案する。 従来のシームレスなテクスチャの概念である2乗画像とは対照的に,本手法では,同じオブジェクトのコピーを繰り返すだけで構成される2乗でないタイリングを生成する。 これは、2Dメッシュの幾何学と色の両方を最適化し、望まれる物体の形状と外観の2乗でないタイルを生成する。 任意の対称群に対して、すべての可能なタイル可能な形状の空間の制約なし、微分可能パラメータ化(unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group)である。 すなわち、2次元メッシュマッピング技術で用いられるラプラシアンの修正Orbifold Tutte Embeddingは、選択した平面対称群に対して可能な全てのタイリング構成を実現できることを示す。 したがって、メッシュのタイル形状とテクスチャを最適化可能なパラメータとみなし、テクスチャ化されたメッシュを微分可能なレンダラでレンダリングする。 トレーニングされた画像拡散モデルを用いて、得られた画像の損失を定義し、テキストプロンプトと一致する外観に基づいてメッシュのパラメータを更新する。 本手法は,様々な周期的タイリングパターンに対して,非自明なタイルを用いて,妥当で魅力的な結果が得られることを示す。

This paper proposes a fully-automatic, text-guided generative method for producing periodic, repeating, tile-able 2D art, such as the one seen on floors, mosaics, ceramics, and the work of M.C. Escher. In contrast to the standard concept of a seamless texture, i.e., square images that are seamless when tiled, our method generates non-square tilings which comprise solely of repeating copies of the same object. It achieves this by optimizing both geometry and color of a 2D mesh, in order to generate a non-square tile in the shape and appearance of the desired object, with close to no additional background details. We enable geometric optimization of tilings by our key technical contribution: an unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group. Namely, we prove that modifying the laplacian used in a 2D mesh-mapping technique - Orbifold Tutte Embedding - can achieve all possible tiling configurations for a chosen planar symmetry group. We thus consider both the mesh's tile-shape and its texture as optimizable parameters, rendering the textured mesh via a differentiable renderer. We leverage a trained image diffusion model to define a loss on the resulting image, thereby updating the mesh's parameters based on its appearance matching the text prompt. We show our method is able to produce plausible, appealing results, with non-trivial tiles, for a variety of different periodic tiling patterns.
翻訳日:2023-12-04 17:56:21 公開日:2023-11-30
# 対数量子メモリを用いた効率の良いパウリチャネル推定

Efficient Pauli channel estimation with logarithmic quantum memory ( http://arxiv.org/abs/2309.14326v2 )

ライセンス: Link先を確認
Sitan Chen and Weiyuan Gong(参考訳) ここでは、量子デバイスにおけるノイズ構造を特徴付けるための原型的タスクの1つを再検討する:$n$-qubit Pauliノイズチャネルのすべての固有値を誤差$\epsilon$に推定する。 先行研究 (chen et al., 2022) は、量子メモリが限られた量(例えば、0.99n$アンシラ量子ビットの量子メモリを持つプロトコルは、非連結であるならば指数関数的に多くの測定をしなければならない)で、このタスクの無利得定理を証明した。 このようなプロトコルは、状態を繰り返し準備し、それをチャネルを通過し、すぐに測定することでのみチャネルと通信することができる。 つまり、多くのクエリをチャネルにチェーンし、任意のデータ処理チャネルとインターリーブし、測定する前に、一般的なプロトコルであっても下限は保持されるのだろうか? 驚くことに、この研究は逆である: pauliチャネルの固有値を$o(\log n/\epsilon^2)$ ancilla qubitsと$\tilde{o}(n^2/\epsilon^2)$測定のみを使用して$\epsilon$のエラーに推定できるプロトコルがある。 対照的に、零アンシラを持つ任意のプロトコル、たとえ連結したプロトコルであっても、$\Omega(2^n/\epsilon^2)$測定をしなければならない。 我々の知識によれば、量子メモリの対数的に多くの量子ビットが指数統計上の優位性のために十分である最初の量子学習タスクである。

Here we revisit one of the prototypical tasks for characterizing the structure of noise in quantum devices: estimating every eigenvalue of an $n$-qubit Pauli noise channel to error $\epsilon$. Prior work (Chen et al., 2022) proved no-go theorems for this task in the practical regime where one has a limited amount of quantum memory, e.g. any protocol with $\le 0.99n$ ancilla qubits of quantum memory must make exponentially many measurements, provided it is non-concatenating. Such protocols can only interact with the channel by repeatedly preparing a state, passing it through the channel, and measuring immediately afterward. This left open a natural question: does the lower bound hold even for general protocols, i.e. ones which chain together many queries to the channel, interleaved with arbitrary data-processing channels, before measuring? Surprisingly, in this work we show the opposite: there is a protocol that can estimate the eigenvalues of a Pauli channel to error $\epsilon$ using only $O(\log n/\epsilon^2)$ ancilla qubits and $\tilde{O}(n^2/\epsilon^2)$ measurements. In contrast, we show that any protocol with zero ancilla, even a concatenating one, must make $\Omega(2^n/\epsilon^2)$ measurements, which is tight. Our results imply, to our knowledge, the first quantum learning task where logarithmically many qubits of quantum memory suffice for an exponential statistical advantage.
翻訳日:2023-12-04 17:55:56 公開日:2023-11-30
# 正則化軸索を持つボルツマン機械による普遍表現

Universal representation by Boltzmann machines with Regularised Axons ( http://arxiv.org/abs/2310.14395v2 )

ライセンス: Link先を確認
Przemys{\l}aw R. Grzybowski, Antoni Jankiewicz, Eloy Pi\~nol, David Cirauqui, Dorota H. Grzybowska, Pawe{\l} M. Petrykowski, Miguel \'Angel Garc\'ia-March, Maciej Lewenstein, Gorka Mu\~noz-Gil, Alejandro Pozas-Kerstjens(参考訳) ボルツマンマシンは、十分に隠れているニューロンを与えられた可視ニューロンの値に対して任意の確率分布を表現することができることが広く知られている。 しかし、サンプリング、つまりトレーニング -- これらのモデルは数値的に困難である。 近年,Boltzmann マシンの接続を正規化して,モデルのエネルギー環境を制御し,効率的なサンプリングとトレーニングを行う方法を提案する。 ここでは、そのような正規化ボルツマン機械が任意の分布を表現することができることを正式に証明する。 これは、エネルギーローカルミニマの数を制御することで、簡単な \emph{guided}サンプリングとトレーニングを可能にする。 さらに,正規化ボルツマンマシンが指数関数的に多数の相互関係のある可視パターンを完全検索で保存できることを明示的に示し,それらを密結合メモリネットワークに接続する。

It is widely known that Boltzmann machines are capable of representing arbitrary probability distributions over the values of their visible neurons, given enough hidden ones. However, sampling -- and thus training -- these models can be numerically hard. Recently we proposed a regularisation of the connections of Boltzmann machines, in order to control the energy landscape of the model, paving a way for efficient sampling and training. Here we formally prove that such regularised Boltzmann machines preserve the ability to represent arbitrary distributions. This is in conjunction with controlling the number of energy local minima, thus enabling easy \emph{guided} sampling and training. Furthermore, we explicitly show that regularised Boltzmann machines can store exponentially many arbitrarily correlated visible patterns with perfect retrieval, and we connect them to the Dense Associative Memory networks.
翻訳日:2023-12-04 17:46:42 公開日:2023-11-30
# In-Context Pretraining: ドキュメント境界を越えた言語モデリング

In-Context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v4 )

ライセンス: Link先を確認
Weijia Shi and Sewon Min and Maria Lomeli and Chunting Zhou and Margaret Li and Rich James and Xi Victoria Lin and Noah A. Smith and Luke Zettlemoyer and Scott Yih and Mike Lewis(参考訳) 大規模な言語モデル(lms)は現在、ドキュメントプレフィックスが与えられたトークンを予測するように訓練されており、直接ロングフォーム生成や、ドキュメント補完に還元可能なプロンプトスタイルのタスクを実行することができる。 既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。 In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。 In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。 しかし,この文書ソート問題は困難である。 何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。 そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。 in-context learning (+8%), reading comprehension (+15%), honestness to previous contexts (+16%), long-context reasoning (+5%), retrieval augmentation (+9%) など,より複雑なコンテキスト推論を必要とするタスクには注目すべき改善点があります。

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).
翻訳日:2023-12-04 17:46:13 公開日:2023-11-30
# WSINDyを用いた粗粒ハミルトン系

Coarse-Graining Hamiltonian Systems Using WSINDy ( http://arxiv.org/abs/2310.05879v2 )

ライセンス: Link先を確認
Daniel A. Messenger, Joshua W. Burby, David M. Bortz(参考訳) Wak-form Sparse Identification of nonlinear Dynamics algorithm (WSINDy) は、相互作用する粒子系(https://doi.org/10.1016/j.physd.2022.133406)の文脈で粗粒化機能を提供する。 本研究では,時間スケール分離に伴う近似対称性を有する粗粒ハミルトニアンダイナミクスの問題に拡張する。 このような近似対称性は、しばしば対称性不変依存変数のダイナミクスを効率的に捉えるために用いられる縮小次元のハミルトン系の存在につながる。 このような削減されたシステム、あるいはそれらを数値的に近似させることは、現在進行中の課題である。 そこで,WSINDyでは,この低減されたハミルトン系を,外在雑音に対して頑健に保ちながら,大きな内在性摂動の存在下で同定できることを示した。 これは部分的にはそのような系が解析的に導出される非自明な手段によって重要である。 ウォシンディはまた、ハミルトニアン構造をハミルトニアンベクトル場の試行基底に制限することで自然に保存する。 この手法は計算効率が良く、大域的還元ハミルトニアンを学ぶのに1つの軌道しか必要とせず、学習プロセスの前方解を避ける。 ほぼ周期的ハミルトニアン系を近似対称性を持つ原型系のクラスとして用いると、WSINDyは関連する自由度を観測すると、次元を少なくとも2倍減らして正しい前順序系をしっかりと同定する。 また、ベクトル場のレベルでの1次平均化は、ほぼ周期的なハミルトン系におけるハミルトン構造を保存することを証明して平均化理論に寄与する。 我々は、物理的に関連する例、すなわち結合振動子ダイナミクス、銀河内の恒星運動のためのh\'enon-heilesシステム、荷電粒子のダイナミクスを提供する。

The Weak-form Sparse Identification of Nonlinear Dynamics algorithm (WSINDy) has been demonstrated to offer coarse-graining capabilities in the context of interacting particle systems (https://doi.org/10.1016/j.physd.2022.133406). In this work we extend this capability to the problem of coarse-graining Hamiltonian dynamics which possess approximate symmetries associated with timescale separation. Such approximate symmetries often lead to the existence of a Hamiltonian system of reduced dimension that may be used to efficiently capture the dynamics of the symmetry-invariant dependent variables. Deriving such reduced systems, or approximating them numerically, is an ongoing challenge. We demonstrate that WSINDy can successfully identify this reduced Hamiltonian system in the presence of large intrinsic perturbations while remaining robust to extrinsic noise. This is significant in part due to the nontrivial means by which such systems are derived analytically. WSINDy also naturally preserves the Hamiltonian structure by restricting to a trial basis of Hamiltonian vector fields. The methodology is computational efficient, often requiring only a single trajectory to learn the global reduced Hamiltonian, and avoiding forward solves in the learning process. Using nearly-periodic Hamiltonian systems as a prototypical class of systems with approximate symmetries, we show that WSINDy robustly identifies the correct leading-order system, with dimension reduced by at least two, upon observation of the relevant degrees of freedom. We also provide a contribution to averaging theory by proving that first-order averaging at the level of vector fields preserves Hamiltonian structure in nearly-periodic Hamiltonian systems. We provide physically relevant examples, namely coupled oscillator dynamics, the H\'enon-Heiles system for stellar motion within a galaxy, and the dynamics of charged particles.
翻訳日:2023-12-04 17:43:41 公開日:2023-11-30
# ハイブリッドモデルからの弱アライメントスーパービジョンによるエンドツーエンドASRの改善

Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR ( http://arxiv.org/abs/2311.14835v2 )

ライセンス: Link先を確認
Jintao Jiang, Yingbo Gao, Zoltan Tuske(参考訳) 本稿では,自動音声認識のエンドツーエンドモデリングを支援するため,既存のハイブリッドシステムから弱いアライメント監督を実現することを目的とする。 この目的に向けて、既存のハイブリッドasrシステムを用いて、トレーニングオーディオの三声アライメントを生成する。 次に、導出したアライメントを用いてエンコーダの特定の層にクロスエントロピー損失を生成する。 一般的な1ホットクロスエントロピー損失とは対照的に,ラベル平滑化パラメータを持つクロスエントロピー損失を用いて監督を規則化する。 比較として,1つのホットクロスエントロピー損失とctc損失の損失重み付け実験を行った。 その結果、第3エンコーダ層に0.5のラベル平滑化パラメータと弱いアライメントを配置すると、他の2つのアプローチよりも優れ、TED-Lium 2データセットに対するWERの相対的な減少率が約5倍になることがわかった。 Tagalog のエンドツーエンド ASR システムにメソッドをアウト・オブ・ザ・ボックスで適用する場合には,同様の改善が期待できる。

In this paper, we aim to create weak alignment supervision from an existing hybrid system to aid the end-to-end modeling of automatic speech recognition. Towards this end, we use the existing hybrid ASR system to produce triphone alignments of the training audios. We then create a cross-entropy loss at a certain layer of the encoder using the derived alignments. In contrast to the general one-hot cross-entropy losses, here we use a cross-entropy loss with a label smoothing parameter to regularize the supervision. As a comparison, we also conduct the experiments with one-hot cross-entropy losses and CTC losses with loss weighting. The results show that placing the weak alignment supervision with the label smoothing parameter of 0.5 at the third encoder layer outperforms the other two approaches and leads to about 5\% relative WER reduction on the TED-LIUM 2 dataset over the baseline. We see similar improvements when applying the method out-of-the-box on a Tagalog end-to-end ASR system.
翻訳日:2023-12-04 17:38:12 公開日:2023-11-30
# 対人嗜好からの学習における密度推定の視点

A density estimation perspective on learning from pairwise human preferences ( http://arxiv.org/abs/2311.14115v2 )

ライセンス: Link先を確認
Vincent Dumoulin, Daniel D. Johnson, Pablo Samuel Castro, Hugo Larochelle, Yann Dauphin(参考訳) 人間からのフィードバック(LHF)から学ぶこと、特にペアの好みから学ぶことは、最近、大きな言語モデル(LLM)のトレーニングにおいて重要な要素となり、多くの研究の対象となっている。 最近の研究は、報酬関数がペアの選好データから学習され、LLMは報酬を最大化するためのポリシーとして扱われ、しばしば追加の正規化制約の下で扱われる強化学習問題である。 本稿では,一対選好のための生成過程を中心とし,lhfを密度推定問題として扱う代替解釈を提案する。 選好行動分布方程式によって定義される生成過程の族に対して、ペアワイズ選好の報奨関数を訓練することで、アノテーションの暗黙の選好分布を効果的にモデル化できることを理論的および実証的に示す。 最後に,「注釈的誤特定」について考察し,その知見を提示する。アノテーション的行動について誤ったモデリングの仮定がなされた場合,その結果,不適応なモデルが生まれる場合,ペアで人間の選好から学ぶアプローチは,多様な視点を持つ注釈者集団から学ぶのに困難をもたらす可能性があることを示唆する。

Learning from human feedback (LHF) -- and in particular learning from pairwise preferences -- has recently become a crucial ingredient in training large language models (LLMs), and has been the subject of much research. Most recent works frame it as a reinforcement learning problem, where a reward function is learned from pairwise preference data and the LLM is treated as a policy which is adapted to maximize the rewards, often under additional regularization constraints. We propose an alternative interpretation which centers on the generative process for pairwise preferences and treats LHF as a density estimation problem. We provide theoretical and empirical results showing that for a family of generative processes defined via preference behavior distribution equations, training a reward function on pairwise preferences effectively models an annotator's implicit preference distribution. Finally, we discuss and present findings on "annotator misspecification" -- failure cases where wrong modeling assumptions are made about annotator behavior, resulting in poorly-adapted models -- suggesting that approaches that learn from pairwise human preferences could have trouble learning from a population of annotators with diverse viewpoints.
翻訳日:2023-12-04 17:37:26 公開日:2023-11-30
# Q-Seg:量子アニーリングに基づく教師なしイメージセグメンテーション

Q-Seg: Quantum Annealing-based Unsupervised Image Segmentation ( http://arxiv.org/abs/2311.12912v2 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel(参考訳) 本研究では,既存の量子ハードウェアに適した量子アニールに基づく新しい教師なし画像分割手法Q-Segを提案する。 画像のスペクトル情報と空間情報を同化する画素分割問題をグラフカット最適化タスクとして定式化する。 提案手法はD波アドバンテージ装置の相互接続量子ビットトポロジを効率的に利用し,既存の量子アプローチよりも優れたスケーラビリティと,最先端の古典的手法より優れた性能を実現する。 合成データセットに関する経験的評価から,q-segは従来のオプティマイザであるgurobiに対して,実行時のパフォーマンスが向上していることが分かる。 また,地球観測画像のセグメンテーションについて,ラベル付きデータの量が通常非常に限られているアプリケーション領域であるセグメンテーションの評価を行った。 この場合、Q-Segは、古典的な教師付き最先端機械学習手法に関して、洪水マッピング検出のほぼ最適結果を示す。 また、Q-Segは既存のアノテートマスクと比較して森林被覆のセグメンテーションを強化している。 このように、Q-Segは利用可能な量子ハードウェアを使用した現実世界のアプリケーション、特にラベル付きデータと計算ランタイムの欠如が重要となるシナリオの代替として実現可能なものとして出現する。

In this study, we present Q-Seg, a novel unsupervised image segmentation method based on quantum annealing, tailored for existing quantum hardware. We formulate the pixel-wise segmentation problem, which assimilates spectral and spatial information of the image, as a graph-cut optimization task. Our method efficiently leverages the interconnected qubit topology of the D-Wave Advantage device, offering superior scalability over existing quantum approaches and outperforming state-of-the-art classical methods. Our empirical evaluations on synthetic datasets reveal that Q-Seg offers better runtime performance against the classical optimizer Gurobi. Furthermore, we evaluate our method on segmentation of Earth Observation images, an area of application where the amount of labeled data is usually very limited. In this case, Q-Seg demonstrates near-optimal results in flood mapping detection with respect to classical supervised state-of-the-art machine learning methods. Also, Q-Seg provides enhanced segmentation for forest coverage compared to existing annotated masks. Thus, Q-Seg emerges as a viable alternative for real-world applications using available quantum hardware, particularly in scenarios where the lack of labeled data and computational runtime are critical.
翻訳日:2023-12-04 17:37:01 公開日:2023-11-30
# satclip:衛星画像によるグローバルな汎用位置情報埋め込み

SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery ( http://arxiv.org/abs/2311.17179v2 )

ライセンス: Link先を確認
Konstantin Klemmer, Esther Rolf, Caleb Robinson, Lester Mackey, Marc Ru{\ss}wurm(参考訳) 地理的な位置は、生態学から疫学、地球系科学まで幅広い分野のモデリングタスクに不可欠である。 しかし、地理的かつ有意義な特徴の抽出は困難であり、しばしばグローバル画像データセットから高価なデータ融合やデータの蒸留を伴っている。 この課題に対処するために,衛星画像から暗黙的な位置表現を学習する,グローバルで汎用的な地理的位置エンコーダsatclip(saturtic contrastive location-image pretraining)を導入する。 訓練された位置エンコーダは、様々な下流タスクで便利な使用のために任意の位置の特性を要約したベクトル埋め込みを提供する。 本研究では,多スペクトルsentinel-2衛星データに基づいて事前学習されたsatclip埋め込みを,温度予測や画像における動物認識,人口密度推定など,必ずしも衛星画像に依存しない様々な予測タスクに使用できることを示す。 タスク全体にわたって、satclipは、自然画像でトレーニングされたモデルからセマンティックコンテキストでトレーニングされたモデルまで、既存のトレーニング済みロケーションエンコーダからの埋め込みを一貫して上回っています。 SatCLIP埋め込みは地理的一般化の改善にも役立つ。 このことは、汎用的な位置エンコーダの可能性を示し、地理空間データの広大で多様で、ほとんど利用されていない様相から惑星の有意義な表現を学ぶための扉を開く。

Geographic location is essential for modeling tasks in fields ranging from ecology to epidemiology to the Earth system sciences. However, extracting relevant and meaningful characteristics of a location can be challenging, often entailing expensive data fusion or data distillation from global imagery datasets. To address this challenge, we introduce Satellite Contrastive Location-Image Pretraining (SatCLIP), a global, general-purpose geographic location encoder that learns an implicit representation of locations from openly available satellite imagery. Trained location encoders provide vector embeddings summarizing the characteristics of any given location for convenient usage in diverse downstream tasks. We show that SatCLIP embeddings, pretrained on globally sampled multi-spectral Sentinel-2 satellite data, can be used in various predictive tasks that depend on location information but not necessarily satellite imagery, including temperature prediction, animal recognition in imagery, and population density estimation. Across tasks, SatCLIP embeddings consistently outperform embeddings from existing pretrained location encoders, ranging from models trained on natural images to models trained on semantic context. SatCLIP embeddings also help to improve geographic generalization. This demonstrates the potential of general-purpose location encoders and opens the door to learning meaningful representations of our planet from the vast, varied, and largely untapped modalities of geospatial data.
翻訳日:2023-12-04 17:22:54 公開日:2023-11-30
# ref$^2$-nerf:反射と屈折を考慮した神経放射場

REF$^2$-NeRF: Reflection and Refraction aware Neural Radiance Field ( http://arxiv.org/abs/2311.17116v2 )

ライセンス: Link先を確認
Wooseok Kim, Taiki Fukiage, Takeshi Oishi(参考訳) 近年,neural radiance field (nerf) 法による暗黙的神経表現を用いた複数画像からの3次元再構成法の研究において有意な進歩がみられた。 ボリュームレンダリングに基づくこのような手法は様々な光現象をモデル化することができ、様々な場面や状況に対応するために様々な拡張手法が提案されている。 しかし、複数のガラスオブジェクト(例えばガラスショーケースのオブジェクト)でシーンを扱う場合、複数の反射や屈折効果があるため、ターゲットシーンを正確にモデル化することは困難である。 そこで本研究では,ガラスケースを含むシーンのNeRFモデリング手法を提案する。 提案手法では, 屈折と反射を, ビューアの視点に依存し, 独立な要素を用いてモデル化する。 このアプローチにより、屈折が発生する表面、すなわちガラス表面を推定することができ、直接および反射光成分の分離とモデリングを可能にする。 既存の手法と比較して,ガラス屈折率と全体像のより正確なモデリングが可能である。

Recently, significant progress has been made in the study of methods for 3D reconstruction from multiple images using implicit neural representations, exemplified by the neural radiance field (NeRF) method. Such methods, which are based on volume rendering, can model various light phenomena, and various extended methods have been proposed to accommodate different scenes and situations. However, when handling scenes with multiple glass objects, e.g., objects in a glass showcase, modeling the target scene accurately has been challenging due to the presence of multiple reflection and refraction effects. Thus, this paper proposes a NeRF-based modeling method for scenes containing a glass case. In the proposed method, refraction and reflection are modeled using elements that are dependent and independent of the viewer's perspective. This approach allows us to estimate the surfaces where refraction occurs, i.e., glass surfaces, and enables the separation and modeling of both direct and reflected light components. Compared to existing methods, the proposed method enables more accurate modeling of both glass refraction and the overall scene.
翻訳日:2023-12-04 17:22:03 公開日:2023-11-30
# このタイトルを無視してhackaprompt:グローバル・スケール・プロンプト・ハッキング・コンペティションを通じてllmのシステム的脆弱性を暴露する

Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition ( http://arxiv.org/abs/2311.16119v2 )

ライセンス: Link先を確認
Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-Fran\c{c}ois Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost, Christopher Carnahan, Jordan Boyd-Graber(参考訳) 大規模言語モデル(LLM)は、チャットボットやライティングアシスタントなど、直接的なユーザエンゲージメントを備えたインタラクティブなコンテキストにデプロイされる。 これらのデプロイメントは、インジェクションとジェイルブレイク(まとめると、プロンプトハック)に対して脆弱で、モデルが元の命令を無視し、潜在的に悪意のある命令に従うように操作される。 セキュリティ上の重大な脅威として広く認識されているが、大規模なリソースや迅速なハッキングに関する定量的研究が多数存在する。 このラグナに対処するため、我々は、自由形式の人間の入力攻撃を可能にするグローバルなプロンプトハッキングコンペティションを立ち上げた。 我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。 本稿では,現在のLSMが即時ハッキングによって実際に操作可能であることを実証的に検証したデータセットについて述べる。 また,敵対的プロンプトの種類に関する包括的分類学的オントロジーも提示する。

Large Language Models (LLMs) are deployed in interactive contexts with direct user engagement, such as chatbots and writing assistants. These deployments are vulnerable to prompt injection and jailbreaking (collectively, prompt hacking), in which models are manipulated to ignore their original instructions and follow potentially malicious ones. Although widely acknowledged as a significant security threat, there is a dearth of large-scale resources and quantitative studies on prompt hacking. To address this lacuna, we launch a global prompt hacking competition, which allows for free-form human input attacks. We elicit 600K+ adversarial prompts against three state-of-the-art LLMs. We describe the dataset, which empirically verifies that current LLMs can indeed be manipulated via prompt hacking. We also present a comprehensive taxonomical ontology of the types of adversarial prompts.
翻訳日:2023-12-04 17:21:46 公開日:2023-11-30
# HCAI方法論フレームワーク:人間中心のAIを実現するためのアクションにそれを組み込む

An HCAI Methodological Framework: Putting It Into Action to Enable Human-Centered AI ( http://arxiv.org/abs/2311.16027v3 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao, Marvin Dainoff(参考訳) 人間中心型AI(HCAI)は、設計哲学として、人間に対してAI技術の利点を最大化し、その潜在的な悪影響を避けることを目的として、インテリジェントシステムの設計、開発、デプロイにおいて人間の優先順位を主張する。 HCAIは勢いを増しているが、その実装における方法論に関するガイダンスの欠如は、その採用を困難にしている。 本稿では,hcaiの方法論的枠組みの必要性を評価し,まず設計目標,設計原則,実装アプローチ,設計パラダイム,学際チーム,方法,プロセスを含む7つの要素を統合した総合的かつ学際的なhcai方法論フレームワークを提案する。 フレームワークの意味についても論じている。 本稿では,フレームワークの実装を容易にする"3層"アプローチを提案する。 提案するフレームワークは体系的で実行可能であり、現在のフレームワークの弱点と現在HCAIの実装で直面している課題を克服できると考えています。 したがって、このフレームワークはHCAIを実際に開発、移行、実装するためのアクションに役立ち、最終的にHCAIベースのインテリジェントシステムの設計、開発、デプロイを可能にします。

Human-centered AI (HCAI), as a design philosophy, advocates prioritizing humans in designing, developing, and deploying intelligent systems, aiming to maximize the benefits of AI technology to humans and avoid its potential adverse effects. While HCAI has gained momentum, the lack of guidance on methodology in its implementation makes its adoption challenging. After assessing the needs for a methodological framework for HCAI, this paper first proposes a comprehensive and interdisciplinary HCAI methodological framework integrated with seven components, including design goals, design principles, implementation approaches, design paradigms, interdisciplinary teams, methods, and processes. THe implications of the framework are also discussed. This paper also presents a "three-layer" approach to facilitate the implementation of the framework. We believe the proposed framework is systematic and executable, which can overcome the weaknesses in current frameworks and the challenges currently faced in implementing HCAI. Thus, the framework can help put it into action to develop, transfer, and implement HCAI in practice, eventually enabling the design, development, and deployment of HCAI-based intelligent systems.
翻訳日:2023-12-04 17:21:28 公開日:2023-11-30
# 安定拡散による個人情報の爆発防止は可能か?

Can Protective Perturbation Safeguard Personal Data from Being Exploited by Stable Diffusion? ( http://arxiv.org/abs/2312.00084v1 )

ライセンス: Link先を確認
Zhengyue Zhao, Jinhao Duan, Kaidi Xu, Chenan Wang, Rui Zhangp Zidong Dup Qi Guo, Xing Hu(参考訳) 安定拡散は、生成AI芸術応用の基礎モデルとして確立され、幅広い研究と応用を受けている。 最近の微調整手法により、個人は小さなデータセットに最小の計算コストで、基本的な安定拡散モデルにパーソナライズされた概念を組み込むことができるようになった。 しかし、これらのイノベーションは、顔のプライバシー偽造や芸術的著作権侵害といった問題も引き起こしている。 近年の研究では、個人データが安定した拡散の微調整に使用される場合の不正な利用や侵害を防止するために、画像に知覚不能な逆向きの摂動を追加する研究が行われている。 これらの研究は、画像を保護する能力を示しているが、実際のシナリオではこれらの方法が完全に適用できない可能性があると考えることが不可欠である。 本稿では,実用的脅威モデルにおける画像保護のための摂動の利用を体系的に評価する。 その結果,これらの手法は画像のプライバシーと著作権を効果的に保護するには不十分である可能性が示唆された。 さらに,元の画像構造を最大限に保存しつつ,保護された摂動を除去できる浄化方法を提案する。 実験により、安定拡散はすべての保護方法を通じて、精製された画像から効果的に学習できることが判明した。

Stable Diffusion has established itself as a foundation model in generative AI artistic applications, receiving widespread research and application. Some recent fine-tuning methods have made it feasible for individuals to implant personalized concepts onto the basic Stable Diffusion model with minimal computational costs on small datasets. However, these innovations have also given rise to issues like facial privacy forgery and artistic copyright infringement. In recent studies, researchers have explored the addition of imperceptible adversarial perturbations to images to prevent potential unauthorized exploitation and infringements when personal data is used for fine-tuning Stable Diffusion. Although these studies have demonstrated the ability to protect images, it is essential to consider that these methods may not be entirely applicable in real-world scenarios. In this paper, we systematically evaluate the use of perturbations to protect images within a practical threat model. The results suggest that these approaches may not be sufficient to safeguard image privacy and copyright effectively. Furthermore, we introduce a purification method capable of removing protected perturbations while preserving the original image structure to the greatest extent possible. Experiments reveal that Stable Diffusion can effectively learn from purified images over all protective methods.
翻訳日:2023-12-04 17:15:02 公開日:2023-11-30
# BAM-DETR:ビデオにおける時間的接地のための境界配向モーメント検出変換器

BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2312.00083v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Hyeran Byun(参考訳) 時間文グラウンドディングは、言語記述に関連するモーメントをローカライズすることを目的としている。 近年、detrのようなアプローチは学習可能なクエリからターゲットモーメントの中心と長さをデコードすることで顕著な進歩を示している。 しかし、それらはモーメントセンターの本質的な曖昧さによって引き起こされる中心的不一致の問題に悩まされ、不正確な予測につながった。 この問題を解決するために,新しい境界指向モーメント定式化を提案する。 我々のパラダイムでは、モデルはもはや正確な中心を見つける必要はなく、その代わりに、開始とオフセットが直接推定される区間内のアンカーポイントを予測するのに十分です。 この考え方に基づいて、デュアルパス・デコード処理を備えた境界アラインメント検出変換器(BAM-DETR)を設計する。 具体的には、グローバルおよびバウンダリにフォーカスして、並列経路内のアンカーとバウンダリを洗練する。 この別々の設計により、モデルは望ましい領域に集中することができ、モーメント予測を正確に洗練することができる。 さらに,高い局所性を有する提案が不完全な提案よりも優先されるように,品質に基づくランク付け手法を提案する。 提案手法の利点を検証し、3つのベンチマークで最新の結果を記録した。 コードはhttps://github.com/Pilhyeon/BAM-DETRにある。

Temporal sentence grounding aims to localize moments relevant to a language description. Recently, DETR-like approaches have shown notable progress by decoding the center and length of a target moment from learnable queries. However, they suffer from the issue of center misalignment raised by the inherent ambiguity of moment centers, leading to inaccurate predictions. To remedy this problem, we introduce a novel boundary-oriented moment formulation. In our paradigm, the model no longer needs to find the precise center but instead suffices to predict any anchor point within the interval, from which the onset and offset are directly estimated. Based on this idea, we design a Boundary-Aligned Moment Detection Transformer (BAM-DETR), equipped with a dual-pathway decoding process. Specifically, it refines the anchor and boundaries within parallel pathways using global and boundary-focused attention, respectively. This separate design allows the model to focus on desirable regions, enabling precise refinement of moment predictions. Further, we propose a quality-based ranking method, ensuring that proposals with high localization qualities are prioritized over incomplete ones. Extensive experiments verify the advantages of our methods, where our model records new state-of-the-art results on three benchmarks. Code is at https://github.com/Pilhyeon/BAM-DETR.
翻訳日:2023-12-04 17:14:41 公開日:2023-11-30
# 大容量4次元機能的磁気共鳴画像の高効率記憶のための小型インシシティニューラル表現法

A Compact Implicit Neural Representation for Efficient Storage of Massive 4D Functional Magnetic Resonance Imaging ( http://arxiv.org/abs/2312.00082v1 )

ライセンス: Link先を確認
Ruoran Li, Runzhao Yang, Wenxin Xiang, Yuxiao Cheng, Tingxiong Xiao, Jinli Suo(参考訳) 機能的磁気共鳴イメージング(fmri)データは、効果的な圧縮を要求するが、その複雑な時間的ダイナミクス、低信号対雑音比、複雑な基礎冗長性により、圧縮に特有の課題を示す4次元生体医学データの一種である。 本稿では,暗黙的神経表現(inr)に基づくfmriデータに特化した新しい圧縮パラダイムを提案する。 提案手法は時系列を含む様々な冗長性を取り除くことに焦点を当てている。 (i)地域内ダイナミクスのための空間相関モデリング (ii)再利用可能なニューロン活性化パターンを分解し、非線形融合と共に適切な初期化を用いて領域間の類似性を記述する。 本手法は,fMRIデータの特徴を適切に組み込んだもので,従来の画像品質評価指標とfMRIダウンストリームタスクの両方において,最先端のアルゴリズムを超越して,提案手法の有効性を示す。 本稿では,低帯域幅,高忠実度で大規模fmriデータを共有する方法を提案する。

Functional Magnetic Resonance Imaging (fMRI) data is a kind of widely used four-dimensional biomedical data, demanding effective compression but presenting unique challenges for compression due to its intricate temporal dynamics, low signal-to-noise ratio, and complicated underlying redundancies. This paper reports a novel compression paradigm specifically tailored for fMRI data based on Implicit Neural Representation (INR). The proposed approach focuses on removing the various redundancies among the time series, including (i) conducting spatial correlation modeling for intra-region dynamics, (ii) decomposing reusable neuronal activation patterns, and using proper initialization together with nonlinear fusion to describe the inter-region similarity. The above scheme properly incorporates the unique features of fMRI data, and experimental results on publicly available datasets demonstrate the effectiveness of the proposed method, surpassing state-of-the-art algorithms in both conventional image quality evaluation metrics and fMRI downstream tasks. This work in this paper paves the way for sharing massive fMRI data at low bandwidth and high fidelity.
翻訳日:2023-12-04 17:14:17 公開日:2023-11-30
# 合成・診断・最適化: きめ細かい視覚言語理解に向けて

Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding ( http://arxiv.org/abs/2312.00081v1 )

ライセンス: Link先を確認
Wujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu(参考訳) 視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。 しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語の概念を理解することは依然として大きな課題である。 いくつかのベンチマークでは、VLMをより細かい粒度で評価することを目指しているが、その主な焦点は、視覚的次元を無視した言語的側面である。 本稿では,テキストと視覚の両方の観点からVLMを評価することの重要性を強調した。 他のすべての面で一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。 このデータエンジンを利用して、ベンチマーク、仕様を慎重に設計し、オブジェクトのサイズ、位置、存在、カウントの理解を診断する。 その後,SPEC上での4つのVLMの徹底的な評価を行った。 驚くべきことに、彼らのパフォーマンスはランダムな推測に近く、重大な制限が明らかです。 このことを念頭に置いて,ゼロショット性能を損なうことなくSPECの大幅な改善を実現し,精細な理解でVLMを最適化する,シンプルで効果的な手法を提案する。 2つの追加のきめ細かいベンチマークの結果も一貫した改善を示しており、アプローチの転送可能性をさらに検証しています。

Vision language models (VLM) have demonstrated remarkable performance across various downstream tasks. However, understanding fine-grained visual-linguistic concepts, such as attributes and inter-object relationships, remains a significant challenge. While several benchmarks aim to evaluate VLMs in finer granularity, their primary focus remains on the linguistic aspect, neglecting the visual dimension. Here, we highlight the importance of evaluating VLMs from both a textual and visual perspective. We introduce a progressive pipeline to synthesize images that vary in a specific attribute while ensuring consistency in all other aspects. Utilizing this data engine, we carefully design a benchmark, SPEC, to diagnose the comprehension of object size, position, existence, and count. Subsequently, we conduct a thorough evaluation of four leading VLMs on SPEC. Surprisingly, their performance is close to random guess, revealing significant limitations. With this in mind, we propose a simply yet effective approach to optimize VLMs in fine-grained understanding, achieving significant improvements on SPEC without compromising the zero-shot performance. Results on two additional fine-grained benchmarks also show consistent improvements, further validating the transferability of our approach.
翻訳日:2023-12-04 17:13:58 公開日:2023-11-30
# PDB-Struct:構造ベースタンパク質設計のための総合ベンチマーク

PDB-Struct: A Comprehensive Benchmark for Structure-based Protein Design ( http://arxiv.org/abs/2312.00080v1 )

ライセンス: Link先を確認
Chuanrui Wang, Bozitao Zhong, Zuobai Zhang, Narendra Chaudhary, Sanchit Misra, Jian Tang(参考訳) 構造に基づくタンパク質の設計が注目され、近年多くの方法が導入されている。 しかし、新しいアルゴリズムの開発にはウェット・ラブ・バリデーションが過度に時間がかかるため、広く受け入れられている評価方法は確立されておらず、$\textit{in silico}$ validation with recovery and perplexity metricsは効率的であるが、真の折りたたみ可能性を正確に反映するものではない。 このギャップに対処するために,実験室実験のプロキシとして高精度なタンパク質構造予測モデルを利用するリフォールダビリティ・ベース・メトリックと,実験安定タンパク質に高い確率を付与できるかどうかを評価する安定性・ベース・メトリックの2つの新しい指標を導入する。 高品質のCATHタンパク質データ、高スループットの$\textit{de novo}$設計タンパク質、および大規模実験変異原性実験からデータセットをキュレートし、その際、最近のタンパク質設計法および未コンパイルタンパク質設計法の両方を評価する$\textbf{PDB-Struct}$ベンチマークを提示する。 実験の結果,ByProt,ProteinMPNN,ESM-IFはベンチマークで非常に良好に機能し,ESM-DesignとAF-Designは再現性測定値に劣っていることがわかった。 また、いくつかの手法は高いシーケンシャル回復を示すが、新しいベンチマークでは性能が良くないことを示す。 提案するベンチマークは将来,タンパク質設計手法の公平かつ包括的評価の道を開くものである。 コードはhttps://github.com/WANG-CR/PDB-Struct.comから入手できる。

Structure-based protein design has attracted increasing interest, with numerous methods being introduced in recent years. However, a universally accepted method for evaluation has not been established, since the wet-lab validation can be overly time-consuming for the development of new algorithms, and the $\textit{in silico}$ validation with recovery and perplexity metrics is efficient but may not precisely reflect true foldability. To address this gap, we introduce two novel metrics: refoldability-based metric, which leverages high-accuracy protein structure prediction models as a proxy for wet lab experiments, and stability-based metric, which assesses whether models can assign high likelihoods to experimentally stable proteins. We curate datasets from high-quality CATH protein data, high-throughput $\textit{de novo}$ designed proteins, and mega-scale experimental mutagenesis experiments, and in doing so, present the $\textbf{PDB-Struct}$ benchmark that evaluates both recent and previously uncompared protein design methods. Experimental results indicate that ByProt, ProteinMPNN, and ESM-IF perform exceptionally well on our benchmark, while ESM-Design and AF-Design fall short on the refoldability metric. We also show that while some methods exhibit high sequence recovery, they do not perform as well on our new benchmark. Our proposed benchmark paves the way for a fair and comprehensive evaluation of protein design methods in the future. Code is available at https://github.com/WANG-CR/PDB-Struct.
翻訳日:2023-12-04 17:13:38 公開日:2023-11-30
# HiFi Tuner:拡散モデルのための高忠実な主観駆動ファインタニング

HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion Models ( http://arxiv.org/abs/2312.00079v1 )

ライセンス: Link先を確認
Zhonghao Wang, Wei Wei, Yang Zhao, Zhisheng Xiao, Mark Hasegawa-Johnson, Humphrey Shi, Tingbo Hou(参考訳) 本稿では,事前学習したテキスト・画像拡散モデルを用いた高忠実度画像生成の進歩について検討する。 これまでのアプローチでは,テキスト記述や入力画像などに基づいて多彩なシーンを生成するという大きな進歩を遂げてきたが,生成画像内の主題忠実性を維持する上での課題が続いている。 本研究では,個人化画像生成におけるオブジェクトの外観保存性を高めるために,HiFi Tunerという革新的なアルゴリズムを導入する。 提案手法では,パラメータ効率のよい微調整フレームワークを用いて,デノナイズプロセスとピボットインバージョンプロセスを組み合わせた。 マスクガイダンスの利用、新しいパラメータ正規化手法、サンプルの忠実度を高めるためのステップワイドな対象表現の導入など、重要な機能強化がある。 さらに、参照画像のピボットインバージョンを利用して、不要な対象のバリエーションやアーティファクトを緩和する参照誘導生成手法を提案する。 さらに,提案手法を,テキスト操作による画像中の被写体置換という新しい画像編集タスクに拡張する。 安定拡散モデルを用いたdreamboothデータセット上での実験評価は有望な結果を示した。 テキスト埋め込みのみの微調整はCLIP-Tスコアを3.6ポイント改善し、DINOスコアを9.6ポイント改善する。 すべてのパラメータを微調整すると、HiFi TunerはCLIP-Tスコアを1.2ポイント改善し、DINOスコアを1.2ポイント改善し、新しい最先端技術を確立する。

This paper explores advancements in high-fidelity personalized image generation through the utilization of pre-trained text-to-image diffusion models. While previous approaches have made significant strides in generating versatile scenes based on text descriptions and a few input images, challenges persist in maintaining the subject fidelity within the generated images. In this work, we introduce an innovative algorithm named HiFi Tuner to enhance the appearance preservation of objects during personalized image generation. Our proposed method employs a parameter-efficient fine-tuning framework, comprising a denoising process and a pivotal inversion process. Key enhancements include the utilization of mask guidance, a novel parameter regularization technique, and the incorporation of step-wise subject representations to elevate the sample fidelity. Additionally, we propose a reference-guided generation approach that leverages the pivotal inversion of a reference image to mitigate unwanted subject variations and artifacts. We further extend our method to a novel image editing task: substituting the subject in an image through textual manipulations. Experimental evaluations conducted on the DreamBooth dataset using the Stable Diffusion model showcase promising results. Fine-tuning solely on textual embeddings improves CLIP-T score by 3.6 points and improves DINO score by 9.6 points over Textual Inversion. When fine-tuning all parameters, HiFi Tuner improves CLIP-T score by 1.2 points and improves DINO score by 1.2 points over DreamBooth, establishing a new state of the art.
翻訳日:2023-12-04 17:13:08 公開日:2023-11-30
# 3SAT問題に対する量子近似最適化アルゴリズムの断熱型パラメータ設定法

Adiabatic-Passage Based Parameter Setting Method for Quantum Approximate Optimization Algorithm on 3-SAT Problem ( http://arxiv.org/abs/2312.00077v1 )

ライセンス: Link先を確認
Mingyou Wu, Zhihao Liu, Hanwu Chen(参考訳) 量子近似最適化アルゴリズム (QAOA) は組合せ最適化問題において大きな計算ポテンシャルを示す。 短期量子デバイスでは有望なアルゴリズムであるが、QAOAの適用の難しさの1つはパラメータ設定の複雑さである。 本稿では,3-SATに対して断熱経路に基づくパラメータ設定法を提案し,適用した。 シミュレーションでは,QAOAの深さ$p$のサブ線形と対数の間で,最適化コストが大幅に削減される。 この手法の効率は主に2つの側面から成り立っており、1つはハミルトニアンの問題指向前処理であり、もう1つは断熱通路の連続性に基づくパラメータ空間の調整である。 まず、3-SATのランダムモデルを提供し、このモデルのハミルトニアン問題はランダム行列として設計される。 ランダム化されたハミルトニアンの統計的性質に基づいて、QAOAのハミルトニアンを前処理し、パラメータ設定を問題のオーバーラル特性から分離する。 その結果、良好な初期化が得られる。 第二に、最適な断熱通路の導入と機能により、qaoaは断熱通路のパラメータ化、最適化は最適な断熱通路の探索と見なすことができる。 これに基づいて、断熱通路を連続性の良い別のパラメータ空間としてパラメータ化し、断熱パスに基づくパラメータ設定法を提案する。

The quantum approximate optimization algorithm (QAOA) shows great computational potential on combinatorial optimization problems. It is a promising algorithm on near-term quantum devices, but one of the difficulty in application of QAOA is the complexity of parameter setting. In this paper, an adiabatic-passage based parameter setting method is proposed and applied to 3-SAT. And in simulation, the optimization cost is significantly reduced, approximately between sublinear to logarithmic on the depth $p$ of QAOA. The efficiency of this method mainly stems from two aspects, one is the problem-oriented preprocessing of Hamiltonian, and the other is the parameter space adjustment based on the continuity of adiabatic passage. Firstly, a random model for 3-SAT is provided and the problem Hamiltonian of this model is designed as a random matrix. Based on the statistical property of randomized Hamiltonian, the Hamiltonian of QAOA is preprocessed and the parameter setting is seperated from the overal property of the problem. As a result, a good initialization can be obtained. Secondly, the optimal adiabatic passage is introduced and actrually, the QAOA can be regarded as the parameterization of adiabatic passage and the optimization as the search of the optimal adiabatic passage. Based on this, the adiabatic passage is parameterized as another parameter space with better continuity and the adiabatic-passage based parameter setting method is proposed.
翻訳日:2023-12-04 17:12:39 公開日:2023-11-30
# 軌道インテリジェンスの基礎モデルに向けて

Towards A Foundation Model For Trajectory Intelligence ( http://arxiv.org/abs/2312.00076v1 )

ライセンス: Link先を確認
Alameen Najjar(参考訳) 実世界のユーザチェックインデータを用いて,大規模軌跡モデルのトレーニング結果を示す。 提案手法は,マスク付き軌道モデルを用いてベースモデルを事前学習し,各種下流タスクの微調整により適応する,事前学習および微調整のパラダイムに従う。 ノイズデータと大きな空間語彙によって生じる課題に対処するため,新しい空間トークン化ブロックを提案する。 当社の実験分析では,600万人以上のユーザが生成した20億以上のチェックインの包括的なデータセットを活用しています。 3つの下流タスクを微調整することで、我々のベースモデルは生データに価値あるパターンを効果的に学習し、意味のある軌道インテリジェンスタスクに応用できることを示した。 いくつかの制限にもかかわらず、この研究は軌道インテリジェンスの基礎モデルの実現における重要な一歩であると考えている。

We present the results of training a large trajectory model using real-world user check-in data. Our approach follows a pre-train and fine-tune paradigm, where a base model is pre-trained via masked trajectory modeling and then adapted through fine-tuning for various downstream tasks. To address challenges posed by noisy data and large spatial vocabularies, we propose a novel spatial tokenization block. Our empirical analysis utilizes a comprehensive dataset of over 2 billion check-ins generated by more than 6 million users. Through fine-tuning on 3 downstream tasks we demonstrate that our base model has effectively learned valuable underlying patterns in raw data, enabling its application in meaningful trajectory intelligence tasks. Despite some limitations, we believe this work represents an important step forward in the realization of a foundation model for trajectory intelligence.
翻訳日:2023-12-04 17:12:17 公開日:2023-11-30
# FedEmb: NetworkとFeature Embedding Aggregationを用いた垂直かつハイブリッドなフェデレーション学習アルゴリズム

FedEmb: A Vertical and Hybrid Federated Learning Algorithm using Network And Feature Embedding Aggregation ( http://arxiv.org/abs/2312.00102v1 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) フェデレートラーニング(FL)は、中央サーバにデータを公開せずに、分散クライアント上で機械学習モデルの分散トレーニングを行うための新興パラダイムである。 学習方式は水平、垂直またはハイブリッド(垂直と水平の両方)である。 ディープニューラルネットワーク(DNN)モデリングに関する既存の研究は、水平データ分布に重点を置いているが、垂直とハイブリッドのスキームはあまり研究されていない。 本稿では,垂直およびハイブリッドDNN学習のための一般化アルゴリズムであるFedEmbを提案する。 提案アルゴリズムの考え方は,既存の作業と比較して,推論精度の向上,プライバシー保護特性の向上,クライアントサーバ通信帯域幅の低減などが特徴である。 実験の結果,feedembは分割特徴量と対象空間分散問題の両方に有効な手法であり,ローカルクライアントに格納されたデータセットのプライバシーを明かすことなく,0.3%から4.2%の推論精度の向上を示し,垂直ベースライン法よりも88.9%の時間複雑性を低減した。

Federated learning (FL) is an emerging paradigm for decentralized training of machine learning models on distributed clients, without revealing the data to the central server. The learning scheme may be horizontal, vertical or hybrid (both vertical and horizontal). Most existing research work with deep neural network (DNN) modelling is focused on horizontal data distributions, while vertical and hybrid schemes are much less studied. In this paper, we propose a generalized algorithm FedEmb, for modelling vertical and hybrid DNN-based learning. The idea of our algorithm is characterised by higher inference accuracy, stronger privacy-preserving properties, and lower client-server communication bandwidth demands as compared with existing work. The experimental results show that FedEmb is an effective method to tackle both split feature & subject space decentralized problems, shows 0.3% to 4.2% inference accuracy improvement with limited privacy revealing for datasets stored in local clients, and reduces 88.9 % time complexity over vertical baseline method.
翻訳日:2023-12-04 17:03:25 公開日:2023-11-30
# 教師なし表現学習に向けて : 視覚表現の学習・評価・伝達

Towards Unsupervised Representation Learning: Learning, Evaluating and Transferring Visual Representations ( http://arxiv.org/abs/2312.00101v1 )

ライセンス: Link先を確認
Bonifaz Stuhr(参考訳) 教師なし表現学習は、アノテーションに基づく信号なしでデータから表現を学ぶ方法を見つけることを目的としている。 アノテーションの省略は経済的利益につながるだけでなく、表現の構造、頑健性、異なるタスクへの一般化性に関して利益をもたらす可能性がある。 長期的には、人間の介入の減少と、特定のアノテーションに基づく信号から得られる目的に対して最適化を偏見しない本質的に一般的な設定のために、教師なしの手法が監督対象を上回ることが期待されている。 教師なし表現学習の主な利点は自然言語処理において近年観察されているが、教師なし表現学習はいまだ多くのタスクにおいて視覚領域で支配的である。 この論文では、教師なし(視覚的)表現学習の分野に3つの視点から貢献する。 (i)学習表現:我々は、自己組織化とヘビアンベースの学習規則を利用して、より深いバックプロパゲーションフリーモデルを達成するための、教師なし、バックプロパゲーションフリーの畳み込みニューラルネットワーク(csnn)を設計する。 (ii) 表現の評価: 様々な教師なしのプリテキストタスクとターゲットタスクの客観的機能ミスマッチを計測・調査するために、広く使用される(非)線形評価プロトコルに基づいて、pretext-およびtarget-objective-independent metricsを定義します。 (iii)表現の転送:carlaneは、2次元レーン検出のための最初の3方向sim-to-realドメイン適応ベンチマークであり、prototypepical self-supervised learningに基づく手法である。 最後に,マスク,グローバル・ローカル・ディスクリミネータ,類似性サンプリングを利用したコンテンツ一貫性のない画像画像間翻訳手法を提案する。

Unsupervised representation learning aims at finding methods that learn representations from data without annotation-based signals. Abstaining from annotations not only leads to economic benefits but may - and to some extent already does - result in advantages regarding the representation's structure, robustness, and generalizability to different tasks. In the long run, unsupervised methods are expected to surpass their supervised counterparts due to the reduction of human intervention and the inherently more general setup that does not bias the optimization towards an objective originating from specific annotation-based signals. While major advantages of unsupervised representation learning have been recently observed in natural language processing, supervised methods still dominate in vision domains for most tasks. In this dissertation, we contribute to the field of unsupervised (visual) representation learning from three perspectives: (i) Learning representations: We design unsupervised, backpropagation-free Convolutional Self-Organizing Neural Networks (CSNNs) that utilize self-organization- and Hebbian-based learning rules to learn convolutional kernels and masks to achieve deeper backpropagation-free models. (ii) Evaluating representations: We build upon the widely used (non-)linear evaluation protocol to define pretext- and target-objective-independent metrics for measuring and investigating the objective function mismatch between various unsupervised pretext tasks and target tasks. (iii) Transferring representations: We contribute CARLANE, the first 3-way sim-to-real domain adaptation benchmark for 2D lane detection, and a method based on prototypical self-supervised learning. Finally, we contribute a content-consistent unpaired image-to-image translation method that utilizes masks, global and local discriminators, and similarity sampling to mitigate content inconsistencies.
翻訳日:2023-12-04 17:03:03 公開日:2023-11-30
# Rhetorical Parallelism Detectionの導入:データセット,メトリック,ベースラインによる新しいタスク

Introducing Rhetorical Parallelism Detection: A New Task with Datasets, Metrics, and Baselines ( http://arxiv.org/abs/2312.00100v1 )

ライセンス: Link先を確認
Stephen Bothwell, Justin DeBenedetto, Theresa Crnkovich, Hildegund M\"uller, David Chiang(参考訳) レトリックは、話し言葉と書き言葉の両方で、内容だけでなくスタイルも含んでいる。 1つの一般的なスタイリスティックなツールは$\textit{parallelism}$:同じ言語的(\textit{e.g.}$, 音韻論的, 構文的, 意味論的)な特徴を持つ句の並置である。 並列処理の普遍性にもかかわらず、自然言語処理の分野は、人間が伝える構造、意味、意図の性質をよりよく理解する機会を欠いているため、ほとんど調査されていない。 これに対処するために、$\textit{rhetorical parallelism detection} というタスクを導入する。 我々は、その公式な定義を構築し、新しいラテンデータセットと適応した中国語データセットを提供し、その上でのパフォーマンスを評価するためのメトリクスのファミリーを確立し、最後に、ベースラインシステムと、それをキャプチャするための新しいシーケンスラベリングスキームを作成します。 最も厳格な基準では、ラテンと中国のデータセットでそれぞれ0.40$と0.43$のf_{1}$スコアを得る。

Rhetoric, both spoken and written, involves not only content but also style. One common stylistic tool is $\textit{parallelism}$: the juxtaposition of phrases which have the same sequence of linguistic ($\textit{e.g.}$, phonological, syntactic, semantic) features. Despite the ubiquity of parallelism, the field of natural language processing has seldom investigated it, missing a chance to better understand the nature of the structure, meaning, and intent that humans convey. To address this, we introduce the task of $\textit{rhetorical parallelism detection}$. We construct a formal definition of it; we provide one new Latin dataset and one adapted Chinese dataset for it; we establish a family of metrics to evaluate performance on it; and, lastly, we create baseline systems and novel sequence labeling schemes to capture it. On our strictest metric, we attain $F_{1}$ scores of $0.40$ and $0.43$ on our Latin and Chinese datasets, respectively.
翻訳日:2023-12-04 17:02:29 公開日:2023-11-30
# オンライン影響最大化:概念とアルゴリズム

Online Influence Maximization: Concept and Algorithm ( http://arxiv.org/abs/2312.00099v1 )

ライセンス: Link先を確認
Jianxiong Guo(参考訳) 本稿では,オンライン影響最大化(IM)問題について,理論的側面と実用性の両方を網羅して概観する。 記事の完全性とオンラインアルゴリズムは、オフラインのオラクルをサブルーチンとするため、まずオフラインIM問題を明確に定義し、従来の近似アルゴリズムやヒューリスティックアルゴリズム、MLベースのアルゴリズムを含む一般的なオフラインIMアルゴリズムを要約する。 次に、オンラインim問題に関する標準的な定義と、cmab(basic combinatorial multi-armed bandit)フレームワークcmab-tについて述べる。 本稿では,CMABモデルにおける3種類のフィードバックを要約し,CMAB-Tモデルに基づくオンラインIM問題の研究方法について詳細に考察する。 これはオンライン学習手法を用いてオンラインim問題を解決する方法だ。 さらに、オンラインimアルゴリズムのほとんどすべてをカバーし、様々なフィードバックタイプに対するオンラインアルゴリズムの特徴と理論的保証に焦点を当てている。 ここでは,その作業原理と後悔の限界の獲得方法について詳しく説明する。 さらに,問題定義やアルゴリズム設計に関するイノベーティブなアイデアや,オンラインim問題とその対応アルゴリズムの変種に対する先駆的な取り組みも数多く集めています。 最後に、現状の課題をカプセル化し、4つの異なる視点から研究の方向性を概説する。

In this survey, we offer an extensive overview of the Online Influence Maximization (IM) problem by covering both theoretical aspects and practical applications. For the integrity of the article and because the online algorithm takes an offline oracle as a subroutine, we first make a clear definition of the Offline IM problem and summarize those commonly used Offline IM algorithms, which include traditional approximation or heuristic algorithms and ML-based algorithms. Then, we give a standard definition of the Online IM problem and a basic Combinatorial Multi-Armed Bandit (CMAB) framework, CMAB-T. Here, we summarize three types of feedback in the CMAB model and discuss in detail how to study the Online IM problem based on the CMAB-T model. This paves the way for solving the Online IM problem by using online learning methods. Furthermore, we have covered almost all Online IM algorithms up to now, focusing on characteristics and theoretical guarantees of online algorithms for different feedback types. Here, we elaborately explain their working principle and how to obtain regret bounds. Besides, we also collect plenty of innovative ideas about problem definition and algorithm designs and pioneering works for variants of the Online IM problem and their corresponding algorithms. Finally, we encapsulate current challenges and outline prospective research directions from four distinct perspectives.
翻訳日:2023-12-04 17:02:10 公開日:2023-11-30
# 深層学習による映画シーンからの観光地識別

Identifying tourist destinations from movie scenes using Deep Learning ( http://arxiv.org/abs/2312.00098v1 )

ライセンス: Link先を確認
Mahendran Narayanan(参考訳) 映画は私たちの生活に大きな影響を与え、どの国の観光産業でも重要な役割を果たした。 風景画、滝、山々を背景として映画に取り入れることは、特定のシナリオの魅力を高めるのに役立つ。 本稿では,映画が観光に与える影響を認識し,映画に特徴付けられる観光地を識別する手法を提案する。 映画視聴中にこれらの位置を認識可能な深層学習モデルの開発を提案する。 モデルは、世界中の主要な観光地からなるデータセットでトレーニングされる。 この研究を通じて、視聴者は映画シーンで描かれた現実世界の場所を識別し、映画とグローバルな旅行体験を結びつける新しい方法を提供する。

Movies wield significant influence in our lives, playing a pivotal role in the tourism industry of any country. The inclusion of picturesque landscapes, waterfalls, and mountains as backdrops in films serves to enhance the allure of specific scenarios. Recognizing the impact of movies on tourism, this paper introduces a method for identifying tourist destinations featured in films. We propose the development of a deep learning model capable of recognizing these locations during movie viewing. The model is trained on a dataset comprising major tourism destinations worldwide. Through this research, the goal is to enable viewers to identify the real-world locations depicted in movie scenes, offering a novel way to connect cinema with global travel experiences.
翻訳日:2023-12-04 17:01:48 公開日:2023-11-30
# sparsedc: スパースおよび非一様入力からの深さ補完

SparseDC: Depth Completion from sparse and non-uniform inputs ( http://arxiv.org/abs/2312.00097v1 )

ライセンス: Link先を確認
Chen Long, Wenxiao Zhang, Zhe Chen, Haiping Wang, Yuan Liu, Zhen Cao, Zhen Dong, Bisheng Yang(参考訳) 我々はスパース深度入力と非一様深度入力の深度補完モデルであるスパースDCを提案する。 ベンチマークデータセット(例えば、500ポイントのNYU、64行のKITTIなど)の固定分布の完了に焦点を当てた従来の方法とは異なり、SparseDCは、実際の使用における品質の低いディープマップを特に扱うように設計されている。 SparseDCの重要なコントリビューションは2つだ。 まず,不安定な深度特徴を安定な画像特徴で明示的に満たし,スパース入力下でのロバスト性を改善するための,sffmと呼ばれるシンプルな戦略を考案する。 第2に,深度値の可能な領域の正確な局所形状と深度のない領域の正確な構造を予測できる2分岐機能埋め込み器を提案する。 埋め込み器の鍵は、CNNやViTによって抽出された局所的および長期的情報のバランスをとるために、UFFMと呼ばれる不確実性ベースの融合モジュールである。 室内および屋外の大規模な実験は、スパースおよび非一様入力深度に直面した際の我々の枠組みの堅牢性を示す。 事前訓練されたモデルとコードはhttps://github.com/WHU-USI3DV/SparseDCで入手できる。

We propose SparseDC, a model for Depth Completion of Sparse and non-uniform depth inputs. Unlike previous methods focusing on completing fixed distributions on benchmark datasets (e.g., NYU with 500 points, KITTI with 64 lines), SparseDC is specifically designed to handle depth maps with poor quality in real usage. The key contributions of SparseDC are two-fold. First, we design a simple strategy, called SFFM, to improve the robustness under sparse input by explicitly filling the unstable depth features with stable image features. Second, we propose a two-branch feature embedder to predict both the precise local geometry of regions with available depth values and accurate structures in regions with no depth. The key of the embedder is an uncertainty-based fusion module called UFFM to balance the local and long-term information extracted by CNNs and ViTs. Extensive indoor and outdoor experiments demonstrate the robustness of our framework when facing sparse and non-uniform input depths. The pre-trained model and code are available at https://github.com/WHU-USI3DV/SparseDC.
翻訳日:2023-12-04 17:01:39 公開日:2023-11-30
# OST:汎用ビデオ認識のための最適時空間記述子によるテキスト知識の精製

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition ( http://arxiv.org/abs/2312.00096v1 )

ライセンス: Link先を確認
Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun, Chen Chen(参考訳) 広汎なビデオデータで視覚言語モデルをトレーニングするリソース集約的な性質から、多くの研究は、事前訓練された画像言語モデルをビデオ領域に適応することに集中している。 支配的なパイプラインは、webスケールの記述的ナラティブと簡潔なアクションカテゴリ名の実質的な相違を見落としながら、時間学習者による視覚的な不一致に対処することを提案している。 本稿では,テキスト知識の洗練を優先し,映像認識の一般化を図る。 カテゴリー名の区別の少ない意味空間の制限に対処するため,大言語モデル(LLM)に,文の相違をブリッジし,一般認識のための知識基盤として機能する時空間記述子にアクションクラス名を拡張させるよう促す。 さらに,異なる映像インスタンスに対して最適なディスクリプタを割り当てるために,フレームレベルの表現とディスクリプタ間の最適なマッチングフローを解決するために,最適なディスクリプタソルバを提案する。 ゼロショット,少数ショット,完全教師付きビデオ認識における総合評価は,我々のアプローチの有効性を強調している。 我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。

Due to the resource-intensive nature of training vision-language models on expansive video data, a majority of studies have centered on adapting pre-trained image-language models to the video domain. Dominant pipelines propose to tackle the visual discrepancies with additional temporal learners while overlooking the substantial discrepancy for web-scaled descriptive narratives and concise action category names, leading to less distinct semantic space and potential performance limitations. In this work, we prioritize the refinement of text knowledge to facilitate generalizable video recognition. To address the limitations of the less distinct semantic space of category names, we prompt a large language model (LLM) to augment action class names into Spatio-Temporal Descriptors thus bridging the textual discrepancy and serving as a knowledge base for general recognition. Moreover, to assign the best descriptors with different video instances, we propose Optimal Descriptor Solver, forming the video recognition problem as solving the optimal matching flow across frame-level representations and descriptors. Comprehensive evaluations in zero-shot, few-shot, and fully supervised video recognition highlight the effectiveness of our approach. Our best model achieves a state-of-the-art zero-shot accuracy of 75.1% on Kinetics-600.
翻訳日:2023-12-04 17:01:17 公開日:2023-11-30
# 電力需要予測のためのテキスト知識に基づく数値特徴発見手法

Textual-Knowledge-Guided Numerical Feature Discovery Method for Power Demand Forecasting ( http://arxiv.org/abs/2312.00095v1 )

ライセンス: Link先を確認
Zifan Ning, Min Jin(参考訳) 電力需要予測は、新しい電力システムと統合エネルギーシステムにとって重要かつ困難な課題である。 しかし,公的な特徴データベースや電力需要変動の理論的メカニズムは利用できないため,電力需要変動の既知の特徴は非常に限られている。 近年,機械学習やAIGCにおいて,マルチモーダルな学習アプローチが極めて重要になっている。 本稿では,2つのモーダルデータと対話し,短期電力需要予測のためのテキスト知識誘導数値特徴探索法を提案する。 tknfdは質的テキスト知識を広く蓄積し、それを候補特徴型集合に拡張し、それらの特徴の数値データを収集し、最終的に4次元多変量ソース追跡データベース(4dm-std)を構築する。 次に、TKNFDは予測モデルに依存しない2段階の定量的特徴識別戦略を示し、43-48の特徴を見つけ、特徴の寄与と依存性の相関を体系的に分析する。 世界中の2つの地域におけるベンチマーク実験は、TKNFDが発見した特徴の予測精度が、SoTAの特徴スキームの16.84%から36.36%のMAPEよりも確実に優れていることを示した。 特に、tknfdは多くの未知の特徴、特に未知のエネルギーと天文学的な次元において支配的な特徴を示し、強ランダム性の起源と電力需要変動の非線形性に関する知識を拡張している。 さらに、4DM-STDはパブリックベースラインデータベースとして機能する。

Power demand forecasting is a crucial and challenging task for new power system and integrated energy system. However, as public feature databases and the theoretical mechanism of power demand changes are unavailable, the known features of power demand fluctuation are much limited. Recently, multimodal learning approaches have shown great vitality in machine learning and AIGC. In this paper, we interact two modal data and propose a textual-knowledge-guided numerical feature discovery (TKNFD) method for short-term power demand forecasting. TKNFD extensively accumulates qualitative textual knowledge, expands it into a candidate feature-type set, collects numerical data of these features, and eventually builds four-dimensional multivariate source-tracking databases (4DM-STDs). Next, TKNFD presents a two-level quantitative feature identification strategy independent of forecasting models, finds 43-48 features, and systematically analyses feature contribution and dependency correlation. Benchmark experiments in two different regions around the world demonstrate that the forecasting accuracy of TKNFD-discovered features reliably outperforms that of SoTA feature schemes by 16.84% to 36.36% MAPE. In particular, TKNFD reveals many unknown features, especially several dominant features in the unknown energy and astronomical dimensions, which extend the knowledge on the origin of strong randomness and non-linearity in power demand fluctuation. Besides, 4DM-STDs can serve as public baseline databases.
翻訳日:2023-12-04 17:00:51 公開日:2023-11-30
# 約5ステップでの拡散モデルの高速ODEサンプリング

Fast ODE-based Sampling for Diffusion Models in Around 5 Steps ( http://arxiv.org/abs/2312.00094v1 )

ライセンス: Link先を確認
Zhenyu Zhou, Defang Chen, Can Wang, Chun Chen(参考訳) 拡散モデルからのサンプリングは、可能な限り少数の関数評価(NFE)で正確な解を得る目的で、対応する常微分方程式(ODE)を解くものとして扱うことができる。 近年,高次ODEソルバを用いた高速サンプリング器が登場し,初期1次よりも優れた性能を実現している。 しかし、これらの数値法は本質的に特定の近似誤差をもたらし、非常に小さなNFE(例えば、約5)で試料の品質を著しく低下させる。 対照的に,各サンプリング軌道はほぼ周囲空間に埋め込まれた2次元部分空間にあるという幾何学的観測に基づいて,高速拡散サンプリングのための平均方向を直接学習することにより,乱れ誤差を解消する近似平均方向ソルバー(AMED-Solver)を提案する。 さらに,本手法は,既存のODEベースのサンプルを改良するためのプラグインとして容易に利用できる。 解像度32~256の画像合成実験により,提案手法の有効性を実証した。 5 NFEでCIFAR-10で7.14 FID、ImageNet 64$\times$64で13.75 FID、LSUN Bedroomで12.79 FIDを達成する。 私たちのコードはhttps://github.com/zhyzhouu/amed-solverで利用可能です。

Sampling from diffusion models can be treated as solving the corresponding ordinary differential equations (ODEs), with the aim of obtaining an accurate solution with as few number of function evaluations (NFE) as possible. Recently, various fast samplers utilizing higher-order ODE solvers have emerged and achieved better performance than the initial first-order one. However, these numerical methods inherently result in certain approximation errors, which significantly degrades sample quality with extremely small NFE (e.g., around 5). In contrast, based on the geometric observation that each sampling trajectory almost lies in a two-dimensional subspace embedded in the ambient space, we propose Approximate MEan-Direction Solver (AMED-Solver) that eliminates truncation errors by directly learning the mean direction for fast diffusion sampling. Besides, our method can be easily used as a plugin to further improve existing ODE-based samplers. Extensive experiments on image synthesis with the resolution ranging from 32 to 256 demonstrate the effectiveness of our method. With only 5 NFE, we achieve 7.14 FID on CIFAR-10, 13.75 FID on ImageNet 64$\times$64, and 12.79 FID on LSUN Bedroom. Our code is available at https://github.com/zhyzhouu/amed-solver.
翻訳日:2023-12-04 17:00:29 公開日:2023-11-30
# GraphDreamer: シーングラフからの合成3次元シーン合成

GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs ( http://arxiv.org/abs/2312.00093v1 )

ライセンス: Link先を確認
Gege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger, Bernhard Sch\"olkopf(参考訳) 事前学習されたテキストから画像への拡散モデルがますます強力になるにつれて、テキスト誘導3dモデルを最適化するために、これらのテキストから画像への事前学習モデルからの知識を蒸留する取り組みが近年行われている。 既存の手法のほとんどは、プレーンテキスト入力から全体的3dモデルを生成する。 ベクトル化されたテキスト埋め込みは、本質的に複数のエンティティと関係を持つ複雑な記述をキャプチャできないため、テキストが複数のオブジェクトで複雑なシーンを記述する場合、これは問題となる。 シーン全体の全体的3dモデリングは、テキストエンティティと概念の正確な接地をさらに防ぐ。 この制限に対処するために、我々はシーングラフから合成3Dシーンを生成する新しいフレームワークであるGraphDreamerを提案し、そこでオブジェクトはノードとして表現され、それらの相互作用はエッジとして表現される。 シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをより有効活用し,画像レベルの監督を伴わずに,異なるオブジェクトを完全に切り離すことができる。 オブジェクト関係のモデリングを容易にするために,署名付き距離場を表現として使用し,オブジェクトの相互接続を回避するために制約を課す。 手動のシーングラフ作成を避けるため,ChatGPTのためのテキストプロンプトを設計し,テキスト入力に基づいてシーングラフを生成する。 我々は,graphdreamer の高忠実度合成3dシーン作成における効果を検証するために,質的かつ定量的な実験を行った。

As pretrained text-to-image diffusion models become increasingly powerful, recent efforts have been made to distill knowledge from these text-to-image pretrained models for optimizing a text-guided 3D model. Most of the existing methods generate a holistic 3D model from a plain text input. This can be problematic when the text describes a complex scene with multiple objects, because the vectorized text embeddings are inherently unable to capture a complex description with multiple entities and relationships. Holistic 3D modeling of the entire scene further prevents accurate grounding of text entities and concepts. To address this limitation, we propose GraphDreamer, a novel framework to generate compositional 3D scenes from scene graphs, where objects are represented as nodes and their interactions as edges. By exploiting node and edge information in scene graphs, our method makes better use of the pretrained text-to-image diffusion model and is able to fully disentangle different objects without image-level supervision. To facilitate modeling of object-wise relationships, we use signed distance fields as representation and impose a constraint to avoid inter-penetration of objects. To avoid manual scene graph creation, we design a text prompt for ChatGPT to generate scene graphs based on text inputs. We conduct both qualitative and quantitative experiments to validate the effectiveness of GraphDreamer in generating high-fidelity compositional 3D scenes with disentangled object entities.
翻訳日:2023-12-04 17:00:03 公開日:2023-11-30
# 画像分類のためのgaussian-distributed prototypesとgenerative modellingの混合

Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable Image Classification ( http://arxiv.org/abs/2312.00092v1 )

ライセンス: Link先を確認
Chong Wang, Yuanhong Chen, Fengbei Liu, Davis James McCarthy, Helen Frazer, Gustavo Carneiro(参考訳) ProtoPNetのような原型部分解釈法は、分類予測とクラス固有の訓練プロトタイプを結びつけることによって解釈可能性を高め、意思決定に関する直感的な洞察を提供する。 現在の手法は、プロトタイプの特定の値を提供するポイントベース学習技術で訓練された識別的分類器に依存している。 これらの試作機は、その幅と潜在的な冗長性のため、表現力が比較的低く、各試作機は可変度を含まない。 本稿では,gaussian mixed model (gmm) で表現されるgaussian-distributed prototypes (mgproto) を混合した,プロトタイプ分布の新たな生成学習について述べる。 このようなアプローチにより、学習した各プロトタイプが可変性の尺度を持っているため、より強力なプロトタイプ表現の学習が可能となり、各プロトタイプ周辺の分布が広がると、自然にスパーシティを低減し、また、プロトタイプの多様性の目的関数をgmm最適化に統合して冗長性を低減することができる。 ちなみに、MGProtoの生成特性は、配布外サンプルを検出する新しい効果的な方法を提供する。 MGProtoのコンパクト性を改善するために,より低い先行性でガウス分布の試作機を提案する。 CUB-200-2011、Stanford Cars、Stanford Dogs、およびOxford-IIIT Petsデータセットに関する実験は、MGProtoが最新技術分類とOoD検出性能を達成し、解釈可能性の向上を図っていることを示している。

Prototypical-part interpretable methods, e.g., ProtoPNet, enhance interpretability by connecting classification predictions to class-specific training prototypes, thereby offering an intuitive insight into their decision-making. Current methods rely on a discriminative classifier trained with point-based learning techniques that provide specific values for prototypes. Such prototypes have relatively low representation power due to their sparsity and potential redundancy, with each prototype containing no variability measure. In this paper, we present a new generative learning of prototype distributions, named Mixture of Gaussian-distributed Prototypes (MGProto), which are represented by Gaussian mixture models (GMM). Such an approach enables the learning of more powerful prototype representations since each learned prototype will own a measure of variability, which naturally reduces the sparsity given the spread of the distribution around each prototype, and we also integrate a prototype diversity objective function into the GMM optimisation to reduce redundancy. Incidentally, the generative nature of MGProto offers a new and effective way for detecting out-of-distribution samples. To improve the compactness of MGProto, we further propose to prune Gaussian-distributed prototypes with a low prior. Experiments on CUB-200-2011, Stanford Cars, Stanford Dogs, and Oxford-IIIT Pets datasets show that MGProto achieves state-of-the-art classification and OoD detection performances with encouraging interpretability results.
翻訳日:2023-12-04 16:59:37 公開日:2023-11-30
# 粒状気象特性による昼頭発電のツリーベース予測

Tree-based Forecasting of Day-ahead Solar Power Generation from Granular Meteorological Features ( http://arxiv.org/abs/2312.00090v1 )

ライセンス: Link先を確認
Nick Berlanger, Noah van Ophoven, Tim Verdonck, Ines Wilms(参考訳) 日頭太陽光発電(PV)発電の正確な予測は、地域電力網のPV浸透率の向上と電力網の安定性の確保に不可欠である。 我々は、最先端の木ベースの機械学習手法を用いて、このような予測を生成する。 一 様々な気象及び天文学的特徴がPV発電に与える影響、及びこれ (ii)粗雑な空間的位置及び粒度の空間的位置。 この目的のために、ベルギーのデータを使用し、1時間の解像度で日頭PV発電を予測する。 本研究から得られた知見は、電力網運用の最適化、経済派遣、電力網への分散PV電力の統合促進などにおいて、ユーティリティ、意思決定者、その他の利害関係者を支援することができる。

Accurate forecasts for day-ahead photovoltaic (PV) power generation are crucial to support a high PV penetration rate in the local electricity grid and to assure stability in the grid. We use state-of-the-art tree-based machine learning methods to produce such forecasts and, unlike previous studies, we hereby account for (i) the effects various meteorological as well as astronomical features have on PV power production, and this (ii) at coarse as well as granular spatial locations. To this end, we use data from Belgium and forecast day-ahead PV power production at an hourly resolution. The insights from our study can assist utilities, decision-makers, and other stakeholders in optimizing grid operations, economic dispatch, and in facilitating the integration of distributed PV power into the electricity grid.
翻訳日:2023-12-04 16:59:08 公開日:2023-11-30
# 学習型シーケンス制御センシングによる異常検出

Anomaly Detection via Learning-Based Sequential Controlled Sensing ( http://arxiv.org/abs/2312.00088v1 )

ライセンス: Link先を確認
Geethu Joseph, Chen Zhong, M. Cenk Gursoy, Senem Velipasalar, and Pramod K. Varshney(参考訳) 本稿では,学習に基づく制御センシングにより,与えられたバイナリプロセスの異常を検出する問題に対処する。 各プロセスは、そのプロセスが異常かどうかを示すバイナリランダム変数によってパラメータ化される。 異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。 また、各プロセスの検査には関連するコストが伴う。 本研究の目的は,決定の遅れと総センサコストを最小化するために,各タイミングで観測すべきプロセスを動的に決定するシーケンシャルな選択ポリシーを設計することである。 我々はこの問題をマルコフ決定プロセスの枠組みにおける逐次仮説テスト問題とみなした。 この定式化は、ベイジアン対数類似度に基づく報酬とエントロピーに基づく報酬の両方を利用する。 問題は2つのアプローチで解決される。 1)ディープQ学習とポリシー勾配アクター批判アルゴリズムの両方を設計するディープ強化学習に基づくアプローチ 2) 深い活動的推論に基づくアプローチ。 数値実験を用いてアルゴリズムの有効性を実証し,アルゴリズムが未知の統計的依存性パターンに適応することを示す。

In this paper, we address the problem of detecting anomalies among a given set of binary processes via learning-based controlled sensing. Each process is parameterized by a binary random variable indicating whether the process is anomalous. To identify the anomalies, the decision-making agent is allowed to observe a subset of the processes at each time instant. Also, probing each process has an associated cost. Our objective is to design a sequential selection policy that dynamically determines which processes to observe at each time with the goal to minimize the delay in making the decision and the total sensing cost. We cast this problem as a sequential hypothesis testing problem within the framework of Markov decision processes. This formulation utilizes both a Bayesian log-likelihood ratio-based reward and an entropy-based reward. The problem is then solved using two approaches: 1) a deep reinforcement learning-based approach where we design both deep Q-learning and policy gradient actor-critic algorithms; and 2) a deep active inference-based approach. Using numerical experiments, we demonstrate the efficacy of our algorithms and show that our algorithms adapt to any unknown statistical dependence pattern of the processes.
翻訳日:2023-12-04 16:58:55 公開日:2023-11-30
# 学習分析における生成的人工知能:学習分析サイクルによる機会と課題のコンテキスト化

Generative Artificial Intelligence in Learning Analytics: Contextualising Opportunities and Challenges through the Learning Analytics Cycle ( http://arxiv.org/abs/2312.00087v1 )

ライセンス: Link先を確認
Lixiang Yan, Roberto Martinez-Maldonado, Dragan Ga\v{s}evi\'c(参考訳) ChatGPTやMidjourneyなどの最先端の大規模言語モデルや拡散モデルによって実証された生成人工知能(GenAI)は、教育を変革し、人間の生産性を高める大きな可能性を秘めている。 教育におけるGenAIの普及は、多くの研究イニシアチブを動機付けてきたが、これらの技術を学習分析(LA)サイクルに統合し、その実践的介入に対する影響は未解明のままである。 本稿では,GenAI が LA を前進させる可能性と課題について述べる。 我々は、現在のGenAIの展望を簡潔に概説し、ClowのLAサイクルの汎用フレームワークにおけるその潜在的な役割を文脈的に示す。 我々は、GenAIが非構造化データの解析、合成学習データの生成、マルチモーダル学習者相互作用の強化、対話的・説明的分析の進展、パーソナライゼーションと適応的介入の促進において重要な役割を果たすことを示唆する。 学習者とGenAIツールの間に線がぼやけているため、学習者に対する新たな理解が必要である。 将来の研究は、人間とAIのコラボレーションを提唱するフレームワークや方法論を深く掘り下げることができる。 laコミュニティは、人間とaiの貢献に関するデータを取得し、最も効果的なコラボレーション方法を探る上で、重要な役割を果たすことができる。 LAが進むにつれて、包括的未来を確実にするために、GenAIの教育的意味とより広範な社会経済的影響を考えることが不可欠である。

Generative artificial intelligence (GenAI), exemplified by ChatGPT, Midjourney, and other state-of-the-art large language models and diffusion models, holds significant potential for transforming education and enhancing human productivity. While the prevalence of GenAI in education has motivated numerous research initiatives, integrating these technologies within the learning analytics (LA) cycle and their implications for practical interventions remain underexplored. This paper delves into the prospective opportunities and challenges GenAI poses for advancing LA. We present a concise overview of the current GenAI landscape and contextualise its potential roles within Clow's generic framework of the LA cycle. We posit that GenAI can play pivotal roles in analysing unstructured data, generating synthetic learner data, enriching multimodal learner interactions, advancing interactive and explanatory analytics, and facilitating personalisation and adaptive interventions. As the lines blur between learners and GenAI tools, a renewed understanding of learners is needed. Future research can delve deep into frameworks and methodologies that advocate for human-AI collaboration. The LA community can play a pivotal role in capturing data about human and AI contributions and exploring how they can collaborate most effectively. As LA advances, it is essential to consider the pedagogical implications and broader socioeconomic impact of GenAI for ensuring an inclusive future.
翻訳日:2023-12-04 16:58:38 公開日:2023-11-30
# X-Dreamer:テキスト対2Dとテキスト対3Dの領域ギャップを埋めて高品質な3Dコンテンツを作成する

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation ( http://arxiv.org/abs/2312.00085v1 )

ライセンス: Link先を確認
Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji(参考訳) 近年,事前学習された2次元拡散モデルの開発により,テキストから3次元コンテンツの自動生成が大きな進歩を遂げている。 既存のテキスト・トゥ・3D法は、事前訓練された2D拡散モデルにより評価されるように、3D表現を最適化し、レンダリングされた画像が与えられたテキストと適切に一致することを保証する。 それでも、2D画像と3Dアセットの間にはかなりの領域ギャップがあり、主にカメラ関連属性のバリエーションと前景オブジェクトの排他的存在に起因する。 したがって、3次元表現を最適化するために直接2次元拡散モデルを用いることは、最適以下の結果をもたらす可能性がある。 本稿では,テキストから3dへの合成とテキストから3dへの合成のギャップを効果的に橋渡しする,高品質なテキストから3dへのコンテンツ作成のための新しいアプローチであるx-dreamerを提案する。 X-Dreamerの主なコンポーネントは、カメラ誘導低ランク適応(CG-LoRA)とアテンションマスクアライメント(AMA)ロスの2つの革新的な設計である。 CG-LoRAは、トレーニング可能なパラメータにカメラ依存生成を用いることで、事前訓練された拡散モデルにカメラ情報を動的に組み込む。 この統合により、生成された3Dアセットとカメラの視点とのアライメントが強化される。 ama損失は、3dオブジェクトのバイナリマスクを使用して事前訓練された拡散モデルの注意マップを誘導し、前景オブジェクトの作成を優先する。 このモジュールは、モデルが正確で詳細な前景オブジェクトの生成に集中することを保証する。 提案手法の有効性を,既存のテキスト・ツー・3D手法と比較して評価した。 プロジェクトWebページ: https://xmuxiaoma666.github.io/Projects/X-Dreamer。

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmuxiaoma666.github.io/Projects/X-Dreamer .
翻訳日:2023-12-04 16:58:12 公開日:2023-11-30
# 非マルコフ量子系のマルコフ埋め込み:非マルコフ量子系に対する結合確率および量子マスター方程式

Markovian Embeddings of Non-Markovian Quantum Systems: Coupled Stochastic and Quantum Master Equations for Non-Markovian Quantum Systems ( http://arxiv.org/abs/2312.00134v1 )

ライセンス: Link先を確認
H. I. Nurdin(参考訳) 量子マルコフモデルは、量子物理学や量子情報理論において、相対的な単純さと解析的トラクタビリティのためにユビキタスに使われている。 特に、これらのモデルは幅広い量子光学系とメソスコピック系の正確な近似を与えることが知られている。 しかし、一般に、マルコフ近似の妥当性は、任意の物理系では満足できない、あるいは正確でない、興味のあるシステムとその環境の性質に関する仮定を伴っている。 したがって、マルコフ近似が不適切あるいは不足している一般の非マルコフ量子系のための有用なモデリングツールの開発は重要な課題である。 この研究は、補助量子系と量子ホワイトノイズ場からなる1つ以上の化合物浴を持つより大きなマルコフ量子系に埋め込まれる非マルコフ主量子系を考察し、埋め込み非マルコフ量子系に対する確率的および量子マスター方程式の集合を導出する。 ホワイトノイズに結合しない閉系としての主系と補助系の間の純粋にハミルトン結合の場合も特別の場合に含まれる。 その結果、連続時間非マルコフ系の(オープンループとフィードバック)制御と、そのようなシステムの数値シミュレーションのための縮小モデルの研究が期待できる。 また、連続時間非マルコフ量子系の一般構造にさらに光を当てることもできる。

Quantum Markov models are employed ubiquitously in quantum physics and in quantum information theory due to their relative simplicity and analytical tractability. In particular, these models are known to give accurate approximations for a wide range of quantum optical and mesoscopic systems. However, in general, the validity of the Markov approximation entails assumptions regarding properties of the system of interest and its environment, which may not be satisfied or accurate in arbitrary physical systems. Therefore, developing useful modelling tools for general non-Markovian quantum systems for which the Markov approximation is inappropriate or deficient is an undertaking of significant importance. This work considers non-Markovian principal quantum systems that can be embedded in a larger Markovian quantum system with one or more compound baths consisting of an auxiliary quantum system and a quantum white noise field, and derives a set of coupled stochastic and quantum master equations for embedded non-Markovian quantum systems. The case of a purely Hamiltonian coupling between the principal and auxiliary systems as a closed system without coupling to white noises is included as a special case. The results are expected to be of interest for (open-loop and feedback) control of continuous-time non-Markovian systems and studying reduced models for numerical simulation of such systems. They may also shed more light on the general structure of continuous-time non-Markovian quantum systems.
翻訳日:2023-12-04 16:52:16 公開日:2023-11-30
# 監視クリフォード+T回路における動的マジック遷移

Dynamical Magic Transitions in Monitored Clifford+T Circuits ( http://arxiv.org/abs/2312.00132v1 )

ライセンス: Link先を確認
M. Bejan, C. McLauchlan and B. B\'eri(参考訳) 量子力学の古典的シミュレーションは一般に難しいと推測されている。 このように、最近発見された高エンタングリングと低エンタングメントダイナミクス間の測定誘起遷移は、古典的シミュラビリティにおける相転移である。 ここでは、エンタングルメントを超えたシミュラビリティ遷移について研究する:いくつかの高エンタングリングダイナミクス(例えば、可積分系やクリフォード回路)は古典的にシミュレートし易いので、計算の難しさを達成するために「魔法」が必要であることを指摘し、マジックのダイナミクスが測定とどのように競合するかを問う。 得られた「力学マジック遷移」は、Tゲートでドープされたランダム監視クリフォード回路(マジック注入)に焦点をあてる。 我々は,この遷移を駆動するメカニズムとして,動的「安定化剤精製」,すなわち安定化剤状態の重畳の崩壊を同定する。 魔法と絡み合いの遷移が一致する場合もあれば、高い(ボリュームローの)絡み合いのフェーズで魔法とシミュラビリティの遷移がある場合もあります。 実験結果の確立には,力学の量子的本質をマジック状態レジスタに蒸留し,相互に可換な計測を行うポーリ計算を用いる。 我々は、安定化器のパーフィケーションを「魔法の断片化」にリンクし、これらの測定を解離したO(1)重みブロックに分割し、これを元の回路における魔法の拡散と関連づける。

The classical simulation of highly-entangling quantum dynamics is conjectured to be generically hard. Thus, recently discovered measurement-induced transitions between highly entangling and low-entanglement dynamics are phase transitions in classical simulability. Here, we study simulability transitions beyond entanglement: noting that some highly-entangling dynamics (e.g., integrable systems or Clifford circuits) are easy to classically simulate, thus requiring "magic"--a subtle form of quantum resource--to achieve computational hardness, we ask how the dynamics of magic competes with measurements. We study the resulting "dynamical magic transitions" focusing on random monitored Clifford circuits doped by T gates (injecting magic). We identify dynamical "stabilizer-purification"--the collapse of a superposition of stabilizer states by measurements--as the mechanism driving this transition. We find cases where transitions in magic and entanglement coincide, but also others with a magic and simulability transition in a highly (volume-law) entangled phase. In establishing our results, we use Pauli-based computation, a scheme distilling the quantum essence of the dynamics to a magic state register subject to mutually commuting measurements. We link stabilizer-purification to "magic fragmentation" wherein these measurements separate into disjoint, O(1)-weight blocks, and relate this to the spread of magic in the original circuit becoming arrested.
翻訳日:2023-12-04 16:51:53 公開日:2023-11-30
# トカマク上のFPGA上に機械学習を配置した低レイテンシ光ベースモードトラッキング

Low latency optical-based mode tracking with machine learning deployed on FPGAs on a tokamak ( http://arxiv.org/abs/2312.00128v1 )

ライセンス: Link先を確認
Yumou Wei, Ryan F. Forelli, Chris Hansen, Jeffrey P. Levesque, Nhan Tran, Joshua C. Agar, Giuseppe Di Guglielmo, Michael E. Mauel, Gerald A. Navratil(参考訳) 磁気閉じ込め融合装置のアクティブフィードバック制御は、プラズマ不安定性を緩和し、ロバストな動作を可能にすることが望ましい。 光高速カメラは強力で非侵襲的な診断を提供し、これらの用途に適している。 本研究では,100kfpsを超える速度で高速カメラデータを$\textit{in situ}$ Field Programmable Gate Array (FPGA)ハードウェア上で処理し,磁気流体力学(MHD)モードの進化を追跡し,リアルタイムに制御信号を生成する。 本システムでは,n$=1 mhdモードの振幅と位相を予測する畳み込みニューラルネットワーク(cnn)モデルを採用している。 このモデルを高速カメラ診断の標準FPGA読み出しハードウェアに直接実装することにより、モードトラッキングシステムは17.6$\mu$sの総トリガ出力レイテンシと最大120kfpsのスループットを実現する。 The High Beta Tokamak-Extended Pulse (HBT-EP) experimentでは、FPGAベースの高速カメラデータ取得・処理システムを実証し、リアルタイム機械学習に基づくトカマクの診断・制御と、他の科学領域における潜在的な応用を可能にする。

Active feedback control in magnetic confinement fusion devices is desirable to mitigate plasma instabilities and enable robust operation. Optical high-speed cameras provide a powerful, non-invasive diagnostic and can be suitable for these applications. In this study, we process fast camera data, at rates exceeding 100kfps, on $\textit{in situ}$ Field Programmable Gate Array (FPGA) hardware to track magnetohydrodynamic (MHD) mode evolution and generate control signals in real-time. Our system utilizes a convolutional neural network (CNN) model which predicts the $n$=1 MHD mode amplitude and phase using camera images with better accuracy than other tested non-deep-learning-based methods. By implementing this model directly within the standard FPGA readout hardware of the high-speed camera diagnostic, our mode tracking system achieves a total trigger-to-output latency of 17.6$\mu$s and a throughput of up to 120kfps. This study at the High Beta Tokamak-Extended Pulse (HBT-EP) experiment demonstrates an FPGA-based high-speed camera data acquisition and processing system, enabling application in real-time machine-learning-based tokamak diagnostic and control as well as potential applications in other scientific domains.
翻訳日:2023-12-04 16:51:26 公開日:2023-11-30
# 無線干渉画像のためのデータ駆動前処理を用いたスケーラブルベイズ不確かさ定量化

Scalable Bayesian uncertainty quantification with data-driven priors for radio interferometric imaging ( http://arxiv.org/abs/2312.00125v1 )

ライセンス: Link先を確認
Tob\'ias I. Liaudat and Matthijs Mars and Matthew A. Price and Marcelo Pereyra and Marta M. Betcke and Jason D. McEwen(参考訳) Square Kilometer Arrayのような次世代の電波干渉計は、前例のない角の解像度と感度のおかげで、科学的発見を解き放つ可能性がある。 潜在的な可能性を解き放つ鍵の1つは、受信データの希薄さと複雑さを扱うことである。 この課題は、大量のデータサイズに対処し、不確実な定量化(UQ)を伴う高品質な画像再構成を提供する無線干渉画像法を構築する必要がある。 本研究では,高次元設定のためのデータ駆動(学習)先行画像を用いた無線干渉画像のUQに対処するQuantifAIを提案する。 ベイズ的枠組みに根ざした我々のモデルは、物理的動機付けされたモデルを用いる。 このモデルは、シミュレーションから暗黙的に学習された複雑な情報をエンコードし、後部の対数凹度を保証する。 我々は、MCMCサンプリング技術を避けるために、高次元対数凹後部の確率集中現象を利用して後部に関する情報を得る。 我々は、MCMCサンプリング戦略よりも高速でスケールの良いMAP推定法として、凸最適化法を頼りにしている。 提案手法により, 局所信頼区間, すなわちベイズ誤差バーを計算し, 再構成画像上の構造の仮説テストを行うことができる。 さらに,異なるスケールで画素単位の不確かさを計算する新しいブレイジング高速手法を提案する。 本手法は,無線干渉画像のシミュレーションによる再構成と,高速かつスケーラブルなuqを行い,mcmcサンプリングにより検証する。 本手法は,スパルシティープロモーティングによるベンチマーク法よりも画質が向上し,より有意義な不確実性を示す。 quantifaiのソースコード: https://github.com/astro-informatics/quantifai。

Next-generation radio interferometers like the Square Kilometer Array have the potential to unlock scientific discoveries thanks to their unprecedented angular resolution and sensitivity. One key to unlocking their potential resides in handling the deluge and complexity of incoming data. This challenge requires building radio interferometric imaging methods that can cope with the massive data sizes and provide high-quality image reconstructions with uncertainty quantification (UQ). This work proposes a method coined QuantifAI to address UQ in radio-interferometric imaging with data-driven (learned) priors for high-dimensional settings. Our model, rooted in the Bayesian framework, uses a physically motivated model for the likelihood. The model exploits a data-driven convex prior, which can encode complex information learned implicitly from simulations and guarantee the log-concavity of the posterior. We leverage probability concentration phenomena of high-dimensional log-concave posteriors that let us obtain information about the posterior, avoiding MCMC sampling techniques. We rely on convex optimisation methods to compute the MAP estimation, which is known to be faster and better scale with dimension than MCMC sampling strategies. Our method allows us to compute local credible intervals, i.e., Bayesian error bars, and perform hypothesis testing of structure on the reconstructed image. In addition, we propose a novel blazing-fast method to compute pixel-wise uncertainties at different scales. We demonstrate our method by reconstructing radio-interferometric images in a simulated setting and carrying out fast and scalable UQ, which we validate with MCMC sampling. Our method shows an improved image quality and more meaningful uncertainties than the benchmark method based on a sparsity-promoting prior. QuantifAI's source code: https://github.com/astro-informatics/QuantifAI.
翻訳日:2023-12-04 16:51:04 公開日:2023-11-30
# 運動学以外のフローマッチング:粒子IDと軌道変位情報を用いたジェットの生成

Flow Matching Beyond Kinematics: Generating Jets with Particle-ID and Trajectory Displacement Information ( http://arxiv.org/abs/2312.00123v1 )

ライセンス: Link先を確認
Joschka Birk, Erik Buhmann, Cedric Ewen, Gregor Kasieczka, David Shih(参考訳) jetclassデータセットでトレーニングされた最初の生成モデルを紹介します。 本モデルでは, 構成レベルでジェットを発生させ, 流れマッチング法でトレーニングした変分同変連続正規化流(CNF)である。 ジェット型を条件としているので、1つのモデルを使って10種類のジェットクラスを生成することができる。 また, ジェット構成要素の運動的特徴を超越した生成モデルも初めて導入した。 jetclassデータセットには、particle-idやtrack impactパラメータなど、さらに多くの機能が含まれています。 我々のJetClass生成モデルは、既存のジェット発生技術の汎用性を拡張し、高エネルギー物理学研究における可能性を高め、生成したジェットのより包括的な理解を提供する。

We introduce the first generative model trained on the JetClass dataset. Our model generates jets at the constituent level, and it is a permutation-equivariant continuous normalizing flow (CNF) trained with the flow matching technique. It is conditioned on the jet type, so that a single model can be used to generate the ten different jet types of JetClass. For the first time, we also introduce a generative model that goes beyond the kinematic features of jet constituents. The JetClass dataset includes more features, such as particle-ID and track impact parameter, and we demonstrate that our CNF can accurately model all of these additional features as well. Our generative model for JetClass expands on the versatility of existing jet generation techniques, enhancing their potential utility in high-energy physics research, and offering a more comprehensive understanding of the generated jets.
翻訳日:2023-12-04 16:50:36 公開日:2023-11-30
# S2ST:潜伏拡散の種空間における画像間変換

S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion ( http://arxiv.org/abs/2312.00116v1 )

ライセンス: Link先を確認
Or Greenberg, Eran Kishon, Dani Lischinski(参考訳) 画像から画像への変換(英: Image-to-image translation, I2IT)とは、画像内容の基本的な接続を維持しながら、画像がソースドメインからターゲットドメインに変換される過程である。 ここ数年、I2ITの顕著な進歩はGAN(Generative Adversarial Networks)によって達成された。 近年,拡散モデルが画像生成のエンジンとして確立されている。 本稿では,自動車シーンの日夜や鮮明な翻訳など,複雑なフォトリアリスティック画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。 s2stは潜伏拡散モデルのシード空間内で動作し、後者が学習した強力な画像プリエントを活用する。 s2stは,複雑な自動車シーンに対する拡散に基づくアプローチだけでなく,最先端のganベースのi2it手法を上回っており,様々なドメインにおける対象領域の外観を尊重しながら忠実性を改善している。 特に、S2STはドメイン固有の翻訳ネットワークのトレーニングの必要性を排除している。

Image-to-image translation (I2IT) refers to the process of transforming images from a source domain to a target domain while maintaining a fundamental connection in terms of image content. In the past few years, remarkable advancements in I2IT were achieved by Generative Adversarial Networks (GANs), which nevertheless struggle with translations requiring high precision. Recently, Diffusion Models have established themselves as the engine of choice for image generation. In this paper we introduce S2ST, a novel framework designed to accomplish global I2IT in complex photorealistic images, such as day-to-night or clear-to-rain translations of automotive scenes. S2ST operates within the seed space of a Latent Diffusion Model, thereby leveraging the powerful image priors learned by the latter. We show that S2ST surpasses state-of-the-art GAN-based I2IT methods, as well as diffusion-based approaches, for complex automotive scenes, improving fidelity while respecting the target domain's appearance across a variety of domains. Notably, S2ST obviates the necessity for training domain-specific translation networks.
翻訳日:2023-12-04 16:50:22 公開日:2023-11-30
# ビデオは1万語の価値がある: さまざまなキャプションによる、長いビデオ検索のための訓練とベンチマーク

A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval ( http://arxiv.org/abs/2312.00115v1 )

ライセンス: Link先を確認
Matthew Gwilliam and Michael Cogswell and Meng Ye and Karan Sikka and Abhinav Shrivastava and Ajay Divakaran(参考訳) 既存の長ビデオ検索システムは、一段落の長ビデオを記述した段落から段落までの検索システムで訓練・テストされる。 これは、動画の豊かさと多種多様さを無視するものであり、モーメントごとの細部や、一つのフレーズの要約、あるいはその間にあるあらゆる内容で説明できる。 長ビデオ検索システムの機能をより徹底的に評価するために,最先端の大規模言語モデルを活用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。 厳密な人間の検査を通して このパイプラインの忠実性を検証する 次に、いくつかのビデオデータセットを用いて、これらの合成キャプションに代表されるビデオ言語モデルをベンチマークし、変換されたデータ、特に最短キャプションに苦しむことを示す。 また,各キャプション間の情報レベルの違いに基づいて,コントラスト損失を用いて階層的な埋め込み損失を学習する,軽量な微調整手法を提案する。 提案手法は,下段落からビデオへの検索タスク(activitynet上では+1.1% r@1)と,合成データを用いて計算する様々な長大映像検索メトリクス(activitynet の短い記述では+3.6% r@1)の両方で性能を向上させる。 データアクセスやその他の詳細については、プロジェクトのwebサイトhttps://mgwillia.github.io/10k-wordsを参照してください。

Existing long video retrieval systems are trained and tested in the paragraph-to-video retrieval regime, where every long video is described by a single long paragraph. This neglects the richness and variety of possible valid descriptions of a video, which could be described in moment-by-moment detail, or in a single phrase summary, or anything in between. To provide a more thorough evaluation of the capabilities of long video retrieval systems, we propose a pipeline that leverages state-of-the-art large language models to carefully generate a diverse set of synthetic captions for long videos. We validate this pipeline's fidelity via rigorous human inspection. We then benchmark a representative set of video language models on these synthetic captions using a few long video datasets, showing that they struggle with the transformed data, especially the shortest captions. We also propose a lightweight fine-tuning method, where we use a contrastive loss to learn a hierarchical embedding loss based on the differing levels of information among the various captions. Our method improves performance both on the downstream paragraph-to-video retrieval task (+1.1% R@1 on ActivityNet), as well as for the various long video retrieval metrics we compute using our synthetic data (+3.6% R@1 for short descriptions on ActivityNet). For data access and other details, please refer to our project website at https://mgwillia.github.io/10k-words.
翻訳日:2023-12-04 16:50:02 公開日:2023-11-30
# Un-EvMoSeg: 教師なしイベントベースの独立運動セグメンテーション

Un-EvMoSeg: Unsupervised Event-based Independent Motion Segmentation ( http://arxiv.org/abs/2312.00114v1 )

ライセンス: Link先を確認
Ziyun Wang, Jinyuan Guo, Kostas Daniilidis(参考訳) イベントカメラは、その高時間分解能、高ダイナミックレンジ、低消費電力で知られる、生物にインスパイアされた新しいビジョンセンサーである。 これらの性質のため、高速反応を必要とする高速運動を処理するのに適している。 イベントカメラは、最近、教師なしの光フロー推定において競合性能を示したが、独立移動物体(imos)の検出性能は遅れているが、イベントベースの手法は、低レイテンシとhdr特性に基づいてこのタスクに適している。 イベントベースのimoセグメンテーションに対する以前のアプローチはラベル付きデータに大きく依存していた。 しかし、生物学的視覚システムは、明示的なラベルを与えることなく、日常的なタスクを通して物体を動かすことを避ける能力を開発した。 本稿では,幾何制約を用いたimo擬似ラベルを生成する最初のイベントフレームワークを提案する。 この手法は教師なしの性質のため、任意の数の未定オブジェクトを処理でき、高価なIMOラベルが手に入らないデータセットに容易に拡張できる。 EVIMOデータセットに対する我々のアプローチを評価し、定量的かつ定性的に教師付き手法と競合することを示す。

Event cameras are a novel type of biologically inspired vision sensor known for their high temporal resolution, high dynamic range, and low power consumption. Because of these properties, they are well-suited for processing fast motions that require rapid reactions. Although event cameras have recently shown competitive performance in unsupervised optical flow estimation, performance in detecting independently moving objects (IMOs) is lacking behind, although event-based methods would be suited for this task based on their low latency and HDR properties. Previous approaches to event-based IMO segmentation have been heavily dependent on labeled data. However, biological vision systems have developed the ability to avoid moving objects through daily tasks without being given explicit labels. In this work, we propose the first event framework that generates IMO pseudo-labels using geometric constraints. Due to its unsupervised nature, our method can handle an arbitrary number of not predetermined objects and is easily scalable to datasets where expensive IMO labels are not readily available. We evaluate our approach on the EVIMO dataset and show that it performs competitively with supervised methods, both quantitatively and qualitatively.
翻訳日:2023-12-04 16:49:32 公開日:2023-11-30
# 単一フレームからのイベントベース連続色映像圧縮

Event-based Continuous Color Video Decompression from Single Frames ( http://arxiv.org/abs/2312.00113v1 )

ライセンス: Link先を確認
Ziyun Wang, Friedhelm Hamann, Kenneth Chaney, Wen Jiang, Guillermo Gallego, Kostas Daniilidis(参考訳) 本研究では,イベントカメラを用いて,単一の静的RGB画像から連続映像を生成する新しい手法であるContinuityCamを提案する。 従来のカメラは、帯域幅とダイナミックレンジの制限のために高速モーションキャプチャに苦しむ。 イベントカメラは、圧縮された変化情報を高い時間分解能でエンコードするため、この問題を解決するのに理想的なセンサーである。 本研究では,時間的に連続した映像を再構成するイベントベース連続色フレームとイベントをペアリングする,イベントベース連続色ビデオ圧縮という新しいタスクを提案する。 本手法は,連続的長距離運動モデルと特徴平面に基づく合成ニューラル統合モデルを組み合わせて,イベント内の任意の時刻におけるフレーム予測を可能にする。 提案手法は,初期画像以外の追加フレームに依存しないため,突発的な光の変化に対するロバスト性の向上,予測遅延の最小化,帯域幅要件の低減が期待できる。 本稿では,一貫した画像やイベントを取得する単一目的ビームスプリッタと,様々な照明や動作プロファイルで手法をテストするイベント極端圧縮データセット(E2D2)を提案する。 提案手法は,様々なダウンストリームタスクと同様に,ベンチマーク・レコンストラクションによって徹底的に評価する。 提案手法は,提案課題における事象ベースラインと画像ベースラインを大幅に上回る。

We present ContinuityCam, a novel approach to generate a continuous video from a single static RGB image, using an event camera. Conventional cameras struggle with high-speed motion capture due to bandwidth and dynamic range limitations. Event cameras are ideal sensors to solve this problem because they encode compressed change information at high temporal resolution. In this work, we propose a novel task called event-based continuous color video decompression, pairing single static color frames and events to reconstruct temporally continuous videos. Our approach combines continuous long-range motion modeling with a feature-plane-based synthesis neural integration model, enabling frame prediction at arbitrary times within the events. Our method does not rely on additional frames except for the initial image, increasing, thus, the robustness to sudden light changes, minimizing the prediction latency, and decreasing the bandwidth requirement. We introduce a novel single objective beamsplitter setup that acquires aligned images and events and a novel and challenging Event Extreme Decompression Dataset (E2D2) that tests the method in various lighting and motion profiles. We thoroughly evaluate our method through benchmarking reconstruction as well as various downstream tasks. Our approach significantly outperforms the event- and image- based baselines in the proposed task.
翻訳日:2023-12-04 16:49:13 公開日:2023-11-30
# DynMF:3次元ガウススプレイティングを用いたリアルタイムダイナミックビュー合成のためのニューラルモーションファクタライゼーション

DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting ( http://arxiv.org/abs/2312.00112v1 )

ライセンス: Link先を確認
Agelos Kratimenos and Jiahui Lei and Kostas Daniilidis(参考訳) 動的シーンや動きを正確かつ効率的にモデリングすることは、時間的ダイナミクスと動作の複雑さのために課題であると考えられている。 これらの課題に対処するために、動的シーンを数個の神経軌道に分解するコンパクトで効率的な表現であるDynMFを提案する。 動的シーンの点当たりの運動は、明示的あるいは学習的な軌跡の小さなセットに分解することができると論じる。 念入りに設計された神経フレームワークは,クエリを時間内にのみ行うことで,120fpsを超える3dガウスのスプラッティングと同じようなレンダリング速度を実現すると同時に,静的なシーンと比較してストレージの2倍しか必要としない。 我々のニューラル表現は、動的シーンの本質的に制約されていない運動場を適切に制限し、効果的で高速な最適化につながる。 これは、各点を基底軌道の点ごとの共有を強制する運動係数に入札することで達成される。 動き係数に空間損失を慎重に適用することにより、シーンを構成する動きを分離し、独立して制御し、今まで見たことのない新しい動きの組み合わせを生成することができる。 5分以内で最先端のレンダリング品質に到達でき、30分以内で、より優れたフォトリアリスティックな画質でダイナミックなシーンの新たなビューを合成できる。 私たちの表現は解釈可能で、効率的で、複雑な動的シーンの動きを、単眼的および多視点のシナリオでリアルタイムに合成できるほど表現力がある。

Accurately and efficiently modeling dynamic scenes and motions is considered so challenging a task due to temporal dynamics and motion complexity. To address these challenges, we propose DynMF, a compact and efficient representation that decomposes a dynamic scene into a few neural trajectories. We argue that the per-point motions of a dynamic scene can be decomposed into a small set of explicit or learned trajectories. Our carefully designed neural framework consisting of a tiny set of learned basis queried only in time allows for rendering speed similar to 3D Gaussian Splatting, surpassing 120 FPS, while at the same time, requiring only double the storage compared to static scenes. Our neural representation adequately constrains the inherently underconstrained motion field of a dynamic scene leading to effective and fast optimization. This is done by biding each point to motion coefficients that enforce the per-point sharing of basis trajectories. By carefully applying a sparsity loss to the motion coefficients, we are able to disentangle the motions that comprise the scene, independently control them, and generate novel motion combinations that have never been seen before. We can reach state-of-the-art render quality within just 5 minutes of training and in less than half an hour, we can synthesize novel views of dynamic scenes with superior photorealistic quality. Our representation is interpretable, efficient, and expressive enough to offer real-time view synthesis of complex dynamic scene motions, in monocular and multi-view scenarios.
翻訳日:2023-12-04 16:48:51 公開日:2023-11-30
# 結晶材料のマルチモーダル学習

Multimodal Learning for Crystalline Materials ( http://arxiv.org/abs/2312.00111v1 )

ライセンス: Link先を確認
Viggo Moro, Charlotte Loh, Rumen Dangovski, Ali Ghorashi, Andrew Ma, Zhuo Chen, Peter Y. Lu, Thomas Christensen, Marin Solja\v{c}i\'c(参考訳) 人工知能(ai)は、特性の予測を改善し、新しい材料の発見を加速することで、材料科学の分野に革命をもたらした。 近年、さまざまな素材特性のデータを含む公開資料データリポジトリが急速に成長している。 本研究では,高次元の材料特性(すなわちモダリティ)を共有潜在空間に連結し,高有用な材料表現を生成するマルチモーダルアライメントによる結晶材料の基礎モデルを学習するための新しい手法である,結晶材料のためのマルチモーダル学習(mlcm)を提案する。 複数の軸上でのMLCMの有用性を示す。 (i)挑戦材料プロジェクトデータベース上での材料特性予測の最先端性能を達成すること。 二 MLCMにより、新規で高精度な逆設計が可能で、所望の特性を有する安定材料をスクリーニングすることができる。 三 MLCMは、材料科学者に洞察を与える可能性のある解釈可能な創発的特徴を抽出することができる。 さらに、任意の数のモダリティをアライメントする新しい手法を探求し、バイモーダルアライメントに焦点を当てたマルチモーダル学習における先行技術を改善する。 私たちの研究は、進行中のAI革命のイノベーションを材料科学の領域に持ち込み、素材を次世代AIのテストベッドとして特定します。

Artificial intelligence (AI) has revolutionized the field of materials science by improving the prediction of properties and accelerating the discovery of novel materials. In recent years, publicly available material data repositories containing data for various material properties have grown rapidly. In this work, we introduce Multimodal Learning for Crystalline Materials (MLCM), a new method for training a foundation model for crystalline materials via multimodal alignment, where high-dimensional material properties (i.e. modalities) are connected in a shared latent space to produce highly useful material representations. We show the utility of MLCM on multiple axes: (i) MLCM achieves state-of-the-art performance for material property prediction on the challenging Materials Project database; (ii) MLCM enables a novel, highly accurate method for inverse design, allowing one to screen for stable material with desired properties; and (iii) MLCM allows the extraction of interpretable emergent features that may provide insight to material scientists. Further, we explore several novel methods for aligning an arbitrary number of modalities, improving upon prior art in multimodal learning that focuses on bimodal alignment. Our work brings innovations from the ongoing AI revolution into the domain of materials science and identifies materials as a testbed for the next generation of AI.
翻訳日:2023-12-04 16:48:26 公開日:2023-11-30
# CLIP-QDA: 説明可能なコンセプトボトルネックモデル

CLIP-QDA: An Explainable Concept Bottleneck Model ( http://arxiv.org/abs/2312.00110v1 )

ライセンス: Link先を確認
R\'emi Kazmierczak and Elo\"ise Berthier and Goran Frehse and Gianni Franchi(参考訳) 本稿では,高速かつ説明可能な画像分類を行うマルチモーダル基礎モデルから設計した説明可能なアルゴリズムを提案する。 CLIPをベースとしたConcept Bottleneck Models (CBM) からインスピレーションを得て,本手法は各ニューロンが特定の単語にリンクする潜在空間を生成する。 この潜在空間を単純な分布でモデル化できることを観察し、この潜在空間の解釈可能性を高めるためにガウス形式(英語版)(mog)の混合を用いる。 次に,概念からラベルを推測するために統計値のみを使用する分類器CLIP-QDAを紹介する。 さらに、この形式主義は、局所的およびグローバル的説明の両方を可能にする。 これらの説明はアーキテクチャの内部設計に由来するものであり、我々の研究は、不透明な基礎モデルのパフォーマンスと透明なモデルの解釈可能性を組み合わせた、新しいグレーボックスモデルのファミリーの一部である。 実験の結果,MoG仮定が仮定された場合,CLIP-QDAは最先端のCBMと同様の精度を達成できることがわかった。 我々の説明は計算を高速化しながら既存のXAI手法と競合する。

In this paper, we introduce an explainable algorithm designed from a multi-modal foundation model, that performs fast and explainable image classification. Drawing inspiration from CLIP-based Concept Bottleneck Models (CBMs), our method creates a latent space where each neuron is linked to a specific word. Observing that this latent space can be modeled with simple distributions, we use a Mixture of Gaussians (MoG) formalism to enhance the interpretability of this latent space. Then, we introduce CLIP-QDA, a classifier that only uses statistical values to infer labels from the concepts. In addition, this formalism allows for both local and global explanations. These explanations come from the inner design of our architecture, our work is part of a new family of greybox models, combining performances of opaque foundation models and the interpretability of transparent models. Our empirical findings show that in instances where the MoG assumption holds, CLIP-QDA achieves similar accuracy with state-of-the-art methods CBMs. Our explanations compete with existing XAI methods while being faster to compute.
翻訳日:2023-12-04 16:48:06 公開日:2023-11-30
# Scaffold-GS:ビュー適応レンダリングのための構造化3Dガウス

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering ( http://arxiv.org/abs/2312.00109v1 )

ライセンス: Link先を確認
Tao Lu, Mulin Yu, Linning Xu, Yuanbo Xiangli, Limin Wang, Dahua Lin, Bo Dai(参考訳) ニューラルレンダリング法は、様々な学術的・産業的応用において、写真リアリスティックな3Dシーンレンダリングを著しく進歩させた。 最近の3次元ガウススメット法は,プリミティブ表現とボリューム表現の両方の利点を組み合わせた最先端のレンダリング品質と速度を実現している。 しかし、それはしばしば、基礎となるシーン幾何学を無視して、すべてのトレーニングビューに適合させようとする、非常に冗長なガウスに繋がる。 その結果, 景観変化, テクスチャのない面積, 照明効果に対するロバスト性が低下した。 我々は,局所的な3次元ガウス分布にアンカーポイントを用いるScaffold-GSを導入し,その特性を視野内の視方向と距離に基づいて予測する。 アンカー成長と刈り取り戦略は、シーンカバレッジを確実に改善するニューラルガウスの重要性に基づいて開発されている。 提案手法は,高品質なレンダリングを実現すると同時に冗長ガウスを効果的に削減することを示す。 また、レンダリング速度を犠牲にすることなく、様々なレベルのデテールとビュー依存の観察でシーンを収容する能力も強化した。

Neural rendering methods have significantly advanced photo-realistic 3D scene rendering in various academic and industrial applications. The recent 3D Gaussian Splatting method has achieved the state-of-the-art rendering quality and speed combining the benefits of both primitive-based representations and volumetric representations. However, it often leads to heavily redundant Gaussians that try to fit every training view, neglecting the underlying scene geometry. Consequently, the resulting model becomes less robust to significant view changes, texture-less area and lighting effects. We introduce Scaffold-GS, which uses anchor points to distribute local 3D Gaussians, and predicts their attributes on-the-fly based on viewing direction and distance within the view frustum. Anchor growing and pruning strategies are developed based on the importance of neural Gaussians to reliably improve the scene coverage. We show that our method effectively reduces redundant Gaussians while delivering high-quality rendering. We also demonstrates an enhanced capability to accommodate scenes with varying levels-of-detail and view-dependent observations, without sacrificing the rendering speed.
翻訳日:2023-12-04 16:47:46 公開日:2023-11-30
# 確率量子化と情報理論を用いたホワイトボックス攻撃に対する量子化ニューラルネットワークのロバスト性向上

Improving the Robustness of Quantized Deep Neural Networks to White-Box Attacks using Stochastic Quantization and Information-Theoretic Ensemble Training ( http://arxiv.org/abs/2312.00105v1 )

ライセンス: Link先を確認
Saurabh Farkya, Aswin Raghavan, Avi Ziskind(参考訳) ディープニューラルネットワーク(DNN)を使用する現実世界のほとんどのアプリケーションは、計算ニーズを減らすためにそれらを低精度で量子化する。 ホワイトボックス攻撃に対する量子化DNNのロバスト性を改善する手法を提案する。 まず, 微分可能確率量子化器(sq)を導入することで, 決定論的量子化の限界に挑戦する。 我々は、異なる量子化がそれぞれの量子化DNNよりも集合的に堅牢であるという仮説を探求する。 入力画像の異なる表現を学習するために、異なる量子化dnnを奨励するためにトレーニング目標を定式化する。 トレーニング対象は、アンサンブルメンバー間の相互情報を介して多様性と精度をキャプチャする。 実験により、攻撃者がSQ(例えば、CIFAR10上のPGD(5/255)を逆伝播することを許されたとしても、$L_\infty$攻撃に対するロバスト性は、バニラDNNや既存の量子化されたDNNのアンサンブルと比較して大幅に向上した。 敵情報平面(AIP)における攻撃を検知し、ロバスト性プロファイルを生成する手法を拡張し、MIと精度を相関させて異なる脅威モデルの統一分析を行う。

Most real-world applications that employ deep neural networks (DNNs) quantize them to low precision to reduce the compute needs. We present a method to improve the robustness of quantized DNNs to white-box adversarial attacks. We first tackle the limitation of deterministic quantization to fixed ``bins'' by introducing a differentiable Stochastic Quantizer (SQ). We explore the hypothesis that different quantizations may collectively be more robust than each quantized DNN. We formulate a training objective to encourage different quantized DNNs to learn different representations of the input image. The training objective captures diversity and accuracy via mutual information between ensemble members. Through experimentation, we demonstrate substantial improvement in robustness against $L_\infty$ attacks even if the attacker is allowed to backpropagate through SQ (e.g., > 50\% accuracy to PGD(5/255) on CIFAR10 without adversarial training), compared to vanilla DNNs as well as existing ensembles of quantized DNNs. We extend the method to detect attacks and generate robustness profiles in the adversarial information plane (AIP), towards a unified analysis of different threat models by correlating the MI and accuracy.
翻訳日:2023-12-04 16:47:25 公開日:2023-11-30
# DeepEn2023:エッジ人工知能のためのエネルギーデータセット

DeepEn2023: Energy Datasets for Edge Artificial Intelligence ( http://arxiv.org/abs/2312.00103v1 )

ライセンス: Link先を確認
Xiaolong Tu, Anik Mallik, Haoxin Wang, Jiang Xie(参考訳) 気候変動は人類にとって最も重要な課題の1つだ。 これらの気候変化の結果、気象、気候、水関連の災害の頻度は過去50年間で5倍に増加し、200万人以上の死者と損失は364兆米ドルを超えた。 持続可能な開発と気候変動対策のためのAI技術を活用することは、有望な道だ。 多数の重要な出版物がAIを使用して再生可能エネルギー予測を改善し、廃棄物管理を強化し、リアルタイムで環境変化を監視している。 しかし、AI自体を環境に持続させる研究はほとんどない。 この分野におけるAIの持続可能性に関するこの監視は、考え方のギャップと包括的なエネルギーデータセットの欠如に起因する可能性がある。 さらに、エッジAIシステムやアプリケーション、特にデバイス上での学習の普及に伴い、エネルギー効率などの環境サステナビリティを計測、分析、最適化する必要性が高まっている。 本稿では,エッジaiのための大規模エネルギーデータセットであるdeepen2023を提案し,幅広いカーネル,最先端のディープニューラルネットワークモデル,一般的なエッジaiアプリケーションについて述べる。 DeepEn2023は、デバイス上でのディープラーニングにおける持続可能性の透明性を、さまざまなエッジAIシステムやアプリケーションにわたって改善することを期待しています。 データセットとコードへのアクセスを含む詳細については、https://amai-gsu.github.io/DeepEn2023を参照してください。

Climate change poses one of the most significant challenges to humanity. As a result of these climatic changes, the frequency of weather, climate, and water-related disasters has multiplied fivefold over the past 50 years, resulting in over 2 million deaths and losses exceeding $3.64 trillion USD. Leveraging AI-powered technologies for sustainable development and combating climate change is a promising avenue. Numerous significant publications are dedicated to using AI to improve renewable energy forecasting, enhance waste management, and monitor environmental changes in real time. However, very few research studies focus on making AI itself environmentally sustainable. This oversight regarding the sustainability of AI within the field might be attributed to a mindset gap and the absence of comprehensive energy datasets. In addition, with the ubiquity of edge AI systems and applications, especially on-device learning, there is a pressing need to measure, analyze, and optimize their environmental sustainability, such as energy efficiency. To this end, in this paper, we propose large-scale energy datasets for edge AI, named DeepEn2023, covering a wide range of kernels, state-of-the-art deep neural network models, and popular edge AI applications. We anticipate that DeepEn2023 will improve transparency in sustainability in on-device deep learning across a range of edge AI systems and applications. For more information, including access to the dataset and code, please visit https://amai-gsu.github.io/DeepEn2023.
翻訳日:2023-12-04 16:47:00 公開日:2023-11-30
# 一階コヒーレント量子ゼノダイナミクスと密結合鎖におけるその出現

First-order coherent quantum Zeno dynamics and its appearance in tight-binding chains ( http://arxiv.org/abs/2312.00180v1 )

ライセンス: Link先を確認
Yuhan Mei(参考訳) コヒーレント量子ゼノダイナミクス(coherent quantum zeno dynamics, qzd)は、ヒルベルト空間全体の部分空間に量子集団遷移が制約される特別なユニタリ時間発展である。 この結果から,コヒーレントQZDは,ゼロ階数型のみを十分に検討した順序で分類できることが判明した。 本稿では、ほとんど知られていない1次コヒーレントQZD(FC-QZD)に焦点を当てる。 また, fc-qzd を極端に非局所的な個体群遷移として確立する密結合モデルによって記述された鎖状系も構築する。

The coherent quantum Zeno dynamics (QZD) is a special unitary time evolution in which a quantum population transition gets constrained in a subspace of the entire Hilbert space. We show that coherent QZD can be categorized by orders for the first time, where only the zeroth-order type has been well investigated. In this paper, we focus on the little-known first-order coherent QZD (FC-QZD). We also construct some chain-like systems described by the tight-binding model which establishes FC-QZD in the form of a surprisingly nonlocal end-to-end population transition.
翻訳日:2023-12-04 16:41:13 公開日:2023-11-30
# 量子コンピュータ上の電子構造シミュレーションのための部分空間法

Subspace methods for electronic structure simulations on quantum computers ( http://arxiv.org/abs/2312.00178v1 )

ライセンス: Link先を確認
Mario Motta and William Kirby and Ieva Liepuoniute and Kevin J. Sung and Jeffrey Cohn and Antonio Mezzacapo and Katherine Klymko and Nam Nguyen and Nobuyuki Yoshioka and Julia E. Rice(参考訳) 量子部分空間法(Quantum subspace method, QSMs)は、量子系の時間非依存シュロディンガー方程式をヒルベルト空間の部分空間に投影する量子計算アルゴリズムの一種である。 この投影はシュロディンガー方程式を量子デバイス上での計測によって決定される固有値問題に変換する。 固有値問題は古典コンピュータ上で解かれ、基底状態と励起状態のエネルギーと波動関数に近似する。 qsmsはハイブリッド量子古典的手法の例であり、古典的計算資源が支持する量子デバイスを用いて問題に取り組む。 QSMは量子コンピュータ上の電子波動関数をシミュレートする戦略として急速に普及しており、その設計、開発、応用は量子計算と電子構造の間のインターフェースにおける重要な研究分野である。 本稿では,分子の電子構造への応用を中心に,QSMの自己完結型導入について紹介する。 本稿では,QSMの理論的基礎と応用について述べるとともに,量子ハードウェアへの実装について論じ,ノイズが性能に与える影響を考察する。

Quantum subspace methods (QSMs) are a class of quantum computing algorithms where the time-independent Schrodinger equation for a quantum system is projected onto a subspace of the underlying Hilbert space. This projection transforms the Schrodinger equation into an eigenvalue problem determined by measurements carried out on a quantum device. The eigenvalue problem is then solved on a classical computer, yielding approximations to ground- and excited-state energies and wavefunctions. QSMs are examples of hybrid quantum-classical methods, where a quantum device supported by classical computational resources is employed to tackle a problem. QSMs are rapidly gaining traction as a strategy to simulate electronic wavefunctions on quantum computers, and thus their design, development, and application is a key research field at the interface between quantum computation and electronic structure. In this review, we provide a self-contained introduction to QSMs, with emphasis on their application to the electronic structure of molecules. We present the theoretical foundations and applications of QSMs, and we discuss their implementation on quantum hardware, illustrating the impact of noise on their performance.
翻訳日:2023-12-04 16:40:51 公開日:2023-11-30
# 低リソースデバイスにおけるエンドツーエンド非自己回帰画像合成システムの圧縮

Compression of end-to-end non-autoregressive image-to-speech system for low-resourced devices ( http://arxiv.org/abs/2312.00174v1 )

ライセンス: Link先を確認
Gokul Srinivasagan, Michael Deisher, Munir Georges(参考訳) 視覚障害のある人は、携帯電話やラップトップのようなタッチスクリーン対応のパーソナルコンピューティングデバイスにアクセスするのが難しい。 画像合成(ITS)システムは、この問題を軽減するのに役立ちますが、その巨大なモデルサイズによって、低リソースの組み込みデバイスへのデプロイが非常に困難になります。 本稿では,低リソースデバイス上で表示コンテンツの小さなセグメントから音声を生成するための,効率的なエンドツーエンドニューラルネットワークアーキテクチャを開発することで,この課題を克服することを目的とする。 視覚トランスフォーマーを用いた画像エンコーダを導入し,610万パラメータから246万パラメータまでのモデル圧縮に知識蒸留を用いた。 人的および自動評価の結果から,本手法は性能の低下を最小限に抑え,推論時間を22%高速化できることがわかった。

People with visual impairments have difficulty accessing touchscreen-enabled personal computing devices like mobile phones and laptops. The image-to-speech (ITS) systems can assist them in mitigating this problem, but their huge model size makes it extremely hard to be deployed on low-resourced embedded devices. In this paper, we aim to overcome this challenge by developing an efficient endto-end neural architecture for generating audio from tiny segments of display content on low-resource devices. We introduced a vision transformers-based image encoder and utilized knowledge distillation to compress the model from 6.1 million to 2.46 million parameters. Human and automatic evaluation results show that our approach leads to a very minimal drop in performance and can speed up the inference time by 22%.
翻訳日:2023-12-04 16:40:18 公開日:2023-11-30
# fool the hydra: 多視点物体検出システムに対する敵対的攻撃

Fool the Hydra: Adversarial Attacks against Multi-view Object Detection Systems ( http://arxiv.org/abs/2312.00173v1 )

ライセンス: Link先を確認
Bilel Tarchoun, Quazi Mishkatul Alam, Nael Abu-Ghazaleh, Ihsen Alouani(参考訳) 敵パッチは、現実のシナリオにおける機械学習(ML)モデルに対する敵攻撃によって引き起こされる脅威の具体的な顕在化を実証する。 これらの攻撃に対するロバスト性は、コンピュータビジョンアプリケーション、特にCCTVシステムのような安全クリティカルな領域の設計において最も重要である。 多くの場合、オープンスペースの監視には、オクルージョン処理などの取得課題を克服するために、マルチビューシステムが必要である。 マルチビューオブジェクトシステムは、複数のビューからのデータを組み合わせて、難しい環境でも信頼できる検出結果を得ることができる。 実世界のビジョンアプリケーションでの重要性にもかかわらず、マルチビューシステムの敵のパッチに対する脆弱性は十分に調査されていない。 本稿では, 敵パッチに対する副次的ロバスト性として, ビュー間での性能向上と情報共有が期待できるのか? 我々はまず,wildtrackベンチマークにおいて,全ユーザによる全ビューに対するパッチ適用を検討する極端な状況においても,既定の敵パッチに対する堅牢性を示す予備分析を行う。 しかし、我々は2つの新たな攻撃を提案してこの観察に挑戦した。 i) マルチビューCNNをターゲットにした第1次攻撃では, 異なる視点に勾配投影を提案し, 得られた局所勾配を集約することにより, グローバルな損失を最大化する。 (ii)第2の攻撃では,トランスフォーマーベースのマルチビューフレームワークに注目する。 焦点損失に加えて,注意ブロックを消散することで変圧器固有の損失を最大化する。 本研究は,攻撃成功率73%に到達した第1パッチ攻撃による被害者マルチビューシステムの検出性能の大幅な低下を示し,第2の攻撃提案では目標検出器の性能を62%削減した。

Adversarial patches exemplify the tangible manifestation of the threat posed by adversarial attacks on Machine Learning (ML) models in real-world scenarios. Robustness against these attacks is of the utmost importance when designing computer vision applications, especially for safety-critical domains such as CCTV systems. In most practical situations, monitoring open spaces requires multi-view systems to overcome acquisition challenges such as occlusion handling. Multiview object systems are able to combine data from multiple views, and reach reliable detection results even in difficult environments. Despite its importance in real-world vision applications, the vulnerability of multiview systems to adversarial patches is not sufficiently investigated. In this paper, we raise the following question: Does the increased performance and information sharing across views offer as a by-product robustness to adversarial patches? We first conduct a preliminary analysis showing promising robustness against off-the-shelf adversarial patches, even in an extreme setting where we consider patches applied to all views by all persons in Wildtrack benchmark. However, we challenged this observation by proposing two new attacks: (i) In the first attack, targeting a multiview CNN, we maximize the global loss by proposing gradient projection to the different views and aggregating the obtained local gradients. (ii) In the second attack, we focus on a Transformer-based multiview framework. In addition to the focal loss, we also maximize the transformer-specific loss by dissipating its attention blocks. Our results show a large degradation in the detection performance of victim multiview systems with our first patch attack reaching an attack success rate of 73% , while our second proposed attack reduced the performance of its target detector by 62%
翻訳日:2023-12-04 16:39:53 公開日:2023-11-30
# リアルタイムスケジューリング処理を考えるRely-Guaranteeの拡張

Extending Rely-Guarantee thinking to handle Real-Time Scheduling ( http://arxiv.org/abs/2312.00171v1 )

ライセンス: Link先を確認
Cliff B. Jones and Alan Burns(参考訳) 何らかのアーティファクトを開発するための基準ポイントは仕様であり、ソフトウェアを正式に開発するには正式な仕様が必要である。 シーケンシャルプログラムでは、事前条件と後条件(抽象オブジェクトを含む)が十分であり、コンカレンシーに取り組むための正式な開発アプローチの範囲を依存および保証する。 加えて、リアルタイムシステムは進歩を必要とし、その進歩を時間の概念に関連付ける方法が必要である。 本稿では,リアルタイムスケジューラの仕様や前提に対処すべく,信頼保証者のアイデアを拡張する。 さらに、これらのスケジューラのフォールトトレランスの側面を体系的に挑戦することで、アプローチがどのように特定し特定するかを示す。

The reference point for developing any artefact is its specification; to develop software formally, a formal specification is required. For sequential programs, pre and post conditions (together with abstract objects) suffice; rely and guarantee conditions extend the scope of formal development approaches to tackle concurrency. In addition, real-time systems need ways of both requiring progress and relating that progress to some notion of time. This paper extends rely-guarantee ideas to cope with specifications of -- and assumptions about -- real-time schedulers. Furthermore it shows how the approach helps identify and specify fault-tolerance aspects of such schedulers by systematically challenging the assumptions.
翻訳日:2023-12-04 16:39:07 公開日:2023-11-30
# 非一様オンライン学習:インダクションの理解に向けて

Non-uniform Online Learning: Towards Understanding Induction ( http://arxiv.org/abs/2312.00170v1 )

ライセンス: Link先を確認
Zhou Lu(参考訳) 物理学者は自然法則の無限の追求において有限の誤りしか作れないのか。 この千年紀前の帰納的推論の問題は哲学の基本的だが神秘的な問題であり、厳密な正当化を欠いている。 古典的なオンライン学習理論と帰納的推論は、同様の連続的な意思決定精神を共有しているが、前者の適応的な逆や最悪のケース境界への依存は、後者の適用性を制限する。 本稿では,非一様オンライン学習の概念を紹介し,帰納的推論の原理と密接な関係にあると論じる。 この設定は、所定の基底真実仮説を仮定し、一様でない仮説的な誤り境界を考える。 仮説クラスが一様でないことは、それがリトルストーンクラスの可算結合であることと、観測が適応的に選択されたり、iidがサンプリングされたりしても、それが可算である場合に限る。 さらに,タイトであると思われる一貫性の弱い基準に対して必要条件を提案する。 我々の理論をさらに推進するために、我々の結果はより現実的な非依存的な設定にまで拡張され、Littlestoneクラスの可算和は、後悔の$\tilde{O}(\sqrt{T})$で学習可能であることを示す。 この研究が、オンライン学習の視点から誘導の力を解釈する新しい視点をもたらすことを期待している。

Can a physicist make only finite errors in the endless pursuit of the law of nature? This millennium-old question of inductive inference is a fundamental, yet mysterious problem in philosophy, lacking rigorous justifications. While classic online learning theory and inductive inference share a similar sequential decision-making spirit, the former's reliance on an adaptive adversary and worst-case error bounds limits its applicability to the latter. In this work, we introduce the concept of non-uniform online learning, which we argue aligns more closely with the principles of inductive reasoning. This setting assumes a predetermined ground-truth hypothesis and considers non-uniform, hypothesis-wise error bounds. In the realizable setting, we provide a complete characterization of learnability with finite error: a hypothesis class is non-uniform learnable if and only if it's a countable union of Littlestone classes, no matter the observations are adaptively chosen or iid sampled. Additionally, we propose a necessary condition for the weaker criterion of consistency which we conjecture to be tight. To further promote our theory, we extend our result to the more realistic agnostic setting, showing that any countable union of Littlestone classes can be learnt with regret $\tilde{O}(\sqrt{T})$. We hope this work could offer a new perspective of interpreting the power of induction from an online learning viewpoint.
翻訳日:2023-12-04 16:38:38 公開日:2023-11-30
# ニュースナラティブをナビゲートする:メディアバイアス分析データセット

Navigating News Narratives: A Media Bias Analysis Dataset ( http://arxiv.org/abs/2312.00168v1 )

ライセンス: Link先を確認
Shaina Raza(参考訳) 様々なメディアプラットフォームにわたる偏りのあるニュース記事の拡散は、政治、健康、気候変動といった重要な話題に対する世論に影響を与える重要な課題となっている。 本稿では,メディアバイアスを検知・解析するツールの緊急的ニーズに対処する包括的データセットである“Navigating News Narratives: A Media Bias Analysis Dataset”を紹介する。 このデータセットは幅広いバイアスを包含しており、メディア研究や人工知能の分野でユニークで価値のある資産となっている。 データセットはhttps://figshare.com/articles/dataset/news-media-bias_data_json/24422122で利用可能である。

The proliferation of biased news narratives across various media platforms has become a prominent challenge, influencing public opinion on critical topics like politics, health, and climate change. This paper introduces the "Navigating News Narratives: A Media Bias Analysis Dataset", a comprehensive dataset to address the urgent need for tools to detect and analyze media bias. This dataset encompasses a broad spectrum of biases, making it a unique and valuable asset in the field of media studies and artificial intelligence. The dataset is available at https://figshare.com/articles/dataset/news-media-bias_data_json/24422122
翻訳日:2023-12-04 16:38:04 公開日:2023-11-30
# パルス交絡ビームの2光子吸収断面積

Two-photon absorption cross sections of pulsed entangled beams ( http://arxiv.org/abs/2312.00167v1 )

ライセンス: Link先を確認
Frank Schlawin(参考訳) 絡み合った2光子吸収(etpa)は、十分に低い光子フラックスでは、etpaが光子フラックスと線形にスケールするため、非常に低い光子フラックスで非線形量子分光の基礎を形成することができる。 異なるペアが時間的に重なり合うようになると、偶然の一致は、大きな光子束で信号を支配する「古典的」二次スケーリングを引き起こし、従って量子的な優位性が失われると思われる古典的状態を取り戻すと考えられている。 ここでは、この仮定を精査し、量子化吸収断面積が非常に大きな光子数でも持続可能であることを示す。 この目的のために、エンタングル対と高光子流束限界の間を連続的に補間し、解析的にetpa断面積と強度クロスオーバーレジームを導出できる最小の量子光モデルを用いる。 スペクトル自由度と空間自由度との相互作用,試料の線幅拡大が実験的に達成可能な拡張に与える影響について検討した。

Entangled two-photon absorption (ETPA) could form the basis of nonlinear quantum spectroscopy at very low photon fluxes, since, at sufficiently low photon fluxes, ETPA scales linearly with the photon flux. When different pairs start to overlap temporally, accidental coincidences are thought to give rise to a 'classical' quadratic scaling which dominates the signal at large photon fluxes and thus recovers a supposedly classical regime, where any quantum advantage is thought to be lost. Here we scrutinize this assumption and demonstrate that quantum-enhanced absorption cross sections can persist even to very large photon numbers. To this end, we use a minimal model for quantum light, which can interpolate continuously between the entangled pair and a high-photon-flux limit, to derive analytically ETPA cross sections and the intensity crossover regime. We investigate the interplay between spectral and spatial degrees of freedom, how linewidth broadening of the sample impacts the experimentally achievable enhancement.
翻訳日:2023-12-04 16:37:36 公開日:2023-11-30
# 大規模言語モデルを用いた高精度差分診断に向けて

Towards Accurate Differential Diagnosis with Large Language Models ( http://arxiv.org/abs/2312.00164v1 )

ライセンス: Link先を確認
Daniel McDuff and Mike Schaekermann and Tao Tu and Anil Palepu and Amy Wang and Jake Garrison and Karan Singhal and Yash Sharma and Shekoofeh Azizi and Kavita Kulkarni and Le Hou and Yong Cheng and Yun Liu and S Sara Mahdavi and Sushant Prakash and Anupam Pathak and Christopher Semturs and Shwetak Patel and Dale R Webster and Ewa Dominowska and Juraj Gottweis and Joelle Barral and Katherine Chou and Greg S Corrado and Yossi Matias and Jake Sunshine and Alan Karthikesalingam and Vivek Natarajan(参考訳) 正確な鑑別診断(英: accurate differential diagnosis, ddx)は、臨床史、身体検査、調査、および手順を組み合わせた反復的な解釈プロセスを通じてしばしば達成される医療の基盤である。 大規模言語モデル(llm)を活用した対話型インターフェースは、このプロセスの側面を支援し自動化する新たな機会を提供する。 本研究では,診断的推論に最適化されたLCMを導入し,DDxを単独で生成する能力,あるいは臨床医の援助として評価する。 20人の臨床医が、new england journal of medicine (nejm)のケースレポートから引用された、挑戦的で現実世界の医療事例302例を評価した。 それぞれの症例報告は、2人の臨床医によって読み上げられ、彼らは検索エンジンと標準的な医療資源からの援助、またはこれらのツールに加えてllmの支援の2つの補助条件のうちの1つにランダム化された。 全ての臨床医は、それぞれの補助具を使用する前にDDxを無力化した。 DDx 用 LLM では,無治療医 (トップ10, 59.1% 対 33.6%, [p = 0.04] ) 以上の単独成績を示した。 研究用アーム2本と比較すると, LLM(トップ10の精度51.7%)を補助しない臨床医(McNemar's Test: 45.7, p < 0.01)と検索した臨床医(44.4%, 4.75, p = 0.03)と比較すると, DDxの品質スコアが高かった。 さらに, LLMを補助する臨床医は, その支援を受けていない臨床医よりも, より包括的な差分リストに到達した。 LLM for DDxは,患者が専門的専門知識を習得し,医師に力を与える能力により,臨床医の診断的推論と精度の向上が期待できる可能性が示唆された。

An accurate differential diagnosis (DDx) is a cornerstone of medical care, often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by Large Language Models (LLMs) present new opportunities to both assist and automate aspects of this process. In this study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its ability to generate a DDx alone or as an aid to clinicians. 20 clinicians evaluated 302 challenging, real-world medical cases sourced from the New England Journal of Medicine (NEJM) case reports. Each case report was read by two clinicians, who were randomized to one of two assistive conditions: either assistance from search engines and standard medical resources, or LLM assistance in addition to these tools. All clinicians provided a baseline, unassisted DDx prior to using the respective assistive tools. Our LLM for DDx exhibited standalone performance that exceeded that of unassisted clinicians (top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study arms, the DDx quality score was higher for clinicians assisted by our LLM (top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%) (McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p = 0.03). Further, clinicians assisted by our LLM arrived at more comprehensive differential lists than those without its assistance. Our study suggests that our LLM for DDx has potential to improve clinicians' diagnostic reasoning and accuracy in challenging cases, meriting further real-world evaluation for its ability to empower physicians and widen patients' access to specialist-level expertise.
翻訳日:2023-12-04 16:37:16 公開日:2023-11-30
# SU(3)の表現におけるクォート符号

Qutrit codes within representations of SU(3) ( http://arxiv.org/abs/2312.00162v1 )

ライセンス: Link先を確認
Xzavier Herbert, Jonathan Gross, Michael Newman(参考訳) 本稿では,su(3)の既約表現に埋め込まれた量子誤り検出および誤り訂正符号について述べる。 これらの論理クトリットは表現によって引き起こされるhe(3)対称性を継承し、一方で小さなsu(3)変位から保護する。 有限部分群から受け継いだ対称性とともに群の構造誘導表現から符号を見つけるための一般的な方法論を考察し、SU(2)のスピン表現のケースを拡張した。

We describe a quantum error-detecting and error-correcting code embedded within irreducible representations of SU(3). These logical qutrits inherit the He(3) symmetries induced by the representation, while protecting against small SU(3) displacements. We explore the general methodology for finding codes from structure-inducing representations of groups, together with symmetries inherited from finite subgroups, extending the case of spin representations of SU(2).
翻訳日:2023-12-04 16:36:39 公開日:2023-11-30
# 周期的xyzチェーンのためのbaxterのbethe ansatzへの歩行者の道

A Pedestrian's Way to Baxter's Bethe Ansatz for the Periodic XYZ Chain ( http://arxiv.org/abs/2312.00161v1 )

ライセンス: Link先を確認
Xin Zhang, Andreas Kl\"umper and Vladislav Popkov(参考訳) 周期的XYZ鎖を研究するために, キラル座標Betheアンザッツ法を開発した。 固定数のキンクを持つキラルベクトルの集合を構築する。 すべてのベクトルは因子化され、単純な構造を持つ。 ユニタリ条件の根の下で、ヒルベルト空間は不変部分空間を持ち、我々のベクトルはこの部分空間の基底を形成する。 本稿では,ハミルトニアンのカイラルベクトルに対する作用のみに基づくBetheアンザッツを提案する。 これにより、膨張係数をパラメータ化し、解が正確なエネルギーと固有状態を与える均質なベーテ・アンザッツ方程式を導出することができる。 解析結果は,baxterによる初期のアプローチと一致し,数値計算によって支持されている。

A chiral coordinate Bethe ansatz method is developed to study the periodic XYZ chain. We construct a set of chiral vectors with fixed number of kinks. All vectors are factorized and have simple structures. Under roots of unity conditions, the Hilbert space has an invariant subspace and our vectors form a basis of this subspace. We propose a Bethe ansatz solely based on the action of the Hamiltonian on the chiral vectors, avoiding the use of transfer matrix techniques. This allows to parameterize the expansion coefficients and derive the homogeneous Bethe ansatz equations whose solutions give the exact energies and eigenstates. Our analytic results agree with earlier approaches, notably by Baxter, and are supported by numerical calculations.
翻訳日:2023-12-04 16:36:31 公開日:2023-11-30
# ユニバーサルバックドア攻撃

Universal Backdoor Attacks ( http://arxiv.org/abs/2312.00157v1 )

ライセンス: Link先を確認
Benjamin Schneider, Nils Lukas, Florian Kerschbaum(参考訳) Webスクレイプデータセットは、トレーニング中にディープイメージ分類器のバックドアとして使用できるデータ中毒に弱い。 大きなデータセットでのトレーニングは高価であるため、モデルは一度トレーニングされ、何度も再使用される。 敵の例とは異なり、バックドア攻撃はモデルによって学習されるどのクラスよりも特定のクラスをターゲットにすることが多い。 ナイーブな攻撃構成によって多くのクラスをターゲットにすると、毒物サンプルの数が大幅に増加すると期待できるかもしれない。 あらゆるソースクラスからターゲットクラスへの誤分類を、少量の毒素サンプルの増加で制御できるユニバーサルデータ中毒攻撃が存在する。 私たちのアイデアは、モデルが学習できる特性を持つトリガーを生成することです。 これは、あるクラスからトリガーを学習することで、モデルを他のクラスの学習トリガに対してより脆弱にするものです。 我々は、トレーニングデータセットのわずか0.1%を毒殺しながら、6,000クラスまでのモデルを制御することで、普遍的なバックドア攻撃の有効性と堅牢性を示す。

Web-scraped datasets are vulnerable to data poisoning, which can be used for backdooring deep image classifiers during training. Since training on large datasets is expensive, a model is trained once and re-used many times. Unlike adversarial examples, backdoor attacks often target specific classes rather than any class learned by the model. One might expect that targeting many classes through a naive composition of attacks vastly increases the number of poison samples. We show this is not necessarily true and more efficient, universal data poisoning attacks exist that allow controlling misclassifications from any source class into any target class with a small increase in poison samples. Our idea is to generate triggers with salient characteristics that the model can learn. The triggers we craft exploit a phenomenon we call inter-class poison transferability, where learning a trigger from one class makes the model more vulnerable to learning triggers for other classes. We demonstrate the effectiveness and robustness of our universal backdoor attacks by controlling models with up to 6,000 classes while poisoning only 0.15% of the training dataset.
翻訳日:2023-12-04 16:36:19 公開日:2023-11-30
# どちらが 'right' ですか? 視覚言語ナビゲーションモデルの限界を明らかにする

Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model ( http://arxiv.org/abs/2312.00151v1 )

ライセンス: Link先を確認
Meera Hahn, Amit Raj, James M. Rehg(参考訳) VLN(Vision-and-Language Navigation)の課題は、目標の位置や対象(例えば「廊下を歩き、ピアノを左に曲がる」など)に到達するための自然言語命令に従うことである。 エージェントがこのタスクを成功させるためには、命令(例えば、piano')に参照されたオブジェクトを視覚シーンに、また、基底方向のフレーズ(例えば、turn left')をアクションにグラウンドすることができる必要があります。 この仕事において、私たちは以下の質問をします -- ナビゲーションモデルの意思決定に、空間的および方向的言語的手がかりはどの程度あるのか? そこで本研究では,モデルの異なる部分への依存度を調べるための簡易マスキング実験を提案する。 驚いたことに、一部のトップパフォーマンスモデルは命令の名詞トークンのみに依存している。 制限に関する2つのトレーニング手法を提案する。

The challenging task of Vision-and-Language Navigation (VLN) requires embodied agents to follow natural language instructions to reach a goal location or object (e.g. `walk down the hallway and turn left at the piano'). For agents to complete this task successfully, they must be able to ground objects referenced into the instruction (e.g.`piano') into the visual scene as well as ground directional phrases (e.g.`turn left') into actions. In this work we ask the following question -- to what degree are spatial and directional language cues informing the navigation model's decisions? We propose a series of simple masking experiments to inspect the model's reliance on different parts of the instruction. Surprisingly we uncover that certain top performing models rely only on the noun tokens of the instructions. We propose two training methods to alleviate this concerning limitation.
翻訳日:2023-12-04 16:36:02 公開日:2023-11-30
# トラックとUAVを用いた確率的ポストディザスタインベントリ割当問題

The Stochastic Dynamic Post-Disaster Inventory Allocation Problem with Trucks and UAVs ( http://arxiv.org/abs/2312.00140v1 )

ライセンス: Link先を確認
Robert van Steenbergen, Wouter van Heeswijk, Martijn Mes(参考訳) 人道的物流事業は被災地への援助要求の高まりにより困難に直面している。 本報告では,複数の被災地域における空き地供給の動的配分について検討する。 トラックや無人航空機が不確実な供給と需要の下で救援物資を配達するという、新しい確率的動的在庫配分問題を導入する。 この人道的物流問題の関連性は、配達の時間的社会的影響を考慮することの重要性にある。 我々は、不足した物資を割り当てる際の減収コストを組み込むことでこれを達成する。 さらに,災害地域固有の不確実性や,貨物用uavの運用効率向上の可能性についても考察した。 本研究では, 線形値関数近似とニューラルネットワーク値関数近似という, 近似動的プログラミングに基づく2つの予測解法を提案し, 動的割当過程における不確かさを効果的に管理する。 DL-VFA と NN-VFA を、様々な最先端手法(特に再最適化、PPO)と比較した結果、最高のベンチマークに比べて6-8%改善した。 NN-VFAは最高の性能を提供し、問題の非線形性を捉えるが、DL-VFAは小さな性能損失に対して優れたスケーラビリティを示す。 実験の結果, 削減コストの考慮により, 被害地域と時間とともに, 不足供給の配分が向上することが明らかとなった。 その結果,特に災害後の第1段階では,uavの展開が救援物資の配分に重要な役割を果たしていることがわかった。 UAVの使用は輸送費と減産費用を16-20%削減し、最大減産時間を19-40%削減すると同時に、同様のレベルの需要カバレッジを維持し、効率的かつ効果的な運用を見せる。

Humanitarian logistics operations face increasing difficulties due to rising demands for aid in disaster areas. This paper investigates the dynamic allocation of scarce relief supplies across multiple affected districts over time. It introduces a novel stochastic dynamic post-disaster inventory allocation problem with trucks and unmanned aerial vehicles delivering relief goods under uncertain supply and demand. The relevance of this humanitarian logistics problem lies in the importance of considering the inter-temporal social impact of deliveries. We achieve this by incorporating deprivation costs when allocating scarce supplies. Furthermore, we consider the inherent uncertainties of disaster areas and the potential use of cargo UAVs to enhance operational efficiency. This study proposes two anticipatory solution methods based on approximate dynamic programming, specifically decomposed linear value function approximation and neural network value function approximation to effectively manage uncertainties in the dynamic allocation process. We compare DL-VFA and NN-VFA with various state-of-the-art methods (exact re-optimization, PPO) and results show a 6-8% improvement compared to the best benchmarks. NN-VFA provides the best performance and captures nonlinearities in the problem, whereas DL-VFA shows excellent scalability against a minor performance loss. The experiments reveal that consideration of deprivation costs results in improved allocation of scarce supplies both across affected districts and over time. Finally, results show that deploying UAVs can play a crucial role in the allocation of relief goods, especially in the first stages after a disaster. The use of UAVs reduces transportation- and deprivation costs together by 16-20% and reduces maximum deprivation times by 19-40%, while maintaining similar levels of demand coverage, showcasing efficient and effective operations.
翻訳日:2023-12-04 16:35:48 公開日:2023-11-30
# 動的モード分解アルゴリズムのマルチバース

The Multiverse of Dynamic Mode Decomposition Algorithms ( http://arxiv.org/abs/2312.00137v1 )

ライセンス: Link先を確認
Matthew J. Colbrook(参考訳) ダイナミックモード分解(Dynamic Mode Decomposition, DMD)は、複雑な非線形システムを一連のモードに分解するために使われる一般的なデータ駆動分析手法である。 本稿では, 複素非線形力学を線形フレームワークに変換する上でのクープマン作用素の役割を強調し, DMDの包括的かつ系統的検討を行う。 このレビューの特筆すべき特徴は、DMDとクープマン作用素のスペクトル特性の関係、特にスペクトル計算におけるDMDアルゴリズムの理論と実践に焦点を当てた点である。 線形回帰法, ガレルキン近似, 構造保存技法の3つの分野に分類し, DMD法を多種多種多種多種多種多型に分類する。 それぞれのカテゴリは、そのユニークな貢献と挑戦のために研究され、テーブル1で概説されている重要なアルゴリズムとその応用に関する詳細な概要を提供する。 これらの手法の実践的理解を高めるために,MATLABパッケージの例と応用例を含める。 このレビューは、専門家と新参者の両方がアクセスできる様々なdmd手法に関する実践的ガイドと理論的参照の両方として機能し、読者がdmdの広範囲な分野に関心を持つ領域を掘り下げることができる。

Dynamic Mode Decomposition (DMD) is a popular data-driven analysis technique used to decompose complex, nonlinear systems into a set of modes, revealing underlying patterns and dynamics through spectral analysis. This review presents a comprehensive and pedagogical examination of DMD, emphasizing the role of Koopman operators in transforming complex nonlinear dynamics into a linear framework. A distinctive feature of this review is its focus on the relationship between DMD and the spectral properties of Koopman operators, with particular emphasis on the theory and practice of DMD algorithms for spectral computations. We explore the diverse "multiverse" of DMD methods, categorized into three main areas: linear regression-based methods, Galerkin approximations, and structure-preserving techniques. Each category is studied for its unique contributions and challenges, providing a detailed overview of significant algorithms and their applications as outlined in Table 1. We include a MATLAB package with examples and applications to enhance the practical understanding of these methods. This review serves as both a practical guide and a theoretical reference for various DMD methods, accessible to both experts and newcomers, and enabling readers to delve into their areas of interest in the expansive field of DMD.
翻訳日:2023-12-04 16:35:19 公開日:2023-11-30
# ステップサイズチューニングとプログレッシブシャープニングの相互作用について

On the Interplay Between Stepsize Tuning and Progressive Sharpening ( http://arxiv.org/abs/2312.00209v1 )

ライセンス: Link先を確認
Vincent Roulet, Atish Agarwala, Fabian Pedregosa(参考訳) 近年の実証研究は、最適化器が安定の端で作動する臨界値の周りに安定化するまで、シャープネス(ヘッセンの最大の固有値)が最適化を通して増加する深層学習モデルの興味深い性質を明らかにしている(Coehn et al, 2022)。 本研究は, ステップサイズチューナーを用いて, ステップサイズ・チューナーを用いて, ステップサイズを局所的な量(例えば, 暗黙的に, シャープネス自体)に適応させる手法を実証的に検討する。 古典的Armijo行探索の驚くほど貧弱な性能は、完全あるいは大規模バッチシステムにおける目的のシャープさを継続的に増加させる傾向によってよく説明できる。 一方,polyakのステップ化は一般に安定性の辺で,あるいは少し先でも作用するのに対し,armijoよりも優れ,また一定のステップ化が可能であることが観察された。 ステップサイズチューナーのアンロックには,ステップサイズとシャープネスのジョイントダイナミクスの理解が必要であることを示唆する分析で結論付けた。

Recent empirical work has revealed an intriguing property of deep learning models by which the sharpness (largest eigenvalue of the Hessian) increases throughout optimization until it stabilizes around a critical value at which the optimizer operates at the edge of stability, given a fixed stepsize (Coehn et al, 2022). We investigate empirically how the sharpness evolves when using stepsize-tuners, the Armijo linesearch and Polyak stepsizes, that adapt the stepsize along the iterations to local quantities such as, implicitly, the sharpness itself. We find that the surprisingly poor performance of a classical Armijo linesearch may be well explained by its tendency to ever-increase the sharpness of the objective in the full or large batch regimes. On the other hand, we observe that Polyak stepsizes operate generally at the edge of stability or even slightly beyond, while outperforming its Armijo and constant stepsizes counterparts. We conclude with an analysis that suggests unlocking stepsize tuners requires an understanding of the joint dynamics of the step size and the sharpness.
翻訳日:2023-12-04 16:28:51 公開日:2023-11-30
# EpiTESTER: エピジェネティックアルゴリズムと注意機構による自動運転車のテスト

EpiTESTER: Testing Autonomous Vehicles with Epigenetic Algorithm and Attention Mechanism ( http://arxiv.org/abs/2312.00207v1 )

ライセンス: Link先を確認
Chengjie Lu, Shaukat Ali, and Tao Yue(参考訳) 安全でない状況に車両を誘導する様々な環境シナリオ下で自動運転車(AV)をテストすることは困難であることが知られている。 無限の環境シナリオを考えると、重要なシナリオを効率的に見つけることが不可欠である。 この目的のために, 種が突然の環境変化に適応できるように, エピジェネティックスからインスピレーションを得て, EpiTESTER という新しい試験方法を提案する。 特にエピテスタは、特定の遺伝子の発現を阻害するために遺伝子発現を調節するエピジェネティックメカニズムとして遺伝子サイレンシングを採用し、環境が変化するにつれて遺伝子発現の確率を動的に計算する。 avの文脈で異なるデータモダリティ(画像、ライダー点雲など)が与えられると、エピテスタはマルチモデル核融合トランスフォーマから環境因子から高レベルな特徴表現を抽出し、それらの特徴に基づく確率を注意メカニズムで計算する。 EpiTESTERの費用対効果を評価するため、古典的遺伝的アルゴリズム(GA)とEpiTESTERを各遺伝子に等しい確率で比較した。 本研究では,自動運転研究のためのオープンソースシミュレータであるCARLAと,エンドツーエンドのAVコントローラであるInterfuserの4つの初期環境を用いて,EpiTESTERを評価した。 以上の結果から,EpiTESTERは決定的シナリオの同定において,ベースラインと比較して有望な性能を達成し,エピジェネティックなメカニズムを適用することが現実的な問題を解決するための良い選択肢であることが示唆された。

Testing autonomous vehicles (AVs) under various environmental scenarios that lead the vehicles to unsafe situations is known to be challenging. Given the infinite possible environmental scenarios, it is essential to find critical scenarios efficiently. To this end, we propose a novel testing method, named EpiTESTER, by taking inspiration from epigenetics, which enables species to adapt to sudden environmental changes. In particular, EpiTESTER adopts gene silencing as its epigenetic mechanism, which regulates gene expression to prevent the expression of a certain gene, and the probability of gene expression is dynamically computed as the environment changes. Given different data modalities (e.g., images, lidar point clouds) in the context of AV, EpiTESTER benefits from a multi-model fusion transformer to extract high-level feature representations from environmental factors and then calculates probabilities based on these features with the attention mechanism. To assess the cost-effectiveness of EpiTESTER, we compare it with a classical genetic algorithm (GA) (i.e., without any epigenetic mechanism implemented) and EpiTESTER with equal probability for each gene. We evaluate EpiTESTER with four initial environments from CARLA, an open-source simulator for autonomous driving research, and an end-to-end AV controller, Interfuser. Our results show that EpiTESTER achieved a promising performance in identifying critical scenarios compared to the baselines, showing that applying epigenetic mechanisms is a good option for solving practical problems.
翻訳日:2023-12-04 16:28:31 公開日:2023-11-30
# SparseGS:Gaussian Splattingを用いたリアルタイム360{\deg}スパースビュー合成

SparseGS: Real-Time 360{\deg} Sparse View Synthesis using Gaussian Splatting ( http://arxiv.org/abs/2312.00206v1 )

ライセンス: Link先を確認
Haolin Xiong and Sairisheek Muttukuru and Rishi Upadhyay and Pradyumna Chari and Achuta Kadambi(参考訳) ニューラル・レージアンス・フィールド(NeRF)と他の暗黙的なシーン表現手法の導入により,新しいビュー合成の問題は近年,著しく人気が高まっている。 最近の進歩である3D Gaussian Splatting (3DGS)は、明示的な表現を活用し、高品質な結果でリアルタイムレンダリングを実現する。 しかし、3DGSは、コヒーレントなシーン表現を生成するために、多くのトレーニングビューを必要とする。 NeRFと同様のショット設定では、3DGSはトレーニングビューに過度に適合する傾向にあり、特にトレーニングビューの数が減少するにつれて、背景崩壊と過剰なフローターを引き起こす。 スパーストレーニングビューから360シーンのコヒーレント3DGSに基づく放射界のトレーニングを可能にする手法を提案する。 また,背景崩壊を低減し,浮動小数点を除去し,目に見えない視点から一貫性を高めるために,生成的および明示的な制約と深さ小数点を統合できることを見いだした。 実験の結果,提案手法はベース3DGSを最大30.5%,NeRFベースの手法を最大15.6%,MipNeRF-360データセット上でのLPIPSを最大15.6%上回った。

The problem of novel view synthesis has grown significantly in popularity recently with the introduction of Neural Radiance Fields (NeRFs) and other implicit scene representation methods. A recent advance, 3D Gaussian Splatting (3DGS), leverages an explicit representation to achieve real-time rendering with high-quality results. However, 3DGS still requires an abundance of training views to generate a coherent scene representation. In few shot settings, similar to NeRF, 3DGS tends to overfit to training views, causing background collapse and excessive floaters, especially as the number of training views are reduced. We propose a method to enable training coherent 3DGS-based radiance fields of 360 scenes from sparse training views. We find that using naive depth priors is not sufficient and integrate depth priors with generative and explicit constraints to reduce background collapse, remove floaters, and enhance consistency from unseen viewpoints. Experiments show that our method outperforms base 3DGS by up to 30.5% and NeRF-based methods by up to 15.6% in LPIPS on the MipNeRF-360 dataset with substantially less training and inference cost.
翻訳日:2023-12-04 16:28:02 公開日:2023-11-30
# DNS SLAM:Dense Neural Semantic-Informed SLAM

DNS SLAM: Dense Neural Semantic-Informed SLAM ( http://arxiv.org/abs/2312.00204v1 )

ライセンス: Link先を確認
Kunyi Li, Michael Niemeyer, Nassir Navab, Federico Tombari(参考訳) 近年、座標に基づくニューラル暗黙表現は、同時局在マッピング(SLAM)の課題に対して有望な結果を示している。 小さな合成シーンで印象的なパフォーマンスを実現する一方で、これらの手法は、特に複雑な実世界のシーンにおいて、過剰な再構築に苦しむことが多い。 本稿では,ハイブリッド表現を特徴とする新しいRGB-DセマンティックSLAMアプローチであるDNS SLAMを紹介する。 2dセマンティクスプリエントのみに依拠して,クラス毎のシーン表現をトレーニングし,同時に安定したカメラトラッキングを提供する,最初のセマンティックニューラルスラム法を提案する。 画像に基づく特徴抽出とマルチビュー幾何制約を統合して外観の詳細を改善し,色,密度,意味クラス情報を出力し,多くの下流アプリケーションを実現する。 さらに,リアルタイム追跡を実現するために,潜在空間で自己教師ありで訓練された軽量な粗いシーン表現を導入する。 実験により,市販ハードウェアの動作速度を維持しつつ,合成データと実世界のデータ追跡の両面での最先端性能を実現した。 さらに,テクスチャキャプチャの外観と幾何学的詳細を改良したクラス分割再構成を出力する。

In recent years, coordinate-based neural implicit representations have shown promising results for the task of Simultaneous Localization and Mapping (SLAM). While achieving impressive performance on small synthetic scenes, these methods often suffer from oversmoothed reconstructions, especially for complex real-world scenes. In this work, we introduce DNS SLAM, a novel neural RGB-D semantic SLAM approach featuring a hybrid representation. Relying only on 2D semantic priors, we propose the first semantic neural SLAM method that trains class-wise scene representations while providing stable camera tracking at the same time. Our method integrates multi-view geometry constraints with image-based feature extraction to improve appearance details and to output color, density, and semantic class information, enabling many downstream applications. To further enable real-time tracking, we introduce a lightweight coarse scene representation which is trained in a self-supervised manner in latent space. Our experimental results achieve state-of-the-art performance on both synthetic data and real-world data tracking while maintaining a commendable operational speed on off-the-shelf hardware. Further, our method outputs class-wise decomposed reconstructions with better texture capturing appearance and geometric details.
翻訳日:2023-12-04 16:27:36 公開日:2023-11-30
# 自動講義スタイル評価システムの開発と評価のための統合フレームワーク

An integrated framework for developing and evaluating an automated lecture style assessment system ( http://arxiv.org/abs/2312.00201v1 )

ライセンス: Link先を確認
Eleni Dimitriadou and Andreas Lanitis(参考訳) 本研究の目的は,教師が学習スタイルの良さに関するフィードバックを瞬時に得られるように,自動講義スタイル評価を提供する統合システムを開発し,評価することである。 提案システムは,学生の学習体験を改善できる講義品質の向上を目的としている。 提案アプリケーションは, 講演者の視点から見た映像から抽出した, 表情, 身体活動, 発話速度とイントネーション, 手の動き, 顔のポーズなどの, 特定の計測可能な生体特性を利用する。 講義中に抽出された測定可能な生体情報を組み合わせて、講義全体の品質指標を提供することにより、講義スタイル品質をフレームレートで反映するスコアを提供する。 提案する講義スタイルの評価システムの受容は, 教育責任者, 教員, 学生によって, 機能, 応用の有用性, 改善の可能性について評価された。 その結果,参加者は授業品質に関するフィードバックを自動提供するために,新規で有用なアプリケーションを見出した。 さらに,提案システムの性能評価を,講義スタイルの評価作業における人間のパフォーマンスと比較した。 以上の結果から,提案システムは人間の観察者と同様の性能を発揮するだけでなく,その性能に優れる場合もある。

The aim of the work presented in this paper is to develop and evaluate an integrated system that provides automated lecture style evaluation, allowing teachers to get instant feedback related to the goodness of their lecturing style. The proposed system aims to promote improvement of lecture quality, that could upgrade the overall student learning experience. The proposed application utilizes specific measurable biometric characteristics, such as facial expressions, body activity, speech rate and intonation, hand movement, and facial pose, extracted from a video showing the lecturer from the audience point of view. Measurable biometric features extracted during a lecture are combined to provide teachers with a score reflecting lecture style quality both at frame rate and by providing lecture quality metrics for the whole lecture. The acceptance of the proposed lecture style evaluation system was evaluated by chief education officers, teachers and students regarding the functionality, usefulness of the application, and possible improvements. The results indicate that participants found the application novel and useful in providing automated feedback regarding lecture quality. Furthermore, the performance evaluation of the proposed system was compared with the performance of humans in the task of lecture style evaluation. Results indicate that the proposed system not only achieves similar performance to human observers, but in some cases, it outperforms them.
翻訳日:2023-12-04 16:27:16 公開日:2023-11-30
# p>1における多角形qaoaの性能解析

Performance Analysis of Multi-Angle QAOA for p > 1 ( http://arxiv.org/abs/2312.00200v1 )

ライセンス: Link先を確認
Igor Gaidai, Rebekah Herrman(参考訳) 本稿では,QAOA層数に関するマルチアングルQAOAのスケーラビリティについて考察する。 ma-qaoaは、考慮されたデータセットに対して最大4倍の精度で、qaoa回路の深さを大幅に削減できることがわかった。 しかし、MA-QAOAは総QPU時間の最小化には最適ではない。 最適化初期化戦略はQAOAとMA-QAOAの両方で検討・比較される。 このうち,MA-QAOAは従来研究で用いたランダム初期化よりも連続的に,著しく優れる新しい初期化戦略を提案する。

In this paper we consider the scalability of Multi-Angle QAOA with respect to the number of QAOA layers. We found that MA-QAOA is able to significantly reduce the depth of QAOA circuits, by a factor of up to 4 for the considered data sets. However, MA-QAOA is not optimal for minimization of the total QPU time. Different optimization initialization strategies are considered and compared for both QAOA and MA-QAOA. Among them, a new initialization strategy is suggested for MA-QAOA that is able to consistently and significantly outperform random initialization used in the previous studies.
翻訳日:2023-12-04 16:26:53 公開日:2023-11-30
# 強化学習のための最適攻撃と防御

Optimal Attack and Defense for Reinforcement Learning ( http://arxiv.org/abs/2312.00198v1 )

ライセンス: Link先を確認
Jeremy McMahan, Young Wu, Xiaojin Zhu, Qiaomin Xie(参考訳) 実システムにおける強化学習(Reinforcement Learning, RL)の有用性を確保するためには, 騒音や敵攻撃に対して堅牢であることを保証することが重要である。 敵対的rlでは、外部の攻撃者は、被害者のエージェントの環境との相互作用を操作する能力を持つ。 我々は、オンライン操作攻撃の全クラスについて研究する。 (i)国家攻撃。 (ii)観察攻撃(知覚状態攻撃の一般化) (iii)アクションアタック、及び (iv)報酬攻撃。 我々は,攻撃者の期待する報酬を最大化できるステルスシー攻撃を設計する際の問題点を,攻撃された相互作用によって引き起こされる真の環境ではなく,より高いレベルの環境をメタMDPと呼ぶマルコフ決定プロセス(MDP)によって捉えた。 多項式時間で計画したり,標準rl技術を用いて多項式サンプルの複雑さを学習することで,攻撃者が最適な攻撃を導出できることを示す。 我々は,被害者に対する最適な防衛方針を,部分的に観測可能なターンベース確率ゲーム(POTBSG)にさらに単純化できる確率的スタックルバーグゲーム(英語版)の解として計算できると主張している。 攻撃者も被害者も、それぞれの最適なポリシーから逸脱する恩恵を受けないため、そのような解決策は真に堅牢である。 防御問題はNPハードであるが,多くのシナリオにおいて,最適マルコフ防衛を多項式時間(サンプル複雑性)で計算(学習)できることを示す。

To ensure the usefulness of Reinforcement Learning (RL) in real systems, it is crucial to ensure they are robust to noise and adversarial attacks. In adversarial RL, an external attacker has the power to manipulate the victim agent's interaction with the environment. We study the full class of online manipulation attacks, which include (i) state attacks, (ii) observation attacks (which are a generalization of perceived-state attacks), (iii) action attacks, and (iv) reward attacks. We show the attacker's problem of designing a stealthy attack that maximizes its own expected reward, which often corresponds to minimizing the victim's value, is captured by a Markov Decision Process (MDP) that we call a meta-MDP since it is not the true environment but a higher level environment induced by the attacked interaction. We show that the attacker can derive optimal attacks by planning in polynomial time or learning with polynomial sample complexity using standard RL techniques. We argue that the optimal defense policy for the victim can be computed as the solution to a stochastic Stackelberg game, which can be further simplified into a partially-observable turn-based stochastic game (POTBSG). Neither the attacker nor the victim would benefit from deviating from their respective optimal policies, thus such solutions are truly robust. Although the defense problem is NP-hard, we show that optimal Markovian defenses can be computed (learned) in polynomial time (sample complexity) in many scenarios.
翻訳日:2023-12-04 16:26:44 公開日:2023-11-30
# CLIPによるAI生成画像検出のバーのライジング

Raising the Bar of AI-generated Image Detection with CLIP ( http://arxiv.org/abs/2312.00195v1 )

ライセンス: Link先を確認
Davide Cozzolino and Giovanni Poggi and Riccardo Corvi and Matthias Nie{\ss}ner and Luisa Verdoliva(参考訳) この研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。 我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。 以前の考えとは異なり、トレーニングに巨大なドメイン固有データセットを使う必要はなく、便利でもないことが分かりました。 それとは対照的に、CLIPベースの検出器は単一の生成モデルからの少数のサンプル画像のみを使用することで、Dalle-3、Midjourney v5、Fireflyといった最近の商用ツールを含む、いくつかの異なるアーキテクチャにわたる驚くべき一般化能力と高い堅牢性を示す。 我々は,SoTAを分布内データと一致させ,分散外データ(AUC)への一般化(+6%)と障害/洗浄データ(+13%)に対する堅牢性(+13%)の観点から大きく改善した。 私たちのプロジェクトはhttps://grip-unina.github.io/ClipBased-SyntheticImageDetection/で利用可能です。

Aim of this work is to explore the potential of pre-trained vision-language models (VLMs) for universal detection of AI-generated images. We develop a lightweight detection strategy based on CLIP features and study its performance in a wide variety of challenging scenarios. We find that, unlike previous belief, it is neither necessary nor convenient to use a large domain-specific dataset for training. On the contrary, by using only a handful of example images from a single generative model, a CLIP-based detector exhibits a surprising generalization ability and high robustness across several different architectures, including recent commercial tools such as Dalle-3, Midjourney v5, and Firefly. We match the SoTA on in-distribution data, and improve largely above it in terms of generalization to out-of-distribution data (+6% in terms of AUC) and robustness to impaired/laundered data (+13%). Our project is available at https://grip-unina.github.io/ClipBased-SyntheticImageDetection/
翻訳日:2023-12-04 16:26:19 公開日:2023-11-30
# カーネル化速度歪み最大化によるロバスト概念消去

Robust Concept Erasure via Kernelized Rate-Distortion Maximization ( http://arxiv.org/abs/2312.00194v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi(参考訳) 分散表現は、データインスタンス間の有意義な関係をキャプチャするベクトル空間を提供する。 しかし、これらの表現の分散的な性質は、データインスタンスの複数の属性や概念(例えば、テキストのトピックや感情、著者の特性(年齢、性別など)を絡み合っている。 近年の研究では、概念を予測可能にするのではなく、分散表現から属性を取り除き、他の情報を可能な限り元の表現空間から保持するという、概念消去のタスクが提案されている。 本稿では,概念消去を行うための距離メトリック学習に基づく新しい目標であるKernelized Rate-Distortion Maximizer (KRaM)を提案する。 KRaMは、修正レート歪み関数を用いて指定された距離測度(ラベル付き概念で定義され消去される)と一致するように表現の変換に適合する。 具体的には、KRaMの目的関数は、他の情報を保持しながら、学習された表現空間で類似した概念ラベルを持つインスタンスを識別することを目的としている。 KRaMの最適化は,データ表現からカテゴリ変数,連続変数,ベクトル値変数など,さまざまな種類の概念を効果的に消去する。 また、KRaMの目的のいくつかの性質を理論的に解析する。 学習した表現の質を評価するために,元の表現空間との類似性を評価するアライメントスコアを提案する。 さらに,単語埋め込みにおける二項性変数の消去からgpt-3表現におけるベクトル値変数まで,様々な場面でkramの有効性を示す実験を行った。

Distributed representations provide a vector space that captures meaningful relationships between data instances. The distributed nature of these representations, however, entangles together multiple attributes or concepts of data instances (e.g., the topic or sentiment of a text, characteristics of the author (age, gender, etc), etc). Recent work has proposed the task of concept erasure, in which rather than making a concept predictable, the goal is to remove an attribute from distributed representations while retaining other information from the original representation space as much as possible. In this paper, we propose a new distance metric learning-based objective, the Kernelized Rate-Distortion Maximizer (KRaM), for performing concept erasure. KRaM fits a transformation of representations to match a specified distance measure (defined by a labeled concept to erase) using a modified rate-distortion function. Specifically, KRaM's objective function aims to make instances with similar concept labels dissimilar in the learned representation space while retaining other information. We find that optimizing KRaM effectively erases various types of concepts: categorical, continuous, and vector-valued variables from data representations across diverse domains. We also provide a theoretical analysis of several properties of KRaM's objective. To assess the quality of the learned representations, we propose an alignment score to evaluate their similarity with the original representation space. Additionally, we conduct experiments to showcase KRaM's efficacy in various settings, from erasing binary gender variables in word embeddings to vector-valued variables in GPT-3 representations.
翻訳日:2023-12-04 16:25:55 公開日:2023-11-30
# 概念レシデントモデルにおける不連続のベンチマークと強化

Benchmarking and Enhancing Disentanglement in Concept-Residual Models ( http://arxiv.org/abs/2312.00192v1 )

ライセンス: Link先を確認
Renos Zabounidis, Ini Oguntola, Konghao Zhao, Joseph Campbell, Simon Stepputtis, Katia Sycara(参考訳) 概念ボトルネックモデル (concept bottleneck model, CBM) は、まず、下流タスクの条件付けに使用される観測から意味論的に意味のある一連の特徴、すなわち概念を予測する解釈可能なモデルである。 しかし、モデルの性能は、設計された特徴に強く依存し、不完全な概念セットに苦しむことがある。 以前の研究では、下流タスクへの制約のない情報フローを可能にするサイドチャネル -- 残差 -- を提案しており、モデルパフォーマンスを改善しつつ、解釈可能性には望ましくない情報漏洩も導入している。 本研究は, モデル性能と解釈可能性の臨界バランスを解明し, 概念と残差を解消し, 情報漏洩を緩和する3つの新しい手法を提案する。 CUB、OAI、CIFAR 100データセットの広範な実験分析を通じて、各解離法の性能を評価し、最も機能するタイミングについての洞察を提供する。 さらに,各手法が各概念にどう介入し,その後のタスク性能に影響を及ぼすかを示す。

Concept bottleneck models (CBMs) are interpretable models that first predict a set of semantically meaningful features, i.e., concepts, from observations that are subsequently used to condition a downstream task. However, the model's performance strongly depends on the engineered features and can severely suffer from incomplete sets of concepts. Prior works have proposed a side channel -- a residual -- that allows for unconstrained information flow to the downstream task, thus improving model performance but simultaneously introducing information leakage, which is undesirable for interpretability. This work proposes three novel approaches to mitigate information leakage by disentangling concepts and residuals, investigating the critical balance between model performance and interpretability. Through extensive empirical analysis on the CUB, OAI, and CIFAR 100 datasets, we assess the performance of each disentanglement method and provide insights into when they work best. Further, we show how each method impacts the ability to intervene over the concepts and their subsequent impact on task performance.
翻訳日:2023-12-04 16:25:27 公開日:2023-11-30
# 分子ドッキングのためのリガンドポースサンプリングの強化

Enhancing Ligand Pose Sampling for Molecular Docking ( http://arxiv.org/abs/2312.00191v1 )

ライセンス: Link先を確認
Patricia Suriana, Ron O. Dror(参考訳) ディープラーニングは分子ドッキングのスコアリング機能を劇的に改善し、バインドポーズ予測と仮想スクリーニングの大幅な進歩をもたらす。 得点関数を訓練し、分子ドッキングを実行するには、一連の候補リガンド結合ポーズを生成する必要がある。 残念ながら、現在、候補ポーズを生成するために使われているサンプリングプロトコルは、正しいポーズに関する情報が提供されない限り、正しい、実験的に決定されたポーズに近いポーズをしばしば生成できない。 これにより、学習したスコアリング機能と分子ドッキングの精度が制限される。 本稿では,ポーズサンプリングのための2つの改良プロトコルについて述べる。glow(軟化vdw電位による提案サンプリング)とives(イテレーティブアンサンブルサンプリング)と呼ばれる新しい技術である。 ベンチマークの結果,特に異なる配位子が結合すると形状が大きく変化する結合ポケットにおいて,正確なポーズをサンプリングする可能性を高める手法の有効性が示された。 この改善は、実験的に決定されたタンパク質構造とアルファフォールド生成タンパク質構造の両方で観察される。 さらに, 約5,000個のタンパク質-リガンド相互ドッキングペアに対して, 評価関数のトレーニングとテストのために, 提案手法を用いて生成した候補リガンドポーズのデータセットを提案する。 GLOWとIVESのオープンソースPython実装をhttps://github.com/drorlab/GLOW_IVESで公開しています。

Deep learning promises to dramatically improve scoring functions for molecular docking, leading to substantial advances in binding pose prediction and virtual screening. To train scoring functions-and to perform molecular docking-one must generate a set of candidate ligand binding poses. Unfortunately, the sampling protocols currently used to generate candidate poses frequently fail to produce any poses close to the correct, experimentally determined pose, unless information about the correct pose is provided. This limits the accuracy of learned scoring functions and molecular docking. Here, we describe two improved protocols for pose sampling: GLOW (auGmented sampLing with sOftened vdW potential) and a novel technique named IVES (IteratiVe Ensemble Sampling). Our benchmarking results demonstrate the effectiveness of our methods in improving the likelihood of sampling accurate poses, especially for binding pockets whose shape changes substantially when different ligands bind. This improvement is observed across both experimentally determined and AlphaFold-generated protein structures. Additionally, we present datasets of candidate ligand poses generated using our methods for each of around 5,000 protein-ligand cross-docking pairs, for training and testing scoring functions. To benefit the research community, we provide these cross-docking datasets and an open-source Python implementation of GLOW and IVES at https://github.com/drorlab/GLOW_IVES .
翻訳日:2023-12-04 16:25:11 公開日:2023-11-30
# hetrinet:不均質グラフトリプレットアテンションネットワークによる薬物-標的-ダイセアーゼ相互作用

HeTriNet: Heterogeneous Graph Triplet Attention Network for Drug-Target-Disease Interaction ( http://arxiv.org/abs/2312.00189v1 )

ライセンス: Link先を確認
Farhan Tanvir, Khaled Mohammed Saifuddin, Tanvir Hossain, Arunkumar Bagavathi and Esra Akbas(参考訳) 薬物、標的、疾患間の相互作用をモデル化することは、薬物発見において最重要であり、精密医療やパーソナライズされた治療に重要な意味を持つ。 現在のアプローチでは、薬物と薬物の相互作用を個別に考慮し、これら3つの実体の相互依存を無視している。 ヒトの代謝系では、薬物は細胞のタンパク質標的と相互作用し、標的活性に影響を与え、その後生物学的経路に影響を与え、健康な機能を促進し、病気を治療する。 二元関係を超えてより緊密な三元関係を探求することは、薬物の作用機構(moas)を理解するために不可欠である。 さらに, 薬物, 標的, 疾患の不均一性を同定し, それらの特徴とともに, これらの複雑な相互作用を適切にモデル化することが重要である。 これらの課題に対処するために、異種グラフにおける全てのエンティティの相互接続性を効果的にモデル化し、新しい異種グラフトリプレット注意ネットワーク(\texttt{HeTriNet})を開発する。 \texttt{HeTriNet} はこの不均一グラフ構造の中に新しい三重項注意機構を導入する。 他方のエンティティの重要度としてのペアの注意を超えて、我々は三重項注意を定義し、薬物・ターゲット・ダイゼアーゼ三重項予測問題におけるエンティティのペアの重要性をモデル化する。 実世界のデータセットでの実験的結果は、 \texttt{hetrinet} がいくつかのベースラインを上回っており、新しい薬物標的とダイザスの関係を明らかにするための優れた能力を示している。

Modeling the interactions between drugs, targets, and diseases is paramount in drug discovery and has significant implications for precision medicine and personalized treatments. Current approaches frequently consider drug-target or drug-disease interactions individually, ignoring the interdependencies among all three entities. Within human metabolic systems, drugs interact with protein targets in cells, influencing target activities and subsequently impacting biological pathways to promote healthy functions and treat diseases. Moving beyond binary relationships and exploring tighter triple relationships is essential to understanding drugs' mechanism of action (MoAs). Moreover, identifying the heterogeneity of drugs, targets, and diseases, along with their distinct characteristics, is critical to model these complex interactions appropriately. To address these challenges, we effectively model the interconnectedness of all entities in a heterogeneous graph and develop a novel Heterogeneous Graph Triplet Attention Network (\texttt{HeTriNet}). \texttt{HeTriNet} introduces a novel triplet attention mechanism within this heterogeneous graph structure. Beyond pairwise attention as the importance of an entity for the other one, we define triplet attention to model the importance of pairs for entities in the drug-target-disease triplet prediction problem. Experimental results on real-world datasets show that \texttt{HeTriNet} outperforms several baselines, demonstrating its remarkable proficiency in uncovering novel drug-target-disease relationships.
翻訳日:2023-12-04 16:24:43 公開日:2023-11-30
# 自動運転車の信頼性保証テスト計画

Planning Reliability Assurance Tests for Autonomous Vehicles ( http://arxiv.org/abs/2312.00186v1 )

ライセンス: Link先を確認
Simin Zheng and Lu Lu and Yili Hong and Jian Liu(参考訳) 人工知能(AI)技術はますます普及し、私たちの日常生活を変える。 ai技術の重要な応用の1つは自動運転車(av)の開発である。 しかし、avの信頼性は保証テストを通じて慎重に実証され、製品が現場に自信を持って使用できるようにする必要がある。 保証テストの計画には、テストに合格するための基準とマイル数に対して、どれだけのavをテストする必要があるかを決定する必要がある。 既存の研究は、製品開発および評価のための他の分野の信頼性実証テストの開発に多大な努力をしてきた。 しかし、統計手法はAV試験計画には使われていない。 本稿では,連続イベントデータに基づくAV信頼性保証試験を計画する統計的手法を開発することにより,このギャップを埋めることを目的とする。 本稿では,av信頼性保証テスト計画の文脈における複数の関心基準の関係について検討する。 具体的には,複数の目的とparetofrontアプローチのバランスを保ちながら,均質および非均質なpoissonプロセスに基づく2つのテスト計画戦略を開発する。 私たちはまた、実用化のためのレコメンデーションも提供します。 カリフォルニア州自動車局のavテストプログラムからの離脱イベントデータは、提案された保証テスト計画方法を説明するために使用される。

Artificial intelligence (AI) technology has become increasingly prevalent and transforms our everyday life. One important application of AI technology is the development of autonomous vehicles (AV). However, the reliability of an AV needs to be carefully demonstrated via an assurance test so that the product can be used with confidence in the field. To plan for an assurance test, one needs to determine how many AVs need to be tested for how many miles and the standard for passing the test. Existing research has made great efforts in developing reliability demonstration tests in the other fields of applications for product development and assessment. However, statistical methods have not been utilized in AV test planning. This paper aims to fill in this gap by developing statistical methods for planning AV reliability assurance tests based on recurrent events data. We explore the relationship between multiple criteria of interest in the context of planning AV reliability assurance tests. Specifically, we develop two test planning strategies based on homogeneous and non-homogeneous Poisson processes while balancing multiple objectives with the Pareto front approach. We also offer recommendations for practical use. The disengagement events data from the California Department of Motor Vehicles AV testing program is used to illustrate the proposed assurance test planning methods.
翻訳日:2023-12-04 16:24:15 公開日:2023-11-30
# 銀河分類:数値データを用いた形状分類のための機械学習アプローチ

Galaxy Classification: A machine learning approach for classifying shapes using numerical data ( http://arxiv.org/abs/2312.00184v1 )

ライセンス: Link先を確認
Anusha Guruprasad(参考訳) 渦巻銀河や楕円銀河の分類は、銀河の形成や進化を理解する上で重要な課題である。 スローン・デジタル・スカイ・サーベイ(SDSS)のような大規模な天文学調査が到着し、天文学者は膨大な数の銀河の画像にアクセスできるようになった。 しかし、これらの画像の視界検査は、分析対象の銀河の数が多いため、人間には不可能な作業である。 この問題を解決するため、Galaxy Zooプロジェクトは何千人もの市民科学者が銀河の視覚的特徴に基づいて分類するために作られた。 本稿では,Galaxy Zoo[5]プロジェクトの数値データを用いて,銀河分類のための機械学習モデルを提案する。 我々のモデルは畳み込みニューラルネットワークアーキテクチャを用いて銀河画像から特徴を抽出し、それらをスパイラルまたは楕円体に分類する。 我々は,Galaxy Zooデータセットのサブセットを用いて,その性能を人間の分類器と比較することにより,モデルの有効性を示す。 我々のモデルは銀河の分類において高い精度を達成し、銀河の形成と進化の理解を著しく向上させる可能性を持っている。

The classification of galaxies as spirals or ellipticals is a crucial task in understanding their formation and evolution. With the arrival of large-scale astronomical surveys, such as the Sloan Digital Sky Survey (SDSS), astronomers now have access to images of a vast number of galaxies. However, the visual inspection of these images is an impossible task for humans due to the sheer number of galaxies to be analyzed. To solve this problem, the Galaxy Zoo project was created to engage thousands of citizen scientists to classify the galaxies based on their visual features. In this paper, we present a machine learning model for galaxy classification using numerical data from the Galaxy Zoo[5] project. Our model utilizes a convolutional neural network architecture to extract features from galaxy images and classify them into spirals or ellipticals. We demonstrate the effectiveness of our model by comparing its performance with that of human classifiers using a subset of the Galaxy Zoo dataset. Our results show that our model achieves high accuracy in classifying galaxies and has the potential to significantly enhance our understanding of the formation and evolution of galaxies.
翻訳日:2023-12-04 16:23:58 公開日:2023-11-30
# RNA-KG:RNA分子間の相互作用を表現するオントロジーに基づく知識グラフ

RNA-KG: An ontology-based knowledge graph for representing interactions involving RNA molecules ( http://arxiv.org/abs/2312.00183v1 )

ライセンス: Link先を確認
Emanuele Cavalleri, Alberto Cabri, Mauricio Soto-Gomez, Sara Bonfitto, Paolo Perlasca, Jessica Gliozzo, Tiffany J. Callahan, Justin Reese, Peter N Robinson, Elena Casiraghi, Giorgio Valentini, and Marco Mesiti(参考訳) RNAワールド」は、基本的な生物学的プロセスとヒトの疾患の研究のための新しいフロンティアであり、患者の生体分子特性に合わせた新しい薬物の開発の道を開いた。 コーディングおよび非コーディングRNA分子に関する科学的データは、公開リポジトリから継続的に作成され、利用可能であるが、それらは異なるデータベースに分散し、「RNA世界」の中央集権的で一貫した表現がまだ欠けている。 RNA-KGは、50以上の公開データベースから集められたRNAに関する生物学的知識を包含する知識グラフであり、遺伝子、タンパク質、化学物質と機能的関係と、オントロジ的に基盤付けられた生物医学的概念を統合する。 RNA-KGの開発にあたり、まず各データソースを特定し、前処理し、特徴づけた。次に、この領域におけるすべての生体分子の実体と医学的概念を表現し、それらを結合する相互作用のタイプを表現して、KGのオントロジ的記述を提供するメタグラフを構築した。 最後に,インスタンスベースの意味論的抽象化知識モデルを用いて,rna-kg生成のオントロジアライメントを同定した。 RNA-KGは異なるフォーマットでダウンロードでき、SPARQLエンドポイントでクエリすることもできる。 結果のヘテロジニアスグラフの完全なトポロジカル解析は、「RNA世界」の特性に関するさらなる洞察を与える。 RNA-KGは、その不均一なノードやエッジから生体医学的知識を推測するために計算手法を適用することにより、直接探索および可視化および/または解析することができる。 資源を新しい実験データで容易に更新することができ、研究対象の生体医学的問題に応じて全体KGの具体的なビューを抽出することができる。

The "RNA world" represents a novel frontier for the study of fundamental biological processes and human diseases and is paving the way for the development of new drugs tailored to the patient's biomolecular characteristics. Although scientific data about coding and non-coding RNA molecules are continuously produced and available from public repositories, they are scattered across different databases and a centralized, uniform, and semantically consistent representation of the "RNA world" is still lacking. We propose RNA-KG, a knowledge graph encompassing biological knowledge about RNAs gathered from more than 50 public databases, integrating functional relationships with genes, proteins, and chemicals and ontologically grounded biomedical concepts. To develop RNA-KG, we first identified, pre-processed, and characterized each data source; next, we built a meta-graph that provides an ontological description of the KG by representing all the bio-molecular entities and medical concepts of interest in this domain, as well as the types of interactions connecting them. Finally, we leveraged an instance-based semantically abstracted knowledge model to specify the ontological alignment according to which RNA-KG was generated. RNA-KG can be downloaded in different formats and also queried by a SPARQL endpoint. A thorough topological analysis of the resulting heterogeneous graph provides further insights into the characteristics of the "RNA world". RNA-KG can be both directly explored and visualized, and/or analyzed by applying computational methods to infer bio-medical knowledge from its heterogeneous nodes and edges. The resource can be easily updated with new experimental data, and specific views of the overall KG can be extracted according to the bio-medical problem to be studied.
翻訳日:2023-12-04 16:23:42 公開日:2023-11-30
# PyNeRF:ピラミッド型ニューラルラジアンス場

PyNeRF: Pyramidal Neural Radiance Fields ( http://arxiv.org/abs/2312.00252v1 )

ライセンス: Link先を確認
Haithem Turki, Michael Zollh\"ofer, Christian Richardt, Deva Ramanan(参考訳) ニューラルレージアンス場(NeRF)は空間格子表現によって劇的に加速される。 しかし、スケールについて明確な理由を示さず、異なるカメラ距離で撮影されたシーンを再現する際にエイリアス的アーティファクトを導入する。 Mip-NeRFとその拡張は、点サンプルではなくボリュームフラストラムを投影するスケールアウェアレンダラーを提案するが、そのようなアプローチはグリッドメソッドと容易に互換性のない位置エンコーディングに依存している。 本研究では,異なる空間グリッド解像度でモデルヘッドを訓練することにより,グリッドモデルへの簡単な修正を提案する。 レンダリング時には、粗いグリッドを使って、より大きなボリュームをカバーするサンプルをレンダリングします。 提案手法は,既存のNeRF法に容易に適用でき,レンダリング品質(合成シーンと非有界シーンのエラー率を20~90%削減する)が向上すると同時に,性能オーバーヘッドも最小限に抑えられる(各モデルヘッドの評価が早いため)。 Mip-NeRFと比較して、60倍高速なトレーニングをしながらエラー率を20%削減する。

Neural Radiance Fields (NeRFs) can be dramatically accelerated by spatial grid representations. However, they do not explicitly reason about scale and so introduce aliasing artifacts when reconstructing scenes captured at different camera distances. Mip-NeRF and its extensions propose scale-aware renderers that project volumetric frustums rather than point samples but such approaches rely on positional encodings that are not readily compatible with grid methods. We propose a simple modification to grid-based models by training model heads at different spatial grid resolutions. At render time, we simply use coarser grids to render samples that cover larger volumes. Our method can be easily applied to existing accelerated NeRF methods and significantly improves rendering quality (reducing error rates by 20-90% across synthetic and unbounded real-world scenes) while incurring minimal performance overhead (as each model head is quick to evaluate). Compared to Mip-NeRF, we reduce error rates by 20% while training over 60x faster.
翻訳日:2023-12-04 16:18:08 公開日:2023-11-30
# 超高分解能画像処理の進歩と動向:概要

Advancements and Trends in Ultra-High-Resolution Image Processing: An Overview ( http://arxiv.org/abs/2312.00250v1 )

ライセンス: Link先を確認
Zhuoran Zheng, Boxue Xiao(参考訳) 現在、視覚の楽しみをさらに改善するために、UHD(Ultra-High-Definition)画像が注目されている。 ここでは、UHD画像は通常、解像度が3840 \times 2160$以上のものと見なされる。 しかし、撮像装置は環境騒音や機器のジッタにさらされているため、uhd画像はコントラスト劣化やぼやけ、ダイナミックレンジの低さなどの影響を受けやすい。 これらの問題に対処するため,UHD画像強調のためのアルゴリズムが多数提案されている。 本稿では,uhd画像エンハンスメントの現状を,アプリケーションフィールドと技術という2つの視点から紹介する。 さらに、そのトレンドを簡単に探ります。

Currently, to further improve visual enjoyment, Ultra-High-Definition (UHD) images are catching wide attention. Here, UHD images are usually referred to as having a resolution greater than or equal to $3840 \times 2160$. However, since the imaging equipment is subject to environmental noise or equipment jitter, UHD images are prone to contrast degradation, blurring, low dynamic range, etc. To address these issues, a large number of algorithms for UHD image enhancement have been proposed. In this paper, we introduce the current state of UHD image enhancement from two perspectives, one is the application field and the other is the technology. In addition, we briefly explore its trends.
翻訳日:2023-12-04 16:17:50 公開日:2023-11-30
# 曲がりがプラスチックの損失を説明

Curvature Explains Loss of Plasticity ( http://arxiv.org/abs/2312.00246v1 )

ライセンス: Link先を確認
Alex Lewandowski, Haruto Tanaka, Dale Schuurmans, Marlos C. Machado(参考訳) 可塑性の喪失は、ニューラルネットワークが新しい経験から学ぶ能力を失う現象である。 いくつかの問題で経験的に観察されているにもかかわらず、可塑性を損なうメカニズムについてはほとんど理解されていない。 本稿では, ニューラルネットワークがトレーニング中に曲率の方向を逸脱し, 可塑性損失は曲率の減少に起因するという主張に基づいて, 塑性損失について一貫した説明を行う。 このような主張を支持するために,複数の連続的な教師付き学習問題に対する可塑性損失の系統的研究を行った。 以上の結果から, 曲率損失は塑性損失と一致し, 時として塑性損失と一致することが示唆された。 最後に,可塑性損失を緩和する正則化器は曲率を保ち,問題設定において有効であることを証明した単純な分布正規化器を動機付ける。

Loss of plasticity is a phenomenon in which neural networks lose their ability to learn from new experience. Despite being empirically observed in several problem settings, little is understood about the mechanisms that lead to loss of plasticity. In this paper, we offer a consistent explanation for plasticity loss, based on an assertion that neural networks lose directions of curvature during training and that plasticity loss can be attributed to this reduction in curvature. To support such a claim, we provide a systematic empirical investigation of plasticity loss across several continual supervised learning problems. Our findings illustrate that curvature loss coincides with and sometimes precedes plasticity loss, while also showing that previous explanations are insufficient to explain loss of plasticity in all settings. Lastly, we show that regularizers which mitigate loss of plasticity also preserve curvature, motivating a simple distributional regularizer that proves to be effective across the problem settings considered.
翻訳日:2023-12-04 16:17:39 公開日:2023-11-30
# ABCDモデルのコミュニティの自己相似性

Self-similarity of Communities of the ABCD Model ( http://arxiv.org/abs/2312.00238v1 )

ライセンス: Link先を確認
Jordan Barrett, Bogumil Kaminski, Pawel Pralat, Francois Theberge(参考訳) コミュニティ検出のための人工ベンチマーク(abcd)グラフは、程度とコミュニティサイズの両方のコミュニティ構造とパワーロー分布を持つランダムグラフモデルである。 このモデルはよく知られたLFRモデルに似たグラフを生成するが、高速で解析的に研究することができる。 本稿では, abcdモデルが興味深い自己相似行動を示すこと, すなわち, 接地コミュニティの次数分布は, グラフ全体の次数分布と漸近的に同じであることを示す。 その結果、各コミュニティによって引き起こされるエッジの数だけでなく、プロセス中に生成されるセルフループやマルチエッジの数も見積もることができる。 これらの量を理解することは重要です (a)自己ループとマルチエッジを切り替えてグラフをシンプルに保つことはアルゴリズムの高価な部分であり、 b) 各スイッチングは、対応する次数列上の一様単純グラフから、基礎となる構成モデルをわずかに逸脱させる。

The Artificial Benchmark for Community Detection (ABCD) graph is a random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs similar to the well-known LFR model but it is faster and can be investigated analytically. In this paper, we show that the ABCD model exhibits some interesting self-similar behaviour, namely, the degree distribution of ground-truth communities is asymptotically the same as the degree distribution of the whole graph (appropriately normalized based on their sizes). As a result, we can not only estimate the number of edges induced by each community but also the number of self-loops and multi-edges generated during the process. Understanding these quantities is important as (a) rewiring self-loops and multi-edges to keep the graph simple is an expensive part of the algorithm, and (b) every rewiring causes the underlying configuration models to deviate slightly from uniform simple graphs on their corresponding degree sequences.
翻訳日:2023-12-04 16:17:23 公開日:2023-11-30
# 機械学習アプリケーションにおける偽造防止のための交渉表現

Negotiated Representations to Prevent Forgetting in Machine Learning Applications ( http://arxiv.org/abs/2312.00237v1 )

ライセンス: Link先を確認
Nuri Korhan, Ceren \"Oner(参考訳) 破滅的な忘れは、機械学習、特にニューラルネットワークの分野で重要な課題である。 ニューラルネットワークが新しいタスクでうまく機能することを学ぶと、以前獲得した知識や経験を忘れてしまうことが多い。 この現象は、ネットワークが新しいタスクの損失を最小限に抑えるために重みと接続を調整するために発生し、これは故意に以前のタスクにとって重要な表現を上書きしたり、破壊したりする可能性がある。 その結果、初期のタスクにおけるネットワークのパフォーマンスは低下し、一連のタスクに学習し適応する能力が制限される。 本稿では,ニューラルネットワークに着目した機械学習アプリケーションにおいて,破滅的忘れを防止する新しい手法を提案する。 提案手法は,複数タスクにわたるネットワークの知識を維持しつつ,新たな情報を効果的に学習することを目的としている。 提案手法の有効性を,Split MNIST, Split CIFAR10, Split Fashion MNIST, Split CIFAR100 など,様々なベンチマークデータセットを用いて検証することで実証する。 これらのデータセットは、元のデータセットを分離した非重複タスクに分割することで作成され、モデルが前のデータセットを忘れずに、連続的な学習シナリオをシミュレートする。 提案手法は,過去の経験の保持と新しいタスクへの適応のバランスの維持を可能にするため,学習プロセスに交渉された表現を組み込むことにより,破滅的な放棄問題に取り組む。 これらの難易度データセットに対する本手法の評価により,本手法は,連続学習環境におけるニューラルネットワークの破滅的な忘れ方や性能向上への可能性を示すことを目的としている。

Catastrophic forgetting is a significant challenge in the field of machine learning, particularly in neural networks. When a neural network learns to perform well on a new task, it often forgets its previously acquired knowledge or experiences. This phenomenon occurs because the network adjusts its weights and connections to minimize the loss on the new task, which can inadvertently overwrite or disrupt the representations that were crucial for the previous tasks. As a result, the the performance of the network on earlier tasks deteriorates, limiting its ability to learn and adapt to a sequence of tasks. In this paper, we propose a novel method for preventing catastrophic forgetting in machine learning applications, specifically focusing on neural networks. Our approach aims to preserve the knowledge of the network across multiple tasks while still allowing it to learn new information effectively. We demonstrate the effectiveness of our method by conducting experiments on various benchmark datasets, including Split MNIST, Split CIFAR10, Split Fashion MNIST, and Split CIFAR100. These datasets are created by dividing the original datasets into separate, non overlapping tasks, simulating a continual learning scenario where the model needs to learn multiple tasks sequentially without forgetting the previous ones. Our proposed method tackles the catastrophic forgetting problem by incorporating negotiated representations into the learning process, which allows the model to maintain a balance between retaining past experiences and adapting to new tasks. By evaluating our method on these challenging datasets, we aim to showcase its potential for addressing catastrophic forgetting and improving the performance of neural networks in continual learning settings.
翻訳日:2023-12-04 16:17:05 公開日:2023-11-30
# Brainformer: MRI脳機能とマシンビジョンのモデリング

Brainformer: Modeling MRI Brain Functions to Machine Vision ( http://arxiv.org/abs/2312.00236v1 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Xin Li, Samee U. Khan, Khoa Luu(参考訳) 「知覚は現実である。」 人間の知覚は、信念を形成し、現実を理解する上で重要な役割を果たす。 視覚系における人間の脳の働きの探索は、人間の視覚知覚とコンピュータビジョンモデルの間のギャップを埋めるのに役立つ。 しかし、神経科学者は神経イメージング、すなわち機能的磁気共鳴イメージング(fMRI)を通して脳の研究を行い、脳の機能を発見する。 これらのアプローチは、fMRIデータが複雑で専門知識を必要とするような解釈課題に直面している。 したがって、神経科学者は脳活動のパターンに基づいて認知過程を推論し、潜在的な誤解や機能的理解に繋がる可能性がある。 本研究ではまず,人間の知覚システムにおけるfMRIのパターンを機械学習の観点から解析するための,新しいトランスフォーマーベースのフレームワークであるBrainformerアプローチを提案する。 次に,人間の脳活動を表すfmriを機械視覚モデルの監督として組み込んだ新しいメカニズムを提案する。 この研究は、人間の知覚からニューラルネットワークへの知識の伝達に関する新しい視点も導入している。 実験により, fmri情報を活用することで, 様々な画像認識課題における最新の手法と比較して, 機械ビジョンモデルが潜在的な結果が得られることを示した。

"Perception is reality". Human perception plays a vital role in forming beliefs and understanding reality. Exploring how the human brain works in the visual system facilitates bridging the gap between human visual perception and computer vision models. However, neuroscientists study the brain via Neuroimaging, i.e., Functional Magnetic Resonance Imaging (fMRI), to discover the brain's functions. These approaches face interpretation challenges where fMRI data can be complex and require expertise. Therefore, neuroscientists make inferences about cognitive processes based on patterns of brain activities, which can lead to potential misinterpretation or limited functional understanding. In this work, we first present a simple yet effective Brainformer approach, a novel Transformer-based framework, to analyze the patterns of fMRI in the human perception system from the machine learning perspective. Secondly, we introduce a novel mechanism incorporating fMRI, which represents the human brain activities, as the supervision for the machine vision model. This work also introduces a novel perspective on transferring knowledge from human perception to neural networks. Through our experiments, we demonstrated that by leveraging fMRI information, the machine vision model can achieve potential results compared to the current State-of-the-art methods in various image recognition tasks.
翻訳日:2023-12-04 16:16:37 公開日:2023-11-30
# 定常PDEのための深い平衡に基づくニューラル演算子

Deep Equilibrium Based Neural Operators for Steady-State PDEs ( http://arxiv.org/abs/2312.00234v1 )

ライセンス: Link先を確認
Tanya Marwah, Ashwini Pokle, J. Zico Kolter, Zachary C. Lipton, Jianfeng Lu, Andrej Risteski(参考訳) データ駆動機械学習アプローチは、偏微分方程式(PDE)の解法としてますます使われている。 彼らは、あるファミリーのPDEを入力として取り、そのソリューションを出力するオペレータのトレーニングにおいて、特に顕著な成功を示している。 しかし、特にPDEファミリーの構造的な知識を考えると、建築設計の空間はいまだに理解されていない。 我々は、定常PDEに対する重み付けニューラルネットワークアーキテクチャの利点を研究することにより、このギャップを修復することを模索する。 これを達成するために、我々はまず最も定常な pdes の解を非線形作用素の不動点として表現できることを示す。 この観測から得られたFNO-DEQは、定常PDEの解をブラックボックス根解法を用いて暗黙演算層の無限深度固定点として直接解き、この固定点を通して解析的に微分し、$\mathcal{O}(1)のトレーニングメモリとなるFNOアーキテクチャの深い平衡変種である。 実験の結果、FNO-DEQベースのアーキテクチャは、Darcy FlowやNavier-Stokesのような定常PDEに対する解を予測する際のパラメータ数に対して、FNOベースのベースラインを4ドル以上で上回ります。 最後に、FNO-DEQは、FNOベースのベースラインよりもノイズの多い観測データでトレーニングされた場合、より堅牢であることが示され、異なるニューラルネットワークベースのPDEソルバのアーキテクチャ設計に適切な帰納バイアスを用いることの利点が示される。 さらに、FNO-DEQが固定点方程式として書ける任意の定常PDEへの解を近似できることを示す普遍近似結果を示す。

Data-driven machine learning approaches are being increasingly used to solve partial differential equations (PDEs). They have shown particularly striking successes when training an operator, which takes as input a PDE in some family, and outputs its solution. However, the architectural design space, especially given structural knowledge of the PDE family of interest, is still poorly understood. We seek to remedy this gap by studying the benefits of weight-tied neural network architectures for steady-state PDEs. To achieve this, we first demonstrate that the solution of most steady-state PDEs can be expressed as a fixed point of a non-linear operator. Motivated by this observation, we propose FNO-DEQ, a deep equilibrium variant of the FNO architecture that directly solves for the solution of a steady-state PDE as the infinite-depth fixed point of an implicit operator layer using a black-box root solver and differentiates analytically through this fixed point resulting in $\mathcal{O}(1)$ training memory. Our experiments indicate that FNO-DEQ-based architectures outperform FNO-based baselines with $4\times$ the number of parameters in predicting the solution to steady-state PDEs such as Darcy Flow and steady-state incompressible Navier-Stokes. Finally, we show FNO-DEQ is more robust when trained with datasets with more noisy observations than the FNO-based baselines, demonstrating the benefits of using appropriate inductive biases in architectural design for different neural network based PDE solvers. Further, we show a universal approximation result that demonstrates that FNO-DEQ can approximate the solution to any steady-state PDE that can be written as a fixed point equation.
翻訳日:2023-12-04 16:16:18 公開日:2023-11-30
# ジェネレーティブAIの創造性におけるインタフェース設計の役割

The role of interface design on prompt-mediated creativity in Generative AI ( http://arxiv.org/abs/2312.00233v1 )

ライセンス: Link先を確認
Maddalena Torricelli, Mauro Martino, Andrea Baronchelli, Luca Maria Aiello(参考訳) 画像作成のための生成AIモデルは、デジタルアーティストやビジュアルデザイナのツールキットの定番になりつつある。 これらのシステムとのインタラクションは、ユーザが希望する画像の内容とスタイルを記述するための短いテキストを書くプロセスであるプロンプトによって仲介される。 プロンプトの研究は、人間の創造性プロセスに関する洞察を得る前例のない機会を提供するが、その使い方に関する私たちの理解は、まだ限られている。 我々は、2つのジェネレーティブAIプラットフォーム(安定拡散とピック・ア・ピック)のログから145,000以上のプロンプトを分析し、人々が時間をかけて新しいコンセプトを探索する方法、そしてそれらの探索が、ジェネレーティブAIに対するヒューマン・コンピュータ・インタフェースにおける異なる設計選択の影響について光を当てる。 利用者は,前回訪問した概念の活用よりも,新たなトピックの探求の傾向がみられた。 しかし、スコープと機能の両方が異なる2つのプラットフォームの比較分析により、ユーザの焦点をプロンプトから逸脱させる機能の導入は、単純なクリックで新しいイメージ変種を生成するためのショートカットを提供することが、提案されたプロンプトにおける新しい概念と詳細の探索の両方を著しく削減することと関連していることが明らかとなった。 これらの結果は、ヒューマンインターフェースの設計をジェネレーティブAIに直接的な意味を持ち、プロンプトのプロセスがクリエイティビティを最も支援する方法でどのように役立つべきか、という新たな疑問を提起する。

Generative AI models for the creation of images is becoming a staple in the toolkit of digital artists and visual designers. The interaction with these systems is mediated by prompting, a process in which users write a short text to describe the desired image's content and style. The study of prompts offers an unprecedented opportunity to gain insight into the process of human creativity, yet our understanding of how people use them remains limited. We analyze more than 145,000 prompts from the logs of two Generative AI platforms (Stable Diffusion and Pick-a-Pic) to shed light on how people explore new concepts over time, and how their exploration might be influenced by different design choices in human-computer interfaces to Generative AI. We find that users exhibit a tendency towards exploration of new topics over exploitation of concepts visited previously. However, a comparative analysis of the two platforms, which differ both in scope and functionalities, reveals that the introduction of features diverting user focus from prompting and providing instead shortcuts for generating new image variants with simple clicks is associated with a considerable reduction in both exploration of novel concepts and detail in the submitted prompts. These results carry direct implications for the design of human interfaces to Generative AI and raise new questions regarding how the process of prompting should be aided in ways that best support creativity.
翻訳日:2023-12-04 16:15:46 公開日:2023-11-30
# ベイズニューラルネットワークを用いたグラフコントラスト学習の不確かさ

Uncertainty in Graph Contrastive Learning with Bayesian Neural Networks ( http://arxiv.org/abs/2312.00232v1 )

ライセンス: Link先を確認
Alexander M\"ollers, Alexander Immer, Elvin Isufi, Vincent Fortuin(参考訳) グラフの対照的な学習は、ラベル付きデータが不足している場合には大きな可能性を秘めている。 しかし、不確実性の推定を考慮に入れないことが多い。 変分ベイズ型ニューラルネットワークアプローチは,不確実性推定だけでなく,半教師付きノード分類タスクのダウンストリーム性能の向上にも有効であることを示す。 さらに, 異なる正のサンプルによる確率の不一致に基づく, コントラスト学習のための新しい不確実性尺度を提案する。

Graph contrastive learning has shown great promise when labeled data is scarce, but large unlabeled datasets are available. However, it often does not take uncertainty estimation into account. We show that a variational Bayesian neural network approach can be used to improve not only the uncertainty estimates but also the downstream performance on semi-supervised node-classification tasks. Moreover, we propose a new measure of uncertainty for contrastive learning, that is based on the disagreement in likelihood due to different positive samples.
翻訳日:2023-12-04 16:15:18 公開日:2023-11-30
# 畳み込みニューラルネットワークを用いた無監督繊維欠陥検出

Unsupervised textile defect detection using convolutional neural networks ( http://arxiv.org/abs/2312.00224v1 )

ライセンス: Link先を確認
Imane Koulali, M. Taner Eskil(参考訳) 本研究では,従来の畳み込みニューラルネットワークと教師なし学習パラダイムの利点を組み合わせた,教師なし織物異常検出のための新しいモチーフベース手法を提案する。 プリプロセッシング、自動パターン周期抽出、パッチ抽出、特徴選択、異常検出の5つの主要なステップで構成される。 提案手法は,フィルタ数(ニューラルン)とその重みの初期化の欠点を回避し,最先端手法で一般的である消失勾配などのバックプロパゲーション機構の欠点を回避し,特徴選択のための新たな動的かつヒューリスティックな手法を用いる。 ネットワークの設計とトレーニングは動的かつ入力されたドメインベースで行われ、アドホックな構成は不要である。 モデルを構築する前に、レイヤの数とストライドのみが定義されます。 重みをランダムに初期化したり、cnnベースのアプローチで従来行なっていたフィルタサイズやフィルタ数を定義したりしない。 これにより、ハイパーパラメータの初期化と微調整に費やす労力と時間を削減できる。 トレーニングには欠陥のないサンプルが1つだけ必要であり、ラベル付きデータは不要である。 トレーニングされたネットワークは、欠陥のあるファブリックサンプルの異常を検出するために使用される。 本稿では,パターンファブリックベンチマークデータセットにおける提案手法の有効性を示す。 このアルゴリズムは,最先端の非教師付きアプローチと比較して,信頼性と競合性(リコール,精度,精度,f1測定値)を,一時期の効率的なトレーニングと計算コストの低減で実現している。

In this study, we propose a novel motif-based approach for unsupervised textile anomaly detection that combines the benefits of traditional convolutional neural networks with those of an unsupervised learning paradigm. It consists of five main steps: preprocessing, automatic pattern period extraction, patch extraction, features selection and anomaly detection. This proposed approach uses a new dynamic and heuristic method for feature selection which avoids the drawbacks of initialization of the number of filters (neurons) and their weights, and those of the backpropagation mechanism such as the vanishing gradients, which are common practice in the state-of-the-art methods. The design and training of the network are performed in a dynamic and input domain-based manner and, thus, no ad-hoc configurations are required. Before building the model, only the number of layers and the stride are defined. We do not initialize the weights randomly nor do we define the filter size or number of filters as conventionally done in CNN-based approaches. This reduces effort and time spent on hyperparameter initialization and fine-tuning. Only one defect-free sample is required for training and no further labeled data is needed. The trained network is then used to detect anomalies on defective fabric samples. We demonstrate the effectiveness of our approach on the Patterned Fabrics benchmark dataset. Our algorithm yields reliable and competitive results (on recall, precision, accuracy and f1- measure) compared to state-of-the-art unsupervised approaches, in less time, with efficient training in a single epoch and a lower computational cost.
翻訳日:2023-12-04 16:15:10 公開日:2023-11-30
# 悪性胸膜中皮腫の分節化のための畳み込みニューラルネットワーク--確率マップ閾値の解析(calgb 30901, alliance)

Convolutional Neural Networks for Segmentation of Malignant Pleural Mesothelioma: Analysis of Probability Map Thresholds (CALGB 30901, Alliance) ( http://arxiv.org/abs/2312.00223v1 )

ライセンス: Link先を確認
Mena Shenouda, Eyj\'olfur Gudmundsson, Feng Li, Christopher M. Straus, Hedy L. Kindler, Arkadiusz Z. Dudek, Thomas Stinchcombe, Xiaofei Wang, Adam Starkey, Samuel G. Armato III(参考訳) 悪性胸膜中皮腫(mpm)は最も一般的な中皮腫である。 治療に対する反応を評価するために、患者の縦型ctスキャンに基づいて腫瘍測定値を取得し、評価する。 しかし腫瘍体積は、腫瘍の負担と反応を評価するためのより正確な指標である。 深層学習を用いた自動セグメンテーション手法を用いてボリュームを取得できるが、これは手作業による面倒な作業である。 深層学習に基づく腫瘍の体積と輪郭を、自動化セグメンテーションの堅牢性を評価するための標準基準と比較することができる。 本研究の目的は,畳み込みニューラルネットワーク(CNN)を用いて発生したMPM腫瘍像に対する確率マップ閾値の影響を評価することである。 21例のctスキャンをvgg16/u-net cnnで行った。 放射線科医は0.5確率閾値で生成された輪郭を修正した。 Dice similarity Coefficient (DSC) を用いた腫瘍体積と重複率の比率は,0.001から0.9の範囲で標準基準とCNN出力とで比較した。 CNNアノテーションは放射線医の輪郭より腫瘍の体積が小さい。 確率閾値を0.5から0.1に下げると、絶対的な体積差が43.96%から24.18%に減少した。 中間値と平均値のDSCは0.58から0.60の範囲で、ピークは0.5であり、体積差に差はない。 cnn確率マップの出力閾値は腫瘍体積とdscの両方に最適ではなかった。 この研究は、cnnのパフォーマンスを評価する際に腫瘍の体積と空間の重なりを評価する必要性を強調する。 自動セグメンテーションは基準基準値に匹敵する腫瘍体積を生じる可能性があるが、CNNによって特定の閾値で示される空間領域は同様に重要である。

Malignant pleural mesothelioma (MPM) is the most common form of mesothelioma. To assess response to treatment, tumor measurements are acquired and evaluated based on a patient's longitudinal computed tomography (CT) scans. Tumor volume, however, is the more accurate metric for assessing tumor burden and response. Automated segmentation methods using deep learning can be employed to acquire volume, which otherwise is a tedious task performed manually. The deep learning-based tumor volume and contours can then be compared with a standard reference to assess the robustness of the automated segmentations. The purpose of this study was to evaluate the impact of probability map threshold on MPM tumor delineations generated using a convolutional neural network (CNN). Eighty-eight CT scans from 21 MPM patients were segmented by a VGG16/U-Net CNN. A radiologist modified the contours generated at a 0.5 probability threshold. Percent difference of tumor volume and overlap using the Dice Similarity Coefficient (DSC) were compared between the standard reference provided by the radiologist and CNN outputs for thresholds ranging from 0.001 to 0.9. CNN annotations consistently yielded smaller tumor volumes than radiologist contours. Reducing the probability threshold from 0.5 to 0.1 decreased the absolute percent volume difference, on average, from 43.96% to 24.18%. Median and mean DSC ranged from 0.58 to 0.60, with a peak at a threshold of 0.5; no distinct threshold was found for percent volume difference. No single output threshold in the CNN probability maps was optimal for both tumor volume and DSC. This work underscores the need to assess tumor volume and spatial overlap when evaluating CNN performance. While automated segmentations may yield comparable tumor volumes to that of the reference standard, the spatial region delineated by the CNN at a specific threshold is equally important.
翻訳日:2023-12-04 16:14:41 公開日:2023-11-30
# Dual-Contrastive Domain Adaptationを用いたマルチモードビデオトピックセグメンテーション

Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation ( http://arxiv.org/abs/2312.00220v1 )

ライセンス: Link先を確認
Linzi Xing, Quan Tran, Fabian Caba, Franck Dernoncourt, Seunghyun Yoon, Zhaowen Wang, Trung Bui, Giuseppe Carenini(参考訳) ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにし、他のビデオ理解タスクに必須である。 最近のマルチモーダルの急増を考えると、単一のモダリティのみに依存することは間違いなく不十分である。 一方、ビデオシーン/ショットセグメンテーションのような類似したタスクに対する以前の解決策は、鮮明な視覚的シフトを持つショートビデオに対して、ライブストリームのような微妙な変化を持つ長いビデオには不利である。 本稿では,クロスモーダル・アテンション機構によって強化された映像転写とフレームを併用したマルチモーダル・ビデオ・トピックセグメンタを提案する。 さらに,教師なしのドメイン適応パラダイムに準拠したデュアルコントラスト学習フレームワークを提案し,より長く,より意味的に複雑なビデオへのモデルの適応性を高める。 短長ビデオコーパスの実験により,提案手法は,ドメイン内およびクロスドメイン間において,精度と転送性の両方の観点から,ベースライン法を大幅に上回ることを示した。

Video topic segmentation unveils the coarse-grained semantic structure underlying videos and is essential for other video understanding tasks. Given the recent surge in multi-modal, relying solely on a single modality is arguably insufficient. On the other hand, prior solutions for similar tasks like video scene/shot segmentation cater to short videos with clear visual shifts but falter for long videos with subtle changes, such as livestreams. In this paper, we introduce a multi-modal video topic segmenter that utilizes both video transcripts and frames, bolstered by a cross-modal attention mechanism. Furthermore, we propose a dual-contrastive learning framework adhering to the unsupervised domain adaptation paradigm, enhancing our model's adaptability to longer, more semantically complex videos. Experiments on short and long video corpora demonstrate that our proposed solution, significantly surpasses baseline methods in terms of both accuracy and transferability, in both intra- and cross-domain settings.
翻訳日:2023-12-04 16:13:53 公開日:2023-11-30
# 信念空間制御による能動的触覚の学習

Learning active tactile perception through belief-space control ( http://arxiv.org/abs/2312.00215v1 )

ライセンス: Link先を確認
Jean-Fran\c{c}ois Tremblay, David Meger, Francois Hogan, Gregory Dudek(参考訳) オープンワールドで動作するロボットは、質量、摩擦、大きさなどの未知の物理的性質を持つ新しい物体に遭遇する。 これらのロボットは、オブジェクトと下流タスクを実行する前に、インタラクションを通じてこれらの特性を検知する必要がある。 本稿では,創造的世界モデルを構築し,触覚探索政策を自律的に学習する手法を提案する。 1)微分可能なベイズフィルタアルゴリズムとそれを用いた物体の物理パラメータの推定 2)情報収集モデル予測コントローラを用いた探索ポリシーの開発。 本手法は,物理的相互作用により所望の物体特性(質量,高さ,トッピング高さ)を推定する3つのシミュレーション課題に対して評価する。 提案手法は,要求する属性に関する情報を直感的に収集するポリシを効率的に発見できることがわかった。 最後に,本手法が情報収集方針をスクラッチから学習,実行し得る高さ推定タスクのための実ロボットシステム上での検証を行った。

Robots operating in an open world will encounter novel objects with unknown physical properties, such as mass, friction, or size. These robots will need to sense these properties through interaction prior to performing downstream tasks with the objects. We propose a method that autonomously learns tactile exploration policies by developing a generative world model that is leveraged to 1) estimate the object's physical parameters using a differentiable Bayesian filtering algorithm and 2) develop an exploration policy using an information-gathering model predictive controller. We evaluate our method on three simulated tasks where the goal is to estimate a desired object property (mass, height or toppling height) through physical interaction. We find that our method is able to discover policies that efficiently gather information about the desired property in an intuitive manner. Finally, we validate our method on a real robot system for the height estimation task, where our method is able to successfully learn and execute an information-gathering policy from scratch.
翻訳日:2023-12-04 16:13:20 公開日:2023-11-30
# 関連誘導型ニューラルネットワーク翻訳

Relevance-guided Neural Machine Translation ( http://arxiv.org/abs/2312.00214v1 )

ライセンス: Link先を確認
Isidora Chara Tourni, Derry Wijaya(参考訳) Transformerアーキテクチャの出現に伴い、ニューラルネットワーク翻訳(NMT)の結果は、最近大きく改善されている。 しかし、低リソースの条件は、利用可能な単言語および/または並列データの量が限られているため、バイリンガルと多言語の両方において依然として遅れているため、効率的かつ説明可能な方法でデータの不足に対処する方法が必要となる。 本研究では,NMTの教師なし・監督型モデルトレーニングに応用し,フランス語,グジャラート語,カザフ語,英語の3言語を翻訳するための説明可能性に基づく学習手法を提案する。 提案手法は,低リソース条件下でのトレーニングでは特に,単純なトレーニングベースラインよりも優れており,その改善は限界はあるものの,アプローチとパラメータのさらなる探索,および他の言語への拡張の基盤となっている。

With the advent of the Transformer architecture, Neural Machine Translation (NMT) results have shown great improvement lately. However, results in low-resource conditions still lag behind in both bilingual and multilingual setups, due to the limited amount of available monolingual and/or parallel data; hence, the need for methods addressing data scarcity in an efficient, and explainable way, is eminent. We propose an explainability-based training approach for NMT, applied in Unsupervised and Supervised model training, for translation of three languages of varying resources, French, Gujarati, Kazakh, to and from English. Our results show our method can be promising, particularly when training in low-resource conditions, outperforming simple training baselines; though the improvement is marginal, it sets the ground for further exploration of the approach and the parameters, and its extension to other languages.
翻訳日:2023-12-04 16:12:54 公開日:2023-11-30
# DREAM:拡散整流と推定適応モデル

DREAM: Diffusion Rectification and Estimation-Adaptive Models ( http://arxiv.org/abs/2312.00210v1 )

ライセンス: Link先を確認
Jinxin Zhou, Tianyu Ding, Tianyi Chen, Jiachen Jiang, Ilya Zharkov, Zhihui Zhu and Luming Liang(参考訳) DREAM(Diffusion Rectification and Estimation-Adaptive Models)は,最小限のコード変更(たった3行)を必要とするが,拡散モデルのサンプリングによるトレーニングのアライメントは著しく向上する。 ドリームには、サンプリングプロセスを反映してトレーニングを調整する拡散整流と、歪みに対する知覚のバランスをとる推定適応という2つの要素がある。 画像超解像(SR)に適用すると、DREAMは歪みの最小化と高画質の保存とのトレードオフを確実にナビゲートする。 実験では、標準拡散ベースのSR法よりもDREAMの方が優れていることが示され、より高速なトレーニングコンバージェンスに2ドルから3ドル、同等または優れた結果を得るために必要なサンプリングステップを10ドルから20ドル削減することを示した。 DREAMが拡散モデルトレーニングパラダイムを再考することを願っている。

We present DREAM, a novel training framework representing Diffusion Rectification and Estimation-Adaptive Models, requiring minimal code changes (just three lines) yet significantly enhancing the alignment of training with sampling in diffusion models. DREAM features two components: diffusion rectification, which adjusts training to reflect the sampling process, and estimation adaptation, which balances perception against distortion. When applied to image super-resolution (SR), DREAM adeptly navigates the tradeoff between minimizing distortion and preserving high image quality. Experiments demonstrate DREAM's superiority over standard diffusion-based SR methods, showing a $2$ to $3\times $ faster training convergence and a $10$ to $20\times$ reduction in necessary sampling steps to achieve comparable or superior results. We hope DREAM will inspire a rethinking of diffusion model training paradigms.
翻訳日:2023-12-04 16:12:04 公開日:2023-11-30
# Merlin:先見的なマルチモーダル LLM のパワーアップ

Merlin:Empowering Multimodal LLMs with Foresight Minds ( http://arxiv.org/abs/2312.00589v1 )

ライセンス: Link先を確認
En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao(参考訳) 人間は、現在の観察に基づいて未来をある程度予知する驚くべき能力を持っている。 しかし、この能力は既存のMLLM(Multimodal Large Language Models)の中で研究され、物事の動作の基本的な原理と観察対象の背後にある意図を学ぶ能力を妨げている。 この問題に対処するため,我々はMLLMの既存の学習フレームワークに将来のモデリングの統合を導入する。 連続するフレーム列の高度に構造化された表現である対象軌跡を学習目的として利用することにより,過去と未来の間のギャップを埋めることを目指す。 本稿では,MLLMの学習パラダイムにインスパイアされた,フォレスト・プレトレーニング(FPT)とフォレスト・インストラクション・チューニング(FIT)の2つの革新的手法を提案する。 具体的には、FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。 次に、FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。 FPTとFITに助けられ、Merlinという新しい統一MLLMを構築し、将来の推論のために複数のオブジェクトの潜在的な動作に関するマルチイメージ入力と分析をサポートする。 実験の結果,将来の推論と視覚理解の両方において有意な性能を持つ有能な先見心が得られた。

Humans possess the remarkable ability to foresee the future to a certain extent based on present observations, a skill we term as foresight minds. However, this capability remains largely under explored within existing Multimodal Large Language Models (MLLMs), hindering their capacity to learn the fundamental principles of how things operate and the intentions behind the observed subjects. To address this issue, we introduce the integration of future modeling into the existing learning frameworks of MLLMs. By utilizing the subject trajectory, a highly structured representation of a consecutive frame sequence, as a learning objective, we aim to bridge the gap between the past and the future. We propose two innovative methods to empower MLLMs with foresight minds, Foresight Pre-Training (FPT) and Foresight Instruction-Tuning (FIT), which are inspired by the modern learning paradigm of LLMs. Specifically, FPT jointly training various tasks centered on trajectories, enabling MLLMs to learn how to attend and predict entire trajectories from a given initial observation. Then, FIT requires MLLMs to first predict trajectories of related objects and then reason about potential future events based on them. Aided by FPT and FIT, we build a novel and unified MLLM named Merlin that supports multi-images input and analysis about potential actions of multiple objects for the future reasoning. Experimental results show Merlin powerful foresight minds with impressive performance on both future reasoning and visual comprehension tasks.
翻訳日:2023-12-04 14:33:13 公開日:2023-11-30
# LucidDreaming:制御可能なオブジェクト中心3D生成

LucidDreaming: Controllable Object-Centric 3D Generation ( http://arxiv.org/abs/2312.00588v1 )

ライセンス: Link先を確認
Zhaoning Wang, Ming Li, Chen Chen(参考訳) 最近の生成モデルの開発により、Text-to-3D世代も著しい成長を遂げた。 それでも、3d生成の正確な制御は、テキストを使って制御することがしばしば行方不明のオブジェクトや不正確な場所につながるため、いまだに困難な作業である。 3次元生成における制御可能性を高めるための現代の戦略は、しばしばカスタマイズされた拡散モデルのような追加のパラメータを導入する。 これはしばしば異なる拡散モデルに適応したり、異なるオブジェクトを作成する際に困難を引き起こす。 本稿では,3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。 3Dバウンディングボックスの最小限の入力しか必要とせず、大きな言語モデルを使って単純なテキストプロンプトから推論できる。 具体的には、ユーザ仕様でオブジェクトを別々にレンダリングし、最適化するためのクリップレイサンプリングを提案する。 また,オブジェクト中心の密度ブロブバイアスを導入し,生成されたオブジェクトの分離を促進する。 オブジェクトの個別のレンダリングと最適化により、スクラッチから制御されたコンテンツ生成だけでなく、事前訓練されたNeRFシーンにも優れる。 このようなシナリオでは、既存の生成的アプローチは、しばしば元のシーンの整合性を阻害し、現在の編集手法は空の空間で新しいコンテンツを合成するのに苦労する。 その結果,本手法は主流のスコア蒸留サンプリングベースの3d生成フレームワークにおいて優れた適応性を示し,ベースラインアプローチと比較して優れた3dコンテンツアライメントを実現する。 また,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。

With the recent development of generative models, Text-to-3D generations have also seen significant growth. Nonetheless, achieving precise control over 3D generation continues to be an arduous task, as using text to control often leads to missing objects and imprecise locations. Contemporary strategies for enhancing controllability in 3D generation often entail the introduction of additional parameters, such as customized diffusion models. This often induces hardness in adapting to different diffusion models or creating distinct objects. In this paper, we present LucidDreaming as an effective pipeline capable of fine-grained control over 3D generation. It requires only minimal input of 3D bounding boxes, which can be deduced from a simple text prompt using a Large Language Model. Specifically, we propose clipped ray sampling to separately render and optimize objects with user specifications. We also introduce object-centric density blob bias, fostering the separation of generated objects. With individual rendering and optimizing of objects, our method excels not only in controlled content generation from scratch but also within the pre-trained NeRF scenes. In such scenarios, existing generative approaches often disrupt the integrity of the original scene, and current editing methods struggle to synthesize new content in empty spaces. We show that our method exhibits remarkable adaptability across a spectrum of mainstream Score Distillation Sampling-based 3D generation frameworks, and achieves superior alignment of 3D content when compared to baseline approaches. We also provide a dataset of prompts with 3D bounding boxes, benchmarking 3D spatial controllability.
翻訳日:2023-12-04 14:32:45 公開日:2023-11-30
# MD-Splatting:高度に変形可能なシーンにおける4次元ガウスからの計量変形の学習

MD-Splatting: Learning Metric Deformation from 4D Gaussians in Highly Deformable Scenes ( http://arxiv.org/abs/2312.00583v1 )

ライセンス: Link先を確認
Bardienus P. Duisterhof, Zhao Mandi, Yunchao Yao, Jia-Wei Liu, Mike Zheng Shou, Shuran Song, Jeffrey Ichnowski(参考訳) 隠蔽と影を持つ高度に変形可能なシーンにおける正確な3Dトラッキングは、ロボット工学、拡張現実、および生成AIにおける新しい応用を促進することができる。 しかし,このような状況下での追跡は,大きな変形や影,閉塞を伴うあいまいさのため,極めて困難である。 様々なカメラポーズからの動的シーンの映像キャプチャを用いて、3次元トラッキングと新しいビュー合成を同時に行う手法であるmd-splattingを提案する。 MD-Splattingは、最先端で高速な新奇なビュー合成のために多数のガウス人の特性を学習する手法であるガウススプラッティングの最近の進歩に基づいている。 md-splattingは変形関数を学習し、計量空間に非計量的、従って標準的性質を持つガウス群を投影する。 変形関数は、ガウスの位置、回転、シャドウスカラーを推測するために、ニューラルボクセル符号化と多層パーセプトロン(MLP)を用いる。 我々は,局所剛性,運動量保存,等方性に基づく物理に触発された正規化条件を施行し,軌道誤差の小さい軌道に導く。 MD-Splattingは、シャドーとオクルージョンを持つ高度に変形可能なシーンで高品質な3Dトラッキングを実現する。 最新技術と比較して、3dトラッキングを平均23.9 %改善し、同時に高品質のノベルビュー合成を実現する。 シーン6のような十分なテクスチャで、MD-Splattingは1×1メートルの布の上で3.39mmの中央値追跡誤差を達成する。 プロジェクトwebサイト: https://md-splatting.github.io/

Accurate 3D tracking in highly deformable scenes with occlusions and shadows can facilitate new applications in robotics, augmented reality, and generative AI. However, tracking under these conditions is extremely challenging due to the ambiguity that arises with large deformations, shadows, and occlusions. We introduce MD-Splatting, an approach for simultaneous 3D tracking and novel view synthesis, using video captures of a dynamic scene from various camera poses. MD-Splatting builds on recent advances in Gaussian splatting, a method that learns the properties of a large number of Gaussians for state-of-the-art and fast novel view synthesis. MD-Splatting learns a deformation function to project a set of Gaussians with non-metric, thus canonical, properties into metric space. The deformation function uses a neural-voxel encoding and a multilayer perceptron (MLP) to infer Gaussian position, rotation, and a shadow scalar. We enforce physics-inspired regularization terms based on local rigidity, conservation of momentum, and isometry, which leads to trajectories with smaller trajectory errors. MD-Splatting achieves high-quality 3D tracking on highly deformable scenes with shadows and occlusions. Compared to state-of-the-art, we improve 3D tracking by an average of 23.9 %, while simultaneously achieving high-quality novel view synthesis. With sufficient texture such as in scene 6, MD-Splatting achieves a median tracking error of 3.39 mm on a cloth of 1 x 1 meters in size. Project website: https://md-splatting.github.io/.
翻訳日:2023-12-04 14:31:28 公開日:2023-11-30
# グラフコントラスト学習法の逆ロバスト性について

On the Adversarial Robustness of Graph Contrastive Learning Methods ( http://arxiv.org/abs/2311.17853v2 )

ライセンス: Link先を確認
Filippo Guerranti, Zinuo Yi, Anna Starovoit, Rafiq Kamel, Simon Geisler, Stephan G\"unnemann(参考訳) コントラスト学習(cl)は、画像やテキストの表現を自己教師ありで学習するための強力なフレームワークとして出現し、敵対的攻撃に対するモデルの堅牢性を高めている。 最近では、コントラスト学習の原則をグラフ構造化データに拡張し、グラフコントラスト学習(gcl)の分野を生み出している。 しかし、gclメソッドが画像やテキストドメインの競合メソッドと同じ強固さをもたらすかどうかは、まだ疑問の余地がある。 本稿では,gclモデルのロバスト性を評価するための包括的ロバスト性評価プロトコルを提案する。 我々はこれらのモデルを,グラフ構造をターゲットとした適応的敵攻撃,特に回避シナリオに適用する。 実世界の多様なデータセットと攻撃戦略を用いてノードとグラフの分類タスクを評価する。 本研究は,GCL手法の堅牢性に関する知見を提供することを目標とし,今後の研究方向の道を開くことを期待する。

Contrastive learning (CL) has emerged as a powerful framework for learning representations of images and text in a self-supervised manner while enhancing model robustness against adversarial attacks. More recently, researchers have extended the principles of contrastive learning to graph-structured data, giving birth to the field of graph contrastive learning (GCL). However, whether GCL methods can deliver the same advantages in adversarial robustness as their counterparts in the image and text domains remains an open question. In this paper, we introduce a comprehensive robustness evaluation protocol tailored to assess the robustness of GCL models. We subject these models to adaptive adversarial attacks targeting the graph structure, specifically in the evasion scenario. We evaluate node and graph classification tasks using diverse real-world datasets and attack strategies. With our work, we aim to offer insights into the robustness of GCL methods and hope to open avenues for potential future research directions.
翻訳日:2023-12-04 11:45:00 公開日:2023-11-30
# 配車システムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v3 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang(参考訳) 時空間予測モデルの設計は、業務的にも都市的にも個別に行うことが、拡大する交通ネットワーク企業にとって重荷となる。 そこで本研究では,各都市における時空間タスクを同時に予測するための,専門家ネットワーク(GESME-Net)と畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネット(CNN),およびリカレントニューラルネットワーク(RNN)を併用した,時空間混在のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、タスク適応層を、マルチタスク学習における共同表現を学習するためのアーキテクチャに統合し、予測に用いる入力特徴の寄与を明らかにする。 提案されたアーキテクチャは、Didi Chuxingのデータでテストされている。 (i)北京における需給ギャップの同時予測 (ii)成都と西安の需要を同時予測すること。 どちらのシナリオにおいても、提案するアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner poses a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting spatio-temporal tasks in a city as well as across different cities. Furthermore, a task adaptation layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2023-12-01 23:39:55 公開日:2023-11-30
# BARS-CTR:クリックスルーレート予測のためのオープンベンチマーク

BARS-CTR: Open Benchmarking for Click-Through Rate Prediction ( http://arxiv.org/abs/2009.05794v5 )

ライセンス: Link先を確認
Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He(参考訳) クリックスルー率(CTR)予測は、ユーザエクスペリエンスとプラットフォーム収益に直接的な影響を与えるため、多くのアプリケーションにとって重要なタスクである。 近年、CTR予測は学術と産業の両方で広く研究されており、様々なCTR予測モデルが生み出されている。 残念ながら、CTR予測研究には標準化されたベンチマークと一様評価プロトコルがまだ欠けている。 これは、既存の研究の非再現性や矛盾した実験結果をもたらし、その研究の実用的価値と潜在的影響を著しく制限する。 本研究では、CTR予測のためのオープンベンチマークを行い、再現可能な方法で異なるモデルの厳密な比較を行う。 この目的のために、合計12,000以上のGPU時間で7000以上の実験を行い、複数のデータセットと設定で24の既存モデルを再評価しました。 驚くべきことに、我々の実験は、十分なハイパーパラメータ探索とモデルチューニングにより、多くの深層モデルが予想よりも小さな差を持つことを示した。 また, ctr予測のモデル化を実際に進めることは, 極めて困難な研究課題であることを明らかにした。 我々のベンチマーク作業は、研究者が新しいモデルの有効性を便利に評価できるだけでなく、芸術の状態をかなり比較できると考えている。 我々は、この分野で再現可能な研究を促進するために、ベンチマークコード、評価プロトコル、ハイパーパラメータ設定を公開しました。

Click-through rate (CTR) prediction is a critical task for many applications, as its accuracy has a direct impact on user experience and platform revenue. In recent years, CTR prediction has been widely studied in both academia and industry, resulting in a wide variety of CTR prediction models. Unfortunately, there is still a lack of standardized benchmarks and uniform evaluation protocols for CTR prediction research. This leads to non-reproducible or even inconsistent experimental results among existing studies, which largely limits the practical value and potential impact of their research. In this work, we aim to perform open benchmarking for CTR prediction and present a rigorous comparison of different models in a reproducible manner. To this end, we ran over 7,000 experiments for more than 12,000 GPU hours in total to re-evaluate 24 existing models on multiple datasets and settings. Surprisingly, our experiments show that with sufficient hyper-parameter search and model tuning, many deep models have smaller differences than expected. The results also reveal that making real progress on the modeling of CTR prediction is indeed a very challenging research task. We believe that our benchmarking work could not only allow researchers to gauge the effectiveness of new models conveniently but also make them fairly compare with the state of the arts. We have publicly released the benchmarking code, evaluation protocols, and hyper-parameter settings of our work to promote reproducible research in this field.
翻訳日:2023-12-01 23:39:32 公開日:2023-11-30
# 化学反応におけるキラルエナンチオマー生成の真空誘起対称性破壊

Vacuum-Induced Symmetry Breaking of Chiral Enantiomer Formation in Chemical Reactions ( http://arxiv.org/abs/2211.11132v4 )

ライセンス: Link先を確認
Yanzhe Ke, Zhigang Song, Qing-Dong Jiang(参考訳) 内部に対称性が破れている物質は、真空電磁揺らぎによってその近傍に対称性破れを伝達することができる。 ここでは, 真空量子揺らぎがパリティ対称性を有する物質に近付くことにより, キラル分子のキラリティー依存性のスペクトルシフトを誘導し, 化学反応により一方のキラリティーを他方より優先的に生成できることを示した。 実例を計算し,実験的に実現可能なパラメータでキラリティ生成率を評価し,対称性を破る真空量子揺らぎによるキラリティの選択を約束することを示す。

A material with symmetry breaking inside can transmit the symmetry breaking to its vicinity by vacuum electromagnetic fluctuations. Here, we show that vacuum quantum fluctuations proximate to a parity-symmetry-broken material can induce a chirality-dependent spectral shift of chiral molecules, resulting in a chemical reaction process that favors producing one chirality over the other. We calculate concrete examples and evaluate the chirality production rate with experimentally realizable parameters, showing the promise of selecting chirality with symmetry-broken vacuum quantum fluctuations.
翻訳日:2023-12-01 23:36:51 公開日:2023-11-30
# 光の2次元パルアキシャル流体中の乱流ダイナミクス

Turbulent dynamics in two-dimensional paraxial fluid of light ( http://arxiv.org/abs/2211.08441v2 )

ライセンス: Link先を確認
Myrann Baker-Rasooli, Wei Liu, Tangui Aladjidi, Alberto Bramati and Quentin Glorieux(参考訳) 量子流体の乱流は、驚くべきことに、古典的なものと多くの共通点がある。 近年、低温原子ガスは乱流力学を研究するためのよく制御された実験プラットフォームとして出現している。 そこで本研究では,光学系における量子乱流を研究するための新しいシステムを提案する。 特に,密度と位相の時間的ダイナミクスを報告し,運動量空間における等方性の発生と,非圧縮運動エネルギースペクトルにおける異なるスケーリング則の存在を示す。 エネルギースペクトル中の代数指数の微視的起源は、治癒長さとより大きなスケールでのクラスター化における量子化された渦の内部構造を研究することによって議論される。 これらの結果は、初期状態の精密な調製と圧縮性および非圧縮性流体速度のその場測定が可能な2つの逆流性流体を用いて得られる。

Turbulence in quantum fluids has, surprisingly, a lot in common with its classical counterpart. Recently, cold atomic gases has emerged as a well controlled experimental platform to study turbulent dynamics. In this work, we introduce a novel system to study quantum turbulence in optics, with the major advantage of having access to a wide range of characterization tools available for light fields. In particular we report the temporal dynamics of density and phase and we show the emergence of isotropy in momentum space and the presence of different scaling laws in the incompressible kinetic energy spectrum. The microscopic origin of the algebraic exponents in the energy spectrum is discussed by studying the internal structure of quantized vortices within the healing length and their clustering at larger length scales. These results are obtained using two counter-streaming fluids of light, which allows for a precise preparation of the initial state and the in-situ measurement of the compressible and incompressible fluid velocity.
翻訳日:2023-12-01 23:36:38 公開日:2023-11-30
# グラフオートエンコーダと線形モデルの関係

Relating graph auto-encoders to linear models ( http://arxiv.org/abs/2211.01858v2 )

ライセンス: Link先を確認
Solveig Klepper and Ulrike von Luxburg(参考訳) グラフオートエンコーダはユークリッドベクトル空間におけるグラフ表現を構築するために広く用いられている。 しかし、多くのタスク上の線形モデルがグラフオートエンコーダより優れていることが実証的に指摘されている。 本研究では,グラフオートエンコーダによって誘導される解空間が線形写像の解空間のサブセットであることを証明する。 これは、線形埋め込みモデルがグラフ畳み込みネットワークに基づくグラフオートエンコーダの表現力を持つことを示す。 ではなぜ非線形グラフオートエンコーダをまだ使っているのか? 一つの理由は、線形解空間を積極的に制限することで、学習と一般化を改善する帰納的バイアスをもたらす可能性があることである。 多くの研究者はこの目的に向けてエンコーダの非線形性が重要な要素であると信じているが、グラフのノード特徴をより強力な帰納バイアスとみなす。 線形モデルに対応するバイアスを導入し、解空間の変化を分析することによって理論的洞察を与える。 本実験は, 線形エンコーダが特徴情報を用いた場合, 非線形エンコーダよりも優れていることを示す。

Graph auto-encoders are widely used to construct graph representations in Euclidean vector spaces. However, it has already been pointed out empirically that linear models on many tasks can outperform graph auto-encoders. In our work, we prove that the solution space induced by graph auto-encoders is a subset of the solution space of a linear map. This demonstrates that linear embedding models have at least the representational power of graph auto-encoders based on graph convolutional networks. So why are we still using nonlinear graph auto-encoders? One reason could be that actively restricting the linear solution space might introduce an inductive bias that helps improve learning and generalization. While many researchers believe that the nonlinearity of the encoder is the critical ingredient towards this end, we instead identify the node features of the graph as a more powerful inductive bias. We give theoretical insights by introducing a corresponding bias in a linear model and analyzing the change in the solution space. Our experiments are aligned with other empirical work on this question and show that the linear encoder can outperform the nonlinear encoder when using feature information.
翻訳日:2023-12-01 23:36:24 公開日:2023-11-30
# 量子位相処理とその位相・エントロピー推定への応用

Quantum Phase Processing and its Applications in Estimating Phase and Entropies ( http://arxiv.org/abs/2209.14278v3 )

ライセンス: Link先を確認
Youle Wang, Lei Zhang, Zhan Yu, Xin Wang(参考訳) 量子コンピューティングは、量子系の進化が指数関数的に大きいヒルベルト空間内のユニタリ作用素によって記述されるため、多くの問題を解決するためのスピードアップを提供することができる。 そのようなユニタリ作用素は固有状態の位相を変え、量子アルゴリズムを古典的なものと根本的に異なるものにする。 量子コンピューティングのこのユニークな原理に基づいて、任意の三角変換を直接ユニタリ作用素の固有位相に適用できる新しいアルゴリズムツールボックス「量子位相処理」を開発した。 量子位相処理回路は単一の量子ビット回転と制御単位で構成され、通常は1つのアンシラ量子ビットのみを使用する。 位相変換の能力に加えて、特に量子位相処理は、アンシラ量子ビットを測定するだけで量子システムの固有情報を抽出することができ、間接計測と自然に互換性がある。 量子位相処理は量子特異値変換(quantum singular value transformation)として知られる別の強力なフレームワークを補完し、特に位相関係の問題を解くためのより直感的で効率的な量子アルゴリズムをもたらす。 顕著な応用として,量子フーリエ変換を必要としない量子位相推定アルゴリズムを提案する。 さらに, ハミルトンシミュレーション, エンタングルメント分光, 量子エントロピー推定における多くの応用について検討し, ほぼすべてのケースで改善や最適性を示すことにより, 提案手法のパワーを活用した。

Quantum computing can provide speedups in solving many problems as the evolution of a quantum system is described by a unitary operator in an exponentially large Hilbert space. Such unitary operators change the phase of their eigenstates and make quantum algorithms fundamentally different from their classical counterparts. Based on this unique principle of quantum computing, we develop a new algorithmic toolbox "quantum phase processing" that can directly apply arbitrary trigonometric transformations to eigenphases of a unitary operator. The quantum phase processing circuit is constructed simply, consisting of single-qubit rotations and controlled-unitaries, typically using only one ancilla qubit. Besides the capability of phase transformation, quantum phase processing in particular can extract the eigen-information of quantum systems by simply measuring the ancilla qubit, making it naturally compatible with indirect measurement. Quantum phase processing complements another powerful framework known as quantum singular value transformation and leads to more intuitive and efficient quantum algorithms for solving problems that are particularly phase-related. As a notable application, we propose a new quantum phase estimation algorithm without quantum Fourier transform, which requires the fewest ancilla qubits and matches the best performance so far. We further exploit the power of our method by investigating a plethora of applications in Hamiltonian simulation, entanglement spectroscopy and quantum entropies estimation, demonstrating improvements or optimality for almost all cases.
翻訳日:2023-12-01 23:34:45 公開日:2023-11-30
# The many-Worlds Calculus

The Many-Worlds Calculus ( http://arxiv.org/abs/2206.10234v3 )

ライセンス: Link先を確認
Kostia Chardonnet, Marc de Visme, Beno\^it Valiron, Renaud Vilmart(参考訳) 双積を持つコンパクトなカテゴリに基づく量子計算のための新しい型付きグラフィカル言語を提案する。 我々の言語は、ZX計算や量子回路といった既存のアプローチを一般化し、量子制御をサポートする自然なフレームワークを提供する。 この言語には、線形応用に基づく表記意味論と方程式理論が備わっている。 図形の正規形式を用いることで、言語が普遍的であること、および方程式理論が意味論に関して完備であることを証明する。

We propose a new typed graphical language for quantum computation, based on compact categories with biproducts. Our language generalizes existing approaches such as ZX-calculus and quantum circuits, while offering a natural framework to support quantum control: it natively supports "quantum tests". The language comes equipped with a denotational semantics based on linear applications, and an equational theory. Through the use of normal forms for the diagrams, we prove the language to be universal, and the equational theory to be complete with respect to the semantics.
翻訳日:2023-12-01 23:33:07 公開日:2023-11-30
# 劣化変調による実世界光電界画像の超解像

Real-World Light Field Image Super-Resolution via Degradation Modulation ( http://arxiv.org/abs/2206.06214v2 )

ライセンス: Link先を確認
Yingqian Wang, Zhengyu Liang, Longguang Wang, Jungang Yang, Wei An, Yulan Guo(参考訳) 近年、光電場(LF)画像超解像(SR)におけるディープニューラルネットワーク(DNN)の大きな進歩を目撃している。 しかし、既存のDNNベースのLF画像SR法は、単一の固定劣化(例えば、バイコビックダウンサンプリング)に基づいて開発されており、様々な劣化を伴う実際のLF画像に対して適用できない。 本稿では,実世界のLF画像SRの簡易かつ効果的な手法を提案する。 本研究では,実際のLF画像の劣化過程を定式化するために,実用的なLF劣化モデルを開発した。 次に、畳み込みニューラルネットワークは、srプロセスに先行する劣化を組み込むように設計される。 定式化分解を用いたLF画像のトレーニングにより,空間情報と角情報の両方をLF画像に組み込んで,異なる劣化を変調することができる。 合成劣化画像と実世界のlf画像の両方について広範な実験を行った結果,本手法の有効性が示された。 既存の最先端のシングルおよびlf画像sr法と比較して,本手法は幅広い劣化下で優れたsr性能を実現し,実画像への一般化を図っている。 コードとモデルはhttps://yingqianwang.github.io/lf-dmnet/で入手できる。

Recent years have witnessed the great advances of deep neural networks (DNNs) in light field (LF) image super-resolution (SR). However, existing DNN-based LF image SR methods are developed on a single fixed degradation (e.g., bicubic downsampling), and thus cannot be applied to super-resolve real LF images with diverse degradation. In this paper, we propose a simple yet effective method for real-world LF image SR. In our method, a practical LF degradation model is developed to formulate the degradation process of real LF images. Then, a convolutional neural network is designed to incorporate the degradation prior into the SR process. By training on LF images using our formulated degradation, our network can learn to modulate different degradation while incorporating both spatial and angular information in LF images. Extensive experiments on both synthetically degraded and real-world LF images demonstrate the effectiveness of our method. Compared with existing state-of-the-art single and LF image SR methods, our method achieves superior SR performance under a wide range of degradation, and generalizes better to real LF images. Codes and models are available at https://yingqianwang.github.io/LF-DMnet/.
翻訳日:2023-12-01 23:32:59 公開日:2023-11-30
# 拡張系におけるカオスへの遷移とその量子不純物モデル

Transition to chaos in extended systems and their quantum impurity models ( http://arxiv.org/abs/2205.01130v2 )

ライセンス: Link先を確認
Mahaveer Prasad, Hari Kumar Yadalam, Manas Kulkarni, Camille Aron(参考訳) chaosは量子情報処理の基本的な限界を設定する。 量子光学デバイスに関連する空間拡張量子多体系におけるカオスの発生について検討する。 有限鎖上のTavis-Cummingsモデルの拡張版を考える。 レベルスペーシング統計,隣接ギャップ比,スペクトル形状因子を調べた結果,tavis-cummingsサイト間のホッピングが有限値を超えるにつれて,積分可能性からカオスへの移行が観察される。 この結果は,拡張格子測地では明らかに難しい数値対角化によって得られる。 これらの困難を回避しようとする試みとして、格子モデルのスペクトル特性をうまく捉えることができる最小の単一サイト量子不純物モデルを特定する。 このアプローチは、大きな局所ヒルベルト空間を持つ他の格子モデルに適応することを意図している。

Chaos sets a fundamental limit to quantum-information processing schemes. We study the onset of chaos in spatially extended quantum many-body systems that are relevant to quantum optical devices. We consider an extended version of the Tavis-Cummings model on a finite chain. By studying level-spacing statistics, adjacent gap ratios, and spectral form factors, we observe the transition from integrability to chaos as the hopping between the Tavis-Cummings sites is increased above a finite value. The results are obtained by means of exact numerical diagonalization which becomes notoriously hard for extended lattice geometries. In an attempt to circumvent these difficulties, we identify a minimal single-site quantum impurity model that successfully captures the spectral properties of the lattice model. This approach is intended to be adaptable to other lattice models with large local Hilbert spaces.
翻訳日:2023-12-01 23:32:39 公開日:2023-11-30
# SimpleX: コラボレーションフィルタリングのためのシンプルで強力なベースライン

SimpleX: A Simple and Strong Baseline for Collaborative Filtering ( http://arxiv.org/abs/2109.12613v3 )

ライセンス: Link先を確認
Kelong Mao, Jieming Zhu, Jinpeng Wang, Quanyu Dai, Zhenhua Dong, Xi Xiao, Xiuqiang He(参考訳) 協調フィルタリング(CF)は推薦システムにおいて広く研究されている研究テーマである。 CFモデルの学習は一般的に、相互作用エンコーダ、損失関数、負サンプリングという3つの主要なコンポーネントに依存する。 既存の多くの研究はより強力な相互作用エンコーダの設計に焦点を当てているが、損失関数と負のサンプリング比の影響はまだ十分に研究されていない。 本研究では,損失関数の選択と負のサンプリング比が同等に重要であることを示す。 より具体的には、コサインコントラスト損失(CCL)を提案し、さらにSimpleXと呼ばれる単純な統合CFモデルに組み込む。 11のベンチマークデータセットで広範な実験が行われ、合計で29の既存のcfモデルと比較された。 驚くべきことに、我々のCCL損失と大きな負のサンプリング比の下で、SimpleXは最も洗練された最先端のモデルを大きなマージン(例えば、LightGCNよりもNDCG@20が最大48.5%改善)で上回ることができる。 我々は,SimpleXがCFの今後の研究を促進するための単純な強力なベースラインとして機能するだけでなく,損失関数と負サンプリングの改善に向けた潜在的研究の方向性にも光を当てることができると考えている。 ソースコードはhttps://reczoo.github.io/SimpleX.orgで公開されます。

Collaborative filtering (CF) is a widely studied research topic in recommender systems. The learning of a CF model generally depends on three major components, namely interaction encoder, loss function, and negative sampling. While many existing studies focus on the design of more powerful interaction encoders, the impacts of loss functions and negative sampling ratios have not yet been well explored. In this work, we show that the choice of loss function as well as negative sampling ratio is equivalently important. More specifically, we propose the cosine contrastive loss (CCL) and further incorporate it to a simple unified CF model, dubbed SimpleX. Extensive experiments have been conducted on 11 benchmark datasets and compared with 29 existing CF models in total. Surprisingly, the results show that, under our CCL loss and a large negative sampling ratio, SimpleX can surpass most sophisticated state-of-the-art models by a large margin (e.g., max 48.5% improvement in NDCG@20 over LightGCN). We believe that SimpleX could not only serve as a simple strong baseline to foster future research on CF, but also shed light on the potential research direction towards improving loss function and negative sampling. Our source code will be available at https://reczoo.github.io/SimpleX.
翻訳日:2023-12-01 23:32:27 公開日:2023-11-30
# ClustML:人間ラベルグループで学習した散乱体におけるクラスターパターンの複雑度の測定

ClustML: A Measure of Cluster Pattern Complexity in Scatterplots Learnt from Human-labeled Groupings ( http://arxiv.org/abs/2106.00599v2 )

ライセンス: Link先を確認
Mostafa M. Abbas, Ehsan Ullah, Abdelkader Baggag, Halima Bensmail, Michael Sedlmair, Micha\"el Aupetit(参考訳) ビジュアル品質測定(VQM)は、視覚化のパターンを自動的に検出し定量化することにより、アナリストを支援するように設計されている。 ClustMLと呼ばれる,これまでに収集した被験者の判断に基づいて学習した,散在する人物の視覚的グループ化パターンのための新しいVQMを提案する。 本モデルでは,ガウス混合モデルのパラメトリック空間に散乱プロットを符号化し,人間の判断データに基づいて学習した分類器を用いてグループ化パターンの知覚複雑性を推定する。 初期混合成分と最終結合群の数。 既存のVQMを改良し、まずは2ガウスのクラスタパターンに対する人間の判断をより良く推定し、次に、スパッタプロットにおける一般的なクラスタパターンのランク付け時に高い精度を与える。 本研究は,大量の散布原虫の視覚的解析に専門家が依存するゲノムワイド・アソシエーション研究のための近親関係データの解析に活用する。 ベンチマークデータセットと新しいVQMを実用化し、さらなる改善を加えています。

Visual quality measures (VQMs) are designed to support analysts by automatically detecting and quantifying patterns in visualizations. We propose a new VQM for visual grouping patterns in scatterplots, called ClustML, which is trained on previously collected human subject judgments. Our model encodes scatterplots in the parametric space of a Gaussian Mixture Model and uses a classifier trained on human judgment data to estimate the perceptual complexity of grouping patterns. The numbers of initial mixture components and final combined groups. It improves on existing VQMs, first, by better estimating human judgments on two-Gaussian cluster patterns and, second, by giving higher accuracy when ranking general cluster patterns in scatterplots. We use it to analyze kinship data for genome-wide association studies, in which experts rely on the visual analysis of large sets of scatterplots. We make the benchmark datasets and the new VQM available for practical use and further improvements.
翻訳日:2023-12-01 23:32:05 公開日:2023-11-30
# 非線形最適レギュレータのモデルフリー再設計のための2段階強化学習

Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator ( http://arxiv.org/abs/2103.03808v4 )

ライセンス: Link先を確認
Mei Minami, Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka Hori(参考訳) 多くの実用的な制御応用において、クローズドループシステムの性能は植物特性の変化により経時的に低下する。 したがって、システムモデリングプロセスを通過することなくコントローラを再設計する必要性が強く、クローズドループシステムではしばしば困難である。 強化学習(rl)は、閉ループ系の測定のみに基づいた非線形力学系の最適制御系のモデルフリー再設計を可能にする有望なアプローチの一つである。 しかしながら、RLの学習プロセスは通常、植物に摩耗を蓄積する制御の不十分なシステムを用いて、かなりの数の試行錯誤実験を必要とする。 この限界を克服するために,未知非線形システムの最適レギュレータ再設計問題において,rlの過渡学習性能を向上させるモデルフリーな2段階設計手法を提案する。 具体的には,まずモデルフリーである程度の制御性能を達成する線形制御則を設計,次に設計した線形制御則を並行してオンラインrlを用いて非線形最適制御則を訓練する。 線形制御法則の設計のためのオフラインRLアルゴリズムを導入し、理論上は軽微な仮定の下でLQRコントローラへの収束を保証する。 数値シミュレーションにより,提案手法はRLのハイパーパラメータチューニングにおける過渡学習性能と効率を向上させることを示した。

In many practical control applications, the performance level of a closed-loop system degrades over time due to the change of plant characteristics. Thus, there is a strong need for redesigning a controller without going through the system modeling process, which is often difficult for closed-loop systems. Reinforcement learning (RL) is one of the promising approaches that enable model-free redesign of optimal controllers for nonlinear dynamical systems based only on the measurement of the closed-loop system. However, the learning process of RL usually requires a considerable number of trial-and-error experiments using the poorly controlled system that may accumulate wear on the plant. To overcome this limitation, we propose a model-free two-step design approach that improves the transient learning performance of RL in an optimal regulator redesign problem for unknown nonlinear systems. Specifically, we first design a linear control law that attains some degree of control performance in a model-free manner, and then, train the nonlinear optimal control law with online RL by using the designed linear control law in parallel. We introduce an offline RL algorithm for the design of the linear control law and theoretically guarantee its convergence to the LQR controller under mild assumptions. Numerical simulations show that the proposed approach improves the transient learning performance and efficiency in hyperparameter tuning of RL.
翻訳日:2023-12-01 23:31:46 公開日:2023-11-30
# 変化するヒルベルト空間内積の観察

Observing a Changing Hilbert-Space Inner Product ( http://arxiv.org/abs/2101.00015v3 )

ライセンス: Link先を確認
Salini Karuvade, Abhijeet Alase and Barry C. Sanders(参考訳) 量子力学において、物理状態はヒルベルト空間 $\mathscr H$ 内のベクトル空間 $\langle\,|\,\rangle$ の線で表されるが、その物理的意味は重なり$\langle\phi|\psi\rangle$ for $|\psi\rangle$ 純粋状態(準備の説明)と$\langle\phi|$ の射影測度として生じる。 しかし、現在の量子論は、準備と測定の間隔で変化する内部積の結果に公式には対応していない。 このような変化する内部積の理論的枠組みを確立し、標準量子力学と一貫性があることを示す。 さらに、この変化はトモグラフィ的に観測可能な量子チャネルによって説明され、PT対称量子力学の爆発的話題と我々の結果がどのように強く関係しているかを解明する。 本稿では,ユニタリチャネルを用いたqutritプロトコルを用いて,qubitの内部積の変化を実験的に実現する方法について述べる。

In quantum mechanics, physical states are represented by rays in Hilbert space $\mathscr H$, which is a vector space imbued by an inner product $\langle\,|\,\rangle$, whose physical meaning arises as the overlap $\langle\phi|\psi\rangle$ for $|\psi\rangle$ a pure state (description of preparation) and $\langle\phi|$ a projective measurement. However, current quantum theory does not formally address the consequences of a changing inner product during the interval between preparation and measurement. We establish a theoretical framework for such a changing inner product, which we show is consistent with standard quantum mechanics. Furthermore, we show that this change is described by a quantum channel, which is tomographically observable, and we elucidate how our result is strongly related to the exploding topic of PT-symmetric quantum mechanics. We explain how to realize experimentally a changing inner product for a qubit in terms of a qutrit protocol with a unitary channel.
翻訳日:2023-12-01 23:31:24 公開日:2023-11-30
# 線形系を解くための高速かつ実用的な量子インスパイアされた古典アルゴリズム

Fast and Practical Quantum-Inspired Classical Algorithms for Solving Linear Systems ( http://arxiv.org/abs/2307.06627v2 )

ライセンス: Link先を確認
Qian Zuo and Tongyang Li(参考訳) 線形系を解くための高速で実用的な量子インスピレーション付き古典アルゴリズムを提案する。 具体的には、行列 $a\in\mathbb{r}^{m\times n}$ とベクトル $b\in\mathbb{r}^m$ に対するサンプリングとクエリアクセスを与えられたとき、線形系の $x\in\mathbb{r}^{n}$ の解に対してデータ構造を生成する古典的なアルゴリズムを提案し、そのエントリをサンプリングしてクエリすることができる。 x$ は $\|x-A^{+}b\|\leq\epsilon\|A^{+}b\|$ を満たすが、$\|\cdot\|$ はスペクトルノルムであり、$A^+$ は$A$ のムーア=ペンローズ逆である。 我々のアルゴリズムは時間複雑性$\widetilde{O}(\kappa_F^4/\kappa\epsilon^2)$で、$\kappa_{F} =\|A\|_F\|A^+\|$と$\kappa=\|A\|\|A^+\|$は条件数である。 shao and montanaro, arxiv:2103.10309v2] の以前の結果と比較すると, このアルゴリズムは条件数で多項式の高速化を実現する。 a$ が $s$-sparse の場合、アルゴリズムは$\widetilde{o}(s \kappa\log(1/\epsilon))$ を持ち、$\kappa$ と $1/\epsilon$ の線形系を解くための量子下限を多対数因子 [harrow と kothari] に一致させる。 a$ が $s$-sparse で対称な正定値であれば、アルゴリズムは$\widetilde{o}(s\sqrt{\kappa}\log(1/\epsilon))$ を持つ。 技術的には、重粒子運動量法を線形系を解くために量子インスパイアされた古典的アルゴリズムに適用し、運動量を持つ量子インスパイアされたカッツマルツ法と運動量を持つ量子インスパイアされた座標降下法という2つの新しい手法を提案する。 これらの解析は運動量遷移行列の注意深く分解し、新しいスペクトルノルム濃度境界を独立なランダム行列に適用する。 最後に, 合成および実世界の両方のデータセット上で, アルゴリズムの数値実験を行い, 実験結果から理論的主張を裏付ける。

We propose fast and practical quantum-inspired classical algorithms for solving linear systems. Specifically, given sampling and query access to a matrix $A\in\mathbb{R}^{m\times n}$ and a vector $b\in\mathbb{R}^m$, we propose classical algorithms that produce a data structure for the solution $x\in\mathbb{R}^{n}$ of the linear system $Ax=b$ with the ability to sample and query its entries. The resulting $x$ satisfies $\|x-A^{+}b\|\leq\epsilon\|A^{+}b\|$, where $\|\cdot\|$ is the spectral norm and $A^+$ is the Moore-Penrose inverse of $A$. Our algorithm has time complexity $\widetilde{O}(\kappa_F^4/\kappa\epsilon^2)$ in the general case, where $\kappa_{F} =\|A\|_F\|A^+\|$ and $\kappa=\|A\|\|A^+\|$ are condition numbers. Compared to the prior state-of-the-art result [Shao and Montanaro, arXiv:2103.10309v2], our algorithm achieves a polynomial speedup in condition numbers. When $A$ is $s$-sparse, our algorithm has complexity $\widetilde{O}(s \kappa\log(1/\epsilon))$, matching the quantum lower bound for solving linear systems in $\kappa$ and $1/\epsilon$ up to poly-logarithmic factors [Harrow and Kothari]. When $A$ is $s$-sparse and symmetric positive-definite, our algorithm has complexity $\widetilde{O}(s\sqrt{\kappa}\log(1/\epsilon))$. Technically, our main contribution is the application of the heavy ball momentum method to quantum-inspired classical algorithms for solving linear systems, where we propose two new methods with speedups: quantum-inspired Kaczmarz method with momentum and quantum-inspired coordinate descent method with momentum. Their analysis exploits careful decomposition of the momentum transition matrix and the application of novel spectral norm concentration bounds for independent random matrices. Finally, we also conduct numerical experiments for our algorithms on both synthetic and real-world datasets, and the experimental results support our theoretical claims.
翻訳日:2023-12-01 23:25:01 公開日:2023-11-30
# キャビティ積分によるナノダイヤモンド中の単一ゲルマニウム空孔中心のスペクトル密度の増大

Enhanced Spectral Density of a Single Germanium Vacancy Center in a Nanodiamond by Cavity-Integration ( http://arxiv.org/abs/2307.00916v2 )

ライセンス: Link先を確認
Florian Feuchtmayr, Robert Berghaus, Selene Sachero, Gregor Bayer, Niklas Lettner, Richard Waltrich, Patrick Maier, Viatcheslav Agafonov and Alexander Kubanek(参考訳) ダイヤモンド中の色中心、中でも負電荷のゲルマニウム空孔(GeV$^-$)は、量子ネットワークのような多くの量子光学の応用に有望な候補である。 効率的な実装には、光遷移を単一の光モードに結合する必要がある。 本稿では, 原子間力顕微鏡を用いたナノマニピュレーションによる開放型ファブリーp\'erotマイクロキャビティへの光学特性に優れた単層gev中心を含むナノダイアモンドの移動を実証する。 gevdefectのキャビティモードへの結合は達成され、光共振器はf = 7,700の高精細度を維持し、48倍のスペクトル密度向上が観測される。 本稿では,gev欠陥とfabry-p\'erotマイクロキャビティを環境条件下で統合し,効率的なスピン光子プラットフォームに向けて低温温度まで実験を展開する可能性を示す。

Color centers in diamond, among them the negatively-charged germanium vacancy (GeV$^-$), are promising candidates for many applications of quantum optics such as a quantum network. For efficient implementation, the optical transitions need to be coupled to a single optical mode. Here, we demonstrate the transfer of a nanodiamond containing a single ingrown GeV- center with excellent optical properties to an open Fabry-P\'erot microcavity by nanomanipulation utilizing an atomic force microscope. Coupling of the GeV- defect to the cavity mode is achieved, while the optical resonator maintains a high finesse of F = 7,700 and a 48-fold spectral density enhancement is observed. This article demonstrates the integration of a GeV- defect with a Fabry-P\'erot microcavity under ambient conditions with the potential to extend the experiments to cryogenic temperatures towards an efficient spin-photon platform.
翻訳日:2023-12-01 23:23:35 公開日:2023-11-30
# 白血球画像のための完全教師なしインスタンスセグメンテーション手法

A Fully Unsupervised Instance Segmentation Technique for White Blood Cell Images ( http://arxiv.org/abs/2306.14875v2 )

ライセンス: Link先を確認
Shrijeet Biswas, Amartya Bhattacharya(参考訳) 白血球 (leukocytes) とも呼ばれる白血球は、正常な免疫系細胞として機能する不均一に核化された細胞群である。 これらは骨髄に由来するもので、血液、血漿、リンパ組織に存在する。 白血球は、ヒトの体内に侵入する細菌、ウイルス、その他の病原体を殺す。 白血球数の検出は、カモフラージュ感染や、自己免疫疾患、免疫不全、血液疾患などの慢性的な疾患について医師に警告することができる。 分画は顕微鏡画像解析から白血球(WBC)の同定に重要な役割を果たしている。 顕微鏡画像におけるセグメンテーションの目標は、画像を異なる領域に分割することである。 そこで本研究では,核と細胞質の両方を含むWBCを骨髄画像からセグメント化するための新しい例分割法を提案する。

White blood cells, also known as leukocytes are group of heterogeneously nucleated cells which act as salient immune system cells. These are originated in the bone marrow and are found in blood, plasma, and lymph tissues. Leukocytes kill the bacteria, virus and other kind of pathogens which invade human body through phagocytosis that in turn results immunity. Detection of a white blood cell count can reveal camouflaged infections and warn doctors about chronic medical conditions such as autoimmune diseases, immune deficiencies, and blood disorders. Segmentation plays an important role in identification of white blood cells (WBC) from microscopic image analysis. The goal of segmentation in a microscopic image is to divide the image into different distinct regions. In our paper, we tried to propose a novel instance segmentation method for segmenting the WBCs containing both the nucleus and the cytoplasm, from bone marrow images.
翻訳日:2023-12-01 23:23:16 公開日:2023-11-30
# PERFOGRAPH:パフォーマンス最適化とプログラム解析のための数値認識プログラムグラフ表現

PERFOGRAPH: A Numerical Aware Program Graph Representation for Performance Optimization and Program Analysis ( http://arxiv.org/abs/2306.00210v2 )

ライセンス: Link先を確認
Ali TehraniJamsaz, Quazi Ishtiaque Mahmud, Le Chen, Nesreen K. Ahmed, Ali Jannesari(参考訳) 機械学習の顕著な成長と大きな成功は、その応用をプログラミング言語やプログラム分析に拡張した。 しかし、最新の機械学習メソッドを採用する上で重要な課題はプログラミング言語の表現であり、プログラムを推論する機械学習メソッドの能力に直接影響を及ぼす。 数値認識の欠如、データ構造情報の集約、変数を以前の表現で提示する不適切な方法は、その性能を制限している。 現行のプログラム表現の限界と課題を克服するために,グラフベースのプログラム表現であるperfographを提案する。 PERFOGRAPHは、新しいノードとエッジを導入することで、数値情報と集約データ構造をキャプチャできる。 さらに,数値認識を組み込んだ組込み手法を提案する。 これらの拡張により、perfographはプログラムの依存性やセマンティクスを効果的にキャプチャする非常に柔軟でスケーラブルな表現となる。 その結果、プログラム分析、性能最適化、並列性発見といった様々なアプリケーションのための強力なツールとして機能する。 実験の結果,よく知られたデバイスマッピングチャレンジでは,エラーレートを7.4% (amdデータセット) と10% (nvidiaデータセット) 削減することで,既存の表現を上回り,新たな最先端結果を設定することができた。 また、Parallelism DiscoveryやNUMA、Prefetchers Configuration予測など、さまざまなパフォーマンス最適化タスクにおいて、最先端の結果も新たに設定する。

The remarkable growth and significant success of machine learning have expanded its applications into programming languages and program analysis. However, a key challenge in adopting the latest machine learning methods is the representation of programming languages, which directly impacts the ability of machine learning methods to reason about programs. The absence of numerical awareness, aggregate data structure information, and improper way of presenting variables in previous representation works have limited their performances. To overcome the limitations and challenges of current program representations, we propose a graph-based program representation called PERFOGRAPH. PERFOGRAPH can capture numerical information and the aggregate data structure by introducing new nodes and edges. Furthermore, we propose an adapted embedding method to incorporate numerical awareness. These enhancements make PERFOGRAPH a highly flexible and scalable representation that effectively captures programs intricate dependencies and semantics. Consequently, it serves as a powerful tool for various applications such as program analysis, performance optimization, and parallelism discovery. Our experimental results demonstrate that PERFOGRAPH outperforms existing representations and sets new state-of-the-art results by reducing the error rate by 7.4% (AMD dataset) and 10% (NVIDIA dataset) in the well-known Device Mapping challenge. It also sets new state-of-the-art results in various performance optimization tasks like Parallelism Discovery and NUMA and Prefetchers Configuration prediction.
翻訳日:2023-12-01 23:23:01 公開日:2023-11-30
# 深O($n$)-同変超球面の学習

Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v3 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack, Andreas Robinson, Cuong Le(参考訳) 本稿では,超球面と正則な$n$-simplexes を用いて,直交変換の下で同値な (深い) $n$d 特徴を学習する手法を提案する。 我々の主な貢献は理論であり、幾何変換の下での等分散や不変といった幾何学的深層学習における大きな課題に取り組むことである。 すなわち、我々は最近開発された3次元球状ニューロン(SO(3)-同変フィルタバンク)の理論を、球状決定面を持つニューロンに基づいて強化し、そのニューロンを$n$Dに拡張し、深い同変超球と呼び、それらの多層構造を可能にする。 n$dで合成および実世界のデータを使用して、理論的な貢献を実験的に検証し、我々のアプローチが、ベンチマークデータセットの競合手法よりも1つのケースを除いて優れていることを発見し、他のケースを除いて、より優れたスピード/パフォーマンスのトレードオフを示す。

This paper presents an approach to learning (deep) $n$D features equivariant under orthogonal transformations, utilizing hyperspheres and regular $n$-simplexes. Our main contributions are theoretical and tackle major challenges in geometric deep learning such as equivariance and invariance under geometric transformations. Namely, we enrich the recently developed theory of steerable 3D spherical neurons -- SO(3)-equivariant filter banks based on neurons with spherical decision surfaces -- by extending said neurons to $n$D, which we call deep equivariant hyperspheres, and enabling their multi-layer construction. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the competing methods for benchmark datasets in all but one case, additionally demonstrating a better speed/performance trade-off in all but one other case.
翻訳日:2023-12-01 23:22:39 公開日:2023-11-30
# 固定周波数マルチレベル超伝導量子ビットのための全マイクロ波および低コストラムシフトエンジニアリング

All-microwave and low-cost Lamb shift engineering for a fixed frequency multi-level superconducting qubit ( http://arxiv.org/abs/2304.11782v2 )

ライセンス: Link先を確認
Byoung-moo Ann, and Gary A. Steele(参考訳) 電磁真空は、量子電磁力学(QED)において重要な現象であるラムシフトの原因であることが知られている。 qed回路では、分散結合された読み出しまたはバス共振器は、元のブロードバンドケースよりもはるかに大きな量子ビットのラムシフトを引き起こす可能性がある。 しかし,本研究は,回路設計における回路qed需要のオーバーヘッドや固有値の非摂動的再正規化におけるラムシフトを制御するための従来のアプローチや提案であり,本研究は固定周波数トランスモンのラムシフトを効果的かつ費用効率良く制御する手法を提案するものである。 トランスモンと共振器間の駆動誘起縦結合を用いる。 共振器周波数付近の非共振単色駆動を用いることで、上記課題に直面することなく、ラムシフトを32MHzから-30MHzに修正することができる。 我々の研究は、電磁真空の基本効果を効率的に設計する方法を確立し、マルチレベルシステムの非パラメトリック周波数制御においてより柔軟性を提供する。 特に、ラムシフトエンジニアリングスキームは、個々の駆動線がなくても、トランスモンの周波数を個別に制御することができる。

It is known that the electromagnetic vacuum is responsible for the Lamb shift, which is a crucial phenomenon in quantum electrodynamics (QED). In circuit QED, the readout or bus resonators that are dispersively coupled can result in a significant Lamb shift of the qubit, much larger than that in the original broadband cases. However, previous approaches or proposals for controlling the Lamb shift in circuit QED demand overheads in circuit designs or non-perturbative renormalization of the system's eigenbases, which can impose formidable limitations.In this work, we propose and demonstrate an efficient and cost-effective method for controlling the Lamb shift of fixed-frequency transmons. We employ the drive-induced longitudinal coupling between the transmon and resonator. By simply using an off-resonant monochromatic driving near the resonator frequency, we can modify the Lamb shift by 32 to -30 MHz without facing the aforementioned challenges. Our work establishes an efficient way of engineering the fundamental effects of the electromagnetic vacuum and provides greater flexibility in non-parametric frequency controls of multilevel systems. In particular, this Lamb shift engineering scheme enables individually control of the frequency of transmons, even without individual drive lines.
翻訳日:2023-12-01 23:21:36 公開日:2023-11-30
# 準高調波準電荷超伝導量子ビットのBlochnium

The quartic Blochnium: an anharmonic quasicharge superconducting qubit ( http://arxiv.org/abs/2304.10401v2 )

ライセンス: Link先を確認
Luca Chirolli, Matteo Carrega, Francesco Giazotto(参考訳) 準電荷超伝導量子ビットはトランスモンの双対を実現し、ジョセフソン接合上に閉じた非常に大きなインダクタンスにより、フラックスや電荷の変動に対して強い堅牢性を示す。 同時に、スペクトルの弱いアンハーモニック性が親トランスモンから受け継がれ、リークエラーが発生し、マルチキュービットのセットアップでは周波数の混雑が発生しやすい。 本稿では、クォート超インダクタを用いた新しい設計を提案し、スペクトルに十分な不調和性を与える。 クォート状態は、外部のフラックスに深刻な依存を伴わずに最小限の量子ゆらぎを示すジョセフソン接合ループの適切に設計された連鎖によって達成される。

The quasicharge superconducting qubit realizes the dual of the transmon and shows strong robustness to flux and charge fluctuations thanks to a very large inductance closed on a Josephson junction. At the same time, a weak anharmonicity of the spectrum is inherited from the parent transmon, that introduces leakage errors and is prone to frequency crowding in multi-qubit setups. We propose a novel design that employs a quartic superinductor and confers a good degree of anharmonicity to the spectrum. The quartic regime is achieved through a properly designed chain of Josephson junction loops that shows minimal quantum fluctuations without introducing a severe dependence on the external fluxes.
翻訳日:2023-12-01 23:21:14 公開日:2023-11-30
# ClothCombo: 多層布のドレーピングのためのクラス間相互作用のモデル化

ClothCombo: Modeling Inter-Cloth Interaction for Draping Multi-Layered Clothes ( http://arxiv.org/abs/2304.03492v2 )

ライセンス: Link先を確認
Dohae Lee, Hyun Kang, In-Kwon Lee(参考訳) 身体形状やポーズの異なる3d人体モデル上で,任意の服の組み合わせを描画するパイプラインである clothcombo を提案する。 既存の学習に基づく衣服のドレーピング手法は有望な成果を上げているが、衣服間の相互作用をモデル化するのは簡単ではないため、多層衣服は依然として困難である。 そこで本手法では,GNNベースのネットワークを用いて,異なる階層の衣服間の相互作用を効率的にモデル化し,多層衣服を実現する。 具体的には、まず、トポロジに依存しないネットワークを用いて、各布に特徴埋め込みを作成する。 そして、ドレーピングネットワークは、すべての衣服を変形させて、被服間相互作用を考慮せずに、対象の身体形状に適合させ、ポーズする。 最後に、脱線ネットワークは、衣服間の相互接続を解決する方法で、頂点ごとの変位を予測する。 実験では,複雑な多層シナリオにおいて高い性能を示す。 本手法は布のトポロジーによらず,多彩なポーズと衣服の組み合わせで実際の衣服の層状仮想試着に容易に使用できる。

We present ClothCombo, a pipeline to drape arbitrary combinations of clothes on 3D human models with varying body shapes and poses. While existing learning-based approaches for draping clothes have shown promising results, multi-layered clothing remains challenging as it is non-trivial to model inter-cloth interaction. To this end, our method utilizes a GNN-based network to efficiently model the interaction between clothes in different layers, thus enabling multi-layered clothing. Specifically, we first create feature embedding for each cloth using a topology-agnostic network. Then, the draping network deforms all clothes to fit the target body shape and pose without considering inter-cloth interaction. Lastly, the untangling network predicts the per-vertex displacements in a way that resolves interpenetration between clothes. In experiments, the proposed model demonstrates strong performance in complex multi-layered scenarios. Being agnostic to cloth topology, our method can be readily used for layered virtual try-on of real clothes in diverse poses and combinations of clothes.
翻訳日:2023-12-01 23:21:01 公開日:2023-11-30
# オープンシステム絡み合い測度を用いた量子-古典クロスオーバーの定量化

Quantifying measurement-induced quantum-to-classical crossover using an open-system entanglement measure ( http://arxiv.org/abs/2304.02965v2 )

ライセンス: Link先を確認
Christian Carisch, Alessandro Romito, Oded Zilberberg(参考訳) 測定対象の量子系の進化は、純粋な状態の確率的量子軌道によって記述できる。 代わりに、軌道上のアンサンブル平均はマスター方程式を介して進化する混合状態である。 どちらの記述も線形観測可能量に対して同じ期待値をもたらす。 近年、量子軌道中に現れる平均的絡み合いへの関心が高まっている。 エンタングルメントは、いわゆる測定誘起相転移、すなわち、領域則エンタングルメントを持つシステムサイズ依存相から量子ゼノ相への遷移に敏感な非線形観測器である。 興味深いことに、これらの系の混合定常状態記述はこの相転移に敏感である。 混合状態の絡み合いの定量化の難しさとともに、これは量子計測プロセスの記述のための量子軌道を好んでいる。 本研究では,(新たに開発した構成コヒーレンスを用いて)連続的な測定により,混合状態と量子軌道記述の両方における単一粒子の絡み合いについて検討する。 いずれの記述においても, 中間時間スケールにおける絡み合いは, 測定強度の関数と同じ定性的挙動を示すことがわかった。 エンタングルメントは、測定強度に依存するコヒーレンス長の概念を、過減衰から過減衰への遷移のカスケードによって説明する。 これは、測定によって引き起こされる絡み合いダイナミクスが混合状態によって捉えることができることを示している。

The evolution of a quantum system subject to measurements can be described by stochastic quantum trajectories of pure states. Instead, the ensemble average over trajectories is a mixed state evolving via a master equation. Both descriptions lead to the same expectation values for linear observables. Recently, there is growing interest in the average entanglement appearing during quantum trajectories. The entanglement is a nonlinear observable that is sensitive to so-called measurement-induced phase transitions, namely, transitions from a system-size dependent phase to a quantum Zeno phase with area-law entanglement. Intriguingly, the mixed steady-state description of these systems is insensitive to this phase transition. Together with the difficulty of quantifying the mixed state entanglement, this favors quantum trajectories for the description of the quantum measurement process. Here, we study the entanglement of a single particle under continuous measurements (using the newly developed configuration coherence) in both the mixed state and the quantum trajectories descriptions. In both descriptions, we find that the entanglement at intermediate time scales shows the same qualitative behavior as a function of the measurement strength. The entanglement engenders a notion of coherence length, whose dependence on the measurement strength is explained by a cascade of underdamped-to-overdamped transitions. This demonstrates that measurement-induced entanglement dynamics can be captured by mixed states.
翻訳日:2023-12-01 23:20:42 公開日:2023-11-30
# ZX計算による耐故障性の統一化

Unifying flavors of fault tolerance with the ZX calculus ( http://arxiv.org/abs/2303.08829v2 )

ライセンス: Link先を確認
Hector Bombin, Daniel Litinski, Naomi Nickerson, Fernando Pastawski, and Sam Roberts(参考訳) 基本的なフォールトトレランス特性を共有する量子計算のモデルがいくつか存在する。 この記事では、ZX計算に基づく統一フレームワークでこれらの異なるモデルを提示することで、共通性を明示する。 我々は、最近導入されたフロケ符号のモデルと同様に、回路ベース、計測ベース、融合ベース量子計算を含むトポロジカルフォールトトレランス特異的表面符号のモデルに焦点を当てる。 これらのモデルはすべて、同じ安定化可能なフォールトトレランス構造の異なるフレーバーと見なすことができ、フレーバー間のマッピングを可能にする一連の局所同値変換を通してこれを維持できる。 この統一的な視点は、安定したフォールトトレランスの異なる視点間で進捗を伝達する方法を開拓し、あるモデルに詳しい研究者が容易に他のモデルを理解するのに役立つことを期待する。

There are several models of quantum computation which exhibit shared fundamental fault-tolerance properties. This article makes commonalities explicit by presenting these different models in a unifying framework based on the ZX calculus. We focus on models of topological fault tolerance - specifically surface codes - including circuit-based, measurement-based and fusion-based quantum computation, as well as the recently introduced model of Floquet codes. We find that all of these models can be viewed as different flavors of the same underlying stabilizer fault-tolerance structure, and sustain this through a set of local equivalence transformations which allow mapping between flavors. We anticipate that this unifying perspective will pave the way to transferring progress among the different views of stabilizer fault-tolerance and help researchers familiar with one model easily understand others.
翻訳日:2023-12-01 23:20:21 公開日:2023-11-30
# スピンの非可換回転の最小ノイズ推定

Minimal-noise estimation of noncommuting rotations of a spin ( http://arxiv.org/abs/2303.08591v2 )

ライセンス: Link先を確認
Jakub Czartowski, Karol \.Zyczkowski, Daniel Braun(参考訳) 2スピン圧縮状態を用いてスピンの回転を測定するために,$\text{SU}(1,1)$インターフェロメトリのアナログを提案する。 最大スクイージングの回転角の推定におけるハイゼンベルク限界の到達可能性を示した。 特定の方向と強度に対して、古典的な境界上のすべての赤道回転軸(したがって非可換回転)に対する感度の利点は、対応する回転角に対する1パラメータ量子フィッシャー情報の二次スケーリングによって示される。 以上の結果から,同じ最適化初期状態を持つx$-y$-planeにおける任意の方向の磁場を測定する方法が得られた。

We propose an analogue of $\text{SU}(1,1)$ interferometry to measure rotation of a spin by using two-spin squeezed states. Attainability of the Heisenberg limit for the estimation of the rotation angle is demonstrated for maximal squeezing. For a specific direction and strength an advantage in sensitivity for all equatorial rotation axes (and hence non-commuting rotations) over the classical bound is shown in terms of quadratic scaling of the single-parameter quantum Fisher information for the corresponding rotation angles. Our results provide a method for measuring magnetic fields in any direction in the $x$-$y$-plane with the same optimized initial state.
翻訳日:2023-12-01 23:20:05 公開日:2023-11-30
# 固有状態トレース距離を用いた量子多体積分性とカオスの同定

Identifying quantum many-body integrability and chaos using eigenstates trace distances ( http://arxiv.org/abs/2301.13218v2 )

ライセンス: Link先を確認
Reyhaneh Khasseh, Jiaju Zhang, Markus Heyl, and M. A. Rajabpour(参考訳) 量子多体積分性とカオスの概念は、量子物質の理解において基本的な重要性を持っているが、その正確な定義は未だ未解決のままである。 本研究では,量子多体積分可能性とカオスの代替指標を提案する。これは最寄りのサブシステムトレース距離による固有状態の統計に基づくものである。 これにより,ランダム行列理論,自由フェルミオン,bethe-ansatz 可解系,多体局在モデルなど,多種多様なパラダイムモデルシステムに対する広範な数値シミュレーションによる忠実な分類が可能となる。 レベルスポーティング統計から得られるような既存の指標は、すでに大きな成功を収めているものの、制限に直面している。 この懸念は、正確には解くことはできるが、レベルスペーシング統計に基づく特定のレジームではカオスとして分類され、導入されたインジケータは期待される量子多体積分可能性を示す。 我々は、最寄りのトレース距離で観測する普遍的な挙動について議論し、この指標が多体局在遷移などの他の文脈においても有用である可能性を指摘した。

While the concepts of quantum many-body integrability and chaos are of fundamental importance for the understanding of quantum matter, their precise definition has so far remained an open question. In this work, we introduce an alternative indicator for quantum many-body integrability and chaos, which is based on the statistics of eigenstates by means of nearest-neighbor subsystem trace distances. We show that this provides us with a faithful classification through extensive numerical simulations for a large variety of paradigmatic model systems including random matrix theories, free fermions, Bethe-ansatz solvable systems, and models of many-body localization. While existing indicators, such as those obtained from level-spacing statistics, have already been utilized with great success, they also face limitations. This concerns for instance the quantum many-body kicked top, which is exactly solvable but classified as chaotic in certain regimes based on the level-spacing statistics, while our introduced indicator signals the expected quantum many-body integrability. We discuss the universal behaviors we observe for the nearest-neighbor trace distances and point out that our indicator might be useful also in other contexts such as for the many-body localization transition.
翻訳日:2023-12-01 23:19:53 公開日:2023-11-30
# 視野を超えて:Clip-recurrent Transformerによるシーンの可視性と知覚を高める

Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer ( http://arxiv.org/abs/2211.11293v2 )

ライセンス: Link先を確認
Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Huajian Ni, Kaiwei Wang(参考訳) 視覚センサーは車両、ロボット、道路インフラストラクチャーに広く応用されている。 しかし、ハードウェアコストとシステムサイズに制限があるため、FoV(Field-of-View)はしばしば制限され、十分なカバレッジを提供することができない。 しかし、時空間的観点からは、過去のビデオストリームからカメラの物理的FoV以外の情報を得ることができる。 本稿では,自律走行車両の視野拡大のためのオンラインビデオインペインティングの概念を提案し,映像の可視性,知覚性,システムの安全性を高める。 これを実現するために,光フローを明示的に利用し,特徴伝搬に新しいクリップリカレントトランスを暗黙的に組み込むflowlensアーキテクチャを導入する。 FlowLensには2つの重要な機能がある。 1) flowlensには新たに設計された3dデカップリングクロスアテンション(ddca)を備えたクリップリカレントハブが含まれている。 2) マルチブランチミキシングフィードフォワードネットワーク(mixf3n)を統合し,局所的特徴の正確な空間フローを向上させる。 トレーニングと評価を容易にするため,様々なFoVマスクを用いたKITTI360データセットを作成した。 また、異なるモデル間でのFoV以上のセマンティクスの定量的評価を行い、FoV以外のオブジェクト検出の質的比較を行う。 本研究では,FlowLensを用いて見えないシーンを再構成することで,信頼性の高いセマンティックコンテキストを提供することで,視野内の認識を向上することを示す。 オフラインおよびオンラインビデオのインペインティングを含む広範囲な実験とユーザ研究、およびbeyond-fov知覚タスクは、flowlensが最先端のパフォーマンスを達成していることを示している。 ソースコードとデータセットはhttps://github.com/MasterHow/FlowLensで公開されている。

Vision sensors are widely applied in vehicles, robots, and roadside infrastructure. However, due to limitations in hardware cost and system size, camera Field-of-View (FoV) is often restricted and may not provide sufficient coverage. Nevertheless, from a spatiotemporal perspective, it is possible to obtain information beyond the camera's physical FoV from past video streams. In this paper, we propose the concept of online video inpainting for autonomous vehicles to expand the field of view, thereby enhancing scene visibility, perception, and system safety. To achieve this, we introduce the FlowLens architecture, which explicitly employs optical flow and implicitly incorporates a novel clip-recurrent transformer for feature propagation. FlowLens offers two key features: 1) FlowLens includes a newly designed Clip-Recurrent Hub with 3D-Decoupled Cross Attention (DDCA) to progressively process global information accumulated over time. 2) It integrates a multi-branch Mix Fusion Feed Forward Network (MixF3N) to enhance the precise spatial flow of local features. To facilitate training and evaluation, we derive the KITTI360 dataset with various FoV mask, which covers both outer- and inner FoV expansion scenarios. We also conduct quantitative assessments of beyond-FoV semantics across different models and perform qualitative comparisons of beyond-FoV object detection. We illustrate that employing FlowLens to reconstruct unseen scenes even enhances perception within the field of view by providing reliable semantic context. Extensive experiments and user studies involving offline and online video inpainting, as well as beyond-FoV perception tasks, demonstrate that FlowLens achieves state-of-the-art performance. The source code and dataset are made publicly available at https://github.com/MasterHow/FlowLens.
翻訳日:2023-12-01 23:19:31 公開日:2023-11-30
# 拡張アンサンブルネットワークを用いたマルチスケールMRI再構成

Multi-scale MRI reconstruction via dilated ensemble networks ( http://arxiv.org/abs/2310.04705v2 )

ライセンス: Link先を確認
Wendi Ma, Marlon Bran Lorenzana, Wei Dai, Hongfu Sun, Shekhar S. Chandra(参考訳) アーティファクトのエイリアス化は非常に構造的で非局所的であるため、多くのMRI再構成ネットワークはプールを用いてフィルタカバレッジを拡大し、グローバルコンテキストを取り入れている。 しかし、ダウンサンプリングが解決ボトルネックを生じさせるため、このことは必然的に詳細回復を妨げる。 さらに、現実的特徴と想像的特徴は、一般に別々のチャネルに分割され、特に高周波テクスチャに重要な位相情報を破棄する。 本研究では,拡張畳み込みを用いた効率的なマルチスケール再構成ネットワークを導入し,複雑な畳み込みを用いた複素数値バージョンを試作する。 並列拡張フィルタにインスパイアされた複数の受容場は、大きな構造的アーティファクトときめ細かい局所的特徴の両方を見る分岐とともに同時に処理される。 また,機能集約に高密度な残差接続を導入し,効率よくスケールを拡大し,大域的アーキテクチャを高度化してオーバーフィッティングを低減する。 このモデルの実数値バージョンは、一般的なレコンストラクションアーキテクチャや最先端のマルチスケールネットワークを3倍効率良く上回っている。 複雑な値のネットワークは、より多くの位相情報が存在する場合により質的な結果をもたらす。

As aliasing artefacts are highly structural and non-local, many MRI reconstruction networks use pooling to enlarge filter coverage and incorporate global context. However, this inadvertently impedes fine detail recovery as downsampling creates a resolution bottleneck. Moreover, real and imaginary features are commonly split into separate channels, discarding phase information particularly important to high frequency textures. In this work, we introduce an efficient multi-scale reconstruction network using dilated convolutions to preserve resolution and experiment with a complex-valued version using complex convolutions. Inspired by parallel dilated filters, multiple receptive fields are processed simultaneously with branches that see both large structural artefacts and fine local features. We also adopt dense residual connections for feature aggregation to efficiently increase scale and the deep cascade global architecture to reduce overfitting. The real-valued version of this model outperformed common reconstruction architectures as well as a state-of-the-art multi-scale network whilst being three times more efficient. The complex-valued network yielded better qualitative results when more phase information was present.
翻訳日:2023-12-01 23:12:54 公開日:2023-11-30
# ロバスト閉ループ制御のための低域とスパースリカレント接続性の改善

Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control ( http://arxiv.org/abs/2310.03915v3 )

ライセンス: Link先を確認
Neehal Tumma, Mathias Lechner, Noel Loo, Ramin Hasani, Daniela Rus(参考訳) 変化する環境と対話できる自律エージェントの開発は、機械学習におけるオープンな課題である。 エージェントは、しばしば専門家のデモンストレーションにオフラインで適合するが、環境内のクローズドフィードバックループに一般化しなくてはならないオンラインにデプロイされるため、これらの設定では特に重要である。 本研究では,この性質のタスクに対する再帰ニューラルネットワークの応用について検討し,その再帰接続のパラメータ化がクローズドループ設定におけるロバスト性にどのように影響するかを理解する。 具体的には、リカレント接続をランクとスパーシティの関数として表現し、これらの2変数の変調がネットワーク力学に望ましい影響があることを理論的および経験的に示す。 提案されている低ランクなスパース接続は、ネットワークに先立って解釈可能であり、クローズドフォーム連続時間ニューラルネットワーク(cfcs)として知られるモデル群にとって最も快適であることが証明される。 パラメータが少ないCfCは、分散シフトのオンライン設定において、フルランクで完全に接続されたCfCよりも優れていることが分かりました。 これにより、メモリ効率とロバストなエージェントが生まれ、接続を通じてネットワークのダイナミクスを制御できる新しい視点が開かれる。

Developing autonomous agents that can interact with changing environments is an open challenge in machine learning. Robustness is particularly important in these settings as agents are often fit offline on expert demonstrations but deployed online where they must generalize to the closed feedback loop within the environment. In this work, we explore the application of recurrent neural networks to tasks of this nature and understand how a parameterization of their recurrent connectivity influences robustness in closed-loop settings. Specifically, we represent the recurrent connectivity as a function of rank and sparsity and show both theoretically and empirically that modulating these two variables has desirable effects on network dynamics. The proposed low-rank, sparse connectivity induces an interpretable prior on the network that proves to be most amenable for a class of models known as closed-form continuous-time neural networks (CfCs). We find that CfCs with fewer parameters can outperform their full-rank, fully-connected counterparts in the online setting under distribution shift. This yields memory-efficient and robust agents while opening a new perspective on how we can modulate network dynamics through connectivity.
翻訳日:2023-12-01 23:12:36 公開日:2023-11-30
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル

PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v7 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar(参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。 高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。 この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。 データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。 本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。 ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。 また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。

The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes.
翻訳日:2023-12-01 23:12:15 公開日:2023-11-30
# TrTr:自動車人口の軌跡多様性を捉える変圧器を用いた多目的事前訓練大型交通モデル

TrTr: A Versatile Pre-Trained Large Traffic Model based on Transformer for Capturing Trajectory Diversity in Vehicle Population ( http://arxiv.org/abs/2309.12677v2 )

ライセンス: Link先を確認
Ruyi Feng, Zhibin Li, Bowen Liu and Yan Ding(参考訳) 軌道の多様性を理解することは、現実的な交通課題に対処する基本的な側面である。 しかしながら、トラジェクタの多様性を捉えることは、特に大規模パラメータの要求により、従来の機械学習やリカレントニューラルネットワークにおいて問題となる。 数億のパラメータを持つモデルの利用を可能にする並列計算能力で有名である、新しいトランスフォーマー技術は、有望なソリューションを提供する。 本研究では,トランスフォーマーアーキテクチャを交通タスクに適用し,車内における軌道の多様性を学習することを目的とした。 本稿では,トランスフォーマーの注意機構と交通タスクの目標への適応性を分析し,その後,特定の事前学習タスクを設計する。 これを実現するために、注意機構に合わせたデータ構造を作成し、事前学習プロセス中に構造化データに組み込まれた時空間的要求に対応する一連のノイズを導入する。 設計した事前学習モデルは, 車両の空間分布の把握に優れた性能を示し, 車両重なりの事例はなく, RMSEは0.6059である。 時系列予測の文脈では、予測された軌道速度の95%は7.5144m/sで真の速度と密接に一致している。 さらに、安定性テストでは、入力シーケンスより10倍長い時系列を連続的に予測し、滑らかな軌道を提供し、多様な運転行動を示すことによってロバスト性を示す。 事前訓練されたモデルは、下流の微調整タスクに良い基礎を提供する。 私たちのモデルのパラメータの数は5000万以上です。

Understanding trajectory diversity is a fundamental aspect of addressing practical traffic tasks. However, capturing the diversity of trajectories presents challenges, particularly with traditional machine learning and recurrent neural networks due to the requirement of large-scale parameters. The emerging Transformer technology, renowned for its parallel computation capabilities enabling the utilization of models with hundreds of millions of parameters, offers a promising solution. In this study, we apply the Transformer architecture to traffic tasks, aiming to learn the diversity of trajectories within vehicle populations. We analyze the Transformer's attention mechanism and its adaptability to the goals of traffic tasks, and subsequently, design specific pre-training tasks. To achieve this, we create a data structure tailored to the attention mechanism and introduce a set of noises that correspond to spatio-temporal demands, which are incorporated into the structured data during the pre-training process. The designed pre-training model demonstrates excellent performance in capturing the spatial distribution of the vehicle population, with no instances of vehicle overlap and an RMSE of 0.6059 when compared to the ground truth values. In the context of time series prediction, approximately 95% of the predicted trajectories' speeds closely align with the true speeds, within a deviation of 7.5144m/s. Furthermore, in the stability test, the model exhibits robustness by continuously predicting a time series ten times longer than the input sequence, delivering smooth trajectories and showcasing diverse driving behaviors. The pre-trained model also provides a good basis for downstream fine-tuning tasks. The number of parameters of our model is over 50 million.
翻訳日:2023-12-01 23:11:17 公開日:2023-11-30
# JPEGの差別化:悪魔は細部にある

Differentiable JPEG: The Devil is in the Details ( http://arxiv.org/abs/2309.06978v3 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Srimat Chakradhar(参考訳) jpegは最も広く普及している画像符号化方法の1つである。 しかしながら、jpegの非微分性は、ディープラーニングパイプラインのアプリケーションを制限する。 JPEGのいくつかの異なる近似がこの問題に対処するために最近提案されている。 本稿では既存の差分を包括的に検討する。 JPEGは従来の方法で見逃された重要な詳細にアプローチし、識別する。 この目的のために、我々は新しい差分を提案する。 JPEGアプローチは、以前の制限を克服する。 我々のアプローチは、入力画像、jpeg品質、量子化テーブル、色変換パラメータを微分可能なw.r.tである。 我々は差分の前方および後方のパフォーマンスを評価する。 既存のメソッドに対するJPEGアプローチ。 さらに、重要な設計選択を評価するために広範なアブレーションが行われる。 我々の提案した差分。 JPEGは(非差分)参照実装に最も似ており、近年の差分をはるかに上回っている。 平均$3.47$dB (PSNR) のアプローチ。 強い圧縮率では、PSNRも9.51ドルdB改善できる。 強い敵攻撃の結果は差分によって得られる。 JPEGは、効果的な勾配近似を示す。 私たちのコードはhttps://github.com/necla-ml/Diff-JPEGで公開されています。

JPEG remains one of the most widespread lossy image coding methods. However, the non-differentiable nature of JPEG restricts the application in deep learning pipelines. Several differentiable approximations of JPEG have recently been proposed to address this issue. This paper conducts a comprehensive review of existing diff. JPEG approaches and identifies critical details that have been missed by previous methods. To this end, we propose a novel diff. JPEG approach, overcoming previous limitations. Our approach is differentiable w.r.t. the input image, the JPEG quality, the quantization tables, and the color conversion parameters. We evaluate the forward and backward performance of our diff. JPEG approach against existing methods. Additionally, extensive ablations are performed to evaluate crucial design choices. Our proposed diff. JPEG resembles the (non-diff.) reference implementation best, significantly surpassing the recent-best diff. approach by $3.47$dB (PSNR) on average. For strong compression rates, we can even improve PSNR by $9.51$dB. Strong adversarial attack results are yielded by our diff. JPEG, demonstrating the effective gradient approximation. Our code is available at https://github.com/necla-ml/Diff-JPEG.
翻訳日:2023-12-01 23:10:07 公開日:2023-11-30
# 高調波発生における光位相と量子コヒーレンスの役割について

On the role of the optical phase and quantum coherence in high harmonic generation ( http://arxiv.org/abs/2309.05010v3 )

ライセンス: Link先を確認
Philipp Stammer(参考訳) 本研究では,高調波発生過程における光位相と駆動場のコヒーレンスについて解析する。 我々は、非コヒーレントな古典的および非古典的な強光場による高調波発生の過程の駆動を考察し、駆動場の位相が完全に未決定である場合においても、平均電界値が消滅することを示す。 これは、駆動場における量子光コヒーレンスが高調波放射を生成するために必要ではないことを意味し、その結果、これらの場合の放射光コヒーレンスも同様に量子光コヒーレンスを示さない。 さらに、各高調波の最終的な量子状態が光子数基底において対角的であることを示し、そこから高調波スペクトルの測定だけでは高調波放射のコヒーレンス特性を推測できないと結論付ける。

In this work we analyze the role of the optical phase and coherence of the driving field in the process of high harmonic generation. We consider driving the process of high harmonic generation with incoherent classical and non-classical intense light fields, and show that harmonic radiation can be generated even in cases where the phase of the driving field is completely undetermined leading to vanishing mean electric field values. This implies that quantum optical coherence in the driving field is not necessary for generating high harmonic radiation, with the consequence that the emitted harmonic radiation in those cases do likewise not exhibit quantum optical coherence. We further show that the final quantum state of each harmonic is diagonal in the photon number basis, from which we conclude that the measurement of the high harmonic spectrum alone does not allow to infer on the coherence properties of the harmonic radiation.
翻訳日:2023-12-01 23:09:54 公開日:2023-11-30
# 有効情報の最大化によるデータの出現の発見

Finding emergence in data by maximizing effective information ( http://arxiv.org/abs/2308.09952v3 )

ライセンス: Link先を確認
Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, Yingqi Rong, Bing Yuan, Jiang Zhang(参考訳) 複雑な力学系に対するデータ駆動方式による創発的ダイナミクスの定量化とモデリングは、マイクロレベルでの直接観測が欠如しているため、困難である。 したがって、創発的現象を特定し、利用可能なデータを使用してマクロレベルで創発的ダイナミクスをキャプチャするフレームワークを開発することが重要である。 本稿では,因果発生理論(CE)にヒントを得て,創発的潜在空間におけるマクロ力学を学習し,CEの程度を定量化する機械学習フレームワークを提案する。 このフレームワークは有効な情報を最大化し、因果効果を増強したマクロ力学モデルをもたらす。 シミュレーションおよび実データによる実験結果から,提案手法の有効性が示された。 様々な条件下でCEの度合いを効果的に定量化し、異なるノイズの異なる影響を明らかにする。 fMRIデータから1次元の粗いマクロ状態を学び、映画のクリップ視聴中に複雑な神経活動を表現する。 さらに、シミュレーションデータ間で異なるテスト環境への一般化の改善が観察される。

Quantifying emergence and modeling emergent dynamics in a data-driven manner for complex dynamical systems is challenging due to the lack of direct observations at the micro-level. Thus, it's crucial to develop a framework to identify emergent phenomena and capture emergent dynamics at the macro-level using available data. Inspired by the theory of causal emergence (CE), this paper introduces a machine learning framework to learn macro-dynamics in an emergent latent space and quantify the degree of CE. The framework maximizes effective information, resulting in a macro-dynamics model with enhanced causal effects. Experimental results on simulated and real data demonstrate the effectiveness of the proposed framework. It quantifies degrees of CE effectively under various conditions and reveals distinct influences of different noise types. It can learn a one-dimensional coarse-grained macro-state from fMRI data, to represent complex neural activities during movie clip viewing. Furthermore, improved generalization to different test environments is observed across all simulation data.
翻訳日:2023-12-01 23:09:13 公開日:2023-11-30
# 開放シュウィンガー模型のリウビリアンダイナミクス:熱媒質における弦破断と運動散逸

Liouvillian Dynamics of the Open Schwinger Model: String Breaking and Kinetic Dissipation in a Thermal Medium ( http://arxiv.org/abs/2308.03878v2 )

ライセンス: Link先を確認
Kyle Lee, James Mulligan, Felix Ringer and Xiaojun Yao(参考訳) 境界状態形成のダイナミクスを理解することは、量子色力学(qcd)のような量子場理論を閉じ込める基本的な問題の1つである。 最初にフェルミオンと反フェルミオンをつなぐ弦の破断が大きな注目を集めたハドロン化機構の1つである。 シュウィンガーモデルのようなより単純で低次元のモデルでリアルタイムの弦破れ力学の理解を深めることにより、凝縮物質や統計システムで見られるQCDやその他の凝縮系におけるハドロン化過程の理解を深めることができる。 本稿では,シュウィンガーモデルにおける弦破壊のダイナミクスを考察し,熱媒質中での修正を考察し,シュウィンガーモデルを熱環境に結合した開量子系として扱う。 システムと環境の間の弱い結合の仕組みの中で、システムのリアルタイムな進化はリンドブラッド進化方程式によって説明できる。 このリンドブラッド方程式のリウヴィリアンギャップとシステムのフォン・ノイマンエントロピーの時間依存性を解析した。 環境相関時間の増加に伴い, 後期緩和速度は低下する。 さらに、環境相関長が無限であるとき、系は2つの定常状態を示し、各々のチャージ共役パリティ(cp)量子数を持つセクタに1つずつを示す。 初期弦が真空で壊れるパラメータ状態に対しては, 運動的消散効果により, 媒体内の弦破壊の遅れが観察される。 逆に、真空時間進化において初期弦がそのまま残る状態においては、熱媒体内の弦の破れ(融解)が観察される。 さらに,オープンシュウィンガーモデルのリウビリアンダイナミクスを量子コンピュータ上でシミュレートし,関連するトロッター誤差を推定する方法についても検討した。

Understanding the dynamics of bound state formation is one of the fundamental questions in confining quantum field theories such as Quantum Chromodynamics (QCD). One hadronization mechanism that has garnered significant attention is the breaking of a string initially connecting a fermion and an anti-fermion. Deepening our understanding of real-time string-breaking dynamics with simpler, lower dimensional models like the Schwinger model can improve our understanding of the hadronization process in QCD and other confining systems found in condensed matter and statistical systems. In this paper, we consider the string-breaking dynamics within the Schwinger model and investigate its modification inside a thermal medium, treating the Schwinger model as an open quantum system coupled to a thermal environment. Within the regime of weak coupling between the system and environment, the real-time evolution of the system can be described by a Lindblad evolution equation. We analyze the Liouvillian gaps of this Lindblad equation and the time dependence of the system's von Neumann entropy. We observe that the late-time relaxation rate decreases as the environment correlation length increases. Moreover, when the environment correlation length is infinite, the system exhibits two steady states, one in each of the sectors with definite charge-conjugation-parity (CP) quantum numbers. For parameter regimes where an initial string breaks in vacuum, we observe a delay of the string breaking in the medium, due to kinetic dissipation effects. Conversely, in regimes where an initial string remains intact in vacuum time evolution, we observe string breaking (melting) in the thermal medium. We further discuss how the Liouvillian dynamics of the open Schwinger model can be simulated on quantum computers and provide an estimate of the associated Trotter errors.
翻訳日:2023-12-01 23:08:58 公開日:2023-11-30
# 高位対足性

Higher rank antipodality ( http://arxiv.org/abs/2307.16857v2 )

ライセンス: Link先を確認
M\'arton Nasz\'odi and Zsombor Szil\'agyi and Mih\'aly Weiner(参考訳) 一般確率理論に動機づけられて、$x$ in $\mathbb{r}^d$ が \emph{antipodal of rank $k$} であるとは、任意の$k+1$ の元に対して$q_1,\ldots q_{k+1}\in x$ に対して、$\mathrm{conv} x$ から $k$-dimensional simplex $\delta_k$ へのアフィン写像が存在し、$q_1,\ldots q_{k+1}$ を$k+1$ の$k+1$ の頂点に写す。 k=1$ の場合、klee が導入した(pairwise)反ポジタリティの概念と一致する。 対脚集合上のクリー問題の次の自然な一般化を考える:$\mathbb{r}^d$ におけるランク $k$ の対脚集合の最大サイズは? 我々は、ランク $k$ の対脚集合の幾何学的特徴付けを示し、元々 $k=1$ の場合のために開発された gr\"unbaum と gr\"unbaum の議論を適応させる。 この問題は、コンピュータ科学において、完全ハッシュの発見に関する古典的な問題と結びつくことができ、また、その次元においても指数的な最大サイズに対する境界が低いことを指摘した。

Motivated by general probability theory, we say that the set $X$ in $\mathbb{R}^d$ is \emph{antipodal of rank $k$}, if for any $k+1$ elements $q_1,\ldots q_{k+1}\in X$, there is an affine map from $\mathrm{conv} X$ to the $k$-dimensional simplex $\Delta_k$ that maps $q_1,\ldots q_{k+1}$ onto the $k+1$ vertices of $\Delta_k$. For $k=1$, it coincides with the well-studied notion of (pairwise) antipodality introduced by Klee. We consider the following natural generalization of Klee's problem on antipodal sets: What is the maximum size of an antipodal set of rank $k$ in $\mathbb{R}^d$? We present a geometric characterization of antipodal sets of rank $k$ and adapting the argument of Danzer and Gr\"unbaum originally developed for the $k=1$ case, we prove an upper bound which is exponential in the dimension. We point out that this problem can be connected to a classical question in computer science on finding perfect hashes, and it provides a lower bound on the maximum size, which is also exponential in the dimension.
翻訳日:2023-12-01 23:08:26 公開日:2023-11-30
# TimeGNN: 時系列予測のための時間動的グラフ学習

TimeGNN: Temporal Dynamic Graph Learning for Time Series Forecasting ( http://arxiv.org/abs/2307.14680v2 )

ライセンス: Link先を確認
Nancy Xu, Chrysoula Kosma, Michalis Vazirgiannis(参考訳) 時系列予測は、科学と工学の多くの分野における重要な実世界の応用の中核にある。 複雑なパターンと長期的な依存関係からなる大規模な時系列データセットの存在は、さまざまなニューラルネットワークアーキテクチャの開発につながった。 グラフニューラルネットワークアプローチは、予測中に多変量時系列の生値の相関に基づいてグラフ構造を共同で学習するが、最近は大きな成功を収めている。 しかし、そのようなソリューションはトレーニングにコストがかかり、スケールが難しいことが多い。 本稿では,時系列間のパターンの進化を複数の系列の相関関係とともに捉え,動的時間的グラフ表現を学習するTimeGNNを提案する。 TimeGNNは、他の最先端グラフベースの手法よりも4倍から80倍高速で予測性能を向上する

Time series forecasting lies at the core of important real-world applications in many fields of science and engineering. The abundance of large time series datasets that consist of complex patterns and long-term dependencies has led to the development of various neural network architectures. Graph neural network approaches, which jointly learn a graph structure based on the correlation of raw values of multivariate time series while forecasting, have recently seen great success. However, such solutions are often costly to train and difficult to scale. In this paper, we propose TimeGNN, a method that learns dynamic temporal graph representations that can capture the evolution of inter-series patterns along with the correlations of multiple series. TimeGNN achieves inference times 4 to 80 times faster than other state-of-the-art graph-based methods while achieving comparable forecasting performance
翻訳日:2023-12-01 23:07:51 公開日:2023-11-30
# A type $I$ クロス製品の近似

A Type $I$ Approximation of the Crossed Product ( http://arxiv.org/abs/2307.12481v3 )

ライセンス: Link先を確認
Ronak M Soni(参考訳) 私は、タイプ$III_{1}$代数学からタイプ$II$代数学への横断積構成の類似が、タイプ$I$の場合にも存在することを示します。 これは、局所代数が$i$因子の非自明な直和であるときに特に自然である。 具体的には、通常の$i$トレースを別の方法で書き直し、再正規化します。 この新しい再正規化トレースは、各因子がタイプされたときにもよく定義されている。 私は、コード内の中央演算子に異なる制約を課すことで、タイプ$II_{\infty}$とタイプ$II_{1}$ algebraの両方を回復できます。 この構造の例はホログラフィック量子誤り訂正符号に現れ、中心演算子は領域演算子である。

I show that an analog of the crossed product construction that takes type $III_{1}$ algebras to type $II$ algebras exists also in the type $I$ case. This is particularly natural when the local algebra is a non-trivial direct sum of type $I$ factors. Concretely, I rewrite the usual type $I$ trace in a different way and renormalise it. This new renormalised trace stays well-defined even when each factor is taken to be type $III$. I am able to recover both type $II_{\infty}$ as well as type $II_{1}$ algebras by imposing different constraints on the central operator in the code. An example of this structure appears in holographic quantum error-correcting codes; the central operator is then the area operator.
翻訳日:2023-12-01 23:07:38 公開日:2023-11-30
# DRM-IR:オールインワン画像復元のためのタスク適応型ディープ展開ネットワーク

DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image Restoration ( http://arxiv.org/abs/2307.07688v2 )

ライセンス: Link先を確認
Yuanshuo Cheng, Mingwen Shao, Yecong Wan, Chao Wang(参考訳) 既存のオールインワン画像復元法(IR)は、通常、様々な種類の劣化の柔軟なモデリングを欠いているため、復元性能を損なう。 そこで本研究では,タスク適応型劣化モデルとモデルベース画像復元からなる効率的な動的参照モデリングパラダイム(drm-ir)を提案する。 具体的には、これら2つのサブタスクは、エンタングルド参照ベースの最大 a posteriori (map) 推論のペアとして形式化され、展開ベースの方法で同期的に最適化される。 2つのカスケードされたサブタスクを用いて、DRM-IRはまず参照画像ペアに基づいてタスク固有の劣化を動的にモデル化し、さらに収集された劣化統計を用いて画像の復元を行う。 さらに、参照と対象の劣化画像間のセマンティックギャップを埋めるために、インスタンス固有の特徴差を抑制する分解優先送信器(DPT)を考案する。 DRM-IRは、解釈可能でありながら、オールインワンのIRに優れた柔軟性を提供する。 複数のベンチマークデータセットに対する大規模な実験は、DRM-IRがAll-In-One IRの最先端を達成していることを示している。

Existing All-In-One image restoration (IR) methods usually lack flexible modeling on various types of degradation, thus impeding the restoration performance. To achieve All-In-One IR with higher task dexterity, this work proposes an efficient Dynamic Reference Modeling paradigm (DRM-IR), which consists of task-adaptive degradation modeling and model-based image restoring. Specifically, these two subtasks are formalized as a pair of entangled reference-based maximum a posteriori (MAP) inferences, which are optimized synchronously in an unfolding-based manner. With the two cascaded subtasks, DRM-IR first dynamically models the task-specific degradation based on a reference image pair and further restores the image with the collected degradation statistics. Besides, to bridge the semantic gap between the reference and target degraded images, we further devise a Degradation Prior Transmitter (DPT) that restrains the instance-specific feature differences. DRM-IR explicitly provides superior flexibility for All-in-One IR while being interpretable. Extensive experiments on multiple benchmark datasets show that our DRM-IR achieves state-of-the-art in All-In-One IR.
翻訳日:2023-12-01 23:07:16 公開日:2023-11-30
# マヨラナエッジモードへの渦の注入の動的シミュレーション

Dynamical simulation of the injection of vortices into a Majorana edge mode ( http://arxiv.org/abs/2307.07447v4 )

ライセンス: Link先を確認
I. M. Fl\'or, A. Don\'is-Vela, C. W. J. Beenakker and G. Lemut(参考訳) 位相超伝導体のキラルなエッジモードは、アーベル交換統計量を持つフェルミオン準粒子を輸送することができるが、非可換なアノンを輸送することもできる: 境界に沿って伝播する$\pi$-phase のドメインウォールに束縛されたエッジ渦。 そのような辺渦の対は、ジョセフソン接合上の$h/2e$フラックスバイアスの適用により注入される。 既存の注入過程の記述は、ヨーゼフソン接合の内部力学が無視される断熱系(Beenakker et al. Phys.Rev.Lett. 122, (2019))の瞬時散乱近似に依存する。 ここでは, インジェクション過程の時間依存多体シミュレーションでその近似を超越し, 超伝導体のバルクに非移動性アブリコソフ渦を1対の非移動型アブリコソフ渦で移動端渦をブレイディングする。 我々のシミュレーションは、空飛ぶ位相量子ビットの実装に必要とされるジョセフソン接合の性質に光を当てている。

The chiral edge modes of a topological superconductor can transport fermionic quasiparticles, with Abelian exchange statistics, but they can also transport non-Abelian anyons: Edge-vortices bound to a $\pi$-phase domain wall that propagates along the boundary. A pair of such edge-vortices is injected by the application of an $h/2e$ flux bias over a Josephson junction. Existing descriptions of the injection process rely on the instantaneous scattering approximation of the adiabatic regime [Beenakker et al. Phys.Rev.Lett. 122, (2019)], where the internal dynamics of the Josephson junction is ignored. Here we go beyond that approximation in a time-dependent many-body simulation of the injection process, followed by a braiding of mobile edge-vortices with a pair of immobile Abrikosov vortices in the bulk of the superconductor. Our simulation sheds light on the properties of the Josephson junction needed for a successful implementation of a flying topological qubit.
翻訳日:2023-12-01 23:06:50 公開日:2023-11-30
# テキスト画像合成検索のベンチマークロバスト性

Benchmarking Robustness of Text-Image Composed Retrieval ( http://arxiv.org/abs/2311.14837v2 )

ライセンス: Link先を確認
Shitong Sun, Jindong Gu, Shaogang Gong(参考訳) テキスト画像合成検索は、入力画像に所望の変更を記述したテキストに加えて、画像の形式で指定されたクエリを通じて対象画像を検索することを目的としている。 近年,対象画像の要求を正確に表現するために,情報豊富な画像と簡潔な言語の両方を活用する能力に注目が集まっている。 しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。 本稿では,第1次ロバストネス研究を行い,視覚とテキストの両方における自然腐敗に対する検索の体系的解析のための3つの新しい多角化ベンチマークを確立し,さらにテクスチャ理解について検討する。 自然汚染分析には,オープンドメインとファッションドメインでそれぞれテストするためのCIRR-CとFashionIQ-Cという,2つの大規模ベンチマークデータセットを導入する。 テキスト理解分析には,テキストの数値的変化,属性の変動,オブジェクトの削除,背景の変動,微妙な評価などを含むテキスト理解機能を改善するために,修正テキストを含む生データを合成データで拡張することにより,新たな診断データセットCIRR-Dを導入する。 コードとベンチマークデータセットはhttps://github.com/suntongtong/benchmark-robustness-text-image-compose-retrievalで入手できる。

Text-image composed retrieval aims to retrieve the target image through the composed query, which is specified in the form of an image plus some text that describes desired modifications to the input image. It has recently attracted attention due to its ability to leverage both information-rich images and concise language to precisely express the requirements for target images. However, the robustness of these approaches against real-world corruptions or further text understanding has never been studied. In this paper, we perform the first robustness study and establish three new diversified benchmarks for systematic analysis of text-image composed retrieval against natural corruptions in both vision and text and further probe textural understanding. For natural corruption analysis, we introduce two new large-scale benchmark datasets, CIRR-C and FashionIQ-C for testing in open domain and fashion domain respectively, both of which apply 15 visual corruptions and 7 textural corruptions. For textural understanding analysis, we introduce a new diagnostic dataset CIRR-D by expanding the original raw data with synthetic data, which contains modified text to better probe textual understanding ability including numerical variation, attribute variation, object removal, background variation, and fine-grained evaluation. The code and benchmark datasets are available at https://github.com/SunTongtongtong/Benchmark-Robustness-Text-Image-Compose-Retrieval.
翻訳日:2023-12-01 23:00:23 公開日:2023-11-30
# グラフ表現学習のための周期不変位置符号化

Cycle Invariant Positional Encoding for Graph Representation Learning ( http://arxiv.org/abs/2311.14333v2 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen, Yusu Wang(参考訳) サイクルはグラフ構造化データの基本要素であり、グラフ学習モデルの拡張効果を実証している。 このような情報をグラフ学習フレームワークにエンコードするために、先行研究はサイクルの数からより洗練された永続化図の要約まで、しばしば要約量を抽出する。 しかし、エッジが周期的にエンコードされているようなより詳細な情報は、グラフニューラルネットワークではまだ使われていない。 本稿では,このギャップに対処するための一歩を踏み出し,エッジ構造エンコーディングによるサイクル情報を置換不変な方法でエンコードするcyclenetと呼ばれる構造エンコーディングモジュールを提案する。 すべてのサイクルの空間を効率的に符号化するために、入力グラフの1次元ホッジ・ラプラシアンの核を介して計算するサイクル基底(つまり、サイクル空間を生成する最小のサイクルの集合)から始める。 エンコードが不変であることを保証するため、サイクル基底の選択は、limらによって提案された基底ネットに触発されたサイクル基底の直交プロジェクタを介してサイクル情報を符号化する。 また、入力グラフが一意な最短サイクル基底を持つことを要求するより効率的な変種も開発する。 提案モジュールの有効性を示すために,その表現力に関する理論的理解を提供する。 さらに,CycleNetモジュールによって拡張されたネットワークは,既存のSOTAモデルと比較して,様々なベンチマークで性能が向上することを示す。

Cycles are fundamental elements in graph-structured data and have demonstrated their effectiveness in enhancing graph learning models. To encode such information into a graph learning framework, prior works often extract a summary quantity, ranging from the number of cycles to the more sophisticated persistence diagram summaries. However, more detailed information, such as which edges are encoded in a cycle, has not yet been used in graph neural networks. In this paper, we make one step towards addressing this gap, and propose a structure encoding module, called CycleNet, that encodes cycle information via edge structure encoding in a permutation invariant manner. To efficiently encode the space of all cycles, we start with a cycle basis (i.e., a minimal set of cycles generating the cycle space) which we compute via the kernel of the 1-dimensional Hodge Laplacian of the input graph. To guarantee the encoding is invariant w.r.t. the choice of cycle basis, we encode the cycle information via the orthogonal projector of the cycle basis, which is inspired by BasisNet proposed by Lim et al. We also develop a more efficient variant which however requires that the input graph has a unique shortest cycle basis. To demonstrate the effectiveness of the proposed module, we provide some theoretical understandings of its expressive power. Moreover, we show via a range of experiments that networks enhanced by our CycleNet module perform better in various benchmarks compared to several existing SOTA models.
翻訳日:2023-12-01 22:59:56 公開日:2023-11-30
# リアルタイム自由出血型心臓磁気共鳴画像における深層学習のセグメンテーションの評価

Assessment of Deep Learning Segmentation for Real-Time Free-Breathing Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2311.14049v2 )

ライセンス: Link先を確認
Martin Schilling and Christina Unterberg-Buchwald and Joachim Lotz and Martin Uecker(参考訳) 近年、心臓MRI(CMR)セグメンテーションのための様々なディープラーニングネットワークが開発され、分析されている。 しかし、ほとんど全員が呼吸中のシネCMRに焦点を当てている。 本研究は、安静時および運動負荷時のリアルタイム自由呼吸cmrにおける左室容積分析(セグメンテーション)において、深部学習法の精度を評価した。 健常者(n=15)とリアルタイム自由呼吸型CMRのデータを振り返って分析した。 商用ソフトウェア(comDL)と利用可能なニューラルネットワーク(nnU-Net)のセグメンテーションを、comDLセグメンテーションのマニュアル修正によって作成されたリファレンスと比較した。 左室心内膜(lv)、左室心筋(myo)、右室(rv)のセグメンテーションは、末期収縮期と末期拡張期の両方において評価され、dice係数(dc)を用いて解析された。 ボリューム分析は、LV端収縮体積(EDV)、LV端収縮体積(ESV)、LV放出率(EF)を含む。 cine cmr では、nnu-net と comdl は lv が 0.95 以上、myo と rv が 0.9 以上となる。 リアルタイムCMRでは, nnU-Net の精度が comDL の精度を上回っている。 リアルタイムCMRでは、nnU-NetはLVが0.94、MYOが0.89、RVが0.90、EDVが2.9mL、ESVが3.5mL、EFが2.6%である。 運動ストレス下でのリアルタイムCMRでは、nnU-Netは、LVが0.92、MYOが0.85、RVが0.83、EDVが11.4mL、ESVが2.9mL、EFが3.6%である。 シネCMRセグメンテーションのために設計または訓練されたディープラーニング手法は、リアルタイムCMRでよく機能する。 リアルタイムのフリーブレスCMRでは、ディープラーニングメソッドのパフォーマンスは、cine CMRのサーバ間変動と同等であり、使用可能なか、完全に自動セグメンテーションである。

In recent years, a variety of deep learning networks for cardiac MRI (CMR) segmentation have been developed and analyzed. However, nearly all of them are focused on cine CMR under breathold. In this work, accuracy of deep learning methods is assessed for volumetric analysis (via segmentation) of the left ventricle in real-time free-breathing CMR at rest and under exercise stress. Data from healthy volunteers (n=15) for cine and real-time free-breathing CMR were analyzed retrospectively. Segmentations of a commercial software (comDL) and a freely available neural network (nnU-Net), were compared to a reference created via the manual correction of comDL segmentation. Segmentation of left ventricular endocardium (LV), left ventricular myocardium (MYO), and right ventricle (RV) is evaluated for both end-systolic and end-diastolic phases and analyzed with Dice's coefficient (DC). The volumetric analysis includes LV end-diastolic volume (EDV), LV end-systolic volume (ESV), and LV ejection fraction (EF). For cine CMR, nnU-Net and comDL achieve a DC above 0.95 for LV and 0.9 for MYO, and RV. For real-time CMR, the accuracy of nnU-Net exceeds that of comDL overall. For real-time CMR at rest, nnU-Net achieves a DC of 0.94 for LV, 0.89 for MYO, and 0.90 for RV; mean absolute differences between nnU-Net and reference are 2.9mL for EDV, 3.5mL for ESV and 2.6% for EF. For real-time CMR under exercise stress, nnU-Net achieves a DC of 0.92 for LV, 0.85 for MYO, and 0.83 for RV; mean absolute differences between nnU-Net and reference are 11.4mL for EDV, 2.9mL for ESV and 3.6% for EF. Deep learning methods designed or trained for cine CMR segmentation can perform well on real-time CMR. For real-time free-breathing CMR at rest, the performance of deep learning methods is comparable to inter-observer variability in cine CMR and is usable or fully automatic segmentation.
翻訳日:2023-12-01 22:59:32 公開日:2023-11-30
# 階層型ジョイントグラフ学習と多変量時系列予測

Hierarchical Joint Graph Learning and Multivariate Time Series Forecasting ( http://arxiv.org/abs/2311.12630v2 )

ライセンス: Link先を確認
Juhyeon Kim, Hyungeun Lee, Seungwon Yu, Ung Hwang, Wooyul Jung, Miseon Park, Kijung Yoon(参考訳) 多変量時系列は、多くの科学領域や産業領域で一般的である。 多変量信号のモデリングは、その長距離時間依存性と複雑な相互作用により困難である。 これらの複雑さに対処するため,グラフ内の多変量信号をノードとして表現する方法を提案する。 具体的には,グラフニューラルネットワーク(gnn)とアテンション機構を利用して時系列データ内の基礎的関係を効率的に学習する。 さらに,複数の空間依存性を捉えるために,グラフ上で実行される階層的信号分解を用いることを提案する。 提案モデルの有効性を,長期予測タスク用に設計された実世界のベンチマークデータセットで評価した。 その結果,従来モデルと比較して平均二乗誤差 (mse) が平均23\%減少する結果が得られた。

Multivariate time series is prevalent in many scientific and industrial domains. Modeling multivariate signals is challenging due to their long-range temporal dependencies and intricate interactions--both direct and indirect. To confront these complexities, we introduce a method of representing multivariate signals as nodes in a graph with edges indicating interdependency between them. Specifically, we leverage graph neural networks (GNN) and attention mechanisms to efficiently learn the underlying relationships within the time series data. Moreover, we suggest employing hierarchical signal decompositions running over the graphs to capture multiple spatial dependencies. The effectiveness of our proposed model is evaluated across various real-world benchmark datasets designed for long-term forecasting tasks. The results consistently showcase the superiority of our model, achieving an average 23\% reduction in mean squared error (MSE) compared to existing models.
翻訳日:2023-12-01 22:58:00 公開日:2023-11-30
# コンセンサスに基づく高次元自由エネルギー表面の構築

Consensus-based construction of high-dimensional free energy surface ( http://arxiv.org/abs/2311.05009v2 )

ライセンス: Link先を確認
Liyao Lyu, Huan Lei(参考訳) 分子系の集合的挙動を定量化する重要な問題は、自由エネルギー表面(FES)の正確な構築にある。 主な課題は、エネルギー障壁の出現と高次元性から生じる。 既存のアプローチはしばしば、フルフェーズ空間の効率的な探索を確立するための洗練されたサンプリング手法に基づいている。 一方、FESの数値近似のための最適なサンプル点の収集は、多くの集合変数 (CV) を持つシステムでは、離散化誤差が支配的になりうるため、ほとんど未探索のままである。 関数表現とトレーニングセットを同時に最適化するミニマックス問題として構成を再構成し,コンセンサスサンプリングに基づくアプローチを提案する。 特に、最大化ステップは、現在損失関数のラプラス近似の活用と未チャート位相空間の探索を調節し、最大残留状態の適応サンプリングを達成する確率的相互作用粒子系を確立し、最小化ステップは新しいトレーニングセットでFES近似を更新する。 本手法は,ミニマックス問題を反復的に解くことにより,位相空間探索と後部誤差強調サンプリングの両面において,FESの対角学習を実現する。 本手法は,分子系のFESを最大30個までのCVで構築することで実証する。

One essential problem in quantifying the collective behaviors of molecular systems lies in the accurate construction of free energy surfaces (FESs). The main challenges arise from the prevalence of energy barriers and the high dimensionality. Existing approaches are often based on sophisticated enhanced sampling methods to establish efficient exploration of the full-phase space. On the other hand, the collection of optimal sample points for the numerical approximation of FESs remains largely under-explored, where the discretization error could become dominant for systems with a large number of collective variables (CVs). We propose a consensus sampling-based approach by reformulating the construction as a minimax problem which simultaneously optimizes the function representation and the training set. In particular, the maximization step establishes a stochastic interacting particle system to achieve the adaptive sampling of the max-residue regime by modulating the exploitation of the Laplace approximation of the current loss function and the exploration of the uncharted phase space; the minimization step updates the FES approximation with the new training set. By iteratively solving the minimax problem, the present method essentially achieves an adversarial learning of the FESs with unified tasks for both phase space exploration and posterior error-enhanced sampling. We demonstrate the method by constructing the FESs of molecular systems with a number of CVs up to 30.
翻訳日:2023-12-01 22:57:01 公開日:2023-11-30
# 安定な線形部分空間同定:機械学習アプローチ

Stable Linear Subspace Identification: A Machine Learning Approach ( http://arxiv.org/abs/2311.03197v3 )

ライセンス: Link先を確認
Loris Di Natale, Muhammad Zakwan, Bratislav Svetozarevic, Philipp Heer, Giancarlo Ferrari Trecate, Colin N. Jones(参考訳) 機械学習(ML)と線形システム同定(SI)は歴史的に独立に開発された。 本稿では、よく確立されたMLツール、特に自動微分フレームワークを活用し、バックプロパゲーションを用いた離散線形多段階状態空間SIメソッドであるSIMBaを導入する。 SIMBaは、同定されたモデルの安定性を確保するために、新しい線形行列-不等式に基づくシュア行列の自由パラメトリゼーションに依存する。 SIMBaは一般に従来の線形状態空間SI法よりも優れており,高い計算負担を伴っても顕著な性能を示す。 この性能差は, 安定保証の他のSI手法と比較して特に顕著であり, SIMBaが最先端の適合性能を同時に達成し, 安定性を強制する能力を示している。 興味深いことに、これらの観測は様々な入力出力システムとシミュレーションおよび実世界のデータに当てはまり、提案手法の柔軟性を示している。 この新たなSIパラダイムは、データから構造化非線形モデルを特定するための大きな拡張ポテンシャルを示し、https://github.com/Cemempamoi/simba上でSIMBaをオープンソース化する。

Machine Learning (ML) and linear System Identification (SI) have been historically developed independently. In this paper, we leverage well-established ML tools - especially the automatic differentiation framework - to introduce SIMBa, a family of discrete linear multi-step-ahead state-space SI methods using backpropagation. SIMBa relies on a novel Linear-Matrix-Inequality-based free parametrization of Schur matrices to ensure the stability of the identified model. We show how SIMBa generally outperforms traditional linear state-space SI methods, and sometimes significantly, although at the price of a higher computational burden. This performance gap is particularly remarkable compared to other SI methods with stability guarantees, where the gain is frequently above 25% in our investigations, hinting at SIMBa's ability to simultaneously achieve state-of-the-art fitting performance and enforce stability. Interestingly, these observations hold for a wide variety of input-output systems and on both simulated and real-world data, showcasing the flexibility of the proposed approach. We postulate that this new SI paradigm presents a great extension potential to identify structured nonlinear models from data, and we hence open-source SIMBa on https://github.com/Cemempamoi/simba.
翻訳日:2023-12-01 22:56:39 公開日:2023-11-30
# locomujoco:locomotionのための総合的模倣学習ベンチマーク

LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion ( http://arxiv.org/abs/2311.02496v2 )

ライセンス: Link先を確認
Firas Al-Hafez and Guoping Zhao and Jan Peters and Davide Tateo(参考訳) Imitation Learning (IL)は、エンボディエージェントでアジャイルの移動を可能にするための大きな約束を持っています。 しかし、既存のlocomotionベンチマークの多くは、主に単純化されたおもちゃのタスクに焦点を当てており、しばしば現実のシナリオの複雑さを捉えず、非現実的なドメインに対する研究の運営に失敗した。 そこで本研究では,ILアルゴリズムの厳密な評価と比較を容易にするための新しいベンチマークを提案する。 このベンチマークは、四足歩行、二足歩行、筋骨格の人間モデルを含む多様な環境を包含しており、それぞれが実際のノイズモーションキャプチャデータ、グランド・トゥルート・エキスパート・データ、グランド・トゥルート・サブ・オプティカル・データなどの包括的なデータセットを伴い、難易度レベルのスペクトルをまたいで評価することができる。 学習エージェントの堅牢性を高めるために、動的ランダム化のための簡単なインタフェースを提供し、異なる実施形態でエージェントを訓練するための広範囲な部分観測可能なタスクを提供する。 最後に、各タスクに手作りのメトリクスを提供し、評価を容易にし、高速なベンチマークを可能にする最先端のベースラインアルゴリズムでベンチマークを出荷する。

Imitation Learning (IL) holds great promise for enabling agile locomotion in embodied agents. However, many existing locomotion benchmarks primarily focus on simplified toy tasks, often failing to capture the complexity of real-world scenarios and steering research toward unrealistic domains. To advance research in IL for locomotion, we present a novel benchmark designed to facilitate rigorous evaluation and comparison of IL algorithms. This benchmark encompasses a diverse set of environments, including quadrupeds, bipeds, and musculoskeletal human models, each accompanied by comprehensive datasets, such as real noisy motion capture data, ground truth expert data, and ground truth sub-optimal data, enabling evaluation across a spectrum of difficulty levels. To increase the robustness of learned agents, we provide an easy interface for dynamics randomization and offer a wide range of partially observable tasks to train agents across different embodiments. Finally, we provide handcrafted metrics for each task and ship our benchmark with state-of-the-art baseline algorithms to ease evaluation and enable fast benchmarking.
翻訳日:2023-12-01 22:56:16 公開日:2023-11-30
# 時系列予測のための深度重み付け:未学習モデルを避ける

Deep Double Descent for Time Series Forecasting: Avoiding Undertrained Models ( http://arxiv.org/abs/2311.01442v3 )

ライセンス: Link先を確認
Valentino Assandri, Sam Heshmati, Burhaneddin Yaman, Anton Iakovlev, Ariel Emiliano Repetur(参考訳) ディープラーニングモデル、特にトランスフォーマーは、時系列予測を含むさまざまな領域で素晴らしい結果をもたらしています。 既存の時系列文献は、主にモデルアーキテクチャの変更とデータ拡張技術に焦点を当てているが、本論文では、時系列のディープラーニングモデルのトレーニングスキーマについて検討する。 公開時系列データセット上で訓練された複数の変圧器モデルにおいて, 深い二重降下が発生することを調べるために, 広範囲にわたる実験を行った。 我々は,エポック方向の深い二重降下を示し,さらに多くのエポックを用いてオーバーフィッティングを戻すことができることを示した。 これらの知見を活かして,72ベンチマークの70%近くで長期時系列予測を行い,最新の結果を得た。 これは、文献の多くのモデルが未解決のポテンシャルを持っていることを示唆している。 さらに,データ拡張,モデル入力,モデルターゲット,モデル毎の時系列,計算予算をカバーする,トレーニングスキーマ修正を分類する分類法を提案する。

Deep learning models, particularly Transformers, have achieved impressive results in various domains, including time series forecasting. While existing time series literature primarily focuses on model architecture modifications and data augmentation techniques, this paper explores the training schema of deep learning models for time series; how models are trained regardless of their architecture. We perform extensive experiments to investigate the occurrence of deep double descent in several Transformer models trained on public time series data sets. We demonstrate epoch-wise deep double descent and that overfitting can be reverted using more epochs. Leveraging these findings, we achieve state-of-the-art results for long sequence time series forecasting in nearly 70% of the 72 benchmarks tested. This suggests that many models in the literature may possess untapped potential. Additionally, we introduce a taxonomy for classifying training schema modifications, covering data augmentation, model inputs, model targets, time series per model, and computational budget.
翻訳日:2023-12-01 22:55:54 公開日:2023-11-30
# ウイルス重症度予測におけるベイズリッジ回帰aiモデルの適用

Applying Bayesian Ridge Regression AI Modeling in Virus Severity Prediction ( http://arxiv.org/abs/2310.09485v2 )

ライセンス: Link先を確認
Jai Pal, Bryan Hong(参考訳) 人工知能(AI)は医療システムを再構築するための強力なツールである。 医療分野では、AIは膨大な量のデータを管理する能力があるため、より正確で迅速な診断につながる可能性があるため、最終的には医療専門家の労働負担を軽減できる。 その結果、AIは様々な産業にまたがる強力なツールであることが証明され、複雑なタスクやパターン認識を単純化し、人間や従来のコンピュータアルゴリズムでは圧倒的なものになった。 本稿では,世界中の医療従事者を対象に,最先端ウイルス分析に使用できるAIモデルであるBayesian Ridge Regressionの長所と短所を概説する。 モデルの精度評価の結果は有望な結果を示し、改善の余地は主にデータ組織に関するものだった。 さらに、重症度指数は、患者ケアのニーズを広範囲に概観するための貴重なツールであり、医療専門家の幅広い分類に対する好みと一致している。

Artificial intelligence (AI) is a powerful tool for reshaping healthcare systems. In healthcare, AI is invaluable for its capacity to manage vast amounts of data, which can lead to more accurate and speedy diagnoses, ultimately easing the workload on healthcare professionals. As a result, AI has proven itself to be a power tool across various industries, simplifying complex tasks and pattern recognition that would otherwise be overwhelming for humans or traditional computer algorithms. In this paper, we review the strengths and weaknesses of Bayesian Ridge Regression, an AI model that can be used to bring cutting edge virus analysis to healthcare professionals around the world. The model's accuracy assessment revealed promising results, with room for improvement primarily related to data organization. In addition, the severity index serves as a valuable tool to gain a broad overview of patient care needs, aligning with healthcare professionals' preference for broader categorizations.
翻訳日:2023-12-01 22:55:05 公開日:2023-11-30
# 窒素空位磁気緩和法によるナノクラスターシトクロムcタンパク質中の鉄の検出

Detection of Iron in Nanoclustered Cytochrome C Proteins Using Nitrogen-Vacancy Magnetic Relaxometry ( http://arxiv.org/abs/2310.08605v2 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Rupak Timalsina, Cody Schultz, Ilja Fescenko, Kapildeb Ambal, Sy-Hwang Liou, Rebecca Y. Lai, and Abdelghani Laraoui(参考訳) 窒素空洞(NV)磁力計は、磁気感度と空間分解能の良好な組み合わせで神経細胞や細胞の鉄濃度を検出する代替手段を提供する。 ここではNV-T1緩和法を用いてシトクロムC(Cyt-C)ナノクラスター中のFeを検出する。 Cyt-Cは1つのヘム基を含む水溶性タンパク質であり、ミトコンドリアの電子輸送鎖において重要な役割を果たす。 環境条件下では、ヘム基はFe+3常磁性状態のままである。 機能性ダイヤモンドチップ上でNV-T1リラクサメトリーを行い,Cyt-C濃度を6 uMから54 uMに変化させ,T1濃度を1.2 msから150 usに低下させた。 この還元は、Cyt-C内部に存在するFeスピンに由来するスピンノイズに起因する。 吸着鉄の密度を1.44x10^6から1.7x10^7 per um^2に変化させることにより,ナノ構造ダイヤモンドチップ上でのcyt-cタンパク質のイメージングを行う。

Nitrogen-vacancy (NV) magnetometry offers an alternative tool to detect iron levels in neurons and cells with a favorable combination of magnetic sensitivity and spatial resolution. Here we employ NV-T1 relaxometry to detect Fe in cytochrome C (Cyt-C) nanoclusters. Cyt-C is a water-soluble protein that contains a single heme group and plays a vital role in the electron transport chain of mitochondria. Under ambient conditions, the heme group remains in the Fe+3 paramagnetic state. We perform NV-T1 relaxometry on a functionalized diamond chip and vary the concentration of Cyt-C from 6 uM to 54 uM, resulting in a decrease of T1 from 1.2 ms to 150 us, respectively. This reduction is attributed to spin-noise originating from the Fe spins present within the Cyt-C. We perform relaxometry imaging of Cyt-C proteins on a nanostructured diamond chip by varying the density of adsorbed iron from 1.44 x 10^6 to 1.7 x 10^7 per um^2.
翻訳日:2023-12-01 22:54:50 公開日:2023-11-30
# mmotu:非教師なしクロスドメインセマンティクスセグメンテーションのためのマルチモダリティ卵巣腫瘍超音波画像データセット

MMOTU: A Multi-Modality Ovarian Tumor Ultrasound Image Dataset for Unsupervised Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2207.06799v4 )

ライセンス: Link先を確認
Qi Zhao, Shuchang Lyu, Wenpei Bai, Linghan Cai, Binghao Liu, Guangliang Cheng, Meijing Wu, Xiubo Sang, Min Yang, Lijiang Chen(参考訳) 卵巣癌は最も有害な婦人科疾患の一つである。 早期の卵巣腫瘍をコンピュータ支援技術で検出することは、効率よく死亡率を下げることができる。 医療標準の改善により、超音波画像は臨床治療に広く応用されている。 しかし,近年の特筆すべき方法は,主に単一モードの超音波卵巣腫瘍の分類や認識に焦点をあてることであり,多モードの超音波卵巣腫瘍像の表現能力を探索する研究はいまだ不十分である。 そこで本研究では,1469個の超音波画像と170個の造影超音波画像を含むMMOTU(Multi-Modality Ovarian tumor Ultrasound)画像データセットを提案する。 MMOTUに基づいて、主に教師なしクロスドメインセマンティックセグメンテーションタスクに焦点を当てる。 ドメインシフト問題を解決するために,Dual-Scheme Domain-Selected Network (DS2Net) という機能アライメントに基づくアーキテクチャを提案する。 具体的には、まずソースエンコーダとターゲットエンコーダを設計し、ソースとターゲットの2種類の特徴を抽出する。 そこで本研究では,DSM(Domain-Distinct Selected Module)とDUSM(Domain-Universal Selected Module)を提案し,その特徴を2つのスタイル(ソーススタイル,ターゲットスタイル)で抽出する。 最後に、これらの2種類の機能を融合し、ソースデコーダとターゲットデコーダにフィードし、最終的な予測を生成する。 mmotu画像データセットの広範な比較実験と解析により、ds2netは2次元超音波画像とceus画像の双方向クロスドメイン適応のためのセグメンテーション性能を向上できることが示された。 提案されたデータセットとコードは、すべてhttps://github.com/cv516Buaa/MMOTU_DS2Netで利用可能です。

Ovarian cancer is one of the most harmful gynecological diseases. Detecting ovarian tumors in early stage with computer-aided techniques can efficiently decrease the mortality rate. With the improvement of medical treatment standard, ultrasound images are widely applied in clinical treatment. However, recent notable methods mainly focus on single-modality ultrasound ovarian tumor segmentation or recognition, which means there still lacks researches on exploring the representation capability of multi-modality ultrasound ovarian tumor images. To solve this problem, we propose a Multi-Modality Ovarian Tumor Ultrasound (MMOTU) image dataset containing 1469 2d ultrasound images and 170 contrast enhanced ultrasonography (CEUS) images with pixel-wise and global-wise annotations. Based on MMOTU, we mainly focus on unsupervised cross-domain semantic segmentation task. To solve the domain shift problem, we propose a feature alignment based architecture named Dual-Scheme Domain-Selected Network (DS2Net). Specifically, we first design source-encoder and target-encoder to extract two-style features of source and target images. Then, we propose Domain-Distinct Selected Module (DDSM) and Domain-Universal Selected Module (DUSM) to extract the distinct and universal features in two styles (source-style or target-style). Finally, we fuse these two kinds of features and feed them into the source-decoder and target-decoder to generate final predictions. Extensive comparison experiments and analysis on MMOTU image dataset show that DS2Net can boost the segmentation performance for bidirectional cross-domain adaptation of 2d ultrasound images and CEUS images. Our proposed dataset and code are all available at https://github.com/cv516Buaa/MMOTU_DS2Net.
翻訳日:2023-12-01 21:07:06 公開日:2023-11-30
# RandoMix:多重混合モードを用いた混合サンプルデータ拡張法

RandoMix: A mixed sample data augmentation method with multiple mixed modes ( http://arxiv.org/abs/2205.08728v2 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Jian Zhao, and Changhai Nie(参考訳) データ拡張は、さまざまなドメインにわたる機械学習モデルの堅牢性とパフォーマンスを高める上で重要な役割を果たす。 本研究ではRandoMixと呼ばれる新しい混合サンプルデータ拡張手法を提案する。 RandoMixは、堅牢性と多様性の課題に同時に対処するように設計されている。 線形モードとマスク混合モードの組み合わせを活用し、候補選択の柔軟性と重量調整を導入する。 我々は、CIFAR-10/100、Tiny-ImageNet、ImageNet、Google Speech Commandsなど、さまざまなデータセットに対するRandoMixの有効性を評価する。 この結果は、Mixup、CutMix、Fmix、ResizeMixといった既存の技術と比較して優れた性能を示している。 特にRandoMixは、対向ノイズ、自然ノイズ、サンプル閉塞に対するモデル堅牢性の向上に長けている。 パラメータチューニングに関する総合的な実験結果と洞察は、RandoMixを多目的かつ効果的なデータ拡張法としての可能性を示している。 さらに、トレーニングパイプラインにシームレスに統合される。

Data augmentation plays a crucial role in enhancing the robustness and performance of machine learning models across various domains. In this study, we introduce a novel mixed-sample data augmentation method called RandoMix. RandoMix is specifically designed to simultaneously address robustness and diversity challenges. It leverages a combination of linear and mask-mixed modes, introducing flexibility in candidate selection and weight adjustments. We evaluate the effectiveness of RandoMix on diverse datasets, including CIFAR-10/100, Tiny-ImageNet, ImageNet, and Google Speech Commands. Our results demonstrate its superior performance compared to existing techniques such as Mixup, CutMix, Fmix, and ResizeMix. Notably, RandoMix excels in enhancing model robustness against adversarial noise, natural noise, and sample occlusion. The comprehensive experimental results and insights into parameter tuning underscore the potential of RandoMix as a versatile and effective data augmentation method. Moreover, it seamlessly integrates into the training pipeline.
翻訳日:2023-12-01 21:06:32 公開日:2023-11-30
# 日本語テストにおける手書き認識と記述的回答の自動スコアリング

Handwriting recognition and automatic scoring for descriptive answers in Japanese language tests ( http://arxiv.org/abs/2201.03215v2 )

ライセンス: Link先を確認
Hung Tuan Nguyen, Cuong Tuan Nguyen, Haruki Oka, Tsunenori Ishioka, Masaki Nakagawa(参考訳) 本研究は,2017年と2018年に約12万件の試験を行った日本大学入試試験において,手書き記述回答を自動的に評価する実験である。 約40万の回答があり、2000万以上の文字がある。 すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。 本稿では,ラベル付き手書きデータセットで学習した深層ニューラルネットワークを用いた手書き認識を,このラベルなし回答集合に適用する試みについて述べる。 提案手法は,異なる学習戦略を結合し,複数の認識器をアンサンブルし,大きな汎用コーパスから構築した言語モデルを用いて,特定のデータへの過剰適合を回避する。 提案手法では,データセットの0.5%以下を占める約2,000個のラベル付き回答を用いて97%以上の文字精度を記録する。 そして、認識された回答を、誤認識文字を修正せずにBERTモデルに基づいて事前学習した自動スコアシステムに入力し、ルーリックアノテーションを提供する。 自動スコアリングシステムは、四重重みカッパ(QWK)の0.84から0.98に達する。 QWKは0.8以上なので、自動スコアリングシステムと人間の検査員とのスコアリングの相似性は許容できる。 これらの結果は、記述的回答のエンドツーエンド自動スコアリングに関するさらなる研究に期待できる。

This paper presents an experiment of automatically scoring handwritten descriptive answers in the trial tests for the new Japanese university entrance examination, which were made for about 120,000 examinees in 2017 and 2018. There are about 400,000 answers with more than 20 million characters. Although all answers have been scored by human examiners, handwritten characters are not labeled. We present our attempt to adapt deep neural network-based handwriting recognizers trained on a labeled handwriting dataset into this unlabeled answer set. Our proposed method combines different training strategies, ensembles multiple recognizers, and uses a language model built from a large general corpus to avoid overfitting into specific data. In our experiment, the proposed method records character accuracy of over 97% using about 2,000 verified labeled answers that account for less than 0.5% of the dataset. Then, the recognized answers are fed into a pre-trained automatic scoring system based on the BERT model without correcting misrecognized characters and providing rubric annotations. The automatic scoring system achieves from 0.84 to 0.98 of Quadratic Weighted Kappa (QWK). As QWK is over 0.8, it represents an acceptable similarity of scoring between the automatic scoring system and the human examiners. These results are promising for further research on end-to-end automatic scoring of descriptive answers.
翻訳日:2023-12-01 21:05:57 公開日:2023-11-30
# 不均一グラフモデルにおける公平なコミュニティ検出と構造学習

Fair Community Detection and Structure Learning in Heterogeneous Graphical Models ( http://arxiv.org/abs/2112.05128v2 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Laura Balzano, and Alfred O. Hero(参考訳) 確率的グラフィカルモデルにおけるコミュニティ構造の推定は、ノードに人口属性がある場合の公平性制約とは一致しないかもしれない。 ある人口層は、検出された一部のコミュニティで過剰に表現され、他のコミュニティでは過度に表現されることがある。 本稿では、公平なグラフィカルモデル選択のための新しい$\ell_1$-regularized pseudo-likelihoodアプローチを定義する。 特に、基礎となるグラフにはコミュニティまたはクラスタリング構造が存在すると仮定し、人口統計群がコミュニティ内で公平に表現されるようなデータから、スパースな無向グラフとそのコミュニティを学ぼうとしている。 グラフが先行して知られている場合、フェアコミュニティ検出のための凸半定義型プログラミングアプローチを提供する。 本研究では,ガウス図形モデルとイジングモデルの両方に対して提案手法の統計的整合性を確立し,連続データと二分データを用いてグラフと公正なコミュニティを高い確率で復元できることを証明した。

Inference of community structure in probabilistic graphical models may not be consistent with fairness constraints when nodes have demographic attributes. Certain demographics may be over-represented in some detected communities and under-represented in others. This paper defines a novel $\ell_1$-regularized pseudo-likelihood approach for fair graphical model selection. In particular, we assume there is some community or clustering structure in the true underlying graph, and we seek to learn a sparse undirected graph and its communities from the data such that demographic groups are fairly represented within the communities. In the case when the graph is known a priori, we provide a convex semidefinite programming approach for fair community detection. We establish the statistical consistency of the proposed method for both a Gaussian graphical model and an Ising model for, respectively, continuous and binary data, proving that our method can recover the graphs and their fair communities with high probability.
翻訳日:2023-12-01 21:05:40 公開日:2023-11-30
# マルチソースデータセットのセマンティクスとスタイルを活用した関連するキャプション生成

Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets ( http://arxiv.org/abs/2111.12727v3 )

ライセンス: Link先を確認
Marcella Cornia, Lorenzo Baraldi, Giuseppe Fiameni, Rita Cucchiara(参考訳) 本稿では,データソースの非一様組み合わせを訓練し,人間の注釈付きキャプションとweb-collectedキャプションの両方を含む不均一な記述を生成するタスクについて述べる。 実際、ノイズの多い画像テキストペアを持つ大規模データセットは、低品質の記述スタイルのため、最適な監督源を提供する一方で、人間の注釈付きデータセットはよりクリーンだがスケールが小さい。 両世界を最大限に活用するために,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。 提案モデルは,オブジェクト検出器の必要性を回避し,プロンプト言語モデリングの1つの目的を用いて学習し,異なる入力スタイルを持つソースをトレーニングしながら,人間によるキャプションのスタイルを再現する。 実験により,実世界の概念を認識し,高品質なキャプションを生成する能力を示す。 CC3Mやnocaps、競合するCOCOデータセットなど、さまざまな画像キャプションデータセットに対して、大規模な実験が行われます。

This paper addresses the task of generating fluent descriptions by training on a non-uniform combination of data sources, containing both human-annotated and web-collected captions. Large-scale datasets with noisy image-text pairs, indeed, provide a sub-optimal source of supervision because of their low-quality descriptive style, while human-annotated datasets are cleaner but smaller in scale. To get the best of both worlds, we propose to leverage and separate semantics and descriptive style through the incorporation of a style token and keywords extracted through a retrieval component. The proposed model avoids the need of object detectors, is trained with a single objective of prompt language modeling, and can replicate the style of human-collected captions while training on sources with different input styles. Experimentally, the model shows a strong capability of recognizing real-world concepts and producing high-quality captions. Extensive experiments are performed on different image captioning datasets, including CC3M, nocaps, and the competitive COCO dataset, where our model consistently outperforms baselines and state-of-the-art approaches.
翻訳日:2023-12-01 21:05:27 公開日:2023-11-30
# 通常のリスクを超越した学習条件の検討

A Survey of Learning Criteria Going Beyond the Usual Risk ( http://arxiv.org/abs/2110.04996v3 )

ライセンス: Link先を確認
Matthew J. Holland and Kazuki Tanabe(参考訳) 事実上、すべての機械学習タスクはある種の損失関数を使って特徴づけられ、"良いパフォーマンス"は通常、テストデータのランダムな引き分けに乗じて、十分に小さな平均損失で記述される。 平均的なパフォーマンスの最適化は直感的であり、理論的に解析しやすく、実際は容易に実装できるが、そのような選択はトレードオフをもたらす。 本研究では,機械学習アルゴリズムの設計と評価,古典的パラダイムを適切な歴史的文脈に置くための非伝統的基準の多種多様な調査と紹介を行い,期待損失を暗黙的に利用する代わりに「望ましい損失分布に何をもたらすのか」という課題を強調する学習問題の視点を提案する。

Virtually all machine learning tasks are characterized using some form of loss function, and "good performance" is typically stated in terms of a sufficiently small average loss, taken over the random draw of test data. While optimizing for performance on average is intuitive, convenient to analyze in theory, and easy to implement in practice, such a choice brings about trade-offs. In this work, we survey and introduce a wide variety of non-traditional criteria used to design and evaluate machine learning algorithms, place the classical paradigm within the proper historical context, and propose a view of learning problems which emphasizes the question of "what makes for a desirable loss distribution?" in place of tacit use of the expected loss.
翻訳日:2023-12-01 21:05:05 公開日:2023-11-30
# コンピュータビジョンにおける連続学習の最近の進歩:概要

Recent Advances of Continual Learning in Computer Vision: An Overview ( http://arxiv.org/abs/2109.11369v3 )

ライセンス: Link先を確認
Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu(参考訳) すべてのトレーニングデータが一度に利用できるバッチ学習とは対照的に、連続学習は知識を蓄積し、逐次的に利用可能なデータで継続的に学習する手法のファミリーを表す。 異なる時間ステップで新しい知識を学習し、融合し、蓄積する能力を持つ人間の学習プロセスと同様に、連続学習は高い実用的意義を持つと考えられている。 したがって、連続学習は様々な人工知能タスクで研究されてきた。 本稿では,コンピュータビジョンにおける連続学習の最近の進歩について概観する。 特に、作品群は、正規化、知識蒸留、記憶、生成再生、パラメータ分離、および上記の技法の組み合わせを含む代表的技術によってグループ化されている。 これらの技術の各カテゴリについて,その特性とコンピュータビジョンへの応用について述べる。 この概要の最後には、連続的な学習が十分に研究されていない間、連続的な知識蓄積が潜在的に有用であるいくつかの亜領域について論じる。

In contrast to batch learning where all training data is available at once, continual learning represents a family of methods that accumulate knowledge and learn continuously with data available in sequential order. Similar to the human learning process with the ability of learning, fusing, and accumulating new knowledge coming at different time steps, continual learning is considered to have high practical significance. Hence, continual learning has been studied in various artificial intelligence tasks. In this paper, we present a comprehensive review of the recent progress of continual learning in computer vision. In particular, the works are grouped by their representative techniques, including regularization, knowledge distillation, memory, generative replay, parameter isolation, and a combination of the above techniques. For each category of these techniques, both its characteristics and applications in computer vision are presented. At the end of this overview, several subareas, where continuous knowledge accumulation is potentially helpful while continual learning has not been well studied, are discussed.
翻訳日:2023-12-01 21:04:51 公開日:2023-11-30
# 暗黙的空間領域ノッチフィルタリングによるディープフェイク検出

Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering ( http://arxiv.org/abs/2009.09213v5 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Yang Liu, Geguang Pu(参考訳) 現在、DeepFake画像の高忠実度生成と高精度検出は、軍備競争の最中である。 高度にリアルで「検出回避」なディープフェイクの生成は、将来のディープフェイク検出能力を改善する究極の目標となると信じている。 本稿では,暗黙的な空間領域ノッチフィルタリングを行うことで,画像品質を損なうことなく偽画像のアーティファクトパターンを低減できる簡易かつ強力なパイプラインを提案する。 まず、周波数領域のノッチフィルタは、空間領域における周期的なノイズを取り除くのに有効であるが、ノッチフィルタに必要な手動設計のため、手作業では不可能であることを示す。 そこで我々は,ノッチフィルタリング効果を再現する学習ベースの手法を用いるが,空間領域のみに適応する。 そこで我々は,周期的ノイズパターンを分解するために過大な空間雑音を付加する手法と,ノイズのない偽画像を再構成する深部画像フィルタリング法を組み合わせて,deepnotch法と命名する。 ディープイメージフィルタリングは、ノイズ画像の各画素に対して特別なフィルタを提供し、ディープフェイク画像に比べて高い忠実度でフィルタ画像を生成する。 さらに、画像の意味情報を用いて、敵対的な誘導マップを生成し、ノイズをインテリジェントに付加する。 最先端3種類のDeepFake検出手法(16種類のDeepFakeで検証)を大規模に評価した結果,これら3種類の偽画像検出手法の精度は,平均36.79%,最高97.02%と有意に低下した。

The current high-fidelity generation and high-precision detection of DeepFake images are at an arms race. We believe that producing DeepFakes that are highly realistic and 'detection evasive' can serve the ultimate goal of improving future generation DeepFake detection capabilities. In this paper, we propose a simple yet powerful pipeline to reduce the artifact patterns of fake images without hurting image quality by performing implicit spatial-domain notch filtering. We first demonstrate that frequency-domain notch filtering, although famously shown to be effective in removing periodic noise in the spatial domain, is infeasible for our task at hand due to the manual designs required for the notch filters. We, therefore, resort to a learning-based approach to reproduce the notch filtering effects, but solely in the spatial domain. We adopt a combination of adding overwhelming spatial noise for breaking the periodic noise pattern and deep image filtering to reconstruct the noise-free fake images, and we name our method DeepNotch. Deep image filtering provides a specialized filter for each pixel in the noisy image, producing filtered images with high fidelity compared to their DeepFake counterparts. Moreover, we also use the semantic information of the image to generate an adversarial guidance map to add noise intelligently. Our large-scale evaluation on 3 representative state-of-the-art DeepFake detection methods (tested on 16 types of DeepFakes) has demonstrated that our technique significantly reduces the accuracy of these 3 fake image detection methods, 36.79% on average and up to 97.02% in the best case.
翻訳日:2023-12-01 21:04:35 公開日:2023-11-30
# 相対時間線予測による時間情報抽出

Temporal Information Extraction by Predicting Relative Time-lines ( http://arxiv.org/abs/1808.09401v2 )

ライセンス: Link先を確認
Artuur Leeuwenberg, Marie-Francine Moens(参考訳) 現在のテキストからの時間情報抽出のパラダイムは,(1)出来事の認識と時間的表現,(2)時間的関係の認識,(3)時間的関係からの時間的構成の3段階からなる。 最初の2つのフェーズとは対照的に、最終フェーズであるタイムラインの構築はほとんど注目されず、この作業の焦点となっている。 本稿では,(抽出された)時間関係の集合から線形時間線を構築するための新しい手法を提案する。 しかし、より重要なのは、テキストからイベントの開始点と終了点を直接予測する新しいパラダイムを提案し、以前の作業のように時間的関係の予測の中間段階を経ることなく、タイムラインを構成する。 このパラダイムでは,線形複雑性を予測する2つのモデルと,TimeMLスタイルのアノテーションを用いた新たなトレーニング損失を提案し,有望な結果を得た。

The current leading paradigm for temporal information extraction from text consists of three phases: (1) recognition of events and temporal expressions, (2) recognition of temporal relations among them, and (3) time-line construction from the temporal relations. In contrast to the first two phases, the last phase, time-line construction, received little attention and is the focus of this work. In this paper, we propose a new method to construct a linear time-line from a set of (extracted) temporal relations. But more importantly, we propose a novel paradigm in which we directly predict start and end-points for events from the text, constituting a time-line without going through the intermediate step of prediction of temporal relations as in earlier work. Within this paradigm, we propose two models that predict in linear complexity, and a new training loss using TimeML-style annotations, yielding promising results.
翻訳日:2023-12-01 21:04:07 公開日:2023-11-30
# ニューラルネットワークのリプシッツ連続性に関する興味深い側面

Some Intriguing Aspects about Lipschitz Continuity of Neural Networks ( http://arxiv.org/abs/2302.10886v3 )

ライセンス: Link先を確認
Grigory Khromov, Sidak Pal Singh(参考訳) リプシッツ連続性は任意の予測モデルの重要な機能特性であり、その堅牢性、一般化、および敵の脆弱性を自然に支配する。 より厳密な境界の獲得と、特定のリプシッツ特性を強制するための異なる実践戦略の開発に焦点を当てた他の研究とは対照的に、ニューラルネットワークのリプシッツ挙動を徹底的に検討し、特徴付けることを目的としている。 このようにして、最も単純な下限と最も一般的な下限と上限の限界をなくすことにより、さまざまな設定(アーキテクチャ、データセット、ラベルノイズなど)で実証的な調査を行う。 この研究のハイライトとして、下リプシッツ境界の顕著な忠実さを示し、上と下の両方の境界における顕著な二重発色傾向を特定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。

Lipschitz continuity is a crucial functional property of any predictive model, that naturally governs its robustness, generalisation, as well as adversarial vulnerability. Contrary to other works that focus on obtaining tighter bounds and developing different practical strategies to enforce certain Lipschitz properties, we aim to thoroughly examine and characterise the Lipschitz behaviour of Neural Networks. Thus, we carry out an empirical investigation in a range of different settings (namely, architectures, datasets, label noise, and more) by exhausting the limits of the simplest and the most general lower and upper bounds. As a highlight of this investigation, we showcase a remarkable fidelity of the lower Lipschitz bound, identify a striking Double Descent trend in both upper and lower bounds to the Lipschitz and explain the intriguing effects of label noise on function smoothness and generalisation.
翻訳日:2023-12-01 21:00:19 公開日:2023-11-30
# デュアル事前変調ネットワークによるシーンテキスト画像の高分解能化

Improving Scene Text Image Super-resolution via Dual Prior Modulation Network ( http://arxiv.org/abs/2302.10414v2 )

ライセンス: Link先を確認
Shipeng Zhu, Zuoyan Zhao, Pengfei Fang, Hui Xue(参考訳) Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としており、結果として得られる画像は下流タスクのパフォーマンスに大きな影響を与える。 多くの進展があったが、既存のアプローチでは、(1)シーンテキストの意味的決定性の境界であるテキストのグローバルな構造を無視している。 2)事前学習されたテキスト認識者から、既存の作品で使用されるテキスト先行やストローク先行などの先行語を抽出する。 とはいえ、このような優先順位は解像度の低さや撮像条件の悪さによるぼやけなど、ドメインのギャップに苦しむため、誤ったガイダンスにつながる。 本稿では,これらのギャップに対処し,dual prior modulation network (dpmn) と呼ばれるプラグイン・アンド・プレイモジュールを提案する。 具体的には,前層からの低画質sr画像のテキストマスクや図形認識結果を用いて,テキストの構造的明快さと意味的正確さを向上させるための2種類の事前調整モジュールを設計した。 したがって、以下の注意機構は、2つの品質向上した画像を変調し、優れたSR結果を得る。 広範な実験により,提案手法が画質を向上し,ベンチマークの典型的な5つのアプローチでダウンストリームタスクのパフォーマンスを向上できることが確認された。 実体的可視化とアブレーション研究は提案されたDPMNの利点を示している。 コードはhttps://github.com/jdfxzzy/dpmn。

Scene text image super-resolution (STISR) aims to simultaneously increase the resolution and legibility of the text images, and the resulting images will significantly affect the performance of downstream tasks. Although numerous progress has been made, existing approaches raise two crucial issues: (1) They neglect the global structure of the text, which bounds the semantic determinism of the scene text. (2) The priors, e.g., text prior or stroke prior, employed in existing works, are extracted from pre-trained text recognizers. That said, such priors suffer from the domain gap including low resolution and blurriness caused by poor imaging conditions, leading to incorrect guidance. Our work addresses these gaps and proposes a plug-and-play module dubbed Dual Prior Modulation Network (DPMN), which leverages dual image-level priors to bring performance gain over existing approaches. Specifically, two types of prior-guided refinement modules, each using the text mask or graphic recognition result of the low-quality SR image from the preceding layer, are designed to improve the structural clarity and semantic accuracy of the text, respectively. The following attention mechanism hence modulates two quality-enhanced images to attain a superior SR result. Extensive experiments validate that our method improves the image quality and boosts the performance of downstream tasks over five typical approaches on the benchmark. Substantial visualizations and ablation studies demonstrate the advantages of the proposed DPMN. Code is available at: https://github.com/jdfxzzy/DPMN.
翻訳日:2023-12-01 20:59:59 公開日:2023-11-30
# より安全な生成言語モデルに向けて:安全性のリスク、評価、改善に関する調査

Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements ( http://arxiv.org/abs/2302.09270v3 )

ライセンス: Link先を確認
Jiawen Deng, Jiale Cheng, Hao Sun, Zhexin Zhang, Minlie Huang(参考訳) 生成的大モデル能力が向上するにつれて、その出力において安全性に関する懸念がより顕著になる。 AIエコシステムの持続可能な成長を保証するため、関連する安全リスクの総合的な評価と改善を実施することが不可欠である。 本調査では, 大規模モデルに関する安全研究の枠組みとして, 安全リスクの展望と安全性評価, 改善手法について述べる。 まず,大規模モデルの安全性評価手法を探索し,優先性に基づくテスト,敵攻撃アプローチ,問題検出,その他の高度な評価手法について検討する。 さらに,トレーニングからデプロイメントまでの大規模モデル安全性向上戦略について検討し,大規模モデル構築の各ステージにおける最先端の安全性アプローチに注目した。 最後に、安全メカニズムの解釈可能性、進行中の安全性問題、悪意のある攻撃に対する堅牢性など、より責任のあるAIに向けて進む上での課題について論じる。 本調査は,安全研究者に明確な技術指導を提供し,大規模モデルの安全性に関するさらなる研究を奨励することを目的とする。

As generative large model capabilities advance, safety concerns become more pronounced in their outputs. To ensure the sustainable growth of the AI ecosystem, it's imperative to undertake a holistic evaluation and refinement of associated safety risks. This survey presents a framework for safety research pertaining to large models, delineating the landscape of safety risks as well as safety evaluation and improvement methods. We begin by introducing safety issues of wide concern, then delve into safety evaluation methods for large models, encompassing preference-based testing, adversarial attack approaches, issues detection, and other advanced evaluation methods. Additionally, we explore the strategies for enhancing large model safety from training to deployment, highlighting cutting-edge safety approaches for each stage in building large models. Finally, we discuss the core challenges in advancing towards more responsible AI, including the interpretability of safety mechanisms, ongoing safety issues, and robustness against malicious attacks. Through this survey, we aim to provide clear technical guidance for safety researchers and encourage further study on the safety of large models.
翻訳日:2023-12-01 20:59:34 公開日:2023-11-30
# 質問応答に対する入力介入による言語モデルの意味的忠実度の分析

Analyzing Semantic Faithfulness of Language Models via Input Intervention on Question Answering ( http://arxiv.org/abs/2212.10696v2 )

ライセンス: Link先を確認
Akshay Chaturvedi, Swarnadeep Bhar, Soumadeep Saha, Utpal Garain, Nicholas Asher(参考訳) トランスフォーマーベースの言語モデルは、いくつかのNLPタスクに非常に効果的であることが示されている。 本稿では,BERT,RoBERTa,XLNetの3つの変圧器モデルについて,小・大の両バージョンで検討し,テキストの意味的内容に関して,それらの表現がいかに忠実であるかを考察する。 質問応答におけるモデルの推論において,テキストの意味的内容が因果的に決定されるべき意味的忠実性の概念を定式化する。 次に、この概念を、削除介入と否定介入という2つの新しい意味的介入を行った後、ストーリーに関する質問に答えるモデルの動きを観察して検証する。 標準質問応答タスクにおいてトランスフォーマーモデルは高い性能を発揮するが、多くのケース(削除介入の約50%、否定介入の精度の約20%)でこれらの介入を行うと意味的に忠実でないことが示される。 そこで我々は,削除介入に対する望ましくない効果(50%から6%)を軽減できる介入ベースの訓練体制を提案する。 モデルの内部動作を分析し,削除介入に対する介入ベーストレーニングの有効性をよりよく理解する。 しかし,本トレーニングは,否定的介入に対処できない,あるいはテキストの述語句構造を捉えるなど,意味的不信感の他の側面を弱めるものではない。 また,2つの介入を処理し,述語句構造を捉えるために,インストラクションGPTをプロンプトとしてテストした。 InstructGPTモデルは述語句構造タスクにおいて非常に高い性能を達成するが、削除や否定の介入に適切に対応できない。

Transformer-based language models have been shown to be highly effective for several NLP tasks. In this paper, we consider three transformer models, BERT, RoBERTa, and XLNet, in both small and large versions, and investigate how faithful their representations are with respect to the semantic content of texts. We formalize a notion of semantic faithfulness, in which the semantic content of a text should causally figure in a model's inferences in question answering. We then test this notion by observing a model's behavior on answering questions about a story after performing two novel semantic interventions: deletion intervention and negation intervention. While transformer models achieve high performance on standard question answering tasks, we show that they fail to be semantically faithful once we perform these interventions for a significant number of cases (~50% for deletion intervention, and ~20% drop in accuracy for negation intervention). We then propose an intervention-based training regime that can mitigate the undesirable effects for deletion intervention by a significant margin (from ~ 50% to ~6%). We analyze the inner-workings of the models to better understand the effectiveness of intervention-based training for deletion intervention. But we show that this training does not attenuate other aspects of semantic unfaithfulness such as the models' inability to deal with negation intervention or to capture the predicate-argument structure of texts. We also test InstructGPT, via prompting, for its ability to handle the two interventions and to capture predicate-argument structure. While InstructGPT models do achieve very high performance on predicate-argument structure task, they fail to respond adequately to our deletion and negation interventions.
翻訳日:2023-12-01 20:58:29 公開日:2023-11-30
# テンソルネットワーク支援変分量子アルゴリズム

Tensor-network-assisted variational quantum algorithm ( http://arxiv.org/abs/2212.10421v4 )

ライセンス: Link先を確認
Junxiang Huang, Wenhao He, Yukun Zhang, Yusen Wu, Bujiao Wu, Xiao Yuan(参考訳) 短期量子デバイスは一般に浅い回路深さに悩まされ、ノイズやデコヒーレンスによる表現性が制限される。 そこで本研究では,古典的テンソルネットワーク演算子と量子回路を結合し,物理的に深い回路を必要とせずに回路の表現率を効果的に高めるテンソルネットワーク支援パラメトリズド量子回路を提案する。 より浅い量子回路を用いて量子多体問題を解くことのできるテンソルネットワーク支援変分量子アルゴリズムの枠組みを提案する。 本稿では,ユニタリ行列-積作用素とユニタリ木テンソルネットワークの2つの例を考慮して,この手法の効率性を示す。 数値シミュレーションにより,これらの回路の表現性はテンソルネットワークの助けを借りて大幅に向上することを示した。 提案手法を16量子ビットの2次元イジングモデルと1次元時間結晶ハミルトンモデルに適用し,浅量子回路を用いた従来の手法より一貫して優れていることを示す。

Near-term quantum devices generally suffer from shallow circuit depth and hence limited expressivity due to noise and decoherence. To address this, we propose tensor-network-assisted parametrized quantum circuits, which concatenate a classical tensor-network operator with a quantum circuit to effectively increase the circuit's expressivity without requiring a physically deeper circuit. We present a framework for tensor-network-assisted variational quantum algorithms that can solve quantum many-body problems using shallower quantum circuits. We demonstrate the efficiency of this approach by considering two examples of unitary matrix-product operators and unitary tree tensor networks, showing that they can both be implemented efficiently. Through numerical simulations, we show that the expressivity of these circuits is greatly enhanced with the assistance of tensor networks. We apply our method to two-dimensional Ising models and one-dimensional time-crystal Hamiltonian models with up to 16 qubits and demonstrate that our approach consistently outperforms conventional methods using shallow quantum circuits.
翻訳日:2023-12-01 20:58:00 公開日:2023-11-30
# 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解

Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning ( http://arxiv.org/abs/2211.13316v2 )

ライセンス: Link先を確認
R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt(参考訳) 本研究では,ニューラルネットワークを用いた古典的計画課題における良質なヒューリスティック関数の学習の問題点について,そのコスト対ゴール推定値に基づくサンプルに基づいて検討する。 ヒューリスティック関数は状態空間とゴール条件に対して学習され、サンプルの数は状態空間のサイズのごく一部に制限され、同じゴール条件を持つ状態空間の全ての状態に対してうまく一般化されなければならない。 我々の主な目標は,学習したヒューリスティック関数に導かれた欲望のベストファーストヒューリスティック検索(gbfs)の性能に及ぼすサンプル生成戦略の影響をより深く理解することである。 制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている: サンプルセットに含まれる状態とコストからゴールへの見積もりの品質である。 完全なコスト・ツー・ゴール推定を持つことは、サンプルが状態空間に分散していない場合、不十分である。 また,高値推定値のサンプルの追加など,他の効果についても検討する。 本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。 我々の実践戦略は、学習ヒューリスティックによって導かれるGBFSアルゴリズムの平均カバレッジをほぼ2倍にします。

We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples represented by states with their cost-to-goal estimates. The heuristic function is learned for a state space and goal condition with the number of samples limited to a fraction of the size of the state space, and must generalize well for all states of the state space with the same goal condition. Our main goal is to better understand the influence of sample generation strategies on the performance of a greedy best-first heuristic search (GBFS) guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: which states are included in the sample set and the quality of the cost-to-goal estimates. These two factors are dependent: having perfect cost-to-goal estimates is insufficient if the samples are not well distributed across the state space. We also study other effects, such as adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our practical strategies almost double the mean coverage of a GBFS algorithm guided by a learned heuristic.
翻訳日:2023-12-01 20:57:40 公開日:2023-11-30
# Point-DAE: 自己教師型ポイントクラウド学習のためのオートエンコーダ

Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2211.06841v3 )

ライセンス: Link先を確認
Yabin Zhang, Jiehong Lin, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) masked autoencoderは、セルフ教師付きポイントクラウド学習の有効性を実証した。 マスキングは一種の汚職であり、この研究では、マスキング以外の多くの種類の汚職を調査することによって、ポイントクラウドラーニング(Point-DAE)のためのより一般的なオートエンコーダを探索する。 具体的には、特定の腐敗を入力としてポイントクラウドを分解し、エンコーダ・デコーダモデルを学び、元のポイントクラウドを破損したバージョンから再構築する。 従来の非変換エンコーダを用いて,3つの腐敗ファミリー (\ie, density/masking, noise, and affine transformation) と14種類の腐敗タイプについて検討した。 一般的なマスキングの汚職に加えて、別の効果的な汚職家族 \ie, affine transformation も特定する。 アフィン変換は世界中の全ての点を阻害し、一部地域が失われる仮面的腐敗を補完する。 また, 変圧器バックボーンを用いたアフィン変換破壊の有効性を検証し, 完全点雲の再構成を, 詳細な局所パッチおよび粗大形状の再構成に分解し, 再構成における位置漏洩問題を軽減する。 提案手法の有効性を検証するため,オブジェクト分類,マイノリティ学習,ロバストネステスト,部分分割,3次元物体検出などのタスクに関する広範な実験を行った。 コードは \url{https://github.com/ybzh/point-dae} で入手できる。

Masked autoencoder has demonstrated its effectiveness in self-supervised point cloud learning. Considering that masking is a kind of corruption, in this work we explore a more general denoising autoencoder for point cloud learning (Point-DAE) by investigating more types of corruptions beyond masking. Specifically, we degrade the point cloud with certain corruptions as input, and learn an encoder-decoder model to reconstruct the original point cloud from its corrupted version. Three corruption families (\ie, density/masking, noise, and affine transformation) and a total of fourteen corruption types are investigated with traditional non-Transformer encoders. Besides the popular masking corruption, we identify another effective corruption family, \ie, affine transformation. The affine transformation disturbs all points globally, which is complementary to the masking corruption where some local regions are dropped. We also validate the effectiveness of affine transformation corruption with the Transformer backbones, where we decompose the reconstruction of the complete point cloud into the reconstructions of detailed local patches and rough global shape, alleviating the position leakage problem in the reconstruction. Extensive experiments on tasks of object classification, few-shot learning, robustness testing, part segmentation, and 3D object detection validate the effectiveness of the proposed method. The codes are available at \url{https://github.com/YBZh/Point-DAE}.
翻訳日:2023-12-01 20:57:09 公開日:2023-11-30
# Fast-ParC: ConvNetとViTのグローバル機能を考慮した位置認識

Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs ( http://arxiv.org/abs/2210.04020v2 )

ライセンス: Link先を確認
Tao Yang, Haokui Zhang, Wenze Hu, Changwen Chen, Xiaoyu Wang(参考訳) 近年、トランスフォーマーモデルは様々な分野で大きな進歩を遂げている。 コンピュータビジョンの分野では、視覚トランスフォーマー(ViT)も畳み込みニューラルネットワーク(ConvNet)の強力な代替手段となるが、どちらも独自のメリットを持っているため、ConvNetを置き換えることはできない。 例えば、ViTは注意機構を持つグローバルな特徴の抽出に長けており、一方でConvNetは強い帰納バイアスのために局所的な関係をモデル化する上でより効率的である。 自然界のアイデアは、新しい構造を設計するためにConvNetsとViTsの強みを組み合わせることである。 本稿では,位置認識型円形畳み込み(parc)と呼ばれる新しい基本ニューラルネットワーク演算子とその高速化バージョンであるfast-parcを提案する。 parcオペレータは、グローバルカーネルと円畳み込みを使い、位置埋め込みを利用して位置感度を維持しながら、グローバルな特徴を捉えることができる。 我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。 この加速により、大きな特徴マップを持つモデルの初期段階でグローバル畳み込みを使用できるが、それでも3x3や7x7カーネルと同等の計算コストを維持できる。 提案する操作はプラグアンドプレイ方式で使用できる。 1) ViT を純ConvNet アーキテクチャに変換し、より広いハードウェアサポートを享受し、より高い推論速度を達成する。 2)ConvNetsの深層における従来の畳み込みを置き換え,有効受容場を大きくすることで精度を向上させる。 実験結果から、我々のParC opは従来のConvNetの受容領域を効果的に拡大し、VTモデルとConvNetモデルの両方を3つの一般的な視覚タスク、画像分類、オブジェクトに適用できることがわかった。

Transformer models have made tremendous progress in various fields in recent years. In the field of computer vision, vision transformers (ViTs) also become strong alternatives to convolutional neural networks (ConvNets), yet they have not been able to replace ConvNets since both have their own merits. For instance, ViTs are good at extracting global features with attention mechanisms while ConvNets are more efficient in modeling local relationships due to their strong inductive bias. A natural idea that arises is to combine the strengths of both ConvNets and ViTs to design new structures. In this paper, we propose a new basic neural network operator named position-aware circular convolution (ParC) and its accelerated version Fast-ParC. The ParC operator can capture global features by using a global kernel and circular convolution while keeping location sensitiveness by employing position embeddings. Our Fast-ParC further reduces the O(n2) time complexity of ParC to O(n log n) using Fast Fourier Transform. This acceleration makes it possible to use global convolution in the early stages of models with large feature maps, yet still maintains the overall computational cost comparable with using 3x3 or 7x7 kernels. The proposed operation can be used in a plug-and-play manner to 1) convert ViTs to pure-ConvNet architecture to enjoy wider hardware support and achieve higher inference speed; 2) replacing traditional convolutions in the deep stage of ConvNets to improve accuracy by enlarging the effective receptive field. Experiment results show that our ParC op can effectively enlarge the receptive field of traditional ConvNets, and adopting the proposed op benefits both ViTs and ConvNet models on all three popular vision tasks, image classification, object
翻訳日:2023-12-01 20:56:24 公開日:2023-11-30
# 野生におけるテーブル検出:新しい多様なテーブル検出データセットおよび方法

Table Detection in the Wild: A Novel Diverse Table Detection Dataset and Method ( http://arxiv.org/abs/2209.09207v2 )

ライセンス: Link先を確認
Mrinal Haloi, Shashank Shekhar, Nikhil Fande, Siddhant Swaroop Dash, Sanjay G(参考訳) テーブル検出における近年の深層学習手法は優れた性能を達成し,文書レイアウトの同定に有効であることが証明された。 現在利用可能なテーブル検出ベンチマークには、サンプルの多様性の欠如、単純なテーブル構造、トレーニングケースの欠如、サンプル品質など、多くの制限がある。 本稿では,多種多様な情報源から収集したテーブル構造を含む7万以上のサンプルを用いて,テーブル検出のための多種多様な大規模データセットを提案する。 それに加えて,畳み込みニューラルネットワークを用いた文書の表構造検出手法によるベースライン結果も提示する。 実験の結果,古典的コンピュータビジョンに基づく手法よりも畳み込み型深層学習手法が優れていることがわかった。 この多様なテーブル検出データセットの導入により、コミュニティは文書レイアウトと表データ処理を理解するための高いスループットのディープラーニング手法を開発できるようになる。 Datasetは以下の通り。 1. https://www.kaggle.com/datasets/mrinalim/stdw-dataset 2. https://huggingface.co/datasets/n3011/stdw

Recent deep learning approaches in table detection achieved outstanding performance and proved to be effective in identifying document layouts. Currently, available table detection benchmarks have many limitations, including the lack of samples diversity, simple table structure, the lack of training cases, and samples quality. In this paper, we introduce a diverse large-scale dataset for table detection with more than seven thousand samples containing a wide variety of table structures collected from many diverse sources. In addition to that, we also present baseline results using a convolutional neural network-based method to detect table structure in documents. Experimental results show the superiority of applying convolutional deep learning methods over classical computer vision-based methods. The introduction of this diverse table detection dataset will enable the community to develop high throughput deep learning methods for understanding document layout and tabular data processing. Dataset is available at: 1. https://www.kaggle.com/datasets/mrinalim/stdw-dataset 2. https://huggingface.co/datasets/n3011/STDW
翻訳日:2023-12-01 20:55:51 公開日:2023-11-30
# エントロピー和に対するELBOの収束性について

On the Convergence of the ELBO to Entropy Sums ( http://arxiv.org/abs/2209.03077v4 )

ライセンス: Link先を確認
J\"org L\"ucke, Jan Warnken(参考訳) 変分下界(ELBOまたは自由エネルギー)は、多くの確立された目的であり、教師なし学習のための多くの新しいアルゴリズムである。 学習アルゴリズムは、変分下界が増加するようにモデルパラメータを変更する。 学習は通常、パラメータが学習ダイナミクスの静止点に近い値に収束するまで進行する。 この純粋に理論的な寄与において、(非常に大きな生成モデルのクラスに対して)変分下界がすべての定常学習点においてエントロピーの和に等しいことを示す。 1組の潜在変数と1組の観測変数を持つ標準的な機械学習モデルの場合、和は3つのエントロピーからなる: (A) 変動分布の(平均)エントロピー、(B) モデルの以前の分布の負エントロピー、(C) 観測可能な分布の(予想)負エントロピー。 得られた結果は、データポイントの有限個数、(鞍点を含む)任意の定常点、および(よく振る舞う)変分分布の族を含む現実的な条件下に適用される。 エントロピー和の等式を示す生成モデルのクラスは、多くのよく知られた生成モデルを含んでいる。 具体的な例としてsgmoid belief network, probabilistic pca, (gaussian and non-gaussian) 混合モデルについて述べる。 結果は標準(ガウシアン)変分オートエンコーダにも適用され、並列に示されている(damm et al., 2023)。 エントロピー和の等式を示すための前提条件は比較的穏やかである。 具体的には、与えられた生成モデルの分布は指数族(定数基底測度を持つ)でなければならないし、モデルはパラメータ化基準(通常は満たされる)を満たす必要がある。 ELBO の等式を定常点におけるエントロピー和 (entropy sums) に証明することは、この研究の主な貢献である。

The variational lower bound (a.k.a. ELBO or free energy) is the central objective for many established as well as many novel algorithms for unsupervised learning. Learning algorithms change model parameters such that the variational lower bound increases. Learning usually proceeds until parameters have converged to values close to a stationary point of the learning dynamics. In this purely theoretical contribution, we show that (for a very large class of generative models) the variational lower bound is at all stationary points of learning equal to a sum of entropies. For standard machine learning models with one set of latents and one set observed variables, the sum consists of three entropies: (A) the (average) entropy of the variational distributions, (B) the negative entropy of the model's prior distribution, and (C) the (expected) negative entropy of the observable distributions. The obtained result applies under realistic conditions including: finite numbers of data points, at any stationary points (including saddle points) and for any family of (well behaved) variational distributions. The class of generative models for which we show the equality to entropy sums contains many well-known generative models. As concrete examples we discuss Sigmoid Belief Networks, probabilistic PCA and (Gaussian and non-Gaussian) mixture models. The results also apply for standard (Gaussian) variational autoencoders, which has been shown in parallel (Damm et al., 2023). The prerequisites we use to show equality to entropy sums are relatively mild. Concretely, the distributions of a given generative model have to be of the exponential family (with constant base measure), and the model has to satisfy a parameterization criterion (which is usually fulfilled). Proving the equality of the ELBO to entropy sums at stationary points (under the stated conditions) is the main contribution of this work.
翻訳日:2023-12-01 20:55:37 公開日:2023-11-30
# 領域認識正規化による局所低光度画像強調

Local Low-light Image Enhancement via Region-Aware Normalization ( http://arxiv.org/abs/2208.07711v3 )

ライセンス: Link先を確認
Shihurong Yao and Yizhan Huang and Xiaogang Xu(参考訳) 低光画像強調(LLIE)の領域では、既存の研究は主に画像のグローバル化に焦点を当てている。 しかし、多くのアプリケーションは局所的なllieを必要としており、ユーザーは入力マスクを使って特定の領域を照らすことができる。 しかし、現在この作業は限定的な注目を集めている。 本稿では,ローカルLLIEの要件を体系的に定義することを目的として,既存のグローバルLLIEメソッドをローカルバージョンに変換する新たな戦略を提案する。 画像空間は、3つの領域に分けられる:被写体Aを啓蒙して所望の照明効果を得る、遷移領域Bは啓蒙された領域(AreaA)から変化のない領域(AreaC)への滑らかな遷移である。 ローカルLLIEの課題を達成するために、RANLENと呼ばれるローカルエンハンスメントのためのリージョンアウェア正規化を導入する。 RANLENは動的に設計されたマスクベースの正規化演算を使用し、空間的に異なる方法で画像を拡張し、その結果が入力マスクが指定した要件と一致していることを保証する。 さらに、ローカルLLIEフレームワークの学習を容易にするために、地域対応の損失項のセットが定式化されている。 我々の戦略は、様々な構造を持つ既存のグローバルLLIEネットワークに適用できる。 広範囲にわたる実験により,グローバルリーに比べて所望の照明効果が得られ,マスク形状の異なる局所的な拡張が可能となった。

In the realm of Low-Light Image Enhancement (LLIE), existing research primarily focuses on enhancing images globally. However, many applications require local LLIE, where users are allowed to illuminate specific regions using an input mask, such as creating a protagonist stage or spotlight effect. However, this task has received limited attention currently. This paper aims to systematically define the requirements of local LLIE and proposes a novel strategy to convert current existing global LLIE methods into local versions. The image space is divided into three regions: Masked Area A be enlightened to achieve the desired lighting effects; Transition Area B is a smooth transition from the enlightened area (Area A) to the unchanged region (Area C). To achieve the task of local LLIE, we introduce Region-Aware Normalization for Local Enhancement, dubbed as RANLEN. RANLEN uses a dynamically designed mask-based normalization operation, which enhances an image in a spatially varying manner, ensuring that the enhancement results are consistent with the requirements specified by the input mask. Additionally, a set of region-aware loss terms is formulated to facilitate the learning of the local LLIE framework. Our strategy can be applied to existing global LLIE networks with varying structures. Extensive experiments demonstrate that our approach can produce the desired lighting effects compared to global LLIE, all the while offering controllable local enhancement with various mask shapes.
翻訳日:2023-12-01 20:55:06 公開日:2023-11-30
# モジュール型ロボットシステムに対する構成的アプローチ

A Compositional Approach to Verifying Modular Robotic Systems ( http://arxiv.org/abs/2208.05507v2 )

ライセンス: Link先を確認
Matt Luckcuck and Marie Farrell and Angelo Ferrando and Rafael C. Cardoso and Louise A. Dennis and Michael Fisher(参考訳) 安全クリティカルな産業状況で使用されるロボットシステムは、しばしばモジュラーソフトウェアアーキテクチャに依存し、ますます自律的なコンポーネントを含んでいる。 これらのモジュラーロボットシステムが期待通りに振る舞うことを検証するには、この固有のモジュラリティに対処し、好ましくは活用できるアプローチが必要である。 本稿では,ロボットオペレーティングシステム (ros) を用いて構築されたロボットシステムにおいて,各ノードを1次論理 (fol) の前提言語契約で指定し,その仕様をros実装にリンクする構成的手法について述べる。 我々は,これらのノードレベルの契約の構成を容易にする推論ルールを導入し,システムレベルの特性を導出する。 また、ノードのFOL仕様をキャプチャし、この契約を実装にリンクする新しいDomain-Specific Language、ROS Contract Languageも提示します。 RCL契約は、当社のツールであるVandaによって、実行可能モニタに自動的に変換できます。 我々は,核施設の遠隔検査に携わる自律ローバーの仕様と検証を通じて,我々のアプローチを説明し,我々のフレームワークの他の有用な特徴を示す小さな例で仕上げる。

Robotic systems used in safety-critical industrial situations often rely on modular software architectures, and increasingly include autonomous components. Verifying that these modular robotic systems behave as expected requires approaches that can cope with, and preferably take advantage of, this inherent modularity. This paper describes a compositional approach to specifying the nodes in robotic systems built using the Robotic Operating System (ROS), where each node is specified using First-Order Logic (FOL) assume-guarantee contracts that link the specification to the ROS implementation. We introduce inference rules that facilitate the composition of these node-level contracts to derive system-level properties. We also present a novel Domain-Specific Language, the ROS Contract Language, which captures a node's FOL specification and links this contract to its implementation. RCL contracts can be automatically translated, by our tool Vanda, into executable monitors; which we use to verify the contracts at runtime. We illustrate our approach through the specification and verification of an autonomous rover engaged in the remote inspection of a nuclear site, and finish with smaller examples that illustrate other useful features of our framework.
翻訳日:2023-12-01 20:54:38 公開日:2023-11-30
# beyond prediction:不均一グラフに基づくリストワイズランキングを用いた路上駐車推薦

Beyond Prediction: On-street Parking Recommendation using Heterogeneous Graph-based List-wise Ranking ( http://arxiv.org/abs/2305.00162v2 )

ライセンス: Link先を確認
Hanyu Sun, Xiao Huang, Wei Ma(参考訳) リアルタイムの駐車情報を提供するため、既存の研究は、ドライバーの走行時間を節約するための間接的なアプローチであるパーキング可用性の予測に重点を置いている。 本稿では,運転者に直接駐車スペースを推薦するために,路上駐車推奨(opr)タスクを初めて提案する。 この目的のために、OPR-LTRと呼ばれるLearning-to-rank(LTR)ベースのOPRモデルを構築している。 具体的には、駐車勧告は、各駐車空間の「転倒イベント」と密接に関連しているため、ESGraphと呼ばれる高効率な異種グラフを設計し、歴史的かつリアルタイムなメータの転倒イベントと地理的関係を表現し、その後、畳み込みに基づくイベント列グラフネットワークを用いて異種グラフの表現を集約・更新する。 ランキングモデルはさらに、特定の路上駐車クエリに対してランク付けされた駐車スポットのリストを推奨するスコア関数を学習するために利用される。 この方法は、香港とサンフランシスコの路上駐車メーターデータを用いて検証される。 予測のみと予測を推奨する2種類の手法を比較することにより,提案手法は様々な指標において良好な性能を実現する。 大規模な実験により、提案したESGraphとレコメンデーションモデルは、計算効率の面でより効率的であり、ドライバーの路上駐車時間を節約できることを示した。

To provide real-time parking information, existing studies focus on predicting parking availability, which seems an indirect approach to saving drivers' cruising time. In this paper, we first time propose an on-street parking recommendation (OPR) task to directly recommend a parking space for a driver. To this end, a learn-to-rank (LTR) based OPR model called OPR-LTR is built. Specifically, parking recommendation is closely related to the "turnover events" (state switching between occupied and vacant) of each parking space, and hence we design a highly efficient heterogeneous graph called ESGraph to represent historical and real-time meters' turnover events as well as geographical relations; afterward, a convolution-based event-then-graph network is used to aggregate and update representations of the heterogeneous graph. A ranking model is further utilized to learn a score function that helps recommend a list of ranked parking spots for a specific on-street parking query. The method is verified using the on-street parking meter data in Hong Kong and San Francisco. By comparing with the other two types of methods: prediction-only and prediction-then-recommendation, the proposed direct-recommendation method achieves satisfactory performance in different metrics. Extensive experiments also demonstrate that the proposed ESGraph and the recommendation model are more efficient in terms of computational efficiency as well as saving drivers' on-street parking time.
翻訳日:2023-12-01 20:47:28 公開日:2023-11-30
# Med-Tuning:医療用ボリュームセグメンテーションのための細粒化機能強化によるパラメータ効率のよい伝達学習

Med-Tuning: Parameter-Efficient Transfer Learning with Fine-Grained Feature Enhancement for Medical Volumetric Segmentation ( http://arxiv.org/abs/2304.10880v3 )

ライセンス: Link先を確認
Wenxuan Wang, Jiachen Shen, Chen Chen, Jianbo Jiao, Jing Liu, Yan Zhang, Shanshan Song, Jiangyun Li(参考訳) 深層学習に基づく医療ボリュームセグメンテーション手法は、モデルをスクラッチからトレーニングするか、あるいは標準の‘事前トレーニング→微調整’パラダイムに従う。 下流タスクで事前訓練されたモデルを微調整することは表現力を利用することができるが、標準的な完全な微調整は計算とメモリフットプリントの点でコストがかかる。 本稿では,医療用ボリュームセグメンテーションのためのパラメータ効率変換学習について検討し,段階内特徴強調と段階間特徴相互作用に基づくMed-Tuningという新しいフレームワークを提案する。 さらに,パラメータ効率の変換学習にFourier Transformの本質的なグローバル特性を活用することを目的として,Fourier Transformブランチを適切に設計したMed-Adapterという新しいアダプタブロックを提案し,医療用ボリュームセグメンテーションにおいて重要なグローバルコンテキストを効果的にモデル化した。 本手法は,2次元自然画像の大規模事前学習モデルを用いて,スライスに沿った空間的マルチスケール特徴と容積相関の両面を精度の高いセグメンテーションに利用することができる。 3つのベンチマークデータセット(CTやMRIを含む)の大規模な実験により,従来のセグメンテーションタスクにおけるパラメータ効率の変換学習手法よりも優れた結果が得られた。 完全微調整と比較して,細調整されたモデルパラメータを最大4倍に減らし,セグメンテーション性能を向上する。 コードはhttps://github.com/jessie-chen99/Med-Tuning.comで公開される。

Deep learning-based medical volumetric segmentation methods either train the model from scratch or follow the standard ``pre-training then fine-tuning" paradigm. Although fine-tuning a pre-trained model on downstream tasks can harness its representation power, the standard full fine-tuning is costly in terms of computation and memory footprint. In this paper, we present the study on parameter-efficient transfer learning for medical volumetric segmentation and propose a new framework named Med-Tuning based on intra-stage feature enhancement and inter-stage feature interaction. Additionally, aiming at exploiting the intrinsic global properties of Fourier Transform for parameter-efficient transfer learning, a new adapter block namely Med-Adapter with a well-designed Fourier Transform branch is proposed for effectively and efficiently modeling the crucial global context for medical volumetric segmentation. Given a large-scale pre-trained model on 2D natural images, our method can exploit both the crucial spatial multi-scale feature and volumetric correlations along slices for accurate segmentation. Extensive experiments on three benchmark datasets (including CT and MRI) show that our method can achieve better results than previous parameter-efficient transfer learning methods on segmentation tasks, with much less tuned parameter costs. Compared to full fine-tuning, our method reduces the fine-tuned model parameters by up to 4x, with even better segmentation performance. The code will be made publicly available at https://github.com/jessie-chen99/Med-Tuning.
翻訳日:2023-12-01 20:47:03 公開日:2023-11-30
# FreMIM:フーリエ変換は、医療画像セグメンテーションのための仮面画像モデリングを実現する

FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation ( http://arxiv.org/abs/2304.10864v3 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Yuanxiu Cai, Shanshan Song, Jiangyun Li(参考訳) 研究コミュニティは、ラベルのないデータから視覚的表現を学習できるモデルを可能にする、自己監督型マスク付き画像モデリング(MIM)の強力な可能性を見出した。 本稿では,高密度予測タスクにおける重要なグローバル構造情報と局部的詳細情報の両方を組み込むため,周波数領域の視点を変更し,医用画像分割タスクをよりよく行うための自己教師付き事前トレーニングのためのFreMIMというMIMベースのフレームワークを提案する。 詳細な構造情報は、主に高周波成分に関係しており、低周波成分には高レベルの意味が豊富であるという観測に基づいて、事前学習期間中の表現学習を指導するための多段階監視を更に取り入れる。 3つのベンチマークデータセットに対する大規模な実験は、従来の最先端MIM法よりもFreMIMの方が優れていることを示している。 ゼロからトレーニングされたさまざまなベースラインと比較して、FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらすことができます。 コードはhttps://github.com/Rubics-Xuan/FreMIM.comで公開される。

The research community has witnessed the powerful potential of self-supervised Masked Image Modeling (MIM), which enables the models capable of learning visual representation from unlabeled data. In this paper, to incorporate both the crucial global structural information and local details for dense prediction tasks, we alter the perspective to the frequency domain and present a new MIM-based framework named FreMIM for self-supervised pre-training to better accomplish medical image segmentation tasks. Based on the observations that the detailed structural information mainly lies in the high-frequency components and the high-level semantics are abundant in the low-frequency counterparts, we further incorporate multi-stage supervision to guide the representation learning during the pre-training phase. Extensive experiments on three benchmark datasets show the superior advantage of our FreMIM over previous state-of-the-art MIM methods. Compared with various baselines trained from scratch, our FreMIM could consistently bring considerable improvements to model performance. The code will be publicly available at https://github.com/Rubics-Xuan/FreMIM.
翻訳日:2023-12-01 20:46:34 公開日:2023-11-30
# データ拡張による拡散モデルより優れた画像検索

Image retrieval outperforms diffusion models on data augmentation ( http://arxiv.org/abs/2304.10253v2 )

ライセンス: Link先を確認
Max F. Burg, Florian Wenzel, Dominik Zietlow, Max Horn, Osama Makansi, Francesco Locatello, Chris Russell(参考訳) 分類のような下流タスクのトレーニングデータセットを強化するために拡散モデルを使用するための多くのアプローチが提案されている。 しかし、拡散モデルは大きなデータセットで訓練されており、しばしばノイズの多いアノテーションで訓練されているため、これらのモデルが下流の分類性能にどの程度貢献するかは未解決のままである。 特に、強化のために事前トレーニングプロセスの追加データを直接利用して改善できるほど一般化できるかどうかは不明だ。 拡散モデルから画像を生成する既存の手法を体系的に評価し,データ拡張の利点を評価するための新たな拡張について検討した。 ターゲットデータに対する拡散モデルのパーソナライズは、より単純なプロンプト戦略より優れている。 しかし, 拡散モデルの事前学習データのみを用いて, 最寄りの探索処理を行うことで, 下流性能がさらに向上する。 本研究は,新たなトレーニングデータ生成における拡散モデルの可能性について検討し,これらの高度なモデルが,単純な下流視覚タスクにおいて,単純で強力な画像検索ベースラインをまだ打ち負かせないことを発見した。

Many approaches have been proposed to use diffusion models to augment training datasets for downstream tasks, such as classification. However, diffusion models are themselves trained on large datasets, often with noisy annotations, and it remains an open question to which extent these models contribute to downstream classification performance. In particular, it remains unclear if they generalize enough to improve over directly using the additional data of their pre-training process for augmentation. We systematically evaluate a range of existing methods to generate images from diffusion models and study new extensions to assess their benefit for data augmentation. Personalizing diffusion models towards the target data outperforms simpler prompting strategies. However, using the pre-training data of the diffusion model alone, via a simple nearest-neighbor retrieval procedure, leads to even stronger downstream performance. Our study explores the potential of diffusion models in generating new training data, and surprisingly finds that these sophisticated models are not yet able to beat a simple and strong image retrieval baseline on simple downstream vision tasks.
翻訳日:2023-12-01 20:46:15 公開日:2023-11-30
# LLMにおける人間とAIの協調支援

Supporting Human-AI Collaboration in Auditing LLMs with LLMs ( http://arxiv.org/abs/2304.09991v3 )

ライセンス: Link先を確認
Charvi Rastogi, Marco Tulio Ribeiro, Nicholas King, Harsha Nori, Saleema Amershi(参考訳) 社会技術的システムへの展開を通じて,大規模言語モデルの普及とユビキタス化が進んでいる。 しかし、これらの言語モデルは分類や生成のためのもので、偏見があり、無責任に振る舞うことが示され、大規模に人々に害を与えている。 これらの言語モデルを厳密に監査することが重要である。 既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。 本研究では、人間とAIのコラボレーションとセンスメイキングの文献を取り上げ、安全で公正なAIの専門家とのインタビューを行い、監査ツールであるAdaTest(Ribeiro and Lundberg, 2022)をベースとして、ジェネレーティブな大規模言語モデル(LLM)を活用している。 デザインプロセスを通じて,協調監査における人間と生成モデルの補完的強みを活用するために,感性作りと人間-aiコミュニケーションの重要性を強調する。 拡張ツールであるAdaTest++の有効性を評価するために,OpenAIのGPT-3とAzureの感情分析モデルという,2つの商用言語モデルを監査する参加者を対象に,ユーザスタディを実施している。 定性的分析は、AdaTest++がスキーマ化や仮説形成、テストといった人間の強みを効果的に活用していることを示している。 さらに,本ツールでは,2つのタスクに対して26のトピックをカバーし,これまで公式な監査や報告が不十分であったさまざまな障害モードを特定した。

Large language models are becoming increasingly pervasive and ubiquitous in society via deployment in sociotechnical systems. Yet these language models, be it for classification or generation, have been shown to be biased and behave irresponsibly, causing harm to people at scale. It is crucial to audit these language models rigorously. Existing auditing tools leverage either or both humans and AI to find failures. In this work, we draw upon literature in human-AI collaboration and sensemaking, and conduct interviews with research experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro and Lundberg, 2022), which is powered by a generative large language model (LLM). Through the design process we highlight the importance of sensemaking and human-AI communication to leverage complementary strengths of humans and generative models in collaborative auditing. To evaluate the effectiveness of the augmented tool, AdaTest++, we conduct user studies with participants auditing two commercial language models: OpenAI's GPT-3 and Azure's sentiment analysis model. Qualitative analysis shows that AdaTest++ effectively leverages human strengths such as schematization, hypothesis formation and testing. Further, with our tool, participants identified a variety of failures modes, covering 26 different topics over 2 tasks, that have been shown before in formal audits and also those previously under-reported.
翻訳日:2023-12-01 20:45:57 公開日:2023-11-30
# DreamAvatar: 拡散モデルによる3次元人体アバター生成

DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models ( http://arxiv.org/abs/2304.00916v3 )

ライセンス: Link先を確認
Yukang Cao, Yan-Pei Cao, Kai Han, Ying Shan, Kwan-Yee K. Wong(参考訳) 筆者はdreamavatarという,高品質な3dアバターを制御可能なポーズで生成するためのテキスト・アンド・シェイプガイドフレームワークを提案する。 近年,テキストガイドによる3次元共通物体生成の方法が注目されているが,人体の形状,ポーズ,外観が複雑であるため,高品質なアバターの生成が課題となっている。 この課題に対処するためにDreamAvatarを提案する。これは3次元点の密度と色を予測するためのトレーニング可能なNeRFと2次元自己スーパービジョンを提供するための事前訓練されたテキスト-画像拡散モデルを利用する。 具体的には、SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。 本稿では, 学習可能な変形場に関連付けられた正準空間とポーズ空間の合同最適化を含む双対観測空間設計を提案する。 これにより、ターゲットのポーズに忠実な、より完全なテクスチャと幾何学の生成が容易になる。 また、全身およびズームイン3dヘッドから計算した損失を共同で最適化し、共通多面的「ジャヌス」問題を緩和し、生成されたアバターの表情詳細を改善する。 広範な評価は、dreamavatarが既存の方法を大きく上回っており、テキストと形状の3dアバター生成のための新しい最先端の技術を確立していることを示している。

We present DreamAvatar, a text-and-shape guided framework for generating high-quality 3D human avatars with controllable poses. While encouraging results have been reported by recent methods on text-guided 3D common object generation, generating high-quality human avatars remains an open challenge due to the complexity of the human body's shape, pose, and appearance. We propose DreamAvatar to tackle this challenge, which utilizes a trainable NeRF for predicting density and color for 3D points and pretrained text-to-image diffusion models for providing 2D self-supervision. Specifically, we leverage the SMPL model to provide shape and pose guidance for the generation. We introduce a dual-observation-space design that involves the joint optimization of a canonical space and a posed space that are related by a learnable deformation field. This facilitates the generation of more complete textures and geometry faithful to the target pose. We also jointly optimize the losses computed from the full body and from the zoomed-in 3D head to alleviate the common multi-face ''Janus'' problem and improve facial details in the generated avatars. Extensive evaluations demonstrate that DreamAvatar significantly outperforms existing methods, establishing a new state-of-the-art for text-and-shape guided 3D human avatar generation.
翻訳日:2023-12-01 20:45:11 公開日:2023-11-30
# ViC-MAE:コントラスト型マスクオートエンコーダを用いた画像とビデオからの自己監督型表現学習

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders ( http://arxiv.org/abs/2303.12001v2 )

ライセンス: Link先を確認
Jefferson Hernandez, Ruben Villegas, Vicente Ordonez(参考訳) 本研究では,Masked AutoEncoders(MAE)とコントラスト学習を組み合わせたモデルであるViC-MAEを提案する。 ViC-MAEは、MAE再構成損失下で得られた局所表現をプールし、画像やビデオフレーム間で対照的な目的の下でこの表現を活用することで得られるグローバル特徴を用いて訓練される。 ViC-MAEで学習した視覚表現は、映像分類と画像分類の両方によく当てはまる。 特に、VIC-MAEは、最近提案されたOmniMAEと比較して、同じデータでトレーニングするとトップ1の精度が86%(+1.3%)、余分なデータでトレーニングすると87.1%(+2.4%)に達することで、Imagenet-1k上の映像から画像への最先端の変換学習性能を得る。 同時に、ViC-MAEは、挑戦的な something-v2 ビデオベンチマークにおいて 75.9% のトップ-1 の精度を得ることで、ビデオベンチマークにおける他のほとんどの方法よりも優れている。 データセットの多様な組み合わせからビデオや画像のトレーニングを行う際,本手法は,ビデオと画像の分類ベンチマークのバランスよく学習する性能を維持し,最善の教師あり手法の2分の1に過ぎません。

We propose ViC-MAE, a model that combines both Masked AutoEncoders (MAE) and contrastive learning. ViC-MAE is trained using a global featured obtained by pooling the local representations learned under an MAE reconstruction loss and leveraging this representation under a contrastive objective across images and video frames. We show that visual representations learned under ViC-MAE generalize well to both video and image classification tasks. Particularly, ViC-MAE obtains state-of-the-art transfer learning performance from video to images on Imagenet-1k compared to the recently proposed OmniMAE by achieving a top-1 accuracy of 86% (+1.3% absolute improvement) when trained on the same data and 87.1% (+2.4% absolute improvement) when training on extra data. At the same time ViC-MAE outperforms most other methods on video benchmarks by obtaining 75.9% top-1 accuracy on the challenging Something something-v2 video benchmark . When training on videos and images from a diverse combination of datasets, our method maintains a balanced transfer-learning performance between video and image classification benchmarks, coming only as a close second to the best supervised method.
翻訳日:2023-12-01 20:44:44 公開日:2023-11-30
# スマート商業ビルにおけるモノのインターネットデータ収集に対する居住者の認識と通知嗜好の検討

Exploring Smart Commercial Building Occupants' Perceptions and Notification Preferences of Internet of Things Data Collection in the United States ( http://arxiv.org/abs/2303.04955v3 )

ライセンス: Link先を確認
Tu Le, Alan Wang, Yaxing Yao, Yuanyuan Feng, Arsalan Heydarian, Norman Sadeh, and Yuan Tian(参考訳) 商用ビルにおけるIoT(Internet of Things, モノのインターネット)デバイスによるデータ収集は、利便性とエネルギー効率の向上を可能にする。 しかし、このような利点は、建物で働く居住者がデータ収集を理解し信頼する方法が異なるため、実際に実施される際の大きな知覚上の課題に直面している。 スマートな建物におけるデータ収集の半公的、普及的、マルチモーダルな性質は、データ収集と通知の好みに対する住民の理解を研究する必要があることを示している。 スマートな商業ビルで働くことを報告している米国参加者492人を対象に,オンライン調査を行った。 1)スマート商業ビルにおけるデータ収集の意識と認識 2)プライバシ通知の嗜好,及び 3) プライバシ通知選択の潜在的な要因。 参加者の約半数は、IoTデバイスやセンサーの存在に気付いていても、IoTのデータ収集と使用プラクティスを十分に認識していません。 さまざまなデータプラクティスに関する誤解も少なくありません。 参加者の大多数は、スマートな建物におけるデータプラクティスを通知したいと考えており、Webサイトや物理的な兆候といった受動的なものへのプッシュ通知を好んでいる。 驚いたことに、モバイルアプリの通知はスマートホームの人気のあるチャンネルであるにもかかわらず、スマートな商業ビルでは最も好まれない方法だ。

Data collection through the Internet of Things (IoT) devices, or smart devices, in commercial buildings enables possibilities for increased convenience and energy efficiency. However, such benefits face a large perceptual challenge when being implemented in practice, due to the different ways occupants working in the buildings understand and trust in the data collection. The semi-public, pervasive, and multi-modal nature of data collection in smart buildings points to the need to study occupants' understanding of data collection and notification preferences. We conduct an online study with 492 participants in the US who report working in smart commercial buildings regarding: 1) awareness and perception of data collection in smart commercial buildings, 2) privacy notification preferences, and 3) potential factors for privacy notification preferences. We find that around half of the participants are not fully aware of the data collection and use practices of IoT even though they notice the presence of IoT devices and sensors. We also discover many misunderstandings around different data practices. The majority of participants want to be notified of data practices in smart buildings, and they prefer push notifications to passive ones such as websites or physical signs. Surprisingly, mobile app notification, despite being a popular channel for smart homes, is the least preferred method for smart commercial buildings.
翻訳日:2023-12-01 20:44:08 公開日:2023-11-30
# 保険請求頻度に対するベイズCARTモデル

Bayesian CART models for insurance claims frequency ( http://arxiv.org/abs/2303.01923v2 )

ライセンス: Link先を確認
Yaojun Zhang, Lanpeng Ji, Georgios Aivaliotis, and Charles Taylor(参考訳) 保険価格モデルの正確性と解釈可能性は、そのリスクを反映した公正かつ透明な保険料を確保するために不可欠である。 近年、分類・回帰木(carts)とそのアンサンブルは、予測性能が良く、比較的容易に解釈できるため、時間文学で人気を集めている。 本稿では,保険価格のベイズカートモデルについて,特にクレーム周波数モデルに着目して紹介する。 さらに,クレーム周波数に使用される共通ポアソン分布と負二項(nb)分布に加えて,不均衡保険請求データから生じる困難に対処するために,ゼロインフレーションポアソン(zip)分布に対するベイズカートを実装した。 そこで本研究では,データ拡張手法を用いた汎用MCMCアルゴリズムを提案する。 また,木モデル選択のための逸脱情報基準(dic)についても紹介する。 提案したモデルでは、政策ステークホルダーをよりリスクグループに分類できる木を識別することができる。 これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。

Accuracy and interpretability of a (non-life) insurance pricing model are essential qualities to ensure fair and transparent premiums for policy-holders, that reflect their risk. In recent years, the classification and regression trees (CARTs) and their ensembles have gained popularity in the actuarial literature, since they offer good prediction performance and are relatively easily interpretable. In this paper, we introduce Bayesian CART models for insurance pricing, with a particular focus on claims frequency modelling. Additionally to the common Poisson and negative binomial (NB) distributions used for claims frequency, we implement Bayesian CART for the zero-inflated Poisson (ZIP) distribution to address the difficulty arising from the imbalanced insurance claims data. To this end, we introduce a general MCMC algorithm using data augmentation methods for posterior tree exploration. We also introduce the deviance information criterion (DIC) for the tree model selection. The proposed models are able to identify trees which can better classify the policy-holders into risk groups. Some simulations and real insurance data will be discussed to illustrate the applicability of these models.
翻訳日:2023-12-01 20:43:47 公開日:2023-11-30
# 連続画像表現による高密度画素対画素調和

Dense Pixel-to-Pixel Harmonization via Continuous Image Representation ( http://arxiv.org/abs/2303.01681v2 )

ライセンス: Link先を確認
Jianqi Chen, Yilan Zhang, Zhengxia Zou, Keyan Chen, Zhenwei Shi(参考訳) 高分解能(HR)画像調和は、画像合成や画像編集といった現実世界の応用において非常に重要である。 しかし、メモリコストが高いため、既存の高密度画素対ピクセル調和法は主に低解像度(LR)画像の処理に重点を置いている。 いくつかの最近の研究は色から色への変換と組み合わせるが、特定の解像度に制限されているか、手作りの画像フィルターに大きく依存している。 本研究では,暗黙的ニューラル表現(INR)の活用について検討し,インプリシットニューラルネットワーク(HINet)に基づく新しい画像調和法を提案する。 Retinex理論に触発されて、MPPを2つの部分に分離し、合成画像の内容と環境をそれぞれキャプチャする。 低解像度画像優先(LRIP)ネットワークは境界不整合問題を緩和するために設計されており、トレーニングおよび推論プロセスのための新しい設計も提案する。 本手法の有効性を,最先端の手法と比較した実験により検証した。 さらに,提案手法の興味深い実用的応用について検討した。 私たちのコードはhttps://github.com/WindVChen/INR-Harmonization.comで利用可能です。

High-resolution (HR) image harmonization is of great significance in real-world applications such as image synthesis and image editing. However, due to the high memory costs, existing dense pixel-to-pixel harmonization methods are mainly focusing on processing low-resolution (LR) images. Some recent works resort to combining with color-to-color transformations but are either limited to certain resolutions or heavily depend on hand-crafted image filters. In this work, we explore leveraging the implicit neural representation (INR) and propose a novel image Harmonization method based on Implicit neural Networks (HINet), which to the best of our knowledge, is the first dense pixel-to-pixel method applicable to HR images without any hand-crafted filter design. Inspired by the Retinex theory, we decouple the MLPs into two parts to respectively capture the content and environment of composite images. A Low-Resolution Image Prior (LRIP) network is designed to alleviate the Boundary Inconsistency problem, and we also propose new designs for the training and inference process. Extensive experiments have demonstrated the effectiveness of our method compared with state-of-the-art methods. Furthermore, some interesting and practical applications of the proposed method are explored. Our code is available at https://github.com/WindVChen/INR-Harmonization.
翻訳日:2023-12-01 20:43:28 公開日:2023-11-30
# 深層畳み込みニューラルネットワークのための構造化プルーニング:調査

Structured Pruning for Deep Convolutional Neural Networks: A survey ( http://arxiv.org/abs/2303.00566v2 )

ライセンス: Link先を確認
Yang He, Lingao Xiao(参考訳) 深層畳み込みニューラルネットワーク(cnns)の顕著な性能は、その深く広いアーキテクチャに起因するものであり、かなりの計算コストがかかる可能性がある。 そのため、ストレージと計算コストを効果的に削減するため、プルーニングニューラルネットワークは関心を集めている。 重み付けとは対照的に、構造化プルーニングはハードウェア実装に親しみやすいモデルを生成することにより、現実的な加速の利点を提供する。 構造化プルーニングの特別な要件は、多くの新しい課題の発見と革新的なソリューションの開発につながった。 本稿では, 深部CNNの構造解析への最近の進歩について述べる。 本稿では,フィルタランキング法,正規化法,動的実行法,ニューラルアーキテクチャ探索法,抽選チケット仮説,プルーニングの応用について,最先端の構造化プルーニング手法を要約・比較した。 構造化プルーニングアルゴリズムについて議論しながら,その違いを強調するために,非構造化プルーニングアルゴリズムを紹介した。 さらに,構造的刈り取りの分野における潜在的研究機会について考察する。 ニューラルネットワークプルーニング論文のキュレートされたリストは、https://github.com/he-y/Awesome-Pruning.orgにある。 構造化プルーニングメソッドのよりインタラクティブな比較を提供する専用ウェブサイトは、https://huggingface.co/spaces/he-yang/Structured-Pruning-Survey で見ることができる。

The remarkable performance of deep Convolutional neural networks (CNNs) is generally attributed to their deeper and wider architectures, which can come with significant computational costs. Pruning neural networks has thus gained interest since it effectively lowers storage and computational costs. In contrast to weight pruning, which results in unstructured models, structured pruning provides the benefit of realistic acceleration by producing models that are friendly to hardware implementation. The special requirements of structured pruning have led to the discovery of numerous new challenges and the development of innovative solutions. This article surveys the recent progress towards structured pruning of deep CNNs. We summarize and compare the state-of-the-art structured pruning techniques with respect to filter ranking methods, regularization methods, dynamic execution, neural architecture search, the lottery ticket hypothesis, and the applications of pruning. While discussing structured pruning algorithms, we briefly introduce the unstructured pruning counterpart to emphasize their differences. Furthermore, we provide insights into potential research opportunities in the field of structured pruning. A curated list of neural network pruning papers can be found at https://github.com/he-y/Awesome-Pruning . A dedicated website offering a more interactive comparison of structured pruning methods can be found at: https://huggingface.co/spaces/he-yang/Structured-Pruning-Survey .
翻訳日:2023-12-01 20:43:10 公開日:2023-11-30
# Intelligent Grimm - 潜伏拡散モデルによるオープンエンドビジュアルストーリーテリング

Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models ( http://arxiv.org/abs/2306.00973v2 )

ライセンス: Link先を確認
Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie(参考訳) 生成モデルは最近、テキストから画像への生成において例外的な能力を示してきたが、画像シーケンスの生成にはいまだに苦労している。 本研究では,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,新しい課題に焦点を当てる。 私たちは以下の3つの貢献をします (i)視覚的なストーリーテリングのタスクを実現するために、対応するテキストプロンプトと先行するイメージキャプチャペアを条件付けして現在のフレームを生成できる、新しい視覚言語コンテキストモジュール「storygen」と呼ばれる学習ベースの自己回帰画像生成モデルを提案する。 (II)視覚的ストーリーテリングの欠如に対処するため,オンラインビデオとオープンソース電子書籍をソーシングし,多様なキャラクター,ストーリーライン,芸術スタイルを備えた大規模データセットを構築するための処理パイプラインを構築した。 3) 定量的実験と人的評価により,StoryGen の優位性を検証し,StoryGen が最適化せずに未知の文字に一般化し,一貫性のある内容と一貫した文字で画像列を生成することを示した。 コード、モデル、データセットは研究コミュニティで公開される予定だ。

Generative models have recently exhibited exceptional capabilities in text-to-image generation, but still struggle to generate image sequences coherently. In this work, we focus on a novel, yet challenging task of generating a coherent image sequence based on a given storyline, denoted as open-ended visual storytelling. We make the following three contributions: (i) to fulfill the task of visual storytelling, we propose a learning-based auto-regressive image generation model, termed as StoryGen, with a novel vision-language context module, that enables to generate the current frame by conditioning on the corresponding text prompt and preceding image-caption pairs; (ii) to address the data shortage of visual storytelling, we collect paired image-text sequences by sourcing from online videos and open-source E-books, establishing processing pipeline for constructing a large-scale dataset with diverse characters, storylines, and artistic styles, named StorySalon; (iii) Quantitative experiments and human evaluations have validated the superiority of our StoryGen, where we show StoryGen can generalize to unseen characters without any optimization, and generate image sequences with coherent content and consistent character. The code, model, and dataset will be made publicly available to the research community.
翻訳日:2023-12-01 20:35:40 公開日:2023-11-30
# Control4D:テキストによる効率的な4Dポートレート編集

Control4D: Efficient 4D Portrait Editing with Text ( http://arxiv.org/abs/2305.20082v2 )

ライセンス: Link先を確認
Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu(参考訳) テキスト命令を用いて動的4Dポートレートを編集する革新的なフレームワークであるControl4Dを紹介する。 本手法は,既存の4次元表現の非効率性や拡散型エディタによる一貫性のない編集効果など,4次元編集における一般的な課題に対処する。 まず,3次元空間と時間に平面ベース分解を適用することにより,ガウススプラッティングをより構造化する新しい4次元表現であるガウス平面を提案する。 これにより、4D編集の効率性と堅牢性が向上する。 さらに,4d編集の一貫性と品質を効果的に向上させるために,拡散型エディタが生成する不整合編集画像から,より連続的な生成空間を学習するために4d生成器を活用することを提案する。 包括的評価は,4次元画像編集におけるトレーニング時間,高品質レンダリング,空間的時間的一貫性など,コントロール4Dの優位性を示す。 私たちのプロジェクトwebサイトへのリンクはhttps://control4darxiv.github.ioです。

We introduce Control4D, an innovative framework for editing dynamic 4D portraits using text instructions. Our method addresses the prevalent challenges in 4D editing, notably the inefficiencies of existing 4D representations and the inconsistent editing effect caused by diffusion-based editors. We first propose GaussianPlanes, a novel 4D representation that makes Gaussian Splatting more structured by applying plane-based decomposition in 3D space and time. This enhances both efficiency and robustness in 4D editing. Furthermore, we propose to leverage a 4D generator to learn a more continuous generation space from inconsistent edited images produced by the diffusion-based editor, which effectively improves the consistency and quality of 4D editing. Comprehensive evaluation demonstrates the superiority of Control4D, including significantly reduced training time, high-quality rendering, and spatial-temporal consistency in 4D portrait editing. The link to our project website is https://control4darxiv.github.io.
翻訳日:2023-12-01 20:35:17 公開日:2023-11-30
# 時間内2次元骨格配列のアライメントによる学習

Learning by Aligning 2D Skeleton Sequences in Time ( http://arxiv.org/abs/2305.19480v4 )

ライセンス: Link先を確認
Quoc-Huy Tran, Muhammad Ahmed, Murad Popattia, M. Hassan Ahmed, Andrey Konin, M. Zeeshan Zia(参考訳) 本稿では,人的活動理解の微粒化に有用な自己監督型時間的ビデオアライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。 時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。 さらに,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。 さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。 最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。 我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を初めて探求した。

This paper presents a self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To our best knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
翻訳日:2023-12-01 20:35:01 公開日:2023-11-30
# 信頼度閾値を用いた超次元計算分類器の訓練

Training a HyperDimensional Computing Classifier using a Threshold on its Confidence ( http://arxiv.org/abs/2305.19007v2 )

ライセンス: Link先を確認
Laura Smets, Werner Van Leekwijck, Ing Jyh Tsang and Steven Latre(参考訳) 超次元コンピューティング(HDC)は、軽量でエネルギー効率のよい機械学習に人気があり、ウェアラブルなIoTデバイスや、ニアセンサーやオンデバイス処理に適している。 hdcは従来のディープラーニングアルゴリズムよりも計算量が少なく、適度な分類性能を実現している。 本稿では,hdcモデルによって正しく分類されたサンプルだけでなく,信頼性の低いサンプルについても考慮して,hdcのトレーニング手順を拡張することを提案する。 そのため、各データセットに対して最適な分類精度を達成するために調整可能な信頼しきい値が導入された。 提案手法は,ucihar,ctg,isolet,ハンドデータセットでテストされ,信頼しきい値の範囲において,ベースラインと比較して一貫して性能が向上する。 拡張されたトレーニング手順は、正しく分類されたサンプルの信頼度の高い値へとシフトし、分類器がより正確になるだけでなく、その予測に対する自信も高まる。

Hyperdimensional computing (HDC) has become popular for light-weight and energy-efficient machine learning, suitable for wearable Internet-of-Things (IoT) devices and near-sensor or on-device processing. HDC is computationally less complex than traditional deep learning algorithms and achieves moderate to good classification performance. This article proposes to extend the training procedure in HDC by taking into account not only wrongly classified samples, but also samples that are correctly classified by the HDC model but with low confidence. As such, a confidence threshold is introduced that can be tuned for each dataset to achieve the best classification accuracy. The proposed training procedure is tested on UCIHAR, CTG, ISOLET and HAND dataset for which the performance consistently improves compared to the baseline across a range of confidence threshold values. The extended training procedure also results in a shift towards higher confidence values of the correctly classified samples making the classifier not only more accurate but also more confident about its predictions.
翻訳日:2023-12-01 20:34:35 公開日:2023-11-30
# ANPL:インタラクティブな分解による自然プログラミングを目指して

ANPL: Towards Natural Programming with Interactive Decomposition ( http://arxiv.org/abs/2305.18498v2 )

ライセンス: Link先を確認
Di Huang, Ziyuan Nan, Xing Hu, Pengwei Jin, Shaohui Peng, Yuanbo Wen, Rui Zhang, Zidong Du, Qi Guo, Yewen Pu, Yunji Chen(参考訳) LLMは、もっともらしいプログラムを生成することができるが、特にユーザ固有の要求が初期提案と異なる場合、プログラムを更新するためにLLMとさらに対話することは困難である。 本稿では,ユーザが構造化された分解によって生成したコードをプログラムの目的に対して常に洗練することができる対話型プログラミングシステムANPLを紹介する。 プログラム合成からスケッチのパラダイムを借用したANPLプログラムは、それが満たさなければならない入力出力のセットと、正確なコード(例えばPython)で表現される制御/データフローと、自然言語で指定されたLLMによって実装されるサブモジュールからなる。 ユーザは、スケッチを変更し、穴を記述するために使用する言語を変更したり、特定の穴に追加の入力出力を提供して、再帰的に解決可能なサブANPLプログラムに変換することにより、ANPLプログラムを更新する。 このワークフローでは,プログラムの残りの部分をLLMに公開することなく,バグの特定と解決をローカルに維持しながら,プログラミング上の負担を可能な限りLLMにオフロードすることができる。 私たちは、最先端のAIシステムでは困難な、ユニークなタスクのセットであるAbstraction and Reasoning Corpus(ARC)にANPLをデプロイし、ベースラインプログラミングシステムよりも優れています。 (a)タスクを対話的に分解する機能を持たず (b) モジュールが正しく構成できることを保証することなく。 APPS、HumanEval、および実世界のプログラミングタスクに関するさらなる評価は、ANPLフレームワークが複数のプログラミング領域に適用可能であることを検証している。 我々はARCタスクに対するANPLソリューションをデータセットとしてリリースし、人間がプログラムで新しいタスクを分解する方法についての洞察を提供する。 コードはhttps://iprc-dip.github.io/anpl/を参照。

Though LLMs are capable of generating plausible programs, it's challenging to interact with the LLMs further to revise the program, especially if the user's specific requirements are different from the initial proposal. In this paper, we introduce ANPL, an interactive programming system that ensures users can always refine the generated code towards their specific programmatic intents via structured decompositions. Borrowing the paradigm of sketching from program synthesis, an ANPL program consists of a set of input-outputs that it must satisfy, a ``sketch'' -- control/data flow expressed in precise code (e.g. Python), and ``holes'' -- sub-modules to be implemented by the LLM specified with natural language. The user revises an ANPL program by either modifying the sketch, changing the language used to describe the holes, or providing additional input-outputs to a particular hole, turning it into a sub-ANPL program that can be solved recursively. This workflow allows the users to offload programming burdens to the LLM as much as possible while retaining the ability to pinpoint and resolve bugs locally, without exposing the rest of the program to the LLM. We deploy ANPL on the Abstraction and Reasoning Corpus (ARC), a set of unique tasks that are challenging for state-of-the-art AI systems, showing it outperforms baseline programming systems that (a) without the ability to decompose tasks interactively and (b) without the guarantee that the modules can be correctly composed together. Additional evaluations on APPS, HumanEval, and real-world programming tasks have validated that the ANPL framework is applicable to multiple programming domains. We release the ANPL solutions to the ARC tasks as a dataset, providing insights into how humans decompose novel tasks programmatically. See our code at https://iprc-dip.github.io/ANPL/.
翻訳日:2023-12-01 20:34:18 公開日:2023-11-30
# Caterpillar: シフトピラーによる純粋なMLPアーキテクチャ

Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation ( http://arxiv.org/abs/2305.17644v2 )

ライセンス: Link先を確認
Jin Sun, Xiaoshuang Shi, Zhiyuan Wang, Kaidi Xu, Heng Tao Shen and Xiaofeng Zhu(参考訳) コンピュータビジョンにおけるモデリングはmlpへと進化した。 視覚MLPは局所モデリング能力に欠けており、最も単純な処理は畳み込み層と組み合わせられる。 このスライディングウインドウスキームで有名な畳み込みは、この冗長性と計算効率の低いスキームに悩まされている。 本稿では,ウィンドウ化方式を廃止し,地域性を活用するためのより精巧で効果的なアプローチを提案する。 そこで本研究では,(1)入力画像を4方向にシフトさせて隣接する4つの地図を生成するPillars-Shiftと,(2)局所的な特徴を集約するために線形変換や地図の連結を施したPillars-Concatenationという,新たなMLPモジュールを提案する。 SPCモジュールは、より優れたローカルモデリングパワーとパフォーマンス向上を提供し、畳み込み層に代わる有望な代替となる。 次に,smlpnetのハイブリッドモデルにおいて,畳み込み層をspcモジュールに置き換えることで,caterpillarと呼ばれる純mlpアーキテクチャを構築する。 大規模な実験では、ImageNet-1Kと小規模分類ベンチマークの両方において、Caterpillarの優れたパフォーマンスとスケーラビリティを示している。

Modeling in Computer Vision has evolved to MLPs. Vision MLPs naturally lack local modeling capability, to which the simplest treatment is combined with convolutional layers. Convolution, famous for its sliding window scheme, also suffers from this scheme of redundancy and low computational efficiency. In this paper, we seek to dispense with the windowing scheme and introduce a more elaborate and effective approach to exploiting locality. To this end, we propose a new MLP module, namely Shifted-Pillars-Concatenation (SPC), that consists of two steps of processes: (1) Pillars-Shift, which generates four neighboring maps by shifting the input image along four directions, and (2) Pillars-Concatenation, which applies linear transformations and concatenation on the maps to aggregate local features. SPC module offers superior local modeling power and performance gains, making it a promising alternative to the convolutional layer. Then, we build a pure-MLP architecture called Caterpillar by replacing the convolutional layer with the SPC module in a hybrid model of sMLPNet. Extensive experiments show Caterpillar's excellent performance and scalability on both ImageNet-1K and small-scale classification benchmarks.
翻訳日:2023-12-01 20:33:47 公開日:2023-11-30
# 説明可能なブースティングマシンを科学画像データに拡張する

Extending Explainable Boosting Machines to Scientific Image Data ( http://arxiv.org/abs/2305.16526v2 )

ライセンス: Link先を確認
Daniel Schug, Sai Yerramreddy, Rich Caruana, Craig Greenberg, and Justyna P. Zwolak(参考訳) コンピュータビジョン技術の展開が科学においてますます一般的になるにつれて、システムとその出力の説明の必要性が大きな関心事となっている。 科学における解釈可能なモデルの必要性が高まる中で,画像データに対する説明可能ブースティングマシン(ebms)の利用を提案する。 量子技術の発展を支える重要な応用として,ガボルウェーブレット変換法を用いて表層化した冷原子ソリトン画像データにESMを適用し,その空間構造を保存した。 そこで本研究では,画像データに対するebmsの使用を初めて実証し,その手法が人間の直観と一致する説明を提供することを示す。

As the deployment of computer vision technology becomes increasingly common in science, the need for explanations of the system and its output has become a focus of great concern. Driven by the pressing need for interpretable models in science, we propose the use of Explainable Boosting Machines (EBMs) for scientific image data. Inspired by an important application underpinning the development of quantum technologies, we apply EBMs to cold-atom soliton image data tabularized using Gabor Wavelet Transform-based techniques that preserve the spatial structure of the data. In doing so, we demonstrate the use of EBMs for image data for the first time and show that our approach provides explanations that are consistent with human intuition about the data.
翻訳日:2023-12-01 20:33:25 公開日:2023-11-30
# 等級別テキスト簡易化のための事前学習言語モデル制御

Controlling Pre-trained Language Models for Grade-Specific Text Simplification ( http://arxiv.org/abs/2305.14993v2 )

ライセンス: Link先を確認
Sweta Agrawal and Marine Carpuat(参考訳) text simplification (ts) システムはテキストを書き換え、コンテンツを保存しながら読みやすくする。 しかし、テキストが読みやすいのは、意図した読者次第である。 最近の研究によると、事前学習された言語モデルは、所望の読み上げグレードレベルのみを指定することから、低レベルの編集操作を直接指定することまで、出力の単純さを制御するために、豊富な技術を用いてテキストを単純化することができる。 しかし、実際にこれらの制御パラメータを設定する方法はまだ不明である。 既存のアプローチでは、個々の入力の複雑さを無視し、出力の複雑さを1レベルだけ考慮しながら、コーパスレベルに設定されている。 本研究では,異なる制御機構がテキスト単純化システムの妥当性と簡易性に与える影響を理解するための実証的研究を行う。 これらの知見に基づいて、インスタンスごとのインスタンスレベルのテキストを簡略化するために必要な編集操作を予測するシンプルな方法を提案する。 このアプローチは、コーパスレベルの検索ベースのヒューリスティックよりも単純化された出力の品質を向上させる。

Text simplification (TS) systems rewrite text to make it more readable while preserving its content. However, what makes a text easy to read depends on the intended readers. Recent work has shown that pre-trained language models can simplify text using a wealth of techniques to control output simplicity, ranging from specifying only the desired reading grade level, to directly specifying low-level edit operations. Yet it remains unclear how to set these control parameters in practice. Existing approaches set them at the corpus level, disregarding the complexity of individual inputs and considering only one level of output complexity. In this work, we conduct an empirical study to understand how different control mechanisms impact the adequacy and simplicity of text simplification systems. Based on these insights, we introduce a simple method that predicts the edit operations required for simplifying a text for a specific grade level on an instance-per-instance basis. This approach improves the quality of the simplified outputs over corpus-level search-based heuristics.
翻訳日:2023-12-01 20:33:13 公開日:2023-11-30
# ADA-GP:適応的な勾配予測によるDNNトレーニングの高速化

ADA-GP: Accelerating DNN Training By Adaptive Gradient Prediction ( http://arxiv.org/abs/2305.13236v2 )

ライセンス: Link先を確認
Vahid Janfaza, Shantanu Mandal, Farabi Mahmud, Abdullah Muzahid(参考訳) ニューラルネットワークのトレーニングは、階層が連続して前方伝播を終了し、続いて最後の層から始まる勾配(損失関数に基づく)の計算とバックプロパゲーションが続く、本質的にシーケンシャルである。 シーケンシャルな計算は、ニューラルネットワークのトレーニング、特に深いトレーニングを著しく遅くする。 予測は、シーケンシャルな処理をスピードアップするために、コンピュータアーキテクチャの多くの分野でうまく使われている。 そこで我々は、勾配予測を適応的に利用して、深層ニューラルネットワーク(DNN)トレーニングを精度を維持しながら高速化するADA-GPを提案する。 ADA-GPは、小さなニューラルネットワークを組み込んで、DNNモデルの異なるレイヤの勾配を予測する。 ADA-GPは、新しいテンソル再構成法を用いて、多数の勾配を予測することができる。 ADA-GPは、バックプロパゲート勾配を用いたDNNトレーニングと予測勾配を用いたDNNトレーニングを交互に行う。 ADA-GPは、精度と性能のバランスをとるために、いつ、どのくらいの勾配予測が使用されるかを適応的に調整する。 最後に、勾配予測による高速化を実現するために、典型的なdnnアクセラレーターに詳細なハードウェア拡張を提供する。 15種類のdnnモデルを用いた広範な実験により,ada-gpはベースラインモデルと同等あるいはそれ以上の精度で平均1.47倍の速度を達成することができた。 さらに、ベースラインアクセラレータに比べてチップ外のメモリアクセスが減少するため、平均して34%のエネルギーを消費する。

Neural network training is inherently sequential where the layers finish the forward propagation in succession, followed by the calculation and back-propagation of gradients (based on a loss function) starting from the last layer. The sequential computations significantly slow down neural network training, especially the deeper ones. Prediction has been successfully used in many areas of computer architecture to speed up sequential processing. Therefore, we propose ADA-GP, which uses gradient prediction adaptively to speed up deep neural network (DNN) training while maintaining accuracy. ADA-GP works by incorporating a small neural network to predict gradients for different layers of a DNN model. ADA-GP uses a novel tensor reorganization method to make it feasible to predict a large number of gradients. ADA-GP alternates between DNN training using backpropagated gradients and DNN training using predicted gradients. ADA-GP adaptively adjusts when and for how long gradient prediction is used to strike a balance between accuracy and performance. Last but not least, we provide a detailed hardware extension in a typical DNN accelerator to realize the speed up potential from gradient prediction. Our extensive experiments with fifteen DNN models show that ADA-GP can achieve an average speed up of 1.47X with similar or even higher accuracy than the baseline models. Moreover, it consumes, on average, 34% less energy due to reduced off-chip memory accesses compared to the baseline accelerator.
翻訳日:2023-12-01 20:32:38 公開日:2023-11-30
# 大規模言語モデルの編集:問題、方法、機会

Editing Large Language Models: Problems, Methods, and Opportunities ( http://arxiv.org/abs/2305.13172v3 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang(参考訳) 有能なLDMを訓練する能力にもかかわらず、それらの関連性を維持し、エラーを是正する方法論はいまだ解明されていない。 この目的のために、ここ数年でLSMの編集技術が急増し、その目的は、他の入力に悪影響を及ぼすことなく、特定のドメイン内のLSMの動作を効率的に変更することにある。 本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。 特に、現在廃棄されている最も進歩的な方法の詳細な経験的分析とともに、モデル編集に関連するタスク定義と課題を徹底的に概観する。 また、より堅牢な評価と、既存の技術に固有の永続的な問題を特定できるように、新しいベンチマークデータセットを構築しました。 本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

Despite the ability to train capable LLMs, the methodology for maintaining their relevancy and rectifying errors remains elusive. To this end, the past few years have witnessed a surge in techniques for editing LLMs, the objective of which is to efficiently alter the behavior of LLMs within a specific domain without negatively impacting performance across other inputs. This paper embarks on a deep exploration of the problems, methods, and opportunities related to model editing for LLMs. In particular, we provide an exhaustive overview of the task definition and challenges associated with model editing, along with an in-depth empirical analysis of the most progressive methods currently at our disposal. We also build a new benchmark dataset to facilitate a more robust evaluation and pinpoint enduring issues intrinsic to existing techniques. Our objective is to provide valuable insights into the effectiveness and feasibility of each editing technique, thereby assisting the community in making informed decisions on the selection of the most appropriate method for a specific task or context. Code and datasets are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2023-12-01 20:32:16 公開日:2023-11-30
# 知覚不能および伝達不能な逆襲に対する拡散モデル

Diffusion Models for Imperceptible and Transferable Adversarial Attack ( http://arxiv.org/abs/2305.08192v2 )

ライセンス: Link先を確認
Jianqi Chen, Hao Chen, Keyan Chen, Yilan Zhang, Zhengxia Zou, Zhenwei Shi(参考訳) 既存の多くの敵攻撃は画像RGB空間上で$L_p$-norm摂動を生成する。 移植性や攻撃成功率のいくつかの成果にもかかわらず、製作された敵の例は人間の目で容易に認識される。 最近の研究では、L_p$-norm制約なしで制限のない攻撃を探索しているが、ブラックボックスモデルに対する攻撃の転送性は欠如している。 本研究では,拡散モデルの生成的・判別的パワーを活用し,新しい非受容的・移動可能攻撃を提案する。 具体的には、ピクセル空間の直接操作の代わりに、拡散モデルの潜在空間で摂動を発生させる。 適切に設計されたコンテンツ保存構造と組み合わせることで、意味的な手がかりが埋め込まれた人間非感受性の摂動を生成することができる。 移動性を改善するために,対象領域から注意をそらすことにより,暗黙の認識の代理と見なすことのできる拡散モデルをさらに「欺く」。 我々の知る限り、提案手法であるdiffattackは、敵の攻撃フィールドに拡散モデルを導入する最初の方法である。 各種モデル構造,データセット,防衛手法に関する大規模な実験により,既存の攻撃方法に対する攻撃の優位性を実証した。

Many existing adversarial attacks generate $L_p$-norm perturbations on image RGB space. Despite some achievements in transferability and attack success rate, the crafted adversarial examples are easily perceived by human eyes. Towards visual imperceptibility, some recent works explore unrestricted attacks without $L_p$-norm constraints, yet lacking transferability of attacking black-box models. In this work, we propose a novel imperceptible and transferable attack by leveraging both the generative and discriminative power of diffusion models. Specifically, instead of direct manipulation in pixel space, we craft perturbations in the latent space of diffusion models. Combined with well-designed content-preserving structures, we can generate human-insensitive perturbations embedded with semantic clues. For better transferability, we further "deceive" the diffusion model which can be viewed as an implicit recognition surrogate, by distracting its attention away from the target regions. To our knowledge, our proposed method, DiffAttack, is the first that introduces diffusion models into the adversarial attack field. Extensive experiments on various model structures, datasets, and defense methods have demonstrated the superiority of our attack over the existing attack methods.
翻訳日:2023-12-01 20:31:33 公開日:2023-11-30
# sacreg:視覚局所化のためのシーン非依存座標回帰

SACReg: Scene-Agnostic Coordinate Regression for Visual Localization ( http://arxiv.org/abs/2307.11702v3 )

ライセンス: Link先を確認
Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and Philippe Weinzaepfel(参考訳) シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。 しかし、既存の手法はトレーニング中に記憶された小さなシーンに限られており、現実的なデータセットやシナリオには拡張できない。 本稿では,一度トレーニングしたscrモデルを,そのスケールに関係なく,微調整することなく,新たなテストシーンにデプロイすることを提案する。 ネットワークの重み付けにシーン座標をエンコードする代わりに,本モデルでは,オフザ・ザ・シェルフ構造から抽出した2dピクセルから3d座標アノテーションへのばらばらなデータベース画像と,密集した3d座標マップとその信頼度をクロスアテンションに基づいて予測したクエリ画像を入力する。 テスト時には既存のオフ・ザ・シェルフ画像検索システムに頼り、関連するデータベース画像のショートリストからクエリーの予測を融合する。 その後、pnp(standard perspective-n-point)を用いてカメラポーズを得る。 自己教師付きcrocoプリトレーニングウェイトから始まり、さまざまなシナリオの汎用性を確保するために、さまざまなデータセットでモデルをトレーニングし、複数の視覚的ローカライゼーションベンチマークで、シーン固有のモデルを含む他のシーン回帰アプローチを著しく上回っています。 最後に,画像のデータベース表現とその2d-3dアノテーションは,ローカライズ性能を損なうことなく高度に圧縮できることを示す。

Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain limited to small scenes memorized during training, and thus hardly scale to realistic datasets and scenarios. In this paper, we propose a generalized SCR model trained once to be deployed in new test scenes, regardless of their scale, without any finetuning. Instead of encoding the scene coordinates into the network weights, our model takes as input a database image with some sparse 2D pixel to 3D coordinate annotations, extracted from e.g. off-the-shelf Structure-from-Motion or RGB-D data, and a query image for which are predicted a dense 3D coordinate map and its confidence, based on cross-attention. At test time, we rely on existing off-the-shelf image retrieval systems and fuse the predictions from a shortlist of relevant database images w.r.t. the query. Afterwards camera pose is obtained using standard Perspective-n-Point (PnP). Starting from selfsupervised CroCo pretrained weights, we train our model on diverse datasets to ensure generalizabilty across various scenarios, and significantly outperform other scene regression approaches, including scene-specific models, on multiple visual localization benchmarks. Finally, we show that the database representation of images and their 2D-3D annotations can be highly compressed with negligible loss of localization performance.
翻訳日:2023-12-01 20:25:23 公開日:2023-11-30
# SCA-PVNet: 3Dオブジェクト検索のためのポイントクラウドとマルチビューの自己組織化に基づくアグリゲーション

SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval ( http://arxiv.org/abs/2307.10601v2 )

ライセンス: Link先を確認
Dongyun Lin, Yi Cheng, Aiyuan Guo, Shangbo Mao, Yiqun Li(参考訳) 3dオブジェクトの検索に対処するため、ボクセル、ポイントクラウド、マルチビュー画像など、単一のモダリティで表現された3dオブジェクトの高度に識別可能な記述子を生成するための努力がなされている。 3dオブジェクトのマルチモダリティ表現からの補完情報を活用し、検索性能をさらに向上させることを約束する。 しかし,大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。 本稿では,3次元オブジェクト検索のための点雲と多視点画像(SCA-PVNet)の自己組織化に基づくアグリゲーションを提案する。 点群と多視点画像から深い特徴を抽出し,機能融合を効果的に行うために,インモダリティアグリゲーションモジュール (imam) とクロスモダリティアグリゲーションモジュール (cmam) という2種類の機能アグリゲーションモジュールを設計した。 IMAMはセルフアテンションメカニズムを利用してマルチビュー機能を集約し、CMAMはクロスアテンションメカニズムを利用してポイントクラウド機能をマルチビュー機能と相互作用する。 オブジェクト検索のための3Dオブジェクトの最終記述子は、両方のモジュールから集約された特徴を連結することで得られる。 提案手法よりもSCA-PVNetの方が優れていることを示すため,小規模から大規模までの3つのデータセットを用いて実験と解析を行った。

To address 3D object retrieval, substantial efforts have been made to generate highly discriminative descriptors of 3D objects represented by a single modality, e.g., voxels, point clouds or multi-view images. It is promising to leverage the complementary information from multi-modality representations of 3D objects to further improve retrieval performance. However, multi-modality 3D object retrieval is rarely developed and analyzed on large-scale datasets. In this paper, we propose self-and-cross attention based aggregation of point cloud and multi-view images (SCA-PVNet) for 3D object retrieval. With deep features extracted from point clouds and multi-view images, we design two types of feature aggregation modules, namely the In-Modality Aggregation Module (IMAM) and the Cross-Modality Aggregation Module (CMAM), for effective feature fusion. IMAM leverages a self-attention mechanism to aggregate multi-view features while CMAM exploits a cross-attention mechanism to interact point cloud features with multi-view features. The final descriptor of a 3D object for object retrieval can be obtained via concatenating the aggregated features from both modules. Extensive experiments and analysis are conducted on three datasets, ranging from small to large scale, to show the superiority of the proposed SCA-PVNet over the state-of-the-art methods.
翻訳日:2023-12-01 20:24:53 公開日:2023-11-30
# 夜間色熱意味セグメンテーションのためのテスト時間適応

Test-Time Adaptation for Nighttime Color-Thermal Semantic Segmentation ( http://arxiv.org/abs/2307.04470v2 )

ライセンス: Link先を確認
Yexin Liu, Weiming Zhang, Guoyang Zhao, Jinjing Zhu, Athanasios Vasilakos, and Lin Wang(参考訳) 悪質な視覚条件(例えば夜間)で理解する能力は、RGB-Thermal (RGB-T)セマンティックセグメンテーションの活発な研究を引き起こしている。 しかし、基本的には2つの重大な問題によって妨げられている。 1)RGB画像の昼夜ギャップは熱画像のそれよりも大きく、 2)夜間のrgb画像のクラス別性能は,熱画像よりも常に高くも低いものでもない。 そこで我々は,夜間RGBTセマンティックセマンティックセマンティックセグメンテーションにおいて,適応中のソース(日)データにアクセスすることなく問題に対処するため,Night-TTAと呼ばれる最初のテスト時適応(TTA)フレームワークを提案する。 我々の方法には3つの重要な技術要素がある。 第一に、一方のモダリティ(例えば、RGB)が他方のドメインギャップ(例えば、熱)よりも大きいため、イメージング・ヘテロジニティ・リファインメント(IHR)は、RGBと熱ブランチに基づいて相互作用ブランチを使用し、相互の相違や性能劣化を防止する。 次に、3つのブランチの画素レベルの分布集約に基づいて、信頼性の高いアンサンブルロジットを得るために、クラスAware Refinement(CAR)を導入する。 さらに,ttaフレームワークのための特定の学習方式も設計し,夜間ttaのテストフェーズにおける予測の質を向上させるために,アンサンブルロジットと3つの学生ロジットを協調的に学習できるようにした。 実験の結果,mIoUは13.07%向上し,SoTA(State-of-the-art)性能が得られた。

The ability to scene understanding in adverse visual conditions, e.g., nighttime, has sparked active research for RGB-Thermal (RGB-T) semantic segmentation. However, it is essentially hampered by two critical problems: 1) the day-night gap of RGB images is larger than that of thermal images, and 2) the class-wise performance of RGB images at night is not consistently higher or lower than that of thermal images. we propose the first test-time adaptation (TTA) framework, dubbed Night-TTA, to address the problems for nighttime RGBT semantic segmentation without access to the source (daytime) data during adaptation. Our method enjoys three key technical parts. Firstly, as one modality (e.g., RGB) suffers from a larger domain gap than that of the other (e.g., thermal), Imaging Heterogeneity Refinement (IHR) employs an interaction branch on the basis of RGB and thermal branches to prevent cross-modal discrepancy and performance degradation. Then, Class Aware Refinement (CAR) is introduced to obtain reliable ensemble logits based on pixel-level distribution aggregation of the three branches. In addition, we also design a specific learning scheme for our TTA framework, which enables the ensemble logits and three student logits to collaboratively learn to improve the quality of predictions during the testing phase of our Night TTA. Extensive experiments show that our method achieves state-of-the-art (SoTA) performance with a 13.07% boost in mIoU.
翻訳日:2023-12-01 20:24:28 公開日:2023-11-30
# Focused Transformer: コンテキストスケーリングのためのコントラストトレーニング

Focused Transformer: Contrastive Training for Context Scaling ( http://arxiv.org/abs/2307.03170v2 )

ライセンス: Link先を確認
Szymon Tworkowski, Konrad Staniszewski, Miko{\l}aj Pacek, Yuhuai Wu, Henryk Michalewski, Piotr Mi{\l}o\'s(参考訳) 大規模言語モデルは、文脈的に新しい情報を組み込む特別な能力を持っている。 しかし、そのようなアプローチの完全なポテンシャルは、有効文脈長の制限のためにしばしば抑制される。 この問題の解決策の1つは、(キー、値)ペアからなる外部メモリへのアクセスを持つ注意層を提供することである。 しかし、文書の数が増えるにつれて、関連するキーの無関係なキーに対する割合が減少し、無関係なキーにもっと集中するようになる。 そこでは、異なるセマンティックな値に関連付けられたキーが重複し、区別が困難になる可能性がある。 そこで,本研究では,コントラスト学習に触発された学習プロセスを用いる手法であるフォーカストランスフォーマ(fot)を提案する。 この新しいアプローチは(キー、値)空間の構造を強化し、コンテキスト長の拡張を可能にする。 提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。 これは3b$と7b$ openllamaチェックポイントの微調整で示されています。 結果として得られたモデルはLongLLaMAと呼ばれ、長いコンテキストを必要とするタスクの進歩を示す。 さらに,我々のLongLLaMAモデルではパスキー検索のコンテキスト長が256k$であることを示す。

Large language models have an exceptional capability to incorporate new information in a contextual manner. However, the full potential of such an approach is often restrained due to a limitation in the effective context length. One solution to this issue is to endow an attention layer with access to an external memory, which comprises of (key, value) pairs. Yet, as the number of documents increases, the proportion of relevant keys to irrelevant ones decreases, leading the model to focus more on the irrelevant keys. We identify a significant challenge, dubbed the distraction issue, where keys linked to different semantic values might overlap, making them hard to distinguish. To tackle this problem, we introduce the Focused Transformer (FoT), a technique that employs a training process inspired by contrastive learning. This novel approach enhances the structure of the (key, value) space, enabling an extension of the context length. Our method allows for fine-tuning pre-existing, large-scale models to lengthen their effective context. This is demonstrated by our fine-tuning of $3B$ and $7B$ OpenLLaMA checkpoints. The resulting models, which we name LongLLaMA, exhibit advancements in tasks requiring a long context. We further illustrate that our LongLLaMA models adeptly manage a $256 k$ context length for passkey retrieval.
翻訳日:2023-12-01 20:23:56 公開日:2023-11-30
# ID-Pose:逆拡散モデルによるスパースビューカメラポース推定

ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion Models ( http://arxiv.org/abs/2306.17140v2 )

ライセンス: Link先を確認
Weihao Cheng, Yan-Pei Cao, Ying Shan(参考訳) 3Dオブジェクトのスパースビューを考えると、カメラのポーズを見積もるのは長くて難解な問題だ。 本研究の目的は,視点に基づく新しい視点の事前学習拡散モデル(Zero-1-to-3)を活用することである。 そこで,2つの入力画像から相対ポーズを推定するために,雑音拡散過程を逆解析するid-poseを提案する。 ID-Poseは1つの画像にノイズを加え、もう1つの画像に条件付けられたノイズと相対的なポーズの仮説を予測する。 この予測誤差を最小化目標として,勾配降下法による最適ポーズを求める。 我々は2つ以上の画像を扱うためにID-Poseを拡張し、三角関係から複数の画像対で各ポーズを推定する。 ID-Poseはトレーニングを必要とせず、オープンワールドイメージに一般化する。 カジュアルに撮影した写真と無作為な視点でレンダリング画像を用いて広範囲にわたる実験を行う。 その結果,ID-Poseは最先端手法よりも優れていた。

Given sparse views of a 3D object, estimating their camera poses is a long-standing and intractable problem. Toward this goal, we consider harnessing the pre-trained diffusion model of novel views conditioned on viewpoints (Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion process to estimate the relative pose given two input images. ID-Pose adds a noise to one image, and predicts the noise conditioned on the other image and a hypothesis of the relative pose. The prediction error is used as the minimization objective to find the optimal pose with the gradient descent method. We extend ID-Pose to handle more than two images and estimate each pose with multiple image pairs from triangular relations. ID-Pose requires no training and generalizes to open-world images. We conduct extensive experiments using casually captured photos and rendered images with random viewpoints. The results demonstrate that ID-Pose significantly outperforms state-of-the-art methods.
翻訳日:2023-12-01 20:23:35 公開日:2023-11-30
# ファンタスティックウェイトとテーマの発見方法:ダイナミックスパーストレーニングにおけるプーンの場所

Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse Training ( http://arxiv.org/abs/2306.12230v2 )

ライセンス: Link先を確認
Aleksandra I. Nowak, Bram Grooten, Decebal Constantin Mocanu, Jacek Tabor(参考訳) ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、トレーニング中にトポロジを適応することによって、ニューラルネットワークのスパース初期化を最適化しようとする、急速に発展する研究分野である。 特定の条件下では、DSTは高密度モデルより優れていることが示されている。 このフレームワークの主要なコンポーネントは、ネットワークの疎結合性を調整するためにトレーニングプロセス中に繰り返し適用されるプルーニングと成長の基準である。 DST性能に対する評価基準の増大の影響は比較的よく研究されているが、刈り取り基準の影響は見落としている。 この問題に対処するため,我々はdstソリューションのダイナミクスへの影響をよりよく理解するために,様々なプルーニング基準の広範な実証分析を設計・実施する。 驚くべきことに、研究手法のほとんどが同様の結果をもたらすことがわかった。 この違いは、最も単純な技術であるマグニチュード・ベース・プルーニングによって最も優れた性能が与えられる低密度体制においてより重要になる。 コードはhttps://github.com/alooow/fantastic_weights_paperで提供される。

Dynamic Sparse Training (DST) is a rapidly evolving area of research that seeks to optimize the sparse initialization of a neural network by adapting its topology during training. It has been shown that under specific conditions, DST is able to outperform dense models. The key components of this framework are the pruning and growing criteria, which are repeatedly applied during the training process to adjust the network's sparse connectivity. While the growing criterion's impact on DST performance is relatively well studied, the influence of the pruning criterion remains overlooked. To address this issue, we design and perform an extensive empirical analysis of various pruning criteria to better understand their impact on the dynamics of DST solutions. Surprisingly, we find that most of the studied methods yield similar results. The differences become more significant in the low-density regime, where the best performance is predominantly given by the simplest technique: magnitude-based pruning. The code is provided at https://github.com/alooow/fantastic_weights_paper
翻訳日:2023-12-01 20:22:50 公開日:2023-11-30
# molインストラクション:大規模言語モデルのための大規模生体分子インストラクションデータセット

Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models ( http://arxiv.org/abs/2306.08018v4 )

ライセンス: Link先を確認
Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(LLM)は、タスクハンドリング能力と革新的な出力を持ち、様々な分野において大きな進歩をもたらした。 しかし、生体分子研究などの専門領域での能力は限られている。 この課題に対処するために,生体分子ドメイン用に設計された包括的命令データセットであるMoll-Instructionsを導入する。 Mol-Instructionsは分子指向命令、タンパク質指向命令、生体分子テキスト命令の3つの重要な構成要素を含んでいる。 各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力の向上を目的としている。 本研究では,生体分子研究の複雑な領域における大規模モデルの性能向上におけるモルインストラクションの有効性を実証し,生体分子研究コミュニティの進展を促す。 Mol-Instructionsは、現在進行中の研究のために公開されている。

Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a comprehensive instruction dataset designed for the biomolecular domain. Mol-Instructions encompasses three key components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. Each component aims to improve the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on LLMs, we demonstrate the effectiveness of Mol-Instructions in enhancing large models' performance in the intricate realm of biomolecular studies, thus fostering progress in the biomolecular research community. Mol-Instructions is publicly available for ongoing research and will undergo regular updates to enhance its applicability.
翻訳日:2023-12-01 20:22:06 公開日:2023-11-30
# Compositor: ロバスト部分とオブジェクトセグメンテーションのためのボトムアップクラスタリングとコンポジション

Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation ( http://arxiv.org/abs/2306.07404v3 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Ming-Xian Lin, Qihang Yu, Alan Yuille(参考訳) 本稿では,ジョイント部分とオブジェクトセグメンテーションに対するロバストなアプローチを提案する。 具体的には,オブジェクトと部分のセグメンテーションを最適化問題として再構成し,画素,部分,オブジェクトレベルの埋め込みを含む階層的特徴表現を構築し,ボトムアップクラスタリングによって解決する。 ピクセルは複数のクラスタにグループ化され、部分レベルの埋め込みがクラスタセンターとして機能する。 その後、部品提案を合成してオブジェクトマスクを得る。 このボトムアップ相互作用は、より低いセマンティックレベルからより高いセマンティックレベルへの情報の統合に有効であることが示されている。 これに基づいて,提案手法は,マスク品質を向上しつつ,部品とオブジェクトのセグメンテーションマスクを同時に生成する。 コンストラクタは、PartImageNetとPascal-Partの最先端性能を、PartImageNetで約0.9%、PartImageNetで約1.3%、Pascal-Partで約0.4%、オブジェクトmIoUで約1.7%向上し、オクルージョンに対してそれぞれ約4.4%、オブジェクトで約7.1%向上している。 コードはhttps://github.com/TACJu/Compositor.comから入手できる。

In this work, we present a robust approach for joint part and object segmentation. Specifically, we reformulate object and part segmentation as an optimization problem and build a hierarchical feature representation including pixel, part, and object-level embeddings to solve it in a bottom-up clustering manner. Pixels are grouped into several clusters where the part-level embeddings serve as cluster centers. Afterwards, object masks are obtained by compositing the part proposals. This bottom-up interaction is shown to be effective in integrating information from lower semantic levels to higher semantic levels. Based on that, our novel approach Compositor produces part and object segmentation masks simultaneously while improving the mask quality. Compositor achieves state-of-the-art performance on PartImageNet and Pascal-Part by outperforming previous methods by around 0.9% and 1.3% on PartImageNet, 0.4% and 1.7% on Pascal-Part in terms of part and object mIoU and demonstrates better robustness against occlusion by around 4.4% and 7.1% on part and object respectively. Code will be available at https://github.com/TACJu/Compositor.
翻訳日:2023-12-01 20:21:53 公開日:2023-11-30
# 大規模言語モデルにおける量子化器の理解:逆スケーリングのもう一つの例

Probing Quantifier Comprehension in Large Language Models: Another Example of Inverse Scaling ( http://arxiv.org/abs/2306.07384v3 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。 しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。 LLMにおける量化器の理解に関するこれまでの研究は、少数型量化器の理解における逆スケーリングを示している。 本稿では,先行研究の主張に疑問を呈し,不適切な検査手法の結果であることを示す。 また, LLMにおける量化器の理解度を測る別の手法を提案するとともに, LLMは, LLMの量化器のサイズが大きくなるにつれて, 少数型と最多型の量化器の意味の違いをよりよく理解できることを示した。 また、人間の心理言語実験や過去の研究とは対照的に、モデルのサイズが大きくなるにつれて、モデルが最多型の量化器を理解することは悪化する。 この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。 また、LLMにおける言語理解の評価における量化器理解の関連性についても論じる。

With their increasing size, large language models (LLMs) are becoming increasingly good at language understanding tasks. But even with high performance on specific downstream task, LLMs fail at simple linguistic tests for negation or quantifier understanding. Previous work on quantifier understanding in LLMs show inverse scaling in understanding few-type quantifiers. In this paper, we question the claims of of previous work and show that it is a result of inappropriate testing methodology. We also present alternate methods to measure quantifier comprehension in LLMs and show that LLMs are able to better understand the difference between the meaning of few-type and most-type quantifiers as their size increases, although they are not particularly good at it. We also observe inverse scaling for most-type quantifier understanding, which is contrary to human psycho-linguistic experiments and previous work, where the model's understanding of most-type quantifier gets worse as the model size increases. We do this evaluation on models ranging from 125M-175B parameters, which suggests that LLMs do not do as well as expected with quantifiers. We also discuss the possible reasons for this and the relevance of quantifier understanding in evaluating language understanding in LLMs.
翻訳日:2023-12-01 20:21:29 公開日:2023-11-30
# ニューラルネットワークによる演算子学習:一般測地におけるPDE処理

Operator Learning with Neural Fields: Tackling PDEs on General Geometries ( http://arxiv.org/abs/2306.07266v2 )

ライセンス: Link先を確認
Louis Serrano, Lise Le Boudec, Armand Kassa\"i Koupa\"i, Thomas X Wang, Yuan Yin, Jean-No\"el Vittaut, Patrick Gallinari(参考訳) 偏微分方程式の解法には関数空間間の学習写像が必要である。 畳み込みニューラルネットワークやグラフニューラルネットワークは離散関数に制約されるが、ニューラルネットワークは関数を直接マッピングする上で有望なマイルストーンを提供する。 印象的な結果にもかかわらず、ドメインの幾何についてはまだ課題に直面しており、通常はある種の離散化に依存しています。 このような制約を緩和するために,一般測地上でPDEを解くために座標ベースのネットワークを利用する新しい手法であるCORALを提案する。 CoRALは入力メッシュの制約を取り除くように設計されており、任意の空間サンプリングや幾何学に適用できる。 その能力は、PDE解決、時空間予測、幾何学的設計のような逆問題を含む様々な問題領域にまで拡張される。 CoRALは、複数の解像度で堅牢なパフォーマンスを示し、凸領域と非凸領域の両方でよく機能し、最先端のモデルに匹敵するか、あるいは同等に機能する。

Machine learning approaches for solving partial differential equations require learning mappings between function spaces. While convolutional or graph neural networks are constrained to discretized functions, neural operators present a promising milestone toward mapping functions directly. Despite impressive results they still face challenges with respect to the domain geometry and typically rely on some form of discretization. In order to alleviate such limitations, we present CORAL, a new method that leverages coordinate-based networks for solving PDEs on general geometries. CORAL is designed to remove constraints on the input mesh, making it applicable to any spatial sampling and geometry. Its ability extends to diverse problem domains, including PDE solving, spatio-temporal forecasting, and inverse problems like geometric design. CORAL demonstrates robust performance across multiple resolutions and performs well in both convex and non-convex domains, surpassing or performing on par with state-of-the-art models.
翻訳日:2023-12-01 20:21:09 公開日:2023-11-30
# Motion-DVAE:高速な人間の動き認知のための教師なし学習

Motion-DVAE: Unsupervised learning for fast human motion denoising ( http://arxiv.org/abs/2306.05846v2 )

ライセンス: Link先を確認
Gu\'enol\'e Fiche, Simon Leglaive, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) ポーズと動きの優先順位は、ノイズのある観察から現実的で正確な人間の動きを回復するのに不可欠である。 画像からのポーズと形状推定にかなりの進歩が見られ、近年の研究ではフレームワイズ予測の精度向上に先行して印象的な結果が得られた。 しかし、多くの動作先行は連続するポーズ間の遷移のみをモデル化し、時間を要する最適化手順で使用されるため、リアルタイムなモーションキャプチャを必要とする多くのアプリケーションでは問題となる。 本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。 動的変動オートエンコーダ(DVAE)モデルファミリーの一部として、VAEモデルの生成能力と繰り返しアーキテクチャの時間的モデリングを組み合わせる。 motion-dvaeと共に,リアルタイム3次元ポーズ推定のための単一のフレームワークにおいて,回帰と最適化に基づくアプローチを統一した教師なしの学習分節法を提案する。 実験の結果,提案手法は最先端手法との競合性能に到達し,より高速であることがわかった。

Pose and motion priors are crucial for recovering realistic and accurate human motion from noisy observations. Substantial progress has been made on pose and shape estimation from images, and recent works showed impressive results using priors to refine frame-wise predictions. However, a lot of motion priors only model transitions between consecutive poses and are used in time-consuming optimization procedures, which is problematic for many applications requiring real-time motion capture. We introduce Motion-DVAE, a motion prior to capture the short-term dependencies of human motion. As part of the dynamical variational autoencoder (DVAE) models family, Motion-DVAE combines the generative capability of VAE models and the temporal modeling of recurrent architectures. Together with Motion-DVAE, we introduce an unsupervised learned denoising method unifying regression- and optimization-based approaches in a single framework for real-time 3D human pose estimation. Experiments show that the proposed approach reaches competitive performance with state-of-the-art methods while being much faster.
翻訳日:2023-12-01 20:20:51 公開日:2023-11-30
# モジュラー理論を数えるためのトップダウン知識コンパイル

Top-Down Knowledge Compilation for Counting Modulo Theories ( http://arxiv.org/abs/2306.04541v2 )

ライセンス: Link先を確認
Vincent Derkinderen, Pedro Zuidberg Dos Martires, Samuel Kolb, Paolo Morettin(参考訳) 入力式が決定論的分解可能な否定正規形(d-DNNF)である場合に、仮説モデルカウント(#SAT)を効率的に解くことができる。 任意の式を計算などの推論タスクを効率的に実行できる表現に変換することは知識コンパイル(英語版)と呼ばれる。 トップダウン知識コンパイル(Top-down knowledge compilation)は、DPLL探索のトレースを利用してd-DNNF表現を得る#SAT問題の解法である。 知識コンパイルは命題的アプローチでよく研究されているが、(量子化子を含まない)数乗法理論設定(#SMT)のための知識コンパイルはより少ない程度に研究されている。 本稿では,#SMTのコンパイル戦略について議論する。 具体的には, dpll(t) 探索の痕跡に基づくトップダウンコンパイラの提案を行う。

Propositional model counting (#SAT) can be solved efficiently when the input formula is in deterministic decomposable negation normal form (d-DNNF). Translating an arbitrary formula into a representation that allows inference tasks, such as counting, to be performed efficiently, is called knowledge compilation. Top-down knowledge compilation is a state-of-the-art technique for solving #SAT problems that leverages the traces of exhaustive DPLL search to obtain d-DNNF representations. While knowledge compilation is well studied for propositional approaches, knowledge compilation for the (quantifier free) counting modulo theory setting (#SMT) has been studied to a much lesser degree. In this paper, we discuss compilation strategies for #SMT. We specifically advocate for a top-down compiler based on the traces of exhaustive DPLL(T) search.
翻訳日:2023-12-01 20:20:34 公開日:2023-11-30
# 半教師付きOCT流体セグメンテーション改善のための超画素・信頼学習によるポイントアノテーションの強化

Enhancing Point Annotations with Superpixel and Confidence Learning Guided for Improving Semi-Supervised OCT Fluid Segmentation ( http://arxiv.org/abs/2306.02582v3 )

ライセンス: Link先を確認
Tengjin Weng, Yang Shen, Kai Jin, Zhiming Cheng, Yunxiang Li, Gewen Zhang, Shuai Wang and Yaqi Wang(参考訳) 光コヒーレンス・トモグラフィー(OCT)画像における流体の自動分画は眼科医が正確な診断に有用である。 半教師付きOCT流体セグメンテーションネットワークは、追加のラベル付きデータを導入して性能を向上するが、性能向上は限定的である。 そこで本研究では,教師-学生アーキテクチャに基づくSuperpixel and Confident Learning Guide Point Annotations Network (SCLGPA-Net)を提案する。 具体的には、未ラベルOCT画像中の流体領域に注釈をつけるためにポイントを使用し、Superpixel-Guided Pseudo-Label Generation (SGPLG)モジュールは、ポイントアノテーションから擬似ラベルとピクセルレベルのラベル信頼マップを生成する。 ラベル信頼マップは、擬似ラベルの信頼性を示す。 さらに,疑似ラベルの誤り情報を識別するCLGLR(Confident Learning Guided Label Refinement)モジュールを提案する。 RETOUCHデータセットの実験では、完全なアノテーション付きデータの必要性を94.22\%削減し、最高の完全な教師付きベースラインとのギャップを2\%の平均IoUに縮めることができた。 さらに,評価のための2次元CT流体セグメンテーションデータセットを構築した。 他の方法と比較して,提案手法がOCT流体セグメンテーションにおいて優れた性能を発揮することを示す。

Automatic segmentation of fluid in Optical Coherence Tomography (OCT) images is beneficial for ophthalmologists to make an accurate diagnosis. Although semi-supervised OCT fluid segmentation networks enhance their performance by introducing additional unlabeled data, the performance enhancement is limited. To address this, we propose Superpixel and Confident Learning Guide Point Annotations Network (SCLGPA-Net) based on the teacher-student architecture, which can learn OCT fluid segmentation from limited fully-annotated data and abundant point-annotated data. Specifically, we use points to annotate fluid regions in unlabeled OCT images and the Superpixel-Guided Pseudo-Label Generation (SGPLG) module generates pseudo-labels and pixel-level label trust maps from the point annotations. The label trust maps provide an indication of the reliability of the pseudo-labels. Furthermore, we propose the Confident Learning Guided Label Refinement (CLGLR) module identifies error information in the pseudo-labels and leads to further refinement. Experiments on the RETOUCH dataset show that we are able to reduce the need for fully-annotated data by 94.22\%, closing the gap with the best fully supervised baselines to a mean IoU of only 2\%. Furthermore, We constructed a private 2D OCT fluid segmentation dataset for evaluation. Compared with other methods, comprehensive experimental results demonstrate that the proposed method can achieve excellent performance in OCT fluid segmentation.
翻訳日:2023-12-01 20:20:19 公開日:2023-11-30
# ドメインの一般化を再考する:識別可能性と一般化可能性

Rethinking Domain Generalization: Discriminability and Generalizability ( http://arxiv.org/abs/2309.16483v2 )

ライセンス: Link先を確認
Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo(参考訳) ドメイン一般化(dg)は、優れた識別性を維持しながら、強い一般化性を持つ堅牢なモデルの開発に尽力する。 それでも、重要なDG技術は、特徴識別可能性を見越して、ドメイン不変表現を学習することで特徴一般化性を改善する傾向にある。 一方、特徴の一般化可能性と識別可能性の同時達成は、しばしば固有の矛盾を伴う複雑な課題を示す。 この課題は、ドメイン不変な特徴が、不安定な要因、すなわち散発的な相関を含むことにより、識別可能性の低下を表わすときに特に顕著になる。 一方で、一般的なドメイン不変メソッドはカテゴリレベルのアライメントとして分類することができ、実質的な一般化可能性を持つ必要のない特徴を捨て、クラス内変異を狭める可能性がある。 これらの障害を克服するため,我々はDGを,強い差別性と堅牢な一般化性を備えた特徴を同時に付与する新たな視点から再考し,新しい枠組みであるDMDA(Distriminative Microscopic Distribution Alignment)を提案する。 DMDAにはSelective Channel Pruning~(SCP)とMicro-level Distribution Alignment(MDA)という2つのコアコンポーネントが含まれている。 具体的には、SCPはニューラルネットワーク内での冗長性を緩和し、正確な分類による安定した属性を優先順位付けしようとする。 このアプローチは、スプリアス領域不変性の悪影響を緩和し、特徴の判別性を増幅する。 さらに、MDAは各クラス内のマイクロレベルのアライメントをアクセントし、単なるカテゴリレベルのアライメントを超える。 この戦略は十分な一般化可能な特徴に対応し、クラス内のバリエーションを促進する。 4つのベンチマークデータセットの大規模な実験は,本手法の有効性を裏付けるものである。

Domain generalization (DG) endeavors to develop robust models that possess strong generalizability while preserving excellent discriminability. Nonetheless, pivotal DG techniques tend to improve the feature generalizability by learning domain-invariant representations, inadvertently overlooking the feature discriminability. On the one hand, the simultaneous attainment of generalizability and discriminability of features presents a complex challenge, often entailing inherent contradictions. This challenge becomes particularly pronounced when domain-invariant features manifest reduced discriminability owing to the inclusion of unstable factors, \emph{i.e.,} spurious correlations. On the other hand, prevailing domain-invariant methods can be categorized as category-level alignment, susceptible to discarding indispensable features possessing substantial generalizability and narrowing intra-class variations. To surmount these obstacles, we rethink DG from a new perspective that concurrently imbues features with formidable discriminability and robust generalizability, and present a novel framework, namely, Discriminative Microscopic Distribution Alignment (DMDA). DMDA incorporates two core components: Selective Channel Pruning~(SCP) and Micro-level Distribution Alignment (MDA). Concretely, SCP attempts to curtail redundancy within neural networks, prioritizing stable attributes conducive to accurate classification. This approach alleviates the adverse effect of spurious domain invariance and amplifies the feature discriminability. Besides, MDA accentuates micro-level alignment within each class, going beyond mere category-level alignment. This strategy accommodates sufficient generalizable features and facilitates within-class variations. Extensive experiments on four benchmark datasets corroborate the efficacy of our method.
翻訳日:2023-12-01 20:14:09 公開日:2023-11-30
# 視覚的推論タスクにおける非微分可能ビジュアルプログラミングフレームワークの連続学習パラダイム

A Continual Learning Paradigm for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks ( http://arxiv.org/abs/2309.09809v2 )

ライセンス: Link先を確認
Wentao Wan, Nan Kang, Zeqing Wang, Zhuojie Yang, Liang Lin, Keze Wang(参考訳) 最近、ビジュアルプログラミングフレームワーク(VisProg)が、その解釈性と柔軟性のために構成的な視覚タスクを実行するための重要なフレームワークとして登場した。 しかし、視覚的サブモジュールが限定的な一般化能力を持つため、特定の視覚的推論(VR)タスクにおけるVisProgの性能は、よく訓練されたタスク固有モデルに比べて著しく劣っている。 VisProgの非微分性のため、特定のVRタスクのために、VisProg内の視覚的なサブモジュールを改善することは極めて困難である。 これらの課題を克服しようと、さまざまな視覚的推論タスクにわたるVisProgの継続的学習パラダイムであるCLVPを提案する。 特にclvpは、よく訓練されたタスク固有のモデルの機能を段階的かつ反フォーゲティング的な方法でビジュアルサブモジュールに絞り込みます。 これにより、VisProgの柔軟性を維持しながら、複数の視覚タスクにおけるVisProgのパフォーマンスを継続的に改善することができる。 広範囲で包括的な実験結果から,本clvp は visprog ベースラインと比較して,gqa (+1.4%) と nlvrv2 (+5.6%) といった特定の vr ベンチマークで有意な性能向上を達成でき,また,未学習および過去の学習タスクにおいて vr の有望な一般化性を維持している。

Recently, the visual programming framework (VisProg) has emerged as a significant framework for executing compositional visual tasks due to its interpretability and flexibility. However, the performance of VisProg on specific Visual Reasoning (VR) tasks is markedly inferior compared to well-trained task-specific models since its employed visual sub-modules have limited generalization capabilities. Due to the non-differentiability of VisProg, it is quite challenging to improve these visual sub-modules within VisProg for the specific VR task while maintaining their generalizability on the un-seen tasks. Attempt to overcome these difficulties, we propose CLVP, a Continuous Learning paradigm for VisProg across various visual reasoning tasks. Specifically, our CLVP distills the capabilities of well-trained task-specific models into the visual sub-modules in a stepwise and anti-forgetting manner. This can continually improve the performance of VisProg on multiple visual tasks while preserving the flexibility of VisProg. Extensive and comprehensive experimental results demonstrate that our CLVP obtains significant performance gains on specific VR benchmarks, i.e., GQA (+1.4%) and NLVRv2 (+5.6%), compared to the VisProg baseline, and also maintains a promising generalizability for VR on un-seen and previous learned tasks.
翻訳日:2023-12-01 20:13:09 公開日:2023-11-30
# 4次元レーダーポイントクラウドによる移動物体検出と追跡

Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v2 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art.
翻訳日:2023-12-01 20:12:44 公開日:2023-11-30
# 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v3 )

ライセンス: Link先を確認
Shihong Liu and Zhiqiu Lin and Samuel Yu and Ryan Lee and Tiffany Ling and Deepak Pathak and Deva Ramanan(参考訳) Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 そこで我々は,自然言語のプロンプトを通じてVLMを最適化するブラックボックスアプローチを開発し,モデルパラメータや機能埋め込み,さらには出力ロジットへのアクセスを回避することを目的とする。 本稿では,VLM に最適なテキストプロンプトを探すために,チャットベースの LLM を提案する。 具体的には,現在のプロンプトの性能を評価し,LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで,効果的なプロンプトに収束する自動ヒルクライミング手法を採用する。 難易度の高い1ショット画像分類設定では、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプト法(CoOp)を超過する。 我々のアプローチは、人間工学とLLM生成のプロンプトよりも優れています。 我々は,肯定と否定の両方のプロンプトを組み込んだ会話フィードバックの利点を強調し,LLMがテキストフィードバックにおける暗黙の勾配方向をより効率的な検索に活用できることを示唆した。 加えて、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、様々なvlmアーキテクチャをブラックボックス方式で転送可能であることも分かりました。 最後に,テキスト対画像最適化のための最先端ブラックボックスvlm(dall-e3)上でのフレームワークの実証を行った。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities on downstream tasks when fine-tuned with minimal data. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. As such, we aim to develop a black-box approach to optimize VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or even output logits. We propose employing chat-based LLMs to search for the best text prompt for VLMs. Specifically, we adopt an automatic hill-climbing procedure that converges to an effective prompt by evaluating the performance of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot image classification setup, our simple approach surpasses the white-box continuous prompting method (CoOp) by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms both human-engineered and LLM-generated prompts. We highlight the advantage of conversational feedback that incorporates both positive and negative prompts, suggesting that LLMs can utilize the implicit gradient direction in textual feedback for a more efficient search. In addition, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different VLM architectures in a black-box manner. Lastly, we demonstrate our framework on a state-of-the-art black-box VLM (DALL-E 3) for text-to-image optimization.
翻訳日:2023-12-01 20:12:29 公開日:2023-11-30
# テキストプロンプトによる3Dシーンの編集

Editing 3D Scenes via Text Prompts without Retraining ( http://arxiv.org/abs/2309.04917v3 )

ライセンス: Link先を確認
Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding, Shuchang Zhou, Ming-Hsuan Yang(参考訳) 近年,画像合成と編集に多くの拡散モデルが適用されている。 しかし、3Dシーンの編集はまだ初期段階にある。 例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。 そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。 本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。 次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。 さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。 テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。 実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。 本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。 プロジェクトのwebサイトはhttps://sk-fun.fun/dn2nで入手できる。

Numerous diffusion models have recently been applied to image synthesis and editing. However, editing 3D scenes is still in its early stages. It poses various challenges, such as the requirement to design specific methods for different editing types, retraining new models for various 3D scenes, and the absence of convenient human interaction during editing. To tackle these issues, we introduce a text-driven editing method, termed DN2N, which allows for the direct acquisition of a NeRF model with universal editing capabilities, eliminating the requirement for retraining. Our method employs off-the-shelf text-based editing models of 2D images to modify the 3D scene images, followed by a filtering process to discard poorly edited images that disrupt 3D consistency. We then consider the remaining inconsistency as a problem of removing noise perturbation, which can be solved by generating training data with similar perturbation characteristics for training. We further propose cross-view regularization terms to help the generalized NeRF model mitigate these perturbations. Our text-driven method allows users to edit a 3D scene with their desired description, which is more friendly, intuitive, and practical than prior works. Empirical results show that our method achieves multiple editing types, including but not limited to appearance editing, weather transition, material changing, and style transfer. Most importantly, our method generalizes well with editing abilities shared among a set of model parameters without requiring a customized editing model for some specific scenes, thus inferring novel views with editing effects directly from user input. The project website is available at https://sk-fun.fun/DN2N
翻訳日:2023-12-01 20:12:03 公開日:2023-11-30
# 変化点検出機構を有するホッフィング木に基づく連続学習シナリオのための天然ガス消費量予測システム

A Natural Gas Consumption Forecasting System for Continual Learning Scenarios based on Hoeffding Trees with Change Point Detection Mechanism ( http://arxiv.org/abs/2309.03720v2 )

ライセンス: Link先を確認
Radek Svoboda, Sebastian Basterrech, J\k{e}drzej Kozal, Jan Plato\v{s}, Micha{\l} Wo\'zniak(参考訳) 天然ガス消費の予測は、季節性やトレンドを考慮して、その供給と消費を計画し、主に工業企業による生産コストの最適化に不可欠である。 しかし、供給に対する脅威の時においても、個々の消費者のニーズを満たすためにこの原料の供給を保証し、社会のエネルギー安全を確保する重要な要素である。 本稿では,データストリーム処理を用いた連続学習機能付きモデルコレクション選択のための,変化点検出統合による天然ガス消費の多段階予測について紹介する。 提案手法に基づく予測モデルの性能を,天然ガス消費予測の複雑な実世界のユースケースで評価した。 我々は,予測モデルとしてHoeffding Tree Predictionorを用い,変化点検出のためのPruned Exact Linear Time (PELT) アルゴリズムを開発した。 変更点検出統合により、連続した時間フレームに対して異なるモデルコレクションを選択することができる。 これにより、検出された変化点の密度が異なる予測シナリオに対して、3つのモデル収集選択手順(エラーフィードバックループの有無)を定義し、評価する。 これらのモデルと変化点非依存のベースラインアプローチを比較した。 実験では,モデルコレクション選択手順に関わらず,変更点が少ないと予測誤差が小さくなることを示した。 また、予測誤差フィードバックを省略したモデル収集選択手順は、連続学習タスクに適したより堅牢な予測モデルをもたらす。

Forecasting natural gas consumption, considering seasonality and trends, is crucial in planning its supply and consumption and optimizing the cost of obtaining it, mainly by industrial entities. However, in times of threats to its supply, it is also a critical element that guarantees the supply of this raw material to meet individual consumers' needs, ensuring society's energy security. This article introduces a novel multistep ahead forecasting of natural gas consumption with change point detection integration for model collection selection with continual learning capabilities using data stream processing. The performance of the forecasting models based on the proposed approach is evaluated in a complex real-world use case of natural gas consumption forecasting. We employed Hoeffding tree predictors as forecasting models and the Pruned Exact Linear Time (PELT) algorithm for the change point detection procedure. The change point detection integration enables selecting a different model collection for successive time frames. Thus, three model collection selection procedures (with and without an error feedback loop) are defined and evaluated for forecasting scenarios with various densities of detected change points. These models were compared with change point agnostic baseline approaches. Our experiments show that fewer change points result in a lower forecasting error regardless of the model collection selection procedure employed. Also, simpler model collection selection procedures omitting forecasting error feedback leads to more robust forecasting models suitable for continual learning tasks.
翻訳日:2023-12-01 20:11:35 公開日:2023-11-30
# 視覚および言語ナビゲーションのためのプロンプトベースコンテキストおよびドメインアウェア事前学習

Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation ( http://arxiv.org/abs/2309.03661v2 )

ライセンス: Link先を確認
Ting Liu, Wansen Wu, Yue Hu, Youkai Wang, Kai Xu, Quanjun Yin(参考訳) 強力な表現能力により、事前訓練された視覚言語モデルは視覚と言語ナビゲーション(VLN)で広く使われている。 しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。 VLNのもう1つの課題は、エージェントが軌道上のアクション間の文脈的関係をどのように理解し、連続的にモード間のアライメントを実行するかである。 本稿では,これらの問題に対処するための新しいPrompt-bAsed coNtext- and Domain-Aware(PANDA)事前学習フレームワークを提案する。 プロンプトは2段階で行われる。 ドメイン認識の段階では、VLNタスクにおけるオブジェクトレベルおよびシーンレベルのクロスモーダルアライメントを備えた事前学習モデルのドメイン内データセットからソフトな視覚的プロンプトを学習するために、低コストなプロンプトチューニングパラダイムを適用する。 さらに,コンテキスト認識の段階では,シーケンスレベルのセマンティクスを捉えるための一連のハードコンテキストプロンプトを設計し,インストラクション内のコンテキスト外知識とコンテキスト外知識の両方をクロスモーダル表現に変換する。 コントラスト学習を通じて事前訓練されたモデルのさらなるチューニングを可能にする。 R2RとREVERIEの両方の実験結果から,従来の最先端手法に比べてPANDAの方が優れていた。

With strong representation capabilities, pretrained vision-language models are widely used in vision and language navigation (VLN). However, most of them are trained on web-crawled general-purpose datasets, which incurs a considerable domain gap when used for VLN tasks. Another challenge for VLN is how the agent understands the contextual relations between actions on a trajectory and performs cross-modal alignment sequentially. In this paper, we propose a novel Prompt-bAsed coNtext- and Domain-Aware (PANDA) pretraining framework to address these problems. It performs prompting in two stages. In the domain-aware stage, we apply a low-cost prompt tuning paradigm to learn soft visual prompts from an in-domain dataset for equipping the pretrained models with object-level and scene-level cross-modal alignment in VLN tasks. Furthermore, in the context-aware stage, we design a set of hard context prompts to capture the sequence-level semantics and instill both out-of-context and contextual knowledge in the instruction into cross-modal representations. They enable further tuning of the pretrained models via contrastive learning. Experimental results on both R2R and REVERIE show the superiority of PANDA compared to previous state-of-the-art methods.
翻訳日:2023-12-01 20:11:16 公開日:2023-11-30
# マルチモーダルトラッキングのための生成的核融合機構

Generative-based Fusion Mechanism for Multi-Modal Tracking ( http://arxiv.org/abs/2309.01728v3 )

ライセンス: Link先を確認
Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Xiao-Jun Wu, Josef Kittler(参考訳) 生成モデル(gms)は、包括的理解を達成するための顕著な能力について研究の関心が高まっている。 しかしながら、マルチモーダルトラッキングの領域における彼らの潜在的な応用は、比較的未調査のままである。 この文脈では,多モードトラッキングにおいて重要な課題である情報融合に対処するために,生成技術を活用する可能性を明らかにする。 本稿では,2つのGM技術,すなわち条件付き生成逆数ネットワーク(CGAN)と拡散モデル(DM)を探索する。 各モードの特徴を直接融合ブロックに供給する標準的な融合プロセスとは異なり、GMフレームワークにランダムノイズを伴ってこれらのマルチモーダル特徴を条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。 この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。 提案手法の有効性を定量的に評価するために,マルチモーダルトラッキングタスク2つ,ベースラインメソッド3つ,挑戦ベンチマーク3つにまたがる広範な実験を行った。 実験の結果,提案手法はラッシャーとrgbd1kに新しいレコードをセットすることで,最先端の性能を実現することがわかった。

Generative models (GMs) have received increasing research interest for their remarkable capacity to achieve comprehensive understanding. However, their potential application in the domain of multi-modal tracking has remained relatively unexplored. In this context, we seek to uncover the potential of harnessing generative techniques to address the critical challenge, information fusion, in multi-modal tracking. In this paper, we delve into two prominent GM techniques, namely, Conditional Generative Adversarial Networks (CGANs) and Diffusion Models (DMs). Different from the standard fusion process where the features from each modality are directly fed into the fusion block, we condition these multi-modal features with random noise in the GM framework, effectively transforming the original training samples into harder instances. This design excels at extracting discriminative clues from the features, enhancing the ultimate tracking performance. To quantitatively gauge the effectiveness of our approach, we conduct extensive experiments across two multi-modal tracking tasks, three baseline methods, and three challenging benchmarks. The experimental results demonstrate that the proposed generative-based fusion mechanism achieves state-of-the-art performance, setting new records on LasHeR and RGBD1K.
翻訳日:2023-12-01 20:10:49 公開日:2023-11-30
# less is more --structured sparsityを用いた並列型マルチタスクモデルへのアプローチ

Less is More -- Towards parsimonious multi-task models using structured sparsity ( http://arxiv.org/abs/2308.12114v3 )

ライセンス: Link先を確認
Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki(参考訳) ディープラーニングにおけるモデルスペーシフィケーションは、パラメータが少ないよりシンプルで解釈しやすいモデルを促進する。 これはモデルのメモリフットプリントと計算要求を減らすだけでなく、推論時間を短縮する。 この作業は、パラメータの少ない複数のタスクに最適化されたスパースモデルの作成に焦点を当てている。 これらの擬似モデルは、性能の点で密度の高いモデルに一致するか、より優れる可能性がある。 本研究では,マルチタスク学習モデルの共用畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。 このアプローチは、チャネル(l1正則化による)を外在的に除去し、重み付けにペナルティを課し、全てのタスク(l2正則化による)の学習効率をさらに高める。 nyu-v2とcelebamask-hqの2つのマルチタスク学習(mtl)データセットにおいて,シングルタスクとマルチタスクの両方におけるグループスパーシティの結果を分析した。 どちらのデータセットもそれぞれ3つの異なるコンピュータビジョンタスクで構成されており、約70%のスパーシティを持つマルチタスクモデルは、その密接な等価性を上回る。 また,スパーシフィケーションの程度の変化がモデルの性能,全体のスパーシティー率,スパーシティーのパターン,推測時間に与える影響についても検討した。

Model sparsification in deep learning promotes simpler, more interpretable models with fewer parameters. This not only reduces the model's memory footprint and computational needs but also shortens inference time. This work focuses on creating sparse models optimized for multiple tasks with fewer parameters. These parsimonious models also possess the potential to match or outperform dense models in terms of performance. In this work, we introduce channel-wise l1/l2 group sparsity in the shared convolutional layers parameters (or weights) of the multi-task learning model. This approach facilitates the removal of extraneous groups i.e., channels (due to l1 regularization) and also imposes a penalty on the weights, further enhancing the learning efficiency for all tasks (due to l2 regularization). We analyzed the results of group sparsity in both single-task and multi-task settings on two widely-used Multi-Task Learning (MTL) datasets: NYU-v2 and CelebAMask-HQ. On both datasets, which consist of three different computer vision tasks each, multi-task models with approximately 70% sparsity outperform their dense equivalents. We also investigate how changing the degree of sparsification influences the model's performance, the overall sparsity percentage, the patterns of sparsity, and the inference time.
翻訳日:2023-12-01 20:10:28 公開日:2023-11-30
# MDCS:長距離認識のための一貫性自己蒸留法

MDCS: More Diverse Experts with Consistency Self-distillation for Long-tailed Recognition ( http://arxiv.org/abs/2308.09922v2 )

ライセンス: Link先を確認
Qihao Zhao and Chen Jiang and Wei Hu and Fan Zhang and Jun Liu(参考訳) 近年,マルチエキスパート手法によりLTR(Long-tail Recognition)が大幅に改善されている。 我々は,LTRの促進に寄与するためにさらなる強化を必要とする2つの側面を要約する:(1)より多様な専門家,(2)モデル分散の低減。 しかし、以前の方法ではうまく処理できなかった。 そこで本稿では,従来手法が残っていたギャップを埋めるために,MDCS(Consistency Self-distillation)を用いた多種多様な専門家を提案する。 MDCSアプローチは,多様性損失(DL)と一貫性自己蒸留(CS)の2つのコアコンポーネントから構成される。 詳細は、DLは異なるカテゴリーに焦点を絞ることで、専門家間の多様性を促進する。 モデルの分散を減らすために,我々はklダイバージェンスを用いて,専門家の自己蒸留に対する弱い拡張インスタンスのより豊かな知識を蒸留する。 特に,信頼度の高いインスタンスサンプリング(cis)を設計,バイアスやノイズの少ない知識を避けるために,正しく分類されたcsのインスタンスを選択する。 分析・アブレーション研究では,従来の手法と比較して,専門家の多様性を効果的に向上し,モデルのばらつきを著しく低減し,認識精度を向上させることを実証した。 さらに,本研究におけるDLとCSの役割は相互に強化・結合されており,専門家の多様性はCSから恩恵を受けており,CSはDLなしでは顕著な成果が得られない。 MDCSは、CIFAR10-LT、CIFAR100-LT、ImageNet-LT、Places-LT、iNaturalist 2018を含む5つの人気のあるロングテールベンチマークで、最先端のベンチマークを1%$\sim$ 2%上回りました。 コードはhttps://github.com/fistyee/mdcsで入手できる。

Recently, multi-expert methods have led to significant improvements in long-tail recognition (LTR). We summarize two aspects that need further enhancement to contribute to LTR boosting: (1) More diverse experts; (2) Lower model variance. However, the previous methods didn't handle them well. To this end, we propose More Diverse experts with Consistency Self-distillation (MDCS) to bridge the gap left by earlier methods. Our MDCS approach consists of two core components: Diversity Loss (DL) and Consistency Self-distillation (CS). In detail, DL promotes diversity among experts by controlling their focus on different categories. To reduce the model variance, we employ KL divergence to distill the richer knowledge of weakly augmented instances for the experts' self-distillation. In particular, we design Confident Instance Sampling (CIS) to select the correctly classified instances for CS to avoid biased/noisy knowledge. In the analysis and ablation study, we demonstrate that our method compared with previous work can effectively increase the diversity of experts, significantly reduce the variance of the model, and improve recognition accuracy. Moreover, the roles of our DL and CS are mutually reinforcing and coupled: the diversity of experts benefits from the CS, and the CS cannot achieve remarkable results without the DL. Experiments show our MDCS outperforms the state-of-the-art by 1% $\sim$ 2% on five popular long-tailed benchmarks, including CIFAR10-LT, CIFAR100-LT, ImageNet-LT, Places-LT, and iNaturalist 2018. The code is available at https://github.com/fistyee/MDCS.
翻訳日:2023-12-01 20:09:42 公開日:2023-11-30
# 形状最適化における異常検出と設計空間次元削減のための生成モデル

Generative Models for Anomaly Detection and Design-Space Dimensionality Reduction in Shape Optimization ( http://arxiv.org/abs/2308.04051v2 )

ライセンス: Link先を確認
Danny D'Agostino(参考訳) 本研究は,幾何学的異常のない最適化プロセスにおいて,高品質な設計の創出を推進しつつ,グローバル最適化アルゴリズムの効率向上を目的とし,新たな形状最適化手法を提案する。 これは、幾何学的分散が最大化される新しい減弱部分空間を定義する元の設計変数の数を減らし、因子分析や確率的主成分分析のような確率論的線形潜在変数モデルによるデータの生成過程をモデル化することで達成される。 形状修正法が線形であり, 設計変数が一様にランダムにサンプリングされる場合, 中心極限定理の直接適用により, データはガウス分布にほぼ従うことを示す。 異常度はマハラノビス距離で測定され、本論文は、異常な設計がこの計量値の高い値を示す傾向があることを示す。 これにより、異常なジオメトリがペナルティ化され、最適化ループ中に回避される新しい最適化モデルの定義が可能になる。 この手法はdtmb 5415モデルの船体形状最適化に応用され、形状最適化問題の国際ベンチマークとして広く用いられている。 グローバル最適化ルーチンはベイズ最適化とDIRECTアルゴリズムを用いて実行される。 数値計算結果から,大域的最適化アルゴリズムの収束性が向上する一方で,高質な幾何学的特徴を持つ設計のみを最適化ルーチンによって生成し,貴重な計算量の多いシミュレーションの段階を回避した。

Our work presents a novel approach to shape optimization, with the twofold objective to improve the efficiency of global optimization algorithms while promoting the generation of high-quality designs during the optimization process free of geometrical anomalies. This is accomplished by reducing the number of the original design variables defining a new reduced subspace where the geometrical variance is maximized and modeling the underlying generative process of the data via probabilistic linear latent variable models such as factor analysis and probabilistic principal component analysis. We show that the data follows approximately a Gaussian distribution when the shape modification method is linear and the design variables are sampled uniformly at random, due to the direct application of the central limit theorem. The degree of anomalousness is measured in terms of Mahalanobis distance, and the paper demonstrates that abnormal designs tend to exhibit a high value of this metric. This enables the definition of a new optimization model where anomalous geometries are penalized and consequently avoided during the optimization loop. The procedure is demonstrated for hull shape optimization of the DTMB 5415 model, extensively used as an international benchmark for shape optimization problems. The global optimization routine is carried out using Bayesian optimization and the DIRECT algorithm. From the numerical results, the new framework improves the convergence of global optimization algorithms, while only designs with high-quality geometrical features are generated through the optimization routine thereby avoiding the wastage of precious computationally expensive simulations.
翻訳日:2023-12-01 20:08:39 公開日:2023-11-30
# 意思決定システムのためのヘシアン・アウェアベイズ最適化

Hessian-Aware Bayesian Optimization for Decision Making Systems ( http://arxiv.org/abs/2308.00629v3 )

ライセンス: Link先を確認
Mohit Rajpal, Lac Gia Tran, Yehong Zhang, Bryan Kian Hsiang Low(参考訳) 意思決定システムを最適化するための多くのアプローチは、環境からの情報的フィードバックを必要とする勾配に基づく手法に依存している。 しかし、そのようなフィードバックが疎い場合や非形式的な場合、そのようなアプローチは性能が低下する可能性がある。 ベイズ最適化のような微分自由なアプローチは勾配フィードバックの品質への依存を緩和するが、複雑な意思決定システムの高次元設定ではスケールが不十分であることが知られている。 この問題は、システムが共有目標を達成するために協力する複数のアクター間のインタラクションを必要とする場合、悪化する。 次元的課題に対処するため,我々は,役割の概念を通じてアクタインタラクションのダイナミクスをモデル化するコンパクトな多層アーキテクチャを提案する。 さらに,Hessian-aware Bayesian Optimizationを導入し,多数のパラメータでパラメータ化された多層アーキテクチャを効率的に最適化する。 実験の結果,提案手法は資源制約と不正なフィードバック設定の下で,複数のベンチマークで効果的に動作することがわかった。

Many approaches for optimizing decision making systems rely on gradient based methods requiring informative feedback from the environment. However, in the case where such feedback is sparse or uninformative, such approaches may result in poor performance. Derivative-free approaches such as Bayesian Optimization mitigate the dependency on the quality of gradient feedback, but are known to scale poorly in the high-dimension setting of complex decision making systems. This problem is exacerbated if the system requires interactions between several actors cooperating to accomplish a shared goal. To address the dimensionality challenge, we propose a compact multi-layered architecture modeling the dynamics of actor interactions through the concept of role. Additionally, we introduce Hessian-aware Bayesian Optimization to efficiently optimize the multi-layered architecture parameterized by a large number of parameters. Experimental results demonstrate that our method (HA-GP-UCB) works effectively on several benchmarks under resource constraints and malformed feedback settings.
翻訳日:2023-12-01 20:08:15 公開日:2023-11-30
# transxnet: 視覚認識のためのdual dynamic token mixerによるグローバルおよびローカルダイナミクスの学習

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition ( http://arxiv.org/abs/2310.19380v2 )

ライセンス: Link先を確認
Meng Lou, Hong-Yu Zhou, Sibei Yang, Yizhou Yu(参考訳) 近年,インダクティブバイアスの導入と一般化性能の向上を目的として,変圧器への畳み込みを取り入れている。 しかし、従来の畳み込みの静的な性質は、入力のバリエーションに動的に適応することを妨げるため、自己注意が注意行列を動的に計算するにつれて、畳み込みと自己注意の表現の相違が生じる。 さらに、畳み込みと自己アテンションからなるトークンミキサーを積み重ねてディープネットワークを形成すると、畳み込みの静的性質は、自己アテンションによって生成された機能を畳み込みカーネルに融合させるのを妨げる。 これら2つの制限は、構築されたネットワークの準最適表現能力をもたらす。 そこで本研究では,グローバルな情報と局所的な詳細を入力依存的に集約する軽量なD-Mixerを提案する。 D-Mixerは、効率的なグローバルアテンションモジュールと入力依存の奥行き畳み込みを均等に分割した特徴セグメントに別々に適用し、ネットワークに強い帰納バイアスと拡張された有効受容場を与える。 我々は,新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計する上で,基本的なビルディングブロックとしてD-Mixerを使用している。 ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。 さらに、TransXNet-SとTransXNet-Bは優れたモデルスケーラビリティを示し、それぞれ83.8%と84.6%の正確さを達成した。 さらに,提案するネットワークアーキテクチャは,計算コストを低減しつつ,様々な密集した予測タスクにおいて強力な一般化能力を示す。 コードはhttps://github.com/LMMMEng/TransXNetで入手できる。

Recent studies have integrated convolution into transformers to introduce inductive bias and improve generalization performance. However, the static nature of conventional convolution prevents it from dynamically adapting to input variations, resulting in a representation discrepancy between convolution and self-attention as self-attention calculates attention matrices dynamically. Furthermore, when stacking token mixers that consist of convolution and self-attention to form a deep network, the static nature of convolution hinders the fusion of features previously generated by self-attention into convolution kernels. These two limitations result in a sub-optimal representation capacity of the constructed networks. To find a solution, we propose a lightweight Dual Dynamic Token Mixer (D-Mixer) that aggregates global information and local details in an input-dependent way. D-Mixer works by applying an efficient global attention module and an input-dependent depthwise convolution separately on evenly split feature segments, endowing the network with strong inductive bias and an enlarged effective receptive field. We use D-Mixer as the basic building block to design TransXNet, a novel hybrid CNN-Transformer vision backbone network that delivers compelling performance. In the ImageNet-1K image classification task, TransXNet-T surpasses Swin-T by 0.3% in top-1 accuracy while requiring less than half of the computational cost. Furthermore, TransXNet-S and TransXNet-B exhibit excellent model scalability, achieving top-1 accuracy of 83.8% and 84.6% respectively, with reasonable computational costs. Additionally, our proposed network architecture demonstrates strong generalization capabilities in various dense prediction tasks, outperforming other state-of-the-art networks while having lower computational costs. Code is available at https://github.com/LMMMEng/TransXNet.
翻訳日:2023-12-01 20:02:31 公開日:2023-11-30
# 同時シーケンス生成のための統一セグメント・ツー・セグメンテーションフレームワーク

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation ( http://arxiv.org/abs/2310.17940v4 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳などのリアルタイムシナリオにおいて重要なタスクであり、ソースシーケンスを受信しながらターゲットシーケンスを生成する。 低レイテンシで高品質な生成を実現するのは、ソースとターゲットシーケンスのマッピングを学習して、生成する最適なモーメントを特定することにある。 しかし、既存の手法は、しばしば異なるシーケンスタイプに対するタスク固有のヒューリスティックに依存し、ソースターゲットマッピングを適応的に学習する能力を制限するとともに、様々な同時タスクに対するマルチタスク学習の探索を妨げる。 本稿では,同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。 同時生成の過程では、モデルがソースセグメントの待機とターゲットセグメントの生成とを交互に行い、セグメンテーションをソースとターゲットの間の自然なブリッジとして機能させる。 これを達成するため、seg2segは目標とするソース間のピボットとして潜在セグメントを導入し、提案する期待トレーニングを通じてすべてのソース・ターゲットマッピングを探索し、生成の最適なモーメントを学習する。 複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成し、様々なタスクにわたってより良い汎用性を示すことを示した。

Simultaneous sequence generation is a pivotal task for real-time scenarios, such as streaming speech recognition, simultaneous machine translation and simultaneous speech translation, where the target sequence is generated while receiving the source sequence. The crux of achieving high-quality generation with low latency lies in identifying the optimal moments for generating, accomplished by learning a mapping between the source and target sequences. However, existing methods often rely on task-specific heuristics for different sequence types, limiting the model's capacity to adaptively learn the source-target mapping and hindering the exploration of multi-task learning for various simultaneous tasks. In this paper, we propose a unified segment-to-segment framework (Seg2Seg) for simultaneous sequence generation, which learns the mapping in an adaptive and unified manner. During the process of simultaneous generation, the model alternates between waiting for a source segment and generating a target segment, making the segment serve as the natural bridge between the source and target. To accomplish this, Seg2Seg introduces a latent segment as the pivot between source to target and explores all potential source-target mappings via the proposed expectation training, thereby learning the optimal moments for generating. Experiments on multiple simultaneous generation tasks demonstrate that Seg2Seg achieves state-of-the-art performance and exhibits better generality across various tasks.
翻訳日:2023-12-01 20:01:57 公開日:2023-11-30
# ゼロショットプロンプトを用いた局所微分プライベート文書生成

Locally Differentially Private Document Generation Using Zero Shot Prompting ( http://arxiv.org/abs/2310.16111v2 )

ライセンス: Link先を確認
Saiteja Utpala, Sara Hooker, Pin Yu Chen(参考訳) 多くの研究が、事前訓練された大きな言語モデルに関連するプライバシーリスクを強調している。 対照的に,本研究は,事前学習された大規模言語モデルがプライバシー保護に効果的に寄与することを示すことにより,独自の視点を提供する。 本稿では,DP-Promptという,事前訓練された大規模言語モデルのパワーとゼロショットプロンプトを利用して,ダウンストリームユーティリティへの影響を最小限に抑えながら,作者の匿名化攻撃に対処する手法を提案する。 DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察され、より単純な設計にもかかわらず既存のアプローチをかなり上回っていることが示された。 例えば、IMDBデータセットの場合、DP-Prompt(ChatGPT)は、静的攻撃者に対する著者識別F1スコアの46倍、適応攻撃者に対する26倍の低下を達成しながら、クリーンな感情F1スコアを完全に回復する。 プライバシ利用トレードオフのさまざまな影響を分析するために,70億のパラメータを含む,オープンソースの6つの大規模言語モデルを対象に,広範な実験を行いました。

Numerous studies have highlighted the privacy risks associated with pretrained large language models. In contrast, our research offers a unique perspective by demonstrating that pretrained large language models can effectively contribute to privacy preservation. We propose a locally differentially private mechanism called DP-Prompt, which leverages the power of pretrained large language models and zero-shot prompting to counter author de-anonymization attacks while minimizing the impact on downstream utility. When DP-Prompt is used with a powerful language model like ChatGPT (gpt-3.5), we observe a notable reduction in the success rate of de-anonymization attacks, showing that it surpasses existing approaches by a considerable margin despite its simpler design. For instance, in the case of the IMDB dataset, DP-Prompt (with ChatGPT) perfectly recovers the clean sentiment F1 score while achieving a 46\% reduction in author identification F1 score against static attackers and a 26\% reduction against adaptive attackers. We conduct extensive experiments across six open-source large language models, ranging up to 7 billion parameters, to analyze various effects of the privacy-utility tradeoff.
翻訳日:2023-12-01 20:01:11 公開日:2023-11-30
# パースペクティブデバイアスによるマルチカメラ3次元物体検出の一般化に向けて

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing ( http://arxiv.org/abs/2310.11346v2 )

ライセンス: Link先を確認
Hao Lu, Yunpeng Zhang, Qing Lian, Dalong Du, Yingcong Chen(参考訳) マルチカメラ(MC3D-Det)と呼ばれる複数のカメラを用いた3D空間の物体検出は,鳥眼ビュー(BEV)アプローチの出現によって注目されている。 しかし、これらの手法は、様々な視点や環境を含む多様なトレーニングデータが欠如しているため、慣れないテスト環境に直面している場合が多い。 そこで本研究では, 2次元カメラ平面による3次元検出を統一的かつ高精度に行う新しい手法を提案する。 私たちのフレームワークは、視点の偏りを保ち、ドメインシフトに耐性のある機能の学習に役立ちます。 提案手法では,BEVの特徴から多様なビューマップを描画し,これらのマップの視点バイアスを補正し,暗黙のフォアグラウンドボリュームを利用してカメラとBEV平面をブリッジする。 この2段階のプロセスは、視点やコンテキストに依存しない特徴の学習を促進し、様々な視点、カメラパラメータ、環境条件の正確な物体検出に不可欠である。 特に、モデルに依存しないアプローチは、追加の推論コストを伴わずに元のネットワーク構造を保持し、さまざまなモデル間のシームレスな統合を促進し、デプロイを単純化します。 さらに本手法は,仮想データセットのみを用いてトレーニングした場合に,実際のデータで満足な結果が得られることを示す。 ドメイン一般化(DG)とUnsupervised Domain Adaptation(UDA)の両方の実験結果は、その効果を明らかに示している。 私たちのコードはリリースされます。

Detecting objects in 3D space using multiple cameras, known as Multi-Camera 3D Object Detection (MC3D-Det), has gained prominence with the advent of bird's-eye view (BEV) approaches. However, these methods often struggle when faced with unfamiliar testing environments due to the lack of diverse training data encompassing various viewpoints and environments. To address this, we propose a novel method that aligns 3D detection with 2D camera plane results, ensuring consistent and accurate detections. Our framework, anchored in perspective debiasing, helps the learning of features resilient to domain shifts. In our approach, we render diverse view maps from BEV features and rectify the perspective bias of these maps, leveraging implicit foreground volumes to bridge the camera and BEV planes. This two-step process promotes the learning of perspective- and context-independent features, crucial for accurate object detection across varying viewpoints, camera parameters and environment conditions. Notably, our model-agnostic approach preserves the original network structure without incurring additional inference costs, facilitating seamless integration across various models and simplifying deployment. Furthermore, we also show our approach achieves satisfactory results in real data when trained only with virtual datasets, eliminating the need for real scene annotations. Experimental results on both Domain Generalization (DG) and Unsupervised Domain Adaptation (UDA) clearly demonstrate its effectiveness. Our code will be released.
翻訳日:2023-12-01 20:00:47 公開日:2023-11-30
# 大規模言語モデルを用いた要約における文脈利用について

On Context Utilization in Summarization with Large Language Models ( http://arxiv.org/abs/2310.10570v2 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Aixin Sun, Nancy F. Chen(参考訳) 大型言語モデル (LLM) はゼロショット抽象的な要約タスクに優れ、流動的で関連する要約を提供する。 最近の進歩は、100kのトークン制限を越えて、長期入力コンテキストを扱う能力を拡張している。 しかし、多文書質問応答の領域では、言語モデルは入力コンテキストの不均一な利用を示す。 彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。 このバイアスは、特に重要なコンテンツがソースドキュメント全体に分散する可能性がある要約タスクにおいて、懸念を引き起こす。 本稿では,10個のデータセット,5個のLLM,および5つの評価指標を包含した総合的な調査を行い,これらのモデルを抽象的な要約にどのように活用するか分析する。 以上の結果から,初歩的なコンテンツに対する偏りが顕著であり(かつ,最終内容も少ない),様々な要約ベンチマークにおいてllmのパフォーマンスが課題となっていることが明らかとなった。

Large language models (LLMs) excel in zero-shot abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, surpassing token limits of 100k. However, in the realm of multi-document question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization tasks where crucial content may be dispersed throughout the source document(s). This paper presents a comprehensive investigation encompassing 10 datasets, 5 LLMs, and 5 evaluation metrics to analyze how these models leverage their input for abstractive summarization. Our findings reveal a pronounced bias towards the introductory content (and to a lesser extent, the final content), posing challenges for LLM performance across a range of diverse summarization benchmarks.
翻訳日:2023-12-01 20:00:21 公開日:2023-11-30
# 事前学習されたトランスフォーマーは、勾配降下によってコンテキスト内学習を実際に行うのか?

Do pretrained Transformers Really Learn In-context by Gradient Descent? ( http://arxiv.org/abs/2310.08540v3 )

ライセンス: Link先を確認
Lingfeng Shen, Aayush Mishra, Daniel Khashabi(参考訳) LLMにおける文脈学習(ICL)の出現は、ほとんど理解されていない重要な現象である。 ICLをGD(Gradient Descent)に接続することで、ICLに光を当てようとしている。 しかし、問題は、これらは実際の事前訓練されたモデルで実際に成立するのだろうか? 我々は,言語モデルを訓練する実践的文脈と,その文脈をかなり異なるものにする先行作業における制約仮定を強調した。 例えば、これらの研究で使われる理論的な手作りの重みは実際の llm と一致しない性質を持つ。 さらに、実験的な検証では、野生での創発的なiclと異なる \emph{icl objective} (iclに対して明示的にトレーニングモデル)を用いている。 実際のモデルの証拠も探しています。 iclとgdは,実演を観察する順序に対する感度が異なることが観察された。 最後に,自然環境下でのicl仮説とgd仮説を比較した。 自然データ(llama-7b)に基づいて事前学習した言語モデルについて,包括的実証分析を行う。 3つのパフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 ICLとGDは言語モデルの出力分布を異なる方法で変更する。 これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究を求めていることを示している。

The emergence of In-Context Learning (ICL) in LLMs remains a significant phenomenon with little understanding. To explain ICL, recent studies try to shed light on ICL by connecting it to Gradient Descent (GD). However, the question is, do these hold up in practice in actual pre-trained models? We highlight the limiting assumptions in prior works that make their context considerably different from the practical context in which language models are trained. For example, the theoretical hand-constructed weights used in these studies have properties that don't match those of real LLMs. Furthermore, their experimental verification uses \emph{ICL objective} (training models explicitly for ICL), which differs from the emergent ICL in the wild. We also look for evidence in real models. We observe that ICL and GD have different sensitivity to the order in which they observe demonstrations. Finally, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pre-trained on natural data (LLaMa-7B). Our comparisons of three performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and the number of demonstrations. We observe that ICL and GD modify the output distribution of language models differently. These results indicate that the equivalence between ICL and GD remains an open hypothesis and calls for further studies.
翻訳日:2023-12-01 20:00:03 公開日:2023-11-30
# 解釈可能なセンシングのための集約型f平均ニューラルネットワーク

Aggregated f-average Neural Network for Interpretable Ensembling ( http://arxiv.org/abs/2310.05566v2 )

ライセンス: Link先を確認
Mathieu Vu and Emilie Chouzenoux and Jean-Christophe Pesquet and Ismail Ben Ayed(参考訳) アンサンブル学習は、複数のモデル(弱い学習者)を共通の機械学習タスクに活用し、予測性能を向上させる。 basic ensemblingのアプローチでは、弱い学習者のアウトプットを平均し、より洗練されたものは、弱い学習者のアウトプットと最終的な予測の間に機械学習モデルを積み重ねる。 この作業は、前述の両方のフレームワークを融合させる。 本稿では,弱い学習者の予測を最適に集約するために,異なる平均値の型をモデル化し結合する,afa(aggregated f-average)浅層ニューラルネットワークを提案する。 我々は,解釈可能なアーキテクチャと簡単なトレーニング戦略を強調し,その優れた性能を数発のクラスインクリメンタルラーニングの問題に立証する。

Ensemble learning leverages multiple models (i.e., weak learners) on a common machine learning task to enhance prediction performance. Basic ensembling approaches average the weak learners outputs, while more sophisticated ones stack a machine learning model in between the weak learners outputs and the final prediction. This work fuses both aforementioned frameworks. We introduce an aggregated f-average (AFA) shallow neural network which models and combines different types of averages to perform an optimal aggregation of the weak learners predictions. We emphasise its interpretable architecture and simple training strategy, and illustrate its good performance on the problem of few-shot class incremental learning.
翻訳日:2023-12-01 19:58:50 公開日:2023-11-30
# 無限分解能評価による創発能力予測

Predicting Emergent Abilities with Infinite Resolution Evaluation ( http://arxiv.org/abs/2310.03262v2 )

ライセンス: Link先を確認
Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao, Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun(参考訳) 大規模言語モデル(llms)の科学的スケールアップは、そのスケーリング特性の包括的理解を必要とする。 しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。 タスクパフォーマンスは通常、モデルがサイズしきい値を超えると劇的に改善するまで小さなモデルで小さな改善を示し、‘緊急能力’を例示する。 そこで本研究では,小型モデルでは小さな性能を示すが,従来の評価手法では測定精度の不十分さから捉えられていない,クリティカルで一貫性のあるタスク性能改善を示す。 このような改良を計測するために,理論上無限の解像度を持つ評価戦略であるpassuntilを提案する。 PassUntilでは,タスクパフォーマンスのスケーリング法則を定量的に検討する。 調査には2つの部分が含まれる。 まず、従来は存在が分かっていない厳密なタスクスケーリング則を特定し、タスクパフォーマンスの予測可能性を高める。 注目すべきなのは,トレーニング開始前に0.05\%の偏差しか持たないコード生成における2.4bモデルの性能を予測できることだ。 第2に、創発能力を定量的に研究することができる。 スケーリング曲線が標準スケーリング法則関数に適合できず,速度が向上する,高速化された出現種を同定する。 次に2つの仮説を考察し, ‘multiple circuits hypothesis’' が創発の加速に寄与する可能性を示唆した。

The scientific scale-up of large language models (LLMs) necessitates a comprehensive understanding of their scaling properties. However, the existing literature on the scaling properties only yields an incomplete answer: optimization loss decreases predictably as the model size increases, in line with established scaling law; yet no scaling law for task has been established and the task performances are far from predictable during scaling. Task performances typically show minor gains on small models until they improve dramatically once models exceed a size threshold, exemplifying the ``emergent abilities''. In this study, we discover that small models, although they exhibit minor performance, demonstrate critical and consistent task performance improvements that are not captured by conventional evaluation strategies due to insufficient measurement resolution. To measure such improvements, we introduce PassUntil, an evaluation strategy with theoretically infinite resolution, through massive sampling in the decoding phase. With PassUntil, we conduct a quantitative investigation into the scaling law of task performance. The investigation contains two parts. Firstly, a strict task scaling law that is not conventionally known to exist, is identified, enhancing the predictability of task performances. Remarkably, we are able to predict the performance of the 2.4B model on code generation with merely 0.05\% deviation before training starts, which is the first systematic attempt to verify predictable scaling proposed by GPT-4's report. Secondly, we are able to study emergent abilities quantitatively. We identify a kind of accelerated emergence whose scaling curve cannot be fitted by standard scaling law function and has a increasing speed. We then examine two hypothesis and imply that the ``multiple circuits hypothesis'' might be responsible for the accelerated emergence.
翻訳日:2023-12-01 19:57:50 公開日:2023-11-30
# 自己: 大きな言語モデルのための言語駆動型自己進化

SELF: Language-Driven Self-Evolution for Large Language Models ( http://arxiv.org/abs/2310.00533v3 )

ライセンス: Link先を確認
Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Fei Mi, Baojun Wang, Weichao Wang, Lifeng Shang, Qun Liu(参考訳) 大規模言語モデル (llm) は様々な領域において顕著な汎用性を示している。 llmをさらに前進させるために,人間の学習プロセスに類似した自己回帰による自己改善を可能にする新しいアプローチである「自己」を提案する。 SELFはメタスキルの学習プロセスで開始され、LSMに自己フィードバックと自己修正の能力を持たせる。 その後、モデルが自己進化の反復過程を行う。 各イテレーションでは、ラベルのない命令データセットを使用して初期レスポンスを生成する。 これらの反応は自己フィードバックと自己抑制によって強化される。 この拡張データを使ってモデルを微調整する。 このモデルは、反復的な自己進化プロセスを通じて、進歩的な改善を行う。 さらに、selfフレームワークにより、推論中にモデルが自己定義を適用できるようになり、応答品質がさらに向上する。 数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。 SELFフレームワークは、LSMの自律的な進化のための有望な方向を示し、それらを受動的情報受信機から開発におけるアクティブな参加者へ移行する。

Large Language Models (LLMs) have demonstrated remarkable versatility across various domains. To further advance LLMs, we propose 'SELF' (Self-Evolution with Language Feedback), a novel approach that enables LLMs to self-improve through self-reflection, akin to human learning processes. SELF initiates with a meta-skill learning process that equips the LLMs with capabilities for self-feedback and self-refinement. Subsequently, the model undergoes an iterative process of self-evolution. In each iteration, it utilizes an unlabeled dataset of instructions to generate initial responses. These responses are enhanced through self-feedback and self-refinement. The model is then fine-tuned using this enhanced data. The model undergoes progressive improvement through this iterative self-evolution process. Moreover, the SELF framework enables the model to apply self-refinement during inference, which further improves response quality. Our experiments in mathematics and general tasks demonstrate that SELF can enhance the capabilities of LLMs without human intervention. The SELF framework indicates a promising direction for the autonomous evolution of LLMs, transitioning them from passive information receivers to active participants in their development.
翻訳日:2023-12-01 19:57:22 公開日:2023-11-30
# サービスとしての言語モデル:新しいパラダイムの概要と課題

Language Models as a Service: Overview of a New Paradigm and its Challenges ( http://arxiv.org/abs/2309.16573v2 )

ライセンス: Link先を確認
Emanuele La Malfa, Aleksandar Petrov, Simon Frieder, Christoph Weinhuber, Ryan Burnell, Raza Nazar, Anthony G. Cohn, Nigel Shadbolt, Michael Wooldridge(参考訳) 現在、最も強力な言語モデルはプロプライエタリなシステムであり、Webまたはソフトウェアプログラミングインターフェースを介してのみアクセス可能である。 これはLanguage-Models-as-a-Service(LMaaS)パラダイムです。 オープンソースモデルのように、フルモデルアクセスが利用可能なシナリオとは対照的に、そのようなクローズオフ言語モデルは、評価、ベンチマーク、テストに特有の課題を呈する。 本稿では,lmaasのアクセシビリティ,再現性,信頼性,信頼性に対する障害として,前述の課題がどのように作用するかを解説する。 これら4つの側面それぞれについて,言語モデルに関する情報の欠如から生じる問題点を体系的に検討する。 我々は既存のソリューションを詳細に分析し、多くの推奨事項を提示し、今後の進歩への方向性を強調する。 その一方で、現在の主要なlmaasに関する既存の知識の包括的なリソースとして機能し、インターフェースが提供するライセンスと機能の概要を合成する。

Some of the most powerful language models currently are proprietary systems, accessible only via (typically restrictive) web or software programming interfaces. This is the Language-Models-as-a-Service (LMaaS) paradigm. In contrast with scenarios where full model access is available, as in the case of open-source models, such closed-off language models present specific challenges for evaluating, benchmarking, and testing them. This paper has two goals: on the one hand, we delineate how the aforementioned challenges act as impediments to the accessibility, replicability, reliability, and trustworthiness of LMaaS. We systematically examine the issues that arise from a lack of information about language models for each of these four aspects. We conduct a detailed analysis of existing solutions and put forth a number of considered recommendations, and highlight the directions for future advancements. On the other hand, it serves as a comprehensive resource for existing knowledge on current, major LMaaS, offering a synthesized overview of the licences and capabilities their interfaces offer.
翻訳日:2023-12-01 19:57:05 公開日:2023-11-30
# 視覚タスクをチューニングするためのアダプタは、すべて必要です

Adapter is All You Need for Tuning Visual Tasks ( http://arxiv.org/abs/2311.15010v2 )

ライセンス: Link先を確認
Dongshuo Yin, Leiyi Hu, Bin Li and Youqun Zhang(参考訳) 事前トレーニングと微調整は視覚タスクの転送効率と性能を向上させる。 最近のデルタチューニング手法は、視覚分類タスクにより多くのオプションを提供する。 その成功にもかかわらず、既存のビジュアルデルタチューニングアートは、インスタンスセグメンテーションやセマンティクスセグメンテーションのような困難なタスクの完全な微調整の上限を超えることができない。 完全微調整に代わる競争的な選択肢を見出すため、我々は、新しいアダプタベースのチューニング方法であるmulti-cognitive visual adapter (mona) tuningを提案する。 まず,複数の視覚に優しいフィルタを導入し,視覚信号の処理能力を高め,従来の手法は言語に優しい線形フィルタに大きく依存していた。 第2に,視覚フィルタの入力特性の分布を規制するために,アダプタにスケールド正規化層を追加する。 モナの実用性と汎用性を実証するため,COCOのインスタンスセグメンテーション,ADE20Kのセマンティックセグメンテーション,パスカルVOCのオブジェクト検出,複数の共通データセットのイメージ分類など,複数の視覚的タスクの実験を行った。 興奮的な結果は、Monaがこれらすべてのタスクの完全な微調整を超えており、インスタンスセグメンテーションとセマンティックセグメンテーションタスクで完全な微調整を行う唯一のデルタ微調整メソッドであることを示している。 例えば、Monaは完全な微調整に比べてCOCOデータセットで1%のパフォーマンス向上を達成した。 総合的な結果は、モナチューニングは完全な微調整よりも、事前訓練されたモデルの能力の保持と活用に適していることを示唆している。 コードはhttps://github.com/leiyi-hu/monaでリリースされる。

Pre-training & fine-tuning can enhance the transferring efficiency and performance in visual tasks. Recent delta-tuning methods provide more options for visual classification tasks. Despite their success, existing visual delta-tuning art fails to exceed the upper limit of full fine-tuning on challenging tasks like instance segmentation and semantic segmentation. To find a competitive alternative to full fine-tuning, we propose the Multi-cognitive Visual Adapter (Mona) tuning, a novel adapter-based tuning method. First, we introduce multiple vision-friendly filters into the adapter to enhance its ability to process visual signals, while previous methods mainly rely on language-friendly linear filters. Second, we add the scaled normalization layer in the adapter to regulate the distribution of input features for visual filters. To fully demonstrate the practicality and generality of Mona, we conduct experiments on multiple representative visual tasks, including instance segmentation on COCO, semantic segmentation on ADE20K, object detection on Pascal VOC, and image classification on several common datasets. Exciting results illustrate that Mona surpasses full fine-tuning on all these tasks and is the only delta-tuning method outperforming full fine-tuning on instance segmentation and semantic segmentation tasks. For example, Mona achieves a 1% performance gain on the COCO dataset compared to full fine-tuning. Comprehensive results suggest that Mona-tuning is more suitable for retaining and utilizing the capabilities of pre-trained models than full fine-tuning. The code will be released at https://github.com/Leiyi-Hu/mona.
翻訳日:2023-12-01 19:52:26 公開日:2023-11-30
# 事前学習目標によるバックドアの効果的緩和

Effective Backdoor Mitigation Depends on the Pre-training Objective ( http://arxiv.org/abs/2311.14948v2 )

ライセンス: Link先を確認
Sahil Verma and Gantavya Bhatt and Avi Schwarzschild and Soumye Singhal and Arnav Mohanty Das and Chirag Shah and John P Dickerson and Jeff Bilmes(参考訳) 現代の機械学習(ML)モデルの高度な能力にもかかわらず、敵やバックドア攻撃に弱いままである。 この脆弱性は、重要なシナリオで予測不可能な振る舞いを示す可能性のある、妥協されたモデルが現実のデプロイメントに特に関係している。 このようなリスクは、大規模なインターネットソースのデータセットを収集して、マルチモーダルモデルの事前トレーニングを行うことによって高められる。 現在最先端のアプローチであるCleanCLIPなど、これらのモデルにおけるバックドアの効果を緩和する様々な手法が提案されている。 本研究では,バックドアの緩和におけるcleanclipの有効性が,モデル事前学習における特定の目的に大きく依存していることを示す。 我々は,より強固な事前学習目標とバックドアの動作の除去が難しいことに注目した。 我々は,300万 (cc3m) と600万 (cc6m) のデータポイントからなる2つの大規模データセットでマルチモーダルモデルをトレーニングし,さらにcleanclipを用いた毒物除去を行った。 広範囲なハイパーパラメータチューニングであっても、より強力な事前学習目標が使用される場合、CleanCLIPは効果がないことが判明した。 本研究は,大規模ウェブカレーションデータを用いた事前トレーニングモデルを構築し,バックドアの脅威を懸念するML実践者にとって重要な考察である。 特に,より単純な事前学習目標が,効果的なバックドア除去に適していることが示唆された。 この洞察は、より強い事前訓練目標とバックドア攻撃に対するセキュリティとのトレードオフのバランスを求める実践者にとって重要なものだ。

Despite the advanced capabilities of contemporary machine learning (ML) models, they remain vulnerable to adversarial and backdoor attacks. This vulnerability is particularly concerning in real-world deployments, where compromised models may exhibit unpredictable behavior in critical scenarios. Such risks are heightened by the prevalent practice of collecting massive, internet-sourced datasets for pre-training multimodal models, as these datasets may harbor backdoors. Various techniques have been proposed to mitigate the effects of backdooring in these models such as CleanCLIP which is the current state-of-the-art approach. In this work, we demonstrate that the efficacy of CleanCLIP in mitigating backdoors is highly dependent on the particular objective used during model pre-training. We observe that stronger pre-training objectives correlate with harder to remove backdoors behaviors. We show this by training multimodal models on two large datasets consisting of 3 million (CC3M) and 6 million (CC6M) datapoints, under various pre-training objectives, followed by poison removal using CleanCLIP. We find that CleanCLIP is ineffective when stronger pre-training objectives are used, even with extensive hyperparameter tuning. Our findings underscore critical considerations for ML practitioners who pre-train models using large-scale web-curated data and are concerned about potential backdoor threats. Notably, our results suggest that simpler pre-training objectives are more amenable to effective backdoor removal. This insight is pivotal for practitioners seeking to balance the trade-offs between using stronger pre-training objectives and security against backdoor attacks.
翻訳日:2023-12-01 19:51:58 公開日:2023-11-30
# 新しい領域のチャート化:マルチモーダルllmの地理的および地理空間的能力の探索

Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs ( http://arxiv.org/abs/2311.14656v2 )

ライセンス: Link先を確認
Jonathan Roberts, Timo L\"uddecke, Rehan Sheikh, Kai Han, Samuel Albanie(参考訳) マルチモーダル大規模言語モデル (MLLM) は幅広いタスクにおいて顕著な能力を示してきたが, ナビゲーション, 環境研究, 都市開発, 災害対応に対する幅広いメリットがあるにもかかわらず, 地理的・地理空間領域におけるその知識と能力はまだ検討されていない。 我々は,これらの領域におけるMLLMの様々な視覚能力,特にフロンティアモデル GPT-4V に着目した一連の実験を行い,その性能をオープンソースと比較した。 我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。 この分析は、そのようなモデルが優れている場所だけでなく、人間よりも優れている事例も明らかにし、地理的領域におけるそれらの能力のバランスのとれたビューを提供する。 将来のモデルの比較と評価を可能にするため,我々のベンチマークを公開する。

Multimodal large language models (MLLMs) have shown remarkable capabilities across a broad range of tasks but their knowledge and abilities in the geographic and geospatial domains are yet to be explored, despite potential wide-ranging benefits to navigation, environmental research, urban development, and disaster response. We conduct a series of experiments exploring various vision capabilities of MLLMs within these domains, particularly focusing on the frontier model GPT-4V, and benchmark its performance against open-source counterparts. Our methodology involves challenging these models with a small-scale geographic benchmark consisting of a suite of visual tasks, testing their abilities across a spectrum of complexity. The analysis uncovers not only where such models excel, including instances where they outperform humans, but also where they falter, providing a balanced view of their capabilities in the geographic domain. To enable the comparison and evaluation of future models, our benchmark will be publicly released.
翻訳日:2023-12-01 19:51:33 公開日:2023-11-30
# CatVersion: 拡散に基づくテキスト-画像パーソナライズのための埋め込みの統合

CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization ( http://arxiv.org/abs/2311.14631v2 )

ライセンス: Link先を確認
Ruoyu Zhao, Mingrui Zhu, Shiyin Dong, Nannan Wang, Xinbo Gao(参考訳) 少数の例を通してパーソナライズされた概念を学習するインバージョンベースの手法であるCatVersionを提案する。 その後、ユーザはテキストプロンプトを利用してパーソナライズされた概念を具現化した画像を生成し、テキストから画像へのパーソナライズを可能にする。 拡散モデルにおける単語埋め込み学習やパラメータの微調整を重要視する既存の手法とは対照的に,本手法は,拡散モデルにおけるテキストエンコーダの特徴密度空間への埋め込みを結合して,個人化概念と基本クラスとのギャップを学習し,拡散モデルにおける事前知識の保存を最大化し,パーソナライズされた概念を復元する。 この目的のために,まず画像生成プロセスにおけるテキストエンコーダの統合を解析し,エンコーダの特徴空間を同定する。 その後、私たちは、パーソナライズされた概念と基本クラスの間のギャップを学ぶために、この領域のキーと値に埋め込みを結合します。 このように、連結埋め込みは最終的に元の注意出力の残差として表される。 パーソナライズされた画像生成の結果をより正確かつ偏りなく定量化するために,マスクに基づくクリップ画像アライメントスコアを改善する。 CatVersionは質的かつ定量的に、パーソナライズの概念をより忠実に復元し、より堅牢な編集を可能にする。

We propose CatVersion, an inversion-based method that learns the personalized concept through a handful of examples. Subsequently, users can utilize text prompts to generate images that embody the personalized concept, thereby achieving text-to-image personalization. In contrast to existing approaches that emphasize word embedding learning or parameter fine-tuning for the diffusion model, which potentially causes concept dilution or overfitting, our method concatenates embeddings on the feature-dense space of the text encoder in the diffusion model to learn the gap between the personalized concept and its base class, aiming to maximize the preservation of prior knowledge in diffusion models while restoring the personalized concepts. To this end, we first dissect the text encoder's integration in the image generation process to identify the feature-dense space of the encoder. Afterward, we concatenate embeddings on the Keys and Values in this space to learn the gap between the personalized concept and its base class. In this way, the concatenated embeddings ultimately manifest as a residual on the original attention output. To more accurately and unbiasedly quantify the results of personalized image generation, we improve the CLIP image alignment score based on masks. Qualitatively and quantitatively, CatVersion helps to restore personalization concepts more faithfully and enables more robust editing.
翻訳日:2023-12-01 19:51:15 公開日:2023-11-30
# ECNR:時変ボリュームデータセットの効率的な圧縮的ニューラル表現

ECNR: Efficient Compressive Neural Representation of Time-Varying Volumetric Datasets ( http://arxiv.org/abs/2311.12831v2 )

ライセンス: Link先を確認
Kaiyuan Tang and Chaoli Wang(参考訳) 概念の単純さと汎用性から、圧縮的ニューラルネットワーク表現は、大規模なボリュームデータセットを管理する従来の圧縮方法に代わる有望な選択肢として現れてきた。 ニューラル圧縮の現在の実践は、単一の大きな多層パーセプトロン(MLP)を使用して、グローバルボリュームを符号化し、遅いトレーニングと推論をもたらす。 本稿では、ラプラシアンピラミッドを用いた適応信号整合法を用いて、時間変化データ圧縮のための効率的な圧縮ニューラル表現(ECNR)ソリューションを提案する。 マルチスケール構造に続き、各スケールで複数の小さなMLPを活用して、局所的な内容や残留ブロックを適合させる。 同様のブロックをサイズ均一化により同一のMLPに割り当てることで、MPP間のバランスの取れた並列化を可能にし、トレーニングと推論を大幅に高速化する。 マルチスケール構造と協調して、結果のモデルをコンパクト化するために、深い圧縮戦略を調整します。 本稿では、ECNRを複数のデータセットで比較し、最先端圧縮法(主にSZ3, TTHRESH, neurcomp)と比較する。 結果はecnrをボリュームデータ圧縮の有望な解として位置づける。

Due to its conceptual simplicity and generality, compressive neural representation has emerged as a promising alternative to traditional compression methods for managing massive volumetric datasets. The current practice of neural compression utilizes a single large multilayer perceptron (MLP) to encode the global volume, incurring slow training and inference. This paper presents an efficient compressive neural representation (ECNR) solution for time-varying data compression, utilizing the Laplacian pyramid for adaptive signal fitting. Following a multiscale structure, we leverage multiple small MLPs at each scale for fitting local content or residual blocks. By assigning similar blocks to the same MLP via size uniformization, we enable balanced parallelization among MLPs to significantly speed up training and inference. Working in concert with the multiscale structure, we tailor a deep compression strategy to compact the resulting model. We show the effectiveness of ECNR with multiple datasets and compare it with state-of-the-art compression methods (mainly SZ3, TTHRESH, and neurcomp). The results position ECNR as a promising solution for volumetric data compression.
翻訳日:2023-12-01 19:50:48 公開日:2023-11-30
# PSOに基づく高次元データのための実用的な対物生成法

A PSO Based Method to Generate Actionable Counterfactuals for High Dimensional Data ( http://arxiv.org/abs/2311.12825v2 )

ライセンス: Link先を確認
Shashank Shekhar, Asif Salim, Adesh Bansode, Vivaswan Jinturkar, Anirudha Nayak(参考訳) counterfactual descriptions (cfe) は、いくつかの最小限の変更でデータポイントの代替クラス予測を提供することで、機械学習モデルを説明する手法である。 これは、ユーザがローンやクレジットカードの拒否といった望ましくない予測を引き起こしたデータ属性を識別するのに役立つ。 本稿では,粒子群最適化(pso)に基づく効率的かつ実行可能なcf生成法について述べる。 本稿では,インスタンス中心cf生成問題の最適化のための簡易目的関数を提案する。 PSOは、大きな次元での多目的最適化の実行、複数のCF生成能力、データ属性のボックス制約や不変性の設定において、多くの柔軟性をもたらす。 これらの特徴を組み込んだアルゴリズムが提案され、生成されたCFの近接特性と疎性特性をより制御できる。 提案アルゴリズムは実世界のデータセットにおける行動能力指標を用いて評価され,その結果は最先端のデータセットよりも優れていた。

Counterfactual explanations (CFE) are methods that explain a machine learning model by giving an alternate class prediction of a data point with some minimal changes in its features. It helps the users to identify their data attributes that caused an undesirable prediction like a loan or credit card rejection. We describe an efficient and an actionable counterfactual (CF) generation method based on particle swarm optimization (PSO). We propose a simple objective function for the optimization of the instance-centric CF generation problem. The PSO brings in a lot of flexibility in terms of carrying out multi-objective optimization in large dimensions, capability for multiple CF generation, and setting box constraints or immutability of data attributes. An algorithm is proposed that incorporates these features and it enables greater control over the proximity and sparsity properties over the generated CFs. The proposed algorithm is evaluated with a set of action-ability metrics in real-world datasets, and the results were superior compared to that of the state-of-the-arts.
翻訳日:2023-12-01 19:50:32 公開日:2023-11-30
# 視覚場面分類における識別特徴のカスケード学習

Cascade Learning Localises Discriminant Features in Visual Scene Classification ( http://arxiv.org/abs/2311.12704v2 )

ライセンス: Link先を確認
Junwen Wang and Katayoun Farrahi(参考訳) 深層畳み込みニューラルネットワーク(DCNN)の解釈可能性の欠如は、特に臨床医が信頼できる自動決定を望んでいる医療分野においてよく知られた問題である。 信頼を改善する一つの方法は、専門的なラベル付き関心領域に対する特徴表現のローカライズを示すことである。 本研究では,2つの異なる学習パラダイムを通じて学習した特徴の局所化について検討し,その局所化に対する1つの学習アプローチの優位性を実証する。 従来のe2e(end-to-end)学習戦略では,複数のネットワーク層にまたがる識別的特徴のローカライズが制限されている。 階層的な学習戦略,すなわちカスケード学習(CL)がより局所的な特徴をもたらすことを示す。 ローカライゼーションの精度を考慮すると、CLがE2Eより優れているだけでなく、領域を予測するための有望な方法であることを示す。 YOLO オブジェクト検出フレームワークでは,CL が mAP において E2E スキームを 2 % 上回る性能を示した。

Lack of interpretability of deep convolutional neural networks (DCNN) is a well-known problem particularly in the medical domain as clinicians want trustworthy automated decisions. One way to improve trust is to demonstrate the localisation of feature representations with respect to expert labeled regions of interest. In this work, we investigate the localisation of features learned via two varied learning paradigms and demonstrate the superiority of one learning approach with respect to localisation. Our analysis on medical and natural datasets show that the traditional end-to-end (E2E) learning strategy has a limited ability to localise discriminative features across multiple network layers. We show that a layer-wise learning strategy, namely cascade learning (CL), results in more localised features. Considering localisation accuracy, we not only show that CL outperforms E2E but that it is a promising method of predicting regions. On the YOLO object detection framework, our best result shows that CL outperforms the E2E scheme by $2\%$ in mAP.
翻訳日:2023-12-01 19:50:16 公開日:2023-11-30
# JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models ( http://arxiv.org/abs/2311.05997v3 )

ライセンス: Link先を確認
Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang(参考訳) オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。 既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。 しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。 オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。 具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。 計画は最終的にゴールコンディショナーのコントローラに送られる。 JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。 JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。 これらのタスクは、短いホリゾンタスク(例えば「木を切り倒す」)から長いホリゾンタスク(例えば「ダイヤモンドピカックスを取得する」)まで様々である。 JARVIS-1は短時間の作業で非常によく機能し、ほぼ完璧な性能を実現している。 古典的な長期タスクである$\texttt{ObtainDiamondPickaxe}$では、JARVIS-1は現在の最先端エージェントの信頼性を5倍上回り、より水平で難しいタスクを完了させる。 プロジェクトページはhttps://craftjarvis.org/jarvis-1で閲覧できます。

Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. JARVIS-1 is the existing most general agent in Minecraft, capable of completing over 200 different tasks using control and observation space similar to humans. These tasks range from short-horizon tasks, e.g., "chopping trees" to long-horizon tasks, e.g., "obtaining a diamond pickaxe". JARVIS-1 performs exceptionally well in short-horizon tasks, achieving nearly perfect performance. In the classic long-term task of $\texttt{ObtainDiamondPickaxe}$, JARVIS-1 surpasses the reliability of current state-of-the-art agents by 5 times and can successfully complete longer-horizon and more challenging tasks. The project page is available at https://craftjarvis.org/JARVIS-1
翻訳日:2023-12-01 19:48:56 公開日:2023-11-30
# anytext:多言語視覚テキストの生成と編集

AnyText: Multilingual Visual Text Generation And Editing ( http://arxiv.org/abs/2311.03054v3 )

ライセンス: Link先を確認
Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie(参考訳) 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。 現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。 この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。 前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。 後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。 テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。 広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。 さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。 私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
翻訳日:2023-12-01 19:46:44 公開日:2023-11-30
# 視覚言語モデルの校正ロバスト微調整に向けて

Towards Calibrated Robust Fine-Tuning of Vision-Language Models ( http://arxiv.org/abs/2311.01723v3 )

ライセンス: Link先を確認
Changdae Oh, Mijoo Kim, Hyesu Lim, Junhyeok Park, Euiseog Jeong, Zhi-Qi Cheng, Kyungwoo Song(参考訳) 微調整は、特定のタスクのために事前訓練されたモデルの可能性を解き放つが、モデルがオフ・オブ・ディストリビューション(OOD)データセットに一般化する能力を損なう。 これを軽減するため、堅牢な微調整は、OODデータセットと、モデルがチューニングされている分散内データセットのパフォーマンスを保証することを目的としている。 しかし、信頼性機械学習(ML)の別の基準である信頼性校正は、実世界のハイテイクMLアプリケーション(例えば、自律運転と診断)への需要が増加しているにもかかわらず見過ごされている。 本稿では,特にOODデータセットにおいて,視覚言語モデル(VLM)のキャリブレーションに対する懸念を初めて高めるとともに,直感的な微調整や,最先端の頑健な微調整手法さえも,事前訓練されたVLMのキャリブレーションを損なうことを示して,分布シフト下での細調整の懸念を提起する。 この問題に対処するために、キャリブレーションされたロバスト微調整(CaRot)と呼ばれるシンプルなアプローチを提供し、IDとODデータセットの両方にキャリブレーションとロバスト性を動機付ける。 ImageNet-1K分布シフト評価実験の結果,本手法の有効性が検証された。

While fine-tuning unlocks the potential of a pre-trained model for a specific task, it compromises the model's ability to generalize to out-of-distribution (OOD) datasets. To mitigate this, robust fine-tuning aims to ensure performance on OOD datasets as well as on an in-distribution (ID) dataset for which the model is being tuned. However, another criterion for reliable machine learning (ML), confidence calibration, has been overlooked despite its increasing demand for real-world high-stakes ML applications (e.g., autonomous driving and medical diagnosis). For the first time, we raise concerns about the calibration of fine-tuned vision-language models (VLMs) under distribution shift by showing that naive fine-tuning and even state-of-the-art robust fine-tuning methods hurt the calibration of pre-trained VLMs, especially on OOD datasets. To address this issue, we provide a simple approach, called calibrated robust fine-tuning (CaRot), that incentivizes calibration and robustness on both ID and OOD datasets. Empirical results on ImageNet-1K distribution shift evaluation verify the effectiveness of our method.
翻訳日:2023-12-01 19:46:14 公開日:2023-11-30
# EXIM:テキストガイドによる3次元形状生成のためのハイブリッド明示型表現

EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2311.01714v2 )

ライセンス: Link先を確認
Zhengzhe Liu, Jingyu Hu, Ka-Hei Hui, Xiaojuan Qi, Daniel Cohen-Or, Chi-Wing Fu(参考訳) 本稿では,3次元形状生成のための新しいテキストガイド技術を提案する。 この技術は、明示的および暗黙的な表現の強さを組み合わせたハイブリッドな3D形状表現、すなわちEXIMを利用する。 具体的には、明示的なステージは生成された3d形状のトポロジーを制御し、局所的な修正を可能にする。 また、このハイブリッドアプローチでは、形状と色を分離し、形状と色彩の一貫性を確保するために形状を条件とした色を生成する。 既存の最先端手法とは違って、学習やテスト時間最適化において、時間を要する1つの形状の最適化や人間の注釈付きテキストへの依存を必要とせずに、自然言語記述から高忠実な形状を生成する。 さらに,テキスト入力による3次元形状を用いて,一貫したスタイルで室内シーンを生成する手法の適用性を示す。 広範な実験により, 既存の手法の性能をかなり上回って, 結果の説得力のある品質と, 生成した形状と入力テキストとの一貫性を実証した。 コードとモデルはhttps://github.com/liuzhengzhe/eximでリリースされている。

This paper presents a new text-guided technique for generating 3D shapes. The technique leverages a hybrid 3D shape representation, namely EXIM, combining the strengths of explicit and implicit representations. Specifically, the explicit stage controls the topology of the generated 3D shapes and enables local modifications, whereas the implicit stage refines the shape and paints it with plausible colors. Also, the hybrid approach separates the shape and color and generates color conditioned on shape to ensure shape-color consistency. Unlike the existing state-of-the-art methods, we achieve high-fidelity shape generation from natural-language descriptions without the need for time-consuming per-shape optimization or reliance on human-annotated texts during training or test-time optimization. Further, we demonstrate the applicability of our approach to generate indoor scenes with consistent styles using text-induced 3D shapes. Through extensive experiments, we demonstrate the compelling quality of our results and the high coherency of our generated shapes with the input texts, surpassing the performance of existing methods by a significant margin. Codes and models are released at https://github.com/liuzhengzhe/EXIM.
翻訳日:2023-12-01 19:45:42 公開日:2023-11-30
# STL4IoT:IoTシステム設計のためのステートチャートテンプレートライブラリ

STL4IoT: A Statechart Template Library for IoT System Design ( http://arxiv.org/abs/2311.18175v1 )

ライセンス: Link先を確認
Clyde Rempillo and Sadaf Mustafiz(参考訳) iotシステムのエンジニアリングは、このような異種システムに関連する固有の複雑さのために、さまざまな課題をもたらす。 本稿では,複雑なIoTシステムを設計するためのステートチャートテンプレートであるSTL4IoTのライブラリを提案する。 我々は,センサ,アクチュエータ,物理エンティティ,ネットワーク,コントローラなど,IoTシステムの異質な側面をモデル化する原子状態チャートコンポーネントを開発した。 スマートシステムのベースシステムユニットも設計されている。 電力使用量を計算するためのコンポーネントがライブラリで利用可能である。 さらに、複数のIoTシステム間のインタラクションを制御し、消費電力を管理するスマートハブテンプレートも提案されている。 テンプレートの目的は、iotシステムのモデリングとシミュレーションを容易にすることだ。 私たちの仕事は、照明のスマートハブ、スマート電子レンジ、スマートテレビ、スマート火災アラームシステムからなるスマートホームシステムで実証されています。 提案するテンプレートとコンポーネントに基づいてitemisが生成するマルチステートチャートを作成しました。 スマートホームシミュレータは、statechartからコントローラコードを生成し、ユーザインターフェースと統合することで開発されている。

The engineering of IoT systems brings about various challenges due to the inherent complexities associated with such heterogeneous systems. In this paper, we propose a library of statechart templates, STL4IoT, for designing complex IoT systems. We have developed atomic statechart components modelling the heterogeneous aspects of IoT systems including sensors, actuators, physical entities, network, and controller. Base system units for smart systems have also been designed. A component for calculating power usage is available in the library. Additionally, a smart hub template that controls interactions among multiple IoT systems and manages power consumption has also been proposed. The templates aim to facilitate the modelling and simulation of IoT systems. Our work is demonstrated with a smart home system consisting of a smart hub of lights, a smart microwave, a smart TV, and a smart fire alarm system. We have created a multi statechart with itemis CREATE based on the proposed templates and components. A smart home simulator has been developed by generating controller code from the statechart and integrating it with a user interface.
翻訳日:2023-12-01 18:31:45 公開日:2023-11-30
# packrat:cpuベースのdnnサービスにおける遅延最小化のための自動再構成

Packrat: Automatic Reconfiguration for Latency Minimization in CPU-based DNN Serving ( http://arxiv.org/abs/2311.18174v1 )

ライセンス: Link先を確認
Ankit Bhardwaj, Amar Phanishayee, Deepak Narayanan, Mihail Tarta, Ryan Stutsman(参考訳) 本稿では,CPUベースサーバ上でのDeep Neural Network(DNN)モデルの性能限界について検討する。 具体的には、複数のスレッドにまたがるオペレータ内並列処理は、推論遅延を減らす効果的な方法であるが、リターンを減少させる。 一番の洞察は、サーバ上で利用可能なすべてのスレッドでモデルの単一インスタンスを実行する代わりに、バッチサイズが小さく、オプト内並列性のためのスレッドが少ない複数のインスタンスを実行することで、推論レイテンシが低くなります。 しかし、適切な設定は、ワークロード(DNNモデルとサービスシステムで使用されるバッチサイズ)とデプロイメント依存(サーバ上のCPUコアの数)であるため、手動で決定するのは難しい。 Packratは、モデルとバッチサイズ(B$)がアルゴリズムによって最適なインスタンス数(i$)、各スレッドの割り当て数(t$)、各バッチサイズ(b$)で実行するべきレイテンシを最小化するオンライン推論用の新しいサービスシステムである。 PackratはTorchServeの拡張として構築されており、ダウンタイムの提供を避けるためにオンライン再構成をサポートする。 Packratは、バッチサイズによって平均化され、一般的に使用されるDNNの範囲で、推論遅延を1.43$\times$から1.83$\times$に改善する。

In this paper, we investigate how to push the performance limits of serving Deep Neural Network (DNN) models on CPU-based servers. Specifically, we observe that while intra-operator parallelism across multiple threads is an effective way to reduce inference latency, it provides diminishing returns. Our primary insight is that instead of running a single instance of a model with all available threads on a server, running multiple instances each with smaller batch sizes and fewer threads for intra-op parallelism can provide lower inference latency. However, the right configuration is hard to determine manually since it is workload- (DNN model and batch size used by the serving system) and deployment-dependent (number of CPU cores on server). We present Packrat, a new serving system for online inference that given a model and batch size ($B$) algorithmically picks the optimal number of instances ($i$), the number of threads each should be allocated ($t$), and the batch sizes each should operate on ($b$) that minimizes latency. Packrat is built as an extension to TorchServe and supports online reconfigurations to avoid serving downtime. Averaged across a range of batch sizes, Packrat improves inference latency by 1.43$\times$ to 1.83$\times$ on a range of commonly used DNNs.
翻訳日:2023-12-01 18:31:31 公開日:2023-11-30
# 弱教師付きインスタンスセグメンテーションを用いた単免疫性心筋スライスにおける心筋毛細血管の定量化

Quantification of cardiac capillarization in single-immunostained myocardial slices using weakly supervised instance segmentation ( http://arxiv.org/abs/2311.18173v1 )

ライセンス: Link先を確認
Zhao Zhang, Xiwen Chen, William Richardson, Bruce Z. Gao, Abolfazl Razi, Tong Ye(参考訳) 心筋毛細血管密度の低下は様々な心疾患に伴う重要な病理組織学的特徴として報告されている。 心臓キャピラリゼーションの定量的評価は、心筋スライスにおける心筋細胞(CM)と毛細血管の二重免疫染色が一般的である。 対照的に、基底膜成分の単一免疫染色はCMと毛細血管を同時にラベル付けする簡単なアプローチであり、背景染色の課題が少ない。 しかし、その後の画像解析は常にCMとキャピラリーの識別と分割に手作業を必要とする。 そこで我々は,心筋の基底膜タンパク質であるコラーゲンIV型の免疫蛍光画像において,CMと毛細管を自動的に識別し,分離する画像解析ツールAutoQCを開発した。 さらに、一般的に使用される毛細血管関連測定は、セグメンテーションマスクから得られる。 AutoQCは、プロンプトエンジニアリングを通じて事前訓練されたセグメンテーションモデルのパワーを活用することで、弱教師付きインスタンスセグメンテーションアルゴリズムを備えている。 AutoQCは、インスタンスセグメンテーションとキャピラライゼーションアセスメントの両方において、最先端のインスタンスセグメンテーションモデルであるYOLOv8-Segを上回った。 さらに、AutoQCのトレーニングでは、ピクセル単位のアノテーションの代わりにバウンディングボックスアノテーションを持つ小さなデータセットのみが必要となり、ネットワークトレーニング時のワークロードの削減につながった。 AutoQCは、地下膜免疫性心筋スライスにおける心臓の毛細血管化を定量化する自動化ソリューションを提供する。

Decreased myocardial capillary density has been reported as an important histopathological feature associated with various heart disorders. Quantitative assessment of cardiac capillarization typically involves double immunostaining of cardiomyocytes (CMs) and capillaries in myocardial slices. In contrast, single immunostaining of basement membrane components is a straightforward approach to simultaneously label CMs and capillaries, presenting fewer challenges in background staining. However, subsequent image analysis always requires manual work in identifying and segmenting CMs and capillaries. Here, we developed an image analysis tool, AutoQC, to automatically identify and segment CMs and capillaries in immunofluorescence images of collagen type IV, a predominant basement membrane protein within the myocardium. In addition, commonly used capillarization-related measurements can be derived from segmentation masks. AutoQC features a weakly supervised instance segmentation algorithm by leveraging the power of a pre-trained segmentation model via prompt engineering. AutoQC outperformed YOLOv8-Seg, a state-of-the-art instance segmentation model, in both instance segmentation and capillarization assessment. Furthermore, the training of AutoQC required only a small dataset with bounding box annotations instead of pixel-wise annotations, leading to a reduced workload during network training. AutoQC provides an automated solution for quantifying cardiac capillarization in basement-membrane-immunostained myocardial slices, eliminating the need for manual image analysis once it is trained.
翻訳日:2023-12-01 18:31:02 公開日:2023-11-30
# 前処理による無条件量子コミットメント

Unconditionally secure quantum commitments with preprocessing ( http://arxiv.org/abs/2311.18171v1 )

ライセンス: Link先を確認
Luowen Qian(参考訳) 複雑性の仮定を証明せずに量子補助入力を用いて計算的にセキュアなコミットメントスキームを構築する方法を示す。 さらに、量子補助入力は、(1)古典的共通乱数列モデルに似た信頼された設定で効率的に作成するか、(2)一様指数時間における2つの関係者の厳密な関係によって作成することができる。 古典的には、これはまず$\mathsf{p} \neq \mathsf{np}$ を証明せずには不可能である。

We demonstrate how to build computationally secure commitment schemes with the aid of quantum auxiliary inputs without unproven complexity assumptions. Furthermore, the quantum auxiliary input can be prepared either (1) efficiently through a trusted setup similar to the classical common random string model, or (2) strictly between the two involved parties in uniform exponential time. Classically this remains impossible without first proving $\mathsf{P} \neq \mathsf{NP}$.
翻訳日:2023-12-01 18:30:35 公開日:2023-11-30
# スタイル適応とコンテンツ保存による少数撮影画像生成

Few-shot Image Generation via Style Adaptation and Content Preservation ( http://arxiv.org/abs/2311.18169v1 )

ライセンス: Link先を確認
Xiaosheng He, Fan Yang, Fayao Liu, Guosheng Lin(参考訳) 限られたデータ(例えば10)で生成モデルをトレーニングするのは、非常に難しい作業です。 多くの研究が事前訓練されたGANモデルを微調整することを提案している。 しかし、これは簡単に過度に適合する。 ここで \textit{style} はドメインを定義する特定のプロパティを表し、 \textit{content} は多様性を表すドメインに依存しない情報を表す。 最近の作品は、コンテンツを保存するために事前定義された対応を維持しようとするが、多様性はまだ不十分であり、スタイル適応に影響を与える可能性がある。 本研究では,コンテンツ保存のためのペア画像再構成手法を提案する。 我々はganトランスファーに画像翻訳モジュールを導入することを提案する。このモジュールはジェネレータにスタイルとコンテンツの分離を教え、ジェネレータは変換モジュールにトレーニングデータを提供する。 質的かつ定量的な実験により,本手法は少数のショット設定において最先端の手法を一貫して超越していることが示された。

Training a generative model with limited data (e.g., 10) is a very challenging task. Many works propose to fine-tune a pre-trained GAN model. However, this can easily result in overfitting. In other words, they manage to adapt the style but fail to preserve the content, where \textit{style} denotes the specific properties that defines a domain while \textit{content} denotes the domain-irrelevant information that represents diversity. Recent works try to maintain a pre-defined correspondence to preserve the content, however, the diversity is still not enough and it may affect style adaptation. In this work, we propose a paired image reconstruction approach for content preservation. We propose to introduce an image translation module to GAN transferring, where the module teaches the generator to separate style and content, and the generator provides training data to the translation module in return. Qualitative and quantitative experiments show that our method consistently surpasses the state-of-the-art methods in few shot setting.
翻訳日:2023-12-01 18:30:27 公開日:2023-11-30
# 確率的音声駆動3次元顔運動合成:新しいベンチマーク,方法,応用

Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks, Methods, and Applications ( http://arxiv.org/abs/2311.18168v1 )

ライセンス: Link先を確認
Karren D. Yang, Anurag Ranjan, Jen-Hao Rick Chang, Raviteja Vemulapalli, Oncel Tuzel(参考訳) 音声信号から3次元顔形状をアニメーション化する作業について検討する。 既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。 これらのモデルは、訓練セットにおける話者の高品質な口唇調音を実現することができるが、現実世界における発話に伴う3d顔の動きの完全かつ多様な分布を捉えることはできない。 重要なことは、音声と顔の動きの関係は1対多であり、話者間と話者内の両方のバリエーションを含み、確率論的アプローチを必要とすることである。 本稿では,確率モデルの開発をこれまで制限してきた課題,すなわち,学習や評価に適したデータセットやメトリクスの欠如や,音声として強い条件付け信号に忠実なまま多様な結果を生成するモデルの設計が困難であることを特定し,対処する。 まず,確率モデリングに適した大規模ベンチマークデータセットとメトリクスを提案する。 そこで,本研究では,言語に対する多様性と忠実度を両立させる確率論的モデルを提案する。 最後に,これら大規模データセットでトレーニングされた確率モデルの有用な応用例を示す。我々は,参照クリップから抽出した未認識の話者スタイルにマッチする多様な音声駆動3次元顔動作を生成できる。

We consider the task of animating 3D facial geometry from speech signal. Existing works are primarily deterministic, focusing on learning a one-to-one mapping from speech signal to 3D face meshes on small datasets with limited speakers. While these models can achieve high-quality lip articulation for speakers in the training set, they are unable to capture the full and diverse distribution of 3D facial motions that accompany speech in the real world. Importantly, the relationship between speech and facial motion is one-to-many, containing both inter-speaker and intra-speaker variations and necessitating a probabilistic approach. In this paper, we identify and address key challenges that have so far limited the development of probabilistic models: lack of datasets and metrics that are suitable for training and evaluating them, as well as the difficulty of designing a model that generates diverse results while remaining faithful to a strong conditioning signal as speech. We first propose large-scale benchmark datasets and metrics suitable for probabilistic modeling. Then, we demonstrate a probabilistic model that achieves both diversity and fidelity to speech, outperforming other methods across the proposed benchmarks. Finally, we showcase useful applications of probabilistic models trained on these large-scale datasets: we can generate diverse speech-driven 3D facial motion that matches unseen speaker styles extracted from reference clips; and our synthetic meshes can be used to improve the performance of downstream audio-visual models.
翻訳日:2023-12-01 18:30:11 公開日:2023-11-30
# A-Scan2BIM:情報モデリング構築支援スキャン

A-Scan2BIM: Assistive Scan to Building Information Modeling ( http://arxiv.org/abs/2311.18166v1 )

ライセンス: Link先を確認
Weilian Song, Jieliang Luo, Dale Zhao, Yan Fu, Chin-Yi Cheng, Yasutaka Furukawa(参考訳) 本稿では,大規模クラウドをビルディングインフォメーション・モデリング(BIM)アプリケーションのためのビルディングの標準化されたデジタル表現に変換するアーキテクト支援システムを提案する。 このプロセスはScan-to-BIMと呼ばれ、プロの建築家による1つの建物のフロアでも何時間も手作業を必要とする。 この論文は、Scan-to-BIMプロセスを置き換えるのではなく、アーキテクトを支援することに焦点を当てている。 具体的には、センサデータを取得し、履歴(現在のBIMモデルを含む)を編集し、プロのBIMソフトウェア(Autodesk Revit)のAPIとしてモデル編集操作の順序を自動回帰予測する支援システムScan-to-BIMを提案する。 また,Autodesk RevitのAPIとして,一連のモデル編集操作を含む,最初のビルディングスケールScan2BIMデータセットを提案する。 89時間のscan2bimモデリングプロセスが16シーン以上あり、35,000m^2を超える。 そこで本研究では,本システムの再構築品質を標準指標として報告し,再構築作業の順序がどの程度自然であるかを測定する新しい指標を提案する。 再構成モジュールの簡単な修正は性能の向上に役立ち,本手法は他の2つの基準よりもはるかに優れている。 データ、コード、モデルはa-scan2bim.github.ioでリリースします。

This paper proposes an assistive system for architects that converts a large-scale point cloud into a standardized digital representation of a building for Building Information Modeling (BIM) applications. The process is known as Scan-to-BIM, which requires many hours of manual work even for a single building floor by a professional architect. Given its challenging nature, the paper focuses on helping architects on the Scan-to-BIM process, instead of replacing them. Concretely, we propose an assistive Scan-to-BIM system that takes the raw sensor data and edit history (including the current BIM model), then auto-regressively predicts a sequence of model editing operations as APIs of a professional BIM software (i.e., Autodesk Revit). The paper also presents the first building-scale Scan2BIM dataset that contains a sequence of model editing operations as the APIs of Autodesk Revit. The dataset contains 89 hours of Scan2BIM modeling processes by professional architects over 16 scenes, spanning over 35,000 m^2. We report our system's reconstruction quality with standard metrics, and we introduce a novel metric that measures how natural the order of reconstructed operations is. A simple modification to the reconstruction module helps improve performance, and our method is far superior to two other baselines in the order metric. We will release data, code, and models at a-scan2bim.github.io.
翻訳日:2023-12-01 18:29:31 公開日:2023-11-30
# 機械学習導出型絡み合いウィットネスのための学習データサイズの指数的削減

An Exponential Reduction in Training Data Sizes for Machine Learning Derived Entanglement Witnesses ( http://arxiv.org/abs/2311.18162v1 )

ライセンス: Link先を確認
Aiden R. Rosebush, Alexander C. B. Greenwood, Brian T. Kirby, Li Qian(参考訳) 本研究では,3,4,5量子ビットシステムの絡み合い証人を生成するために,線形支持ベクトルマシン(svm)を訓練する改良手法を提案する。 SVMは局所可観測体の期待値の重み付けされた和で表される超平面を生成し、その係数はすべての分離可能な状態に対して正の和と、特定の目標状態の近くで可能な限り多くの絡み合った状態に対して負の和を与えるように最適化される。 一般化パウリ行列の固有状態を訓練データとして使用し, 目撃者を微分プログラムで補正する。 この方法はo(6^n)$トレーニング状態のみを必要とするが、既存の方法はo(2^{4^n})$である。 この方法では、4量子ビットと5量子ビットのghz状態の証人を、それぞれ6.5%と1%の範囲で安定形式に一致する係数で構成する。 また、同じトレーニングステートを使用して、4および5キュービットのW状態証人を生成します。 最後に,これらの証人の物理的および計算的検証手法を提案する。

In this work, we propose an improved method of training linear support vector machines (SVMs) to generate entanglement witnesses for systems of 3, 4, and 5 qubits. SVMs generate hyperplanes represented by a weighted sum of expectation values of local observables, whose coefficients are optimized to provide a positive sum for all separable states and a negative sum for as many entangled states as possible near a specific target state. We use the eigenstates of generalized Pauli matrices as training data, and correct the witnesses with a differential program. This method requires only $ O(6^n)$ training states, whereas an existing method needs$ O(2^{4^n})$. We use this method to construct witnesses of 4 and 5 qubit GHZ states with coefficients agreeing with stabilizer formalism witnesses to within 6.5 percent and 1 percent, respectively. We also use the same training states to generate 4 and 5 qubit W state witnesses. Finally, we propose methods for physical and computational verification of these witnesses.
翻訳日:2023-12-01 18:28:51 公開日:2023-11-30
# 可変結合および可変量子ビットによる超電導量子チップのクロストーク抑制とデコヒーレンス

A Compilation Scheme for Suppressing Crosstalk and Decoherence in Superconducting Quantum Chips with Tunable Coupling and Tunable Qubits ( http://arxiv.org/abs/2311.18160v1 )

ライセンス: Link先を確認
Bin-han Lu, Yu-chun Wu, Peng Wang, Guo-ping Guo(参考訳) 量子コンピューティングはクロストークやデコヒーレンスなどの課題に直面し、量子アルゴリズムの性能と信頼性を低下させる。 クロストークは、並列に操作された場合のキュービット間の不要な相互作用であり、デコヒーレンスは、環境との相互作用による量子コヒーレンス損失である。 クロストークとデコヒーレンスの両方は、量子コンピューティングの基本的な操作である量子ゲートの忠実度を低減することができる。 本稿では,量子コンピューティングにおけるクロストーク緩和とデコヒーレンス抑制のための最適化量子ビットマッピングとゲートスケジューリングスキームを提案する。 提案手法は,(1)クロストークとデコヒーレンスノイズに応じてキュービットマッピングスキームを選択すること,(2)グラフ理論における最大独立セット問題を用いてゲートタイミングを最適化すること,の2段階からなる。 提案手法は, adiabatic gate system と tunable coupler と tunable qubit systems の両方においてクロストークを遮断できるパルス補償手法に基づいている。 本手法をtunnabl qubit tunnable couplerシステム上で評価し,量子アルゴリズムの実行の忠実性を大幅に向上できることを示す。 既存のクロストーク対応のコンパイル方式と比較すると,クロストークを抑圧しながらデコヒーレンスノイズを効果的に低減できる。 さらに,本手法は回路サイズに関して多項式アルゴリズムの複雑性を有する。

Quantum computing faces challenges such as crosstalk and decoherence, which degrade the performance and reliability of quantum algorithms. Crosstalk is the unwanted interaction between qubits when they are operated in parallel, and decoherence is the loss of quantum coherence due to the interaction with the environment. Both crosstalk and decoherence can reduce the fidelity of quantum gates, which are the basic operations in quantum computing. In this paper, we propose an optimized qubit mapping and gate scheduling scheme for crosstalk mitigation and decoherence suppression in quantum computing. Our scheme consists of two steps: (1) selecting the qubit mapping scheme according to the crosstalk and decoherence noise, and (2) optimizing the gate timing using the maximum independent set problem in graph theory. Our scheme is based on a pulse compensation technique that can cut off the crosstalk in both adiabatic gate systems and tunable coupler and tunable qubit systems. We evaluate our scheme on tunnabl qubit tunnable coupler system and show that it can significantly improve the fidelity of quantum algorithm execution. Compared with the existing crosstalk-aware compilation schemes, our scheme can more effectively reduce the decoherence noise while suppressing crosstalk. Moreover, our scheme has a polynomial algorithm complexity with respect to the circuit size.
翻訳日:2023-12-01 18:28:22 公開日:2023-11-30
# Compact3D:ベクトル量子化によるガウスプレート放射場モデル圧縮

Compact3D: Compressing Gaussian Splat Radiance Field Models with Vector Quantization ( http://arxiv.org/abs/2311.18159v1 )

ライセンス: Link先を確認
KL Navaneet, Kossar Pourahmadi Meibodi, Soroush Abbasi Koohpayegani, Hamed Pirsiavash(参考訳) 3D Gaussian Splattingは,SOTA NeRF法よりも高速な学習とレンダリングを実現する3Dラディアンスフィールドのモデリングとレンダリングのための新しい手法である。 しかし、複数の3Dガウスのパラメータを格納する必要があるため、NeRF法に比べてはるかに大きなストレージ需要の欠点がある。 そこで我々は, ガウスのパラメータを量子化するために, \kmeans アルゴリズムに基づく単純なベクトル量子化法を導入する。 そして、各ガウスのコードのインデックスとともに、小さなコードブックを格納します。 さらに、インデックスをソートし、ラン長符号化に似た方法を用いてさらに圧縮する。 私たちは、標準ベンチマークよりも桁違いに大きい新しいベンチマークだけでなく、標準ベンチマークに関する広範囲な実験を行います。 提案手法は,従来の3次元ガウス散乱法の保存コストを,レンダリング画像の品質が極めて低い約20\times$で削減できることを示す。

3D Gaussian Splatting is a new method for modeling and rendering 3D radiance fields that achieves much faster learning and rendering time compared to SOTA NeRF methods. However, it comes with a drawback in the much larger storage demand compared to NeRF methods since it needs to store the parameters for several 3D Gaussians. We notice that many Gaussians may share similar parameters, so we introduce a simple vector quantization method based on \kmeans algorithm to quantize the Gaussian parameters. Then, we store the small codebook along with the index of the code for each Gaussian. Moreover, we compress the indices further by sorting them and using a method similar to run-length encoding. We do extensive experiments on standard benchmarks as well as a new benchmark which is an order of magnitude larger than the standard benchmarks. We show that our simple yet effective method can reduce the storage cost for the original 3D Gaussian Splatting method by a factor of almost $20\times$ with a very small drop in the quality of rendered images.
翻訳日:2023-12-01 18:27:20 公開日:2023-11-30
# HiPA: 高周波プロモーター適応によるワンステップテキスト・画像拡散モデルの実現

HiPA: Enabling One-Step Text-to-Image Diffusion Models via High-Frequency-Promoting Adaptation ( http://arxiv.org/abs/2311.18158v1 )

ライセンス: Link先を確認
Yifan Zhang, Bryan Hooi(参考訳) 拡散モデルはテキストから画像生成に革命をもたらしたが、現実の応用は数百の拡散ステップに必要な膨大な時間によって妨げられている。 拡散サンプリングを2~8ステップに高速化するプログレッシブ蒸留法が提案されているが、それでも1ステップで不足しており、パラメータが強く時間を要する複数の学生モデルを訓練する必要がある。 これらの制限を克服するために、一段階のテキスト・画像拡散を可能にするパラメータ効率の高い手法であるHiPA(High- frequency-Promoting Adaptation)を導入する。 高周波情報は1段階拡散において不可欠であるが、非常に欠如しているという知見に基づいて、HIPAは高度拡散モデルの低頻度高周波能力を強化するためのワンステップ低ランク適応器の訓練に重点を置いている。 学習したアダプタは、これらの拡散モデルに1ステップで高品質な画像を生成する権限を与えます。 プログレッシブ蒸留と比較すると、HiPAは1段階のテキスト画像生成(MS-COCO 2017のFID-5kで37.3ドル\rightarrow$23.8)と28.6倍のトレーニングスピードアップ(108.8ドル\rightarrow$3.8A100 GPU日)で、0.04%のトレーニングパラメータ(7,740万$\rightarrow$3.3M)しか必要としない。 また, テキスト誘導画像編集, 塗装, 超解像度タスクにおけるHiPAの有効性を示す。 ソースコードはリリースされます。

Diffusion models have revolutionized text-to-image generation, but their real-world applications are hampered by the extensive time needed for hundreds of diffusion steps. Although progressive distillation has been proposed to speed up diffusion sampling to 2-8 steps, it still falls short in one-step generation, and necessitates training multiple student models, which is highly parameter-extensive and time-consuming. To overcome these limitations, we introduce High-frequency-Promoting Adaptation (HiPA), a parameter-efficient approach to enable one-step text-to-image diffusion. Grounded in the insight that high-frequency information is essential but highly lacking in one-step diffusion, HiPA focuses on training one-step, low-rank adaptors to specifically enhance the under-represented high-frequency abilities of advanced diffusion models. The learned adaptors empower these diffusion models to generate high-quality images in just a single step. Compared with progressive distillation, HiPA achieves much better performance in one-step text-to-image generation (37.3 $\rightarrow$ 23.8 in FID-5k on MS-COCO 2017) and 28.6x training speed-up (108.8 $\rightarrow$ 3.8 A100 GPU days), requiring only 0.04% training parameters (7,740 million $\rightarrow$ 3.3 million). We also demonstrate HiPA's effectiveness in text-guided image editing, inpainting and super-resolution tasks, where our adapted models consistently deliver high-quality outputs in just one diffusion step. The source code will be released.
翻訳日:2023-12-01 18:26:54 公開日:2023-11-30
# SMaRt: スコアマッチング規則によるGANの改善

SMaRt: Improving GANs with Score Matching Regularity ( http://arxiv.org/abs/2311.18208v1 )

ライセンス: Link先を確認
Mengfei Xia, Yujun Shen, Ceyuan Yang, Ran Yi, Wenping Wang, Yong-jin Liu(参考訳) 生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。 本研究では, GANの数学的基礎を再考し, GAN訓練におけるネイティブ逆数損失は実データ多様体から外れた生成データ多様体の正のルベーグ測度を持つ部分集合の問題を修正するには不十分であることを理論的に明らかにする。 代わりに、スコアマッチングは、生成したデータポイントを実データ多様体に向けて持続的にプッシュする能力のおかげで、この問題に対する有効な解決策であることがわかった。 そこで我々は,スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。 実験的な証拠については,まず,実データ分布をより正確に再現できることを示し,その上で,近似スコア関数として機能する事前学習拡散モデルを用いて,実世界のデータセット上での各種最先端GANの合成性能を一貫して向上させることができることを示す。 例えば、ImageNet 64x64データセットでAuroraをトレーニングする場合、ワンステップ一貫性モデルのパフォーマンスと同等に、FIDを8.87から7.11に改善します。 ソースコードは公開される予定だ。

Generative adversarial networks (GANs) usually struggle in learning from highly diverse data, whose underlying manifold is complex. In this work, we revisit the mathematical foundations of GANs, and theoretically reveal that the native adversarial loss for GAN training is insufficient to fix the problem of subsets with positive Lebesgue measure of the generated data manifold lying out of the real data manifold. Instead, we find that score matching serves as a valid solution to this issue thanks to its capability of persistently pushing the generated data points towards the real data manifold. We thereby propose to improve the optimization of GANs with score matching regularity (SMaRt). Regarding the empirical evidences, we first design a toy example to show that training GANs by the aid of a ground-truth score function can help reproduce the real data distribution more accurately, and then confirm that our approach can consistently boost the synthesis performance of various state-of-the-art GANs on real-world datasets with pre-trained diffusion models acting as the approximate score function. For instance, when training Aurora on the ImageNet 64x64 dataset, we manage to improve FID from 8.87 to 7.11, on par with the performance of one-step consistency model. The source code will be made public.
翻訳日:2023-12-01 18:18:45 公開日:2023-11-30
# オフ・ポリティイ・アセスメントのリスク・リターントレードオフの評価とベンチマークに向けて

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation ( http://arxiv.org/abs/2311.18207v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito(参考訳) Off-Policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの有効性を評価することを目的としており、オンラインA/Bテストにデプロイする上で、最も有望なポリシを特定するためにしばしば使用される。 OPE推定器の既存の評価指標は、主にOPEの「正確性」や下流政策の選択に焦点を当て、その後のオンライン政策展開におけるリスク・リターンのトレードオフを無視している。 この問題に対処するため、我々は金融におけるポートフォリオ評価からインスピレーションを得て、さまざまなオンライン評価予算(k)の下でOPE推定器によって形成される政策ポートフォリオのリスク・リターントレードオフを測定するSharpeRatio@kという新しい指標を開発した。 提案手法を2つのシナリオで検証し,リスクの低い推定器とリスクの高い推定器を効果的に識別し,最も効率的な推定器を正確に同定する能力を示す。 この効率的な推定器は、最も有利なポリシーポートフォリオを形成し、リターンを最大化し、オンラインデプロイメント中のリスクを最小限にする能力によって特徴付けられる。 SharpeRatio@kによるOPEの迅速かつ正確かつ一貫した評価を容易にするため,この指標をオープンソースソフトウェアであるSCOPE-RLに統合した。 SharpeRatio@k と SCOPE-RL を用いて,様々な推定器と RL タスクの総合的なベンチマーク実験を行い,リスク-リターントレードオフに着目した。 これらの実験は、将来のOPE研究にいくつかの興味深い方向と提案を提供する。

Off-Policy Evaluation (OPE) aims to assess the effectiveness of counterfactual policies using only offline logged data and is often used to identify the top-k promising policies for deployment in online A/B tests. Existing evaluation metrics for OPE estimators primarily focus on the "accuracy" of OPE or that of downstream policy selection, neglecting risk-return tradeoff in the subsequent online policy deployment. To address this issue, we draw inspiration from portfolio evaluation in finance and develop a new metric, called SharpeRatio@k, which measures the risk-return tradeoff of policy portfolios formed by an OPE estimator under varying online evaluation budgets (k). We validate our metric in two example scenarios, demonstrating its ability to effectively distinguish between low-risk and high-risk estimators and to accurately identify the most efficient estimator. This efficient estimator is characterized by its capability to form the most advantageous policy portfolios, maximizing returns while minimizing risks during online deployment, a nuance that existing metrics typically overlook. To facilitate a quick, accurate, and consistent evaluation of OPE via SharpeRatio@k, we have also integrated this metric into an open-source software, SCOPE-RL. Employing SharpeRatio@k and SCOPE-RL, we conduct comprehensive benchmarking experiments on various estimators and RL tasks, focusing on their risk-return tradeoff. These experiments offer several interesting directions and suggestions for future OPE research.
翻訳日:2023-12-01 18:18:19 公開日:2023-11-30
# SCOPE-RL: オフライン強化学習とオフライン評価のためのPythonライブラリ

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation ( http://arxiv.org/abs/2311.18206v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito(参考訳) 本稿では、オフライン強化学習(オフラインRL)、オフ政治評価(OPE)、選択(OPS)のために設計されたオープンソースPythonソフトウェアSCOPE-RLを紹介する。 ポリシー学習や評価にのみフォーカスする既存のライブラリとは異なり、SCOPE-RLはこれらの2つの重要な側面をシームレスに統合し、オフラインのRLプロセスとOPEプロセスの両方の柔軟で完全な実装を容易にします。 SCOPE-RLはOPEモジュールに特に重点を置いており、様々なOPE推定器と堅牢なOPEプロトコルを提供している。 このアプローチは、他のパッケージよりも奥深く、信頼性の高いOPEを可能にします。 例えば scope-rl は、単なるポイント単位での期待値ではなく、ポリシーの下での報酬分布全体を見積もることで ope を強化する。 さらに、SCOPE-RLは、OPE結果のリスク・リターントレードオフを提示し、既存のOPE文献の単なる精度評価を超えて、より徹底的なOPEの評価を提供する。 SCOPE-RLはユーザアクセシビリティを念頭に設計されている。 ユーザフレンドリなAPI、包括的なドキュメント、そしてさまざまな簡単に追跡できる例は、研究者や実践者が、特定の問題コンテキストに合わせて、さまざまなオフラインRLメソッドやOPE推定器を効率的に実装し、実験するのに役立つ。 scope-rlのドキュメントはhttps://scope-rl.readthedocs.io/en/latest/で入手できる。

This paper introduces SCOPE-RL, a comprehensive open-source Python software designed for offline reinforcement learning (offline RL), off-policy evaluation (OPE), and selection (OPS). Unlike most existing libraries that focus solely on either policy learning or evaluation, SCOPE-RL seamlessly integrates these two key aspects, facilitating flexible and complete implementations of both offline RL and OPE processes. SCOPE-RL put particular emphasis on its OPE modules, offering a range of OPE estimators and robust evaluation-of-OPE protocols. This approach enables more in-depth and reliable OPE compared to other packages. For instance, SCOPE-RL enhances OPE by estimating the entire reward distribution under a policy rather than its mere point-wise expected value. Additionally, SCOPE-RL provides a more thorough evaluation-of-OPE by presenting the risk-return tradeoff in OPE results, extending beyond mere accuracy evaluations in existing OPE literature. SCOPE-RL is designed with user accessibility in mind. Its user-friendly APIs, comprehensive documentation, and a variety of easy-to-follow examples assist researchers and practitioners in efficiently implementing and experimenting with various offline RL methods and OPE estimators, tailored to their specific problem contexts. The documentation of SCOPE-RL is available at https://scope-rl.readthedocs.io/en/latest/.
翻訳日:2023-12-01 18:17:50 公開日:2023-11-30
# Cirquo: 量子プログラムのテストとデバッグのためのスイート

Cirquo: A Suite For Testing and Debugging Quantum Programs ( http://arxiv.org/abs/2311.18202v1 )

ライセンス: Link先を確認
Sara Ayman Metwalli and Rodney Van Meter(参考訳) 量子プログラムの規模が古典的ソフトウェアに匹敵するほど大きくなるにつれ、量子ソフトウェア工学の生まれたばかりの分野は成熟しなければならず、デバッガのようなツールがますます重要になる。 しかし、量子コンピュータの性質から量子デバッガの開発は困難であり、量子状態の値を覗き見することは、重ね合わせの部分的あるいは完全な崩壊を引き起こし、必要な絡み合いを破壊する可能性がある。 我々は、ユーザが回路をスライスと呼ばれる小さなチャンクに垂直または水平に分割し、インタラクティブなデバッグや自動テストのためにシミュレーションや実行を管理する量子回路テストデバッグスイート(Cirquo)を設計、実装した。 Cirquoはまた、開発者は回路全体とチャンク内のゲートを追跡でき、それぞれの動作をよりよく理解することができる。 初期のユーザからの有用性とユーザビリティに関するフィードバックは、cirquoを使って回路をスライスしてテストすることで、デバッグプロセスがより時間効率良くなることを示している。

As the scale of quantum programs grows to match that of classical software, the nascent field of quantum software engineering must mature, and tools such as debuggers will become increasingly important. However, developing a quantum debugger is challenging due to the nature of a quantum computer; sneaking a peek at the value of a quantum state will cause either a partial or complete collapse of the superposition and may destroy the necessary entanglement. We have designed and implemented a quantum circuit testing and debugging suite (Cirquo) that allows the user to divide the circuit vertically or horizontally into smaller chunks known as slices and manage their simulation or execution for either interactive debugging or automated testing. Cirquo also enables developers to track gates within the overall circuit and each chunk to understand their behavior better. Feedback on usefulness and usability from early users shows that using Cirquo to slice and test their circuits has helped make the debugging process more time-efficient for them.
翻訳日:2023-12-01 18:17:24 公開日:2023-11-30
# INarIG: 単語レベル自動補完のための反復的非自己回帰命令生成モデル

INarIG: Iterative Non-autoregressive Instruct Generation Model For Word-Level Auto Completion ( http://arxiv.org/abs/2311.18200v1 )

ライセンス: Link先を確認
Hengchao Shang, Zongyao Li, Daimeng Wei, Jiaxin Guo, Minghan Wang, Xiaoyu Chen, Lizhi Lei, Hao Yang(参考訳) コンピュータ支援翻訳(CAT)は人間の翻訳効率を高めることを目的としており、機械翻訳が品質要件を満たすことができないシナリオでは依然として重要である。 この分野の基本課題はWord-Level Auto Completion (WLAC)である。 WLACは、ソース文、翻訳コンテキスト、および人型文字シーケンスが与えられた対象単語を予測する。 従来の作業では、単語分類モデルを使用して、対象単語の両側からコンテキスト情報を利用するか、あるいは右のコンテキストから依存関係を直接無視する。 さらに、キー情報、すなわち人間の型付きシーケンスはデコードモジュールのプレフィックス制約としてのみ使用される。 本稿では,人間型配列を命令単位に構成し,サブワードを用いた反復復号を用いてタスクに与えられた入力情報を完全に活用するINarIG(Iterative Non-autoregressive Instruct Generation)モデルを提案する。 我々のモデルは、低周波単語(このタスクのコアシナリオ)を扱う能力が高く、WMT22およびベンチマークデータセットの最先端結果を達成することができ、最大10%以上の予測精度が向上する。

Computer-aided translation (CAT) aims to enhance human translation efficiency and is still important in scenarios where machine translation cannot meet quality requirements. One fundamental task within this field is Word-Level Auto Completion (WLAC). WLAC predicts a target word given a source sentence, translation context, and a human typed character sequence. Previous works either employ word classification models to exploit contextual information from both sides of the target word or directly disregarded the dependencies from the right-side context. Furthermore, the key information, i.e. human typed sequences, is only used as prefix constraints in the decoding module. In this paper, we propose the INarIG (Iterative Non-autoregressive Instruct Generation) model, which constructs the human typed sequence into Instruction Unit and employs iterative decoding with subwords to fully utilize input information given in the task. Our model is more competent in dealing with low-frequency words (core scenario of this task), and achieves state-of-the-art results on the WMT22 and benchmark datasets, with a maximum increase of over 10% prediction accuracy.
翻訳日:2023-12-01 18:17:07 公開日:2023-11-30
# Hy-Tracker:ハイパースペクトルビデオにおける物体追跡の効率性と精度を高める新しいフレームワーク

Hy-Tracker: A Novel Framework for Enhancing Efficiency and Accuracy of Object Tracking in Hyperspectral Videos ( http://arxiv.org/abs/2311.18199v1 )

ライセンス: Link先を確認
Mohammad Aminul Islam, Wangzhi Xing, Jun Zhou, Yongsheng Gao, Kuldip K. Paliwal(参考訳) ハイパースペクトルオブジェクトトラッキングは、リモートセンシングコミュニティに大きな関心を持つトピックとして最近登場した。 ハイパースペクトル画像は、多くのバンドと共に、オブジェクト追跡に効果的に使用できるオブジェクトの物質情報の豊富な情報源を提供する。 ほとんどのハイパースペクトルトラッカーは検出に基づく手法に基づいているが、オブジェクトの検出と追跡にYOLOを使おうとする人はいない。 これは、複数のスペクトルバンドの存在、注釈付きハイパースペクトルビデオの不足、オクルージョンの管理におけるYOLOのパフォーマンス制限、乱雑な背景におけるオブジェクトの識別による。 そこで本稿では,ハイパースペクトルデータと最先端オブジェクト検出のギャップを埋めて,YOLOv7の強みをハイパースペクトルビデオのオブジェクト追跡に活用するHy-Trackerという新しいフレームワークを提案する。 Hy-TrackerはYOLOv7を紹介するだけでなく、YOLOv7上に改良されたトラッキングモジュールも取り入れている。 このトラッカーはYOLOv7によって生成された初期検出を改良し、オブジェクト追跡性能が向上した。 さらに、Kalman-Filterをトラッカーに組み込み、スケールの変動と閉塞による課題に対処する。 ハイパースペクトルベンチマークデータセットの実験結果は、フレーム間のオブジェクトを正確に追跡するHy-Trackerの有効性を示す。

Hyperspectral object tracking has recently emerged as a topic of great interest in the remote sensing community. The hyperspectral image, with its many bands, provides a rich source of material information of an object that can be effectively used for object tracking. While most hyperspectral trackers are based on detection-based techniques, no one has yet attempted to employ YOLO for detecting and tracking the object. This is due to the presence of multiple spectral bands, the scarcity of annotated hyperspectral videos, and YOLO's performance limitation in managing occlusions, and distinguishing object in cluttered backgrounds. Therefore, in this paper, we propose a novel framework called Hy-Tracker, which aims to bridge the gap between hyperspectral data and state-of-the-art object detection methods to leverage the strengths of YOLOv7 for object tracking in hyperspectral videos. Hy-Tracker not only introduces YOLOv7 but also innovatively incorporates a refined tracking module on top of YOLOv7. The tracker refines the initial detections produced by YOLOv7, leading to improved object-tracking performance. Furthermore, we incorporate Kalman-Filter into the tracker, which addresses the challenges posed by scale variation and occlusion. The experimental results on hyperspectral benchmark datasets demonstrate the effectiveness of Hy-Tracker in accurately tracking objects across frames.
翻訳日:2023-12-01 18:16:47 公開日:2023-11-30
# S-T CRF:人間軌道予測のための時空間条件ランダム場

S-T CRF: Spatial-Temporal Conditional Random Field for Human Trajectory Prediction ( http://arxiv.org/abs/2311.18198v1 )

ライセンス: Link先を確認
Pengqian Han, Jiamou Liu, Jialing He, Zeyu Zhang, Song Yang, Yanni Tang, Partha Roop(参考訳) 軌道予測はコンピュータビジョンにおいて重要である。 正確な歩行者軌道予測は、自律走行車やロボットの動作計画に役立つ。 歩行者の軌道は、その意図に大きく影響される。 様々な深層学習手法を導入した先行研究は、明示的な意図情報を見下ろす軌道の空間的・時間的情報のみに注意を払う。 本研究では, 軌道の空間的および時間的情報に加えて意図情報を取り入れた新しいモデルである \textbf{s-t crf}: \textbf{s}patial-\textbf{t}emporal \textbf{c}onditional \textbf{r}andom \textbf{f}ield を提案する。 このモデルは、条件付きランダム場(CRF)を用いて将来の意図の表現を生成し、空間的時間的表現と組み合わせた後の軌跡の予測を大幅に改善する。 さらに,空間的CRF損失と時間的CRF損失は,それぞれ,相互作用の制約と時間的ダイナミクスを強化するように設計されている。 データセット eth/ucy と sdd の広範な実験的評価は、提案手法が既存のベースラインアプローチを上回っていることを示している。

Trajectory prediction is of significant importance in computer vision. Accurate pedestrian trajectory prediction benefits autonomous vehicles and robots in planning their motion. Pedestrians' trajectories are greatly influenced by their intentions. Prior studies having introduced various deep learning methods only pay attention to the spatial and temporal information of trajectory, overlooking the explicit intention information. In this study, we introduce a novel model, termed the \textbf{S-T CRF}: \textbf{S}patial-\textbf{T}emporal \textbf{C}onditional \textbf{R}andom \textbf{F}ield, which judiciously incorporates intention information besides spatial and temporal information of trajectory. This model uses a Conditional Random Field (CRF) to generate a representation of future intentions, greatly improving the prediction of subsequent trajectories when combined with spatial-temporal representation. Furthermore, the study innovatively devises a space CRF loss and a time CRF loss, meticulously designed to enhance interaction constraints and temporal dynamics, respectively. Extensive experimental evaluations on dataset ETH/UCY and SDD demonstrate that the proposed method surpasses existing baseline approaches.
翻訳日:2023-12-01 18:16:28 公開日:2023-11-30
# 中所得国におけるワクチンの誤情報

COVID-19 Vaccine Misinformation in Middle Income Countries ( http://arxiv.org/abs/2311.18195v1 )

ライセンス: Link先を確認
Jongin Kim, Byeo Rhee Back, Aditya Agrawal, Jiaxi Wu, Veronika J. Wirtz, Traci Hong, Derry Wijaya(参考訳) 本稿では、ブラジル、インドネシア、ナイジェリアの3つの中所得国からの注釈付きツイートからなる、covid-19ワクチンの誤情報の多言語データセットを紹介する。 専門家がキュレートしたデータセットには、5,952ツイートのアノテーション、新型コロナウイルスワクチンとの関連性、誤報の存在、誤報のテーマなどが含まれている。 ドメイン固有性,低リソース設定,データ不均衡といった課題に対処するため,大規模な言語モデルを用いたドメイン固有事前学習とテキスト拡張という,新型コロナウイルスワクチンの誤情報検出モデルを開発するための2つのアプローチを採用した。 我々の最良の誤情報検出モデルは、マクロf1-scoreにおける2.7から15.9パーセンテージの改善を示す。 さらに,2020 年から2022 年にかけての3 か国による1900 万ツイートの誤情報検出モデルを適用し,このデータセットの実用的応用と,複数の国や言語におけるワクチン誤情報を検出・分析するためのモデルを示した。 分析の結果、ブラジルとインドネシアでは新型コロナウイルスの感染者数の変化が新型コロナウイルスワクチンの誤情報率と正の相関を示しており、3カ国間で誤情報率の間には有意な正の相関があることが示唆された。

This paper introduces a multilingual dataset of COVID-19 vaccine misinformation, consisting of annotated tweets from three middle-income countries: Brazil, Indonesia, and Nigeria. The expertly curated dataset includes annotations for 5,952 tweets, assessing their relevance to COVID-19 vaccines, presence of misinformation, and the themes of the misinformation. To address challenges posed by domain specificity, the low-resource setting, and data imbalance, we adopt two approaches for developing COVID-19 vaccine misinformation detection models: domain-specific pre-training and text augmentation using a large language model. Our best misinformation detection models demonstrate improvements ranging from 2.7 to 15.9 percentage points in macro F1-score compared to the baseline models. Additionally, we apply our misinformation detection models in a large-scale study of 19 million unlabeled tweets from the three countries between 2020 and 2022, showcasing the practical application of our dataset and models for detecting and analyzing vaccine misinformation in multiple countries and languages. Our analysis indicates that percentage changes in the number of new COVID-19 cases are positively associated with COVID-19 vaccine misinformation rates in a staggered manner for Brazil and Indonesia, and there are significant positive associations between the misinformation rates across the three countries.
翻訳日:2023-12-01 18:16:05 公開日:2023-11-30
# invariant in-context learningにおける位置情報問題--単純関数クラスを事例として

Positional Information Matters for Invariant In-Context Learning: A Case Study of Simple Function Classes ( http://arxiv.org/abs/2311.18194v1 )

ライセンス: Link先を確認
Yongqiang Chen, Binghui Xie, Kaiwen Zhou, Bo Han, Yatao Bian, James Cheng(参考訳) in-context learning (icl) は、パラメータを更新せずに、新しいクエリ入力に対して応答を生成する、いくつかのin-contextデモ(基本タスクの入力出力例)を条件付けするモデルの能力を指す。 LLMの印象的なICL能力にもかかわらず、LLMのICLは入力デモに敏感であり、短い文脈長に限定されていることも判明した。 ICLの成功の限界と原則を理解するため,我々は変圧器のICL線形回帰について検討する。 我々は,現実のllm icl障害にインスパイアされたiclのout-of-distribution (ood) ケースを特徴付け,iclの単純かつ強力なアーキテクチャであるdeepsetと比較した。 驚くべきことに、deepsetは様々な分布シフトのトランスフォーマーよりも優れており、ood iclには置換不変対称性の保持が不可欠であることを示している。 この現象は、我々が icl 不変性と呼ぶ icl の基本的な要件を規定している。 それでも、LSMにおける位置エンコーディングはICL不変性を損なう。 この目的のために、同じ位置符号化を持つ変圧器を更に評価し、変圧器のICL不変性を様々なICL分布シフトで実現した。

In-context learning (ICL) refers to the ability of a model to condition on a few in-context demonstrations (input-output examples of the underlying task) to generate the answer for a new query input, without updating parameters. Despite the impressive ICL ability of LLMs, it has also been found that ICL in LLMs is sensitive to input demonstrations and limited to short context lengths. To understand the limitations and principles for successful ICL, we conduct an investigation with ICL linear regression of transformers. We characterize several Out-of-Distribution (OOD) cases for ICL inspired by realistic LLM ICL failures and compare transformers with DeepSet, a simple yet powerful architecture for ICL. Surprisingly, DeepSet outperforms transformers across a variety of distribution shifts, implying that preserving permutation invariance symmetry to input demonstrations is crucial for OOD ICL. The phenomenon specifies a fundamental requirement by ICL, which we termed as ICL invariance. Nevertheless, the positional encodings in LLMs will break ICL invariance. To this end, we further evaluate transformers with identical positional encodings and find preserving ICL invariance in transformers achieves state-of-the-art performance across various ICL distribution shifts
翻訳日:2023-12-01 18:15:44 公開日:2023-11-30
# エピソディックテストシナリオにおける持続的なテスト時間適応

Persistent Test-time Adaptation in Episodic Testing Scenarios ( http://arxiv.org/abs/2311.18193v1 )

ライセンス: Link先を確認
Trung-Hieu Hoang, Duc Minh Vo, Minh N. Do(参考訳) 現在のテスト時間適応(TTA)アプローチは、継続的に変化する環境に適応することを目指している。 しかし, 日中監視カメラなどの環境の変化だけでなく, 時間とともに相互に相関して再帰する場合は, 長期にわたる適用性が維持されるかどうかは不明である。 本研究では,従来のテスト環境に繰り返し曝露した場合のTTAモデルの誤差蓄積について検討し,エピソードTTAと呼ばれる新しいテスト環境を提案する。 この現象を解析するために, 単純だが代表的な$\epsilon$-perturbed Gaussian Mixture Model Classifierに基づくTTAプロセスのシミュレーションを設計し, TTA手法の時間的劣化に寄与するデータセットおよびアルゴリズムに依存した要因を理論的に明らかにした。 そこで本研究では,持続性TTA(PeTTA)という手法を提案する。 pettaはモデルの崩壊を検知し、ttaの適応戦略を調整し、2つの主要な目的(適応とモデル崩壊の防止)のバランスをとる。 エピソードTTAシナリオの面におけるPeTTAの安定性は、様々なベンチマークの包括的な実験を通じて実証されている。

Current test-time adaptation (TTA) approaches aim to adapt to environments that change continuously. Yet, when the environments not only change but also recur in a correlated manner over time, such as in the case of day-night surveillance cameras, it is unclear whether the adaptability of these methods is sustained after a long run. This study aims to examine the error accumulation of TTA models when they are repeatedly exposed to previous testing environments, proposing a novel testing setting called episodic TTA. To study this phenomenon, we design a simulation of TTA process on a simple yet representative $\epsilon$-perturbed Gaussian Mixture Model Classifier and derive the theoretical findings revealing the dataset- and algorithm-dependent factors that contribute to the gradual degeneration of TTA methods through time. Our investigation has led us to propose a method, named persistent TTA (PeTTA). PeTTA senses the model divergence towards a collapsing and adjusts the adaptation strategy of TTA, striking a balance between two primary objectives: adaptation and preventing model collapse. The stability of PeTTA in the face of episodic TTA scenarios has been demonstrated through a set of comprehensive experiments on various benchmarks.
翻訳日:2023-12-01 18:15:18 公開日:2023-11-30
# フェデレーション学習におけるプライバシと公正性とユーティリティのトレードオフ

Toward the Tradeoffs between Privacy, Fairness and Utility in Federated Learning ( http://arxiv.org/abs/2311.18190v1 )

ライセンス: Link先を確認
Kangkang Sun, Xiaojin Zhang, Xi Lin, Gaolei Li, Jing Wang, and Jianhua Li(参考訳) Federated Learning(FL)は、ユーザのプライバシを保証し、クライアントのローカルトレーニングのメリットによるデータ漏洩のリスクを防止する、新たなプライバシ保護分散機械学習パラダイムである。 研究者は、結果の公平性を保証する公正なflシステムの設計に苦労しています。 しかし、公平さとプライバシーの間の相互作用は研究されていない。 FLシステムの公正性の向上はユーザのプライバシに影響を与え、ユーザのプライバシの増大は公正性に影響を与える可能性がある。 この作業では、クライアント側で、Demographic Parity(DemP)、Equalized Odds(EOs)、Disparate Impact(DI)といった公正度メトリクスを使用して、ローカルフェアモデルを構築します。 クライアントモデルのプライバシを保護するために,プライバシ保護フェアネスfl法を提案する。 その結果,プライバシが公平度指標の制約を破ることにより,プライバシによる公正モデルの正確性が向上した。 私たちの実験では、プライバシ、公正性とユーティリティの関係を結論付け、これらの間にはトレードオフがある。

Federated Learning (FL) is a novel privacy-protection distributed machine learning paradigm that guarantees user privacy and prevents the risk of data leakage due to the advantage of the client's local training. Researchers have struggled to design fair FL systems that ensure fairness of results. However, the interplay between fairness and privacy has been less studied. Increasing the fairness of FL systems can have an impact on user privacy, while an increase in user privacy can affect fairness. In this work, on the client side, we use fairness metrics, such as Demographic Parity (DemP), Equalized Odds (EOs), and Disparate Impact (DI), to construct the local fair model. To protect the privacy of the client model, we propose a privacy-protection fairness FL method. The results show that the accuracy of the fair model with privacy increases because privacy breaks the constraints of the fairness metrics. In our experiments, we conclude the relationship between privacy, fairness and utility, and there is a tradeoff between these.
翻訳日:2023-12-01 18:14:56 公開日:2023-11-30
# キャッシュを活用して小さなデバイスでSLUを実現する

Leveraging cache to enable SLU on tiny devices ( http://arxiv.org/abs/2311.18188v1 )

ライセンス: Link先を確認
Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin (University of Virginia)(参考訳) 本稿では,マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)について述べる。 我々は,デバイスの音声入力における時間的局所性を活用し,近年のslu推論を再利用する。 私たちのアイデアは単純で、デバイスがキャッシュされた結果に対して新しい入力をマッチングさせ、完全な推論のために未マッチの入力だけをクラウドにオフロードする。 しかし、このアイデアの実現は簡単ではない。デバイスは頑丈で低コストな方法で音響特性を比較する必要がある。 この目的のために,小型デバイス向け音声キャッシュXYZを提案する。 音声入力は、2つのレベルの表現で一致します。まずは生音ユニットのクラスタ化されたシーケンス、次に音素のシーケンスです。 2つの表現は相補的なコスト/精度のトレードオフを提供する。 さらに精度を高めるために、私たちのキャッシュは学習している。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出器を(クラウドの助けを借りて)継続的に微調整する。 市販STM32マイクロコントローラにXYZを実装した。 その結果、メモリフットプリントが2MBになった。 課題のある音声ベンチマークに基づいて、当社のシステムは、デバイス上の入力の45%--90%を解決し、一般的なクラウド音声サービスへのオフロードと比較して平均遅延を最大80%削減します。当社のメリットは、ノイズの多い環境、コールドキャッシュ、あるいは多数のユーザによって共有される1つのデバイスにおいてさえ発音されます。

This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We exploit temporal locality in a device's speech inputs and accordingly reuse recent SLU inferences. Our idea is simple: let the device match new inputs against cached results, and only offload unmatched inputs to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust, low-cost way. To this end, we present XYZ, a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by clustered sequences of raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary cost/accuracy tradeoffs. To further boost accuracy, our cache is learning: with the mismatched and then offloaded inputs, it continuously finetunes the device's feature extractors (with the assistance of the cloud). We implement XYZ on an off-the-shelf STM32 microcontroller. The resultant implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%--90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech services. Our benefit is pronounced even in adversarial settings -- noisy environments, cold cache, or one device shared by a number of users.
翻訳日:2023-12-01 18:14:35 公開日:2023-11-30
# 非コヒーレント常磁性窒素スピン浴におけるコヒーレンス観測

Observing coherence in an incoherent paramagnetic nitrogen spin bath ( http://arxiv.org/abs/2311.18181v1 )

ライセンス: Link先を確認
R. M. Goldblatt, A. M. Martin, A. A. Wood(参考訳) 中心スピン量子ビットを囲む非分極スピン環境は一般的にはデファスメントの非一貫性な源と考えられているが、スピン浴の精密なキャラクタリゼーションと制御は量子状態の保存とセンシングの資源となる。 本研究では、ダイヤモンド中の窒素空孔(NV)中心を用いて、光暗黒常磁性窒素欠陥(P1中心)のコヒーレンスを測定し、P1中心と局所的な$^{13}$C核スピンとのコヒーレント相互作用を検出する。 P1中心と$^{13}$C核スピンの間の双極子結合は、P1スピンコヒーレンス信号の周期的崩壊と再生によって同定される。 次に、様々な動的疎結合プロトコルを用いて、NV中心とP1スピンが$^{13}$C核スピンの独立したアンサンブルに結合されることを実証する。 本研究は,非分極性にもかかわらず,光暗色のp1スピンが局所環境からの情報抽出にどのように役立つかを示し,多体系内の相互作用に関する新たな知見を提供する。

The unpolarized spin environment surrounding a central spin qubit is typically considered as an incoherent source of dephasing, however, precise characterization and control of the spin bath can yield a resource for storing and sensing with quantum states. In this work, we use nitrogen-vacancy (NV) centers in diamond to measure the coherence of optically-dark paramagnetic nitrogen defects (P1 centers) and detect coherent interactions between the P1 centers and a local bath of $^{13}$C nuclear spins. The dipolar coupling between the P1 centers and $^{13}$C nuclear spins is identified by signature periodic collapses and revivals in the P1 spin coherence signal. We then demonstrate, using a range of dynamical decoupling protocols, that the probing NV centers and the P1 spins are coupled to independent ensembles of $^{13}$C nuclear spins. Our work illustrates how the optically-dark P1 spins, despite being unpolarized, can be used to extract information from their local environment and offers new insight into the interactions within a many-body system.
翻訳日:2023-12-01 18:14:09 公開日:2023-11-30
# 超高忠実性と効率を有する普遍高次元量子ゲートの実験的実現

Experimental realization of universal high-dimensional quantum gates with ultra-high fidelity and efficiency ( http://arxiv.org/abs/2311.18179v1 )

ライセンス: Link先を確認
Zhe Meng, Wen-Qiang Liu, Bo-Wen Song, Xiao-Yun Wang, An-Ning Zhang, and Zhang-Qi Yin(参考訳) 高次元量子システムであるquditは、量子情報を処理するためにより大きなヒルベルト空間を提供し、量子ビットに対して顕著な利点を示している。 qudits を用いた高忠実性ユニバーサル量子ゲートを実現することは大きな課題である。 ここでは,4次元の単一光学クディット(一般化されたpauli $x_4$ゲート,pauli $z_4$ゲートを含む)に対して,複数の不安定なカスケード干渉計を伴わない分極空間自由度で符号化された普遍量子ゲートの集合を理論的に提案し,実験的に実証する。 さらに、制御された$X_4$ゲートとその整数パワーも実現した。 超高平均ゲート忠実度$99.73\%$と効率$99.47\%$の両方を達成し、これはフォールトトレラント量子計算の誤差閾値を超えている。 本研究は,多項式資源コストによる大規模高次元フォールトトレラント量子計算の方法である。

Qudit, a high-dimensional quantum system, provides a larger Hilbert space to process the quantum information and has shown remarkable advantages over the qubit counterparts. It is a great challenge to realize the high fidelity universal quantum gates with qudits. Here we theoretically propose and experimentally demonstrate a set of universal quantum gates for a single optical qudit with four dimensions (including the generalized Pauli $X_4$ gate, Pauli $Z_4$ gate, and all of their integer powers), which are encoded in the polarization-spatial degree of freedom without multiple unstable cascaded interferometers. Furthermore, we also realize the controlled-$X_4$ gate and all of its integer powers. We have achieved both the ultra-high average gate fidelity $99.73\%$ and efficiency $99.47\%$, which are above the the error threshold for fault-tolerant quantum computation. Our work paves a way for the large-scale high-dimensional fault-tolerant quantum computation with a polynomial resource cost.
翻訳日:2023-12-01 18:13:47 公開日:2023-11-30
# スペクトルグラフニューラルネットワークのための有効ユニバーサル多項式基底

An Effective Universal Polynomial Basis for Spectral Graph Neural Networks ( http://arxiv.org/abs/2311.18177v1 )

ライセンス: Link先を確認
Keke Huang, Pietro Li\`o(参考訳) グラフフィルタとも呼ばれるスペクトルグラフニューラルネットワーク(gnns)は、ヘテロフィリグラフの普及率を高めている。 最適グラフフィルタはフーリエ変換のラプラシアン固有分解に依存する。 禁止計算を回避するために、異なる多項式を利用する多数の多項式フィルタが提案され、所望のグラフフィルタを近似する。 しかし、多項式フィルタの大多数の多項式は事前定義され、すべてのグラフに固定され、異なるグラフにまたがる多様なヘテロフィ次数に適合しない。 この問題に対処するために,まず, 所望のグラフフィルタの多項式基底とグラフの次数との相関を, 徹底的な理論解析により検討する。 その後,グラフのヘテロフィア次数を組み込んだ適応的ヘテロフィア基底を開発する。 その後、このヘテロフィリー基底をホモフィリー基底と統合し、普遍多項式基底ユニバシスを生成する。 その結果,一般多項式フィルタUniFilterを考案した。 実世界のデータ集合と合成データ集合の両方に対する包括的実験は、ユニフィルタの優位性を著しく支持し、ユニバスの有効性と汎用性を示し、新しいグラフ解析法として有望な能力を示している。

Spectral Graph Neural Networks (GNNs), also referred to as graph filters have gained increasing prevalence for heterophily graphs. Optimal graph filters rely on Laplacian eigendecomposition for Fourier transform. In an attempt to avert the prohibitive computations, numerous polynomial filters by leveraging distinct polynomials have been proposed to approximate the desired graph filters. However, polynomials in the majority of polynomial filters are predefined and remain fixed across all graphs, failing to accommodate the diverse heterophily degrees across different graphs. To tackle this issue, we first investigate the correlation between polynomial bases of desired graph filters and the degrees of graph heterophily via a thorough theoretical analysis. Afterward, we develop an adaptive heterophily basis by incorporating graph heterophily degrees. Subsequently, we integrate this heterophily basis with the homophily basis, creating a universal polynomial basis UniBasis. In consequence, we devise a general polynomial filter UniFilter. Comprehensive experiments on both real-world and synthetic datasets with varying heterophily degrees significantly support the superiority of UniFilter, demonstrating the effectiveness and generality of UniBasis, as well as its promising capability as a new method for graph analysis.
翻訳日:2023-12-01 18:13:26 公開日:2023-11-30
# コントラストレコメンダシステムに対する中毒攻撃

Poisoning Attacks Against Contrastive Recommender Systems ( http://arxiv.org/abs/2311.18244v1 )

ライセンス: Link先を確認
Zongwei Wang, Junliang Yu, Min Gao, Hongzhi Yin, Bin Cui, Shazia Sadiq(参考訳) コントラスト学習(CL)は近年,推薦分野において大きな人気を集めている。 ラベル付きデータに依存することなく学習する能力は、データスパーシティの問題に対する自然なアンチドームである。 従来の研究では、CLは推奨精度を向上するだけでなく、ノイズに対する顕著な堅牢性を示すことも見出されている。 しかし,本研究ではclベースのレコメンダシステムの脆弱性を明らかにする。cl以外のシステムと比較すると,ターゲットアイテムの促進を目的とした中毒攻撃の影響を受けやすい。 我々の分析は、CL損失による表現の均一な分散が、この脆弱性の原因となる要因であることを示している。 さらに,cl損失の最適化が表現の滑らかなスペクトル値をもたらすことを理論的に実証する。 これらの知見に基づき、clベースのレコメンダシステムに対する潜在的な中毒攻撃を明らかにする。 提案された攻撃は、cl損失の固有の分散効果を増幅するためにより滑らかなスペクトル値分布を誘導する分散促進(distribution promotion)と呼ばれる攻撃と、ランクプロモーション(rank promotion)と呼ばれるターゲットアイテムの可視性を高める攻撃である。 4つのデータセットを広範囲に実験し,攻撃モデルの破壊性を検証する。 これらの脆弱性に光を当てることで、より堅牢なCLベースのレコメンデータシステムの開発を促進することを目指している。

Contrastive learning (CL) has recently gained significant popularity in the field of recommendation. Its ability to learn without heavy reliance on labeled data is a natural antidote to the data sparsity issue. Previous research has found that CL can not only enhance recommendation accuracy but also inadvertently exhibit remarkable robustness against noise. However, this paper identifies a vulnerability of CL-based recommender systems: Compared with their non-CL counterparts, they are even more susceptible to poisoning attacks that aim to promote target items. Our analysis points to the uniform dispersion of representations led by the CL loss as the very factor that accounts for this vulnerability. We further theoretically and empirically demonstrate that the optimization of CL loss can lead to smooth spectral values of representations. Based on these insights, we attempt to reveal the potential poisoning attacks against CL-based recommender systems. The proposed attack encompasses a dual-objective framework: One that induces a smoother spectral value distribution to amplify the CL loss's inherent dispersion effect, named dispersion promotion; and the other that directly elevates the visibility of target items, named rank promotion. We validate the destructiveness of our attack model through extensive experimentation on four datasets. By shedding light on these vulnerabilities, we aim to facilitate the development of more robust CL-based recommender systems.
翻訳日:2023-12-01 18:07:26 公開日:2023-11-30
# DKiS:秘密鍵を用いた非可逆画像ステガノグラフィ

DKiS: Decay weight invertible image steganography with private key ( http://arxiv.org/abs/2311.18243v1 )

ライセンス: Link先を確認
Hang Yang, Yitian Xu, Xuhua Liu(参考訳) image steganography(画像ステガノグラフィー)は、他の画像の中に情報を隠蔽する行為で、従来、その手法が公に知られるようになるとセキュリティ上の課題に直面する。 これに対抗するために,新しい秘密鍵を用いた画像ステガノグラフィ手法を提案する。 このアプローチは、ステガノグラフィー手法の一般知識に関係なく、アクセスするために対応する秘密鍵を必要とする隠蔽情報のセキュリティを保証する。 本手法の有効性を実証する実験的な証拠を提示する。 さらに,無意味な画像ステガノグラフィープロセスにおける重要な課題として,秘密からホストパイプラインへの非現実的情報転送,すなわち「ガーベージ」を同定した。 そこで我々は,情報伝達を制御するために減衰重みを導入し,無関係なデータをフィルタリングし,画像ステガノグラフィーの性能を向上させる。 私たちのコードはhttps://github.com/yanghangAI/DKiSで公開されています。

Image steganography, the practice of concealing information within another image, traditionally faces security challenges when its methods become publicly known. To counteract this, we introduce a novel private key-based image steganography technique. This approach ensures the security of hidden information, requiring a corresponding private key for access, irrespective of the public knowledge of the steganography method. We present experimental evidence demonstrating our method's effectiveness, showcasing its real-world applicability. Additionally, we identified a critical challenge in the invertible image steganography process: the transfer of non-essential, or `garbage', information from the secret to the host pipeline. To address this, we introduced the decay weight to control the information transfer, filtering out irrelevant data and enhancing the performance of image steganography. Our code is publicly accessible at https://github.com/yanghangAI/DKiS, and a practical demonstration is available at http://yanghang.site/hidekey.
翻訳日:2023-12-01 18:07:03 公開日:2023-11-30
# llvms4protest: ニュースの抗議を解読するために、大規模な言語とビジョンモデルの力を活用する

LLVMs4Protest: Harnessing the Power of Large Language and Vision Models for Deciphering Protests in the News ( http://arxiv.org/abs/2311.18241v1 )

ライセンス: Link先を確認
Yongjun Zhang(参考訳) 大規模な言語とビジョンモデルは、社会運動学者が抗議を識別し、テキスト、画像、ビデオなどのマルチモーダルデータから重要な抗議属性を抽出する方法を変えてきた。 本稿は,テキストデータと画像データを用いて,ニュース記事の潜在的な抗議を推測するために,longformer と swin-transformer v2 を含む2つの大規模事前学習トランスフォーマーモデルを微調整した方法について述べる。 まず,doca(dynamic of collective action)コーパスを用いてロングフォーマーモデルを微調整した。 New York Timesの記事とDoCAデータベースを比較して、下流タスクのトレーニングデータセットを得ました。 次に, UCLA画像データに基づいてスウィントランスフォーマーv2モデルを訓練した。 UCLA-protestプロジェクトは、抗議、暴力、サインなどの情報を含むラベル付き画像データを含んでいる。 どちらのモデルも \url{https://github.com/Joshzyj/llvms4protest} で利用できる。 本報告は,LLVMを用いたテキストおよび画像データにおける抗議行動の推測に関心のある社会運動学者を対象とした,短い技術的報告である。

Large language and vision models have transformed how social movements scholars identify protest and extract key protest attributes from multi-modal data such as texts, images, and videos. This article documents how we fine-tuned two large pretrained transformer models, including longformer and swin-transformer v2, to infer potential protests in news articles using textual and imagery data. First, the longformer model was fine-tuned using the Dynamic of Collective Action (DoCA) Corpus. We matched the New York Times articles with the DoCA database to obtain a training dataset for downstream tasks. Second, the swin-transformer v2 models was trained on UCLA-protest imagery data. UCLA-protest project contains labeled imagery data with information such as protest, violence, and sign. Both fine-tuned models will be available via \url{https://github.com/Joshzyj/llvms4protest}. We release this short technical report for social movement scholars who are interested in using LLVMs to infer protests in textual and imagery data.
翻訳日:2023-12-01 18:06:45 公開日:2023-11-30
# 丁井行列の無限次元類似

Infinite dimensional analogues of Choi matrices ( http://arxiv.org/abs/2311.18240v1 )

ライセンス: Link先を確認
Kyung Hoon Han, Seung-Hyeok Kye, Erling St{\o}rmer(参考訳) フォン・ノイマン因子上の線型写像のクラスに対して、有界作用素(bounded operator)とトレースクラス作用素(trace class operator)の2つの対象を関連付ける。 それぞれ正であることと、因子上の元の写像が完全に正であることは同値である。 また、写像の正則性や完全正則性を特徴づけるのにも有用である。 そのような対応がすべての正規完全有界写像に対して可能であることは、その因子がタイプ i であるときに限りである。 応用として、我々は無限次元の場合において、$k$-正写像のchoi行列の観点から、正規正汎関数のシュミット数の基準を与える。 また、$k$-super positive map という概念も定義し、これは $k$-partially entanglement break の性質と同値であることが判明した。

For a class of linear maps on a von Neumann factor, we associate two objects, bounded operators and trace class operators, both of which play the roles of Choi matrices. Each of them is positive if and only if the original map on the factor is completely positive. They are also useful to characterize positivity of maps as well as complete positivity. It turns out that such correspondences are possible for every normal completely bounded map if and only if the factor is of type I. As an application, we provide criteria for Schmidt numbers of normal positive functionals in terms of Choi matrices of $k$-positive maps, in infinite dimensional cases. We also define the notion of $k$-superpositive maps, which turns out to be equivalent to the property of $k$-partially entanglement breaking.
翻訳日:2023-12-01 18:06:28 公開日:2023-11-30
# ビジョンファウンデーションモデルを活用した小課題特化モデルのラベル効率トレーニング

Label-efficient Training of Small Task-specific Models by Leveraging Vision Foundation Models ( http://arxiv.org/abs/2311.18237v1 )

ライセンス: Link先を確認
Raviteja Vemulapalli, Hadi Pouransari, Fartash Faghri, Sachin Mehta, Mehrdad Farajtabar, Mohammad Rastegari, Oncel Tuzel(参考訳) 大規模なデータセットで事前トレーニングされた large vision foundation model (vfms) は、さまざまな下流タスク、特にラベル付きターゲットデータで印象的なパフォーマンスを示す。 しかし、高いメモリと計算要求のため、これらのモデルはリソース制約のある設定ではデプロイできない。 ラベル付きトレーニングデータに制限のある、新しいターゲットタスクのための小さなタスク固有のモデルをトレーニングするために、大規模なvfmからの知識をどのように活用すればよいのか? 本稿では,事前学習されたvfmsを活用し,小型タスク固有モデルの効果的なトレーニングを行うための,単純かつ高効率なタスク指向知識伝達手法を提案する。 限定ラベル付きデータ設定下での4つの目標タスクに対する実験結果から,提案手法はタスク非依存のVFM蒸留,WebスケールのCLIP事前学習,ImageNet事前学習をそれぞれ1-10.5%,2-22%,2-14%で上回った。 また,知識伝達に使用されるデータセットが最終目標タスク性能に有意な影響を与えることを示し,効果的な転送集合をキュレートするための画像検索に基づくアプローチを提案する。

Large Vision Foundation Models (VFMs) pretrained on massive datasets exhibit impressive performance on various downstream tasks, especially with limited labeled target data. However, due to their high memory and compute requirements, these models cannot be deployed in resource constrained settings. This raises an important question: How can we utilize the knowledge from a large VFM to train a small task-specific model for a new target task with limited labeled training data? In this work, we answer this question by proposing a simple and highly effective task-oriented knowledge transfer approach to leverage pretrained VFMs for effective training of small task-specific models. Our experimental results on four target tasks under limited labeled data settings show that the proposed knowledge transfer approach outperforms task-agnostic VFM distillation, web-scale CLIP pretraining and supervised ImageNet pretraining by 1-10.5%, 2-22% and 2-14%, respectively. We also show that the dataset used for transferring knowledge has a significant effect on the final target task performance, and propose an image retrieval-based approach for curating effective transfer sets.
翻訳日:2023-12-01 18:06:12 公開日:2023-11-30
# LMRL Gym:言語モデルを用いた多段階強化学習のためのベンチマーク

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models ( http://arxiv.org/abs/2311.18232v1 )

ライセンス: Link先を確認
Marwa Abdulhai and Isadora White and Charlie Snell and Charles Sun and Joey Hong and Yuexiang Zhai and Kelvin Xu and Sergey Levine(参考訳) 大規模言語モデル(LLM)は優れたテキスト生成機能を提供するが、標準のプロンプトと生成手法は一般的に意図的あるいは目標指向のエージェントを導くものではなく、かなりのプロンプトチューニングを必要とする可能性がある。 最高のLLMでさえ、明確な質問をすることは滅多になく、明確な情報収集に従事したり、複数のターンの後により良い判断を下すような行動を取る。 強化学習は、LLMの強力なモデリング能力とテキストインタラクションの内部表現を活用して、有能な目標指向言語エージェントを作成する可能性がある。 これにより、人間との意図的・時間的に拡張された対話、コーディネートされた説得と慎重に構築された質問、あるいはテキストゲームによるゴール指向のプレイによって望ましい最終結果をもたらすことができる。 しかし、これを実現するためには、LLMを効果的に訓練できる安定的で信頼性の高い強化学習アルゴリズムを開発する必要がある。 このようなアルゴリズムの開発には、アルゴリズム設計の進捗を計測し、多ターンインタラクションに対するアクセシブルで再現可能な評価を提供し、強化学習アルゴリズムを改善するための様々なタスク特性と課題をカバーすることが必要である。 本稿では,LLM のマルチターン RL 評価のための LMRL-Gym ベンチマークと,オフライン値ベースおよびポリシーベースの RL 手法を用いたマルチターン RL を開始するための基本ツールキットを含むオープンソースの研究フレームワークを提案する。 私たちのベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語インタラクションを必要とし、オープンエンドの対話やテキストゲームで様々なタスクをカバーする。

Large language models (LLMs) provide excellent text-generation capabilities, but standard prompting and generation methods generally do not lead to intentional or goal-directed agents and might necessitate considerable prompt tuning. This becomes particularly apparent in multi-turn conversations: even the best current LLMs rarely ask clarifying questions, engage in explicit information gathering, or take actions now that lead to better decisions after multiple turns. Reinforcement learning has the potential to leverage the powerful modeling capabilities of LLMs, as well as their internal representation of textual interactions, to create capable goal-directed language agents. This can enable intentional and temporally extended interactions, such as with humans, through coordinated persuasion and carefully crafted questions, or in goal-directed play through text games to bring about desired final outcomes. However, enabling this requires the community to develop stable and reliable reinforcement learning algorithms that can effectively train LLMs. Developing such algorithms requires tasks that can gauge progress on algorithm design, provide accessible and reproducible evaluations for multi-turn interactions, and cover a range of task properties and challenges in improving reinforcement learning algorithms. Our paper introduces the LMRL-Gym benchmark for evaluating multi-turn RL for LLMs, together with an open-source research framework containing a basic toolkit for getting started on multi-turn RL with offline value-based and policy-based RL methods. Our benchmark consists of 8 different language tasks, which require multiple rounds of language interaction and cover a range of tasks in open-ended dialogue and text games.
翻訳日:2023-12-01 18:05:52 公開日:2023-11-30
# TCP:Visual-Language Modelのためのテキストベースのクラスアウェア・プロンプトチューニング

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model ( http://arxiv.org/abs/2311.18231v1 )

ライセンス: Link先を確認
Hantao Yao, Rui Zhang, Changsheng Xu(参考訳) プロンプトチューニングは、様々な下流タスクに事前訓練された視覚言語モデル(VLM)を適用するための貴重なテクニックである。 CoOpベースの手法の最近の進歩は、タスク固有のテキスト分類器の生成を容易にするために、学習可能なドメイン共有または画像条件付きテキストトークンのセットを提案する。 しかし、これらのテキストトークンはテストクラスの分布に動的に適応できないため、未確認領域に関する限定的な一般化能力を有する。 この問題に取り組むため,我々は,クラスに関する事前知識を明示的に組み込んだテキストベースクラスアウェア・プロンプト・チューニング(tcp)を提案する。 TCPの批判的な概念は、テキスト知識埋め込み(TKE)を活用して、クラスレベルのテキスト知識をクラス対応のテキストトークンにマップすることである。 これらのクラス認識プロンプトをText Encoderにシームレスに統合することにより、動的クラス認識分類器を生成し、目に見えないドメインの識別性を高める。 推論中、tkeはunseenクラスに関連するクラスアウェアプロンプトを動的に生成する。 包括的評価は、TKEが既存のメソッドとシームレスに結合可能なプラグイン・アンド・プレイモジュールとして機能することを示している。 さらに、TCPはトレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。

Prompt tuning represents a valuable technique for adapting pre-trained visual-language models (VLM) to various downstream tasks. Recent advancements in CoOp-based methods propose a set of learnable domain-shared or image-conditional textual tokens to facilitate the generation of task-specific textual classifiers. However, those textual tokens have a limited generalization ability regarding unseen domains, as they cannot dynamically adjust to the distribution of testing classes. To tackle this issue, we present a novel Textual-based Class-aware Prompt tuning(TCP) that explicitly incorporates prior knowledge about classes to enhance their discriminability. The critical concept of TCP involves leveraging Textual Knowledge Embedding (TKE) to map the high generalizability of class-level textual knowledge into class-aware textual tokens. By seamlessly integrating these class-aware prompts into the Text Encoder, a dynamic class-aware classifier is generated to enhance discriminability for unseen domains. During inference, TKE dynamically generates class-aware prompts related to the unseen classes. Comprehensive evaluations demonstrate that TKE serves as a plug-and-play module effortlessly combinable with existing methods. Furthermore, TCP consistently achieves superior performance while demanding less training time.
翻訳日:2023-12-01 18:05:21 公開日:2023-11-30
# 光-物質相互作用の非エルミート性からの量子絡み合いの直接操作

Direct Manipulation of quantum entanglement from the non-Hermitian nature of light-matter interaction ( http://arxiv.org/abs/2311.18229v1 )

ライセンス: Link先を確認
Kangkang Li, Yin Cai, Jin Yan, Zhou Feng, Fu Liu, Lei Zhang, Feng Li, Yanpeng Zhang(参考訳) バイフォトンプロセスは量子情報科学と技術にとって重要なベンチマークであり、量子相関性を改善するためにシステムの一貫性を改善するために多大な努力がなされている。 それでも、原子間量子干渉によって誘導される非エルミート的特徴は、絡み合いの直接制御によく用いられる。 我々は,光原子相互作用を自然の非エルミート系として測定することにより,双光子における例外点(EP)の実証を報告し,電磁誘導透過機構が非エルミート結合強度を正確に調整する強力なメカニズムを提供する。 このような双光子相関は、Rabiの発振から反バンチング指数デカイまで、前例のない広い範囲で調整され、強い光とマターのカップリング状態における高次元の絡み合いを示す。 2つの状態間の遷移点におけるEPは、双光子量子相関測定によって明らかに観察され、単一の指数崩壊を示し、結合した単一固有状態を示す。 本研究は, 人工フォトニック構造を介さずに自然非エルミタン過程の制御性を実現し, 光物質相互作用の非エルミタン的特徴を操り, 量子制御の道を開くものである。

Biphoton process is an essential benchmark for quantum information science and technologies, while great efforts have been made to improve the coherence of the system for better quantum correlations. Nevertheless, we find that the non-Hermitian features induced by the atomic quantum interference could be well employed for the direct control of entanglement. We report the demonstration of exceptional point (EP) in biphotons by measuring the light-atom interaction as a natural non-Hermitian system, in which the electromagnetically induced transparency regime provides a powerful mechanism to precisely tune the non-Hermitian coupling strength. Such biphoton correlation is tuned within an unprecedented large range from Rabi oscillation to antibunching-exponential-decay, also indicating high-dimensional entanglement within the strong and weak light-matter coupling regimes. The EP at the transition point between the two regimes is clearly observed with the biphoton quantum correlation measurements, exhibiting a single exponential decay and manifesting the coalesced single eigenstate. Our results provide a unique method to realize the controllability of natural non-Hermitian processes without the assistance of artificial photonic structures, and paves the way for quantum control by manipulating the non-Hermitian features of the light-matter interaction.
翻訳日:2023-12-01 18:04:58 公開日:2023-11-30
# 雑音下でのロバスト量子磁気測定のためのグラフ状態資源の利用

Harnessing graph state resources for robust quantum magnetometry under noise ( http://arxiv.org/abs/2311.18225v1 )

ライセンス: Link先を確認
Phu Trong Nguyen, Trung Kien Le, Hung Q. Nguyen, Le Bin Ho(参考訳) 磁場の精密測定は、基礎物理学、宇宙探査、生物物理学など様々な応用に不可欠である。 量子工学の最近の進歩は、高度な量子磁気センサの作成に役立っているが、その効率と耐ノイズ性を改善するための課題はまだ残っている。 本研究は,マルコフノイズモデルと非マルコフノイズモデルによる推定理論を解析し,測定精度を高めるために,対称グラフ状態資源を用いた量子磁気計測について検討する。 その結果,単発および複数発のラーモア周波数の推定において有意な改善が認められた。 単一ラーモア周波数推定では、量子フィッシャー情報はラーモア周波数の周期範囲内の標準量子極限からハイゼンベルク極限までのスペクトルにまたがっており、複数のラーモア周波数の場合、マルコフ雑音と非マルコフ雑音の両方の標準量子限界を超えることができる。 本研究は, ノイズ環境下での磁場測定を改善するためのグラフ状態に基づく手法の可能性を明らかにする。

Precise measurement of magnetic fields is essential for various applications, such as fundamental physics, space exploration, and biophysics. Although recent progress in quantum engineering has assisted in creating advanced quantum magnetometers, there are still ongoing challenges in improving their efficiency and noise resistance. This study focuses on using symmetric graph state resources for quantum magnetometry to enhance measurement precision by analyzing the estimation theory under Markovian and non-Markovian noise models. The results show a significant improvement in estimating both single and multiple Larmor frequencies. In single Larmor frequency estimation, the quantum Fisher information spans a spectrum from the standard quantum limit to the Heisenberg limit within a periodic range of the Larmor frequency, and in the case of multiple Larmor frequencies, it can exceed the standard quantum limit for both Markovian and non-Markovian noise. This study highlights the potential of graph state-based methods for improving magnetic field measurements under noisy environments.
翻訳日:2023-12-01 18:04:35 公開日:2023-11-30
# 実践的意味コミュニケーションのための心の理論による推論

Reasoning with the Theory of Mind for Pragmatic Semantic Communication ( http://arxiv.org/abs/2311.18224v1 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas and Emilio Calvanese Strinati and Walid Saad(参考訳) 本稿では,2つの知的エージェント間の効果的な目標指向情報共有を可能にする実用的意味コミュニケーションフレームワークを提案する。 特にセマンティクスは、データから抽出された異なる特徴間の基本的な因果関係と依存関係をカプセル化する因果状態として定義される。 提案するフレームワークは、マインドの理論(ToM)と呼ばれる機械学習(ML)の新たな概念を活用する。 ダイナミックな2レベル(ワイヤレス、セマンティクス)フィードバック機構を使用して、送信機でニューラルネットワークコンポーネントを連続的に微調整する。 ToMのおかげで、送信機は受信者の推論するニューラルネットワークが意味論的解釈を行う実際の精神状態を模倣する。 そして、提案する動的2レベルフィードバック機構により、受信機の推定精神状態が動的に更新される。 低レベルでは、従来のチャネル品質指標を使用して、無線通信チャネルの品質に基づいてチャネルエンコーディングプロセスを最適化し、意味表現を有限の星座に効率的にマッピングする。 さらに、セマンティクスフィードバックレベルを導入し、最小のオーバーヘッドで受信者の知覚したセマンティクスの有効性に関する情報を提供する。 数値評価は、ToMベースの推論を活用できない従来のシステムよりも優れており、同じセマンティクスを維持しながら、ビット量を削減した効率的な通信を実現するフレームワークの能力を示している。

In this paper, a pragmatic semantic communication framework that enables effective goal-oriented information sharing between two-intelligent agents is proposed. In particular, semantics is defined as the causal state that encapsulates the fundamental causal relationships and dependencies among different features extracted from data. The proposed framework leverages the emerging concept in machine learning (ML) called theory of mind (ToM). It employs a dynamic two-level (wireless and semantic) feedback mechanism to continuously fine-tune neural network components at the transmitter. Thanks to the ToM, the transmitter mimics the actual mental state of the receiver's reasoning neural network operating semantic interpretation. Then, the estimated mental state at the receiver is dynamically updated thanks to the proposed dynamic two-level feedback mechanism. At the lower level, conventional channel quality metrics are used to optimize the channel encoding process based on the wireless communication channel's quality, ensuring an efficient mapping of semantic representations to a finite constellation. Additionally, a semantic feedback level is introduced, providing information on the receiver's perceived semantic effectiveness with minimal overhead. Numerical evaluations demonstrate the framework's ability to achieve efficient communication with a reduced amount of bits while maintaining the same semantics, outperforming conventional systems that do not exploit the ToM-based reasoning.
翻訳日:2023-12-01 18:04:19 公開日:2023-11-30
# FS-BAND:周波数感度バンド検出器

FS-BAND: A Frequency-Sensitive Banding Detector ( http://arxiv.org/abs/2311.18216v1 )

ライセンス: Link先を確認
Zijian Chen, Wei Sun, Zicheng Zhang, Ru Huang, Fangfang Lu, Xiongkuo Min, Guangtao Zhai, Wenjun Zhang(参考訳) バンディングアーティファクト(Banding artifact)は、階段のような輪郭(case-like contour)として知られ、圧縮や送信などのシナリオで発生する一般的な品質の不快さであり、ユーザ体験の質(QoE)に大きく影響する。 バンドリング歪みは通常、スムーズな背景において比較的小さなピクセル単位の変動として現れるが、空間領域では解析が困難であるが周波数領域では容易に反映される。 そこで本研究では,周波数特性からバンドングアーチファクトを解析し,周波数感受性バンドング検出器(fs-band)と呼ばれるバンドングアーティファクトを捕捉・評価するための非参照バンドング検出モデルを提案する。 提案する検出器は、知覚相関品質スコアを有する画素毎のバンディングマップを生成することができる。 実験結果から,FS-BAND法は画像品質評価(IQA)手法よりもバンドリング分類タスクの精度が高い結果を得た。

Banding artifact, as known as staircase-like contour, is a common quality annoyance that happens in compression, transmission, etc. scenarios, which largely affects the user's quality of experience (QoE). The banding distortion typically appears as relatively small pixel-wise variations in smooth backgrounds, which is difficult to analyze in the spatial domain but easily reflected in the frequency domain. In this paper, we thereby study the banding artifact from the frequency aspect and propose a no-reference banding detection model to capture and evaluate banding artifacts, called the Frequency-Sensitive BANding Detector (FS-BAND). The proposed detector is able to generate a pixel-wise banding map with a perception correlated quality score. Experimental results show that the proposed FS-BAND method outperforms state-of-the-art image quality assessment (IQA) approaches with higher accuracy in banding classification task.
翻訳日:2023-12-01 18:04:01 公開日:2023-11-30
# 大言語モデルの倫理的チューニングのための韓国有毒指導データセットの自動構築

Automatic Construction of a Korean Toxic Instruction Dataset for Ethical Tuning of Large Language Models ( http://arxiv.org/abs/2311.18215v1 )

ライセンス: Link先を確認
Sungjoo Byun, Dongjun Jang, Hyemi Jo, Hyopil Shin(参考訳) 注意:本論文は攻撃的あるいは苦痛を伴う可能性がある材料を含む可能性がある。 大規模言語モデル(llm)の出現は、非倫理言語の発生を緩和し、有害なユーザクエリを適切に管理するトレーニングアプローチの開発を必要とする。 人間の労働力とデータ不足に関する課題を踏まえ,39Kの非倫理的命令出力ペアからなるKoToxを提示する。 この自動生成された有毒な命令の収集は、LLMの訓練を洗練させ、LLMの倫理的意識と様々な有毒な入力に対する応答を改善し、自然言語処理(NLP)アプリケーションにおけるより安全で責任ある相互作用を促進するための基盤となる枠組みを確立する。

Caution: this paper may include material that could be offensive or distressing. The advent of Large Language Models (LLMs) necessitates the development of training approaches that mitigate the generation of unethical language and aptly manage toxic user queries. Given the challenges related to human labor and the scarcity of data, we present KoTox, comprising 39K unethical instruction-output pairs. This collection of automatically generated toxic instructions refines the training of LLMs and establishes a foundational framework for improving LLMs' ethical awareness and response to various toxic inputs, promoting more secure and responsible interactions in Natural Language Processing (NLP) applications.
翻訳日:2023-12-01 18:03:42 公開日:2023-11-30
# デジタルツインとディープニューラルネットワークを用いたスカイサーベイ望遠鏡の微調整状態の知覚

Perception of Misalignment States for Sky Survey Telescopes with the Digital Twin and the Deep Neural Networks ( http://arxiv.org/abs/2311.18214v1 )

ライセンス: Link先を確認
Miao Zhang, Peng Jia, Zhengyang Li, Wennan Xiang, Jiameng Lv, Rui Sun(参考訳) スカイサーベイ望遠鏡は現代の天文学において重要な役割を担っているが、光学素子の誤認は点拡散関数に大きな変化をもたらし、データ品質が低下する。 これを解決するためには,データ処理のための正確な点展開関数の再構築や,画質向上のための光学部品の調整の容易化など,不整合状態を得る方法が必要である。 スカイサーベイ望遠鏡は、多くの光学素子で構成されているため、多くの潜在的な不一致状態を引き起こし、その一部は複雑に結合され、検出課題を提起している。 しかし、光学素子の不一致状態を連続的に調整することで、結合状態の絡み合いを解消することができる。 この原理に基づいて,異なる視野で連続的に変化する点拡散関数から,不整合状態を抽出するディープニューラルネットワークを提案する。 十分に多様なトレーニングデータを確保するために、ニューラルネットワークトレーニングのためのデータを得るためにデジタル双生児を採用することを推奨する。 さらに,誤用データを格納する状態グラフを導入し,誤用状態と対応する点スプレッド関数との複雑な関係を探索し,実験からのトレーニングデータの生成を導く。 トレーニングが完了すると、ニューラルネットワークは、大気の乱流、ノイズ、検出器内の限られた空間サンプリング率による影響にかかわらず、観測データから不正調整状態を推定する。 本論文で提案する手法は、アクティブ光学系と光学系アライメントの事前情報を提供するのに有用である。

Sky survey telescopes play a critical role in modern astronomy, but misalignment of their optical elements can introduce significant variations in point spread functions, leading to reduced data quality. To address this, we need a method to obtain misalignment states, aiding in the reconstruction of accurate point spread functions for data processing methods or facilitating adjustments of optical components for improved image quality. Since sky survey telescopes consist of many optical elements, they result in a vast array of potential misalignment states, some of which are intricately coupled, posing detection challenges. However, by continuously adjusting the misalignment states of optical elements, we can disentangle coupled states. Based on this principle, we propose a deep neural network to extract misalignment states from continuously varying point spread functions in different field of views. To ensure sufficient and diverse training data, we recommend employing a digital twin to obtain data for neural network training. Additionally, we introduce the state graph to store misalignment data and explore complex relationships between misalignment states and corresponding point spread functions, guiding the generation of training data from experiments. Once trained, the neural network estimates misalignment states from observation data, regardless of the impacts caused by atmospheric turbulence, noise, and limited spatial sampling rates in the detector. The method proposed in this paper could be used to provide prior information for the active optics system and the optical system alignment.
翻訳日:2023-12-01 18:03:28 公開日:2023-11-30
# 2-towerマッチングを超えて:レコメンデーションのためのスパース検索可能なクロスアクションの学習

Beyond Two-Tower Matching: Learning Sparse Retrievable Cross-Interactions for Recommendation ( http://arxiv.org/abs/2311.18213v1 )

ライセンス: Link先を確認
Liangcai Su, Fan Yan, Jieming Zhu, Xi Xiao, Haoyi Duan, Zhou Zhao, Zhenhua Dong, Ruiming Tang(参考訳) 2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。 アイテムタワーを事前計算し,ANN(Adroximate Nearest Neighbor)探索の高速化に使用することができるため,多数の項目で検索効率が向上した。 しかし、機能インタラクション能力の制限とオンラインサービスにおける精度の低下という2つの大きな課題に苦しむ。 既存のアプローチでは、dot製品の代わりに新しい遅いインタラクションを設計するが、複雑な機能インタラクションのサポートや検索効率の低下には失敗している。 これらの課題に対処するため,我々はsparcodeという新しいマッチングパラダイムを提案する。 特にsparcodeでは,きめ細かいクエリ・テーマインタラクションをモデル化するオール・ツー・オールインタラクションモジュールを導入している。 さらに,効率的なモデル推論を実現するために,モデルと共同で訓練された離散コードベーススパース逆インデックスを設計する。 当社のフレームワークの優越性を示すために、オープンベンチマークデータセットで広範な実験が行われています。 その結果、sparcodeは2towerモデルと同等の検索効率を維持しつつ、候補項目マッチングの精度を大幅に向上させた。 私たちのソースコードはMindSpore/modelsで利用可能です。

Two-tower models are a prevalent matching framework for recommendation, which have been widely deployed in industrial applications. The success of two-tower matching attributes to its efficiency in retrieval among a large number of items, since the item tower can be precomputed and used for fast Approximate Nearest Neighbor (ANN) search. However, it suffers two main challenges, including limited feature interaction capability and reduced accuracy in online serving. Existing approaches attempt to design novel late interactions instead of dot products, but they still fail to support complex feature interactions or lose retrieval efficiency. To address these challenges, we propose a new matching paradigm named SparCode, which supports not only sophisticated feature interactions but also efficient retrieval. Specifically, SparCode introduces an all-to-all interaction module to model fine-grained query-item interactions. Besides, we design a discrete code-based sparse inverted index jointly trained with the model to achieve effective and efficient model inference. Extensive experiments have been conducted on open benchmark datasets to demonstrate the superiority of our framework. The results show that SparCode significantly improves the accuracy of candidate item matching while retaining the same level of retrieval efficiency with two-tower models. Our source code will be available at MindSpore/models.
翻訳日:2023-12-01 18:02:44 公開日:2023-11-30
# 強磁場QEDの量子シミュレーション

Quantum Simulations for Strong-Field QED ( http://arxiv.org/abs/2311.18209v1 )

ライセンス: Link先を確認
Luis Hidalgo and Patrick Draper(参考訳) 強い背景場が存在する場合の量子場理論は、量子コンピュータがいつか貴重な計算資源を提供するという興味深い問題を含む。 NISQ時代には、実現可能なアプローチを開発し、現在のハードウェアの限界を識別し、新しいシミュレーションツールを構築するために、より単純なベンチマーク問題を考えるのが有用である。 ここでは,実時間非線形ブライト・ウィーラー対生成を原型過程として,強磁場QED(SFQED)の3+1$次元での量子シミュレーションを行う。 強磁場QEDハミルトニアンはFurry-Volkovモード展開で導かれ、ブライト・ウィーラーに関連する相互作用は量子回路に変換される。 ゼロ二重スリット」実験の量子シミュレーションは、時間依存ハミルトニアンによるトロタライゼーションのケースに適応する非対称脱分極アルゴリズムを含む、様々な誤差緩和戦略の適用による古典的なシミュレーションとよく一致している。 また,sfqedの量子シミュレーションの長期的目標についても述べる。

Quantum field theory in the presence of strong background fields contains interesting problems where quantum computers may someday provide a valuable computational resource. In the NISQ era it is useful to consider simpler benchmark problems in order to develop feasible approaches, identify critical limitations of current hardware, and build new simulation tools. Here we perform quantum simulations of strong-field QED (SFQED) in $3+1$ dimensions, using real-time nonlinear Breit-Wheeler pair-production as a prototypical process. The strong-field QED Hamiltonian is derived and truncated in the Furry-Volkov mode expansion, and the interactions relevant for Breit-Wheeler are transformed into a quantum circuit. Quantum simulations of a "null double slit" experiment are found to agree well with classical simulations following the application of various error mitigation strategies, including an asymmetric depolarization algorithm which we develop and adapt to the case of Trotterization with a time-dependent Hamiltonian. We also discuss longer-term goals for the quantum simulation of SFQED.
翻訳日:2023-12-01 18:02:07 公開日:2023-11-30
# HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with Context Augmentation and Visual Assistance

HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with Context Augmentation and Visual Assistance ( http://arxiv.org/abs/2311.18273v1 )

ライセンス: Link先を確認
Zhuohao Yin, Xin Huang(参考訳) Visual Word Sense Disambiguation (VWSD) は、複数の候補画像の中からターゲット単語の意味を制限された文脈内で最も多く含むものを選択することを目的としたマルチモーダルタスクである。 本稿では,事前学習された視覚言語モデルとオープンナレッジベースとデータセットを最大限に活用するマルチモーダル検索フレームワークを提案する。 Our system consists of the following key components: (1) Gloss matching: a pretrained bi-encoder model is used to match contexts with proper senses of the target words; (2) Prompting: matched glosses and other textual information, such as synonyms, are incorporated using a prompting template; (3) Image retrieval: semantically matching images are retrieved from large open datasets using prompts as queries; (4) Modality fusion: contextual information from different modalities are fused and used for prediction. 私たちのシステムはSemEval-2023 Task 1では最も競争力のある結果をもたらしていませんが、チームの半数近くを破ることができます。 さらに重要なことは、我々の実験は、Word Sense Disambiguation (WSD) とマルチモーダル学習の分野における鋭い洞察を明らかにすることである。 コードはgithubから入手できます。

Visual Word Sense Disambiguation (VWSD) is a multi-modal task that aims to select, among a batch of candidate images, the one that best entails the target word's meaning within a limited context. In this paper, we propose a multi-modal retrieval framework that maximally leverages pretrained Vision-Language models, as well as open knowledge bases and datasets. Our system consists of the following key components: (1) Gloss matching: a pretrained bi-encoder model is used to match contexts with proper senses of the target words; (2) Prompting: matched glosses and other textual information, such as synonyms, are incorporated using a prompting template; (3) Image retrieval: semantically matching images are retrieved from large open datasets using prompts as queries; (4) Modality fusion: contextual information from different modalities are fused and used for prediction. Although our system does not produce the most competitive results at SemEval-2023 Task 1, we are still able to beat nearly half of the teams. More importantly, our experiments reveal acute insights for the field of Word Sense Disambiguation (WSD) and multi-modal learning. Our code is available on GitHub.
翻訳日:2023-12-01 17:55:26 公開日:2023-11-30
# Gell-Mann & Low Theorem Perspective on Quantum Computing: New Paradigm for Designing Quantum Algorithm

A Gell-Mann & Low Theorem Perspective on Quantum Computing: New Paradigm for Designing Quantum Algorithm ( http://arxiv.org/abs/2311.18271v1 )

ライセンス: Link先を確認
Chun-Tse Li, T. Tzen Ong, Lucas Wang, Ming-Chien Hsu, Hsin Lin, and Min-Hsiu Hsieh(参考訳) Gell-Mann & Low定理は量子場理論(QFT)と凝縮物質物理学の基礎であり、多体摂動理論は相互作用を扱うための基本的な道具である。 しかしながら、量子アルゴリズムへの統合は研究のほとんど未解明領域であり、現在の量子シミュレーションアルゴリズムはシュリンガー図において主に機能しており、相互作用図のポテンシャルは未解決のままである。 我々の変分相互作用-ピクチャー S-行列 Ansatz (VIPSA) はこのギャップを埋め、特にフェルミ・ハッバードモデル(凝縮物質物理学における標準パラダイム)の文脈で、高温超伝導やモット絶縁体転移のような現象に複雑に結びついている。 この研究は、ゲルマン&ロー定理に基づく変分量子コンピューティングの新しい概念的視点を提供する。 我々は,正規化s行列を明示的に展開する革新的な数学的手法を用いて,量子コンピュータ上でダイソン級数を順序順に体系的に再構築することを可能にした。 この方法は、断熱時間進化に対するトロッター展開への従来の依存とは対照的であり、より洗練された量子アルゴリズム設計への概念シフトを示している。 我々は最近開発されたADAPT-VQEアルゴリズムの強度を活用し、摂動項を効率的に再構成する。 シミュレーションにより,この手法はダイソン級数を取り戻すだけでなく,頑健で安定な収束を示すことが示された。 我々のアプローチは、アルゴリズムの複雑さを増すことなく、より複雑なシナリオに一般化する大きな可能性を秘めていると信じています。

The Gell-Mann & Low theorem is a cornerstone of Quantum Field Theory (QFT) and condensed matter physics, and many-body perturbation theory is a foundational tool for treating interactions. However, their integration into quantum algorithms remains a largely unexplored area of research, with current quantum simulation algorithms predominantly operating in the Schr\"odinger picture, leaving the potential of the interaction picture largely untapped. Our Variational Interaction-Picture S-matrix Ansatz (VIPSA) now fills this gap, specifically in the context of the Fermi-Hubbard model -- a canonical paradigm in condensed matter physics which is intricately connected to phenomena such as high-temperature superconductivity and Mott insulator transitions. This work offers a new conceptual perspective for variational quantum computing based upon the Gell-Mann & Low theorem. We achieve this by employing an innovative mathematical technique to explicitly unfold the normalized S-matrix, thereby enabling the systematic reconstruction of the Dyson series on a quantum computer, order by order. This method stands in contrast to the conventional reliance on Trotter expansion for adiabatic time evolution, marking a conceptual shift towards more sophisticated quantum algorithmic design. We leverage the strengths of the recently developed ADAPT-VQE algorithm, tailoring it to reconstruct perturbative terms effectively. Our simulations indicate that this method not only successfully recovers the Dyson series but also exhibits robust and stable convergence. We believe that our approach shows great promise in generalizing to more complex scenarios without increasing algorithmic complexity.
翻訳日:2023-12-01 17:55:04 公開日:2023-11-30
# エントロピーを超えて:スタイル転送ガイドによる連続的なテスト時間適応

Beyond Entropy: Style Transfer Guided Single Image Continual Test-Time Adaptation ( http://arxiv.org/abs/2311.18270v1 )

ライセンス: Link先を確認
Younggeol Cho, Youngrae Kim, Dongman Lee(参考訳) 連続的なテスト時間適応(cTTA)法は,計算資源が限られている実世界の環境を動的に変化させるために,モデルの連続的な適応を容易にするように設計されている。 この固有の制限のため、既存のアプローチは精度と効率を同時に達成できない。 詳細は、単一画像を使用する場合、バッチ正規化層とエントロピー損失に起因する不安定さは、現実世界のcTTAシナリオにおいて、多くの既存のメソッドを著しく不安定化する。 これらの課題を克服するために,入力画像のスタイルをソーススタイルに転送することにより,目標環境への安定かつ効率的な適応を実現する,スタイル転送による単一画像連続テスト時間適応手法 bestta を提案する。 提案手法を実装するために,単純かつ強力な正規化手法であるbeinと,スタイルガイドによる損失を考案する。 我々は,BESTTAが連続的に変化するターゲット環境に効果的に適用できることを示し,セマンティックセグメンテーションと画像分類タスクの両方において,単一の画像のみを活用することを示した。 驚くべきことに、最少メモリを消費するbein層で2つのパラメータしかトレーニングしていないにもかかわらず、besttaはパフォーマンスの点で既存の最先端メソッドよりも優れている。

Continual test-time adaptation (cTTA) methods are designed to facilitate the continual adaptation of models to dynamically changing real-world environments where computational resources are limited. Due to this inherent limitation, existing approaches fail to simultaneously achieve accuracy and efficiency. In detail, when using a single image, the instability caused by batch normalization layers and entropy loss significantly destabilizes many existing methods in real-world cTTA scenarios. To overcome these challenges, we present BESTTA, a novel single image continual test-time adaptation method guided by style transfer, which enables stable and efficient adaptation to the target environment by transferring the style of the input image to the source style. To implement the proposed method, we devise BeIN, a simple yet powerful normalization method, along with the style-guided losses. We demonstrate that BESTTA effectively adapts to the continually changing target environment, leveraging only a single image on both semantic segmentation and image classification tasks. Remarkably, despite training only two parameters in a BeIN layer consuming the least memory, BESTTA outperforms existing state-of-the-art methods in terms of performance.
翻訳日:2023-12-01 17:54:35 公開日:2023-11-30
# 授業インクリメンタル・ラーニングのためのプロンプトベースexemplar super-compression and regeneration

Prompt-Based Exemplar Super-Compression and Regeneration for Class-Incremental Learning ( http://arxiv.org/abs/2311.18266v1 )

ライセンス: Link先を確認
Ruxiao Duan, Yaoyao Liu, Jieneng Chen, Adam Kortylewski, Alan Yuille(参考訳) クラスインクリメンタル学習(cil)におけるリプレイベースの手法は、古いクラスの例をリプレイすることで壊滅的な忘れを著しく軽減できるため、驚くべき成功を収めている。 その効果にもかかわらず、CILの固有のメモリ制限は、多様性の低い少数の例を節約し、データの不均衡と過度な問題を引き起こす。 本稿では,エスペクティブな超圧縮再生手法であるESCORTを導入し,その量を大幅に増加させ,その多様性を高める。 過去の画像を保存する代わりに、エッジマップやクラスタグなどの視覚的およびテキスト的なプロンプトに画像を圧縮し、代わりにプロンプトを保存し、各例のメモリ使用量を元のサイズの1/24に削減する。 その後の学習フェーズでは、事前訓練された拡散モデル、例えば ControlNet によってプロンプトから多様な高分解能指数が生成される。 生成した例と実画像間の領域ギャップを最小限に抑えるために,部分圧縮と拡散に基づくデータ拡張を提案し,ターゲットデータセットに微調整することなく,市販拡散モデルを利用する。 したがって、同じ拡散モデルを必要に応じてダウンロードすることができ、メモリ消費は発生しない。 総合実験により,本手法は複数のCILベンチマークにおいて,従来の10フェーズのCaltech-256データセットよりも5.0ポイント高い精度でモデル性能を向上することが示された。

Replay-based methods in class-incremental learning (CIL) have attained remarkable success, as replaying the exemplars of old classes can significantly mitigate catastrophic forgetting. Despite their effectiveness, the inherent memory restrictions of CIL result in saving a limited number of exemplars with poor diversity, leading to data imbalance and overfitting issues. In this paper, we introduce a novel exemplar super-compression and regeneration method, ESCORT, which substantially increases the quantity and enhances the diversity of exemplars. Rather than storing past images, we compress images into visual and textual prompts, e.g., edge maps and class tags, and save the prompts instead, reducing the memory usage of each exemplar to 1/24 of the original size. In subsequent learning phases, diverse high-resolution exemplars are generated from the prompts by a pre-trained diffusion model, e.g., ControlNet. To minimize the domain gap between generated exemplars and real images, we propose partial compression and diffusion-based data augmentation, allowing us to utilize an off-the-shelf diffusion model without fine-tuning it on the target dataset. Therefore, the same diffusion model can be downloaded whenever it is needed, incurring no memory consumption. Comprehensive experiments demonstrate that our method significantly improves model performance across multiple CIL benchmarks, e.g., 5.0 percentage points higher than the previous state-of-the-art on 10-phase Caltech-256 dataset.
翻訳日:2023-12-01 17:54:15 公開日:2023-11-30
# 再帰プロットのfMRI時系列埋め込みを用いたMCI検出

MCI Detection using fMRI time series embeddings of Recurrence plots ( http://arxiv.org/abs/2311.18265v1 )

ライセンス: Link先を確認
Ninad Aithal, Chakka Sai Pradeep and Neelam Sinha(参考訳) 人間の脳は力学系として概念化できる。 静止状態fMRI時系列画像を用いることで、耳障りな関心領域(ROIs)における基礎となるダイナミクスを解析し、その構造や欠如を理解することができる。 この差動行動は神経変性の理解や、健常者と軽度認知障害者(MCI)の分類の鍵となる可能性がある。 本研究では,dosenbachテンプレートから160以上のroisにまたがる6つの脳ネットワークについて検討した。 時系列の進化を理解するために広く使われる再帰プロットが用いられる。 各roiにおける代表時系列は対応する再帰プロットの可視化に変換され、その後オートエンコーダを介して低次元の特徴埋め込みに凝縮される。 提案手法の性能は、公開されているADNIデータセットから得られた100の被験者(バランスデータ)のfMRIボリュームで示される。 その結果、6つの脳ネットワーク中93%のピーク分類精度を示し,提案手法では平均89.3%の精度を示した。

The human brain can be conceptualized as a dynamical system. Utilizing resting state fMRI time series imaging, we can study the underlying dynamics at ear-marked Regions of Interest (ROIs) to understand structure or lack thereof. This differential behavior could be key to understanding the neurodegeneration and also to classify between healthy and Mild Cognitive Impairment (MCI) subjects. In this study, we consider 6 brain networks spanning over 160 ROIs derived from Dosenbach template, where each network consists of 25-30 ROIs. Recurrence plot, extensively used to understand evolution of time series, is employed. Representative time series at each ROI is converted to its corresponding recurrence plot visualization, which is subsequently condensed to low-dimensional feature embeddings through Autoencoders. The performance of the proposed method is shown on fMRI volumes of 100 subjects (balanced data), taken from publicly available ADNI dataset. Results obtained show peak classification accuracy of 93% among the 6 brain networks, mean accuracy of 89.3% thereby illustrating promise in the proposed approach.
翻訳日:2023-12-01 17:53:46 公開日:2023-11-30
# 線形化可能なDeep Dynamics Modelの学習

Learning Exactly Linearizable Deep Dynamics Models ( http://arxiv.org/abs/2311.18261v1 )

ライセンス: Link先を確認
Ryuta Moriyasu, Masayuki Kusunoki, Kenji Kashima(参考訳) 機械学習手法に基づくモデルを用いた制御の研究は、現在では実用工学段階に移行している。 高い性能を達成し、理論的にシステムの安全性を保証することは、そのようなアプリケーションにとって重要である。 本稿では,様々な制御理論を容易に適用し,安定性,信頼性等を保証し,表現の自由度を高めることを目的とした,線形化可能な動的モデルの学習手法を提案する。 一例として,単純な線形制御と制御障壁関数を組み合わせた設計を提案する。 提案モデルは自動車エンジンのリアルタイム制御に用いられ, 予測性能が良好であり, 制約下での安定制御が期待できる。

Research on control using models based on machine-learning methods has now shifted to the practical engineering stage. Achieving high performance and theoretically guaranteeing the safety of the system is critical for such applications. In this paper, we propose a learning method for exactly linearizable dynamical models that can easily apply various control theories to ensure stability, reliability, etc., and to provide a high degree of freedom of expression. As an example, we present a design that combines simple linear control and control barrier functions. The proposed model is employed for the real-time control of an automotive engine, and the results demonstrate good predictive performance and stable control under constraints.
翻訳日:2023-12-01 17:53:29 公開日:2023-11-30
# 放射線医学レポート作成における臨床医と専門的基礎モデルとのコンセンサス、不満、相乗効果

Consensus, dissensus and synergy between clinicians and specialist foundation models in radiology report generation ( http://arxiv.org/abs/2311.18260v1 )

ライセンス: Link先を確認
Ryutaro Tanno, David G.T. Barrett, Andrew Sellergren, Sumedh Ghaisas, Sumanth Dathathri, Abigail See, Johannes Welbl, Karan Singhal, Shekoofeh Azizi, Tao Tu, Mike Schaekermann, Rhys May, Roy Lee, SiWai Man, Zahra Ahmed, Sara Mahdavi, Danielle Belgrave, Vivek Natarajan, Shravya Shetty, Pushmeet Kohli, Po-Sen Huang, Alan Karthikesalingam, Ira Ktena(参考訳) 放射線医学報告は近代医学の道具的部分であり、診断や治療などの重要な臨床的決定を伝える。 しかし、世界中の放射線科医の不足は専門家のケアへのアクセスを制限し、重労働を課し、レポート配信のエラーや遅延を回避している。 視覚言語モデルによる自動レポート生成の最近の進歩は、状況を改善するための明確な可能性を秘めているが、実際の採用への道は、AIが生成するレポートの臨床的品質を評価することの難しさに悩まされている。 本研究では,胸部x線写真のための最先端のレポート生成システム flamingo-cxr を構築し,放射線学的データに基づく視覚言語基礎モデルの微調整を行った。 AI生成レポートの品質を評価するため、16人の認定放射線学者のグループが、米国の集中治療施設とインドの入院施設から、AI生成およびヒトによる胸部X線レポートの詳細な評価を行っている。 少なくとも1人の放射線学者(1件あたり2件のうち)は、両方のデータセットの60$\%以上のケースで、AIレポートを真実レポートよりも好んだ。 エラーを含むAI生成レポートのサブセットの中で、最も頻繁に引用される理由は場所と発見に関するものであり、人間による報告では、ほとんどのミスは重大さと発見に関するものだった。 この格差は、私たちのAIシステムと人間の専門家の潜在的な相補性を示し、Flamingo-CXRが最初のドラフトレポートを生成する補助シナリオを開発することを促した。 これは報告執筆のための臨床医とaiのコラボレーションの最初の実演であり、結果として得られた報告は少なくとも1人の放射線科医によって80$%$の患者と66$%の集中治療患者で専門家が書いた報告と同等か好まれていると評価される。

Radiology reports are an instrumental part of modern medicine, informing key clinical decisions such as diagnosis and treatment. The worldwide shortage of radiologists, however, restricts access to expert care and imposes heavy workloads, contributing to avoidable errors and delays in report delivery. While recent progress in automated report generation with vision-language models offer clear potential in ameliorating the situation, the path to real-world adoption has been stymied by the challenge of evaluating the clinical quality of AI-generated reports. In this study, we build a state-of-the-art report generation system for chest radiographs, Flamingo-CXR, by fine-tuning a well-known vision-language foundation model on radiology data. To evaluate the quality of the AI-generated reports, a group of 16 certified radiologists provide detailed evaluations of AI-generated and human written reports for chest X-rays from an intensive care setting in the United States and an inpatient setting in India. At least one radiologist (out of two per case) preferred the AI report to the ground truth report in over 60$\%$ of cases for both datasets. Amongst the subset of AI-generated reports that contain errors, the most frequently cited reasons were related to the location and finding, whereas for human written reports, most mistakes were related to severity and finding. This disparity suggested potential complementarity between our AI system and human experts, prompting us to develop an assistive scenario in which Flamingo-CXR generates a first-draft report, which is subsequently revised by a clinician. This is the first demonstration of clinician-AI collaboration for report writing, and the resultant reports are assessed to be equivalent or preferred by at least one radiologist to reports written by experts alone in 80$\%$ of in-patient cases and 66$\%$ of intensive care cases.
翻訳日:2023-12-01 17:53:19 公開日:2023-11-30
# Ego-Exo4D:初対三対人の視点からの技能的活動の理解

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives ( http://arxiv.org/abs/2311.18259v1 )

ライセンス: Link先を確認
Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray(参考訳) ego-exo4dは多種多様なマルチモーダルマルチビュービデオデータセットとベンチマークチャレンジである。 Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。 世界の13都市から800人以上の参加者が、131の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、合計1,422時間の映像を撮影した。 ビデオにはマルチチャネルオーディオ、アイアイズ、3dポイントクラウド、カメラポーズ、imu、そして複数のペアリング言語記述が含まれており、その中には教師や教師による新しい「専門的な解説」が含まれ、熟練した活動領域に合わせたものも含まれている。 熟練した人間活動の一人称ビデオ理解のフロンティアを推進するために,詳細な活動理解,熟練度推定,クロスビュー翻訳,3次元手/体ポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。 すべてのリソースはオープンソースとして公開され、コミュニティにおける新たな研究が促進される。

We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). More than 800 participants from 13 cities worldwide performed these activities in 131 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,422 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources will be open sourced to fuel new research in the community.
翻訳日:2023-12-01 17:52:44 公開日:2023-11-30
# 注意のない拡散モデル

Diffusion Models Without Attention ( http://arxiv.org/abs/2311.18257v1 )

ライセンス: Link先を確認
Jing Nathan Yan, Jiatao Gu, Alexander M. Rush(参考訳) 近年,高忠実度画像生成の進歩に伴い,Deffusion Probabilistic Models (DDPM) がキープレーヤーとして登場している。 しかし、高分解能での応用は、重要な計算上の課題を示す。 現在の方法では、UNetやTransformerアーキテクチャのプロセスは高速だが、表現能力は犠牲になっている。 そこで我々は,よりスケーラブルな状態空間モデルバックボーンを用いた注意機構を代替するアーキテクチャである拡散状態空間モデル(diffussm)を提案する。 このアプローチは,グローバル圧縮に頼らずに高分解能を効果的に処理し,拡散過程全体にわたって詳細な画像表現を保持する。 拡散トレーニングにおけるフロップ効率の高いアーキテクチャにフォーカスすることは、大きな前進である。 ImageNetとLSUNのデータセットを2つの解像度で総合的に評価すると、DiffuSSMはFIDとInception Scoreメトリクスの注意モジュールを持つ既存の拡散モデルと同等の、あるいは超越している。

In recent advancements in high-fidelity image generation, Denoising Diffusion Probabilistic Models (DDPMs) have emerged as a key player. However, their application at high resolutions presents significant computational challenges. Current methods, such as patchifying, expedite processes in UNet and Transformer architectures but at the expense of representational capacity. Addressing this, we introduce the Diffusion State Space Model (DiffuSSM), an architecture that supplants attention mechanisms with a more scalable state space model backbone. This approach effectively handles higher resolutions without resorting to global compression, thus preserving detailed image representation throughout the diffusion process. Our focus on FLOP-efficient architectures in diffusion training marks a significant step forward. Comprehensive evaluations on both ImageNet and LSUN datasets at two resolutions demonstrate that DiffuSSMs are on par or even outperform existing diffusion models with attention modules in FID and Inception Score metrics while significantly reducing total FLOP usage.
翻訳日:2023-12-01 17:52:23 公開日:2023-11-30
# Sketch Input Method Editor:システム入力認識のための包括的データセットと方法論

Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition ( http://arxiv.org/abs/2311.18254v1 )

ライセンス: Link先を確認
Guangming Zhu, Siyuan Wang, Qing Cheng, Kelong Wu, Hao Li, Liang Zhang(参考訳) 近年のタッチスクリーンデバイスの使用の増加に伴い、フリーハンドのスケッチは人間とコンピュータのインタラクションにとって有望なモダリティとして現れている。 これまでの研究は,日常の身近な物体の認識,検索,生成といった課題に焦点を当ててきたが,本研究の目的はプロのc4iシステム用に設計されたスケッチ入力方法エディタ(sketchime)の作成である。 このシステムでは、スケッチを低忠実度プロトタイプとして利用し、包括的な状況地図の作成において標準化されたシンボルを推奨する。 また,374種類の特殊スケッチ型からなる体系的データセットを提案し,認識とセグメンテーションのマルチレベル管理による同時認識とセグメンテーションアーキテクチャを提案し,性能の向上と解釈可能性の向上を図る。 少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークの新規ユーザへの適応とタスク固有のクラスへの拡張が大幅に向上する。 提案したデータセットとSPGデータセットの両方で行った実験の結果は,提案アーキテクチャの優れた性能を示している。 データセットとコードはhttps://github.com/Anony517/SketchIME.comで公開されています。

With the recent surge in the use of touchscreen devices, free-hand sketching has emerged as a promising modality for human-computer interaction. While previous research has focused on tasks such as recognition, retrieval, and generation of familiar everyday objects, this study aims to create a Sketch Input Method Editor (SketchIME) specifically designed for a professional C4I system. Within this system, sketches are utilized as low-fidelity prototypes for recommending standardized symbols in the creation of comprehensive situation maps. This paper also presents a systematic dataset comprising 374 specialized sketch types, and proposes a simultaneous recognition and segmentation architecture with multilevel supervision between recognition and segmentation to improve performance and enhance interpretability. By incorporating few-shot domain adaptation and class-incremental learning, the network's ability to adapt to new users and extend to new task-specific classes is significantly enhanced. Results from experiments conducted on both the proposed dataset and the SPG dataset illustrate the superior performance of the proposed architecture. Our dataset and code are publicly available at https://github.com/Anony517/SketchIME.
翻訳日:2023-12-01 17:52:03 公開日:2023-11-30
# Quantum Instrumentation Control Kit -- Defect Arbitrary Waveform Generator (QICK-DAWG): 量子欠陥に対する量子センシング制御フレームワーク

Quantum Instrumentation Control Kit -- Defect Arbitrary Waveform Generator (QICK-DAWG): A Quantum Sensing Control Framework for Quantum Defects ( http://arxiv.org/abs/2311.18253v1 )

ライセンス: Link先を確認
Emmeline G. Riendeau, Luca Basso, Jasmine J. Mah, Rong Cong, MA Sadi, Jacob Henshaw, KM Azizur-Rahman, Aulden Jones, Gajadhar Joshi, Michael P. Lilly, Andrew A. Mounce(参考訳) 量子情報通信、センシング、計算は、しばしば複雑で高価な機器を必要とするため、大きな侵入障壁となる。 量子インスツルメンテーション制御キット(QICK)は、チップ(RFSoC)フィールドプログラマブルゲートアーキテクチャ(FPGA)チップ上の最先端無線周波数システムのためのソフトウェアとファームウェアのコレクションにより、量子ビットの超伝導に対するこの障壁を克服する。 本稿では,オープンソースのソフトウェアおよびファームウェアパッケージであるqick-dawg (defack arbitrary waveform generator) のソフトウェアおよびファームウェア拡張であるqick(quantum instrumentation control kit)について述べる。 QICKDAWGは、QICKを拡張して、DC-1GHzの読み出し、AOMまたはゲートレーザー制御、アナログまたは光子カウントの読み出しオプションを実装することで、窒素空孔欠陥やその他のダイヤモンド量子欠陥を特徴づける。 QICK-DAWGはまた、光発光(PL)強度の収集と特徴付けのためのパルスシーケンスプログラムとデータ解析スクリプト、光検出磁気共鳴(ODMR)スペクトル、PLリードアウトウィンドウ、ラビ振動、ラムゼー干渉スペクトル、ハーンエコースピン緩和時間T$_2$、スピン格子緩和時間T$_1$を追加している。 qick-dawgは、量子欠陥を用いた量子センシングの参入障壁とコストを大幅に削減する、オープンソースの量子ハードウェアの強力な新しいパラダイムである。

Quantum information communication, sensing, and computation often require complex and expensive instrumentation resulting in a large entry barrier. The Quantum Instrumentation Control Kit (QICK) overcomes this barrier for superconducting qubits with a collection of software and firmware for state-of-the-art radio frequency system on chip (RFSoC's) field programmable gate architecture (FPGA) chips. Here we present a software and firmware extension to QICK, the Quantum Instrumentation Control Kit - Defect Arbitrary Waveform Generator (QICK-DAWG), which is an open-source software and firmware package that supports full quantum control and measurement of nitrogen-vacancy defects in diamond and other quantum defects using RFSoC FPGAs. QICKDAWG extends QICK to the characterization of nitrogen-vacancy defects and other diamond quantum defects by implementing DC-1 GHz readout, AOM or gated laser control, and analog or photon counting readout options. QICK-DAWG also adds pulse sequence programs and data analysis scripts to collect and characterize photoluminescence (PL) intensity, optically detected magnetic resonance (ODMR) spectra, PL readout windows, Rabi oscillations, Ramsay interference spectra, Hahn echo spin-spin relaxation times T$_2$, and spin-lattice relaxation times T$_1$. We demonstrate that QICK-DAWG is a powerful new paradigm of open source quantum hardware that significantly lowers the entry barrier and cost for quantum sensing using quantum defects.
翻訳日:2023-12-01 17:51:44 公開日:2023-11-30
# 生成aiのデータライフサイクルにおけるプライバシーと著作権の課題のナビゲート

Navigating Privacy and Copyright Challenges Across the Data Lifecycle of Generative AI ( http://arxiv.org/abs/2311.18252v1 )

ライセンス: Link先を確認
Dawen Zhang, Boming Xia, Yue Liu, Xiwei Xu, Thong Hoang, Zhenchang Xing, Mark Staples, Qinghua Lu, Liming Zhu(参考訳) Generative AIの出現は、人工知能における重要なマイルストーンであり、現実的な画像、テキスト、データパターンの生成において顕著な能力を示している。 しかし、これらの進歩はデータプライバシと著作権侵害に対する懸念が高まっている。 差分プライバシー、機械学習、データ中毒といった従来のアプローチは、これらの複雑な問題に対する断片的なソリューションのみを提供する。 データライフサイクルにおけるプライバシーと著作権保護の多面的課題について検討する。 我々は、技術的なイノベーションと倫理的先見性を組み合わせた統合的なアプローチを提唱し、ライフサイクルの視点から情報を得たソリューションを調査・開発することでこれらの懸念に全力を挙げる。 この研究は、より広い議論を触媒し、生成aiにおけるデータのプライバシーと著作権の完全性に対する協力的な取り組みを刺激することを目的としている。

The advent of Generative AI has marked a significant milestone in artificial intelligence, demonstrating remarkable capabilities in generating realistic images, texts, and data patterns. However, these advancements come with heightened concerns over data privacy and copyright infringement, primarily due to the reliance on vast datasets for model training. Traditional approaches like differential privacy, machine unlearning, and data poisoning only offer fragmented solutions to these complex issues. Our paper delves into the multifaceted challenges of privacy and copyright protection within the data lifecycle. We advocate for integrated approaches that combines technical innovation with ethical foresight, holistically addressing these concerns by investigating and devising solutions that are informed by the lifecycle perspective. This work aims to catalyze a broader discussion and inspire concerted efforts towards data privacy and copyright integrity in Generative AI.
翻訳日:2023-12-01 17:51:12 公開日:2023-11-30
# mPLUG-PaperOwl:マルチモーダル大言語モデルを用いた科学的ダイアグラム解析

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model ( http://arxiv.org/abs/2311.18248v1 )

ライセンス: Link先を確認
Anwen Hu, Yaya Shi, Haiyang Xu, Jiabo Ye, Qinghao Ye, Ming Yan, Chenliang Li, Qi Qian, Ji Zhang, Fei Huang(参考訳) 近年、大規模言語モデル(llm)の強力なテキスト作成能力は、論文の読解や執筆を支援する多くのツールを生み出している。 しかし LLM や Multimodal LLM の弱い図解析能力は,特に学術論文の執筆において,適用シナリオを大幅に制限している。 本研究では,より汎用的な学術論文作成に向けて,マルチモーダルllmのマルチモーダル図解析能力の強化に重点を置いている。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 論文の図式と関連する段落を整合させることにより,訓練および評価のための専門的な図解析サンプルを構築する。 m-paperは、画像やラテックスコードのフォーマットの図や表を含む、複数の科学図の合同理解をサポートする最初のデータセットである。 また,利用者の意図に適合させるため,制御信号として「アウトライン」を導入し,ユーザから直接提供したり,自動生成信号に基づいて改訂したりすることができる。 最新のMumtimodal LLMによる総合的な実験により、我々のデータセットでのトレーニングは、図のキャプション、図解析、アウトラインレコメンデーションを含む、より強力な科学的図理解性能を示すことが示された。 データセット、コード、モデルはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwlで入手できる。

Recently, the strong text creation ability of Large Language Models(LLMs) has given rise to many tools for assisting paper reading or even writing. However, the weak diagram analysis abilities of LLMs or Multimodal LLMs greatly limit their application scenarios, especially for scientific academic paper writing. In this work, towards a more versatile copilot for academic paper writing, we mainly focus on strengthening the multi-modal diagram analysis ability of Multimodal LLMs. By parsing Latex source files of high-quality papers, we carefully build a multi-modal diagram understanding dataset M-Paper. By aligning diagrams in the paper with related paragraphs, we construct professional diagram analysis samples for training and evaluation. M-Paper is the first dataset to support joint comprehension of multiple scientific diagrams, including figures and tables in the format of images or Latex codes. Besides, to better align the copilot with the user's intention, we introduce the `outline' as the control signal, which could be directly given by the user or revised based on auto-generated ones. Comprehensive experiments with a state-of-the-art Mumtimodal LLM demonstrate that training on our dataset shows stronger scientific diagram understanding performance, including diagram captioning, diagram analysis, and outline recommendation. The dataset, code, and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl.
翻訳日:2023-12-01 17:50:58 公開日:2023-11-30
# DNN加速器のオフチップデータアクセス最小化のためのスケジューリング、メモリ割り当て、テンソル置換の組み合わせ

Combined Scheduling, Memory Allocation and Tensor Replacement for Minimizing Off-Chip Data Accesses of DNN Accelerators ( http://arxiv.org/abs/2311.18246v1 )

ライセンス: Link先を確認
Yi Li, Aarti Gupta, Sharad Malik(参考訳) 特殊なハードウェアアクセラレータは、電力/性能の利点を提供するためにディープニューラルネットワーク(dnn)に広く使われている。 これらのアクセラレータには、DNN演算子をサポートする特別なハードウェアと、テンソルオペランドを格納するためのスクラッチパッドメモリが含まれている。 多くの場合、スクラッチパッドのサイズは計算に必要なテンソルを全て格納するには不十分であり、計算中にテンソルをホストメモリから前後に移動させるには追加のデータアクセスが必要である。 これらの追加データアクセスのボリュームは、オペレータのスケジュールとメモリ割り当て(スクラッチパッド内のテンソルに選択された特定の場所)に依存する。 我々は、DNNを最適な演算子スケジュール、メモリ割り当て、追加データアクセスを最小限に抑えるテンソル置換を見つけるアクセラレータにマッピングするための最適化フレームワークCOSMAを提案する。 COSMAは、与えられたスクラッチパッドサイズでDNNをアクセラレータにマッピングする最適なソリューションを生成するために、ILP(Integer Linear Programming)の定式化を提供する。 既製のICPソルバを用いてCOSMAは,異なるアプリケーションに対して,多種多様な最先端DNNに対して,数秒で最適解が得られることを示した。 さらに、非強制データアクセスの84%を削減し、既存の手法を上回ります。 さらに、ニューラルネットワークサーチによって生成された複雑なDNNにスケールアップする分割とコンカリストのヒューリスティックを提案し、このヒューリスティックなソリューションは、他の研究と比べて平均85%のデータアクセスを削減します。

Specialized hardware accelerators have been extensively used for Deep Neural Networks (DNNs) to provide power/performance benefits. These accelerators contain specialized hardware that supports DNN operators, and scratchpad memory for storing the tensor operands. Often, the size of the scratchpad is insufficient to store all the tensors needed for the computation, and additional data accesses are needed to move tensors back and forth from host memory during the computation with significant power/performance overhead. The volume of these additional data accesses depends on the operator schedule, and memory allocation (specific locations selected for the tensors in the scratchpad). We propose an optimization framework, named COSMA, for mapping DNNs to an accelerator that finds the optimal operator schedule, memory allocation and tensor replacement that minimizes the additional data accesses. COSMA provides an Integer Linear Programming (ILP) formulation to generate the optimal solution for mapping a DNN to the accelerator for a given scratchpad size. We demonstrate that, using an off-the-shelf ILP solver, COSMA obtains the optimal solution in seconds for a wide-range of state-of-the-art DNNs for different applications. Further, it out-performs existing methods by reducing on average 84% of the non-compulsory data accesses. We further propose a divide-and-conquer heuristic to scale up to certain complex DNNs generated by Neural Architecture Search, and this heuristic solution reduces on average 85% data accesses compared with other works.
翻訳日:2023-12-01 17:50:33 公開日:2023-11-30
# 臨床mri画像のマルチモーダル融合によるアルツハイマー病の自動検出

Automatic Detection of Alzheimer's Disease with Multi-Modal Fusion of Clinical MRI Scans ( http://arxiv.org/abs/2311.18245v1 )

ライセンス: Link先を確認
Long Chen, Liben Chen, Binfeng Xu, Wenxin Zhang, Narges Razavian(参考訳) アメリカ合衆国の高齢化はアルツハイマー病の流行を招いている。 Brookmeyerらは、約1500万人のアメリカ人が2060年までに臨床ADまたは軽度認知障害を持つと予想している。 この緊急呼び出しを受けて、アルツハイマー病の早期発見法が開発され、予防と治療が進められている。 特に、この疾患の自動検出における深層学習の適用に関する文献が増加している。 本研究は,従来の文献を基盤とし,マルチモーダル情報を活用した自動検出の精度向上に重点を置いている。 認知正常(CN)、軽度認知障害(MCI)、アルツハイマー病(AD)の2種類の脳MRI画像に基づいて、疾患のステージを予測することを目的としている。 我々は、T1とFLAIRのMRIスキャンから相補的な情報のシナジーを学習するAlexNetベースのディープラーニングモデルを設計する。

The aging population of the U.S. drives the prevalence of Alzheimer's disease. Brookmeyer et al. forecasts approximately 15 million Americans will have either clinical AD or mild cognitive impairment by 2060. In response to this urgent call, methods for early detection of Alzheimer's disease have been developed for prevention and pre-treatment. Notably, literature on the application of deep learning in the automatic detection of the disease has been proliferating. This study builds upon previous literature and maintains a focus on leveraging multi-modal information to enhance automatic detection. We aim to predict the stage of the disease - Cognitively Normal (CN), Mildly Cognitive Impairment (MCI), and Alzheimer's Disease (AD), based on two different types of brain MRI scans. We design an AlexNet-based deep learning model that learns the synergy of complementary information from both T1 and FLAIR MRI scans.
翻訳日:2023-12-01 17:50:05 公開日:2023-11-30
# PAUNet:衛星放射データによる降雨予測のための降雨注意に基づくU-Net

PAUNet: Precipitation Attention-based U-Net for rain prediction from satellite radiance data ( http://arxiv.org/abs/2311.18306v1 )

ライセンス: Link先を確認
P. Jyoteeshkumar Reddy, Harish Baki, Sandeep Chinta, Richard Matear, John Taylor(参考訳) 本稿では,衛星放射光データから降水を予測するためのディープラーニングアーキテクチャであるpaunetについて,weather4cast 2023コンペティションの課題について述べる。 paunet は u-net と res-net の変種であり、可視、水蒸気、赤外線帯におけるマルチバンド衛星画像の大規模コンテキスト情報を、中心のクロッピングとアテンション機構を備えたエンコーダ畳み込み層を通して効果的に捉えるように設計されている。 指数成分 (e-FPL) を含む深部降水損失を基盤として, 降水量の異なる降水カテゴリー, 特に中・豪雨の重要性を高めた。 PAUNetは、ヨーロッパ各地のかなりのデータセットに基づいて、複数の時間帯に降る雨を予測するベースラインモデルよりも高い臨界成功指数(CSI)スコアで顕著な精度を示す。 PAUNetのアーキテクチャとトレーニング手法は、緊急サービスや小売、サプライチェーン管理といった分野にとって重要な降水予測の改善を示す。

This paper introduces Precipitation Attention-based U-Net (PAUNet), a deep learning architecture for predicting precipitation from satellite radiance data, addressing the challenges of the Weather4cast 2023 competition. PAUNet is a variant of U-Net and Res-Net, designed to effectively capture the large-scale contextual information of multi-band satellite images in visible, water vapor, and infrared bands through encoder convolutional layers with center cropping and attention mechanisms. We built upon the Focal Precipitation Loss including an exponential component (e-FPL), which further enhanced the importance across different precipitation categories, particularly medium and heavy rain. Trained on a substantial dataset from various European regions, PAUNet demonstrates notable accuracy with a higher Critical Success Index (CSI) score than the baseline model in predicting rainfall over multiple time slots. PAUNet's architecture and training methodology showcase improvements in precipitation forecasting, crucial for sectors like emergency services and retail and supply chain management.
翻訳日:2023-12-01 17:44:19 公開日:2023-11-30
# OmniMotionGPT: 限られたデータによる動物運動生成

OmniMotionGPT: Animal Motion Generation with Limited Data ( http://arxiv.org/abs/2311.18303v1 )

ライセンス: Link先を確認
Zhangsihao Yang, Mingyuan Zhou, Mengyi Shan, Bingbing Wen, Ziwei Xuan, Mitch Hill, Junjie Bai, Guo-Jun Qi, Yalin Wang(参考訳) 本稿は,大規模動物行動データセットを必要とせず,テキスト記述から多様かつ現実的な動画像を生成することを目的としている。 テキスト駆動のヒトの運動合成のタスクはすでに広く研究され、ベンチマークされているが、この成功を限られたデータで他の骨格構造に移すことは依然として困難である。 本研究では,人間のデータから動物領域に学習した事前知識を利用して,GPT(Generative Pretraining Transformer)を模倣するモデルアーキテクチャを設計する。 動物と人間の両方の動きのオートエンコーダを共同で訓練すると同時に、人間の動きエンコーディング、動物の動きエンコーディング、テキストクリップ埋め込みの類似度スコアを最適化する。 この問題に対する第1の解決策として,動物データに基づくヒトの運動生成ベースラインのトレーニング結果よりも定量的かつ質的に,多様性と忠実度の高い動物運動を生成することができる。 さらに,36種類の動物集団にまたがる1240のアニメーションシーケンスを持つ最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介する。 このデータセットが、テキスト駆動の動物運動生成におけるデータ不足の問題を仲介し、研究コミュニティに新しい遊び場を提供することを願っている。

Our paper aims to generate diverse and realistic animal motion sequences from textual descriptions, without a large-scale animal text-motion dataset. While the task of text-driven human motion synthesis is already extensively studied and benchmarked, it remains challenging to transfer this success to other skeleton structures with limited data. In this work, we design a model architecture that imitates Generative Pretraining Transformer (GPT), utilizing prior knowledge learned from human data to the animal domain. We jointly train motion autoencoders for both animal and human motions and at the same time optimize through the similarity scores among human motion encoding, animal motion encoding, and text CLIP embedding. Presenting the first solution to this problem, we are able to generate animal motions with high diversity and fidelity, quantitatively and qualitatively outperforming the results of training human motion generation baselines on animal data. Additionally, we introduce AnimalML3D, the first text-animal motion dataset with 1240 animation sequences spanning 36 different animal identities. We hope this dataset would mediate the data scarcity problem in text-driven animal motion generation, providing a new playground for the research community.
翻訳日:2023-12-01 17:43:56 公開日:2023-11-30
# 内視鏡検査における鏡像の正常と形状の再構成

Reconstructing the normal and shape at specularities in endoscopy ( http://arxiv.org/abs/2311.18299v1 )

ライセンス: Link先を確認
Karim Makki and Adrien Bartoli(参考訳) 内視鏡画像では特異点が多い。 それらは多くの白色の小さな楕円形の斑点として現れ、画像解析やコンピュータビジョンの手法では迷惑と判断される。 代わりに,3次元知覚の手がかりとして特異性を用いることを提案する。 具体的には、観察された組織の正常な方向(すなわち、方向)と形状(すなわち、曲率)を1枚の画像から再構成する新しい方法を提案する。 シミュレーションおよび実際の介入画像の結果を示す。

Specularities are numerous in endoscopic images. They occur as many white small elliptic spots, which are generally ruled out as nuisance in image analysis and computer vision methods. Instead, we propose to use specularities as cues for 3D perception. Specifically, we propose a new method to reconstruct, at each specularity, the observed tissue's normal direction (i.e., its orientation) and shape (i.e., its curvature) from a single image. We show results on simulated and real interventional images.
翻訳日:2023-12-01 17:43:36 公開日:2023-11-30
# TrustMark: 任意解像度画像のためのユニバーサルな透かし

TrustMark: Universal Watermarking for Arbitrary Resolution Images ( http://arxiv.org/abs/2311.18297v1 )

ライセンス: Link先を確認
Tu Bui, Shruti Agarwal, John Collomosse(参考訳) 知覚できないデジタル透かしは著作権保護、誤情報防止、責任ある生成AIにおいて重要である。 本研究では,新しい設計を施したganベースの透かし法であるtrustmarkを提案し,透かし画像品質と透かし復元精度のトレードオフを両立させる。 我々のモデルは、エンコードされた画像の様々な内外摂動に耐えながら、頑健さを念頭に訓練されている。 さらに,再透かしに有用な透かし除去法であるTrustMark-RMを紹介する。 本手法は任意の解像度画像からなる3つのベンチマーク上での最先端性能を実現する。

Imperceptible digital watermarking is important in copyright protection, misinformation prevention, and responsible generative AI. We propose TrustMark - a GAN-based watermarking method with novel design in architecture and spatio-spectra losses to balance the trade-off between watermarked image quality with the watermark recovery accuracy. Our model is trained with robustness in mind, withstanding various in- and out-place perturbations on the encoded image. Additionally, we introduce TrustMark-RM - a watermark remover method useful for re-watermarking. Our methods achieve state-of-art performance on 3 benchmarks comprising arbitrary resolution images.
翻訳日:2023-12-01 17:43:27 公開日:2023-11-30
# 知覚的グループトケナイザ:反復的グループ化による知覚の構築

Perceptual Group Tokenizer: Building Perception with Iterative Grouping ( http://arxiv.org/abs/2311.18296v1 )

ライセンス: Link先を確認
Zhiwei Deng, Ting Chen, Yang Li(参考訳) 人間の視覚認識システムは、ラベルの監督なしに、リッチな表現を含むトークンの集合に視覚情報を圧縮する驚くべき能力を示す。 その背後にある重要な駆動原理の1つは知覚的グループ化である。 2010年代初頭にコンピュータビジョンで広く使われているが、知覚的グループ化が強力な表現を生み出す神経視覚認識のバックボーンを導き出すことができるかどうかは謎のままである。 本稿では,視覚特徴を抽出し,自己教師あり表現学習を行うためのグループ化操作に完全に依存するモデルである知覚型グループトークン化器を提案する。 提案モデルでは,最先端の視覚アーキテクチャと比較して競争性能が向上し,再学習を伴わない適応計算や解釈可能性など,望ましい特性を継承できることを示す。 具体的には、Perceptual Group Tokenizerは、線形プローブ評価によるImageNet-1K自己教師型学習ベンチマークで80.3%を達成した。

Human visual recognition system shows astonishing capability of compressing visual information into a set of tokens containing rich representations without label supervision. One critical driving principle behind it is perceptual grouping. Despite being widely used in computer vision in the early 2010s, it remains a mystery whether perceptual grouping can be leveraged to derive a neural visual recognition backbone that generates as powerful representations. In this paper, we propose the Perceptual Group Tokenizer, a model that entirely relies on grouping operations to extract visual features and perform self-supervised representation learning, where a series of grouping operations are used to iteratively hypothesize the context for pixels or superpixels to refine feature representations. We show that the proposed model can achieve competitive performance compared to state-of-the-art vision architectures, and inherits desirable properties including adaptive computation without re-training, and interpretability. Specifically, Perceptual Group Tokenizer achieves 80.3% on ImageNet-1K self-supervised learning benchmark with linear probe evaluation, marking a new progress under this paradigm.
翻訳日:2023-12-01 17:43:17 公開日:2023-11-30
# 長距離XY鎖の動的緩和

Dynamical relaxation of a long-range XY chain ( http://arxiv.org/abs/2311.18293v1 )

ライセンス: Link先を確認
Yu-Huang Huang, Yin-Tao Zou, and Chengxiang Ding(参考訳) クエンチに続く長距離量子XY鎖の普遍的リアルタイム緩和挙動について検討する。 我々の研究には、非臨界と臨界の両方が含まれている。 非臨界クエンチの場合、すなわち初期状態やポストクエンチハミルトニアンが平衡相転移の臨界点にない場合、コンメンシュレート相または非コンメンシュレート相へのクエンチは、それぞれ$t^{-3/2}$または$t^{-1/2}$のスケーリングを与える。 しかし、可換相と非可換相の境界線への緩衝については、スケーリング則 $t^{-\mu}$ は、短距離モデルの対応する値である $t^{-3/4}$ と異なるかもしれない。 より興味深いことに、崩壊指数である\mu$ はエネルギースペクトルの漸近挙動が異なるため、ポストクエンチハミルトニアンのパラメータの選択に依存するかもしれない。 さらに、一部のケースでは、エネルギースペクトルに反射点が現れるため、スケーリング挙動は定常位相近似による予測の範囲外である可能性がある。 臨界クエンチ、すなわち初期状態またはポストクエンチハミルトニアンが平衡相転移の臨界点にある場合、上記のスケーリング則 $t^{-\mu}$ は臨界点のエネルギースペクトルのギャップ閉包性のために変更することができる。

We study the universal real-time relaxation behaviors of a long-range quantum XY chain following a quench. Our research includes both the noncritical and critical quench. In the case of noncritical quench, i.e., neither the initial state nor the postquench Hamiltonian is at a critical point of equilibrium phase transition, a quench to the commensurate phase or incommensurate phase gives a scaling of $t^{-3/2}$ or $t^{-1/2}$, respectively, which is the same as the counterpart of the short-range XY model. However, for a quench to the boundary line between the commensurate and incommensurate phases, the scaling law $t^{-\mu}$ may be different from the $t^{-3/4}$ law of the counterpart of the short-range model. More interestingly, the decaying exponent $\mu$ may depend on the choice of the parameters of the postquench Hamiltonian because of the different asymptotic behaviors of the energy spectrum. Furthermore, in certain cases, the scaling behavior may be outside the range of predictions made by the stationary phase approximation, because an inflection point emerges in the energy spectrum. For the critical quench, i.e., the initial state or the postquench Hamiltonian is at a critical point of equilibrium phase transition, the aforementioned scaling law $t^{-\mu}$ may be changed because of the gap-closing property of the energy spectrum of the critical point.
翻訳日:2023-12-01 17:42:58 公開日:2023-11-30
# TLDR:Debiasing Image Classifierのためのテキストベースラストレイヤーリトレーニング

TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers ( http://arxiv.org/abs/2311.18291v1 )

ライセンス: Link先を確認
Juhyeon Park, Seokhyeon Jeong, Taesup Moon(参考訳) 分類器は、訓練データセットにおける特徴と分類対象との強い相関から生じる付随的な特徴に依存することができる。 近年,グループバランスデータセットを用いたラストレイヤリトレーニング(llr)が,分類器のスプリアス相関の緩和に有効であることが知られている。 しかし,グループバランスデータセットの取得にはコストがかかるため,LLR法の適用性が低下する。 本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。 テキストは、CLIPのような画像-テキスト共同埋め込み空間を超えて、対応する画像のプロキシになり得ることを示す。 これに基づいて,生成したテキストを用いて任意の画像分類器の埋め込み空間における最終層を訓練する。 さらに, 生成した単語をフィルタリングして, ノイズや不正確な単語を除去し, それぞれの単語を検査する労力を削減する手法を提案する。 我々はこれらの手順をTLDR (\textbf{T}ext-based \textbf{L}ast layer retraining for \textbf{D}ebiasing image classifie\textbf{R}s) と呼び、この手法がグループバランス画像データセットを用いて再トレーニングを行うLLR法に匹敵する性能を示す。 さらにTLDRは、グループアノテートデータセットなしで最後の線形層をトレーニングする他のベースラインよりも優れています。

A classifier may depend on incidental features stemming from a strong correlation between the feature and the classification target in the training dataset. Recently, Last Layer Retraining (LLR) with group-balanced datasets is known to be efficient in mitigating the spurious correlation of classifiers. However, the acquisition of group-balanced datasets is costly, which hinders the applicability of the LLR method. In this work, we propose to perform LLR based on text datasets built with large language models for a general image classifier. We demonstrate that text can be a proxy for its corresponding image beyond the image-text joint embedding space, such as CLIP. Based on this, we use generated texts to train the final layer in the embedding space of the arbitrary image classifier. In addition, we propose a method of filtering the generated words to get rid of noisy, imprecise words, which reduces the effort of inspecting each word. We dub these procedures as TLDR (\textbf{T}ext-based \textbf{L}ast layer retraining for \textbf{D}ebiasing image classifie\textbf{R}s) and show our method achieves the performance that is comparable to those of the LLR methods that also utilize group-balanced image dataset for retraining. Furthermore, TLDR outperforms other baselines that involve training the last linear layer without a group annotated dataset.
翻訳日:2023-12-01 17:42:30 公開日:2023-11-30
# 制約HRT表面とそのエントロピー解釈

Constrained HRT Surfaces and their Entropic Interpretation ( http://arxiv.org/abs/2311.18290v1 )

ライセンス: Link先を確認
Xi Dong, Donald Marolf and Pratik Rath(参考訳) 共通境界コーシー曲面にある2つの境界部分領域$A$と$B$を考え、関連するHRT曲面$\gamma_B$ for $B$を考える。 この文脈において、制約付き HRT 曲面 $\gamma_{A:B}$ は、$A$ に固定された余次元2バルク曲面として定義することができ、これは$\gamma_B$ を含むコーシースライスに制限された最大構成によって得られる。 その結果、$\gamma_{A:B}$ は 2 つのピースの和 $\gamma^B_{A:B}$ と $\gamma^{\bar B}_{A:B}$ はそれぞれ$B$ の絡み合いのくさびと、その補集合 $\gamma B$ である。 hrt曲面の領域 $\mathcal{a}\left(\gamma_a\right)$ とは異なり、少なくとも半古典的極限では、領域 $\mathcal{a}\left(\gamma_{a:b}\right)$ は$\gamma_{a:b}$ であり、領域 $\mathcal{a}\left(\gamma_b\right)$ は$\gamma_b$ である。 $\mathcal{A}\left(\gamma_{A:B}\right)$ のエントロピー解釈を研究するために、サブリージョン $A$ の R'enyi エントロピーを、サブリージョン $B$ の固定領域状態において解析する。 重力経路積分を用いて、$n\approx1$ R\enyiエントロピーが$\mathcal{A}\left(\gamma_A\right)$を、$\mathcal{A}\left(\gamma_B\right)$に共役して定義される時空上で最小化することを示す。 一定のブースト角で交わる、$\gamma^b_{a:b}$ と $\gamma^{\bar b}_{a:b}$ が交わる場合、幾何学的議論により、$n\approx1$ r\'enyi entropy は $\frac{\mathcal{a}(\gamma_{a:b})}{4g}$ によって与えられる。 我々は、$n\approx1$ R'enyiエントロピーが、$n\to1$と$G\to0$の可換性の欠如により、フォン・ノイマンエントロピーとどのように異なるかについて議論する。 固定領域状態の幅の関数として挙動がどのように変化するかについても論じる。 以上の結果は,標準ランダムテンソルネットワークを用いた時間依存幾何学表現の試みに関連するいくつかの問題に関連している。

Consider two boundary subregions $A$ and $B$ that lie in a common boundary Cauchy surface, and consider also the associated HRT surface $\gamma_B$ for $B$. In that context, the constrained HRT surface $\gamma_{A:B}$ can be defined as the codimension-2 bulk surface anchored to $A$ that is obtained by a maximin construction restricted to Cauchy slices containing $\gamma_B$. As a result, $\gamma_{A:B}$ is the union of two pieces, $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ lying respectively in the entanglement wedges of $B$ and its complement $\bar B$. Unlike the area $\mathcal{A}\left(\gamma_A\right)$ of the HRT surface $\gamma_A$, at least in the semiclassical limit, the area $\mathcal{A}\left(\gamma_{A:B}\right)$ of $\gamma_{A:B}$ commutes with the area $\mathcal{A}\left(\gamma_B\right)$ of $\gamma_B$. To study the entropic interpretation of $\mathcal{A}\left(\gamma_{A:B}\right)$, we analyze the R\'enyi entropies of subregion $A$ in a fixed-area state of subregion $B$. We use the gravitational path integral to show that the $n\approx1$ R\'enyi entropies are then computed by minimizing $\mathcal{A}\left(\gamma_A\right)$ over spacetimes defined by a boost angle conjugate to $\mathcal{A}\left(\gamma_B\right)$. In the case where the pieces $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ intersect at a constant boost angle, a geometric argument shows that the $n\approx1$ R\'enyi entropy is then given by $\frac{\mathcal{A}(\gamma_{A:B})}{4G}$. We discuss how the $n\approx1$ R\'enyi entropy differs from the von Neumann entropy due to a lack of commutativity of the $n\to1$ and $G\to0$ limits. We also discuss how the behaviour changes as a function of the width of the fixed-area state. Our results are relevant to some of the issues associated with attempts to use standard random tensor networks to describe time dependent geometries.
翻訳日:2023-12-01 17:42:00 公開日:2023-11-30
# CosAvatar:テキストプロンプトによる一貫性とアニマタブルなポートレートビデオチューニング

CosAvatar: Consistent and Animatable Portrait Video Tuning with Text Prompt ( http://arxiv.org/abs/2311.18288v1 )

ライセンス: Link先を確認
Haiyao Xiao, Chenglai Zhong, Xuan Gao, Yudong Guo, Juyong Zhang(参考訳) 近年,テキストガイド付きデジタルポートレート編集が注目されている。 しかし、既存のメソッドは時間、表現、ビューの一貫性を維持するのに苦戦し、特定のデータ前提条件を必要としている。 このような課題を解決するために,ポートレートチューニングのための高品質でユーザフレンドリなフレームワークであるCosAvatarを提案する。 単眼ビデオとテキスト命令のみを入力として、時間的および3次元的一貫性を持ったアニメーション可能なポートレートを生成することができる。 2Dドメインで直接編集する手法とは異なり、頭部と胴体の両方をモデル化するために、動的NeRFベースの3Dポートレート表現を用いる。 ビデオフレームのデータセットの編集と、編集されたフレームが3D一貫性に達するまで、基礎となる3Dポートレートの更新を交互に行う。 さらに,セマンティクス・ポートレート・プリエントを統合して編集結果を強化し,特定のセマンティクス領域における正確な修正を可能にする。 提案手法は,テキスト指示に基づくポートレートスタイルや局所属性を正確に編集できるだけでなく,ソースビデオによる表現力のあるアニメーションもサポートする。

Recently, text-guided digital portrait editing has attracted more and more attentions. However, existing methods still struggle to maintain consistency across time, expression, and view or require specific data prerequisites. To solve these challenging problems, we propose CosAvatar, a high-quality and user-friendly framework for portrait tuning. With only monocular video and text instructions as input, we can produce animatable portraits with both temporal and 3D consistency. Different from methods that directly edit in the 2D domain, we employ a dynamic NeRF-based 3D portrait representation to model both the head and torso. We alternate between editing the video frames' dataset and updating the underlying 3D portrait until the edited frames reach 3D consistency. Additionally, we integrate the semantic portrait priors to enhance the edited results, allowing precise modifications in specified semantic areas. Extensive results demonstrate that our proposed method can not only accurately edit portrait styles or local attributes based on text instructions but also support expressive animation driven by a source video.
翻訳日:2023-12-01 17:40:56 公開日:2023-11-30
# ハイパースペクトル3次元イメージングのための分散構造光

Dispersed Structured Light for Hyperspectral 3D Imaging ( http://arxiv.org/abs/2311.18287v1 )

ライセンス: Link先を確認
Suhyun Shin, Seokjun Choi, Felix Heide, Seung-Hwan Baek(参考訳) hyperspectral 3d imagingは、シーンの深さとスペクトルの情報を取得することを目的としている。 しかし、既存の方法は非常に高価でかさばるか、スペクトルと深さの精度を損なう。 本研究では,超高スペクトル3次元イメージングのためのコスト効率とコンパクトな手法であるdistributed structured light (dsl)を提案する。 DSLは、プロジェクターの前面にサブミリ厚の回折格子膜を配置することにより、従来のプロジェクターカメラシステムを変更する。 格子は、光波長に基づいて構造光を分散する。 分散構造光を利用するために,分散プロジェクション画像形成モデルと画素ごとのハイパースペクトル3D再構成法を考案した。 コンパクトな実験プロトタイプをインスタンス化することで、dslを検証する。 DSLは18.8nmの半幅(FWHM)のスペクトル精度と1mmの深さ誤差を達成する。 実測3次元イメージングにおいて,DSLが先行研究より優れていることを示す。 DSLは、コンピュータビジョンやグラフィック、文化遺産、地質学、生物学など、さまざまなアプリケーションドメインに対して、正確で実用的なハイパースペクトル3Dイメージングを約束します。

Hyperspectral 3D imaging aims to acquire both depth and spectral information of a scene. However, existing methods are either prohibitively expensive and bulky or compromise on spectral and depth accuracy. In this work, we present Dispersed Structured Light (DSL), a cost-effective and compact method for accurate hyperspectral 3D imaging. DSL modifies a traditional projector-camera system by placing a sub-millimeter thick diffraction grating film front of the projector. The grating disperses structured light based on light wavelength. To utilize the dispersed structured light, we devise a model for dispersive projection image formation and a per-pixel hyperspectral 3D reconstruction method. We validate DSL by instantiating a compact experimental prototype. DSL achieves spectral accuracy of 18.8nm full-width half-maximum (FWHM) and depth error of 1mm. We demonstrate that DSL outperforms prior work on practical hyperspectral 3D imaging. DSL promises accurate and practical hyperspectral 3D imaging for diverse application domains, including computer vision and graphics, cultural heritage, geology, and biology.
翻訳日:2023-12-01 17:40:37 公開日:2023-11-30
# SimulFlow: 教師なしビデオオブジェクトセグメンテーションのための特徴と目標の同時抽出

SimulFlow: Simultaneously Extracting Feature and Identifying Target for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2311.18286v1 )

ライセンス: Link先を確認
Lingyi Hong, Wei Zhang, Shuyong Gao, Hong Lu, WenQiang Zhang(参考訳) 教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。 既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。 しかし、このパイプラインは計算コストが高く、2つのモードを適切に融合することが困難であるため、最適でない性能をもたらす可能性がある。 本稿では,特徴抽出とターゲット識別を同時に行うことで,効率的な非教師なしビデオオブジェクト分割を実現する,SimulFlowと呼ばれる新しいUVOSモデルを提案する。 具体的には,各ステージの融合特徴から予測される粗いマスクを用いて,マスク領域内の注意操作を拘束し,ノイズの影響を排除し,注意操作の柔軟性を生かして,映像と動きを結束させる新しいシマルフロー注意機構を設計する。 シマルフロー注意における視覚と光の流れの双方向情報フローのため、余分に設計されたfusingモジュールは不要であり、最終的な予測を得るためには光デコーダのみを採用する。 本手法をいくつかのベンチマークデータセットで評価し,最新の結果を得た。 提案手法は既存の手法より優れているだけでなく、2ストリームアーキテクチャによる計算複雑性や融合困難にも対処する。 DAVIS-16で87.4%のJ&Fを達成し、最高速度(3090で63.7FPS)、最低パラメータ(13.7M)を達成した。 当社のsimulflowは,ビデオサリエントオブジェクト検出データセットの競合結果も取得する。

Unsupervised video object segmentation (UVOS) aims at detecting the primary objects in a given video sequence without any human interposing. Most existing methods rely on two-stream architectures that separately encode the appearance and motion information before fusing them to identify the target and generate object masks. However, this pipeline is computationally expensive and can lead to suboptimal performance due to the difficulty of fusing the two modalities properly. In this paper, we propose a novel UVOS model called SimulFlow that simultaneously performs feature extraction and target identification, enabling efficient and effective unsupervised video object segmentation. Concretely, we design a novel SimulFlow Attention mechanism to bridege the image and motion by utilizing the flexibility of attention operation, where coarse masks predicted from fused feature at each stage are used to constrain the attention operation within the mask area and exclude the impact of noise. Because of the bidirectional information flow between visual and optical flow features in SimulFlow Attention, no extra hand-designed fusing module is required and we only adopt a light decoder to obtain the final prediction. We evaluate our method on several benchmark datasets and achieve state-of-the-art results. Our proposed approach not only outperforms existing methods but also addresses the computational complexity and fusion difficulties caused by two-stream architectures. Our models achieve 87.4% J & F on DAVIS-16 with the highest speed (63.7 FPS on a 3090) and the lowest parameters (13.7 M). Our SimulFlow also obtains competitive results on video salient object detection datasets.
翻訳日:2023-12-01 17:40:22 公開日:2023-11-30
# 自動mriキーポイント検出のための放射能特徴解析 : グラフアプリケーションの拡張

Utilizing Radiomic Feature Analysis For Automated MRI Keypoint Detection: Enhancing Graph Applications ( http://arxiv.org/abs/2311.18281v1 )

ライセンス: Link先を確認
Sahar Almahfouz Nasser, Shashwat Pathak, Keshav Singhal, Mohit Meena, Nihar Gupte, Ananya Chinmaya, Prateek Garg, and Amit Sethi(参考訳) グラフニューラルネットワーク(gnns)は、特定の画像処理アプリケーションにおいて、空間関係のモデル化におけるパラメータ効率のため、cnnやトランスフォーマーに代わる有望な選択肢を提供する。 現在、GNNベースモデルの非グラフ入力データを変換すること、特にデータが画像に由来するシナリオにおいて、研究の領域が広く行われている。 ひとつのアプローチは、重要なキーポイントを識別することで、イメージをノードに変換することだ。 半教師付き技術であるSuper-Retinaは、網膜画像のキーポイントの検出に利用されている。 しかし、その制限は、より多くのキーポイントを検出するために徐々に拡張される、小さな基本真理キーポイントのセットに依存している。 SIFTとLoFTRを用いた脳画像における一貫した初期キーポイントの検出が困難であったため,我々は新しいアプローチを提案した。 検出されたキーポイントの解剖学的意義を示すために,これらのキーポイントが誘導する登録プロセスを改善する効果を示した。 その後、これらのキーポイントをキーポイント検出法(LK-SuperRetina)の基礎的真理として利用した。 さらに、画像マッチングにおけるGNNの適用例を示し、良好なマッチング数と信頼性スコアの両方の観点から、優れたパフォーマンスを示している。 本研究は、画像分類、セグメンテーション、登録を含む、gnnアプリケーションを他の様々なアプリケーションへ拡張する段階を設定する。

Graph neural networks (GNNs) present a promising alternative to CNNs and transformers in certain image processing applications due to their parameter-efficiency in modeling spatial relationships. Currently, a major area of research involves the converting non-graph input data for GNN-based models, notably in scenarios where the data originates from images. One approach involves converting images into nodes by identifying significant keypoints within them. Super-Retina, a semi-supervised technique, has been utilized for detecting keypoints in retinal images. However, its limitations lie in the dependency on a small initial set of ground truth keypoints, which is progressively expanded to detect more keypoints. Having encountered difficulties in detecting consistent initial keypoints in brain images using SIFT and LoFTR, we proposed a new approach: radiomic feature-based keypoint detection. Demonstrating the anatomical significance of the detected keypoints was achieved by showcasing their efficacy in improving registration processes guided by these keypoints. Subsequently, these keypoints were employed as the ground truth for the keypoint detection method (LK-SuperRetina). Furthermore, the study showcases the application of GNNs in image matching, highlighting their superior performance in terms of both the number of good matches and confidence scores. This research sets the stage for expanding GNN applications into various other applications, including but not limited to image classification, segmentation, and registration.
翻訳日:2023-12-01 17:39:54 公開日:2023-11-30
# 空間的物質構造による超強光物質結合

Sculpting ultrastrong light-matter coupling through spatial matter structuring ( http://arxiv.org/abs/2311.18278v1 )

ライセンス: Link先を確認
Joshua Mornhinweg (1 and 4), Laura Diebel (1), Maike Halbhuber (1), Josef Riepl (1), Erika Cortese (2), Simone De Liberato (2 and 3), Dominique Bougeard (1), Rupert Huber (1), Christoph Lange (4) ((1) Department of Physics, University of Regensburg, Germany, (2) School of Physics and Astronomy, University of Southampton, United Kingdom, (3) IFN - Istituto di Fotonica e Nanotecnologie, CNR, Italy, (4) Department of Physics, TU Dortmund University, Germany)(参考訳) キャビティ量子電磁力学の中心的なテーマは、単一光学モードと単一物質励起との結合であり、結合構造の光学的性質を制御するキャビティポラリトンを二重化させることである。 特に、真空ラビ周波数と光の準共鳴キャリア周波数の比である$\omega_{\mathrm r}/\omega_{\mathrm c}$がユニティに近づく超強結合系では、ポラリトン二重層は大きなスペクトル帯域を2\omega_{\mathrm r}$で橋渡しし、さらにオフ共鳴光および物質モードとの相互作用が起こる可能性がある。 結果として生じるマルチモード結合は、複雑さが増すにもかかわらず、光-マッター結合共振の設計の自由度が増すことで最近注目を集めている。 そこで我々は,平面型金属THz共振器の複数モードの空間的重なりとLandau量子化された2次元電子のサイクロトロン共鳴をサブ波長スケールで調整し,超強多モード結合を創る新しい手法を実験的に実装した。 古典光学系の選択規則と同様に、特定の結合経路の抑制や強化を可能にし、光物質結合モードの数、オクターブ散乱周波数スペクトル、および磁気チューニングに対する応答を制御することができることを示す。 これは、散逸、量子光源の調整、非線形性、相関、および量子情報処理の絡み合いを制御する新しい経路を提供する。

The central theme of cavity quantum electrodynamics is the coupling of a single optical mode with a single matter excitation, leading to a doublet of cavity polaritons which govern the optical properties of the coupled structure. Especially in the ultrastrong coupling regime, where the ratio of the vacuum Rabi frequency and the quasi-resonant carrier frequency of light, $\Omega_{\mathrm R}/\omega_{\mathrm c}$, approaches unity, the polariton doublet bridges a large spectral bandwidth $2\Omega_{\mathrm R}$, and further interactions with off-resonant light and matter modes may occur. The resulting multi-mode coupling has recently attracted attention owing to the additional degrees of freedom for designing light-matter coupled resonances, despite added complexity. Here, we experimentally implement a novel strategy to sculpt ultrastrong multi-mode coupling by tailoring the spatial overlap of multiple modes of planar metallic THz resonators and the cyclotron resonances of Landau-quantized two-dimensional electrons, on subwavelength scales. We show that similarly to the selection rules of classical optics, this allows us to suppress or enhance certain coupling pathways and to control the number of light-matter coupled modes, their octave-spanning frequency spectra, and their response to magnetic tuning. This offers novel pathways for controlling dissipation, tailoring quantum light sources, nonlinearities, correlations as well as entanglement in quantum information processing.
翻訳日:2023-12-01 17:39:32 公開日:2023-11-30
# 特異ゲージ変換による異常電磁誘導

Anomalous Electromagnetic Induction Engendered by Singular Gauge Transformation ( http://arxiv.org/abs/2311.18275v1 )

ライセンス: Link先を確認
Wei Luo, Wei Chen, D. Y. Xing(参考訳) ベリー曲率(berry curvature)は、相反空間の磁場に似ており、実空間のアナログを持たないユニークな電磁現象を探索するための並置路を提供する。 そこで本研究では, ソレノイドベリー曲率による電磁誘導について, ループ, リンク, 結び目を形成する磁場線を用いて検討する。 ファラデーの法則とは対照的に、交互磁場は平均値0の交流電場を生じると定めているため、交互ベリー曲率は方向性電磁誘導を導くことができる。 そのような効果はベリー曲率における特異点の存在に起因し、ベリーフラックスに2ドルの$ジャンプが伴う。 特に、このジャンプは、ベリー相モジュラー2\pi$のゲージ不変性のため、反磁性インパルスを起こさない。 その結果、誘導電界は時間平均化の下で有限の値を保持し、それ自体を方向ポンピング電流として表わす。 我々の研究は、特異ゲージ変換から直接生じる異常な電磁誘導効果に光を当て、エキゾチックな電磁現象の理解を広げる。

The Berry curvature, resembling the magnetic field in reciprocal space, offers a captivating avenue for exploring unique electromagnetic phenomena devoid of real-space analogs. Here, we investigate the emergent electromagnetic induction by solenoidal Berry curvature with its field lines forming loops, links, and knots. In stark contrast to Faraday's law, which dictates that alternating magnetic fields yield alternating electric fields with a net zero average, the alternating Berry curvature can engender directional electromagnetic induction. Such an effect is attributed to the presence of singularities in the Berry curvature, accompanied by a $2\pi$ jump in the Berry flux. Notably, this jump does not trigger a diamagnetic impulse, due to the gauge invariance of the Berry phase modulo $2\pi$. Consequently, the induced electric field maintains finite values under time averaging, manifesting itself as a directional pumping current. Our research sheds light on an anomalous electromagnetic induction effect directly arising from the singular gauge transformation, thereby expanding our comprehension of exotic electromagnetic phenomena.
翻訳日:2023-12-01 17:39:00 公開日:2023-11-30
# 適応実験における半パラメトリック効率的な推論

Semiparametric Efficient Inference in Adaptive Experiments ( http://arxiv.org/abs/2311.18274v1 )

ライセンス: Link先を確認
Thomas Cook, Alan Mishler, Aaditya Ramdas(参考訳) 本研究では, 治療や管理に対する課題の割り当てを規定する政策が時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題を考える。 まず、アダプティブ拡張逆確率重み推定器の中央極限定理を提案し、これは半パラメトリック効率が良く、従来の文献よりも弱い仮定の下で得られる。 この中心極限定理は、固定標本サイズでの効率的な推論を可能にする。 次に、従来の方法よりもかなり厳密な漸近的および漸近的信頼シーケンスを導出した逐次推論の設定を検討する。 これらのanytime-validメソッドは、データに依存した停止時間(サンプルサイズ)での推論を可能にする。 さらに,近年のオフポリティクス推定文献から得られた確率スコアトランケーション手法を用いて,漸近的分散に影響を与えずに,推定器の有限サンプル分散を低減する。 実験結果から,本手法は時間一様誤差制御を維持しつつ,従来文献で開発された手法よりも信頼性が低いことを示す。

We consider the problem of efficient inference of the Average Treatment Effect in a sequential experiment where the policy governing the assignment of subjects to treatment or control can change over time. We first provide a central limit theorem for the Adaptive Augmented Inverse-Probability Weighted estimator, which is semiparametric efficient, under weaker assumptions than those previously made in the literature. This central limit theorem enables efficient inference at fixed sample sizes. We then consider a sequential inference setting, deriving both asymptotic and nonasymptotic confidence sequences that are considerably tighter than previous methods. These anytime-valid methods enable inference under data-dependent stopping times (sample sizes). Additionally, we use propensity score truncation techniques from the recent off-policy estimation literature to reduce the finite sample variance of our estimator without affecting the asymptotic variance. Empirical results demonstrate that our methods yield narrower confidence sequences than those previously developed in the literature while maintaining time-uniform error control.
翻訳日:2023-12-01 17:38:42 公開日:2023-11-30
# グレディミラーによる効率的なモデルベース凹凸ユーティリティ強化学習

Efficient Model-Based Concave Utility Reinforcement Learning through Greedy Mirror Descent ( http://arxiv.org/abs/2311.18346v1 )

ライセンス: Link先を確認
Bianca Marin Moreno (Thoth), Margaux Br\'eg\`ere (EDF R&D, LPSM, SU), Pierre Gaillard (Thoth), Nadia Oudjane (EDF R&D)(参考訳) 多くの機械学習タスクは、それらを生成するポリシーに対する占有度尺度の凸関数を最小化することで解決できる。 これには強化学習、模倣学習などが含まれる。 このより一般的なパラダイムは、CURL(Concave Utility Reinforcement Learning problem)と呼ばれる。 CURLは古典的なベルマン方程式を無効にするため、新しいアルゴリズムが必要である。 有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。 MD-CURLはミラー降下にインスパイアされ、非標準正規化を用いて収束保証と単純な閉形式解を達成し、一般にミラー降下法で見られる計算コストの高いプロジェクションステップの必要性を排除した。 次に、CURLをオンライン学習シナリオに拡張し、部分的に未知のダイナミックスを備えたオンラインエピソードベースの設定にMD-CURLを適用する新しい手法であるGreedy MD-CURLを提示する。 MD-CURLと同様に、オンライン版のGreedy MD-CURLは計算複雑性の低い利点を享受し、基礎となるダイナミックスで利用可能な情報のレベルに応じて、サブ線形あるいは対数的後悔を保証する。

Many machine learning tasks can be solved by minimizing a convex function of an occupancy measure over the policies that generate them. These include reinforcement learning, imitation learning, among others. This more general paradigm is called the Concave Utility Reinforcement Learning problem (CURL). Since CURL invalidates classical Bellman equations, it requires new algorithms. We introduce MD-CURL, a new algorithm for CURL in a finite horizon Markov decision process. MD-CURL is inspired by mirror descent and uses a non-standard regularization to achieve convergence guarantees and a simple closed-form solution, eliminating the need for computationally expensive projection steps typically found in mirror descent approaches. We then extend CURL to an online learning scenario and present Greedy MD-CURL, a new method adapting MD-CURL to an online, episode-based setting with partially unknown dynamics. Like MD-CURL, the online version Greedy MD-CURL benefits from low computational complexity, while guaranteeing sub-linear or even logarithmic regret, depending on the level of information available on the underlying dynamics.
翻訳日:2023-12-01 17:31:46 公開日:2023-11-30
# モデルライフサイクルにおける画像生成モデルの社会的問題--社会技術的アプローチ

Situating the social issues of image generation models in the model life cycle: a sociotechnical approach ( http://arxiv.org/abs/2311.18345v1 )

ライセンス: Link先を確認
Amelia Katirai, Noa Garcia, Kazuki Ide, Yuta Nakashima, Atsuo Kishimoto(参考訳) 画像生成モデルの開発競争は激化しており、利用可能なテキスト-画像モデルの数も急速に増加している。 これは、これらの技術に対する大衆の意識の高まりと相まっている。 他の生成型AIモデル(特に大きな言語モデル)は、彼らが提起する社会的および他の技術的問題に対して最近批判的な注目を集めてきたが、画像生成モデルの比較は比較的少ない。 本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。 機械学習と社会科学の交差点では,データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境への影響など,画像生成モデルから生じる7つの課題クラスタを特定し,文献調査の結果を報告する。 これらの社会問題をモデルライフサイクルに配置し、潜在的な問題が発生する場所や緩和の必要性を考慮し、支援する。 次に、これらの問題クラスタを、大規模言語モデルで報告されているものと比較する。 最終的に、画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であり、画像生成モデルによる社会的影響は、緊急に考慮されなければならないと論じる。

The race to develop image generation models is intensifying, with a rapid increase in the number of text-to-image models available. This is coupled with growing public awareness of these technologies. Though other generative AI models--notably, large language models--have received recent critical attention for the social and other non-technical issues they raise, there has been relatively little comparable examination of image generation models. This paper reports on a novel, comprehensive categorization of the social issues associated with image generation models. At the intersection of machine learning and the social sciences, we report the results of a survey of the literature, identifying seven issue clusters arising from image generation models: data issues, intellectual property, bias, privacy, and the impacts on the informational, cultural, and natural environments. We situate these social issues in the model life cycle, to aid in considering where potential issues arise, and mitigation may be needed. We then compare these issue clusters with what has been reported for large language models. Ultimately, we argue that the risks posed by image generation models are comparable in severity to the risks posed by large language models, and that the social impact of image generation models must be urgently considered.
翻訳日:2023-12-01 17:31:27 公開日:2023-11-30
# DSeg: ダイレクトラインセグメント検出

DSeg: Direct Line Segments Detection ( http://arxiv.org/abs/2311.18344v1 )

ライセンス: Link先を確認
Berger Cyrille and Lacroix Simon(参考訳) 本稿では,画像の線分を検出するモデル駆動手法を提案する。 この手法は線形カルマンフィルタを用いて勾配画像上のセグメントを漸進的に検出する。 このアルゴリズムは画像ノイズや照明のバリエーションに関して高速かつ堅牢であり、データ駆動アプローチよりも長い線分の検出が可能であり、面倒なパラメータチューニングを必要としない。 結果の質を高めるためにピラミッド的手法を応用したアルゴリズムの拡張を提案する。 様々なシーン照明と古典的アプローチとの比較結果が提示される。

This paper presents a model-driven approach to detect image line segments. The approach incrementally detects segments on the gradient image using a linear Kalman filter that estimates the supporting line parameters and their associated variances. The algorithm is fast and robust with respect to image noise and illumination variations, it allows the detection of longer line segments than data-driven approaches, and does not require any tedious parameters tuning. An extension of the algorithm that exploits a pyramidal approach to enhance the quality of results is proposed. Results with varying scene illumination and comparisons to classic existing approaches are presented.
翻訳日:2023-12-01 17:31:05 公開日:2023-11-30
# 時間フレーム補間によるロバスト降雨予報器の学習

Learning Robust Precipitation Forecaster by Temporal Frame Interpolation ( http://arxiv.org/abs/2311.18341v1 )

ライセンス: Link先を確認
Lu Han, Xu-Yang Chen, Han-Jia Ye, De-Chuan Zhan(参考訳) 近年のディープラーニングの進歩は、気象予測モデルの分野を新たな高地へと押し上げている。 それらの進歩にもかかわらず、これらのモデルは時空間シフトに敏感なために現実世界の応用に苦しむことが多く、特に局地的・時間的変動に過度に適合するような天気予報タスクで顕著な脆弱性である。 本稿では,このような変動に耐性を持つロバストな降水予測モデルの開発について検討する。 時間的フレーム補間(TFI)は空間的不一致に対して予測モデルを強化するための革新的な手法である。 TFIは、衛星画像と地上レーダーデータから隣接フレームの補間を通して合成サンプルを生成して、トレーニングデータセットを強化し、フレーム上のノイズに対するモデルの防御を強化する。 さらに,降雨強度の順序的性質を活かし,モデル性能をさらに向上させる,新しいマルチレベルダイス損失を統合する。 これらの手法は, モデル予測精度を総合的に向上させ, 転校学習リーダボード上で \textit{1st place} を達成する。 これは我々のアプローチの有効性を実証するだけでなく、気象予測におけるディープラーニング応用のための新しいベンチマークも設定する。 コードと重みは \url{https://github.com/Secilia-Cxy/UNetTFI} で公開されています。

Recent advancements in deep learning have propelled the field of weather prediction models to new heights. Despite their progress, these models often struggle with real-world application due to their sensitivity to spatial-temporal shifts, a vulnerability particularly pronounced in weather prediction tasks where overfitting to local and temporal variations is common. This paper presents an investigation into the development of a robust precipitation forecasting model that stands resilient to such shifts. We introduce Temporal Frame Interpolation (TFI), an innovative technique designed to fortify forecasting models against spatial-temporal discrepancies. TFI operates by generating synthetic samples through the interpolation of adjacent frames from satellite imagery and ground radar data, thereby enriching the training dataset and bolstering the model's defense against noise on frames. Additionally, we integrate a novel multi-level dice loss, which exploits the ordinal nature of rainfall intensities to further refine model performance. These methodologies have collectively advanced our model's forecasting precision, achieving \textit{1st place} on the transfer learning leaderboard in the \textit{Weather4Cast'23 competition}.It not only demonstrates the efficacy of our approaches but also sets a new benchmark for deep learning applications in meteorological forecasting. Our code and weights have been public on \url{https://github.com/Secilia-Cxy/UNetTFI}.
翻訳日:2023-12-01 17:30:57 公開日:2023-11-30
# 画像異常検出のための多レベルsaliency-guided self-supervised learning

Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly Detection ( http://arxiv.org/abs/2311.18332v1 )

ライセンス: Link先を確認
Jianjian Qin, Chunzhi Gu, Jun Yu, Chao Zhang(参考訳) 異常検出(AD)はコンピュータビジョンの基本課題である。 通常のものから逸脱する不正確な画像データパターンを特定することを目的としている。 従来の手法では、自己教師あり学習を強制するために強化された負のサンプルを作成してADに対処する。 しかし、これらの手法は通常、拡張中に意味論を考慮せず、非現実的または無効な否定的なサンプルを生成する。 これにより、特徴抽出ネットワークは重要な特徴の埋め込みを妨げることができる。 本研究では,視覚注意学習のアプローチに着想を得て,サリエンシー指導を活用し,意味的手がかりをインクルージョンに組み込むカットスワップを提案する。 具体的には,まず layercam を用いて,多レベル画像特徴をサリエンシーマップとして抽出し,クラスタリングを行い,複数のセンタロイドを得る。 塩分指導を十分に活用するため,各マップでは,最も高濃度のクラスタから画素対を選択してパッチペアを形成する。 このようなパッチペアは、密接な意味相関を持つ高度に類似したコンテキスト情報を含む。 結果として生じる負のサンプルは、パッチペアの位置をスワップすることで生成される。 以前の拡張法と比較して、cutswapは質の高い特徴学習を容易にするためにより微妙で現実的な負のサンプルを生成する。 本手法は,2つの主要なADベンチマークデータセット上で,最先端のAD性能を実現することを示す。

Anomaly detection (AD) is a fundamental task in computer vision. It aims to identify incorrect image data patterns which deviate from the normal ones. Conventional methods generally address AD by preparing augmented negative samples to enforce self-supervised learning. However, these techniques typically do not consider semantics during augmentation, leading to the generation of unrealistic or invalid negative samples. Consequently, the feature extraction network can be hindered from embedding critical features. In this study, inspired by visual attention learning approaches, we propose CutSwap, which leverages saliency guidance to incorporate semantic cues for augmentation. Specifically, we first employ LayerCAM to extract multilevel image features as saliency maps and then perform clustering to obtain multiple centroids. To fully exploit saliency guidance, on each map, we select a pixel pair from the cluster with the highest centroid saliency to form a patch pair. Such a patch pair includes highly similar context information with dense semantic correlations. The resulting negative sample is created by swapping the locations of the patch pair. Compared to prior augmentation methods, CutSwap generates more subtle yet realistic negative samples to facilitate quality feature learning. Extensive experimental and ablative evaluations demonstrate that our method achieves state-of-the-art AD performance on two mainstream AD benchmark datasets.
翻訳日:2023-12-01 17:30:33 公開日:2023-11-30
# MRFP: Multi-Resolution Feature Perturbation を用いた Sim-2-Real からの一般化可能なセマンティックセグメンテーションの学習

MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation ( http://arxiv.org/abs/2311.18331v1 )

ライセンス: Link先を確認
Sumanth Udupa, Prajwal Gurunath, Aniruddh Sikdar, Suresh Sundaram(参考訳) ディープニューラルネットワークは、ソースドメイン上の意味的シーン理解タスクにおいて、模範的なパフォーマンスを示しているが、トレーニング中のスタイル多様性が欠如しているため、単一のソースドメインデータのみを使用して、ターゲットドメインの認識不能なパフォーマンス向上は、依然として困難な課題である。 シミュレーションデータの生成は、複雑で予算集約的なプロセスであるため、大規模なスタイルのさまざまな実世界のデータセットを取得するための、実現可能な代替手段である。 しかし、シミュレーションデータと実世界のデータ間の大きなドメイン固有の矛盾は、セマンティックセグメンテーションにおいて大きな一般化課題をもたらす。 本研究では,この問題を軽減するために,ドメイン固有の細粒度特徴と粗い特徴の摂動スタイルをランダム化するMRFP(Multi Resolution Feature Perturbation)技術を提案する。 様々な都市・地域セグメンテーションデータセットにおける実験結果から,スタイル情報の摂動とともに,細かな特徴成分の摂動が,意味的セグメンテーションモデルのための領域不変ロバストな特徴マップを学習する上で最重要となることが明らかとなった。 MRFPは、学習可能なパラメータや目的関数を付加しない、単純で計算効率のよい転送可能なモジュールで、最先端のディープニューラルネットワークがシミュレーションから現実のセマンティックセマンティックセグメンテーションのための堅牢なドメイン不変機能を学ぶのに役立つ。

Deep neural networks have shown exemplary performance on semantic scene understanding tasks on source domains, but due to the absence of style diversity during training, enhancing performance on unseen target domains using only single source domain data remains a challenging task. Generation of simulated data is a feasible alternative to retrieving large style-diverse real-world datasets as it is a cumbersome and budget-intensive process. However, the large domain-specific inconsistencies between simulated and real-world data pose a significant generalization challenge in semantic segmentation. In this work, to alleviate this problem, we propose a novel MultiResolution Feature Perturbation (MRFP) technique to randomize domain-specific fine-grained features and perturb style of coarse features. Our experimental results on various urban-scene segmentation datasets clearly indicate that, along with the perturbation of style-information, perturbation of fine-feature components is paramount to learn domain invariant robust feature maps for semantic segmentation models. MRFP is a simple and computationally efficient, transferable module with no additional learnable parameters or objective functions, that helps state-of-the-art deep neural networks to learn robust domain invariant features for simulation-to-real semantic segmentation.
翻訳日:2023-12-01 17:30:12 公開日:2023-11-30
# 大規模空間スケールにおけるDicke超放射能の近似

Attaining near-optimal Dicke superradiance in a large spatial scale ( http://arxiv.org/abs/2311.18330v1 )

ライセンス: Link先を確認
Jun Ren, Shicheng Zhu and Z. D. Wang(参考訳) ディック超放射能は、光-物質相互作用の指標である集合放出の最初の例である。 自由空間における逆エミッタの配列の超輝度は、小さなエミッタからエミッタまでの距離でしか生き残らず、最も近い近傍の相互作用を必要とする。 epsilon-near-zero (enz) 材料は、その無限有効波長のため、長距離相互作用の自然なメディエーターである。 プラズモニック導波路と誘電体フォトニック結晶の2種類のenz構造における超ラジアン特性について検討し,enz材料が空間拡張および近接光学的ディッケ超ラジアンスを実現する大きな可能性を示す。 複雑な結合の場合に適用可能な超放射能の発生を判定するために,提案手法を適用した。 さらに,少数のエミッタ系のエミッションダイナミクスを数値的に解析することにより,全対全相互作用における集団エミッションダイナミクスにおける量子コヒーレンスの役割を決定する。 また,システム内の最大量子コヒーレンスを最大光子バーストレートを用いて決定できることを示す。 本稿では,量子情報処理と光-物質相互作用に将来的な応用が期待でき,現在の実験で実現可能である。

Dicke superradiance is the first example for collective emission that is the hallmark of light-matter interaction. Superradiance for arrays of inverted emitters in free space only survives at tiny emitter-to-emitter distances and requires interactions beyond the nearest-neighbor. Epsilon-near-zero (ENZ) materials are natural mediators for long-range interactions because of their infinite effective wavelengths. We study the superradiance properties in two types of ENZ structures, plasmonic waveguide and dielectric photonic crystal, and show that ENZ materials have great potential to realize spatially extended and near-optimal Dicke superradiance. We perform this by applying the method we derived to determine the occurrence of superradiance that is applicable to complex coupling cases. Additionally, we determine the role of quantum coherence in collective emission dynamics for the case of all-to-all interaction by numerically analyzing the emission dynamics of a few-emitter system. We also show that the maximum quantum coherence in the system can be determined using the maximum photon burst rate. The findings of this paper have prospective applications in quantum information processing and light-matter interaction, and they can be implemented by current experiments.
翻訳日:2023-12-01 17:29:44 公開日:2023-11-30
# 3Dニューラルスティル化の進歩:サーベイ

Advances in 3D Neural Stylization: A Survey ( http://arxiv.org/abs/2311.18328v1 )

ライセンス: Link先を確認
Yingshu Chen, Guocheng Shao, Ka Chun Shum, Binh-Son Hua, Sai-Kit Yeung(参考訳) 現代の人工知能は、スタイルでデジタルアートを作り出す新しい方法を提供します。 ニューラルネットワークの表現力により、画像、ビデオ、および3Dデータを編集して、より芸術的で多様なものにするための視覚スタイルの転送方法が実現される。 本稿では、3dデータのニューラルスタイライゼーションの最近の進歩について報告する。 シーン表現,ガイダンスデータ,最適化戦略,アウトプットスタイルなど,いくつかの重要な設計選択を考慮し,ニューラルスタイライゼーションの分類法を提案する。 このような分類に基づいて、2D画像におけるニューラルスタイリゼーションの背景を再考し、3Dデータに対するニューラルスタイリゼーション手法の詳細な議論を行い、芸術的スタイリゼーション手法のミニベンチマークも提供する。 調査から得られた知見に基づき、オープンチャレンジ、今後の研究、神経スタイライゼーションの潜在的な応用と影響について論じる。

Modern artificial intelligence provides a novel way of producing digital art in styles. The expressive power of neural networks enables the realm of visual style transfer methods, which can be used to edit images, videos, and 3D data to make them more artistic and diverse. This paper reports on recent advances in neural stylization for 3D data. We provide a taxonomy for neural stylization by considering several important design choices, including scene representation, guidance data, optimization strategies, and output styles. Building on such taxonomy, our survey first revisits the background of neural stylization on 2D images, and then provides in-depth discussions on recent neural stylization methods for 3D data, where we also provide a mini-benchmark on artistic stylization methods. Based on the insights gained from the survey, we then discuss open challenges, future research, and potential applications and impacts of neural stylization.
翻訳日:2023-12-01 17:29:23 公開日:2023-11-30
# 非エルミート二次超伝導体

Non-Hermitian second-order topological superconductors ( http://arxiv.org/abs/2311.18325v1 )

ライセンス: Link先を確認
Xaing Ji, Wenchen Ding, Yuanping Chen and Xiaosen Yang(参考訳) 非エルミート系のトポロジーは、非エルミートスキン効果によって根本的に変化し、一般化されたバルク境界対応へと繋がる。 非ブロッホバンド理論に基づき、2つの空間次元における非ヘルミティシティと2次位相超伝導体の相互作用を考察する。 非ハーモニティ性は、粒子-ホール対称性によって保護される自由度と自由度に依存する系の反対側の角に向かって、バルク状態と位相的エッジ状態の両方を蓄積させる。 さらに、マヨラナコーナーモードの縮退は、固有ネルギと局所的なコーナーの両方の点で破ることができる。 エッジ理論解析により、非ハーミティティーの影響を解明し、高次トポロジカル超伝導体を非エルミティアン系の領域に拡張することができる。 報告された$Z_2$スキン効果と$Z_2$スキントポロジカルモードは、非エルミート2階トポロジカル超伝導体の普遍的な特性を示し、一般化されたバルクバウンダリー対応は粒子-ホール対称性によりさらにリッチになる。

The topology of non-Hermitian systems is fundamentally changed by the non-Hermitian skin effect, which leads to the generalized bulk-boundary correspondence. Based on the non-Bloch band theory, we get insight into the interplay between the non-Hermiticity and the second-order topological superconductors in two spatial dimensions. We find that the non-Hermiticity drives both the bulk states and topological edge states to accumulate toward opposite corners of the system depending on the particle and hole degrees of freedom protected by the particle-hole symmetry. Furthermore, the degeneracy of the Majorana corner modes can be broken in terms of both the eigenenergies and the localized corners. Through an edge theory analysis, we elucidate the impact of non-Hermiticity and enable the extension of higher-order topological superconductors to the realm of non-Hermitian systems. The reported $Z_2$ skin effect and $Z_2$ skin-topological modes reveal the universal characteristics of non-Hermitian second-order topological superconductors and the generalized bulk-boundary correspondence is further enriched by the particle-hole symmetry.
翻訳日:2023-12-01 17:29:06 公開日:2023-11-30
# スクワット量子非マルコフ性:状態における真の量子非マルコフ性の測定

Squashed quantum non-Markovianity: a measure of genuine quantum non-Markovianity in states ( http://arxiv.org/abs/2311.18323v1 )

ライセンス: Link先を確認
Rajeev Gangwar, Tanmoy Pandit, Kaumudibikash Goswami, Siddhartha Das, Manabendra Nath Bera(参考訳) 量子非マルコビアン性は量子情報理論において広く研究されている相関関係である。 量子非マルコビアン性は古典的および量子的寄与の両方を持つことが知られているが、後者の体系的な特徴は欠落している。 ここでは、状態における真の量子非マルコフ性(ゲンジンqnm)を定量化する尺度を提案する。 これは、真の量子非マルコフ性に対する凸資源理論を考案し、後者を量子資源として特徴づけるのに役立つ。 この測度をsquashed quantum non-Markovianity (sQNM) と呼ぶ。 これは量子条件の相互情報に基づいており、すべての非量子貢献を除いた後、左上非マルコフ性によって定義される。 この尺度は、凸性、超付加性、モノガミー、漸近連続性、忠実性などの望ましい性質を満たす。 真のQNMは単ガムであり、非条件系の拡張性によって制限される。 真のQNMをリソースとして考えると、sQNMが消滅した状態は自由状態であり、凸集合を形成する。 我々は、状態においてsQNMを増大または生成できない量子演算の(凸)集合を特定し、これらは自由演算である。 資源理論の主成分である自由状態と操作の測度と明確に定義された概念を具備し、自由操作下の状態変換を研究し、sQNM の観点から変換率を導出する。 量子通信と真QNMの相互関係について検討する。 状態変換における量子通信コストは、状態のsQNMの変化によって制限される。 我々は,三部構成状態において,条件付きワンタイムパッドプロトコルを用いて共有できる完全鍵の量は,状態のsQNMによって与えられることを示す。 さらに、量子デコンストラクションプロトコルを実装するために必要なユニタリの平均(最小)数は、状態のsQNMによって与えられる。

Quantum non-Markovianity is a widely explored correlation in quantum information theory. While quantum non-Markovianity is known to have both classical and quantum contributions, a systematic characterization of the latter is missing. Here, we introduce a measure to quantify genuine quantum non-Markovianity (genuine QNM) in states. This helps to devise a convex resource theory for genuine quantum non-Markovianity and characterize the latter as a quantum resource. The measure we introduce is called squashed quantum non-Markovianity (sQNM). It is based on quantum conditional mutual information and is defined by the left-over non-Markovianity after squashing out all non-quantum contributions. The measure satisfies desirable properties, such as convexity, super-additivity, monogamy, asymptotic continuity, and faithfulness. The genuine QNM is monogamous and limited by the extendibility of non-conditioning system(s). While considering genuine QNM as a resource, the states with vanishing sQNM are free states and form a convex set. We identify the (convex) set of quantum operations that cannot increase or create sQNM in states, and these are the free operations. Equipped with the measure and well-defined notions of free states and operations, the main ingredients of a resource theory, we study state transformations under free operation and derive the rate of transformations in terms of sQNM. We explore the interrelation between quantum communication and genuine QNM. The quantum communication cost in a state transformation is lower bounded by the change in sQNM in the states. We show that, for a tripartite state, the amount of fully secured keys that can be shared using conditional one-time pad protocol is given by the state's sQNM. Further, the average (minimum) number of unitaries required to implement a quantum deconstruction protocol is given by the sQNM of the state.
翻訳日:2023-12-01 17:28:50 公開日:2023-11-30
# モジュラー多体量子センサ

Modular Many-Body Quantum Sensors ( http://arxiv.org/abs/2311.18319v1 )

ライセンス: Link先を確認
Chiranjib Mukhopadhyay, Abolfazl Bayat(参考訳) 位相遷移を行う量子多体系は、センシング精度の古典的向上を可能にするプローブとして提案されている。 しかし、この拡張は通常、臨界点周辺の非常に狭い領域に限定される。 本稿では,多体システムに複数相転移を導入するモジュール方式を体系的に開発する。 これにより、新たに生成された位相境界を包含することで、量子化精度の領域を拡大することができる。 我々のアプローチは一般論であり、対称性破壊と位相量子センサの両方に適用できる。 対称性を破るセンサでは、新しく作られた臨界点が元の普遍性クラスを継承していることを示す。 トポロジカルセンサでは、モジュール構造が複数のバンドを生成して、リッチな位相図を生成します。 どちらの場合も、ハミルトンパラメータ推定のためのハイゼンベルクスケーリングはすべての位相境界で達成される。 これは、均一なプローブを著しく上回るグローバルセンサーを作成するために利用することができる。

Quantum many-body systems undergoing phase transitions have been proposed as probes enabling beyond-classical enhancement of sensing precision. However, this enhancement is usually limited to a very narrow region around the critical point. Here, we systematically develop a modular approach for introducing multiple phase transitions in a many-body system. This naturally allows us to enlarge the region of quantum-enhanced precision by encompassing the newly created phase boundaries. Our approach is general and can be applied to both symmetry-breaking and topological quantum sensors. In symmetry-breaking sensors, we show that the newly created critical points inherit the original universality class. In topological sensors, our modular construction creates multiple bands which leads to a rich phase diagram. In both cases, Heisenberg scaling for Hamiltonian parameter estimation is achieved at all the phase boundaries. This can be exploited to create a global sensor which significantly outperforms a uniform probe.
翻訳日:2023-12-01 17:28:24 公開日:2023-11-30
# 動的チャネルにおける意味的知識に基づくオンライン特徴伝達の学習

Learning for Semantic Knowledge Base-Guided Online Feature Transmission in Dynamic Channels ( http://arxiv.org/abs/2311.18316v1 )

ライセンス: Link先を確認
Xiangyu Gao, Yaping Sun, Dongyu Wei, Xiaodong Xu, Hao Chen, Hao Yin, Shuguang Cui(参考訳) エッジコンピューティングの普及に伴い、エッジデバイス上での効率的なAI推論は、自動運転車やVR/ARといったインテリジェントなアプリケーションにとって不可欠になっている。 本稿では,モバイルデバイスとエッジサーバ間の特徴伝達を最適化することで,効率的な遠隔物体認識を実現する。 エンドツーエンド通信システムにおける動的チャネル条件とデバイスモビリティの課題に対処するオンライン最適化フレームワークを提案する。 提案手法は,マルチレベル特徴伝達を駆動する意味的知識ベースを活用し,伝達過程の時間的要因や動的要素を考慮し,既存の手法に基づいている。 オンライン最適化問題を解決するため,我々は,NPハード問題の最適化の難しさを克服し,遅延制約を尊重しながらセマンティックロスの最小化を達成し,リアルタイム意思決定のために慎重に設計された報酬関数を備えた,ソフトアクタによる深層強化学習システムを設計した。 計算結果から, 従来のグリージー法と比較して, 様々なシステム構成におけるアプローチの優位性を示した。

With the proliferation of edge computing, efficient AI inference on edge devices has become essential for intelligent applications such as autonomous vehicles and VR/AR. In this context, we address the problem of efficient remote object recognition by optimizing feature transmission between mobile devices and edge servers. We propose an online optimization framework to address the challenge of dynamic channel conditions and device mobility in an end-to-end communication system. Our approach builds upon existing methods by leveraging a semantic knowledge base to drive multi-level feature transmission, accounting for temporal factors and dynamic elements throughout the transmission process. To solve the online optimization problem, we design a novel soft actor-critic-based deep reinforcement learning system with a carefully designed reward function for real-time decision-making, overcoming the optimization difficulty of the NP-hard problem and achieving the minimization of semantic loss while respecting latency constraints. Numerical results showcase the superiority of our approach compared to traditional greedy methods under various system setups.
翻訳日:2023-12-01 17:28:13 公開日:2023-11-30
# 反応ネットワークによるニューラルネットワークの自動実装 -その1:回路設計と収束解析-

Automatic Implementation of Neural Networks through Reaction Networks -- Part I: Circuit Design and Convergence Analysis ( http://arxiv.org/abs/2311.18313v1 )

ライセンス: Link先を確認
Yuzhen Fan, Xiaoyu Zhang, Chuanhou Gao, Denis Dochain(参考訳) 細胞環境における生化学的相互作用に依存する情報処理は生物にとって不可欠である。 分子計算システムの実装は、合成生物学と分子計算の分野で大きな関心と可能性を持っている。 本論文は,完全結合型ニューラルネットワーク(FCNN)を実現し,生体内で自動的に作用する能力を有する,集団行動運動学を備えたプログラム可能な生化学反応ネットワーク(BCRN)システムの導入を目的とする。 第1部では、フィードフォワード伝播計算、バックプロパゲーション成分、およびFCNNのすべてのブリッジプロセスは、そのダイナミクスに基づいて、特定のBCRNモジュールとして設計されている。 本手法は, 生化学代入モジュールと判定終了モジュールの設計ギャップに対処し, 学習プロセスにおける二分子反応の正確かつ堅牢な実現を実現する。 平衡アプローチにより,設計したBCRNシステムは,目標とする計算結果に指数収束してFCNN機能を実現できることを示す。 最後に、この構成の性能を2つの典型的な論理分類問題でさらに評価する。

Information processing relying on biochemical interactions in the cellular environment is essential for biological organisms. The implementation of molecular computational systems holds significant interest and potential in the fields of synthetic biology and molecular computation. This two-part article aims to introduce a programmable biochemical reaction network (BCRN) system endowed with mass action kinetics that realizes the fully connected neural network (FCNN) and has the potential to act automatically in vivo. In part I, the feedforward propagation computation, the backpropagation component, and all bridging processes of FCNN are ingeniously designed as specific BCRN modules based on their dynamics. This approach addresses a design gap in the biochemical assignment module and judgment termination module and provides a novel precise and robust realization of bi-molecular reactions for the learning process. Through equilibrium approaching, we demonstrate that the designed BCRN system achieves FCNN functionality with exponential convergence to target computational results, thereby enhancing the theoretical support for such work. Finally, the performance of this construction is further evaluated on two typical logic classification problems.
翻訳日:2023-12-01 17:27:56 公開日:2023-11-30
# 高品質なニューラルレンダリングのための異方性ニューラル表現学習

Anisotropic Neural Representation Learning for High-Quality Neural Rendering ( http://arxiv.org/abs/2311.18311v1 )

ライセンス: Link先を確認
Y.Wang, J. Xu, Y. Zeng and Y. Gong(参考訳) ニューラルレイディアンス場(NeRF)は,多視点画像から暗黙の容積表現を学習することにより,印象的なビュー合成を実現している。 暗黙表現を画像に投影するために、nerfは、サンプリングされた点の色と密度の蓄積として、線の連続積分を近似するボリュームレンダリングを用いる。 この近似は効率的なレンダリングを可能にするが、方向情報を点間隔で無視し、あいまいな特徴と再構成品質が制限される。 本稿では、学習可能なビュー依存機能を利用してシーン表現と再構成を改善する異方性ニューラル表現学習法を提案する。 我々は,体積関数を球面調和(SH)誘導異方性特徴としてモデル化し,多層パーセプトロンでパラメータ化し,レンダリング効率を保ちながら曖昧性除去を容易にする。 異方性オーバーフィッティングを伴わない堅牢なシーン再構築を実現するため,トレーニング中の異方性特徴のエネルギーを正規化する。 我々の手法は柔軟であり、NeRFベースのフレームワークにプラグインできる。 広汎な実験により,提案手法により,様々なNeRFのレンダリング品質が向上し,合成シーンと実シーンの両方で最先端のレンダリング性能が得られることが示された。

Neural radiance fields (NeRFs) have achieved impressive view synthesis results by learning an implicit volumetric representation from multi-view images. To project the implicit representation into an image, NeRF employs volume rendering that approximates the continuous integrals of rays as an accumulation of the colors and densities of the sampled points. Although this approximation enables efficient rendering, it ignores the direction information in point intervals, resulting in ambiguous features and limited reconstruction quality. In this paper, we propose an anisotropic neural representation learning method that utilizes learnable view-dependent features to improve scene representation and reconstruction. We model the volumetric function as spherical harmonic (SH)-guided anisotropic features, parameterized by multilayer perceptrons, facilitating ambiguity elimination while preserving the rendering efficiency. To achieve robust scene reconstruction without anisotropy overfitting, we regularize the energy of the anisotropic features during training. Our method is flexiable and can be plugged into NeRF-based frameworks. Extensive experiments show that the proposed representation can boost the rendering quality of various NeRFs and achieve state-of-the-art rendering performance on both synthetic and real-world scenes.
翻訳日:2023-12-01 17:27:38 公開日:2023-11-30
# カテゴリー的交通変圧器:Tokenized Latentを用いた解釈・横動作予測

Categorical Traffic Transformer: Interpretable and Diverse Behavior Prediction with Tokenized Latent ( http://arxiv.org/abs/2311.18307v1 )

ライセンス: Link先を確認
Yuxiao Chen, Sander Tonkens, and Marco Pavone(参考訳) 適応交通モデルは、自動運転車(AV)の計画と閉ループシミュレーションの両方に重要であり、設計目的には精度、多様なマルチモーダルな振る舞い、解釈可能性、下流互換性などが含まれる。 近年,大規模言語モデル (LLM) の出現に伴い,交通モデルに望ましい機能として LLM との互換性がある。 本稿では、連続軌跡予測とトークン化されたカテゴリー予測(レーンモード、ホモトピーなど)の両方を出力する交通モデルであるCategorical Traffic Transformer(CTT)を提案する。 CTTの最も優れた特徴は、完全に解釈可能な潜伏空間であり、トレーニング中に地上の真理から潜伏変数を直接監視し、モード崩壊を完全に回避することができる。 その結果、CTTは、予測精度でSOTAを叩きながら意味のある異なる潜伏モードで条件付けられた多様な振る舞いを生成できる。 さらに、CTTのトークンの入力および出力能力は、共通センス推論とゼロショット一般化のためのLLMとの統合を可能にする。

Adept traffic models are critical to both planning and closed-loop simulation for autonomous vehicles (AV), and key design objectives include accuracy, diverse multimodal behaviors, interpretability, and downstream compatibility. Recently, with the advent of large language models (LLMs), an additional desirable feature for traffic models is LLM compatibility. We present Categorical Traffic Transformer (CTT), a traffic model that outputs both continuous trajectory predictions and tokenized categorical predictions (lane modes, homotopies, etc.). The most outstanding feature of CTT is its fully interpretable latent space, which enables direct supervision of the latent variable from the ground truth during training and avoids mode collapse completely. As a result, CTT can generate diverse behaviors conditioned on different latent modes with semantic meanings while beating SOTA on prediction accuracy. In addition, CTT's ability to input and output tokens enables integration with LLMs for common-sense reasoning and zero-shot generalization.
翻訳日:2023-12-01 17:27:17 公開日:2023-11-30
# レイナイ―衛星データから降雨を流す

RainAI -- Precipitation Nowcasting from Satellite Data ( http://arxiv.org/abs/2311.18398v1 )

ライセンス: Link先を確認
Rafael Pablos Sarabia, Joachim Nyborg, Morten Birk, Ira Assent(参考訳) 本稿では,weather4cast 2023コンペティションの解決策として,低解像度衛星放射画像を用いた8時間リードタイムによる高分解能降水予測を提案する。 本研究では,2次元u-netモデルを用いた時空間的特徴学習のための単純かつ効果的な手法を提案する。 我々は,重要サンプリングとデータセット作成を通じて,データセットの精錬に重点を置いて,そのような手法がパフォーマンスに重大な影響を与えることを示す。 さらに、標準的な平均二乗誤差損失よりも性能を向上し、モデルが確率的出力を生成できる代替のクロスエントロピー損失関数についても検討する。 異なるリードタイム、特にコンディショニングリードタイムによる予測の生成に関して、追加のテクニックが検討されている。 最後に,高分解能予測を生成するために,標準および学習済みのアップサンプリング法を評価する。 コードとトレーニングされたパラメータはhttps://github.com/rafapablos/w4c23-rainaiで利用可能である。

This paper presents a solution to the Weather4Cast 2023 competition, where the goal is to forecast high-resolution precipitation with an 8-hour lead time using lower-resolution satellite radiance images. We propose a simple, yet effective method for spatiotemporal feature learning using a 2D U-Net model, that outperforms the official 3D U-Net baseline in both performance and efficiency. We place emphasis on refining the dataset, through importance sampling and dataset preparation, and show that such techniques have a significant impact on performance. We further study an alternative cross-entropy loss function that improves performance over the standard mean squared error loss, while also enabling models to produce probabilistic outputs. Additional techniques are explored regarding the generation of predictions at different lead times, specifically through Conditioning Lead Time. Lastly, to generate high-resolution forecasts, we evaluate standard and learned upsampling methods. The code and trained parameters are available at https://github.com/rafapablos/w4c23-rainai.
翻訳日:2023-12-01 17:20:25 公開日:2023-11-30
# IAG: 推論質問に答える誘導型生成フレームワーク

IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions ( http://arxiv.org/abs/2311.18397v1 )

ライセンス: Link先を確認
Zhebin Zhang, Xinyu Zhang, Yuanhang Ren, Saijiang Shi, Meng Han, Yongkang Wu, Ruofei Lai, Zhao Cao(参考訳) Retrieval-Augmented Generation (RAG)は、言語モデルのパラメトリックメモリに外部知識を組み込むことで、オープンドメインQAタスクの最先端アーキテクチャとなった。 しかし、共通知識ベースは、限られたカバレッジとノイズ情報によって本質的に制約されており、検索に基づくアプローチは暗黙の推論問題に答えるには不十分である。 本稿では,暗黙的推論のための帰納的知識と文書を併用した誘導型生成(IAG)フレームワークを提案する。 我々は,帰納的推論パターンに基づく新しいプロンプト手法によって知識を導出するために,大規模言語モデル(llm)を活用する。 さらに, IAG-GPT と IAG-Student の2つのバージョンを実装した。 IAG-GPT は GPT-3 が生成した知識を直接活用し,IAG-Student は学生インダクタモデルを組み込んだ推論時に GPT サービスへの依存を除去する。 インダクタは、まず知識蒸留により訓練され、さらに異なるビームスコアによる発電機フィードバックのバックプロパゲーションによって最適化される。 実験の結果, IAGはRAGベースラインとChatGPTを2つのオープンドメインQAタスクで上回ることがわかった。 特に、私たちの最高のモデルはCSQA2.0(2022年11月1日以降)とStrategyQA(2023年1月8日以降)の公式リーダーボードで優勝しました。

Retrieval-Augmented Generation (RAG), by incorporating external knowledge with parametric memory of language models, has become the state-of-the-art architecture for open-domain QA tasks. However, common knowledge bases are inherently constrained by limited coverage and noisy information, making retrieval-based approaches inadequate to answer implicit reasoning questions. In this paper, we propose an Induction-Augmented Generation (IAG) framework that utilizes inductive knowledge along with the retrieved documents for implicit reasoning. We leverage large language models (LLMs) for deriving such knowledge via a novel prompting method based on inductive reasoning patterns. On top of this, we implement two versions of IAG named IAG-GPT and IAG-Student, respectively. IAG-GPT directly utilizes the knowledge generated by GPT-3 for answer prediction, while IAG-Student gets rid of dependencies on GPT service at inference time by incorporating a student inductor model. The inductor is firstly trained via knowledge distillation and further optimized by back-propagating the generator feedback via differentiable beam scores. Experimental results show that IAG outperforms RAG baselines as well as ChatGPT on two Open-Domain QA tasks. Notably, our best models have won the first place in the official leaderboards of CSQA2.0 (since Nov 1, 2022) and StrategyQA (since Jan 8, 2023).
翻訳日:2023-12-01 17:20:07 公開日:2023-11-30
# 明るい「バナナ」状態の準確率分布の効率的な計算アルゴリズム

Effective algorithms for calculation of quasiprobability distributions of bright "banana'' states ( http://arxiv.org/abs/2311.18395v1 )

ライセンス: Link先を確認
Boulat Nougmanov(参考訳) 負値のウィグナー関数によって記述される非ガウス量子状態は、量子物理学の基礎的なテストと新しい量子情報技術の両方において重要である。 非ガウス状態の有望な生成方法の1つに立方体(kerr)光非線形性(英語版)(cubical non-linearity)が使われ、結果として生じる量子状態のバナナのような特徴的な形状を生成する。 しかし、非常に透明な光学材料におけるカー効果は弱い。 したがって、光学モードの光子(n\gtrsim10^6$)は観測可能な非ガウス性を生成するために必要である。 この場合、ウィグナー関数の計算に対する直接的なアプローチは非常に計算コストが高い。 本研究では,これらの非ガウシン状態のhusimiおよびwigner準確率関数をkerr非線形性を用いて高速に計算するアルゴリズムを開発した。 このアルゴリズムは光子数と非線形性の任意の現実的な値に使うことができる。

Non-Gaussian quantum states, described by negative valued Wigner functions, are important both for fundamental tests of quantum physics and for emerging quantum information technologies. One of the promising ways of generation of the non-Gaussian states is the use of the cubic (Kerr) optical non-linearity, which produces the characteristic banana-like shape of the resulting quantum states. However, the Kerr effect in highly transparent optical materials is weak. Therefore, big number of the photons in the optical mode ($n\gtrsim10^6$) is necessary to generate an observable non-Gaussianity. In this case, the direct approach to calculation of the Wigner function becomes extremely computationally expensive. In this work, we develop quick algorithms for computing the Husimi and Wigner quasiprobability functions of these non-Gaussin states by means of the Kerr nonlinearity. This algorithm can be used for any realistic values of the photons number and the non-linearity.
翻訳日:2023-12-01 17:19:38 公開日:2023-11-30
# 車両軌道制御のためのデータ効率の高い深層強化学習

Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control ( http://arxiv.org/abs/2311.18393v1 )

ライセンス: Link先を確認
Bernd Frauenknecht, Tobias Ehlgen and Sebastian Trimpe(参考訳) 高度な車両制御は、自律運転システムの開発における基本的な構成要素である。 強化学習(Reinforcement Learning, RL)は、従来のアプローチよりも優れた制御性能を実現すると同時に、デプロイメント時の計算要求を低くする。 しかし、Soft-actor critic (SAC)のような標準的なRLアプローチでは、大量のトレーニングデータを収集する必要があるため、現実のアプリケーションでは実用的ではない。 この問題に対処するために,最近開発されたデータ効率の高い深層rl法を車両軌道制御に適用した。 本研究は,車両制御のための3つの手法,ランダム化アンサンブルダブルQ学習(REDQ),軌道サンプリングとモデル予測経路積分最適化器(PETS-MPPI)を用いた確率的アンサンブル,モデルベースポリシー最適化(MBPO)に焦点を当てた。 軌道制御の場合,PETS-MPPIやMBPOのようなアプローチで使用される標準モデルベースRLの定式化は適切ではない。 そこで我々は,ダイナミックス予測と車両位置推定を分割する新しい定式化を提案する。 CARLAシミュレータのベンチマーク研究により,3つの同定された深部RLアプローチは,SACと同等以上の制御戦略を学習するが,必要な環境相互作用数を1桁以上削減することがわかった。

Advanced vehicle control is a fundamental building block in the development of autonomous driving systems. Reinforcement learning (RL) promises to achieve control performance superior to classical approaches while keeping computational demands low during deployment. However, standard RL approaches like soft-actor critic (SAC) require extensive amounts of training data to be collected and are thus impractical for real-world application. To address this issue, we apply recently developed data-efficient deep RL methods to vehicle trajectory control. Our investigation focuses on three methods, so far unexplored for vehicle control: randomized ensemble double Q-learning (REDQ), probabilistic ensembles with trajectory sampling and model predictive path integral optimizer (PETS-MPPI), and model-based policy optimization (MBPO). We find that in the case of trajectory control, the standard model-based RL formulation used in approaches like PETS-MPPI and MBPO is not suitable. We, therefore, propose a new formulation that splits dynamics prediction and vehicle localization. Our benchmark study on the CARLA simulator reveals that the three identified data-efficient deep RL approaches learn control strategies on a par with or better than SAC, yet reduce the required number of environment interactions by more than one order of magnitude.
翻訳日:2023-12-01 17:19:22 公開日:2023-11-30
# DPMソルバーの特殊反転について

On Exact Inversion of DPM-Solvers ( http://arxiv.org/abs/2311.18387v1 )

ライセンス: Link先を確認
Seongmin Hong, Kyeonghyun Lee, Suh Yoon Jeon, Hyewon Bae, Se Young Chun(参考訳) 拡散確率モデル(DPM)は現代の生成モデルにおいて重要な要素である。 DPM解法は遅延を低減し、品質を大幅に向上させたが、正確な逆(すなわち、与えられた画像から最初のノイズを見つける)を見つけるのが困難であった。 そこで本研究では,DPM解法と高次DPM解法によってサンプルが生成される場合に,DPM解法を正確に逆転させるアルゴリズムを提案する。 dpmソルバの各明示的な分別ステップに対して,勾配降下法やフォワードステップ法といった暗黙的な手法を用いて逆変換を定式化し,固定点反復を用いた従来の手法と異なり,大きな分類器フリーガイダンスの頑健性を保証する。 実験の結果,提案手法は画像と雑音の双方の誤りを著しく低減し,目に見える透かしを識別する能力を大幅に向上し,画像編集中に意図しない背景変化を一定に防止した。 プロジェクトページ: \url{https://smhongok.github.io/inv-dpm.html}

Diffusion probabilistic models (DPMs) are a key component in modern generative models. DPM-solvers have achieved reduced latency and enhanced quality significantly, but have posed challenges to find the exact inverse (i.e., finding the initial noise from the given image). Here we investigate the exact inversions for DPM-solvers and propose algorithms to perform them when samples are generated by the first-order as well as higher-order DPM-solvers. For each explicit denoising step in DPM-solvers, we formulated the inversions using implicit methods such as gradient descent or forward step method to ensure the robustness to large classifier-free guidance unlike the prior approach using fixed-point iteration. Experimental results demonstrated that our proposed exact inversion methods significantly reduced the error of both image and noise reconstructions, greatly enhanced the ability to distinguish invisible watermarks and well prevented unintended background changes consistently during image editing. Project page: \url{https://smhongok.github.io/inv-dpm.html}.
翻訳日:2023-12-01 17:18:56 公開日:2023-11-30
# 異なる化学ドメイン間の伝達学習:小分子と化学反応データに基づく深層学習モデルによる有機材料の仮想スクリーニング

Transfer Learning across Different Chemical Domains: Virtual Screening of Organic Materials with Deep Learning Models Pretrained on Small Molecule and Chemical Reaction Data ( http://arxiv.org/abs/2311.18377v1 )

ライセンス: Link先を確認
Chengwei Zhang, Yushuang Zhai, Ziyang Gong, Yuan-Bin She, Yun-Fang Yang, An Su(参考訳) 有機材料特性の機械学習予測は、より高価なスクリーニング手法よりも先にある効率的な仮想スクリーニング手法である。 しかしながら、このアプローチは、最先端の機械学習モデルをトレーニングするために、有機材料のラベル付きデータ不足に苦しめられている。 本研究では,薬物様小分子および化学反応データベースを用いて,有機物質の仮想スクリーニングのためのbertモデルを事前学習できることを実証する。 有機材料上で5つの仮想スクリーニングタスクによって微調整されたBERTモデルのうち、USPTO-SMILES事前訓練されたBERTモデルは2つのタスクに対してR2 > 0.90、R2 > 0.82であった。 USPTO-SMILESプレトレーニングされたBERTモデルの優れた性能は、USPTOデータベースにおけるより多様な有機構造ブロックと、より広い化学空間のカバーに起因する。 化学反応を付加した化学反応データベースから事前訓練されたBERTモデルのより優れた性能は、異なる化学ドメイン間での変換学習が有機材料の仮想スクリーニングに有効であるという概念の証明を強化する。

Machine learning prediction of organic materials properties is an efficient virtual screening method ahead of more expensive screening methods. However, this approach has suffered from insufficient labeled data on organic materials to train state-of-the-art machine learning models. In this study, we demonstrate that drug-like small molecule and chemical reaction databases can be used to pretrain the BERT model for the virtual screening of organic materials. Among the BERT models fine-tuned by five virtual screening tasks on organic materials, the USPTO-SMILES pretrained BERT model had R2 > 0.90 for two tasks and R2 > 0.82 for one, which was generally superior to the same models pretrained by the small molecule or organic materials databases, as well as to the other three traditional machine learning models trained directly on the virtual screening task data. The superior performance of the USPTO-SMILES pretrained BERT model is due to the greater variety of organic building blocks in the USPTO database and the broader coverage of the chemical space. The even better performance of the BERT model pretrained externally from a chemical reaction database with additional sources of chemical reactions strengthens our proof of concept that transfer learning across different chemical domains is practical for the virtual screening of organic materials.
翻訳日:2023-12-01 17:18:39 公開日:2023-11-30
# 年齢が意思決定, ドリフト拡散モデルに及ぼす影響

Age Effects on Decision-Making, Drift Diffusion Model ( http://arxiv.org/abs/2311.18376v1 )

ライセンス: Link先を確認
Zahra Kavian, Kimia Hajisadeghi, Yashar Rezazadeh, Mehrbod Faraji, Reza Ebrahimpour(参考訳) トレーニングは人間の意思決定能力を改善する。 複数回のトレーニングセッションの後、人は迅速かつ正確にタスクを完了できる。 しかし、意思決定は常に正確性と応答時間の間のトレードオフである。 年齢や薬物乱用などの要因が意思決定プロセスに影響を及ぼす可能性がある。 本研究では,ランダム・ドット・モーション(RDM)タスクの完了時に,異なる年齢グループのパフォーマンスを向上させるためのトレーニング方法を検討する。 参加者は、老人と若者の2つのグループに分けられる。 彼らは3段階の訓練を受け、同じrdmタスクを繰り返す。 階層的ドリフト拡散モデルは, 被験者の反応を解析し, 両年齢群のトレーニング後, モデルのパラメータがどう変化するかを決定する。 その結果, 訓練後, 被験者は感覚情報をより早く蓄積することができ, モデルドリフト率も向上した。 しかし、その決定境界は、より自信を増し、意思決定のしきい値が低いほど小さくなった。 さらに,前訓練と後訓練のいずれにおいても,旧群は境界値が高く,ドリフト率も低く,訓練後の2群パラメータに差は認められなかった。

Training can improve human decision-making performance. After several training sessions, a person can quickly and accurately complete a task. However, decision-making is always a trade-off between accuracy and response time. Factors such as age and drug abuse can affect the decision-making process. This study examines how training can improve the performance of different age groups in completing a random dot motion (RDM) task. The participants are divided into two groups: old and young. They undergo a three-phase training and then repeat the same RDM task. The hierarchical drift-diffusion model analyzes the subjects' responses and determines how the model's parameters change after training for both age groups. The results show that after training, the participants were able to accumulate sensory information faster, and the model drift rate increased. However, their decision boundary decreased as they became more confident and had a lower decision-making threshold. Additionally, the old group had a higher boundary and lower drift rate in both pre and post-training, and there was less difference between the two group parameters after training.
翻訳日:2023-12-01 17:18:14 公開日:2023-11-30
# polypセグメンテーションのためのディープラーニングに関する調査:技術,課題,今後の動向

A Survey on Deep Learning for Polyp Segmentation: Techniques, Challenges and Future Trends ( http://arxiv.org/abs/2311.18373v1 )

ライセンス: Link先を確認
Jiaxin Mei, Tao Zhou, Kaiwen Huang, Yizhe Zhang, Yi Zhou, Ye Wu, Huazhu Fu(参考訳) ポリープの早期検出と評価は大腸癌(CRC)の予防と治療において重要な役割を担っている。 ポリープセグメンテーション(Polyp segmentation)は、臨床医が正確なポリープ領域の特定とセグメンテーションを支援する効果的なソリューションを提供する。 過去には、色、テクスチャ、形状など、手作業で抽出された低レベルな特徴を頼りにすることが多かった。 ディープラーニングの出現に伴い、深層学習ネットワークに基づく医用画像分割アルゴリズムがますます登場し、この分野では大きな進歩を遂げている。 本稿では,ポリプセグメンテーションアルゴリズムの包括的レビューを行う。 まず,手作業で抽出した特徴と深いセグメンテーションアルゴリズムに基づく従来のアルゴリズムをレビューし,そのトピックに関連するベンチマークデータセットを詳述した。 具体的には,研究トピックの問題点とネットワーク構造の違いを考慮して,最近のディープラーニングモデルとポリプサイズに基づく結果の包括的評価を行う。 最後に, この分野におけるポリプセグメンテーションの課題と今後の動向について論じる。 収集したモデル、ベンチマークデータセット、ソースコードリンクはすべてhttps://github.com/taozh2017/Awesome-Polyp-Segmentationで公開されている。

Early detection and assessment of polyps play a crucial role in the prevention and treatment of colorectal cancer (CRC). Polyp segmentation provides an effective solution to assist clinicians in accurately locating and segmenting polyp regions. In the past, people often relied on manually extracted lower-level features such as color, texture, and shape, which often had issues capturing global context and lacked robustness to complex scenarios. With the advent of deep learning, more and more outstanding medical image segmentation algorithms based on deep learning networks have emerged, making significant progress in this field. This paper provides a comprehensive review of polyp segmentation algorithms. We first review some traditional algorithms based on manually extracted features and deep segmentation algorithms, then detail benchmark datasets related to the topic. Specifically, we carry out a comprehensive evaluation of recent deep learning models and results based on polyp sizes, considering the pain points of research topics and differences in network structures. Finally, we discuss the challenges of polyp segmentation and future trends in this field. The models, benchmark datasets, and source code links we collected are all published at https://github.com/taozh2017/Awesome-Polyp-Segmentation.
翻訳日:2023-12-01 17:17:57 公開日:2023-11-30
# 浮き沈み低減による文節空間の改善

Hubness Reduction Improves Sentence-BERT Semantic Spaces ( http://arxiv.org/abs/2311.18364v1 )

ライセンス: Link先を確認
Beatrix M. G. Nielsen and Lars Kai Hansen(参考訳) テキストのセマンティック表現、すなわち、幾何学的に意味を捉える自然言語の表現は、情報検索や文書のグルーピングといった分野において不可欠である。 近年、高次元訓練された密度ベクトルはそのような表現として多くの注目を集めている。 本研究では,Sentence-BERTによる埋め込みから生じる意味空間の構造を調査し,その表現が高次元においてよく知られた問題に悩まされていることを明らかにする。 ハブネスは、いくつかのテキスト(ハブ)が他の多くのテキストの近傍であり、ほとんどのテキスト(いわゆるアンチハブ)が他のテキストの近傍であるような非対称な近隣関係をもたらす。 本研究は, 地域別分類器のハブネススコアと誤差率を用いて, 組込みのセマンティクス品質を定量化する。 ハブ性が高い場合には、ハブ性低減法を用いてエラー率とハブ性を低減することができる。 2つの方法の組み合わせを最善の還元結果として特定する。 例えば、事前訓練されたモデルの1つで、この組み合わせにより、ハブネスを約75%、エラー率を約9%削減できる。 したがって、埋め込み空間におけるハブ性を軽減することは、テキストのセマンティック表現をより良くする。

Semantic representations of text, i.e. representations of natural language which capture meaning by geometry, are essential for areas such as information retrieval and document grouping. High-dimensional trained dense vectors have received much attention in recent years as such representations. We investigate the structure of semantic spaces that arise from embeddings made with Sentence-BERT and find that the representations suffer from a well-known problem in high dimensions called hubness. Hubness results in asymmetric neighborhood relations, such that some texts (the hubs) are neighbours of many other texts while most texts (so-called anti-hubs), are neighbours of few or no other texts. We quantify the semantic quality of the embeddings using hubness scores and error rate of a neighbourhood based classifier. We find that when hubness is high, we can reduce error rate and hubness using hubness reduction methods. We identify a combination of two methods as resulting in the best reduction. For example, on one of the tested pretrained models, this combined method can reduce hubness by about 75% and error rate by about 9%. Thus, we argue that mitigating hubness in the embedding space provides better semantic representations of text.
翻訳日:2023-12-01 17:17:37 公開日:2023-11-30
# 各テスト画像は、特定のプロンプトに値する:2次元医用画像分割のための連続的なテスト時間適応

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation ( http://arxiv.org/abs/2311.18363v1 )

ライセンス: Link先を確認
Ziyang Chen, Yiwen Ye, Mengkang Lu, Yongsheng Pan, Yong Xia(参考訳) 分布シフトは、異なる医療センターから取得した医療画像に広く存在し、実世界の応用に事前訓練されたセマンティックセグメンテーションモデルを展開する上で重要な障害となる。 テスト時間適応は、推論中にクロスドメイン分布シフトに取り組む際に有効であることが証明されている。 しかし、既存のほとんどの手法は、事前訓練されたモデルを更新することで適応し、一連の分散シフト(すなわち連続的なテスト時間適応設定の下で)に遭遇した場合にエラーの蓄積や破滅的な忘れをしがちである。 本稿では,これらのモデル更新に伴う課題を克服するために,事前学習したモデルを凍結し,バッチ正規化層の統計を整合させるために,各テスト画像に対する特定のプロンプトを訓練する視覚プロンプトベーステスト時間適応(vptta)法を提案する。 具体的には、少数のパラメータしか持たず、単一のイテレーションで効果的に訓練できる軽量な低周波プロンプトを提案する。 迅速な初期化を促進するため、我々はVPTTAをメモリバンクに装備し、現在のプロンプトの恩恵を受ける。 さらに、ソースとターゲット統計を混合してウォームアップ統計を構築し、トレーニングプロセスを容易にするウォームアップ機構を設計する。 2つの医用画像セグメンテーションベンチマークタスクにおける他の最先端手法よりもVPTTAの方が優れていることを示す。 事前トレーニング済みのソースモデルのコードと重みはhttps://github.com/Chen-Ziyang/VPTTAで公開されている。

Distribution shift widely exists in medical images acquired from different medical centres and poses a significant obstacle to deploying the pre-trained semantic segmentation model in real-world applications. Test-time adaptation has proven its effectiveness in tackling the cross-domain distribution shift during inference. However, most existing methods achieve adaptation by updating the pre-trained models, rendering them susceptible to error accumulation and catastrophic forgetting when encountering a series of distribution shifts (i.e., under the continual test-time adaptation setup). To overcome these challenges caused by updating the models, in this paper, we freeze the pre-trained model and propose the Visual Prompt-based Test-Time Adaptation (VPTTA) method to train a specific prompt for each test image to align the statistics in the batch normalization layers. Specifically, we present the low-frequency prompt, which is lightweight with only a few parameters and can be effectively trained in a single iteration. To enhance prompt initialization, we equip VPTTA with a memory bank to benefit the current prompt from previous ones. Additionally, we design a warm-up mechanism, which mixes source and target statistics to construct warm-up statistics, thereby facilitating the training process. Extensive experiments demonstrate the superiority of our VPTTA over other state-of-the-art methods on two medical image segmentation benchmark tasks. The code and weights of pre-trained source models are available at https://github.com/Chen-Ziyang/VPTTA.
翻訳日:2023-12-01 17:17:18 公開日:2023-11-30
# 現場外観と空間利用を用いた視線自動設計

Automating lookahead planning using site appearance and space utilization ( http://arxiv.org/abs/2311.18361v1 )

ライセンス: Link先を確認
Eyob Mengiste, Borja Garcia de Soto, Timo Hartmann(参考訳) 本研究では,視線計画の自動化手法を提案する。 提案手法では,作業完了率の予測に建築材料条件(外観)と現場空間利用を利用する。 作業完了率を推定し,データ認識型ルックアヘッド計画を提案するため,建設プロジェクトタイムラインのセグメントを用いてゲート型リカレントユニット(gru)ベースのリカレントニューラルネットワーク(rnn)モデルを訓練した。 提案手法は, 製版, 塗装, 電気器具の設置などの仕上げ工事を含むサンプル建設プロジェクトにおいて評価された。 その結果,提案手法は自動ルックアヘッド計画の開発を支援することができることがわかった。 そこで本研究では,建設現場における建設計画と実際のイベントを関連づける。 従来のスケジューリング手法を拡張し、広い範囲の空間的制約をルックアヘッド計画に統合する。

This study proposes a method to automate the development of lookahead planning. The proposed method uses construction material conditions (i.e., appearances) and site space utilization to predict task completion rates. A Gated Recurrent Unit (GRU) based Recurrent Neural Network (RNN) model was trained using a segment of a construction project timeline to estimate completion rates of tasks and propose data-aware lookahead plans. The proposed method was evaluated in a sample construction project involving finishing works such as plastering, painting, and installing electrical fixtures. The results show that the proposed method can assist with developing automated lookahead plans. In doing so, this study links construction planning with actual events at the construction site. It extends the traditional scheduling techniques and integrates a broader spectrum of site spatial constraints into lookahead planning.
翻訳日:2023-12-01 17:16:49 公開日:2023-11-30
# tide: テスト時間 少数のショットオブジェクト検出

TIDE: Test Time Few Shot Object Detection ( http://arxiv.org/abs/2311.18358v1 )

ライセンス: Link先を確認
Weikai Li, Hongfeng Wei, Yanlai Wu, Jie Yang, Yudi Ruan, Yuan Li and Ying Tang(参考訳) Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。 FSODの最近の進歩は、メタ学習やデータ拡張によるいくつかのオブジェクトに基づいたベースモデルの微調整に焦点を当てている。 彼らの成功にもかかわらず、その大半は、新しいオブジェクトを一般化するためのパラメトリックな修正を基礎にしており、産業5.0のような大きな課題に直面している。 (i)一定量の微調整時間が必要であり、 2) 特権保護のため構築されたモデルのパラメータが利用できないため、微調整が失敗する。 このような制約は、リアルタイムな設定要件やブラックボックス設定のシナリオでアプリケーションを制限する。 上記の課題に取り組むために,テストタイム・マイズ・ショット検出(tide)と呼ばれる新しいfsodタスクを定式化し,その構成手順でモデルを調整しない。 そこで我々は,サポートインスタンス誘導動的カテゴリー分類器を学習するための非対称アーキテクチャを提案する。 さらに、モデル性能を向上させるために、クロスアテンションモジュールとマルチスケールリシライザを設ける。 複数の複数ショットオブジェクト検出プラットフォームの実験結果から,提案したTIDEが既存手法よりも優れていたことが判明した。 実装コードはhttps://github.com/deku-0621/tideで利用可能である。

Few-shot object detection (FSOD) aims to extract semantic knowledge from limited object instances of novel categories within a target domain. Recent advances in FSOD focus on fine-tuning the base model based on a few objects via meta-learning or data augmentation. Despite their success, the majority of them are grounded with parametric readjustment to generalize on novel objects, which face considerable challenges in Industry 5.0, such as (i) a certain amount of fine-tuning time is required, and (ii) the parameters of the constructed model being unavailable due to the privilege protection, making the fine-tuning fail. Such constraints naturally limit its application in scenarios with real-time configuration requirements or within black-box settings. To tackle the challenges mentioned above, we formalize a novel FSOD task, referred to as Test TIme Few Shot DEtection (TIDE), where the model is un-tuned in the configuration procedure. To that end, we introduce an asymmetric architecture for learning a support-instance-guided dynamic category classifier. Further, a cross-attention module and a multi-scale resizer are provided to enhance the model performance. Experimental results on multiple few-shot object detection platforms reveal that the proposed TIDE significantly outperforms existing contemporary methods. The implementation codes are available at https://github.com/deku-0621/TIDE
翻訳日:2023-12-01 17:16:35 公開日:2023-11-30
# 比較可能なアクティブラーニングを目指して

Towards Comparable Active Learning ( http://arxiv.org/abs/2311.18356v1 )

ライセンス: Link先を確認
Thorben Werner, Johannes Burchert, Lars Schmidt-Thieme(参考訳) アクティブラーニングは、ラベル付けのための最も有益なサンプルを選択する可能性から、機械学習の分野で大きな注目を集めており、データアノテーションコストを削減している。 しかし、近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。 さらに,不公平な比較と結果のばらつきを招く可能性があるal実験を再現する上で,見過ごされた問題を浮き彫りにする。 本稿では,さまざまなタスクとドメイン間のアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,高速かつ高性能なoracle評価アルゴリズムを提供することで,これらの問題に対処する。 我々の知る限り、我々はアルゴリズムを3つの主要なドメイン(タブラリ、イメージ、テキスト)でテストする最初のALベンチマークを提案する。 7つの実世界と2つの合成データセットで広く使われている6つのアルゴリズムについて実験結果を報告する。

Active Learning has received significant attention in the field of machine learning for its potential in selecting the most informative samples for labeling, thereby reducing data annotation costs. However, we show that the reported lifts in recent literature generalize poorly to other domains leading to an inconclusive landscape in Active Learning research. Furthermore, we highlight overlooked problems for reproducing AL experiments that can lead to unfair comparisons and increased variance in the results. This paper addresses these issues by providing an Active Learning framework for a fair comparison of algorithms across different tasks and domains, as well as a fast and performant oracle algorithm for evaluation. To the best of our knowledge, we propose the first AL benchmark that tests algorithms in 3 major domains: Tabular, Image, and Text. We report empirical results for 6 widely used algorithms on 7 real-world and 2 synthetic datasets and aggregate them into a domain-specific ranking of AL algorithms.
翻訳日:2023-12-01 17:16:12 公開日:2023-11-30
# 論理読解における批判的推論の理論的理解の評価

Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension ( http://arxiv.org/abs/2311.18353v1 )

ライセンス: Link先を確認
Akira Kawabata, Saku Sugawara(参考訳) 言語モデルの論理的読解能力を評価するために,批判的推論の背後にある理性を理解するためのデータセットを提案する。 既存のマルチチョイス論理読解データセットから得られた質問に対して、なぜ回答オプションを選択したり削除すべきなのかを説明する合理テキストをクラウドソースし、933のメイン質問に関連付けられた3,003のマルチチョイスサブクエストを生成します。 私たちのデータセットでの実験では、最近の大規模言語モデル(例えばinstructgpt)は、たとえ主要な質問に正しく答えられたとしても、サブクエストへの答えに苦労しています。 我々は、モデルが主な質問の間違った選択肢のために書かれたサブクエスチョーションに特にうまく対応できないことを見出し、モデルがなぜ間違った代替案を排除するべきかを説明する能力が限られていることを示唆する。 これらの結果から,我々のデータセットは,関連する選択肢の排除プロセスに着目しつつ,言語モデルの批判的推論能力のさらなる調査を促進することが示唆された。

To precisely evaluate a language model's capability for logical reading comprehension, we present a dataset for testing the understanding of the rationale behind critical reasoning. For questions taken from an existing multiplechoice logical reading comprehension dataset, we crowdsource rationale texts that explain why we should select or eliminate answer options, resulting in 3,003 multiple-choice subquestions that are associated with 943 main questions. Experiments on our dataset show that recent large language models (e.g., InstructGPT) struggle to answer the subquestions even if they are able to answer the main questions correctly. We find that the models perform particularly poorly in answering subquestions written for the incorrect options of the main questions, implying that the models have a limited capability for explaining why incorrect alternatives should be eliminated. These results suggest that our dataset encourages further investigation into the critical reasoning ability of language models while focusing on the elimination process of relevant alternatives.
翻訳日:2023-12-01 17:15:56 公開日:2023-11-30
# 深層学習による歴史的気候の復元

Reconstructing Historical Climate Fields With Deep Learning ( http://arxiv.org/abs/2311.18348v1 )

ライセンス: Link先を確認
Nils Bochow, Anna Poltronieri, Martin Rypdal, Niklas Boers(参考訳) 気候に関する歴史的記録は、特に大規模衛星計画の導入前に観測が不足していたために、しばしば乏しい。 ギャップを埋め、歴史的記録を再構築する統計的およびモデルに基づく手法がいくつか導入されている。 本稿では,最近導入したフーリエ畳み込みに基づく深層学習手法を用いて,気候モデルによる数値計算を行い,歴史的気候を再構築する。 このアプローチを用いることで、大きな、不規則な欠落したデータの領域を現実的に再構築し、強力なエル・ニーノやラ・ニーナのような既知の歴史的事象を、非常に少ない情報で再現することができる。 本手法は,最近の機械学習手法と同様に,広く用いられている統計kriging法を上回っている。 このモデルは、訓練されたものよりも高解像度に一般化され、様々な気候の分野で使用することができる。 さらに、モデルトレーニング中に見たことのないマスクを塗り替えることもできる。

Historical records of climate fields are often sparse due to missing measurements, especially before the introduction of large-scale satellite missions. Several statistical and model-based methods have been introduced to fill gaps and reconstruct historical records. Here, we employ a recently introduced deep-learning approach based on Fourier convolutions, trained on numerical climate model output, to reconstruct historical climate fields. Using this approach we are able to realistically reconstruct large and irregular areas of missing data, as well as reconstruct known historical events such as strong El Ni\~no and La Ni\~na with very little given information. Our method outperforms the widely used statistical kriging method as well as other recent machine learning approaches. The model generalizes to higher resolutions than the ones it was trained on and can be used on a variety of climate fields. Moreover, it allows inpainting of masks never seen before during the model training.
翻訳日:2023-12-01 17:15:38 公開日:2023-11-30
# cINnAMON Web アプリケーションによる医学教育の促進

Advancing Medical Education through the cINnAMON Web Application ( http://arxiv.org/abs/2311.18444v1 )

ライセンス: Link先を確認
Iuliana Marin(参考訳) cINnAMON EUREKA 伝統的なプロジェクトは、インテリジェントデバイスと高度なセンサー技術の統合を通じて屋内照明の位置決めと監視に革命をもたらす。 本稿では,様々なプロジェクトコンポーネント向けに開発されたプロトタイプについて紹介するとともに,医療教育,特に医療従事者に対する応用可能性について検討する。 現在のintelligent bulbプロトタイプは、プロジェクトの電球と市販のスマート電球の比較分析を提供し、その優れた効率と能力に光を当てている。 さらに、最初のスマートブレスレットのプロトタイプでは、内蔵センサーからデータを収集して分析する能力を示しており、医学生は加速度計、ジャイロスコープ、向き、心拍データに基づいてフラギリティレベルを評価することができる。 三重化アルゴリズムと最適化アルゴリズムを活用することで、インテリジェントな位置モジュールは、建物内の個人の位置を正確に監視し、医療現場における患者の局所化に対する医学生の理解を高める。 さらに、ヒューマンアクティビティモジュールの認識は、ブレスレットのセンサーからのデータを利用して異なるアクティビティを分類し、医療学生に患者の日常や移動パターンに対する貴重な洞察を提供する。 ユーザの個人プロファイルモジュールは、cINnAMONシステムが提供する総合的なサービスへのシームレスなユーザ登録とアクセスを容易にし、医学生が分析のために患者データを収集し、医師が情報的な医療決定を行うのを助ける。 遠隔監視システムにより、医療学生は自宅にセンサーを設置して患者を遠隔監視できるため、遠隔患者の管理をより深く理解することができる。

The cINnAMON EUREKA Traditional project endeavours to revolutionize indoor lighting positioning and monitoring through the integration of intelligent devices and advanced sensor technologies. This article presents the prototypes developed for various project components and explores their potential application in medical education, particularly for aspiring healthcare professionals. The current variant of the intelligent bulb prototype offers a comparative analysis of the project's bulb against commercially available smart bulbs, shedding light on its superior efficiency and capabilities. Furthermore, the initial smart bracelet prototype showcases its ability to collect and analyse data from an array of built-in sensors, empowering medical students to evaluate fragility levels based on accelerometer, gyroscope, orientation, and heart rate data. Leveraging trilateration and optimization algorithms, the intelligent location module enables precise monitoring of individuals' positions within a building, enhancing medical students' understanding of patient localization in healthcare settings. In addition, the recognition of human activity module harnesses data from the bracelet's sensors to classify different activities, providing medical students with invaluable insights into patients' daily routines and mobility patterns. The user's personal profile module facilitates seamless user registration and access to the comprehensive services offered by the cINnAMON system, empowering medical students to collect patient data for analysis and aiding doctors in making informed healthcare decisions. With the telemonitoring system, medical students can remotely monitor patients by configuring sensors in their homes, thus enabling a deeper understanding of remote patient management.
翻訳日:2023-12-01 17:10:25 公開日:2023-11-30
# ソフトウェア開発における自律エージェント:ビジョンペーパー

Autonomous Agents in Software Development: A Vision Paper ( http://arxiv.org/abs/2311.18440v1 )

ライセンス: Link先を確認
Zeeshan Rasheed, Muhammad Waseem, Kai-Kristian Kemell, Wang Xiaofeng, Anh Nguyen Duc, Kari Syst\"a, Pekka Abrahamsson(参考訳) 大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformers)は、ソフトウェア工学(SE)の分野を変えつつある。 自動コード生成、デバッグ、メンテナンスなど、多くのソフトウェアエンジニアリングタスクを実行する革新的な方法を可能にする。 しかしながら、seにおけるgptエージェントの可能性を徹底的に探究した既存の作品の数はごくわずかである。 このビジョンペーパーは、SEにおけるGPTベースのエージェントの役割について尋ねる。 我々のビジョンは、複数のGPTエージェントがSEタスクに貢献する能力を活用し、将来の作業のための初期ロードマップを提案することである。 我々は複数のGPTエージェントがコーディングやデバッグ以上の創造的で要求の多いタスクを実行できると主張している。 GPTエージェントは、プロジェクト計画、要求工学、ソフトウェア設計も行うことができる。 これらは、人間の開発者による高レベルな記述によって実現できます。 簡単なソフトウェア(例えば Snake Game, Tic-Tac-Toe, Notepad)の初期実験では、複数のGPTエージェントが高品質なコードを生成し、慎重に文書化できることを示した。 予想外の効率を約束し、リードタイムを劇的に減らすと我々は主張する。 この目的を達成するために、これらの自律能力をさらに拡張する方法を理解するために、我々の努力を拡大するつもりです。

Large Language Models (LLM) and Generative Pre-trained Transformers (GPT), are reshaping the field of Software Engineering (SE). They enable innovative methods for executing many software engineering tasks, including automated code generation, debugging, maintenance, etc. However, only a limited number of existing works have thoroughly explored the potential of GPT agents in SE. This vision paper inquires about the role of GPT-based agents in SE. Our vision is to leverage the capabilities of multiple GPT agents to contribute to SE tasks and to propose an initial road map for future work. We argue that multiple GPT agents can perform creative and demanding tasks far beyond coding and debugging. GPT agents can also do project planning, requirements engineering, and software design. These can be done through high-level descriptions given by the human developer. We have shown in our initial experimental analysis for simple software (e.g., Snake Game, Tic-Tac-Toe, Notepad) that multiple GPT agents can produce high-quality code and document it carefully. We argue that it shows a promise of unforeseen efficiency and will dramatically reduce lead-times. To this end, we intend to expand our efforts to understand how we can scale these autonomous capabilities further.
翻訳日:2023-12-01 17:09:56 公開日:2023-11-30
# 確率帯域におけるスライディングレグレクト:判別指標とランダム化政策

The Sliding Regret in Stochastic Bandits: Discriminating Index and Randomized Policies ( http://arxiv.org/abs/2311.18437v1 )

ライセンス: Link先を確認
Victor Boone(参考訳) 本稿では,確率的バンディットに対する非回帰アルゴリズムの一ショット動作について検討する。 多くのアルゴリズムは、予想される後悔に対して漸近的に最適であることが知られているが、単一の実行において、それらの擬似回帰は2つの傾向の1つに従うようだ。 この傾向を測定するために, 一定長さを無限に滑り落ちる時間ウインドウ上で最悪の擬似回帰を測定するスライディング後悔という新しい概念を導入する。 ランダム化法(例えば、トンプソンサンプリング法やMED)は最適な滑り後悔を持つが、インデックスポリシーは、おそらく予想される後悔に対して漸近的に最適であるが、インデックス上の規則性条件(例えば、CB, UCB-V, KL-UCB, MOSS, IMED)下で最悪の滑り後悔を持つことを示す。 さらに,索引政策の疑似回帰の平均的隆起を探索の後悔を通して分析し,さらに亜最適であることを示した。

This paper studies the one-shot behavior of no-regret algorithms for stochastic bandits. Although many algorithms are known to be asymptotically optimal with respect to the expected regret, over a single run, their pseudo-regret seems to follow one of two tendencies: it is either smooth or bumpy. To measure this tendency, we introduce a new notion: the sliding regret, that measures the worst pseudo-regret over a time-window of fixed length sliding to infinity. We show that randomized methods (e.g. Thompson Sampling and MED) have optimal sliding regret, while index policies, although possibly asymptotically optimal for the expected regret, have the worst possible sliding regret under regularity conditions on their index (e.g. UCB, UCB-V, KL-UCB, MOSS, IMED etc.). We further analyze the average bumpiness of the pseudo-regret of index policies via the regret of exploration, that we show to be suboptimal as well.
翻訳日:2023-12-01 17:09:37 公開日:2023-11-30
# ゼロショット誘導画像合成のための層状レンダリング拡散モデル

Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis ( http://arxiv.org/abs/2311.18435v1 )

ライセンス: Link先を確認
Zipeng Qi, Guoxi Huang, Zebin Huang, Qin Guo, Jinwen Chen, Junyu Han, Jian Wang, Gang Zhang, Lufei Liu, Errui Ding, Jingdong Wang(参考訳) 本稿では,テキストクエリに依存する拡散モデルの空間制御性向上のための革新的な手法を提案する。 視覚誘導(Vision Guidance)とレイヤレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Rendering Diffusion)という2つの重要なイノベーションを提示します。 空間的レイアウト条件である視覚指導は、空間的レイアウト条件に固執する画像サンプリングプロセスにフォーカスするため、探索空間を大幅に狭め、摂動分布の手がかりとして機能する。 LRDiffフレームワークは、複数のレイヤで画像レンダリングプロセスを構築し、それぞれが視覚誘導を適用して、1つのオブジェクトの認知方向を指示的に推定する。 このような階層化レンダリング戦略は、意図しない概念ブレンディングやミスマッチのような問題を効果的に防止し、より一貫性と文脈的に正確な画像合成を可能にする。 提案手法は,特定の空間的・文脈的要求に整合した画像のより効率的かつ正確な合成手段を提供する。 我々は,本手法が既存の手法よりも定量的かつ定性的に優れた結果をもたらすことを示した。 本手法は,画像へのバウンディングボックス,画像へのセマンティックマスク,画像編集の3つの実用的応用に適用する。

This paper introduces innovative solutions to enhance spatial controllability in diffusion models reliant on text queries. We present two key innovations: Vision Guidance and the Layered Rendering Diffusion (LRDiff) framework. Vision Guidance, a spatial layout condition, acts as a clue in the perturbed distribution, greatly narrowing down the search space, to focus on the image sampling process adhering to the spatial layout condition. The LRDiff framework constructs an image-rendering process with multiple layers, each of which applies the vision guidance to instructively estimate the denoising direction for a single object. Such a layered rendering strategy effectively prevents issues like unintended conceptual blending or mismatches, while allowing for more coherent and contextually accurate image synthesis. The proposed method provides a more efficient and accurate means of synthesising images that align with specific spatial and contextual requirements. We demonstrate through our experiments that our method provides better results than existing techniques both quantitatively and qualitatively. We apply our method to three practical applications: bounding box-to-image, semantic mask-to-image and image editing.
翻訳日:2023-12-01 17:09:15 公開日:2023-11-30
# 近代ホップフィールドネットワークにおける温度依存性相転移の探索

Exploring the Temperature-Dependent Phase Transition in Modern Hopfield Networks ( http://arxiv.org/abs/2311.18434v1 )

ライセンス: Link先を確認
Felix Koulischer, C\'edric Goemaere, Tom van der Meersch, Johannes Deleu, Thomas Demeester(参考訳) トランスフォーマーとモダンホップフィールドネットワーク(MHN)の接続が最近発見されたことで、物理的エネルギーベースの観点からニューラルネットワークの研究が再燃した。 本稿では,mhn のエネルギー最小値分布に対する逆温度ハイパーパラメータ $\beta$ の重要な効果について考察する。 これを実現するため、等価な正規化パターンを記憶した簡易なMHNでエネルギー最小値の分布を追跡する。 このネットワークは、臨界温度である$\beta_{\text{c}}$で相転移を示す。 重要なことに、ダイナミクスはハイパーパラメータ $\beta$ によってのみ制御されるのではなく、格納されたパターンの分布とサイズに依存する効果的な逆温度 $\beta_{\text{eff}}$ によって決定される。 MHNにおけるハイパーパラメータの役割を認識することは、将来、トランスフォーマーの領域の研究者が初期選択を最適化するのを助け、時間とエネルギーのかかる高パラメータの微調整の必要性を減らす可能性がある。

The recent discovery of a connection between Transformers and Modern Hopfield Networks (MHNs) has reignited the study of neural networks from a physical energy-based perspective. This paper focuses on the pivotal effect of the inverse temperature hyperparameter $\beta$ on the distribution of energy minima of the MHN. To achieve this, the distribution of energy minima is tracked in a simplified MHN in which equidistant normalised patterns are stored. This network demonstrates a phase transition at a critical temperature $\beta_{\text{c}}$, from a single global attractor towards highly pattern specific minima as $\beta$ is increased. Importantly, the dynamics are not solely governed by the hyperparameter $\beta$ but are instead determined by an effective inverse temperature $\beta_{\text{eff}}$ which also depends on the distribution and size of the stored patterns. Recognizing the role of hyperparameters in the MHN could, in the future, aid researchers in the domain of Transformers to optimise their initial choices, potentially reducing the necessity for time and energy expensive hyperparameter fine-tuning.
翻訳日:2023-12-01 17:08:55 公開日:2023-11-30
# e2pnet: 時空間表現学習によるクラウド登録イベント

E2PNet: Event to Point Cloud Registration with Spatio-Temporal Representation Learning ( http://arxiv.org/abs/2311.18433v1 )

ライセンス: Link先を確認
Xiuhong Lin, Changjie Qiu, Zhipeng Cai, Siqi Shen, Yu Zang, Weiquan Liu, Xuesheng Bian, Matthias M\"uller, Cheng Wang(参考訳) イベントカメラは、非平行時間分解能とダイナミックレンジのため、近年、有望な視覚センサとして登場している。 2D RGBイメージを3Dポイントクラウドに登録することは、コンピュータビジョンにおける長年の問題であるが、イベントカメラの2D-3Dイメージ登録に関する先行研究は存在しない。 そこで本研究では,イベント・ツー・ポイント・クラウド登録のための最初の学習手法であるE2PNetを提案する。 E2PNetのコアはEvent-Points-to-Tensor (EP2T)と呼ばれる新しい特徴表現ネットワークで、イベントデータを2Dグリッド型の特徴テンソルにエンコードする。 このグリッド型の機能は、ハイパーパラメータやトレーニング手順を変更することなく、成熟したrgbベースのフレームワークをイベントツーポイントのクラウド登録に簡単に使用できる。 EP2Tはイベント入力を時空間雲として扱う。 点雲のすべての次元を等しく扱う標準的な3D学習アーキテクチャとは異なり、EP2Tの新たなサンプリングおよび情報集約モジュールは、空間的および時間的次元の不均一性を扱うように設計されている。 mvsecおよびベクトルデータセットの実験は、手作りや他の学習に基づく方法よりもe2pnetが優れていることを示している。 RGBベースの登録と比較して、E2PNetはイベントデータを使用するため、極端な照明や速い動きに対してより堅牢である。 2d-3d登録以外にも,フロー推定やイベントツーイメージ再構成,オブジェクト認識など,他のビジョンタスクにおけるep2tの可能性も示す。 ソースコードはhttps://github.com/xmu-qcj/e2pnet。

Event cameras have emerged as a promising vision sensor in recent years due to their unparalleled temporal resolution and dynamic range. While registration of 2D RGB images to 3D point clouds is a long-standing problem in computer vision, no prior work studies 2D-3D registration for event cameras. To this end, we propose E2PNet, the first learning-based method for event-to-point cloud registration. The core of E2PNet is a novel feature representation network called Event-Points-to-Tensor (EP2T), which encodes event data into a 2D grid-shaped feature tensor. This grid-shaped feature enables matured RGB-based frameworks to be easily used for event-to-point cloud registration, without changing hyper-parameters and the training procedure. EP2T treats the event input as spatio-temporal point clouds. Unlike standard 3D learning architectures that treat all dimensions of point clouds equally, the novel sampling and information aggregation modules in EP2T are designed to handle the inhomogeneity of the spatial and temporal dimensions. Experiments on the MVSEC and VECtor datasets demonstrate the superiority of E2PNet over hand-crafted and other learning-based methods. Compared to RGB-based registration, E2PNet is more robust to extreme illumination or fast motion due to the use of event data. Beyond 2D-3D registration, we also show the potential of EP2T for other vision tasks such as flow estimation, event-to-image reconstruction and object recognition. The source code can be found at: https://github.com/Xmu-qcj/E2PNet.
翻訳日:2023-12-01 17:08:29 公開日:2023-11-30
# 適応1次法の収束について:近位勾配と交互最小化アルゴリズム

On the convergence of adaptive first order methods: proximal gradient and alternating minimization algorithms ( http://arxiv.org/abs/2311.18431v1 )

ライセンス: Link先を確認
Puya Latafat, Andreas Themelis and Panagiotis Patrinos(参考訳) 本稿では,linesearch-free adaptive proximal gradient method に関する最近の研究に基づいて,既存の結果を統一・拡張するためのフレームワーク adapg$^{\pi,r}$ を提案する。 パラメータ $\pi$ と $r$ の異なる選択について論じ、数値シミュレーションにより結果の有効性を示す。 基礎となる理論をよりよく理解するために、その収束は時変パラメータを許容するより一般的な設定で確立される。 最後に、双対設定を探索することにより、適応交互最小化アルゴリズムを示す。 このアルゴリズムは適応性を付加するだけでなく、標準的な凸設定を超えて適用性を拡張する。

Building upon recent works on linesearch-free adaptive proximal gradient methods, this paper proposes AdaPG$^{\pi,r}$, a framework that unifies and extends existing results by providing larger stepsize policies and improved lower bounds. Different choices of the parameters $\pi$ and $r$ are discussed and the efficacy of the resulting methods is demonstrated through numerical simulations. In an attempt to better understand the underlying theory, its convergence is established in a more general setting that allows for time-varying parameters. Finally, an adaptive alternating minimization algorithm is presented by exploring the dual setting. This algorithm not only incorporates additional adaptivity, but also expands its applicability beyond standard strongly convex settings.
翻訳日:2023-12-01 17:07:46 公開日:2023-11-30
# 分数勾配降下の収束解析

Convergence Analysis of Fractional Gradient Descent ( http://arxiv.org/abs/2311.18426v1 )

ライセンス: Link先を確認
Ashwani Aggarwal(参考訳) 分数微分は整数次微分のよく研究された一般化である。 当然、最適化には分数微分を用いた勾配降下の収束特性を理解することが重要である。 分数勾配降下の収束解析は現在,解析手法と解析手法の両方において限定されている。 本稿では,滑らかかつ凸,滑らかかつ強い凸,滑らかかつ非凸設定における分数勾配降下の変動を解析することにより,これらのギャップを埋めることを目的とする。 まず、新しい境界は分数と整数の微分を橋渡しする。 すると、これらの境界は上記の設定に適用され、滑らかで凸な関数に対する$O(1/T)$収束と滑らかで強凸な関数に対する線型収束を証明できる。 さらに、分数微分に対してより自然な滑らかさという拡張概念を用いて、滑らかかつ非凸函数に対する$o(1/t)$収束を証明する。 最後に、実験結果として、標準勾配降下よりも分数勾配降下のポテンシャル速度と、一般により高速になるであろう予測の課題について提示する。

Fractional derivatives are a well-studied generalization of integer order derivatives. Naturally, for optimization, it is of interest to understand the convergence properties of gradient descent using fractional derivatives. Convergence analysis of fractional gradient descent is currently limited both in the methods analyzed and the settings analyzed. This paper aims to fill in these gaps by analyzing variations of fractional gradient descent in smooth and convex, smooth and strongly convex, and smooth and non-convex settings. First, novel bounds will be established bridging fractional and integer derivatives. Then, these bounds will be applied to the aforementioned settings to prove $O(1/T)$ convergence for smooth and convex functions and linear convergence for smooth and strongly convex functions. Additionally, we prove $O(1/T)$ convergence for smooth and non-convex functions using an extended notion of smoothness that is more natural for fractional derivatives. Finally, empirical results will be presented on the potential speed up of fractional gradient descent over standard gradient descent as well as the challenges of predicting which will be faster in general.
翻訳日:2023-12-01 17:07:28 公開日:2023-11-30
# 人工知能研究における複数の学際的データワークの実践--英国における医療ケーススタディ

Multiple Disciplinary Data Work Practices in Artificial Intelligence Research: a Healthcare Case Study in the UK ( http://arxiv.org/abs/2311.18424v1 )

ライセンス: Link先を確認
Rafael Henkin, Elizabeth Remfry, Duncan J. Reynolds, Megan Clinch, Michael R. Barnes(参考訳) 医療のための人工知能(AI)ツールの開発は、データサイエンティスト、臨床医、患者、その他の分野をまとめる複数の学際的な取り組みである。 本稿では、AI開発ワークフローと、参加者が学習分野における知識の共有と生成の課題と緊張をナビゲートする方法を検討する。 13の半構造化面接をインダクティブ・テーマで分析した結果,複数の学際性が作業実践に大きな影響を与えていることが示唆された。 参加者は、他の分野の言語を学ぶための課題に直面し、特に臨床や患者の観点から、聴衆との共有やコミュニケーションに使用するツールを適応させる必要があった。 大規模な健康データセットも、作業慣行に一定の制限を課した。 私たちはミーティングを、規律間の交流を促進し、知識の融合と創出を可能にする重要なプラットフォームとして特定しました。 最後に,データサイエンスと協調ツールの設計と今後の研究への提言について論じる。

Developing artificial intelligence (AI) tools for healthcare is a multiple disciplinary effort, bringing data scientists, clinicians, patients and other disciplines together. In this paper, we explore the AI development workflow and how participants navigate the challenges and tensions of sharing and generating knowledge across disciplines. Through an inductive thematic analysis of 13 semi-structured interviews with participants in a large research consortia, our findings suggest that multiple disciplinarity heavily impacts work practices. Participants faced challenges to learn the languages of other disciplines and needed to adapt the tools used for sharing and communicating with their audience, particularly those from a clinical or patient perspective. Large health datasets also posed certain restrictions on work practices. We identified meetings as a key platform for facilitating exchanges between disciplines and allowing for the blending and creation of knowledge. Finally, we discuss design implications for data science and collaborative tools, and recommendations for future research.
翻訳日:2023-12-01 17:06:58 公開日:2023-11-30
# すべてのイベントはリレーショナル量子力学で生成されるか?

Are All Events Created At-Once in Relational Quantum Mechanics? ( http://arxiv.org/abs/2311.18423v1 )

ライセンス: Link先を確認
Pablo Toussaint(参考訳) 本稿では,リレーショナル量子力学(RQM)における事象の時間的発生の可能性について論じる。 これは、相対性理論との矛盾を避けるために、rqmの事象は全オンスで生成されなければならないというadlamとrovelliの主張を批判的に検討している。 この分析は、事象の集合を絶対的で観測者に依存しないものとして考慮しないことが、時間的生成を可能にすることを示した。 さらに,クロスパースペクティブリンクの仮定においても,イベントの集合を非絶対的と考えることが可能であることを示す。 したがって、関係性量子力学における事象は時間的に生成することができ、全オンスで生成する必要はない。

This paper discusses the possibility of temporal generation of events in relational quantum mechanics (RQM). It critically examines claims by Adlam and Rovelli that the events in RQM must have been created all-at-once in order to avoid a contradiction with the theory of relativity. The analysis demonstrates that not considering the set of events as absolute and observer-independent allows for their temporal generation. Furthermore, the paper establishes that even with the postulate of cross-perspective links, it remains possible to regard the set of events as non-absolute. Thus, events in relational quantum mechanics can be generated temporally and need not have been created all-at-once.
翻訳日:2023-12-01 17:06:00 公開日:2023-11-30
# TeG-DG:Face Anti-Spoofingのためのテキストガイド付きドメイン一般化

TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing ( http://arxiv.org/abs/2311.18420v1 )

ライセンス: Link先を確認
Lianrui Mu, Jianhong Bai, Xiaoxuan He, Jiangnan Ye, Xiaoyu Liang, Yuchen Yang, Jiedong Zhuang, Haoji Hu(参考訳) Face Anti-Spoofing (FAS) 技術のドメイン一般化性能の向上が研究の焦点となっている。 既存の方法は、さまざまなトレーニングドメインからドメイン不変な特徴を抽出することに特化している。 有望な性能にもかかわらず、抽出された特徴は必然的に残留スタイルの特徴バイアス(例えば照明、捕獲装置)を含むため、一般化性能は劣る。 本稿では,クロスドメインアライメントのためのテキスト情報を有効に活用できる,テキスト案内型ドメイン一般化(teg-dg)フレームワークを提案する。 私たちの中核的な洞察は、テキストはより抽象的で普遍的な表現形式であり、様々な攻撃の共通点と本質的な特徴を捉え、異なる画像領域間のギャップを埋めることができるということです。 既存の視覚言語モデルとは対照的に,提案フレームワークはFASタスクの領域一般化能力を高めるために精巧に設計されている。 具体的には、まず階層型注意融合(HAF)モジュールを設計し、異なるレベルにおける視覚的特徴の適応的集約を可能にする。 teg-dgは、特に非常に限られたソースドメインデータ(それぞれhterとaucで14%と12%の改善)の状況において、以前のアプローチを大きく上回っている。

Enhancing the domain generalization performance of Face Anti-Spoofing (FAS) techniques has emerged as a research focus. Existing methods are dedicated to extracting domain-invariant features from various training domains. Despite the promising performance, the extracted features inevitably contain residual style feature bias (e.g., illumination, capture device), resulting in inferior generalization performance. In this paper, we propose an alternative and effective solution, the Textually Guided Domain Generalization (TeG-DG) framework, which can effectively leverage text information for cross-domain alignment. Our core insight is that text, as a more abstract and universal form of expression, can capture the commonalities and essential characteristics across various attacks, bridging the gap between different image domains. Contrary to existing vision-language models, the proposed framework is elaborately designed to enhance the domain generalization ability of the FAS task. Concretely, we first design a Hierarchical Attention Fusion (HAF) module to enable adaptive aggregation of visual features at different levels; Then, a Textual-Enhanced Visual Discriminator (TEVD) is proposed for not only better alignment between the two modalities but also to regularize the classifier with unbiased text features. TeG-DG significantly outperforms previous approaches, especially in situations with extremely limited source domain data (~14% and ~12% improvements on HTER and AUC respectively), showcasing impressive few-shot performance.
翻訳日:2023-12-01 17:05:37 公開日:2023-11-30
# CAT-DM:拡散モデルによる制御可能な仮想試行

CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model ( http://arxiv.org/abs/2311.18405v1 )

ライセンス: Link先を確認
Jianhao Zeng, Dan Song, Weizhi Nie, Hongshuo Tian, Tongtong Wang, Anan Liu(参考訳) 画像ベースの仮想試着により、ユーザーは写真の中のオリジナルの服を変更することで、仮想的に異なる衣服を試すことができる。 画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配しているが,衣服の不自然な変形やぼやけた生成品質といった問題は解決されていない。 近年,様々な画像生成タスクにおける拡散モデルの性能向上が目覚ましい。 拡散モデルの生成的品質は印象的であるが、仮想試行タスクに適用する場合、制御可能性を達成することは大きな課題となる。 本稿では,CAT-DMと呼ばれる拡散モデルを用いた制御可能な仮想トライオンを提案する。 制御性を高めるために,ControlNet を利用した基本的な拡散型仮想トライオンネットワークを設計し,新たな制御条件を導入し,衣服画像の特徴抽出を改善する。 加速度の面では、CAT-DMは、事前訓練されたGANベースモデルによって生成される暗黙の分布で逆復調プロセスを開始する。 拡散モデルに基づく従来のトライオン法と比較すると,cat-dmはインショップ衣服のパターンやテクスチャの詳細を保持するだけでなく,生成品質を損なうことなくサンプリングステップを短縮できる。 広汎な実験は、よりリアルな画像を作成し、正確に衣料パターンを再現するGAN法と拡散法の両方に対するCAT-DMの優位性を実証している。 私たちのコードとモデルは公開されます。

Image-based virtual try-on enables users to virtually try on different garments by altering original clothes in their photographs. Generative Adversarial Networks (GANs) dominate the research field in image-based virtual try-on, but have not resolved problems such as unnatural deformation of garments and the blurry generation quality. Recently, diffusion models have emerged with surprising performance across various image generation tasks. While the generative quality of diffusion models is impressive, achieving controllability poses a significant challenge when applying it to virtual try-on tasks and multiple denoising iterations limit its potential for real-time applications. In this paper, we propose Controllable Accelerated virtual Try-on with Diffusion Model called CAT-DM. To enhance the controllability, a basic diffusion-based virtual try-on network is designed, which utilizes ControlNet to introduce additional control conditions and improves the feature extraction of garment images. In terms of acceleration, CAT-DM initiates a reverse denoising process with an implicit distribution generated by a pre-trained GAN-based model. Compared with previous try-on methods based on diffusion models, CAT-DM not only retains the pattern and texture details of the in-shop garment but also reduces the sampling steps without compromising generation quality. Extensive experiments demonstrate the superiority of CAT-DM against both GAN-based and diffusion-based methods in producing more realistic images and accurately reproducing garment patterns. Our code and models will be publicly released.
翻訳日:2023-12-01 17:05:05 公開日:2023-11-30
# Pixelによる画像変換による畳み込みに基づく未学習データセットの破壊

Corrupting Convolution-based Unlearnable Datasets with Pixel-based Image Transformations ( http://arxiv.org/abs/2311.18403v1 )

ライセンス: Link先を確認
Xianlong Wang, Shengshan Hu, Minghui Li, Zhifei Yu, Ziqi Zhou, Leo Yu Zhang, Hai Jin(参考訳) 理解不能なデータセットは、クリーンなトレーニングセットに精巧で不可避な摂動を導入することで、トレーニングされたモデルの一般化性能が大幅に低下する。 多くの既存のディフェンス、例えばJPEG圧縮や敵の訓練は、標準制約の付加雑音に基づいてUDを効果的に対抗させる。 しかし、新しいタイプのコンボリューションベースのudが提案され、既存の防御を全て無効にし、守備側にとって大きな挑戦となった。 これを解決するために、クリーンなシナリオで行列を乗算した結果として畳み込みベースの非学習可能なサンプルを表現し、クラス内行列の不整合を$\Theta_{imi}$、クラス間行列の一貫性を$\Theta_{imc}$として形式化し、畳み込みベースのUDの動作機構を調べる。 これらの指標を両方増やすことで、未解決効果を軽減できると推測する。 仮説を満足して支持する検証実験を通じて、よりランダムな行列を設計し、$\Theta_{imi}$と$\Theta_{imc}$の両方を増強し、顕著な防御効果を達成する。 そこで本研究では,これらの事実を基にして拡張することで,畳み込みに基づくudsに対してランダムに乗算変換を行う新たな画像破壊法を提案する。 提案手法は,大域的画素ランダム補間を利用して,畳み込み型UDにおける乗法ノイズの影響を効果的に抑制する。 さらに,畳み込みに基づくudの新たな形式を2つ設計し,防御が最も効果的であることを確認した。

Unlearnable datasets lead to a drastic drop in the generalization performance of models trained on them by introducing elaborate and imperceptible perturbations into clean training sets. Many existing defenses, e.g., JPEG compression and adversarial training, effectively counter UDs based on norm-constrained additive noise. However, a fire-new type of convolution-based UDs have been proposed and render existing defenses all ineffective, presenting a greater challenge to defenders. To address this, we express the convolution-based unlearnable sample as the result of multiplying a matrix by a clean sample in a simplified scenario, and formalize the intra-class matrix inconsistency as $\Theta_{imi}$, inter-class matrix consistency as $\Theta_{imc}$ to investigate the working mechanism of the convolution-based UDs. We conjecture that increasing both of these metrics will mitigate the unlearnability effect. Through validation experiments that commendably support our hypothesis, we further design a random matrix to boost both $\Theta_{imi}$ and $\Theta_{imc}$, achieving a notable degree of defense effect. Hence, by building upon and extending these facts, we first propose a brand-new image COrruption that employs randomly multiplicative transformation via INterpolation operation to successfully defend against convolution-based UDs. Our approach leverages global pixel random interpolations, effectively suppressing the impact of multiplicative noise in convolution-based UDs. Additionally, we have also designed two new forms of convolution-based UDs, and find that our defense is the most effective against them.
翻訳日:2023-12-01 17:04:40 公開日:2023-11-30
# MV-CLIP:ゼロショット3次元形状認識のためのマルチビューCLIP

MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition ( http://arxiv.org/abs/2311.18402v1 )

ライセンス: Link先を確認
Dan Song, Xinwei Fu, Weizhi Nie, Wenhui Li, Anan Liu(参考訳) 大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。 近年,3次元形状に対する事前学習モデルが不足しているため,ゼロショット3次元形状認識を実現するために言語画像事前学習が用いられている。 しかし、モダリティギャップのため、事前訓練された言語画像モデルは3次元形状認識への一般化に十分な自信を持っていない。 そこで本稿では,視点選択と階層的プロンプトによる信頼性向上を目的としている。 クリップモデルを例に,3次元形状の複数ビューから高い予測信頼度を持つビューを識別することで,視覚面でのビュー選択を行う。 テキスト側では,階層的プロンプトの戦略が初めて提案されている。 第1の層は、従来のクラスレベルの記述を持ついくつかの分類候補をプロンプトし、第2の層は、関数レベルの記述や候補間のさらなる区別に基づいて予測を洗練する。 驚くべきことに,追加のトレーニングを必要とせず,modelnet40,modelnet10,shapenet core55の84.44\%,91.51\%,66.17\%という印象的なゼロショット3d分類精度をそれぞれ達成した。 さらに、この領域の再現性やさらなる研究を容易にするために、コードを公開します。

Large-scale pre-trained models have demonstrated impressive performance in vision and language tasks within open-world scenarios. Due to the lack of comparable pre-trained models for 3D shapes, recent methods utilize language-image pre-training to realize zero-shot 3D shape recognition. However, due to the modality gap, pretrained language-image models are not confident enough in the generalization to 3D shape recognition. Consequently, this paper aims to improve the confidence with view selection and hierarchical prompts. Leveraging the CLIP model as an example, we employ view selection on the vision side by identifying views with high prediction confidence from multiple rendered views of a 3D shape. On the textual side, the strategy of hierarchical prompts is proposed for the first time. The first layer prompts several classification candidates with traditional class-level descriptions, while the second layer refines the prediction based on function-level descriptions or further distinctions between the candidates. Remarkably, without the need for additional training, our proposed method achieves impressive zero-shot 3D classification accuracies of 84.44\%, 91.51\%, and 66.17\% on ModelNet40, ModelNet10, and ShapeNet Core55, respectively. Furthermore, we will make the code publicly available to facilitate reproducibility and further research in this area.
翻訳日:2023-12-01 17:04:08 公開日:2023-11-30
# クリロフとニールセンの複雑性の関係

A relation between Krylov and Nielsen complexity ( http://arxiv.org/abs/2311.18401v1 )

ライセンス: Link先を確認
Ben Craps, Oleg Evnin, Gabriele Pascuzzi(参考訳) クリロフ複雑性 (krylov complexity) とニールセン複雑性 (nielsen complexity) は、量子進化の複雑性の定量化に成功している手法である。 2つの量はそれぞれ量子カオスと量子計算によって動機付けられ、関連する数学は行列対角化アルゴリズムと曲面多様体上の測地線流とで異なっている。 これらの違いにもかかわらず、2つの量の間には関係があることを実証する。 すなわち、状態進化のクリロフ複雑性の時間平均を特定の行列のトレースとして表現することができ、クリロフ基底に適合した特定のカスタマイズされたペナルティスケジュールを持つニールセン複雑性の上限を同じ行列で制御できる。

Krylov complexity and Nielsen complexity are successful approaches to quantifying quantum evolution complexity that have been actively pursued without much contact between the two lines of research. The two quantities are motivated by quantum chaos and quantum computation, respectively, while the relevant mathematics is as different as matrix diagonalization algorithms and geodesic flows on curved manifolds. We demonstrate that, despite these differences, there is a relation between the two quantities. Namely, the time average of Krylov complexity of state evolution can be expressed as a trace of a certain matrix, while an upper bound on Nielsen complexity with a specific custom-tailored penalty schedule adapted to the Krylov basis is controlled by the same matrix.
翻訳日:2023-12-01 17:03:48 公開日:2023-11-30
# ESGのアカウンタビリティは簡単:サービスにおけるDocQA

ESG Accountability Made Easy: DocQA at Your Service ( http://arxiv.org/abs/2311.18481v1 )

ライセンス: Link先を確認
Lokesh Mishra, Cesar Berrospi, Kasper Dinkla, Diego Antognini, Francesco Fusco, Benedikt Bothur, Maksym Lysak, Nikolaos Livathinos, Ahmed Nassar, Panagiotis Vagenas, Lucas Morin, Christoph Auer, Michele Dolfi, Peter Staar(参考訳) 本稿ではDeep Search DocQAを紹介する。 本アプリケーションは,質問応答型会話アシスタントによる文書からの情報抽出を可能にする。 このシステムは、文書変換から(コンピュータビジョンによる)機械可読フォーマットへの変換、(自然言語処理による)関連するデータの検出、(大規模言語モデルによる)雄弁な応答の定式化など、さまざまなAI分野の技術を統合している。 ユーザは2000以上の企業から1万以上の環境、社会、ガバナンス(esg)の開示レポートを調査できる。 ディープ検索プラットフォームは、https://ds4sd.github.ioでアクセスできる。

We present Deep Search DocQA. This application enables information extraction from documents via a question-answering conversational assistant. The system integrates several technologies from different AI disciplines consisting of document conversion to machine-readable format (via computer vision), finding relevant data (via natural language processing), and formulating an eloquent response (via large language models). Users can explore over 10,000 Environmental, Social, and Governance (ESG) disclosure reports from over 2000 corporations. The Deep Search platform can be accessed at: https://ds4sd.github.io.
翻訳日:2023-12-01 16:57:27 公開日:2023-11-30
# 量子時代の画像伝送の安全性を高める:絡み合いを用いたカオス支援QKDアプローチ

Enhancing the security of image transmission in Quantum era: A Chaos-Assisted QKD Approach using entanglement ( http://arxiv.org/abs/2311.18471v1 )

ライセンス: Link先を確認
Raiyan Rahman, Md Shawmoon Azad, Mohammed Rakibul Hasan, Syed Emad Uddin Shubha, M.R.C.Mahdy(参考訳) 量子コンピューティングの出現は、特に光通信分野において、従来の暗号システムに前例のないセキュリティ課題をもたらした。 本研究は、量子鍵分布(QKD)、特にE91プロトコルとロジスティックカオス写像を組み合わせて安全な画像伝送方式を確立することで、これらの課題に対処する。 本手法では,量子絡み合いに内在するロバストなセキュリティ機構とともにカオスシステムの予測不可能性を利用する。 このスキームは、CHSH不平等に基づく盗聴検出機構によりさらに強化され、無許可アクセスに対するレジリエンスが向上する。 定量的なシミュレーションにより,画像の暗号化におけるこの手法の有効性を実証し,エントロピーの高いエントロピーと感度を実現する。 その結果、暗号化と復号化の効率が大幅に向上し、量子コンピューティングの進歩によってもたらされる脆弱性に対する有効なソリューションとしてのスキームの可能性が示された。 我々の研究は、安全な光通信における新しい視点を提供し、カオス理論の原理とQKDを融合させ、より堅牢な暗号フレームワークを作成します。

The emergence of quantum computing has introduced unprecedented security challenges to conventional cryptographic systems, particularly in the domain of optical communications. This research addresses these challenges by innovatively combining quantum key distribution (QKD), specifically the E91 protocol, with logistic chaotic maps to establish a secure image transmission scheme. Our approach utilizes the unpredictability of chaotic systems alongside the robust security mechanisms inherent in quantum entanglement. The scheme is further fortified with an eavesdropping detection mechanism based on CHSH inequality, thereby enhancing its resilience against unauthorized access. Through quantitative simulations, we demonstrate the effectiveness of this scheme in encrypting images, achieving high entropy and sensitivity to the original images. The results indicate a significant improvement in encryption and decryption efficiency, showcasing the potential of the scheme as a viable solution against the vulnerabilities posed by quantum computing advancements. Our research offers a novel perspective in secure optical communications, blending the principles of chaos theory with QKD to create a more robust cryptographic framework.
翻訳日:2023-12-01 16:57:16 公開日:2023-11-30
# 射影ヒルベルト空間における量子進化の加速に関する上限

Upper limit on the acceleration of a quantum evolution in projective Hilbert space ( http://arxiv.org/abs/2311.18470v1 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro(参考訳) ハイゼンベルクの位置-運動量の不確かさの関係は、量子力学の幾何学的再構成の文脈において物理粒子の最大加速度の存在をもたらすことは注目すべきである。 量子粒子の最大加速度は、射影ヒルベルト空間における輸送速度の大きさと関連していることも知られている。 本稿では、曲率とねじれの概念による量子進化の幾何学的側面の研究から着想を得て、任意の有限次元射影ヒルベルト空間における輸送速度の変化率の上限を導出した。 純粋な量子状態にある物理系の進化は、任意の時変エルミートハミルトン作用素によって支配されていると仮定される。 我々の導出は、l・d・ランダウが量子力学的原点の一般可換関係によるゆらぎの理論で得た不等式と類似しており、ハイゼンベルクの不確かさ関係の一般化に依存している。 射影空間における量子進化の加速二乗は、ハミルトニアン作用素の時間変化率のばらつきによって上界であることが示される。 さらに,任意の時変磁場に没入する単一スピン量子ビットの低次元の場合の図示的目的に着目し,射影ヒルベルト空間において最大加速度を与える磁場の最適幾何配置と消滅する曲率と単位測地効率について考察する。 最後に、我々の上限が量子系の高速な操作によって消散効果を緩和したり、より短い時間で目標状態を得ることができるという限界を課す結果についてコメントする。

It is remarkable that Heisenberg's position-momentum uncertainty relation leads to the existence of a maximal acceleration for a physical particle in the context of a geometric reformulation of quantum mechanics. It is also known that the maximal acceleration of a quantum particle is related to the magnitude of the speed of transportation in projective Hilbert space. In this paper, inspired by the study of geometric aspects of quantum evolution by means of the notions of curvature and torsion, we derive an upper bound for the rate of change of the speed of transportation in an arbitrary finite-dimensional projective Hilbert space. The evolution of the physical system being in a pure quantum state is assumed to be governed by an arbitrary time-varying Hermitian Hamiltonian operator. Our derivation, in analogy to the inequalities obtained by L. D. Landau in the theory of fluctuations by means of general commutation relations of quantum-mechanical origin, relies upon a generalization of Heisenberg's uncertainty relation. We show that the acceleration squared of a quantum evolution in projective space is upper bounded by the variance of the temporal rate of change of the Hamiltonian operator. Moreover, focusing for illustrative purposes on the lower-dimensional case of a single spin qubit immersed in an arbitrarily time-varying magnetic field, we discuss the optimal geometric configuration of the magnetic field that yields maximal acceleration along with vanishing curvature and unit geodesic efficiency in projective Hilbert space. Finally, we comment on the consequences that our upper bound imposes on the limit at which one can perform fast manipulations of quantum systems to mitigate dissipative effects and/or obtain a target state in a shorter time.
翻訳日:2023-12-01 16:56:55 公開日:2023-11-30
# オンライン学生討論のコーディネーションメカニズムとしての明示的回答の利用

Use of explicit replies as coordination mechanisms in online student debate ( http://arxiv.org/abs/2311.18466v1 )

ライセンス: Link先を確認
Bruno D. Ferreira-Saraiva, Joao P. Matos-Carvalho and Manuel Pita(参考訳) 会話中の人々は自発的なアライメント機構を通じて言語行動を訓練します [7] - 対面とコンピュータによるコミュニケーション (cmc) [8]。 CMCでは、言語刺激が起こるメカニズムの1つは、明示的な応答である。 実際、明示的な返信の使用は会話の構造に影響し、トピックシフトで示されるリプライツリーの形成を好んでいる [5]。 デビッド・ギブソン (david gibson) が提唱した確率的枠組みを用いて,アクター同士の対話方法によって実現される対人協調機構を考察した。 他の最近のアプローチでは、テキストの変化を定量化するために計算方法と情報理論を使用している。 本稿では,対話において発話が果たす役割,特に明示的な応答に関するコーディネーション機構について検討する。 非パラメトリックな階層的トピックモデルを用いて、会話の語彙におけるコミュニティ構造を見つけることで、これらの役割を識別する。 いくつかの会話は常に地上に留まり、一般的な会話のレベルに留まることがある。 特定のサブトピックを、かなりの深さと詳細で開発するものもある。 他の人たちでさえ、一般的なおしゃべり、話題外発言、そして人々がそれ以上の議論をせずに同意または同意する、あるいは同意するのとの間を飛び交うかもしれない。

People in conversation entrain their linguistic behaviours through spontaneous alignment mechanisms [7] - both in face-to-face and computer-mediated communication (CMC) [8]. In CMC, one of the mechanisms through which linguistic entrainment happens is through explicit replies. Indeed, the use of explicit replies influences the structure of conversations, favouring the formation of reply-trees typically delineated by topic shifts [5]. The interpersonal coordination mechanisms realized by how actors address each other have been studied using a probabilistic framework proposed by David Gibson [2,3]. Other recent approaches use computational methods and information theory to quantify changes in text. We explore coordination mechanisms concerned with some of the roles utterances play in dialogues - specifically in explicit replies. We identify these roles by finding community structure in the conversation's vocabulary using a non-parametric, hierarchical topic model. Some conversations may always stay on the ground, remaining at the level of general introductory chatter. Some others may develop a specific sub-topic in significant depth and detail. Even others may jump between general chatter, out-of-topic remarks and people agreeing or disagreeing without further elaboration.
翻訳日:2023-12-01 16:56:28 公開日:2023-11-30
# 時空におけるベルシナリオの因果モデル解析--相対論的因果原理に対する非局所相関のジャミング

A causal modelling analysis of Bell scenarios in space-time: implications of jamming non-local correlations for relativistic causality principles ( http://arxiv.org/abs/2311.18465v1 )

ライセンス: Link先を確認
V. Vilasini and Roger Colbeck(参考訳) ベルのシナリオは、複数のパーティによる空間的な分離された測定を含む。 標準の無符号制約は、測定設定を選択することで、そのような当事者が上向きに信号を送ることができないことを保証する。 三部構成ベルのシナリオでは、非局所理論を妨害することとして知られるポスト量子理論のクラスを許容する緩和された非シグナリング制約が提案されている。 これらの理論において超光信号が保たないかどうかを解析し、より一般的には、相対論的因果原理を保存する上で、非古典理論における情報理論因果モデルとその時空における相対論的因果性との整合性を定義するために最近開発された枠組みを適用する。 空間的に分離された粒子間のベルシナリオにおいてジャミング相関を生成する理論は、因果微調整や超光因果影響によって必然的にそれを行う必要があることを示す。 さらに、我々の枠組みでは、特定の系がエージェントやその介入に根本的にアクセスできないことが保証されない限り、ジャミング理論がスーパールミナルシグナリング(以前の主張とは対照的)につながることも示している。 最後に,ベルシナリオにおける相対論的因果関係を解析し,一般介入が許される場合,相関に対する無信号制約は一般に超光シグナルを除外するには不十分であることを示した。 このようにして、ベルシナリオにおける超光信号の排除に必要な条件を特定し、相関に関する非シグナリング制約が因果ループの排除に必要でも十分でもないことを示す。 これらの結果は、時空における情報処理タスクにおける相対論的因果原理の理解を固くし、古典的、量子的、あるいは量子後リソースを含む。

Bell scenarios involve space-like separated measurements made by multiple parties. The standard no-signalling constraints ensure that such parties cannot signal superluminally by choosing their measurement settings. In tripartite Bell scenarios, relaxed non-signalling constraints have been proposed, which permit a class of post-quantum theories known as jamming non-local theories. To analyse whether no superluminal signalling continues to hold in these theories and, more generally, the role of non-signalling constraints in preserving relativistic causality principles, we apply a framework that we have recently developed for defining information-theoretic causal models in non-classical theories and their compatibility with relativistic causality in a space-time. We show that any theory that generates jamming correlations in a Bell scenario between space-like separated parties must necessarily do so through causal fine-tuning and by means of superluminal causal influences. Moreover, within our framework, we show that jamming theories can also lead to superluminal signalling (contrary to previous claims) unless it is ensured that certain systems are fundamentally inaccessible to agents and their interventions. Finally, we analyse relativistic causality in Bell scenarios showing that no-signalling constraints on correlations are generally insufficient for ruling out superluminal signalling when general interventions are also allowed. In this way, we identify necessary and sufficient conditions for ruling out superluminal signalling in Bell scenarios, and demonstrate through examples that the non-signalling constraints on correlations are neither necessary nor sufficient for ruling out causal loops. These results solidify our understanding of relativistic causality principles in information processing tasks in space-time, involving classical, quantum or post-quantum resources.
翻訳日:2023-12-01 16:56:07 公開日:2023-11-30
# 準古典的スターン・ガーラッハ軌跡の自己重力的強調

Self-gravitational dephasing of quasi-classical Stern-Gerlach trajectories ( http://arxiv.org/abs/2311.18464v1 )

ライセンス: Link先を確認
Andr\'e Gro{\ss}ardt(参考訳) 非線形schr\"odinger-newton方程式は、量子化重力理論の代替として、スターン・ゲラッハ干渉計における粒子の2つのzスピン固有値に対応する2つの軌道間の重力自己力を予測する。 順序を導くために、この力は軌道間の相対的な位相をもたらす。 局所化された波動関数を持つ球状粒子の実験的に関連する場合について,その位相の近似と簡潔さの両方において厳密な再導出を行い,単純かつ正確な実験予測を可能にする。

The nonlinear Schr\"odinger-Newton equation, a prospective semiclassical alternative to a quantized theory of gravity, predicts a gravitational self-force between the two trajectories corresponding to the two z-spin eigenvalues for a particle in a Stern-Gerlach interferometer. To leading order, this force results in a relative phase between the trajectories. For the experimentally relevant case of a spherical particle with localized wave function, we present a re-derivation of that phase which is both rigorous in its approximations and concise, allowing for simple but accurate experimental predictions.
翻訳日:2023-12-01 16:55:31 公開日:2023-11-30
# 古典的なfrenet-serret装置から量子力学的進化の曲率とねじれまで。 第2部。 非定常ハミルトニアン

From the classical Frenet-Serret apparatus to the curvature and torsion of quantum-mechanical evolutions. Part II. Nonstationary Hamiltonians ( http://arxiv.org/abs/2311.18463v1 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro(参考訳) 非定常ハミルトニアンの下で進化する状態ベクトルによって追跡される量子曲線の曲げとねじれの定量化に関する幾何学的視点を示す。 具体的には, 定常ハミルトニアンの既存の幾何学的視点に基づき, 時変曲率とねじれ係数の両方が重要な役割を果たす時間依存量子力学的シナリオへの理論的構成の一般化について論じる。 具体的には、シュロディンガー発展方程式を規定する時間依存ハミルトニアンの下で一元的に進化する平行移動純量子状態によってトレースされる射影ヒルベルト空間における量子軌道に対するフレネット・セルレート装置の量子バージョンを提案する。 時変曲率係数は、接ベクトルと状態ベクトルの共変微分の2乗の大きさで指定され、量子曲線の曲げを測定する。 時間変化のねじれ係数は、接ベクトルの共変微分の状態ベクトルへの射影の大きさの2乗、接ベクトルと状態ベクトルに直交し、さらに量子曲線のねじれを測定することによって与えられる。 時間変化の設定は、統計的観点からよりリッチな構造を示す。 例えば、時間に依存しない構成とは異なり、一般化された分散の概念は非定常ハミルトニアンの下で進化する量子状態によってトレースされる曲線のねじれの定義において非自明に入る。 本手法の意義を物理的に説明するために, 正弦波振動時間依存ポテンシャルによって特定される, 完全に可溶な時間依存二状態rabi問題に適用する。

We present a geometric perspective on how to quantify the bending and the twisting of quantum curves traced by state vectors evolving under nonstationary Hamiltonians. Specifically, relying on the existing geometric viewpoint for stationary Hamiltonians, we discuss the generalization of our theoretical construct to time-dependent quantum-mechanical scenarios where both time-varying curvature and torsion coefficients play a key role. Specifically, we present a quantum version of the Frenet-Serret apparatus for a quantum trajectory in projective Hilbert space traced out by a parallel-transported pure quantum state evolving unitarily under a time-dependent Hamiltonian specifying the Schrodinger evolution equation. The time-varying curvature coefficient is specified by the magnitude squared of the covariant derivative of the tangent vector to the state vector and measures the bending of the quantum curve. The time-varying torsion coefficient, instead, is given by the magnitude squared of the projection of the covariant derivative of the tangent vector to the state vector, orthogonal to the tangent vector and state vector and, in addition, measures the twisting of the quantum curve. We find that the time-varying setting exhibits a richer structure from a statistical standpoint. For instance, unlike the time-independent configuration, we find that the notion of generalized variance enters nontrivially in the definition of the torsion of a curve traced out by a quantum state evolving under a nonstationary Hamiltonian. To physically illustrate the significance of our construct, we apply it to an exactly soluble time-dependent two-state Rabi problem specified by a sinusoidal oscillating time-dependent potential...
翻訳日:2023-12-01 16:55:19 公開日:2023-11-30
# 観測不能条件下での因果フェアネス:ニューラル・センシティビティ・フレームワーク

Causal Fairness under Unobserved Confounding: A Neural Sensitivity Framework ( http://arxiv.org/abs/2311.18460v1 )

ライセンス: Link先を確認
Maresa Schr\"oder, Dennis Frauen, Stefan Feuerriegel(参考訳) 機械学習の予測に対する公平さは、法的、倫理的、社会的理由のために広く求められている。 既存の作業は、通常、観測されていない欠点のない設定に焦点を当てるが、観測されていない欠点は因果フェアネスを厳しく侵害し、したがって不公平な予測を引き起こす可能性がある。 本研究では, 因果フェアネスの非観測的共振に対する感度を解析する。 私たちの貢献は3倍です。 第一に、異なる観測されていない共起の源の下で因果的公平度メトリクスの境界を導出する。 これにより、実践者は、フェアネスクリティカルなアプリケーションで観測されていないコンファウンディングに対する機械学習モデルの感度を調べることができる。 第2に,不測の一致によって因果的公平性が損なわれる可能性の最悪の場合の保証を可能にする,公平な予測学習のための新しいニューラルフレームワークを提案する。 第3に,刑期予測に関する実世界のケーススタディを含む一連の実験において,この枠組みの有効性を実証する。 私たちの知る限りでは、私たちの研究は観察できない一致の下で因果的公平性を研究する最初の研究です。 この目的のために、我々の研究は、高スループットアプリケーションにおける予測の公平性を保証するための反論戦略として、直接的な実用的価値があります。

Fairness for machine learning predictions is widely required in practice for legal, ethical, and societal reasons. Existing work typically focuses on settings without unobserved confounding, even though unobserved confounding can lead to severe violations of causal fairness and, thus, unfair predictions. In this work, we analyze the sensitivity of causal fairness to unobserved confounding. Our contributions are three-fold. First, we derive bounds for causal fairness metrics under different sources of unobserved confounding. This enables practitioners to examine the sensitivity of their machine learning models to unobserved confounding in fairness-critical applications. Second, we propose a novel neural framework for learning fair predictions, which allows us to offer worst-case guarantees of the extent to which causal fairness can be violated due to unobserved confounding. Third, we demonstrate the effectiveness of our framework in a series of experiments, including a real-world case study about predicting prison sentences. To the best of our knowledge, ours is the first work to study causal fairness under unobserved confounding. To this end, our work is of direct practical value as a refutation strategy to ensure the fairness of predictions in high-stakes applications.
翻訳日:2023-12-01 16:54:52 公開日:2023-11-30
# 古典的なfrenet-serret装置から量子力学的進化の曲率とねじれまで。 第1部 定常ハミルトン派

From the classical Frenet-Serret apparatus to the curvature and torsion of quantum-mechanical evolutions. Part I. Stationary Hamiltonians ( http://arxiv.org/abs/2311.18458v1 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro(参考訳) 三次元ユークリッド空間における空間曲線のフレネ・セレート装置は曲線の局所幾何学を決定することが知られている。 特に、frenet-serret装置は曲線の曲率やねじれを含む重要な幾何学的不変量を指定する。 量子情報科学においても、物理系に関する量子情報を巧みにエンコードする量子状態を操作する際に、複雑さと効率性が欠かせない特徴であると認識されている。 本稿では,動的に発展する状態ベクトルによって追跡される量子曲線の曲がりとねじれを定量化する方法に関する幾何学的視点を提案する。 具体的には、シュロディンガー方程式を定式化した定常ハミルトニアンの下で一元的に進化する平行移動純量子状態によってトレースされる射影ヒルベルト空間における量子軌道に対するフレネット・セルレット装置の量子バージョンを提案する。 提案する定数曲率係数は、接ベクトルと状態ベクトルの共変微分の2乗法で与えられ、量子曲線の曲がりの有用な尺度である。 提案した定数ねじれ係数は、接ベクトルと状態ベクトルの両方に直交する接ベクトルの共変微分の射影の大きさの2乗で定義される。 トーション係数は、量子曲線のねじれの便利な測度を提供する。 驚くべきことに、提案する曲率とねじれ係数は文献に存在するものと一致するが、全く異なる方法で紹介されている。

It is known that the Frenet-Serret apparatus of a space curve in three-dimensional Euclidean space determines the local geometry of curves. In particular, the Frenet-Serret apparatus specifies important geometric invariants, including the curvature and the torsion of a curve. It is also acknowledged in quantum information science that low complexity and high efficiency are essential features to achieve when cleverly manipulating quantum states that encode quantum information about a physical system. In this paper, we propose a geometric perspective on how to quantify the bending and the twisting of quantum curves traced by dynamically evolving state vectors. Specifically, we propose a quantum version of the Frenet-Serret apparatus for a quantum trajectory in projective Hilbert space traced by a parallel-transported pure quantum state evolving unitarily under a stationary Hamiltonian specifying the Schrodinger equation. Our proposed constant curvature coefficient is given by the magnitude squared of the covariant derivative of the tangent vector to the state vector and represents a useful measure of the bending of the quantum curve. Our proposed constant torsion coefficient, instead, is defined in terms of the magnitude squared of the projection of the covariant derivative of the tangent vector, orthogonal to both the tangent vector and the state vector. The torsion coefficient provides a convenient measure of the twisting of the quantum curve. Remarkably, we show that our proposed curvature and torsion coefficients coincide with those existing in the literature, although introduced in a completely different manner...
翻訳日:2023-12-01 16:54:32 公開日:2023-11-30
# コンテキスト化されたaiコーディングアシスタントによる開発者エクスペリエンス: ユーザビリティ、期待、成果

Developer Experiences with a Contextualized AI Coding Assistant: Usability, Expectations, and Outcomes ( http://arxiv.org/abs/2311.18452v1 )

ライセンス: Link先を確認
Gustavo Pinto and Cleidson de Souza and Thayssa Rocha and Igor Steinmacher and Alberto de Souza and Edward Monteiro(参考訳) 急速に進歩する人工知能の分野において、ソフトウェア開発はイノベーションの重要な領域として現れてきた。 汎用AIアシスタントが多用されているにもかかわらず、その効果は複雑なドメイン固有のシナリオで減少する。 この制限に注目して、学術コミュニティと業界のプレイヤーは、コンテキスト化されたコーディングAIアシスタントに依存している。 これらのアシスタントは、プロプライエタリでドメイン固有の知識を統合し、正確で関連するソリューションを提供することによって、汎用AIツールを超える。 本研究では,コンテキスト化コーディングaiアシスタント(stackspot aiと呼ばれる)をコントロール環境で使用した62名の参加者の初期経験に焦点を当てた。 参加者によると、アシスタントの使用は大幅な時間の節約、ドキュメントへのアクセスの容易化、内部apiの正確なコードの生成につながった。 しかし、コーディングアシスタントがよりコンテキスト情報にアクセスするために必要な知識ソースに関連する課題や、可変応答や複雑なコードを扱う際の制限が観察された。 この研究の結果は、コンテキスト化されたAIアシスタントのメリットと課題の両方を詳述し、ソフトウェア開発プラクティスに革命をもたらす可能性を強調しながら、さらなる改善の領域を強調している。

In the rapidly advancing field of artificial intelligence, software development has emerged as a key area of innovation. Despite the plethora of general-purpose AI assistants available, their effectiveness diminishes in complex, domain-specific scenarios. Noting this limitation, both the academic community and industry players are relying on contextualized coding AI assistants. These assistants surpass general-purpose AI tools by integrating proprietary, domain-specific knowledge, offering precise and relevant solutions. Our study focuses on the initial experiences of 62 participants who used a contextualized coding AI assistant -- named StackSpot AI -- in a controlled setting. According to the participants, the assistants' use resulted in significant time savings, easier access to documentation, and the generation of accurate codes for internal APIs. However, challenges associated with the knowledge sources necessary to make the coding assistant access more contextual information as well as variable responses and limitations in handling complex codes were observed. The study's findings, detailing both the benefits and challenges of contextualized AI assistants, underscore their potential to revolutionize software development practices, while also highlighting areas for further refinement.
翻訳日:2023-12-01 16:54:09 公開日:2023-11-30
# NASベンチマークにどのくらい隠されているか? NAS予測器のFew-Shot適応

How Much Is Hidden in the NAS Benchmarks? Few-Shot Adaptation of a NAS Predictor ( http://arxiv.org/abs/2311.18451v1 )

ライセンス: Link先を確認
Hrushikesh Loya, {\L}ukasz Dudziak, Abhinav Mehrotra, Royson Lee, Javier Fernandez-Marques, Nicholas D. Lane, Hongkai Wen(参考訳) ニューラルネットワークの設計と精細化において、ニューラルネットワーク検索は強力なアプローチであることが証明されており、手作業で設計したバリエーションよりもパフォーマンスと効率を高めることが多いが、計算オーバーヘッドも伴っている。 画像分類などのメインストリームタスクに対するNASのコスト削減に重点を置く研究が数多く行われているが、これらの改善の多くは、これらのタスクがより広い文脈で十分に研究されていることに由来する。 その結果,NASの適用性は,比較的高いコストと達成可能な利得の不確実性に関連付けられている。 この問題に対処するため、我々は、さまざまなタスクや検索空間にまたがる一般的なNAS知識を抽出するために、最近公開されているNASベンチマークの増大に焦点をあてる。 我々はメタラーニングの豊富な分野から借用し、これらの手法のNASへの適用性を慎重に研究し、特にタスクレベルの相関(ドメインシフト)と予測器の伝達可能性の関係に注目し、多様なタスクにおけるNASの改善に欠かせないと考えている。 実験では6つのNASベンチマークを併用し、合計16個のNAS設定にまたがる。私たちのメタラーニングアプローチは、クロスバリデーション実験において優れた(あるいは一致した)パフォーマンスを示すだけでなく、新しい検索スペースとタスクの補間に成功したのです。

Neural architecture search has proven to be a powerful approach to designing and refining neural networks, often boosting their performance and efficiency over manually-designed variations, but comes with computational overhead. While there has been a considerable amount of research focused on lowering the cost of NAS for mainstream tasks, such as image classification, a lot of those improvements stem from the fact that those tasks are well-studied in the broader context. Consequently, applicability of NAS to emerging and under-represented domains is still associated with a relatively high cost and/or uncertainty about the achievable gains. To address this issue, we turn our focus towards the recent growth of publicly available NAS benchmarks in an attempt to extract general NAS knowledge, transferable across different tasks and search spaces. We borrow from the rich field of meta-learning for few-shot adaptation and carefully study applicability of those methods to NAS, with a special focus on the relationship between task-level correlation (domain shift) and predictor transferability; which we deem critical for improving NAS on diverse tasks. In our experiments, we use 6 NAS benchmarks in conjunction, spanning in total 16 NAS settings -- our meta-learning approach not only shows superior (or matching) performance in the cross-validation experiments but also successful extrapolation to a new search space and tasks.
翻訳日:2023-12-01 16:53:50 公開日:2023-11-30
# CodeBuddyの構築から学んだこと - コンテキスト化されたAIコーディングアシスタント

Lessons from Building CodeBuddy: A Contextualized AI Coding Assistant ( http://arxiv.org/abs/2311.18450v1 )

ライセンス: Link先を確認
gustavo Pinto and Cleidson de Souza and Jo\~ao Batista Neto and Alberto de Souza and Tarc\'isio Gotto and Edward Monteiro(参考訳) 例外的な自然言語処理機能によって、ChatGPTやCo-PilotのようなLarge Language Models(LLM)ベースのツールは、ソフトウェア開発者のツールキットにおいて、急速に必須のリソースになっています。 最近の研究は、これらのツールがアンロックされる可能性のある生産性の向上を示唆している。 さらに、改善されたレスポンスの追求は、しばしば、実際の価値を提供するコードを書くことから価値ある時間を逸脱し、広範な迅速なエンジニアリング努力に繋がる。 これらの課題に対処するため、LSM上に構築された新しい種類のツールが登場しつつある。 これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。 本稿では,CodeBuddy と呼ばれる検索技術を用いて,ソフトウェア開発チームが,このような文脈化された LLM ベースのアプリケーションの開発について学んだ教訓を掘り下げる。 LLMベースのアプリケーションで以前のプロフェッショナルな経験がなかったにも関わらず、チームは4ヶ月間にわたって、ゼロから製品を構築した。 最初の製品リリースの後、私たちはコード生成コンポーネントを担当する開発チームと関わりました。 アプリケーションのイシュートラッカに関するインタビューと分析を通じて、llmベースのアプリケーションに取り組んでいるチームが直面するさまざまな興味深い課題を明らかにする。 例えば、LLMベースのレッスン、ユーザベースのレッスン、技術的レッスンの3つの主要なグループを見つけました。 これらの教訓を理解することで、ソフトウェア開発チームはLCMベースのアプリケーションを構築する準備がより良くなるだろう。

With their exceptional natural language processing capabilities, tools based on Large Language Models (LLMs) like ChatGPT and Co-Pilot have swiftly become indispensable resources in the software developer's toolkit. While recent studies suggest the potential productivity gains these tools can unlock, users still encounter drawbacks, such as generic or incorrect answers. Additionally, the pursuit of improved responses often leads to extensive prompt engineering efforts, diverting valuable time from writing code that delivers actual value. To address these challenges, a new breed of tools, built atop LLMs, is emerging. These tools aim to mitigate drawbacks by employing techniques like fine-tuning or enriching user prompts with contextualized information. In this paper, we delve into the lessons learned by a software development team venturing into the creation of such a contextualized LLM-based application, using retrieval-based techniques, called CodeBuddy. Over a four-month period, the team, despite lacking prior professional experience in LLM-based applications, built the product from scratch. Following the initial product release, we engaged with the development team responsible for the code generative components. Through interviews and analysis of the application's issue tracker, we uncover various intriguing challenges that teams working on LLM-based applications might encounter. For instance, we found three main group of lessons: LLM-based lessons, User-based lessons, and Technical lessons. By understanding these lessons, software development teams could become better prepared to build LLM-based applications.
翻訳日:2023-12-01 16:53:25 公開日:2023-11-30
# 技術的負債管理の自動化 - 現状と今後の展望

Technical Debt Management Automation: State of the Art and Future Perspectives ( http://arxiv.org/abs/2311.18449v1 )

ライセンス: Link先を確認
Jo\~ao Paulo Biazotto, Daniel Feitosa, Paris Avgeriou, Elisa Yumi Nakagawa(参考訳) 技術的負債(Technical Debt、TD)とは、短期的な利益をもたらすが、長期にわたってシステムの保守を損なう可能性のある、ソフトウェアプロジェクトでの最適でない決定を指す。 技術的負債管理(英: Technical debt management、TDM)とは、TDを扱うために行われる一連の活動のこと。 これらのアクティビティは、コードやアーキテクチャ分析のようなタスクを伴います。 したがって、かなりの研究は、TDMタスクの自動化(コードの臭いの自動識別など)に焦点を当てている。 しかし、TDM自動化における現在のアプローチを要約する研究が不足している。 これにより、TDを効率的に管理するための最適な自動化戦略を選択することを妨げる可能性がある。 また、研究者が研究の状況を理解し、最も重要な研究課題に対処することを防ぐこともできる。 そこで本研究では,TDM自動化における技術の現状,利用可能なツールの分析,利用状況,TDM自動化の課題について概説する。 そこで,本研究では,システムマッピング研究 (SMS) を実施し,最初の1086の一次研究から,TDM自動化の異なる側面をカバーする3つの研究課題に答える178点を選定した。 121の自動化アーティファクトが4つのタイプ(ツール、プラグイン、スクリプト、ボット)に分類され、インプット/アウトプットとインターフェースも収集され、報告された。 最後に、結果を合成し、tdm自動化の現在の状況と関連する課題を議論するための概念モデルを提案する。 その結果,研究コミュニティは,特定した研究や自動化アーティファクトの数を考慮すると,様々なTDM活動を自動的に行う方法について,かなり調査してきた。 完全に自動化されたtdm、特に自動化されたアーティファクトの統合に関するさらなる研究が必要である。

Technical Debt (TD) refers to non-optimal decisions made in software projects that may lead to short-term benefits, but potentially harm the system's maintenance in the long-term. Technical debt management (TDM) refers to a set of activities that are performed to handle TD, e.g., identification. These activities can entail tasks such as code and architectural analysis, which can be time-consuming if done manually. Thus, substantial research work has focused on automating TDM tasks (e.g., automatic identification of code smells). However, there is a lack of studies that summarize current approaches in TDM automation. This can hinder practitioners in selecting optimal automation strategies to efficiently manage TD. It can also prevent researchers from understanding the research landscape and addressing the research problems that matter the most. Thus, the main objective of this study is to provide an overview of the state of the art in TDM automation, analyzing the available tools, their use, and the challenges in automating TDM. For this, we conducted a systematic mapping study (SMS), and from an initial set of 1086 primary studies, 178 were selected to answer three research questions covering different facets of TDM automation. We found 121 automation artifacts, which were classified in 4 different types (i.e., tools, plugins, scripts, and bots); the inputs/outputs and interfaces were also collected and reported. Finally, a conceptual model is proposed that synthesizes the results and allows to discuss the current state of TDM automation and related challenges. The results show that the research community has investigated to a large extent how to perform various TDM activities automatically, considering the number of studies and automation artifacts we identified. More research is needed towards fully automated TDM, specially concerning the integration of the automation artifacts.
翻訳日:2023-12-01 16:53:04 公開日:2023-11-30
# HOLD: 対話型手と物体の映像からのカテゴリー別3次元再構成

HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video ( http://arxiv.org/abs/2311.18448v1 )

ライセンス: Link先を確認
Zicong Fan, Maria Parelli, Maria Eleni Kadoglou, Muhammed Kocabas, Xu Chen, Michael J. Black, Otmar Hilliges(参考訳) 人間は毎日多様な物体と相互作用するため、人間の行動を理解しモデル化することが重要である。 しかし、RGBから手動オブジェクトを再構築するための既存のほとんどの方法は、事前にスキャンされたオブジェクトテンプレートを仮定するか、限られた3D手動オブジェクトデータに強く依存している。 この目的のために,単眼インタラクションビデオから手と物体を共同で再構成する最初のカテゴリー非依存手法であるHOLDを導入する。 2次元画像から不連続な3次元手と物体を再構成できる構音明瞭な暗黙モデルを開発した。 また,ハンドオブジェクトのポーズやコンストラクション品質を改善するために,ハンドオブジェクトの制約も取り入れた。 本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。 さらに,映像の再構成における頑健さを質的に示す。 コード: https://github.com/zc-alexfan/hold

Since humans interact with diverse objects every day, the holistic 3D capture of these interactions is important to understand and model human behaviour. However, most existing methods for hand-object reconstruction from RGB either assume pre-scanned object templates or heavily rely on limited 3D hand-object data, restricting their ability to scale and generalize to more unconstrained interaction settings. To this end, we introduce HOLD -- the first category-agnostic method that reconstructs an articulated hand and object jointly from a monocular interaction video. We develop a compositional articulated implicit model that can reconstruct disentangled 3D hand and object from 2D images. We also further incorporate hand-object constraints to improve hand-object poses and consequently the reconstruction quality. Our method does not rely on 3D hand-object annotations while outperforming fully-supervised baselines in both in-the-lab and challenging in-the-wild settings. Moreover, we qualitatively show its robustness in reconstructing from in-the-wild videos. Code: https://github.com/zc-alexfan/hold
翻訳日:2023-12-01 16:52:35 公開日:2023-11-30
# VTimeLLM: LLMをGraspビデオモーメントに活用

VTimeLLM: Empower LLM to Grasp Video Moments ( http://arxiv.org/abs/2311.18445v1 )

ライセンス: Link先を確認
Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu(参考訳) 大規模言語モデル(LLM)は、視覚的詳細を理解するためのビデオデータを処理するためにビデオLLMとして拡張された、顕著なテキスト理解能力を示している。 しかし、既存のビデオLLMはビデオ全体の粗い記述しか提供できず、特定のイベントの正確な開始時間と終了時間の境界を捉えていない。 本稿では,ビデオモーメントの理解と推論のための新しいビデオllmであるvtimellmを提案することで,この問題を解決する。 特にvtimellmでは,画像テキストペアを特徴のアライメントに,複数イベントビデオによる時間境界意識の向上,高品質なビデオインストラクションチューニングをそれぞれ活用し,時間理解能力の向上と人間の意図の整合を両立させる,境界認識3段階のトレーニング戦略を採用している。 テンポラルビデオグラウンディングやDense Video Captioningのようなビデオの細かな時間関連理解タスクにおいて、VTimeLLMは既存のビデオLLMよりも大幅に優れていた。 さらに、ビデオの微妙な時間的理解の恩恵により、VTimeLLMは既存のビデオLLMをビデオ対話ベンチマークで破り、その優れたクロスモーダル理解と推論能力を示す。

Large language models (LLMs) have shown remarkable text understanding capabilities, which have been extended as Video LLMs to handle video data for comprehending visual details. However, existing Video LLMs can only provide a coarse description of the entire video, failing to capture the precise start and end time boundary of specific events. In this paper, we solve this issue via proposing VTimeLLM, a novel Video LLM designed for fine-grained video moment understanding and reasoning with respect to time boundary. Specifically, our VTimeLLM adopts a boundary-aware three-stage training strategy, which respectively utilizes image-text pairs for feature alignment, multiple-event videos to increase temporal-boundary awareness, and high-quality video-instruction tuning to further improve temporal understanding ability as well as align with human intents. Extensive experiments demonstrate that in fine-grained time-related comprehension tasks for videos such as Temporal Video Grounding and Dense Video Captioning, VTimeLLM significantly outperforms existing Video LLMs. Besides, benefits from the fine-grained temporal understanding of the videos further enable VTimeLLM to beat existing Video LLMs in video dialogue benchmark, showing its superior cross-modal understanding and reasoning abilities.
翻訳日:2023-12-01 16:52:15 公開日:2023-11-30
# アートにおける色覚関連:ファジィアプローチ

Color-Emotion Associations in Art: Fuzzy Approach ( http://arxiv.org/abs/2311.18518v1 )

ライセンス: Link先を確認
Pakizar Shamoi and Muragul Muratbekova(参考訳) アートオブジェクトは特定の感情を誘発する。 色彩は視覚芸術の基本的な要素であり、芸術の知覚において重要な役割を果たす。 本稿では,ファジィ集合を用いた芸術における感情分類手法を提案する。 我々は、人間の判断の不正確さと主観的性質に合致するため、ファジィアプローチを採用する。 広範囲なファジィカラー (n=120) と広い感情スペクトル (n=10) は、絵画に固有の感情をより人間に一貫性を持ち、文脈を意識した探索を可能にする。 まず,ファジィカラー表現モデルを紹介する。 次に,ファズフィケーションの段階で,感情にタグ付けされた絵画のウィキアートデータセットを処理し,特定の感情に関連付けられたファジィな支配色を抽出する。 この結果、10の感情に対するファジィカラー分布が得られる。 最後に、それらをクリスプ領域に変換し、一次色における色覚関係の知識ベースを得る。 以上の結果から,特定の感情と色彩との間に強い関連が明らかとなった。例えば,感謝は緑,茶色,オレンジと強く関連している。 その他の注目すべき協会としては、茶色と怒り、オレンジと恥、黄色と幸福、灰色と恐怖がある。 これらの関連とジャカードの類似性を用いて、任意の未タグ画像に感情を見つけることができる。 提案手法を評価するために,被験者による2afc実験を行った。 平均ヒット率0.77は、手法の予測と人間の知覚との間に有意な相関を示す。 提案手法は,絵画検索システムへの適応が容易である。 この研究は、アートにおける色覚関連の理論的な理解に寄与し、マーケティング、デザイン、心理学といった芸術以外の様々な実践的応用に有用な洞察を提供する。

Art objects can evoke certain emotions. Color is a fundamental element of visual art and plays a significant role in how art is perceived. This paper introduces a novel approach to classifying emotions in art using Fuzzy Sets. We employ a fuzzy approach because it aligns well with human judgments' imprecise and subjective nature. Extensive fuzzy colors (n=120) and a broad emotional spectrum (n=10) allow for a more human-consistent and context-aware exploration of emotions inherent in paintings. First, we introduce the fuzzy color representation model. Then, at the fuzzification stage, we process the Wiki Art Dataset of paintings tagged with emotions, extracting fuzzy dominant colors linked to specific emotions. This results in fuzzy color distributions for ten emotions. Finally, we convert them back to a crisp domain, obtaining a knowledge base of color-emotion associations in primary colors. Our findings reveal strong associations between specific emotions and colors; for instance, gratitude strongly correlates with green, brown, and orange. Other noteworthy associations include brown and anger, orange with shame, yellow with happiness, and gray with fear. Using these associations and Jaccard similarity, we can find the emotions in the arbitrary untagged image. We conducted a 2AFC experiment involving human subjects to evaluate the proposed method. The average hit rate of 0.77 indicates a significant correlation between the method's predictions and human perception. The proposed method is simple to adapt to art painting retrieval systems. The study contributes to the theoretical understanding of color-emotion associations in art, offering valuable insights for various practical applications besides art, like marketing, design, and psychology.
翻訳日:2023-12-01 16:46:09 公開日:2023-11-30
# 提案に基づくオブジェクト検出の再検討

Revisiting Proposal-based Object Detection ( http://arxiv.org/abs/2311.18512v1 )

ライセンス: Link先を確認
Aritra Bhowmik, Martin R. Oswald, Pascal Mettes, Cees G. M. Snoek(参考訳) 本稿では,画像中の物体を検出するパイプラインについて提案する。 任意のオブジェクト検出器では、取得したボックスの提案やクエリを分類して、真理のボックスに回帰する必要がある。 最終的な予測に対する一般的な解決策は、各提案と基底の真理箱の重なりを直接最大化し、その後に勝者全員のランキングまたは最大でない抑圧を行うことである。 本稿では,単純かつ効果的な代替案を提案する。 提案の回帰は,提案と基礎的真理の交わりの領域に回帰する,より単純な問題を解く。 このように、各プロポーザルはオブジェクトを含む部分のみを指定し、プロポーザルが視覚的スコープを超えて回帰する必要がある盲点の塗装問題を避ける。 そこで本研究では, 対象を囲む提案群の回帰的交点をユニオンに乗じて, 勝敗戦略を置き換え, 最終的な予測値を得る。 再訪したアプローチでは、検出パイプラインの変更が最小限に抑えられ、既存のメソッドにプラグインすることができます。 このアプローチは,標準オブジェクト検出とインスタンスセグメンテーションアーキテクチャを直接改善し,交差型回帰とグループ化の有用性を強調する。

This paper revisits the pipeline for detecting objects in images with proposals. For any object detector, the obtained box proposals or queries need to be classified and regressed towards ground truth boxes. The common solution for the final predictions is to directly maximize the overlap between each proposal and the ground truth box, followed by a winner-takes-all ranking or non-maximum suppression. In this work, we propose a simple yet effective alternative. For proposal regression, we solve a simpler problem where we regress to the area of intersection between proposal and ground truth. In this way, each proposal only specifies which part contains the object, avoiding a blind inpainting problem where proposals need to be regressed beyond their visual scope. In turn, we replace the winner-takes-all strategy and obtain the final prediction by taking the union over the regressed intersections of a proposal group surrounding an object. Our revisited approach comes with minimal changes to the detection pipeline and can be plugged into any existing method. We show that our approach directly improves canonical object detection and instance segmentation architectures, highlighting the utility of intersection-based regression and grouping.
翻訳日:2023-12-01 16:45:41 公開日:2023-11-30
# DifAugGAN: GANベースの単一画像超解像のための実用的拡散型データ拡張

DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based Single Image Super-resolution ( http://arxiv.org/abs/2311.18508v1 )

ライセンス: Link先を確認
Axi Niu, Kang Zhang, Joshua Tian Jin Tee, Trung X. Pham, Jinqiu Sun, Chang D. Yoo, In So Kweon, Yanning Zhang(参考訳) GANに基づく画像超解像法(SR)の逆最適化により、前のSRモデルは不快で望ましくないアーティファクトを生成し、大きな歪みをもたらすことが知られている。 このような歪みの原因は判別器のキャリブレーション不良によるもので、高品質な画像の学習のための生成器に有意義なフィードバックを提供する能力を損なう。 この問題に対処するために、DifAugGANとして知られる現在のGANベースのSR手法に対して、単純だが非トラベル拡散型データ拡張方式を提案する。 本研究は, フィールドにおけるデータ拡張スキームの成功に動機づけられた訓練において, 判別器の校正を改善するために, 生成拡散モデルに拡散過程を適用することを含む。 我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。 大規模な実験的評価により、DifAugGANは、合成と実世界の両方のデータセットにわたる最先端のGANベースのSISR法よりも優れていることが示され、質的および定量的な結果の両方において顕著な進歩を示している。

It is well known the adversarial optimization of GAN-based image super-resolution (SR) methods makes the preceding SR model generate unpleasant and undesirable artifacts, leading to large distortion. We attribute the cause of such distortions to the poor calibration of the discriminator, which hampers its ability to provide meaningful feedback to the generator for learning high-quality images. To address this problem, we propose a simple but non-travel diffusion-style data augmentation scheme for current GAN-based SR methods, known as DifAugGAN. It involves adapting the diffusion process in generative diffusion models for improving the calibration of the discriminator during training motivated by the successes of data augmentation schemes in the field to achieve good calibration. Our DifAugGAN can be a Plug-and-Play strategy for current GAN-based SISR methods to improve the calibration of the discriminator and thus improve SR performance. Extensive experimental evaluations demonstrate the superiority of DifAugGAN over state-of-the-art GAN-based SISR methods across both synthetic and real-world datasets, showcasing notable advancements in both qualitative and quantitative results.
翻訳日:2023-12-01 16:45:21 公開日:2023-11-30
# 混合線形回帰に対するオンライン同定のグローバル収束

Global Convergence of Online Identification for Mixed Linear Regression ( http://arxiv.org/abs/2311.18506v1 )

ライセンス: Link先を確認
Yujing Liu, Zhixin Liu, and Lei Guo(参考訳) 混合線形回帰(MLR)は線形回帰サブモデルの混合を利用して非線形関係を特徴づける強力なモデルである。 MLRの同定は基本的な問題であり、既存の結果のほとんどはオフラインアルゴリズムに焦点をあて、独立で同一に分散されたデータ仮定に依存し、局所収束結果のみを提供する。 本稿では,予測最大化(EM)原理に基づく2つの新しいオンライン識別アルゴリズムを導入することにより,MLRの2つの基本クラスに対するオンライン識別とデータクラスタリングの問題を検討する。 どちらのアルゴリズムも従来のi.i.dデータ仮定に頼らずにグローバルに収束することが示されている。 本研究の主な課題は,最大度関数の勾配が一意な零点を持たないという事実であり,本解析の重要なステップは,有名なljungのode法を適用するために対応する微分方程式の安定性を確立することである。 また、クラスタ内エラーと、新しいデータが正しいクラスタに分類される確率は、既知のパラメータの場合と漸近的に同じであることが示されている。 最後に,オンラインアルゴリズムの有効性を検証する数値シミュレーションを行った。

Mixed linear regression (MLR) is a powerful model for characterizing nonlinear relationships by utilizing a mixture of linear regression sub-models. The identification of MLR is a fundamental problem, where most of the existing results focus on offline algorithms, rely on independent and identically distributed (i.i.d) data assumptions, and provide local convergence results only. This paper investigates the online identification and data clustering problems for two basic classes of MLRs, by introducing two corresponding new online identification algorithms based on the expectation-maximization (EM) principle. It is shown that both algorithms will converge globally without resorting to the traditional i.i.d data assumptions. The main challenge in our investigation lies in the fact that the gradient of the maximum likelihood function does not have a unique zero, and a key step in our analysis is to establish the stability of the corresponding differential equation in order to apply the celebrated Ljung's ODE method. It is also shown that the within-cluster error and the probability that the new data is categorized into the correct cluster are asymptotically the same as those in the case of known parameters. Finally, numerical simulations are provided to verify the effectiveness of our online algorithms.
翻訳日:2023-12-01 16:44:56 公開日:2023-11-30
# 摂動に基づく組成データの解析

Perturbation-based Analysis of Compositional Data ( http://arxiv.org/abs/2311.18501v1 )

ライセンス: Link先を確認
Anton Rask Lundborg and Niklas Pfister(参考訳) 構成データ解析のための既存の統計手法は2つの理由から、現代の多くの応用には不十分である。 第一に、例えばマイクロバイオームの研究では、従来のアプローチではモデル化が不十分な高次元性や空間性などの特性を示す。 第二に、構成の要約統計(例えば、人種の多様性)が応答変数にどのように影響するかを、バイアスのない方法で評価することは簡単ではない。 本研究では,両問題に対処する仮説的データ摂動に基づくフレームワークを提案する。 既存の合成データの方法とは異なり、データ変換ではなく摂動を用いて合成自体の解釈可能な統計関数を定義し、平均摂動効果と呼ぶ。 これらの平均摂動効果は、多くの応用に応用できるが、偏りが辺縁依存分析を頻繁に使用することを前提としている。 摂動依存再パラメータ化を導出し, 半パラメトリック推定手法を適用することにより, 平均摂動効果を効率的に推定できることを示す。 シミュレーションデータに基づいて提案した推定器を実験的に分析し,アメリカにおけるセンサスおよび微生物叢データに対する既存手法の利点を実証した。 提案する推定値のすべてに対して,一様漸近的カバレッジ保証を伴う信頼区間を提供する。

Existing statistical methods for compositional data analysis are inadequate for many modern applications for two reasons. First, modern compositional datasets, for example in microbiome research, display traits such as high-dimensionality and sparsity that are poorly modelled with traditional approaches. Second, assessing -- in an unbiased way -- how summary statistics of a composition (e.g., racial diversity) affect a response variable is not straightforward. In this work, we propose a framework based on hypothetical data perturbations that addresses both issues. Unlike existing methods for compositional data, we do not transform the data and instead use perturbations to define interpretable statistical functionals on the compositions themselves, which we call average perturbation effects. These average perturbation effects, which can be employed in many applications, naturally account for confounding that biases frequently used marginal dependence analyses. We show how average perturbation effects can be estimated efficiently by deriving a perturbation-dependent reparametrization and applying semiparametric estimation techniques. We analyze the proposed estimators empirically on simulated data and demonstrate advantages over existing techniques on US census and microbiome data. For all proposed estimators, we provide confidence intervals with uniform asymptotic coverage guarantees.
翻訳日:2023-12-01 16:44:35 公開日:2023-11-30
# フェデレーション学習に対するデータ非依存モデル中毒:グラフオートエンコーダアプローチ

Data-Agnostic Model Poisoning against Federated Learning: A Graph Autoencoder Approach ( http://arxiv.org/abs/2311.18498v1 )

ライセンス: Link先を確認
Kai Li, Jingjing Zheng, Xin Yuan, Wei Ni, Ozgur B. Akan, H. Vincent Poor(参考訳) 本稿では、新しい逆グラフオートエンコーダ(GAE)ベースのフレームワークを設計し、新しいデータに依存しないモデル中毒によるフェデレートラーニング(FL)攻撃を提案する。 この攻撃はFLトレーニングデータの知識を必要とせず、有効性と検出不能の両方を達成する。 良質な局所モデルと大域的なモデルに耳を傾けることで、攻撃者は良質な局所モデルと訓練データの特徴の間のグラフ構造的相関を抽出する。 そして、攻撃者はFLトレーニング損失を最大化しながらグラフ構造相関を逆向きに再生し、その後、敵対グラフ構造と良性グラフのトレーニングデータ特徴を用いて悪意あるローカルモデルを生成する。 新しいアルゴリズムは、GAEと下位段階の降下を使って悪意あるローカルモデルを反復的に訓練するように設計されている。 攻撃下のFLの収束は厳密に証明されており、非常に大きな最適性ギャップがある。 実験により、fl精度は提案攻撃下で徐々に低下し、既存の防御機構では検出できないことが示された。 この攻撃はすべての良性デバイスに感染し、FLにとって深刻な脅威となる可能性がある。

This paper proposes a novel, data-agnostic, model poisoning attack on Federated Learning (FL), by designing a new adversarial graph autoencoder (GAE)-based framework. The attack requires no knowledge of FL training data and achieves both effectiveness and undetectability. By listening to the benign local models and the global model, the attacker extracts the graph structural correlations among the benign local models and the training data features substantiating the models. The attacker then adversarially regenerates the graph structural correlations while maximizing the FL training loss, and subsequently generates malicious local models using the adversarial graph structure and the training data features of the benign ones. A new algorithm is designed to iteratively train the malicious local models using GAE and sub-gradient descent. The convergence of FL under attack is rigorously proved, with a considerably large optimality gap. Experiments show that the FL accuracy drops gradually under the proposed attack and existing defense mechanisms fail to detect it. The attack can give rise to an infection across all benign devices, making it a serious threat to FL.
翻訳日:2023-12-01 16:44:18 公開日:2023-11-30
# 二重ヒルベルト空間における非アーベル位相秩序の効率的な作成

Efficient Preparation of Nonabelian Topological Orders in the Doubled Hilbert Space ( http://arxiv.org/abs/2311.18497v1 )

ライセンス: Link先を確認
Shang Liu(参考訳) 非可換位相的順序とそのアノン励起は評価の対象である。 本研究では,2重ヒルベルト空間における位相次数の量子シミュレーション - 密度行列の空間- という,この目標への新しいアプローチを提案する。 すべての量子二重モデルの基底状態(古典的コードは最も単純な例)は、二重ヒルベルト空間において効率的に準備できることが示される。 対照的に、従来のヒルベルト空間ではそうではない: これらのモデルのいくつかのみが効率的に準備可能であることが知られている。 さらに、非自明なエノンブレイディング効果(アーベルと非アーベルの両方)はヒルベルト空間において実現可能であるが、密度行列の本質的な性質は励起を制限している。

Realizing nonabelian topological orders and their anyon excitations is an esteemed objective. In this work, we propose a novel approach towards this goal: quantum simulating topological orders in the doubled Hilbert space - the space of density matrices. We show that ground states of all quantum double models (toric code being the simplest example) can be efficiently prepared in the doubled Hilbert space. In contrast, this is not the case in the conventional Hilbert space: Ground states of only some of these models are known to be efficiently preparable. Additionally, we find that nontrivial anyon braiding effects, both abelian and nonabelian, can be realized in the doubled Hilbert space, although the intrinsic nature of density matrices restricts possible excitations.
翻訳日:2023-12-01 16:43:59 公開日:2023-11-30
# 雑音認識学習による複数の擬似ラベルからの光学ディスクとカップの正確なセグメンテーション

Accurate Segmentation of Optic Disc And Cup from Multiple Pseudo-labels by Noise-Aware Learning ( http://arxiv.org/abs/2311.18496v1 )

ライセンス: Link先を確認
Tengjin Weng, Yang Shen, Zhidong Zhao, Zhiming Cheng, Shuai Wang(参考訳) 光緑内障のスクリーニングと診断の自動化において,視ディスクとカップセグメンテーションが重要な役割を担っている。 データ駆動畳み込みニューラルネットワーク(cnns)はこの領域で有望であるが、光学ディスクとカップセグメンテーションのタスクにおけるオブジェクトとバックグラウンド境界の曖昧さは、モデル性能に影響を与えるノイズのアノテーションにつながる。 そこで本研究では,光ディスクとカップセグメンテーションの精度向上を目的として,MPNN(Multiple Pseudo-labels Noise-Aware Network)のラベルデノベーション手法を提案する。 具体的には、Multiple Pseudo-labels Generation and Guided Denoising (MPGGD)モジュールは、真のラベルに基づいて訓練された複数の異なる初期化ネットワークによって擬似ラベルを生成し、これらの擬似ラベルガイドから抽出された画素レベルのコンセンサス情報を用いて、清潔なピクセルをノイズの多いピクセルと区別する。 MPNNのトレーニングフレームワークは、清潔なピクセルとノイズの多いピクセルからセグメンテーションを学ぶための教師学生アーキテクチャによって構築されている。 特にこのようなフレームワークは (i)クリーンピクセルからの信頼性と基礎的洞察 (ii)多重摂動に基づく教師なし一貫性によるノイズ画素内の補足知識。 他のラベルデノベーション手法と比較して,RIGAデータセットの総合的な実験結果から,本手法の優れた性能と優れた復調能力が示された。

Optic disc and cup segmentation play a crucial role in automating the screening and diagnosis of optic glaucoma. While data-driven convolutional neural networks (CNNs) show promise in this area, the inherent ambiguity of segmenting object and background boundaries in the task of optic disc and cup segmentation leads to noisy annotations that impact model performance. To address this, we propose an innovative label-denoising method of Multiple Pseudo-labels Noise-aware Network (MPNN) for accurate optic disc and cup segmentation. Specifically, the Multiple Pseudo-labels Generation and Guided Denoising (MPGGD) module generates pseudo-labels by multiple different initialization networks trained on true labels, and the pixel-level consensus information extracted from these pseudo-labels guides to differentiate clean pixels from noisy pixels. The training framework of the MPNN is constructed by a teacher-student architecture to learn segmentation from clean pixels and noisy pixels. Particularly, such a framework adeptly leverages (i) reliable and fundamental insights from clean pixels and (ii) the supplementary knowledge within noisy pixels via multiple perturbation-based unsupervised consistency. Compared to other label-denoising methods, comprehensive experimental results on the RIGA dataset demonstrate our method's excellent performance and significant denoising ability.
翻訳日:2023-12-01 16:43:46 公開日:2023-11-30
# モデルアライメントによる対向移動性の向上

Improving Adversarial Transferability via Model Alignment ( http://arxiv.org/abs/2311.18495v1 )

ライセンス: Link先を確認
Avery Ma, Amir-massoud Farahmand, Yangchen Pan, Philip Torr, Jindong Gu(参考訳) ニューラルネットワークは、異なるモデル間で転送可能な逆摂動に影響を受けやすい。 本稿では,トランスファー可能な逆摂動を生成するための音源モデルの能力を向上させることを目的とした新しいモデルアライメント手法を提案する。 アライメントプロセスの間、ソースモデルのパラメータはアライメント損失を最小限にするために微調整される。 この損失は、ソースモデルと、証人モデルと呼ばれる独立に訓練された別のモデルとの予測の相違を測定する。 モデルアライメントの効果を理解するために,損失景観の変化の幾何学的アレーシスを行う。 様々なモデルアーキテクチャを用いたImageNetデータセットの大規模な実験により、アライメントされたソースモデルから発生する摂動は、元のソースモデルよりもはるかに高い転送性を示すことが示された。

Neural networks are susceptible to adversarial perturbations that are transferable across different models. In this paper, we introduce a novel model alignment technique aimed at improving a given source model's ability in generating transferable adversarial perturbations. During the alignment process, the parameters of the source model are fine-tuned to minimize an alignment loss. This loss measures the divergence in the predictions between the source model and another, independently trained model, referred to as the witness model. To understand the effect of model alignment, we conduct a geometric anlaysis of the resulting changes in the loss landscape. Extensive experiments on the ImageNet dataset, using a variety of model architectures, demonstrate that perturbations generated from aligned source models exhibit significantly higher transferability than those from the original source model.
翻訳日:2023-12-01 16:43:19 公開日:2023-11-30
# PRS:シャープ機能は解像度なしのサーフェスリメッシングに先立つ

PRS: Sharp Feature Priors for Resolution-Free Surface Remeshing ( http://arxiv.org/abs/2311.18494v1 )

ライセンス: Link先を確認
Natalia Soboleva, Olga Gorbunova, Maria Ivanova, Evgeny Burnaev, Matthias Nie{\ss}ner, Denis Zorin and Alexey Artemov(参考訳) 幾何学的特徴の保存による表面再構成はコンピュータビジョンの課題である。 暗黙的な形状再構成の著しい進展にもかかわらず、最先端のメッシュ抽出法は、しばしばエイリアスで知覚的に歪んだ表面を生成し、高解像度の3d形状へのスケーラビリティを欠いている。 本稿では,任意の解像度を再現するための入力とスケールとして,粗いエイリアスメッシュのみを必要とする自動特徴検出とリメッシングのためのデータ駆動アプローチを提案する。 我々は,(1)暗黙の頂点モデルを用いて形状の鋭い幾何学的特徴を捉え,(2)エッジワイズモデルを用いてエッジフリップを適用することにより得られた正規化アライメントの近似的改善を定義する。 任意の複雑性形状へのスケーリングを支援するため、局所三角パッチを用いてフィールドを学習し、完全な表面メッシュ上の推定値を拡散する。 提案アルゴリズムは,学習分野をシャープな特徴先行として統合し,頂点配置とメッシュ接続性を最適化し,最大表面改善を実現する。 abcデータセットにおける高分解能形状復元の難解なコレクションについて,本アルゴリズムは26%の正規化f-scoreと42%の知覚的$\text{rmse}_{\text{v}}$を改良する。

Surface reconstruction with preservation of geometric features is a challenging computer vision task. Despite significant progress in implicit shape reconstruction, state-of-the-art mesh extraction methods often produce aliased, perceptually distorted surfaces and lack scalability to high-resolution 3D shapes. We present a data-driven approach for automatic feature detection and remeshing that requires only a coarse, aliased mesh as input and scales to arbitrary resolution reconstructions. We define and learn a collection of surface-based fields to (1) capture sharp geometric features in the shape with an implicit vertexwise model and (2) approximate improvements in normals alignment obtained by applying edge-flips with an edgewise model. To support scaling to arbitrary complexity shapes, we learn our fields using local triangulated patches, fusing estimates on complete surface meshes. Our feature remeshing algorithm integrates the learned fields as sharp feature priors and optimizes vertex placement and mesh connectivity for maximum expected surface improvement. On a challenging collection of high-resolution shape reconstructions in the ABC dataset, our algorithm improves over state-of-the-art by 26% normals F-score and 42% perceptual $\text{RMSE}_{\text{v}}$.
翻訳日:2023-12-01 16:43:08 公開日:2023-11-30
# CLS-CAD:Fusion 360におけるCADアセンブリの合成

CLS-CAD: Synthesizing CAD Assemblies in Fusion 360 ( http://arxiv.org/abs/2311.18492v1 )

ライセンス: Link先を確認
Constantin Chaumet and Jakob Rehof(参考訳) cad設計プロセスには、アセンブリを作成するための繰り返しステップが多数含まれている。 この問題は、ファスナーや製品統合ベース部品など、すべてのバリエーションに共通する部品を挿入するといったステップが何度も繰り返されるなど、製品ラインやデザインファミリのエンジニアリングにおいて複雑になる。 これにより、設計の時間と結果としてコストが集中する。 多くのCADソフトウェアパッケージにはAPIがあるが、アセンブリ作成を自動化するユースケース固有のプラグインを作成するという取り組みは、通常、その利点を上回る。 我々はCADソフトウェアパッケージであるFusion 360のプラグインを開発し,この問題に対処した。 このプラグインはfusion 360にいくつかのグラフィカルインターフェースを追加し、パーツに型をアノテートしたり、サブタイプ階層を管理したり、アセンブリを組み立てるためのアセンブリプログラムを合成する要求をすることができる。 このプラグインはユースケース非依存であり、任意の開キネマティックチェイン構造を生成することができる。 CADソフトウェアに携わるエンジニアが、デザイン部品を再利用し、さまざまなデザイン代替品と製品ライン全体を自動生成できることを期待している。

The CAD design process includes a number of repetitive steps when creating assemblies. This issue is compounded when engineering whole product lines or design families, as steps like inserting parts common to all variations, such as fasteners and product-integral base parts, get repeated numerous times. This makes creating designs time-, and as a result, cost-intensive. While many CAD software packages have APIs, the effort of creating use-case specific plugins to automate creation of assemblies usually outweighs the benefit. We developed a plugin for the CAD software package "Fusion 360" which tackles this issue. The plugin adds several graphical interfaces to Fusion 360 that allow parts to be annotated with types, subtype hierarchies to be managed, and requests to synthesize assembly programs for assemblies to be posed. The plugin is use-case agnostic and is able to generate arbitrary open kinematic chain structures. We envision engineers working with CAD software being able to make designed parts reusable and automate the generation of different design alternatives as well as whole product lines.
翻訳日:2023-12-01 16:42:42 公開日:2023-11-30
# ZeST-NeRF:ZeST-NeRFにおける時間的アグリゲーション

ZeST-NeRF: Using temporal aggregation for Zero-Shot Temporal NeRFs ( http://arxiv.org/abs/2311.18491v1 )

ライセンス: Link先を確認
Violeta Men\'endez Gonz\'alez, Andrew Gilbert, Graeme Phillipson, Stephen Jolly, Simon Hadfield(参考訳) メディア制作の分野では、ビデオ編集技術が重要な役割を果たしている。 最近のアプローチは、静的シーンの新しいビューイメージ合成を実行することに成功している。 しかし、時間的情報を加えるとさらに複雑さが増す。 以前のモデルは、NeRFを使用して静的および動的シーンを暗黙的に表現することに焦点を当てていた。 これらのモデルは印象的な結果を得るが、トレーニングや推論にはコストがかかる。 彼らは、そのシーンを暗黙的に位置の関数として記述するためにMDPを過度に適合させた。 本稿では,新たなシーンに時間的NeRFを生成できるZeST-NeRFを提案する。 複数視点合成技術とシーンフロー場推定を用いて,未知のシーンでのみ訓練された新規ビューを正確に再構築することができる。 我々は,既存の最先端のアプローチでは,この新たな課題を十分に解決できないことを実証し,その効果を実証する。 結果として得られるネットワークは、定量的に15%改善され、視覚効果が大幅に向上する。

In the field of media production, video editing techniques play a pivotal role. Recent approaches have had great success at performing novel view image synthesis of static scenes. But adding temporal information adds an extra layer of complexity. Previous models have focused on implicitly representing static and dynamic scenes using NeRF. These models achieve impressive results but are costly at training and inference time. They overfit an MLP to describe the scene implicitly as a function of position. This paper proposes ZeST-NeRF, a new approach that can produce temporal NeRFs for new scenes without retraining. We can accurately reconstruct novel views using multi-view synthesis techniques and scene flow-field estimation, trained only with unrelated scenes. We demonstrate how existing state-of-the-art approaches from a range of fields cannot adequately solve this new task and demonstrate the efficacy of our solution. The resulting network improves quantitatively by 15% and produces significantly better visual results.
翻訳日:2023-12-01 16:42:24 公開日:2023-11-30
# 動的グラフのためのリンク予測アルゴリズムの評価に関する新しい展望

New Perspectives on the Evaluation of Link Prediction Algorithms for Dynamic Graphs ( http://arxiv.org/abs/2311.18486v1 )

ライセンス: Link先を確認
Rapha\"el Romero, Tijl De Bie, Jefrey Lijffijt(参考訳) 多くの新しいアルゴリズムによって、動的ネットワークにおける将来のリンクを予測する研究が急速に進んでいる。 いくつかのベンチマークデータが存在し、パフォーマンス評価は通常、観測されたネットワークイベント(正)とランダムに生成されたもの(負)のスコアを比較することに依存する。 これらの評価尺度は、モデルの予測能力と、特に使用される負のサンプルの種類の両方に依存する。 さらに、一般的に時間データの場合、予測品質は時間とともに変化する可能性がある。 これは複雑な評価空間を生み出す。 本研究では,ネガティブサンプリングの可能性のカタログ化と,予測性能と時間ネットワークのダイナミクスに関する洞察を得られる新しい可視化手法を導入する。 これらの可視化ツールを用いて,ノードおよびエッジレベルでの予測性能に対する負のサンプリングの効果を調べる。 我々は、最近のベンチマークから抽出されたデータセット上で、エラーが通常、異なるデータセグメントに均等に分散していないことを実証的に検証する。 最後に,このような可視化ツールが動的リンク予測手法を様々なレベルで評価するための強力なガイドとなることを論じる。

There is a fast-growing body of research on predicting future links in dynamic networks, with many new algorithms. Some benchmark data exists, and performance evaluations commonly rely on comparing the scores of observed network events (positives) with those of randomly generated ones (negatives). These evaluation measures depend on both the predictive ability of the model and, crucially, the type of negative samples used. Besides, as generally the case with temporal data, prediction quality may vary over time. This creates a complex evaluation space. In this work, we catalog the possibilities for negative sampling and introduce novel visualization methods that can yield insight into prediction performance and the dynamics of temporal networks. We leverage these visualization tools to investigate the effect of negative sampling on the predictive performance, at the node and edge level. We validate empirically, on datasets extracted from recent benchmarks that the error is typically not evenly distributed across different data segments. Finally, we argue that such visualization tools can serve as powerful guides to evaluate dynamic link prediction methods at different levels.
翻訳日:2023-12-01 16:42:11 公開日:2023-11-30
# 統合失調症診断のための脳波データセットの強化 : 初回西アフリカ(ナイジェリア)取り組み

Enhancing EEG Dataset Resources for Schizophrenia Diagnosis: Inaugural West-African (Nigerian) Endeavor ( http://arxiv.org/abs/2311.18484v1 )

ライセンス: Link先を確認
E.O. Olateju, K.P. Ayodele, S.K. Mosaku(参考訳) この研究は、統合失調症診断ツールの開発や研究に使用される高品質な脳波データセットの変形を改善するために行われた。 この目的のために提示されたデータセットは、静止状態、心的算術タスクの実行状態、聴覚刺激に受動的に反応しながら、ナイジェリア起源の西アフリカの被験者による国際10/20システム脳波記録を含む。 被験者は症例と健康管理に区分され,Mini International Schizophrenia Interview (MINI) で同定された36例と21例のConTrolの被験者から記録され, Positive and Negative Symptoms Scale (PANSS) とWHODAS (World Health Organization Disability Assessment Schedule) で評価された。 全例は、精神保健病棟の精神分裂病患者、オバフエミ・アウォロオ大学教育病院複合施設(OAUTHC, Ile-Ife)の外来外来患者、および子会社のウェズリー・ギルド病院ユニット(OAUTHC, Ilesa)の入院患者である。 OAUTHCのメンタルヘルス・ウォードとウェズリーギルド病院・ユニットで研究に参加するために志願した学生からコントロールが引き出された。 録音はデータセットで利用可能である。 このデータセットは、脳波信号の変調を用いて統合失調症の診断と予後を研究する神経科学および計算精神医学研究コミュニティによって利用できる。

This work has been carried out to improve the dearth of high-quality EEG datasets used for schizophrenia diagnostic tools development and studies from populations of developing and underdeveloped regions of the world. To this aim, the presented dataset contains international 10/20 system EEG recordings from West African subjects of Nigerian origin under rest conditions, in restful states, mental arithmetic task execution states and while passively reacting to auditory stimuli. The subjects are divided into cases and healthy controls and recorded from 36 cases and 21 healthy conTrol subjects identified by the Mini International Schizophrenia Interview (MINI) and also assessed by the Positive and Negative Symptoms Scale (PANSS) and the World Health Organization Disability Assessment Schedule (WHODAS). All cases are admitted schizophrenia patients of the Mental Health Ward, Medical Outpatient Department of the Obafemi Awolowo University Teaching Hospital Complex (OAUTHC, Ile-Ife) and its subsidiary Wesley Guild Hospital Unit (OAUTHC, Ilesa). Controls are drawn from students who volunteered to participate in the study at the Mental Health Ward of OAUTHC and the Wesley Guild Hospital Unit. The recordings are available at Datasets. This dataset can be used by the neuroscience and computational psychiatry research community studying the diagnosis and prognosis of schizophrenia using the electroencephalogram signal modality.
翻訳日:2023-12-01 16:41:49 公開日:2023-11-30
# オープン語彙シーン理解のための3次元ガウス言語埋め込み

Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding ( http://arxiv.org/abs/2311.18482v1 )

ライセンス: Link先を確認
Jin-Chuan Shi, Miao Wang, Hao-Bin Duan, Shao-Hua Guan(参考訳) 3次元空間でのオープン語彙クエリは難しいが、オブジェクトのローカライゼーションやセグメンテーションといったシーン理解タスクには不可欠である。 言語を組み込んだシーン表現は、3次元空間に言語機能を組み込むことで進歩している。 しかし、その効果はトレーニングとレンダリングにおいてリソース集約的なニューラルネットワークに大きく依存します。 最近の3d gaussianは効率的で高品質なノベルビュー合成を提供しているが、言語機能を直接組み込むと、メモリ使用が禁止され、パフォーマンスが低下する。 本稿では,オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。 3次元ガウシアンに高次元の生のセマンティックな特徴を埋め込む代わりに、メモリ要求を大幅に緩和する専用量子化方式と、よりスムーズで高精度なクエリを実現する新しい埋め込み手法を提案し、点ベース表現における多視点特徴の不整合と高周波帰納バイアスに対処する。 総合的な実験により,我々の表現は,単一のデスクトップgpu上でリアルタイムレンダリングフレームレートを維持しつつ,現在の言語組込み表現において,最高の視覚品質と言語クエリ精度を実現していることが示された。

Open-vocabulary querying in 3D space is challenging but essential for scene understanding tasks such as object localization and segmentation. Language-embedded scene representations have made progress by incorporating language features into 3D spaces. However, their efficacy heavily depends on neural networks that are resource-intensive in training and rendering. Although recent 3D Gaussians offer efficient and high-quality novel view synthesis, directly embedding language features in them leads to prohibitive memory usage and decreased performance. In this work, we introduce Language Embedded 3D Gaussians, a novel scene representation for open-vocabulary query tasks. Instead of embedding high-dimensional raw semantic features on 3D Gaussians, we propose a dedicated quantization scheme that drastically alleviates the memory requirement, and a novel embedding procedure that achieves smoother yet high accuracy query, countering the multi-view feature inconsistencies and the high-frequency inductive bias in point-based representations. Our comprehensive experiments show that our representation achieves the best visual quality and language querying accuracy across current language-embedded representations, while maintaining real-time rendering frame rates on a single desktop GPU.
翻訳日:2023-12-01 16:41:00 公開日:2023-11-30
# FediOS: フィーチャースキューフェデレーション学習におけるパーソナライズのための直交部分空間の分離

FediOS: Decoupling Orthogonal Subspaces for Personalization in Feature-skew Federated Learning ( http://arxiv.org/abs/2311.18559v1 )

ライセンス: Link先を確認
Lingzhi Gao, Zexi Li, Yang Lu, Chao Wu(参考訳) パーソナライズド・フェデレーション・ラーニング(pFL)は、複数のクライアント間の協調トレーニングを可能にし、カスタマイズされたローカルモデルの性能を高める。 pFLでは、クライアントは異質な(非IIDとしても知られる)データを持ち、データの知識をグローバルな共有のための一般的な知識と、ローカルなパーソナライズを保存するためのパーソナライズされた知識に分離する方法において重要な課題となる。 pFLの典型的な方法はラベル分布スキューに焦点をあて、モデルを共通の特徴抽出器と2つの予測ヘッド(ジェネリックとパーソナライズ)に分割する分離方式を採用する。 しかし、このような分離方式は、共通特徴抽出器が一般的な特徴とパーソナライズされた特徴を分離できないため、特徴スクリューの不均一性の本質的な問題を解決できない。 そこで本稿では,機能スキューpFLのアーキテクチャデカップリング設計を再考し,FediOSと呼ばれる効果的なpFL手法を提案する。 FediOSでは、デカップリングを2つの特徴抽出器(ジェネリックとパーソナライズ)と1つの共有予測ヘッドに再構成する。 直交投影は、クライアントがジェネリックな機能をひとつの共通部分空間にマッピングし、パーソナライズされた機能を異なるサブスペースに分散して、デカップリングを実現するために使用される。 さらに、共有予測ヘッドは、推論中のジェネリック機能とパーソナライズ機能の重要性のバランスをとるために訓練される。 4つの視覚データセットに関する広範囲な実験により,本手法が特徴的歪不均一性の下で最先端のpfl性能に達することを証明した。

Personalized federated learning (pFL) enables collaborative training among multiple clients to enhance the capability of customized local models. In pFL, clients may have heterogeneous (also known as non-IID) data, which poses a key challenge in how to decouple the data knowledge into generic knowledge for global sharing and personalized knowledge for preserving local personalization. A typical way of pFL focuses on label distribution skew, and they adopt a decoupling scheme where the model is split into a common feature extractor and two prediction heads (generic and personalized). However, such a decoupling scheme cannot solve the essential problem of feature skew heterogeneity, because a common feature extractor cannot decouple the generic and personalized features. Therefore, in this paper, we rethink the architecture decoupling design for feature-skew pFL and propose an effective pFL method called FediOS. In FediOS, we reformulate the decoupling into two feature extractors (generic and personalized) and one shared prediction head. Orthogonal projections are used for clients to map the generic features into one common subspace and scatter the personalized features into different subspaces to achieve decoupling for them. In addition, a shared prediction head is trained to balance the importance of generic and personalized features during inference. Extensive experiments on four vision datasets demonstrate our method reaches state-of-the-art pFL performances under feature skew heterogeneity.
翻訳日:2023-12-01 16:34:10 公開日:2023-11-30
# 異なる光追跡による無線環境の学習

Learning Radio Environments by Differentiable Ray Tracing ( http://arxiv.org/abs/2311.18558v1 )

ライセンス: Link先を確認
Jakob Hoydis, Fay\c{c}al A\"it Aoudia, Sebastian Cammerer, Florian Euchner, Merlin Nimier-David, Stephan ten Brink, Alexander Keller(参考訳) レイトレーシング(RT)は、空間的に一貫性のある環境特異的チャネルインパルス応答(CIR)を生成するために、6G研究において有効である。 正確なシーンジオメトリーの取得は比較的容易であるが、材料特性の判断には正確なキャリブレーションが必要である。 そこで,材料特性,散乱,アンテナパターンの微分可能なパラメトリゼーションを補完する新しい勾配に基づく校正法を提案する。 この手法は微分可能なレイトレーサとシームレスに統合し,これらのパラメータに対するcirsの導関数の計算を可能にする。 本質的には、ニューラルネットワーク(NN)の重みに似たパラメータを訓練可能な大きな計算グラフとしてフィールド計算にアプローチする。 提案手法は,MIMO(分散マルチインプット・マルチアウトプット・チャネル・サウンドア)を用いて,合成データと実世界の屋内チャネル計測の両方を用いて検証した。

Ray tracing (RT) is instrumental in 6G research in order to generate spatially-consistent and environment-specific channel impulse responses (CIRs). While acquiring accurate scene geometries is now relatively straightforward, determining material characteristics requires precise calibration using channel measurements. We therefore introduce a novel gradient-based calibration method, complemented by differentiable parametrizations of material properties, scattering and antenna patterns. Our method seamlessly integrates with differentiable ray tracers that enable the computation of derivatives of CIRs with respect to these parameters. Essentially, we approach field computation as a large computational graph wherein parameters are trainable akin to weights of a neural network (NN). We have validated our method using both synthetic data and real-world indoor channel measurements, employing a distributed multiple-input multiple-output (MIMO) channel sounder.
翻訳日:2023-12-01 16:33:38 公開日:2023-11-30
# 半教師付き学習はすべてのデータを効果的に使用できるか? 下界の視点

Can semi-supervised learning use all the data effectively? A lower bound perspective ( http://arxiv.org/abs/2311.18557v1 )

ライセンス: Link先を確認
Alexandru \c{T}ifrea, Gizem Y\"uce, Amartya Sanyal, Fanny Yang(参考訳) 先行研究では、半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習(sl)アルゴリズムのラベル付きサンプル複雑性を改善できることが示されている。 しかし、既存の理論的分析は、教師なし学習(UL)だけでよい判断境界を学ぶのに、ラベルのないデータが十分である体制に焦点を当てている。 SSLアルゴリズムは、ULとSLの両方で同時に改善できますか? この目的のために,ラベル付きおよびラベルなしデータセットサイズと混合分布の信号-雑音比に依存する2-ガウス混合モデルに対して,厳密な下界を導出する。 意外なことに、これらの分布に対するSLアルゴリズムやULアルゴリズムの最小最適統計誤差率ではSSLアルゴリズムは改善できない。 それでも、SSLアルゴリズムがUL法やSL法より優れている実世界のデータを実証的に示す。 したがって、SSLアルゴリズムの性能向上を実証することは可能であるが、定数を注意深く追跡する必要がある。

Prior works have shown that semi-supervised learning algorithms can leverage unlabeled data to improve over the labeled sample complexity of supervised learning (SL) algorithms. However, existing theoretical analyses focus on regimes where the unlabeled data is sufficient to learn a good decision boundary using unsupervised learning (UL) alone. This begs the question: Can SSL algorithms simultaneously improve upon both UL and SL? To this end, we derive a tight lower bound for 2-Gaussian mixture models that explicitly depends on the labeled and the unlabeled dataset size as well as the signal-to-noise ratio of the mixture distribution. Surprisingly, our result implies that no SSL algorithm can improve upon the minimax-optimal statistical error rates of SL or UL algorithms for these distributions. Nevertheless, we show empirically on real-world data that SSL algorithms can still outperform UL and SL methods. Therefore, our work suggests that, while proving performance gains for SSL algorithms is possible, it requires careful tracking of constants.
翻訳日:2023-12-01 16:33:22 公開日:2023-11-30
# 局所地図コンテキストと社会的相互作用を用いた不均一グラフに基づく軌道予測

Heterogeneous Graph-based Trajectory Prediction using Local Map Context and Social Interactions ( http://arxiv.org/abs/2311.18553v1 )

ライセンス: Link先を確認
Daniel Grimm, Maximilian Zipfl, Felix Hertlein, Alexander Naumann, J\"urgen L\"uttin, Steffen Thoma, Stefan Schmid, Lavdim Halilaj, Achim Rettinger, J. Marius Z\"ollner(参考訳) 交通エージェント間の複雑な相互作用、マップコンテキスト、および交通ルールにより、周囲の交通参加者の将来の軌道を正確に予測することは、自動運転において重要だが困難な問題である。 ベクトルベースのアプローチは、最近、軌道予測ベンチマークで最高のパフォーマンスを達成できることが示されている。 これらの手法は交通エージェント間の単純な相互作用をモデル化するが、道路上での距離のような関係タイプと属性を区別しない。 さらに、中心線を表すベクトル列によってのみレーンを表現し、レーン分割やその他の道路要素のようなコンテキスト情報を無視する。 まず,トラヒックエージェント間の相互作用を意味的シーングラフでモデル化し,それらの関係の性質と重要な特徴を説明する。 第2に,エージェント中心の画像に基づく地図特徴を抽出し,局所地図コンテキストをモデル化する。 最後に,マルチモーダル予測のポリシを許容軌跡のみに強制するためのアンカーパスを生成する。 これら3つの拡張はいずれも,ベースラインモデルであるHoliGraphに対するアドバンテージを示している。

Precisely predicting the future trajectories of surrounding traffic participants is a crucial but challenging problem in autonomous driving, due to complex interactions between traffic agents, map context and traffic rules. Vector-based approaches have recently shown to achieve among the best performances on trajectory prediction benchmarks. These methods model simple interactions between traffic agents but don't distinguish between relation-type and attributes like their distance along the road. Furthermore, they represent lanes only by sequences of vectors representing center lines and ignore context information like lane dividers and other road elements. We present a novel approach for vector-based trajectory prediction that addresses these shortcomings by leveraging three crucial sources of information: First, we model interactions between traffic agents by a semantic scene graph, that accounts for the nature and important features of their relation. Second, we extract agent-centric image-based map features to model the local map context. Finally, we generate anchor paths to enforce the policy in multi-modal prediction to permitted trajectories only. Each of these three enhancements shows advantages over the baseline model HoliGraph.
翻訳日:2023-12-01 16:33:08 公開日:2023-11-30
# 検索は依然として重要だ: 生成ai時代の情報検索

Search Still Matters: Information Retrieval in the Era of Generative AI ( http://arxiv.org/abs/2311.18550v1 )

ライセンス: Link先を確認
William R. Hersh(参考訳) 目的: 情報検索システム(IR、検索とも呼ばれる)は、現代においてユビキタスである。 大規模言語モデル(LLM)に基づく生成人工知能(AI)の出現は、IRプロセスにどのように適合するのか? プロセス: この視点は、そのようなシステムの学術的利用に焦点を当てたIRプロセスのモチベーション、考慮、成果の文脈における生成的AIの使用を探求する。 結論: 単純なものから複雑なものまで、irの使用を動機付ける多くの情報ニーズがあります。 このようなシステム、特に学者のユーザーは、権威性、タイムライン、検索の文脈化に懸念を持っている。 LLMはIRプロセスを支援する機能を提供しているが、検索システムへの継続的なニーズと改善の研究は依然として不可欠である。

Objective: Information retrieval (IR, also known as search) systems are ubiquitous in modern times. How does the emergence of generative artificial intelligence (AI), based on large language models (LLMs), fit into the IR process? Process: This perspective explores the use of generative AI in the context of the motivations, considerations, and outcomes of the IR process with a focus on the academic use of such systems. Conclusions: There are many information needs, from simple to complex, that motivate use of IR. Users of such systems, particularly academics, have concerns for authoritativeness, timeliness, and contextualization of search. While LLMs may provide functionality that aids the IR process, the continued need for search systems, and research into their improvement, remains essential.
翻訳日:2023-12-01 16:32:51 公開日:2023-11-30
# 時変速度条件下における実時間振動型軸受故障診断

Real-Time Vibration-Based Bearing Fault Diagnosis Under Time-Varying Speed Conditions ( http://arxiv.org/abs/2311.18547v1 )

ライセンス: Link先を確認
Tuomas Jalonen, Mohammad Al-Sa'd, Serkan Kiranyaz, and Moncef Gabbouj(参考訳) 転がり軸受欠陥の検出は, 積極的維持戦略の実施と, 予期せぬ故障の経済的・運用的影響の最小化に不可欠である。 しかし、多くの既存の技術は厳密に制御された条件下で開発・テストされ、実用用途で見られる多様でダイナミックな設定への適応性を制限している。 本稿では,様々な雑音レベルと時変回転速度下で複数軸受故障を診断する効率的なリアルタイム畳み込みニューラルネットワーク(cnn)を提案する。 また,設計したcnnモデルの有効性を明らかにするため,fisher-based spectral separability analysis (ssa) 法を提案する。 内輪レース,外輪レース,ローラーボール障害にともなう健全な軸受と軸受の双方について実験を行った。 実験の結果,提案手法の精度は最大15.8%まで向上し,様々な信号-雑音比で高い性能のノイズに対して頑健であり,処理時間5倍の精度でリアルタイムに動作可能であることがわかった。 さらに,提案するssa手法を用いて,モデルの性能に関する洞察を提供し,実世界の課題に取り組む上での有効性を強調する。

Detection of rolling-element bearing faults is crucial for implementing proactive maintenance strategies and for minimizing the economic and operational consequences of unexpected failures. However, many existing techniques are developed and tested under strictly controlled conditions, limiting their adaptability to the diverse and dynamic settings encountered in practical applications. This paper presents an efficient real-time convolutional neural network (CNN) for diagnosing multiple bearing faults under various noise levels and time-varying rotational speeds. Additionally, we propose a novel Fisher-based spectral separability analysis (SSA) method to elucidate the effectiveness of the designed CNN model. We conducted experiments on both healthy bearings and bearings afflicted with inner race, outer race, and roller ball faults. The experimental results show the superiority of our model over the current state-of-the-art approach in three folds: it achieves substantial accuracy gains of up to 15.8%, it is robust to noise with high performance across various signal-to-noise ratios, and it runs in real-time with processing durations five times less than acquisition. Additionally, by using the proposed SSA technique, we offer insights into the model's performance and underscore its effectiveness in tackling real-world challenges.
翻訳日:2023-12-01 16:32:41 公開日:2023-11-30
# 出来ればマッチする: 意味的対応学習と非ペア画像

Match me if you can: Semantic Correspondence Learning with Unpaired Images ( http://arxiv.org/abs/2311.18540v1 )

ライセンス: Link先を確認
Jiwon Kim, Byeongho Heo, Sangdoo Yun, Seungryong Kim, Dongyoon Han(参考訳) 意味対応の最近のアプローチは、複雑なネットワークを用いて高品質な対応を得ることに重点を置いており、あいまいまたはノイズの多いマッチングポイントを精査している。 パフォーマンスは向上したが、コストのかかるポイントレベルのアノテーションのため、トレーニングペアが制限されている。 本稿では,制限された画像対とスパースな点対の両方を補完するラベル付きペアによる訓練を簡易かつ効果的に行う方法を提案する。 ベンチマークのトレーニングペアとしてプリミティブに提供されていない新しい無注釈ペアを補強することで、データ量と多様性を根本的に拡張します。 簡単な教師/学生の枠組みを用いて,学生ネットワークに信頼性の高い擬似通信を機械の監督を通じて提供する。 最後に,提案した反復学習によってネットワークの性能が着実に向上し,教師として学生を振り返り,洗練されたラベルを作成し,新しい学生を繰り返し訓練する。 我々のモデルは,セマンティック対応ベンチマークの最先端手法を含む,マイルストーンベースラインを上回ります。

Recent approaches for semantic correspondence have focused on obtaining high-quality correspondences using a complicated network, refining the ambiguous or noisy matching points. Despite their performance improvements, they remain constrained by the limited training pairs due to costly point-level annotations. This paper proposes a simple yet effective method that performs training with unlabeled pairs to complement both limited image pairs and sparse point pairs, requiring neither extra labeled keypoints nor trainable modules. We fundamentally extend the data quantity and variety by augmenting new unannotated pairs not primitively provided as training pairs in benchmarks. Using a simple teacher-student framework, we offer reliable pseudo correspondences to the student network via machine supervision. Finally, the performance of our network is steadily improved by the proposed iterative training, putting back the student as a teacher to generate refined labels and train a new student repeatedly. Our models outperform the milestone baselines, including state-of-the-art methods on semantic correspondence benchmarks.
翻訳日:2023-12-01 16:32:17 公開日:2023-11-30
# MaXTron:ビデオパノプティカルセグメンテーションのための軌道注意型マスクトランス

MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic Segmentation ( http://arxiv.org/abs/2311.18537v1 )

ライセンス: Link先を確認
Ju He, Qihang Yu, Inkyu Shin, Xueqing Deng, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen(参考訳) ビデオパノプティクスのセグメンテーションには、一貫したセグメンテーション('thing'クラスと'stuff'クラスの両方)と、時間とともにビデオ内のオブジェクトを追跡する必要がある。 本稿では,タスクに対処するために,Mask XFormer と Trajectory Attention を利用する汎用フレームワークである MaXTron を紹介する。 MaXTronは軌道の注意を生かして市販のマスクトランスを充実させる。 デプロイされたマスクトランスフォーマーは、わずか数フレームからなる短いクリップを入力として、クリップレベルのセグメンテーションを予測する。 時間的整合性を高めるため、MaXTronはインバークリップとクロスクリップトラッキングモジュールを採用し、軌道の注意を効率的に利用している。 元々はビデオ分類のために設計され、軌道注意は隣接するフレーム間の時間対応をモデル化し、推定された動き経路に沿って情報を集約する。 しかし、入力サイズに依存するため、ピクセル毎の密集した予測タスクに軌道注意を直接拡張することは非自明である。 この問題を軽減するため,提案手法では,高密度画素特徴とオブジェクトクエリの両方に軌道注意を適応させ,短期追跡結果と長期追跡結果の改善を目標とする。 特に,本モジュールでは,高さ・幅軸に沿って高密度画素を逐次追跡するために,トラジェクティブアテンションを効果的に計算する軸方向アテンションを提案する。 軸方向分解は、高密度画素の特徴の計算複雑性を著しく減少させる。 クロスクリップ追跡モジュールでは,マスキングトランスフォーマーのオブジェクトクエリがオブジェクト情報をエンコードするために学習されるので,各オブジェクトを異なるクリップにまたがって追跡するオブジェクトクエリに軌跡注意をあてることで,長期的な時間的接続を捉えることができる。 MaXTronは、ベルとホイッスルなしで、ビデオセグメンテーションベンチマークで最先端のパフォーマンスを示す。

Video panoptic segmentation requires consistently segmenting (for both `thing' and `stuff' classes) and tracking objects in a video over time. In this work, we present MaXTron, a general framework that exploits Mask XFormer with Trajectory Attention to tackle the task. MaXTron enriches an off-the-shelf mask transformer by leveraging trajectory attention. The deployed mask transformer takes as input a short clip consisting of only a few frames and predicts the clip-level segmentation. To enhance the temporal consistency, MaXTron employs within-clip and cross-clip tracking modules, efficiently utilizing trajectory attention. Originally designed for video classification, trajectory attention learns to model the temporal correspondences between neighboring frames and aggregates information along the estimated motion paths. However, it is nontrivial to directly extend trajectory attention to the per-pixel dense prediction tasks due to its quadratic dependency on input size. To alleviate the issue, we propose to adapt the trajectory attention for both the dense pixel features and object queries, aiming to improve the short-term and long-term tracking results, respectively. Particularly, in our within-clip tracking module, we propose axial-trajectory attention that effectively computes the trajectory attention for tracking dense pixels sequentially along the height- and width-axes. The axial decomposition significantly reduces the computational complexity for dense pixel features. In our cross-clip tracking module, since the object queries in mask transformer are learned to encode the object information, we are able to capture the long-term temporal connections by applying trajectory attention to object queries, which learns to track each object across different clips. Without bells and whistles, MaXTron demonstrates state-of-the-art performances on video segmentation benchmarks.
翻訳日:2023-12-01 16:32:00 公開日:2023-11-30
# モジュールコンポーネントから設計を合成する知識駆動フレームワーク

A knowledge-driven framework for synthesizing designs from modular components ( http://arxiv.org/abs/2311.18533v1 )

ライセンス: Link先を確認
Constantin Chaumet, Jakob Rehof, Thomas Schuster(参考訳) 利用可能なコンポーネントに関する知識を取得し、抽象的な設計概念を理解し、その概念を具体的な設計で実装する。 第3のステップは、部品を挿入したり、それらの間のジョイントを作成するなど、多くの反復的およびメニアル的なタスクを伴います。 特にデザインの代替案を比較して実装する場合、この問題は複雑になる。 実装手順を自動化するためのユースケースに依存しない知識駆動フレームワークを提案する。 特に、フレームワークは獲得した知識と設計概念をカタログ化し、コンビネータ論理合成を利用して具体的な設計代替案を合成する。 これにより、設計に要する労力を最小限に抑え、設計スペースを徹底的に探索することができる。 我々はCADソフトウェアAutodesk Fusion 360のプラグインとしてフレームワークを実装した。 ロボットアームを28種類のモジュールコンポーネントから合成したケーススタディを行った。 ケーススタディに基づいて,フレームワークの適用性を分析し,考察した。

Creating a design from modular components necessitates three steps: Acquiring knowledge about available components, conceiving an abstract design concept, and implementing that concept in a concrete design. The third step entails many repetitive and menial tasks, such as inserting parts and creating joints between them. Especially when comparing and implementing design alternatives, this issue is compounded. We propose a use-case agnostic knowledge-driven framework to automate the implementation step. In particular, the framework catalogues the acquired knowledge and the design concept, as well as utilizes Combinatory Logic Synthesis to synthesize concrete design alternatives. This minimizes the effort required to create designs, allowing the design space to be thoroughly explored. We implemented the framework as a plugin for the CAD software Autodesk Fusion 360. We conducted a case study in which robotic arms were synthesized from a set of 28 modular components. Based on the case study, the applicability of the framework is analyzed and discussed.
翻訳日:2023-12-01 16:31:27 公開日:2023-11-30
# ワッサーシュタイン計量によるデータセット蒸留

Dataset Distillation via the Wasserstein Metric ( http://arxiv.org/abs/2311.18531v1 )

ライセンス: Link先を確認
Haoyang Liu, Tiancheng Xing, Luwei Li, Vibhu Dalal, Jingrui He, Haohan Wang(参考訳) データセット蒸留(DD)はコンピュータビジョンにおいて魅力的なアプローチであり、モデルの性能の多くを犠牲にすることなく、広範なデータセットをより小さな合成バージョンに凝縮することを目的としている。 本稿では,その概念的中核的な目的である,より小型で合成的なデータセットの本質的な表現をいかに捉えるか,DDの手法について検討を続ける。 本研究では,最適移動理論に根ざした距離であるワッサースタイン距離を用いてddにおける分布マッチングを強化する新しい手法を提案する。 本手法は,分布差を定量化し,分布集合のセントロイドを効果的に捕捉する幾何学的に意味のある方法を提供する。 本手法は分散マッチング方式の計算上の利点を保ちつつ,複数のベンチマークで新たな最先端性能を実現する。 画像の学習に有用な事前情報を提供するため,事前学習された分類モデルの特徴空間に合成データを組み込んで分布マッチングを行う。 様々な高分解能データセットに対する広範囲なテストは、この方法の有効性と適応性を確認し、データセット蒸留におけるwassersteinメトリクスの有望で未探索の能力を示している。

Dataset distillation (DD) offers a compelling approach in computer vision, with the goal of condensing extensive datasets into smaller synthetic versions without sacrificing much of the model performance. In this paper, we continue to study the methods for DD, by addressing its conceptually core objective: how to capture the essential representation of extensive datasets in smaller, synthetic forms. We propose a novel approach utilizing the Wasserstein distance, a metric rooted in optimal transport theory, to enhance distribution matching in DD. Our method leverages the Wasserstein barycenter, offering a geometrically meaningful way to quantify distribution differences and effectively capture the centroid of a set of distributions. Our approach retains the computational benefits of distribution matching-based methods while achieving new state-of-the-art performance on several benchmarks. To provide useful prior for learning the images, we embed the synthetic data into the feature space of pretrained classification models to conduct distribution matching. Extensive testing on various high-resolution datasets confirms the effectiveness and adaptability of our method, indicating the promising yet unexplored capabilities of Wasserstein metrics in dataset distillation.
翻訳日:2023-12-01 16:31:14 公開日:2023-11-30
# 分散量子コンピューティングにおけるテレポーテーションコスト最小化のための進化的アルゴリズムの適用

Applying an Evolutionary Algorithm to Minimize Teleportation Costs in Distributed Quantum Computing ( http://arxiv.org/abs/2311.18529v1 )

ライセンス: Link先を確認
Leo S\"unkel, Manik Dawar, Thomas Gabor(参考訳) 複数の量子コンピュータ(qcs)を古典的チャネルと量子チャネルで接続することで、量子通信ネットワークを形成することができる。 これにより、ブラインド量子コンピューティング、分散量子コンピューティング、量子鍵分布などの新しい応用がもたらされる。 分散量子コンピューティングでは、QCは集合的に量子計算を行う。 各デバイスは、完全回路で要求されるより少ない量子ビットでサブ回路のみを実行するため、複数の小さなqcを組み合わせて、単一のqcが単独で解決できない大きな量子回路を実行することができる。 しかし、qc間の通信はまだ起こりうる。 回路の接続性によっては、キュービットはネットワーク内の異なるQCにテレポートされ、実際の計算にオーバーヘッドを加える必要がある。 本稿では,この問題に対する進化的アルゴリズムを提案する。 より具体的には、このアルゴリズムは、全体のテレポーテーションコストが最小となるように、回路の各時間ステップ毎に、ネットワーク内のQCにキュービットを割り当てる。 さらに、ネットワーク内の各QCの容量などのネットワーク固有の制約を考慮することができる。 ランダム回路およびベンチマーク回路の実験を行い、分散量子コンピューティング用のコンパイラと同様に、より現実的なネットワーク設定に組み込むためにこの手法をどのように調整するかの概要を述べる。 この結果から,グラフ分割法と比較すると,進化的アルゴリズムはより優れた結果を提供すると同時に,様々な問題固有の制約を容易に統合し,考慮することを可能にした。

By connecting multiple quantum computers (QCs) through classical and quantum channels, a quantum communication network can be formed. This gives rise to new applications such as blind quantum computing, distributed quantum computing and quantum key distribution. In distributed quantum computing, QCs collectively perform a quantum computation. As each device only executes a sub-circuit with fewer qubits than required by the complete circuit, a number of small QCs can be used in combination to execute a large quantum circuit that a single QC could not solve on its own. However, communication between QCs may still occur. Depending on the connectivity of the circuit, qubits must be teleported to different QCs in the network, adding overhead to the actual computation; thus, it is crucial to minimize the number of teleportations. In this paper, we propose an evolutionary algorithm for this problem. More specifically, the algorithm assigns qubits to QCs in the network for each time step of the circuit such that the overall teleportation cost is minimized. Moreover, network-specific constraints such as the capacity of each QC in the network can be taken into account. We run experiments on random as well as benchmarking circuits and give an outline on how this method can be adjusted to be incorporated into more realistic network settings as well as in compilers for distributed quantum computing. Our results show that an evolutionary algorithm is well suited for this problem when compared to the graph partitioning approach as it delivers better results while simultaneously allows the easy integration and consideration of various problem-specific constraints.
翻訳日:2023-12-01 16:30:53 公開日:2023-11-30
# 効率的なトランスフォーマーによる高次動的グラフ表現学習

HOT: Higher-Order Dynamic Graph Representation Learning with Efficient Transformers ( http://arxiv.org/abs/2311.18526v1 )

ライセンス: Link先を確認
Maciej Besta, Afonso Claudino Catarino, Lukas Gianinazzi, Nils Blach, Piotr Nyczyk, Hubert Niewiadomski, Torsten Hoefler(参考訳) 多くのグラフ表現学習(GRL)問題は動的であり、数百万のエッジが追加され、毎秒削除される。 この設定における基本的なワークロードは動的リンク予測である。グラフ更新の履歴を使用して、与えられた頂点のペアが接続されるかどうかを予測する。 このような動的設定におけるリンク予測の最近のスキームはトランスフォーマーを使用し、個々のグラフ更新を単一トークンとしてモデル化している。 本稿では、高次(ho)グラフ構造、特にkホップ近傍と与えられた頂点対を含むより一般的な部分グラフを用いて、この一連の作品のラインを強化するモデルを提案する。 このようなHO構造を基盤となるTransformerのアテンションマトリックスに符号化することで、リンク予測結果の精度が向上するが、メモリ圧力の増大を犠牲にしている。 これを緩和するために、注意行列に階層構造を課し、メモリフットプリントを大幅に削減する最近のスキームを利用する。 最後の設計は、高い精度と低いメモリ使用率の間のスイートスポットを提供する。 hotは、moocデータセット用のdygformer、tgn、graphmixerといった、9%、7%、15%の精度を達成する他の動的grlスキームよりも優れている。 私たちの設計は、他の動的GRLワークロードに対してシームレスに拡張できます。

Many graph representation learning (GRL) problems are dynamic, with millions of edges added or removed per second. A fundamental workload in this setting is dynamic link prediction: using a history of graph updates to predict whether a given pair of vertices will become connected. Recent schemes for link prediction in such dynamic settings employ Transformers, modeling individual graph updates as single tokens. In this work, we propose HOT: a model that enhances this line of works by harnessing higher-order (HO) graph structures; specifically, k-hop neighbors and more general subgraphs containing a given pair of vertices. Harnessing such HO structures by encoding them into the attention matrix of the underlying Transformer results in higher accuracy of link prediction outcomes, but at the expense of increased memory pressure. To alleviate this, we resort to a recent class of schemes that impose hierarchy on the attention matrix, significantly reducing memory footprint. The final design offers a sweetspot between high accuracy and low memory utilization. HOT outperforms other dynamic GRL schemes, for example achieving 9%, 7%, and 15% higher accuracy than - respectively - DyGFormer, TGN, and GraphMixer, for the MOOC dataset. Our design can be seamlessly extended towards other dynamic GRL workloads.
翻訳日:2023-12-01 16:30:29 公開日:2023-11-30
# グラフ畳み込みネットワークを用いた異常ネットワーク通信パターンの検出

Detecting Anomalous Network Communication Patterns Using Graph Convolutional Networks ( http://arxiv.org/abs/2311.18525v1 )

ライセンス: Link先を確認
Yizhak Vaisman, Gilad Katz, Yuval Elovici, Asaf Shabtai(参考訳) 高度なサイバー攻撃から組織のエンドポイントを保護するためには、高度な検出方法が必要である。 本稿では,GCNetOmalyについて述べる。GCN(Graph Convolutional Network)ベースの変分オートエンコーダ(VAE)異常検出装置で,内部および外部マシン間の接続イベントを含むデータに基づいて学習する。 入力として提案したGCNベースのVAEモデルは2つの行列を受信する。 (i)機械間の接続を表す正規化隣接行列 (ii) 個々のノード/マシンをプロファイルするために使用される様々な特徴(デコグラフィ、統計、プロセス関連、Node2vec構造特徴)を含む特徴行列。 予め定義されたタイムウインドウで収集したデータに基づいてモデルをトレーニングした後、同じデータに適用し、与えられたマシンのモデルによって得られた復元スコアをマシンの異常スコアとして使用する。 GCNetOmalyは、大規模な金融機関のATM(Automated Teller Machine)から、Carbon Black EDRがログした実際の大規模データと、Active Directory(AD)サーバとの通信を2つの設定で評価した。 評価の結果,GCNetOmalyが教師なしデータ上でのマシンの異常動作の検出に有効であることが示された。

To protect an organizations' endpoints from sophisticated cyberattacks, advanced detection methods are required. In this research, we present GCNetOmaly: a graph convolutional network (GCN)-based variational autoencoder (VAE) anomaly detector trained on data that include connection events among internal and external machines. As input, the proposed GCN-based VAE model receives two matrices: (i) the normalized adjacency matrix, which represents the connections among the machines, and (ii) the feature matrix, which includes various features (demographic, statistical, process-related, and Node2vec structural features) that are used to profile the individual nodes/machines. After training the model on data collected for a predefined time window, the model is applied on the same data; the reconstruction score obtained by the model for a given machine then serves as the machine's anomaly score. GCNetOmaly was evaluated on real, large-scale data logged by Carbon Black EDR from a large financial organization's automated teller machines (ATMs) as well as communication with Active Directory (AD) servers in two setups: unsupervised and supervised. The results of our evaluation demonstrate GCNetOmaly's effectiveness in detecting anomalous behavior of machines on unsupervised data.
翻訳日:2023-12-01 16:30:06 公開日:2023-11-30
# 合成ハザードシミュレーションのための深部生成モデルと極値理論を組み合わせる-多変量および空間コヒーレントアプローチ

Combining deep generative models with extreme value theory for synthetic hazard simulation: a multivariate and spatially coherent approach ( http://arxiv.org/abs/2311.18521v1 )

ライセンス: Link先を確認
Alison Peard, Jim Hall(参考訳) 気候の危険は、複合的な危険として同時に起こると大きな災害を引き起こすことがある。 気候リスクの分布を理解し、適応ポリシーを伝えるためには、多くの物理的に現実的で空間的に一貫性のある事象をシミュレートする必要がある。 現在の手法は計算制約によって制限されており、複合事象の確率的空間分布は十分に注意を払わない。 現在のアプローチのボトルネックは、パラメトリックモデルの推論が次元の呪いに苦しむため、変数間の依存構造をモデル化することにある。 GAN(Generative Adversarial Network)は、高次元設定でデータの分布を暗黙的に学習する能力のため、このような問題に適している。 我々は,ベンガル湾に面した日次最大風速,波高,総降水量の依存構造をモデル化するためにGANを用いており,これを従来の極値理論と組み合わせて尾部の制御外挿を行った。 一度訓練すれば、このモデルは何千もの現実的な複合ハザードイベントを効率的に発生させ、気候適応や災害対応のための気候リスク評価に役立てることができる。 開発された方法は柔軟で、他の多変量および空間気候データセットに転送可能である。

Climate hazards can cause major disasters when they occur simultaneously as compound hazards. To understand the distribution of climate risk and inform adaptation policies, scientists need to simulate a large number of physically realistic and spatially coherent events. Current methods are limited by computational constraints and the probabilistic spatial distribution of compound events is not given sufficient attention. The bottleneck in current approaches lies in modelling the dependence structure between variables, as inference on parametric models suffers from the curse of dimensionality. Generative adversarial networks (GANs) are well-suited to such a problem due to their ability to implicitly learn the distribution of data in high-dimensional settings. We employ a GAN to model the dependence structure for daily maximum wind speed, significant wave height, and total precipitation over the Bay of Bengal, combining this with traditional extreme value theory for controlled extrapolation of the tails. Once trained, the model can be used to efficiently generate thousands of realistic compound hazard events, which can inform climate risk assessments for climate adaptation and disaster preparedness. The method developed is flexible and transferable to other multivariate and spatial climate datasets.
翻訳日:2023-12-01 16:29:48 公開日:2023-11-30
# 脳波モータ画像復号のための校正不要オンラインテストタイム適応

Calibration-free online test-time adaptation for electroencephalography motor imagery decoding ( http://arxiv.org/abs/2311.18520v1 )

ライセンス: Link先を確認
Martin Wimpff, Mario D\"obler, Bin Yang(参考訳) 人間の脳と外部機器をつなぐ有望な経路を提供することで、ブレイン・コンピュータ・インタフェース(bcis)はデコーディング能力において顕著な進歩を遂げており、主に高度な技術、特にディープラーニングが中心となっている。 しかし,実世界のシナリオにおいて高い精度を達成するには,セッションと課題の分散が困難である。 本稿では,オンラインテスト時間適応 (OTTA) の概念について検討する。 提案手法は,適応プロセス中にソースデータにアクセスする必要をなくし,プライバシの保護を保証している。 さらに、OTTAはセッションや主題固有のデータを一切必要とせず、キャリブレーションフリーな操作を実現する。 我々は、アライメント、適応バッチ正規化、エントロピー最小化といった様々なOTTA技術とともに軽量なアーキテクチャを用いて、脳波(EEG)運動画像デコーディングの課題について検討する。 包括的分析のための2つのデータセットと3つの異なるデータ設定について検討する。 提案手法は最新の結果をもたらし,bciデコーディングにおけるトランスファー学習のオンライン適応へのシフトを惹起する可能性がある。

Providing a promising pathway to link the human brain with external devices, Brain-Computer Interfaces (BCIs) have seen notable advancements in decoding capabilities, primarily driven by increasingly sophisticated techniques, especially deep learning. However, achieving high accuracy in real-world scenarios remains a challenge due to the distribution shift between sessions and subjects. In this paper we will explore the concept of online test-time adaptation (OTTA) to continuously adapt the model in an unsupervised fashion during inference time. Our approach guarantees the preservation of privacy by eliminating the requirement to access the source data during the adaptation process. Additionally, OTTA achieves calibration-free operation by not requiring any session- or subject-specific data. We will investigate the task of electroencephalography (EEG) motor imagery decoding using a lightweight architecture together with different OTTA techniques like alignment, adaptive batch normalization, and entropy minimization. We examine two datasets and three distinct data settings for a comprehensive analysis. Our adaptation methods produce state-of-the-art results, potentially instigating a shift in transfer learning for BCI decoding towards online adaptation.
翻訳日:2023-12-01 16:29:26 公開日:2023-11-30
# ニューラルネットワーク最適化のための汎用エージェント

Generalisable Agents for Neural Network Optimisation ( http://arxiv.org/abs/2311.18598v1 )

ライセンス: Link先を確認
Kale-ab Tessera, Callum Rhys Tilbury, Sasha Abramowitz, Ruan de Kock, Omayma Mahjoub, Benjamin Rosman, Sara Hooker, Arnu Pretorius(参考訳) 深層ニューラルネットワークの最適化は、複雑なトレーニングダイナミクス、高い計算要求、長いトレーニング時間のために難しい作業である。 この課題に対処するために、トレーニング中にハイパーパラメータを動的かつ応答的にスケジューリングすることで、ニューラルネットワークの最適化を改善することを学ぶマルチエージェント強化学習(MARL)アプローチである、GANNO(Generalisable Agents for Neural Network Optimisation)のフレームワークを提案する。 GANNOは、局部的なネットワークダイナミクスを観察するエージェントをレイヤごとに利用し、それに従ってこれらのダイナミクスを階層レベルで調整し、グローバルパフォーマンスを総括的に改善する。 本稿では,GANNOを用いて階層的な学習率を制御し,手作りのヒューリスティックと競合する有用な応答性のあるスケジュールが得られることを示す。 さらに、GANNOは様々な未知の初期条件に対して頑健に動作し、訓練されたよりも難しい問題への一般化に成功している。 私たちの研究は、ニューラルネットワークのトレーニングにこのパラダイムが与える機会の概要と、克服すべき重要な課題を提示します。

Optimising deep neural networks is a challenging task due to complex training dynamics, high computational requirements, and long training times. To address this difficulty, we propose the framework of Generalisable Agents for Neural Network Optimisation (GANNO) -- a multi-agent reinforcement learning (MARL) approach that learns to improve neural network optimisation by dynamically and responsively scheduling hyperparameters during training. GANNO utilises an agent per layer that observes localised network dynamics and accordingly takes actions to adjust these dynamics at a layerwise level to collectively improve global performance. In this paper, we use GANNO to control the layerwise learning rate and show that the framework can yield useful and responsive schedules that are competitive with handcrafted heuristics. Furthermore, GANNO is shown to perform robustly across a wide variety of unseen initial conditions, and can successfully generalise to harder problems than it was trained on. Our work presents an overview of the opportunities that this paradigm offers for training neural networks, along with key challenges that remain to be overcome.
翻訳日:2023-12-01 16:22:56 公開日:2023-11-30
# 大規模視覚言語モデルを用いた意味認識型フレームイベント融合に基づくパターン認識

Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large Vision-Language Models ( http://arxiv.org/abs/2311.18592v1 )

ライセンス: Link先を確認
Dong Li, Jiandong Jin, Yuhao Zhang, Yanlin Zhong, Yaoyang Wu, Lan Chen, Xiao Wang, Bin Luo(参考訳) 近年,rgbフレームとイベントストリームの融合によるパターン認識が新たな研究領域として出現している。 現在の方法では通常、バックボーンネットワークを使用して、rgbフレームとイベントストリームの特徴を個別に抽出し、それらの特徴をパターン認識のために融合する。 しかし,これらの手法はセマティックギャップや小規模なバックボーンネットワークといった重要な問題に悩まされる可能性がある。 本研究では,事前学習された大規模視覚言語モデルを用いて意味ラベル,rgbフレーム,イベントストリームを統合する新しいパターン認識フレームワークを提案する。 具体的には、入力されたRGBフレーム、イベントストリーム、および予め定義されたセマンティックラベルを考慮し、RGBとイベントの特徴を抽出するために、事前訓練された大規模ビジョンモデル(CLIPビジョンエンコーダ)を用いる。 セマンティックなラベルを扱うために、まずはプロンプトエンジニアリングを通して言語記述に変換し、訓練済みの大規模言語モデル(CLIPテキストエンコーダ)を用いてセマンティックな特徴を得る。 その後、マルチモーダルトランスフォーマーネットワークを用いてRGB/Event機能とセマンティック機能を統合する。 結果のフレームとイベントトークンは、自己アテンション層を使用してさらに増幅される。 同時に,テキストトークンとRGB/Eventトークンの相互接続性の向上を提案する。 最後に,認識のためのセルフアテンション層とフィードフォワード層を用いて3つのモダリティを統合する。 HARDVSおよびPokerEventデータセットに関する総合的な実験は、提案したSAFEモデルの有効性を完全に裏付けるものである。 ソースコードはhttps://github.com/Event-AHU/SAFE_LargeVLMで公開されている。

Pattern recognition through the fusion of RGB frames and Event streams has emerged as a novel research area in recent years. Current methods typically employ backbone networks to individually extract the features of RGB frames and event streams, and subsequently fuse these features for pattern recognition. However, we posit that these methods may suffer from key issues like sematic gaps and small-scale backbone networks. In this study, we introduce a novel pattern recognition framework that consolidates the semantic labels, RGB frames, and event streams, leveraging pre-trained large-scale vision-language models. Specifically, given the input RGB frames, event streams, and all the predefined semantic labels, we employ a pre-trained large-scale vision model (CLIP vision encoder) to extract the RGB and event features. To handle the semantic labels, we initially convert them into language descriptions through prompt engineering, and then obtain the semantic features using the pre-trained large-scale language model (CLIP text encoder). Subsequently, we integrate the RGB/Event features and semantic features using multimodal Transformer networks. The resulting frame and event tokens are further amplified using self-attention layers. Concurrently, we propose to enhance the interactions between text tokens and RGB/Event tokens via cross-attention. Finally, we consolidate all three modalities using self-attention and feed-forward layers for recognition. Comprehensive experiments on the HARDVS and PokerEvent datasets fully substantiate the efficacy of our proposed SAFE model. The source code will be made available at https://github.com/Event-AHU/SAFE_LargeVLM.
翻訳日:2023-12-01 16:22:37 公開日:2023-11-30
# 深部強化学習によるZX線図の最適化

Optimizing ZX-Diagrams with Deep Reinforcement Learning ( http://arxiv.org/abs/2311.18588v1 )

ライセンス: Link先を確認
Maximilian N\"agele, Florian Marquardt(参考訳) zx-diagramsは、基本的な量子力学、量子回路最適化、テンソルネットワークシミュレーションなどの応用を含む量子プロセスを記述するための強力なグラフィカル言語である。 ZX-ダイアグラムの効用は、それらが記述する基礎となる量子過程を変更することなくそれらに適用できる一連の局所変換規則に依存する。 これらのルールは、様々なアプリケーションに対してZX-ダイアグラムの構造を最適化するために利用することができる。 しかし、変換規則の最適列を見つけることは一般にオープンな問題である。 本研究では,zx-diagrams with reinforcement learningという,意思決定問題における最適な行動系列を探索する機械学習手法を組み合わせることにより,訓練された強化学習エージェントが,欲望戦略やシミュレーションアニーリングといった他の最適化手法を大幅に上回ることができることを示す。 エージェントのポリシーをエンコードするためにグラフニューラルネットワークを使用すると、トレーニングフェーズで見たよりもはるかに大きなダイアグラムへの一般化が可能になる。

ZX-diagrams are a powerful graphical language for the description of quantum processes with applications in fundamental quantum mechanics, quantum circuit optimization, tensor network simulation, and many more. The utility of ZX-diagrams relies on a set of local transformation rules that can be applied to them without changing the underlying quantum process they describe. These rules can be exploited to optimize the structure of ZX-diagrams for a range of applications. However, finding an optimal sequence of transformation rules is generally an open problem. In this work, we bring together ZX-diagrams with reinforcement learning, a machine learning technique designed to discover an optimal sequence of actions in a decision-making problem and show that a trained reinforcement learning agent can significantly outperform other optimization techniques like a greedy strategy or simulated annealing. The use of graph neural networks to encode the policy of the agent enables generalization to diagrams much bigger than seen during the training phase.
翻訳日:2023-12-01 16:22:10 公開日:2023-11-30
# 連続16ビットトレーニング:32ビット事前学習ニューラルネットワークの高速化

Continuous 16-bit Training: Accelerating 32-bit Pre-Trained Neural Networks ( http://arxiv.org/abs/2311.18587v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) ディープラーニングの分野では、32ビット精度で訓練されたモデルの正しさは、その堅牢性と精度の証明である。 しかしながら、これらのモデルの継続的な進化は、しばしばリソース集約的なさらなるトレーニングを必要とする。 本研究では,既存の32ビットモデルのトレーニングを16ビット精度で継続する手法を提案する。 この技術は、計算資源の効率性の必要性に対処するだけでなく、追加のトレーニングフェーズの速度を大幅に改善する。 継続するトレーニングに16ビット精度を採用することで、メモリ要求と計算負荷を大幅に削減でき、リソース制限された設定でトレーニングプロセスを高速化できる。 実験により,本手法は32ビットトレーニングで設定された高い精度を維持しつつ,訓練速度の大幅な向上が期待できることを示した。 このアプローチは、今日のコンテキストにおいて特に重要であり、ほとんどのモデルは当初32ビットでトレーニングされ、定期的な更新と改良を必要とする。 本研究は,16ビット継続学習のこの戦略が,持続的かつ効率的な深層学習の鍵となるソリューションになり得ることを示唆する。

In the field of deep learning, the prevalence of models initially trained with 32-bit precision is a testament to its robustness and accuracy. However, the continuous evolution of these models often demands further training, which can be resource-intensive. This study introduces a novel approach where we continue the training of these pre-existing 32-bit models using 16-bit precision. This technique not only caters to the need for efficiency in computational resources but also significantly improves the speed of additional training phases. By adopting 16-bit precision for ongoing training, we are able to substantially decrease memory requirements and computational burden, thereby accelerating the training process in a resource-limited setting. Our experiments show that this method maintains the high standards of accuracy set by the original 32-bit training while providing a much-needed boost in training speed. This approach is especially pertinent in today's context, where most models are initially trained in 32-bit and require periodic updates and refinements. The findings from our research suggest that this strategy of 16-bit continuation training can be a key solution for sustainable and efficient deep learning, offering a practical way to enhance pre-trained models rapidly and in a resource-conscious manner.
翻訳日:2023-12-01 16:21:52 公開日:2023-11-30
# FFT: 現実性, 公正性, 毒性を有するLCMの無害性評価と解析に向けて

FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity ( http://arxiv.org/abs/2311.18580v1 )

ライセンス: Link先を確認
Shiyao Cui, Zhenyu Zhang, Yilong Chen, Wenyuan Zhang, Tianyun Liu, Siqi Wang, Tingwen Liu(参考訳) 生成型人工知能の普及は、aiが生成するテキストによって引き起こされる潜在的な有害性に対する懸念を高め、主に事実的、不公平、有害なコンテンツから引き起こされている。 これまでの研究者は、生成言語モデルの無害性を評価することに多大な努力を払ってきた。 しかし、既存のベンチマークは、より強力な言語生成と命令追従能力と、より広範なアプリケーションのために、大規模言語モデル(LLM)の時代に苦戦している。 本稿では, 事実性, 公平性, 毒性を伴うllm無害性評価のための, 2116 の設計例を用いた新しいベンチマークである fft を提案する。 LLMの潜在的な害について検討するため、様々なパラメータスケール、トレーニングステージ、クリエーターをカバーする9つの代表LSMを評価した。 実験により、LLMの無害性はまだ不十分であることが示され、広範囲な分析により、将来の無害LSM研究に刺激を与える可能性のある洞察力のある発見が導かれる。

The widespread of generative artificial intelligence has heightened concerns about the potential harms posed by AI-generated texts, primarily stemming from factoid, unfair, and toxic content. Previous researchers have invested much effort in assessing the harmlessness of generative language models. However, existing benchmarks are struggling in the era of large language models (LLMs), due to the stronger language generation and instruction following capabilities, as well as wider applications. In this paper, we propose FFT, a new benchmark with 2116 elaborated-designed instances, for LLM harmlessness evaluation with factuality, fairness, and toxicity. To investigate the potential harms of LLMs, we evaluate 9 representative LLMs covering various parameter scales, training stages, and creators. Experiments show that the harmlessness of LLMs is still under-satisfactory, and extensive analysis derives some insightful findings that could inspire future research for harmless LLM research.
翻訳日:2023-12-01 16:21:33 公開日:2023-11-30
# 量子速度制限による量子相転移の探索

Probing quantum phase transition via quantum speed limit ( http://arxiv.org/abs/2311.18579v1 )

ライセンス: Link先を確認
M Suman, S. Aravinda and Ranjan Modak(参考訳) 量子速度制限 (quantum speed limit, qsl) は、与えられたハミルトニアン進化の下で状態が望ましい最終状態へと進化するのに要する時間上の下限である。 マンデルスタム・タム(MT)、マーゴラス・レヴィチン(ML)、二重ML(ML$^*$)の3つのよく知られたQSLが存在する。 準周期および線形ポテンシャルの存在下で非局在化-局在化遷移を行う一次元系を考える。 相境界を突然クエンチすることで、正確なダイナミクスがqslsによって非常によく捉えられることが分かる。 mt境界は任意の状態に対する短い時間制限において常により厳密であり、一方、直交化の時間(直交状態に到達するのに必要な時間)に対する最適境界は初期状態の選択に依存する。 さらに、極端なクエンチに対しては、MT境界が直交化の時点でより厳密であることを示し、動的量子相転移(DQPT)に対する自由エネルギーの非解析性を質的に記述することができる。 最後に,他の診断ツールに比べて計算コストがはるかに少ないqslsから局所化・非局在化遷移点を正確に同定できることを実証する。

Quantum speed limit (QSL) is the lower bound on the time required for a state to evolve to a desired final state under a given Hamiltonian evolution. Three well-known QSLs exist Mandelstam-Tamm (MT), Margolus-Levitin (ML), and dual ML (ML$^*$) bounds. We consider one-dimensional systems that undergoes delocalization-localization transition in the presence of quasiperiodic and linear potential. By performing sudden quenches across the phase boundary, we find that the exact dynamics get captured very well by QSLs. We show that the MT bound is always tighter in the short time limit for any arbitrary state, while the optimal bound for the time of orthogonalization (time required to reach the orthogonal state) depends on the choice of the initial state. Further, for extreme quenches, we prove that the MT bound remains tighter for the time of orthogonalization, and it can qualitatively describe the non-analyticity in free energy for dynamical quantum phase transition (DQPT). Finally, we also demonstrate that the localization-delocalization transition point can be exactly identified from QSLs, whose computation cost is much less compared to many other diagnostic tools.
翻訳日:2023-12-01 16:21:15 公開日:2023-11-30
# 一般化重球運動量を用いたコミュニケーション効率のよいヘテロジニアスフェデレート学習

Communication-Efficient Heterogeneous Federated Learning with Generalized Heavy-Ball Momentum ( http://arxiv.org/abs/2311.18578v1 )

ライセンス: Link先を確認
Riccardo Zaccone, Carlo Masone, Marco Ciccone(参考訳) Federated Learning(FL)は、プライバシ制約のあるシナリオにおける分散データから学ぶための最先端のアプローチである。 現在の文献によると、FLに関連する主な問題はシステムと統計上の課題を指しており、前者は通信帯域幅と周波数の低下を含むエッジデバイスからの効率的な学習を要求し、後者は非ID性に頑健なアルゴリズムを必要とする。 最先端のアプローチは、通信コストの増加で収束を保証するか、あるいは極端に異質な局所分布を扱うのに十分な堅牢性を持っていない。 本研究では,重球運動量の新しい一般化を提案し,通信オーバーヘッドを伴わずにFLにおける統計的不均一性を効果的に解くためのFedHBMを提案する。 我々は、共通flビジョンとnlpデータセットを広範囲に実験し、fedhbmアルゴリズムが経験的により優れたモデル品質と高い収束速度をもたらすことを示した。 クロスサイロ設定用に設計されている一方で、FedHBMが中間から高レベルのクロスデバイスシナリオにどのように適用され、モデル初期化(例えば事前トレーニング)が迅速なアクセラレーションにどの程度優れているかを示す。 大規模実世界のフェデレーションデータセットに対する拡張実験は、実世界のFLアプリケーションに対する我々のアプローチの有効性をさらに裏付けるものである。

Federated Learning (FL) is the state-of-the-art approach for learning from decentralized data in privacy-constrained scenarios. As the current literature reports, the main problems associated with FL refer to system and statistical challenges: the former ones demand for efficient learning from edge devices, including lowering communication bandwidth and frequency, while the latter require algorithms robust to non-iidness. State-of-art approaches either guarantee convergence at increased communication cost or are not sufficiently robust to handle extreme heterogeneous local distributions. In this work we propose a novel generalization of the heavy-ball momentum, and present FedHBM to effectively address statistical heterogeneity in FL without introducing any communication overhead. We conduct extensive experimentation on common FL vision and NLP datasets, showing that our FedHBM algorithm empirically yields better model quality and higher convergence speed w.r.t. the state-of-art, especially in pathological non-iid scenarios. While being designed for cross-silo settings, we show how FedHBM is applicable in moderate-to-high cross-device scenarios, and how good model initializations (e.g. pre-training) can be exploited for prompt acceleration. Extended experimentation on large-scale real-world federated datasets further corroborates the effectiveness of our approach for real-world FL applications.
翻訳日:2023-12-01 16:20:54 公開日:2023-11-30
# 局所的深部表現を用いた指紋照合

Fingerprint Matching with Localized Deep Representation ( http://arxiv.org/abs/2311.18576v1 )

ライセンス: Link先を確認
Yongjie Duan, Zhiyu Pan, Jianjiang Feng, Jie Zhou(参考訳) minutiaベースの指紋表現と比較すると、固定長表現は単純で効率的なマッチングのため魅力的である。 固定長の指紋表現は、異なる指紋ポーズや取得方法によって生じる異なる可視領域の指紋をマッチングする場合に、精度が制限される。 そこで本研究では,LDRFと呼ばれる指紋の局所的な深部表現を提案する。 LDRFは局所領域における識別特性に焦点をあてることで、可変可視領域を持つ指紋に対してより堅牢で正確な固定長表現を提供する。 LDRFは有効な領域に情報を保持するように適応することができ、柔軟性が高い。 LDRFによるマッチングスコアも直感的な統計特性を示し,非常に小さな重複領域の場合の不確実性を軽減するために,マッチングスコア正規化手法を提案する。 この新しい技術では,データベースのサイズが急速に拡大しても,指紋照合の精度と信頼性を高いレベルに維持することができる。 種々の指ポーズと印象型の140K以上の指紋を含む21個のデータセットに対する実験結果から,LDRFが他の固定長表現よりも優れ,センシング技術や印象型に頑健であることが示された。 さらに,提案したマッチングスコア正規化は,511万以上の指紋を含む大規模識別実験において,偽一致率(FMR)を効果的に低減する。 特に, この手法は, スコア正規化を伴わないマッチングに比べて2桁の精度を低下させ, 従来に比べて5桁の精度を低下させる。

Compared to minutia-based fingerprint representations, fixed-length representations are attractive due to simple and efficient matching. However, fixed-length fingerprint representations are limited in accuracy when matching fingerprints with different visible areas, which can occur due to different finger poses or acquisition methods. To address this issue, we propose a localized deep representation of fingerprint, named LDRF. By focusing on the discriminative characteristics within local regions, LDRF provides a more robust and accurate fixed-length representation for fingerprints with variable visible areas. LDRF can be adapted to retain information within any valid area, making it highly flexible. The matching scores produced by LDRF also exhibit intuitive statistical characteristics, which led us to propose a matching score normalization technique to mitigate the uncertainty in the cases of very small overlapping area. With this new technique, we can maintain a high level of accuracy and reliability in our fingerprint matching, even as the size of the database grows rapidly. Our experimental results on 21 datasets containing over 140K fingerprints of various finger poses and impression types show that LDRF outperforms other fixed-length representations and is robust to sensing technologies and impression types. Besides, the proposed matching score normalization effectively reduces the false match rate (FMR) in large-scale identification experiments comprising over 5.11 million fingerprints. Specifically, this technique results in a reduction of two orders of magnitude compared to matching without matching score normalization and five orders of magnitude compared to prior works.
翻訳日:2023-12-01 16:20:28 公開日:2023-11-30
# ゼロショット学習におけるクラス分布シフト:ロバスト表現の学習

Class Distribution Shifts in Zero-Shot Learning: Learning Robust Representations ( http://arxiv.org/abs/2311.18575v1 )

ライセンス: Link先を確認
Yuli Slavutsky and Yuval Benjamini(参考訳) トレーニングとデプロイメントデータの分散シフトは、マシンラーニングモデルのパフォーマンスに影響することが多い。 本稿では,隠れた変数がクラス分布のシフトを引き起こすような設定について検討する。 これらの分散シフトは、訓練クラスから学んだ表現に依存するが、新しい目に見えないものにデプロイされるため、ゼロショット分類器にとって特に難しい。 本稿では,ゼロショット検証タスクにおけるクラス分布シフトに頑健なデータ表現の学習アルゴリズムを提案する。 本研究では,階層的データサンプリングと分散一般化手法を組み合わせることにより,シミュレーションと実世界のデータセットの両方における多様なクラス分布への一般化を改善できることを示す。

Distribution shifts between training and deployment data often affect the performance of machine learning models. In this paper, we explore a setting where a hidden variable induces a shift in the distribution of classes. These distribution shifts are particularly challenging for zero-shot classifiers, as they rely on representations learned from training classes, but are deployed on new, unseen ones. We introduce an algorithm to learn data representations that are robust to such class distribution shifts in zero-shot verification tasks. We show that our approach, which combines hierarchical data sampling with out-of-distribution generalization techniques, improves generalization to diverse class distributions in both simulations and real-world datasets.
翻訳日:2023-12-01 16:20:05 公開日:2023-11-30
# ロバストおよび可逆性分子ドッキングによるマルチスケール反復精製

Multi-scale Iterative Refinement towards Robust and Versatile Molecular Docking ( http://arxiv.org/abs/2311.18574v1 )

ライセンス: Link先を確認
Jiaxian Yan, Zaixi Zhang, Kai Zhang, and Qi Liu(参考訳) 分子ドッキング(英: molecular docking)は、タンパク質標的への小さな分子の結合構造を予測するために使われる重要な計算ツールである。 ブラインドドッキング効率の改善につながる幾何学的深層学習に基づくアプローチの最近の進歩にもかかわらず、これらの手法は、未発見タンパク質の一般化性能の制限、ブラインドドッキングの設定と部位特異的ドッキングの同時対応の欠如、分子間立体衝突のような物理的不均一性の頻発など、注目すべき課題に遭遇している。 本研究では,これらの課題を克服するための効率的な分子ドッキングを目的とした,堅牢で汎用的なフレームワークであるDeltaDockを紹介する。 DeltaDockは2段階のプロセスで機能する: 高速な初期複素構造サンプリングに続いて、初期構造を複数スケールで反復的に洗練する。 初期段階では、高い効率で正確な構造をサンプリングするために、大きなタンパク質モデルとグラフニューラルネットワークに基づくリガンド依存結合部位予測モデルを開発した。 このモデルはgpuによるサンプリングアルゴリズムと組み合わせられる。 サンプル構造は、タンパク質-リガンド原子-原子相互作用と残基-原子相互作用の両方を次の段階で捉えるマルチスケール反復精製モジュールを用いて更新される。 従来の幾何学的深層学習手法と異なり、DeltaDockはブラインドドッキングとサイト固有のドッキングの両方で優れた性能を示している。 総合的な実験の結果、デルタドックはドッキング精度でベースラインメソッドを一貫して上回っていることが判明した。 さらに、物理的に有効な構造を予測するための顕著な一般化能力と熟練度を示し、様々なシナリオにおいてその堅牢性と信頼性を示す。

Molecular docking is a key computational tool utilized to predict the binding conformations of small molecules to protein targets, which is fundamental in the design of novel drugs. Despite recent advancements in geometric deep learning-based approaches leading to improvements in blind docking efficiency, these methods have encountered notable challenges, such as limited generalization performance on unseen proteins, the inability to concurrently address the settings of blind docking and site-specific docking, and the frequent occurrence of physical implausibilities such as inter-molecular steric clash. In this study, we introduce DeltaDock, a robust and versatile framework designed for efficient molecular docking to overcome these challenges. DeltaDock operates in a two-step process: rapid initial complex structures sampling followed by multi-scale iterative refinement of the initial structures. In the initial stage, to sample accurate structures with high efficiency, we develop a ligand-dependent binding site prediction model founded on large protein models and graph neural networks. This model is then paired with GPU-accelerated sampling algorithms. The sampled structures are updated using a multi-scale iterative refinement module that captures both protein-ligand atom-atom interactions and residue-atom interactions in the following stage. Distinct from previous geometric deep learning methods that are conditioned on the blind docking setting, DeltaDock demonstrates superior performance in both blind docking and site-specific docking settings. Comprehensive experimental results reveal that DeltaDock consistently surpasses baseline methods in terms of docking accuracy. Furthermore, it displays remarkable generalization capabilities and proficiency for predicting physically valid structures, thereby attesting to its robustness and reliability in various scenarios.
翻訳日:2023-12-01 16:19:52 公開日:2023-11-30
# 非教師なしビデオ領域適応のためのラベルノイズの克服

Overcoming Label Noise for Source-free Unsupervised Video Domain Adaptation ( http://arxiv.org/abs/2311.18572v1 )

ライセンス: Link先を確認
Avijit Dasgupta and C. V. Jawahar and Karteek Alahari(参考訳) 分類手法の進歩にもかかわらず、ソースとターゲットドメインの分散シフトを伴うビデオを扱うための現在のアプローチは、適応段階でソースデータにアクセスする必要があるため、ソース依存のままである。 本稿では,ソース領域と対象領域のギャップを埋めることにより,この問題に対処するための自己学習型ソースフリービデオドメイン適応手法を提案する。 我々は、ソース事前学習モデルを用いて、必然的にノイズの多いターゲットドメインサンプルの擬似ラベルを生成する。 そこで,ノイズラベルからの学習として,ソースフリービデオ領域適応の問題を扱い,疑似ラベルの正しいサンプルが適応に役立ちうると主張する。 この目的のために,クロスエントロピー損失を擬似ラベルの正しさの指標として活用し,対象領域から得られた小損失サンプルを用いてモデルを微調整する。 教師が段階的に更新し、信頼性の高い擬似ラベルを生成する教師学習フレームワークを実装することにより、適応性能をさらに向上する。 一方、学生は、生成された擬似ラベルを用いて、対象のドメインビデオの微調整を行い、パフォーマンスを向上させる。 cleanadapt, cleanadapt + ts と呼ばれる我々の手法が最先端の成果を達成し、様々なオープンデータセットにおける既存のアプローチを上回っています。 ソースコードはhttps://avijit9.github.io/cleanadaptで公開しています。

Despite the progress seen in classification methods, current approaches for handling videos with distribution shifts in source and target domains remain source-dependent as they require access to the source data during the adaptation stage. In this paper, we present a self-training based source-free video domain adaptation approach to address this challenge by bridging the gap between the source and the target domains. We use the source pre-trained model to generate pseudo-labels for the target domain samples, which are inevitably noisy. Thus, we treat the problem of source-free video domain adaptation as learning from noisy labels and argue that the samples with correct pseudo-labels can help us in adaptation. To this end, we leverage the cross-entropy loss as an indicator of the correctness of the pseudo-labels and use the resulting small-loss samples from the target domain for fine-tuning the model. We further enhance the adaptation performance by implementing a teacher-student framework, in which the teacher, which is updated gradually, produces reliable pseudo-labels. Meanwhile, the student undergoes fine-tuning on the target domain videos using these generated pseudo-labels to improve its performance. Extensive experimental evaluations show that our methods, termed as CleanAdapt, CleanAdapt + TS, achieve state-of-the-art results, outperforming the existing approaches on various open datasets. Our source code is publicly available at https://avijit9.github.io/CleanAdapt.
翻訳日:2023-12-01 16:19:23 公開日:2023-11-30
# 文法的ジェンダーが分布意味論に及ぼす影響--因果的視点

Grammatical Gender's Influence on Distributional Semantics: A Causal Perspective ( http://arxiv.org/abs/2311.18567v1 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Kevin Du, Adina Williams, Isabelle Augenstein, Ryan Cotterell(参考訳) 言語間のジェンダー割り当てがどの程度意味を持つかは、現代言語学と認知科学における活発な研究領域である。 現在のアプローチは、性別の割り当てがスペクトルのどこにあるか、完全に任意に決定されるから意味的に決定されるかを決定することを目的としていると考えることができる。 後者のケースでは、ネオ・ヴォルフの仮説の定式化があり、不生名詞の性別でさえ、人々がオブジェクトについてどう考え、話すかに影響している(意味の代名詞として不生名詞を変更するために使われる形容詞の選択を使って)。 我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。 過去の結果に従えば,名詞の性別とそれらを修正する形容詞の関係を見いだすことができる。 しかし、名詞の意味を制御すれば、文法的ジェンダーは形容詞の選択にほぼゼロの効果を持つことが明らかとなり、ネオ・ワフシアン仮説を疑問視する。

How much meaning influences gender assignment across languages is an active area of research in modern linguistics and cognitive science. We can view current approaches as aiming to determine where gender assignment falls on a spectrum, from being fully arbitrarily determined to being largely semantically determined. For the latter case, there is a formulation of the neo-Whorfian hypothesis, which claims that even inanimate noun gender influences how people conceive of and talk about objects (using the choice of adjective used to modify inanimate nouns as a proxy for meaning). We offer a novel, causal graphical model that jointly represents the interactions between a noun's grammatical gender, its meaning, and adjective choice. In accordance with past results, we find a relationship between the gender of nouns and the adjectives which modify them. However, when we control for the meaning of the noun, we find that grammatical gender has a near-zero effect on adjective choice, thereby calling the neo-Whorfian hypothesis into question.
翻訳日:2023-12-01 16:18:59 公開日:2023-11-30
# 量子補助入力による無条件セキュアなコミットメント

Unconditionally Secure Commitments with Quantum Auxiliary Inputs ( http://arxiv.org/abs/2311.18566v1 )

ライセンス: Link先を確認
Tomoyuki Morimae, Barak Nehoran, Takashi Yamakawa(参考訳) 我々は、chailloux, kerenidis, rosgen (comput. complex. 2016) によって導入された量子補助入力コミットメントの概念を再検討する。 計算的ハイディングおよび統計的に束縛された量子補助入力のコミットメントは無条件、すなわち証明されていない仮定に頼らずに存在し、Chaillouxらは複雑性理論的な仮定である${\bf QIP}\not\subseteq{\bf QMA}$を仮定した。 一方,量子補助入力設定においても,統計隠れと統計結合を同時に達成することは不可能である。 我々の知る限りでは、これは統計上のセキュリティが不可能なあらゆる形式の(古典的または量子的な)コミットメントの計算セキュリティを無条件で証明する最初の例である。 我々の構築に向けた中間段階として、量子後スパース擬似ランダム分布や、独立した関心を持つかもしれない量子補助入力EFIペアを導入・非条件で構築する。 2. 我々は、コミッタと受信側の両方が効率的なセットアップアルゴリズムによってランダムにサンプリングされた同じ量子状態を取る、共通参照量子状態(crqs)モデルと呼ばれる新しいモデルを導入する。 我々は、CRQSモデルに統計的に隠れ、統計的に結びついたコミットメントが存在することを無条件に証明し、プレーンモデルにおける不可能性を回避する。 また, ゼロ知識証明, 不正転送, マルチパーティ計算への応用についても論じる。

We show the following unconditional results on quantum commitments in two related yet different models: 1. We revisit the notion of quantum auxiliary-input commitments introduced by Chailloux, Kerenidis, and Rosgen (Comput. Complex. 2016) where both the committer and receiver take the same quantum state, which is determined by the security parameter, as quantum auxiliary inputs. We show that computationally-hiding and statistically-binding quantum auxiliary-input commitments exist unconditionally, i.e., without relying on any unproven assumption, while Chailloux et al. assumed a complexity-theoretic assumption, ${\bf QIP}\not\subseteq{\bf QMA}$. On the other hand, we observe that achieving both statistical hiding and statistical binding at the same time is impossible even in the quantum auxiliary-input setting. To the best of our knowledge, this is the first example of unconditionally proving computational security of any form of (classical or quantum) commitments for which statistical security is impossible. As intermediate steps toward our construction, we introduce and unconditionally construct post-quantum sparse pseudorandom distributions and quantum auxiliary-input EFI pairs which may be of independent interest. 2. We introduce a new model which we call the common reference quantum state (CRQS) model where both the committer and receiver take the same quantum state that is randomly sampled by an efficient setup algorithm. We unconditionally prove that there exist statistically hiding and statistically binding commitments in the CRQS model, circumventing the impossibility in the plain model. We also discuss their applications to zero-knowledge proofs, oblivious transfers, and multi-party computations.
翻訳日:2023-12-01 16:18:40 公開日:2023-11-30
# 大きな視差像に対するseamガイド下局所アライメントと縫合

Seam-guided local alignment and stitching for large parallax images ( http://arxiv.org/abs/2311.18564v1 )

ライセンス: Link先を確認
Tianli Liao, Chenyang Zhao, Lei Li and Heling Cao(参考訳) シームカット法は画像縫合の合成工程において有効であることが証明されている。 しかし、シームカットの有効性は、画像が大まかに整列して、可視のシームが発見できる地域が存在することに依存している。 大きな視差を持つ画像の場合、現在のアライメント手法は期待に届かないことが多い。 本稿では,seam品質評価に基づく局所的なアライメントと縫い付け手法を提案する。 まず,既存の画像アライメント法とシームカット法を用いて初期シームを算出し,シームに沿った画素の質を評価する。 そして,低画質の画素に対して,それらの囲いパッチをアライメントした画像に分離し,SIFTフローを介して修正された高密度対応を抽出して局所的に整列させる。 最後に,アライメントパッチをシームカットにより合成し,元のアライメント結果にマージして最終モザイクを生成する。 実験の結果, 最先端のシームカット法と比較して, 再現性が高く, アーティファクトも少ないことがわかった。 コードはhttps://github.com/tlliao/Seam-guided-local-alignmentで入手できる。

Seam-cutting methods have been proven effective in the composition step of image stitching, especially for images with parallax. However, the effectiveness of seam-cutting usually depends on that images can be roughly aligned such that there exists a local region where a plausible seam can be found. For images with large parallax, current alignment methods often fall short of expectations. In this paper, we propose a local alignment and stitching method guided by seam quality evaluation. First, we use existing image alignment and seam-cutting methods to calculate an initial seam and evaluate the quality of pixels along the seam. Then, for pixels with low qualities, we separate their enclosing patches in the aligned images and locally align them by extracting modified dense correspondences via SIFT flow. Finally, we composite the aligned patches via seam-cutting and merge them into the original aligned result to generate the final mosaic. Experiments show that compared with the state-of-the-art seam-cutting methods, our result is more plausible and with fewer artifacts. The code will be available at https://github.com/tlliao/Seam-guided-local-alignment.
翻訳日:2023-12-01 16:18:12 公開日:2023-11-30
# 周期振動ガウシアン:動的都市景観再構成とリアルタイムレンダリング

Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering ( http://arxiv.org/abs/2311.18561v1 )

ライセンス: Link先を確認
Yurui Chen, Chun Gu, Junzhe Jiang, Xiatian Zhu, Li Zhang(参考訳) 大規模都市景観のモデリングは、高度に複雑な幾何学的構造と、空間と時間の両方における制約のないダイナミクスのために困難である。 以前の手法では、静的要素と動的要素を分離し、それらの相乗的相互作用を準最適に捉える、ハイレベルなアーキテクチャの優先順位を用いることが多い。 この課題に対処するために,周期振動ガウス (PVG) と呼ばれる統一表現モデルを提案する。 PVGは、周期振動に基づく時間力学を導入することで、当初静的なシーン表現のために設計された効率的な3次元ガウススプラッティング技術に基づいている。 この革新により、pvgは、動的都市シーンにおける様々な物体や要素の特性をエレガントかつ均一に表現することができる。 スパーストレーニングデータによる時間的コヒーレント表現学習を強化するため,新しいフローベース時空間平滑化機構と位置認識適応制御戦略を導入する。 Waymo Open DatasetとKITTIベンチマークの大規模な実験は、PVGが動的および静的の両方のシーンにおいて、再構築と新しいビュー合成の両方において最先端の代替品を上回ることを示した。 特に、pvgは手作業でラベル付きオブジェクトバウンディングボックスや高価な光フロー推定に頼ることなくこれを実現している。 さらに、PVGは最良の選択肢よりもトレーニング/レンダリングにおいて50/6000倍の加速を示す。

Modeling dynamic, large-scale urban scenes is challenging due to their highly intricate geometric structures and unconstrained dynamics in both space and time. Prior methods often employ high-level architectural priors, separating static and dynamic elements, resulting in suboptimal capture of their synergistic interactions. To address this challenge, we present a unified representation model, called Periodic Vibration Gaussian (PVG). PVG builds upon the efficient 3D Gaussian splatting technique, originally designed for static scene representation, by introducing periodic vibration-based temporal dynamics. This innovation enables PVG to elegantly and uniformly represent the characteristics of various objects and elements in dynamic urban scenes. To enhance temporally coherent representation learning with sparse training data, we introduce a novel flow-based temporal smoothing mechanism and a position-aware adaptive control strategy. Extensive experiments on Waymo Open Dataset and KITTI benchmarks demonstrate that PVG surpasses state-of-the-art alternatives in both reconstruction and novel view synthesis for both dynamic and static scenes. Notably, PVG achieves this without relying on manually labeled object bounding boxes or expensive optical flow estimation. Moreover, PVG exhibits 50/6000-fold acceleration in training/rendering over the best alternative.
翻訳日:2023-12-01 16:17:51 公開日:2023-11-30
# プログラム生成によるヒューマンプランの階層構造の検討

Exploring the hierarchical structure of human plans via program generation ( http://arxiv.org/abs/2311.18644v1 )

ライセンス: Link先を確認
Carlos G. Correa, Sophia Sanborn, Mark K. Ho, Frederick Callaway, Nathaniel D. Daw, and Thomas L. Griffiths(参考訳) 人間の行動は本質的に階層的であり、タスクをサブタスクに分解したり、抽象的なアクションを具体的なアクションに分解したりする。 しかし、行動は通常一連の行動として測定されるため、その階層構造を推測することは困難である。 本稿では、階層的表現を観測可能な実験パラダイムを用いて、人々が階層的計画を作成する方法について考察する: 参加者は、明示的な階層構造を持つ言語における行動列を生成するプログラムを作成する。 このタスクは、実用性最大化(アクションを減らすこと)と最小記述長(MDL、短いプログラムを持つこと)の2つの確立された人間の行動原理をテストする。 私たちは、人間は両方のメトリクスに敏感であるが、両方のアカウントは、人間が作成したプログラムの質的特徴を予測することができないこと、つまり、mdlの予測以上に再利用したプログラムを好むことを発見した。 我々は、MDLアカウントをプログラム上の生成モデルに拡張し、アクション上の文法の帰納として階層選択をモデル化することで、再利用のためのこの好みを定式化する。 われわれのアカウントは、再利用の好みを説明し、人間の行動の最良の予測を提供し、圧縮性の単純な説明を超えて階層的計画の指針を強調することができる。

Human behavior is inherently hierarchical, resulting from the decomposition of a task into subtasks or an abstract action into concrete actions. However, behavior is typically measured as a sequence of actions, which makes it difficult to infer its hierarchical structure. In this paper, we explore how people form hierarchically-structured plans, using an experimental paradigm that makes hierarchical representations observable: participants create programs that produce sequences of actions in a language with explicit hierarchical structure. This task lets us test two well-established principles of human behavior: utility maximization (i.e. using fewer actions) and minimum description length (MDL; i.e. having a shorter program). We find that humans are sensitive to both metrics, but that both accounts fail to predict a qualitative feature of human-created programs, namely that people prefer programs with reuse over and above the predictions of MDL. We formalize this preference for reuse by extending the MDL account into a generative model over programs, modeling hierarchy choice as the induction of a grammar over actions. Our account can explain the preference for reuse and provides the best prediction of human behavior, going beyond simple accounts of compressibility to highlight a principle that guides hierarchical planning.
翻訳日:2023-12-01 16:12:39 公開日:2023-11-30
# 因果モデルのターゲット化

Targeted Reduction of Causal Models ( http://arxiv.org/abs/2311.18639v1 )

ライセンス: Link先を確認
Armin Keki\'c, Bernhard Sch\"olkopf, Michel Besserve(参考訳) なぜある現象が起こるのか? この疑問に対処することは、経験的な観察に基づくほとんどの科学的調査の中心であり、しばしば科学モデルのシミュレーションに大きく依存している。 モデルがより複雑化するにつれて、相互接続変数の高次元空間におけるこれらの現象の原因の解読がますます困難になる。 因果機械学習は、シミュレーションにおける因果関係の関連性および解釈可能なパターンの発見に科学者を支援する可能性がある。 本稿では、複雑なモデルを特定の目標現象を説明するための簡潔な要因セットに変換する方法であるTCR(Targeted Causal Reduction)を紹介する。 介入データやシミュレーションからtcrを学ぶための情報理論目標を導出し、この目標を効率的に最適化するためのアルゴリズムを提案する。 複雑なモデルから解釈可能なハイレベルな説明を生成するtcrの能力は、おもちゃや機械システムで実証され、幅広い分野の複雑な現象の研究を支援する可能性を示す。

Why does a phenomenon occur? Addressing this question is central to most scientific inquiries based on empirical observations, and often heavily relies on simulations of scientific models. As models become more intricate, deciphering the causes behind these phenomena in high-dimensional spaces of interconnected variables becomes increasingly challenging. Causal machine learning may assist scientists in the discovery of relevant and interpretable patterns of causation in simulations. We introduce Targeted Causal Reduction (TCR), a method for turning complex models into a concise set of causal factors that explain a specific target phenomenon. We derive an information theoretic objective to learn TCR from interventional data or simulations and propose algorithms to optimize this objective efficiently. TCR's ability to generate interpretable high-level explanations from complex models is demonstrated on toy and mechanical systems, illustrating its potential to assist scientists in the study of complex phenomena in a broad range of disciplines.
翻訳日:2023-12-01 16:11:33 公開日:2023-11-30
# 拡散アバター(Diffusion Avatars):高忠実度3次元頭部アバターの遠心拡散

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head Avatars ( http://arxiv.org/abs/2311.18635v1 )

ライセンス: Link先を確認
Tobias Kirschstein, Simon Giebenhain, Matthias Nie{\ss}ner(参考訳) DiffusionAvatarsは人の高忠実度3Dヘッドアバターを合成し、ポーズと表情の両方を直感的に制御する。 本研究では,2dプリエントを利用して顔の説得力のある画像を生成する拡散型ニューラル・レンダラを提案する。 表情と頭部ポーズの粗い指導のために,対象の視点からニューラルパラメトリックヘッドモデル(nphm)を作成し,その人物の代理形状として機能する。 さらに,複雑な表情のモデリングを強化するために,NPHMから得られた表現コードに直接ディフュージョンアバターを付加する。 最後に、異なる視点と表現をまたいで一貫した表面詳細を合成するために、nphmの正準空間における三面体ルックアップを通して、学習可能な空間的特徴を頭の表面に配置する。 RGBビデオとそれに対応するNPHMメッシュ上でDiffusionAvatarをトレーニングし、自己再現とアニメーションの両方のシナリオで得られたアバターをテストする。 実験の結果,拡散ヴァタールは,新しいポーズや人の表情に対して,時間的一貫性と視覚的にアピールするビデオを生成し,既存のアプローチを上回っていることが示された。

DiffusionAvatars synthesizes a high-fidelity 3D head avatar of a person, offering intuitive control over both pose and expression. We propose a diffusion-based neural renderer that leverages generic 2D priors to produce compelling images of faces. For coarse guidance of the expression and head pose, we render a neural parametric head model (NPHM) from the target viewpoint, which acts as a proxy geometry of the person. Additionally, to enhance the modeling of intricate facial expressions, we condition DiffusionAvatars directly on the expression codes obtained from NPHM via cross-attention. Finally, to synthesize consistent surface details across different viewpoints and expressions, we rig learnable spatial features to the head's surface via TriPlane lookup in NPHM's canonical space. We train DiffusionAvatars on RGB videos and corresponding tracked NPHM meshes of a person and test the obtained avatars in both self-reenactment and animation scenarios. Our experiments demonstrate that DiffusionAvatars generates temporally consistent and visually appealing videos for novel poses and expressions of a person, outperforming existing approaches.
翻訳日:2023-12-01 16:10:56 公開日:2023-11-30
# 教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワーク

A Lightweight Clustering Framework for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2311.18628v1 )

ライセンス: Link先を確認
Yau Shing Jonathan Cheung, Xi Chen, Lihe Yang, Hengshuang Zhao(参考訳) 教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスにラベル付けすることを目的としている。 ラベル付きデータセットの取得は高価であるため、広く研究されている分野である。 この分野における以前の研究は、セグメンテーション性能の段階的な向上を示したが、そのほとんどはニューラルネットワークのトレーニングを必要とした。 これによりセグメンテーションは、特に大規模なデータセットを扱う場合、等しく高価になった。 そこで我々は,教師なしセマンティクスセグメンテーションのための軽量クラスタリングフレームワークを提案する。 自己監督型視覚変換器の注意特徴は、前景と背景の強い差異を示す。 これらの機能を少数のクラスタにクラスタ化することで、フォアグラウンドとバックグラウンドイメージパッチを別々にグループ化できるようになりました。 クラスタリングフレームワークでは,まず,自己教師付き視覚トランスフォーマから注意機能を得る。 次に、同じデータセット、カテゴリ、イメージ内でクラスタリング機能により、データセットレベル、カテゴリレベル、イメージレベルのマスクを抽出する。 さらに、3つのレベルにわたるマルチレベルクラスタリングの一貫性を保証し、パッチレベルのバイナリ擬似マスクを抽出します。 最後に、疑似マスクをアップサンプリングして洗練し、オブジェクト領域のclsトークンに従ってクラス割り当てを行う。 我々のフレームワークは、教師なしセマンティックセグメンテーションにおいて大きな可能性を証明し、PASCAL VOCおよびMS COCOデータセットの最先端結果を達成する。

Unsupervised semantic segmentation aims to label each pixel of an image to a corresponding class without the use of annotated data. It is a widely researched area as obtaining labeled datasets are expensive. While previous works in the field demonstrated a gradual improvement in segmentation performance, most of them required neural network training. This made segmentation equally expensive, especially when dealing with large-scale datasets. We thereby propose a lightweight clustering framework for unsupervised semantic segmentation. Attention features of the self-supervised vision transformer exhibit strong foreground-background differentiability. By clustering these features into a small number of clusters, we could separate foreground and background image patches into distinct groupings. In our clustering framework, we first obtain attention features from the self-supervised vision transformer. Then we extract Dataset-level, Category-level and Image-level masks by clustering features within the same dataset, category and image. We further ensure multilevel clustering consistency across the three levels and this allows us to extract patch-level binary pseudo-masks. Finally, the pseudo-mask is upsampled, refined and class assignment is performed according to the CLS token of object regions. Our framework demonstrates great promise in unsupervised semantic segmentation and achieves state-of-the-art results on PASCAL VOC and MS COCO datasets.
翻訳日:2023-12-01 16:10:31 公開日:2023-11-30
# ダイヤモンド中の窒素空孔中心を用いたナノスケール窒素空孔水素中心の検出

Detecting nitrogen-vacancy-hydrogen centers on the nanoscale using nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2311.18624v1 )

ライセンス: Link先を確認
Christoph Findler (1 and 2), R\'emi Blinder (1), Karolina Sch\"ule (1), Priyadharshini Balasubramanian (1), Christian Osterkamp (1 and 2) and Fedor Jelezko (1) ((1) Institute for Quantum Optics, Ulm University, Germany (2) Diatope GmbH, Ummendorf, Germany)(参考訳) ダイヤモンドでは、置換窒素欠陥 (Ns) や窒素空孔-水素複合体 (NVH) のような窒素欠陥が窒素空孔欠陥 (NV) を1桁以上上回り、密度の高いスピン浴を生成する。 中性NsはNVスピン状態のコヒーレンスに影響を及ぼすが、NVHの原子構造は水素原子で装飾されたNV中心を思い出させる。 その結果、NVH中心の形成は、水素プラズマ支援化学気相蒸着(CVD)で成長したダイヤモンドのN-to-NV変換効率を低下させる可能性がある。 したがって、スピン浴の監視と制御は、量子応用のために高いNV濃度のダイヤモンド材料を製造し、理解するために不可欠である。 ダイヤモンド中のNsの取り込みは、ナノスケールとメソスケールで長年研究されてきたが、CVDパラメータと結晶配向がNVH形成に与える影響についての研究は、電子常磁性共鳴および光吸収分光法のために高いスピン数を与えるバルクNドープダイヤモンドに限られている。 そこで,13.8+-1.6)ppmおよび16.7+-3.6ppmの窒素含有量を有するサブミクロン(100)ダイヤモンド層を調査し,nv中心を局所ナノセンサとして活用し,二重電子電子共鳴(deer)を用いたnvh中心の検出を実証した。 NVH-の密度を決定するために、NVH-の超微細構造を定量的に適合させ、通常Ns0密度を決定するために使用されるDEER法で結果を確認する。 実験により,ナノスケールのスピン浴組成にアクセスし,資源および時間集約バルク結晶の代わりに薄いダイヤモンド層を用いたCVD合成の高速フィードバックループを可能にする。

In diamond, nitrogen defects like the substitutional nitrogen defect (Ns) or the nitrogen-vacancy-hydrogen complex (NVH) outnumber the nitrogen vacancy (NV) defect by at least one order of magnitude creating a dense spin bath. While neutral Ns has an impact on the coherence of the NV spin state, the atomic structure of NVH reminds of a NV center decorated with a hydrogen atom. As a consequence, the formation of NVH centers could compete with that of NV centers possibly lowering the N-to-NV conversion efficiency in diamond grown with hydrogen-plasma-assisted chemical vapor deposition (CVD). Therefore, monitoring and controlling the spin bath is essential to produce and understand engineered diamond material with high NV concentrations for quantum applications. While the incorporation of Ns in diamond has been investigated on the nano- and mesoscale for years, studies concerning the influence of CVD parameters and the crystal orientation on the NVH formation have been restricted to bulk N-doped diamond providing high-enough spin numbers for electron paramagnetic resonance and optical absorption spectroscopy techniques. Here, we investigate sub-micron-thick (100)-diamond layers with nitrogen contents of (13.8 +- 1.6) ppm and (16.7 +- 3.6) ppm, and exploiting the NV centers in the layers as local nano-sensors, we demonstrate the detection of NVH- centers using double-electron-electron-resonance (DEER). To determine the NVH- densities, we quantitatively fit the hyperfine structure of NVH- and confirm the results with the DEER method usually used for determining Ns0 densities. With our experiments, we access the spin bath composition on the nanoscale and enable a fast feedback-loop in CVD recipe optimization with thin diamond layers instead of resource- and time-intensive bulk crystals.
翻訳日:2023-12-01 16:10:12 公開日:2023-11-30
# ベイジアン正規化人工ニューラルネットワークによる工具摩耗の予測

Data-driven prediction of tool wear using Bayesian-regularized artificial neural networks ( http://arxiv.org/abs/2311.18620v1 )

ライセンス: Link先を確認
Tam T. Truong, Jay Airao, Panagiotis Karras, Faramarz Hojati, Bahman Azarhoushang, Ramin Aghababaei(参考訳) 工具摩耗の予測は、製造におけるコストの最小化と製品品質の向上に役立つ。 機械学習とディープラーニングを用いた既存のデータ駆動モデルは、ツールウェアの正確な予測に寄与しているが、汎用性に欠け、高精度なトレーニングデータを必要とすることが多い。 本稿では,ベイズ正規化ニューラルネットワーク(BRANN)を用いて,加工工具の摩耗を正確に予測する新しいデータ駆動モデルを提案する。 BRANNは、人工知能ニューラルネットワーク(ANN)とベイジアン正規化(Bayes regularization)の利点を組み合わせて、複雑なパターンを学習し、ベイジアン正規化(Bayes regularization)は不確実性に対処し、過剰適合を防止し、より一般化されたモデルをもたらす。 プロセスパラメータとセンサ信号の監視の両方をBRANN入力パラメータとして扱う。 我々は、nasa ames milling dataset、2010 phm data challenge dataset、nuaa ideahouse tool wear dataset、ti6al4vデータセットのエンドミリングを社内で行った4つの異なる実験データセットを特徴とする広範な実験研究を行った。 提案したBRANNモデルの性能に及ぼす入力特徴,トレーニングデータサイズ,隠れユニット,トレーニングアルゴリズム,転送関数の影響を検証し,精度と信頼性の観点から既存の最先端モデルよりも優れていることを示す。

The prediction of tool wear helps minimize costs and enhance product quality in manufacturing. While existing data-driven models using machine learning and deep learning have contributed to the accurate prediction of tool wear, they often lack generality and require substantial training data for high accuracy. In this paper, we propose a new data-driven model that uses Bayesian Regularized Artificial Neural Networks (BRANNs) to precisely predict milling tool wear. BRANNs combine the strengths and leverage the benefits of artificial neural networks (ANNs) and Bayesian regularization, whereby ANNs learn complex patterns and Bayesian regularization handles uncertainty and prevents overfitting, resulting in a more generalized model. We treat both process parameters and monitoring sensor signals as BRANN input parameters. We conducted an extensive experimental study featuring four different experimental data sets, including the NASA Ames milling dataset, the 2010 PHM Data Challenge dataset, the NUAA Ideahouse tool wear dataset, and an in-house performed end-milling of the Ti6Al4V dataset. We inspect the impact of input features, training data size, hidden units, training algorithms, and transfer functions on the performance of the proposed BRANN model and demonstrate that it outperforms existing state-of-the-art models in terms of accuracy and reliability.
翻訳日:2023-12-01 16:09:33 公開日:2023-11-30
# jppf: 一貫性のあるpanoptic-partセグメンテーションのためのマルチタスク融合

JPPF: Multi-task Fusion for Consistent Panoptic-Part Segmentation ( http://arxiv.org/abs/2311.18618v1 )

ライセンス: Link先を確認
Shishir Muralidhara, Sravan Kumar Jagadeesh, Ren\'e Schuster, Didier Stricker(参考訳) 部分認識パンオプティカルセグメンテーション(part-aware panoptic segmentation)は、複数のレベルの粒度でシーンを意味的に理解することを目的としたコンピュータビジョンの問題である。 より正確には、セマンティック領域、オブジェクトインスタンス、セマンティック部分が同時に予測される。 本稿では,3つの個別セグメンテーションを効果的に結合してpanoptic-partセグメンテーションを得るjoint panoptic part fusion (jppf)を提案する。 第一に、相互に改善され一貫した表現学習を可能にする3つの問題の統一モデルが望まれる。 第2に、結合のバランスをとることで、融合中の個々の結果に等しく重要である。 提案するJPPFはパラメータフリーで,動的に入力のバランスをとる。 本手法は,Cityscapes Panoptic Parts (CPP) と Pascal Panoptic Parts (PPP) のデータセットをPartPQおよびPart-Whole Quality (PWQ) を用いて評価・比較した。 大規模な実験では、フェアフュージョンの重要性を検証し、さらに分割可能な領域に対する最も大きな影響を強調し、5つの追加データセットを微調整することなく、設計の一般化能力を実証する。

Part-aware panoptic segmentation is a problem of computer vision that aims to provide a semantic understanding of the scene at multiple levels of granularity. More precisely, semantic areas, object instances, and semantic parts are predicted simultaneously. In this paper, we present our Joint Panoptic Part Fusion (JPPF) that combines the three individual segmentations effectively to obtain a panoptic-part segmentation. Two aspects are of utmost importance for this: First, a unified model for the three problems is desired that allows for mutually improved and consistent representation learning. Second, balancing the combination so that it gives equal importance to all individual results during fusion. Our proposed JPPF is parameter-free and dynamically balances its input. The method is evaluated and compared on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets in terms of PartPQ and Part-Whole Quality (PWQ). In extensive experiments, we verify the importance of our fair fusion, highlight its most significant impact for areas that can be further segmented into parts, and demonstrate the generalization capabilities of our design without fine-tuning on 5 additional datasets.
翻訳日:2023-12-01 16:09:07 公開日:2023-11-30
# 完全に閉塞されたRydberg原子アンサンブルの量子力学

Quantum dynamics of a fully-blockaded Rydberg atom ensemble ( http://arxiv.org/abs/2311.18616v1 )

ライセンス: Link先を確認
Dominik S. Wild, Sabina Dr\u{a}goi, Corbin McElhanney, Jonathan Wurtz, Sheng-Tao Wang(参考訳) 量子システムの古典的シミュレーションは、多体現象の研究や量子技術のベンチマークや検証において重要な役割を果たす。 ヒルベルト空間の次元は系の大きさとともに指数関数的に増加するので、厳密なシミュレーションはしばしば小さな系に限られる。 しかし、対称性の高い系では、古典的なシミュレーションの方がはるかに大きなサイズに達する。 ここでは、置換対称性を持つ強相互作用原子のアンサンブルを考え、任意に長い進化時間における数百個の原子のダイナミクスのシミュレーションを可能にする。 この系は3レベル原子のアンサンブルによって実現され、そのうちの1つのレベルは高励起リドバーグ状態に対応する。 すべてのライドバーグ封鎖の極限において、ハミルトニアンは原子の置換の下で不変である。 表現論の技法を用いて、ハミルトニアンのブロック対角形を構築し、最大のブロックのサイズはシステムサイズと直線的にしか増加しない。 我々はこの形式を、任意の置換不変量子状態を作成するための効率的なパルス列の導出に適用する。 さらに, クエンチ後の量子力学を考察し, システムがゆっくりと熱化し, 顕著なリバイバルを示すパラメータ構造を明らかにする。 我々の結果は、大規模相互作用と非可積分量子系の実験的および理論的研究のための新たな機会を生み出す。

Classical simulation of quantum systems plays an important role in the study of many-body phenomena and in the benchmarking and verification of quantum technologies. Exact simulation is often limited to small systems because the dimension of the Hilbert space increases exponentially with the size of the system. For systems that possess a high degree of symmetry, however, classical simulation can reach much larger sizes. Here, we consider an ensemble of strongly interacting atoms with permutation symmetry, enabling the simulation of dynamics of hundreds of atoms at arbitrarily long evolution times. The system is realized by an ensemble of three-level atoms, where one of the levels corresponds to a highly excited Rydberg state. In the limit of all-to-all Rydberg blockade, the Hamiltonian is invariant under permutation of the atoms. Using techniques from representation theory, we construct a block-diagonal form of the Hamiltonian, where the size of the largest block increases only linearly with the system size. We apply this formalism to derive efficient pulse sequences to prepare arbitrary permutation-invariant quantum states. Moreover, we study the quantum dynamics following a quench, uncovering a parameter regime in which the system thermalizes slowly and exhibits pronounced revivals. Our results create new opportunities for the experimental and theoretical study of large interacting and nonintegrable quantum systems.
翻訳日:2023-12-01 16:08:43 公開日:2023-11-30
# PET画像における人工知能の解剖と生理

Anatomy and Physiology of Artificial Intelligence in PET Imaging ( http://arxiv.org/abs/2311.18614v1 )

ライセンス: Link先を確認
Tyler J. Bradshaw and Alan B. McMillan(参考訳) 核医学分野における人工知能(AI)の影響は急速に増加している。 多くの研究者や臨床医がPETにAIを適用しようとしている。 PET画像におけるAIの存在が拡大することで、AIに精通していない人たちの教育資源の需要が高まる。 本論文の目的は、PETイメージングにおいて最も遭遇しそうな側面に特に焦点をあて、現代AIの中核的原理の図解的なガイドを提供することである。 本稿では、畳み込みニューラルネットワーク、アルゴリズムトレーニング、セグメンテーションと画像合成によく使われるU-Netの構成要素を説明する。

The influence of artificial intelligence (AI) within the field of nuclear medicine has been rapidly growing. Many researchers and clinicians are seeking to apply AI within PET, and clinicians will soon find themselves engaging with AI-based applications all along the chain of molecular imaging, from image reconstruction to enhanced reporting. This expanding presence of AI in PET imaging will result in greater demand for educational resources for those unfamiliar with AI. The objective of this article to is provide an illustrated guide to the core principles of modern AI, with specific focus on aspects that are most likely to be encountered in PET imaging. We describe convolutional neural networks, algorithm training, and explain the components of the commonly used U-Net for segmentation and image synthesis.
翻訳日:2023-12-01 16:08:21 公開日:2023-11-30
# 癌ネットワークPCa-Gen:解剖学的制御型潜在拡散を用いた実効前立腺拡散強調画像データの合成

Cancer-Net PCa-Gen: Synthesis of Realistic Prostate Diffusion Weighted Imaging Data via Anatomic-Conditional Controlled Latent Diffusion ( http://arxiv.org/abs/2311.18612v1 )

ライセンス: Link先を確認
Aditya Sridhar and Chi-en Amy Tai and Hayden Gunraj and Yuhao Chen and Alexander Wong(参考訳) カナダでは、前立腺がんは男性でもっとも一般的ながんであり、2022年のこの人口統計では、新しいがん症例の20%を占めている。 近年,臨床的意思決定支援のための機械学習の活用が成功しており,dwiデータを用いた前立腺癌診断,予後,治療計画のための深層ニューラルネットワークの開発にも大きな関心が寄せられている。 臨床応用の広範化を妨げる大きな課題は、そのようなネットワークを訓練するための大規模で多様なバランスの取れた前立腺画像データセットが不足しているため、そのようなネットワークの一般化が不十分であることである。 本研究では,解剖学的条件制御型潜伏拡散戦略の導入により,現実的な前立腺DWIデータを生成するための潜伏拡散の有効性を検討する。 著者たちの知る限りでは、前立腺がん画像の合成にコンディショニングを利用する最初の研究である。 実験の結果,提案手法は癌ネットPCa-Genと呼ばれ,腫瘍の制御可能な位置と解剖学的およびテクスチャ的忠実度の改善を通じて,多彩な前立腺画像の合成を促進することが示唆された。 これらの重要な機能は、実際の患者データの拡張に適しており、ニューラルネットワークをより多様で包括的なデータ分散でトレーニングすることができる。 cancer-net pca-genフレームワークとサンプル画像がhttps://www.kaggle.com/datasets/deetsadi/cancer-net-pca-gen-datasetで公開されている。

In Canada, prostate cancer is the most common form of cancer in men and accounted for 20% of new cancer cases for this demographic in 2022. Due to recent successes in leveraging machine learning for clinical decision support, there has been significant interest in the development of deep neural networks for prostate cancer diagnosis, prognosis, and treatment planning using diffusion weighted imaging (DWI) data. A major challenge hindering widespread adoption in clinical use is poor generalization of such networks due to scarcity of large-scale, diverse, balanced prostate imaging datasets for training such networks. In this study, we explore the efficacy of latent diffusion for generating realistic prostate DWI data through the introduction of an anatomic-conditional controlled latent diffusion strategy. To the best of the authors' knowledge, this is the first study to leverage conditioning for synthesis of prostate cancer imaging. Experimental results show that the proposed strategy, which we call Cancer-Net PCa-Gen, enhances synthesis of diverse prostate images through controllable tumour locations and better anatomical and textural fidelity. These crucial features make it well-suited for augmenting real patient data, enabling neural networks to be trained on a more diverse and comprehensive data distribution. The Cancer-Net PCa-Gen framework and sample images have been made publicly available at https://www.kaggle.com/datasets/deetsadi/cancer-net-pca-gen-dataset as a part of a global open-source initiative dedicated to accelerating advancement in machine learning to aid clinicians in the fight against cancer.
翻訳日:2023-12-01 16:08:10 公開日:2023-11-30
# DiffCAD:RGB画像からの確率的CADモデル検索とアライメント

DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image ( http://arxiv.org/abs/2311.18610v1 )

ライセンス: Link先を確認
Daoyi Gao, D\'avid Rozenberszki, Stefan Leutenegger, Angela Dai(参考訳) CADモデルプリミティブに基づくRGB画像から3D構造を認識することで、シーンの効果的で効率的な3Dオブジェクトベース表現が可能になる。 しかし、現在のアプローチは、実際の画像に関連付けられたCADモデルの高価なアノテーションからの監督と、タスクの固有の曖昧さ(単眼知覚における深度スケールの曖昧さ、および実際の観察に対するCADデータベースモデルの不正確な一致)による課題に直面する。 そこで我々は,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。 我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。 これにより、異なる可塑性CAD再構成の多仮説生成が可能となり、深さ/スケールの曖昧さと不正確な形状の一致を特徴づける仮説はわずかである。 提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。 合成データのみに基づいてトレーニングされているにもかかわらず、マルチハイポテーゼアプローチは、scan2cadデータセットの教師あり状態の5.9%を8仮説で越えることさえ可能である。

Perceiving 3D structures from RGB images based on CAD model primitives can enable an effective, efficient 3D object-based representation of scenes. However, current approaches rely on supervision from expensive annotations of CAD models associated with real images, and encounter challenges due to the inherent ambiguities in the task -- both in depth-scale ambiguity in monocular perception, as well as inexact matches of CAD database models to real observations. We thus propose DiffCAD, the first weakly-supervised probabilistic approach to CAD retrieval and alignment from an RGB image. We formulate this as a conditional generative task, leveraging diffusion to learn implicit probabilistic models capturing the shape, pose, and scale of CAD objects in an image. This enables multi-hypothesis generation of different plausible CAD reconstructions, requiring only a few hypotheses to characterize ambiguities in depth/scale and inexact shape matches. Our approach is trained only on synthetic data, leveraging monocular depth and mask estimates to enable robust zero-shot adaptation to various real target domains. Despite being trained solely on synthetic data, our multi-hypothesis approach can even surpass the supervised state-of-the-art on the Scan2CAD dataset by 5.9% with 8 hypotheses.
翻訳日:2023-12-01 16:07:37 公開日:2023-11-30
# arthmodel: 大きな言語モデルへの算術スキルの拡張

ArthModel: Enhance Arithmetic Skills to Large Language Model ( http://arxiv.org/abs/2311.18609v1 )

ライセンス: Link先を確認
Yingdi Guo(参考訳) ChatGPTの成功により、大規模言語モデルの研究はますます人気が高まっている。 しかし、このモデルには、有毒性や算術解のプール性能など、いくつかの制限がある。 一方、LLMには、まだ利用されていない潜在的な能力があるかもしれない。 本稿では,llmの演算能力を高めるための異なる方法を選択する。 我々は,算術問題に関連するポストフィックス式を生成するためにLLMを訓練し,それを小さな事前学習モデルに組み込むことを提案する。 さらに、この小さなモデルはトークンの埋め込みを実際の高密度な数に転送し、ディープラーニングプラットフォームのネイティブ関数を呼び出して正しい答えを得る。 最終結果を生成するために,小モデルによる結果出力をllmに追加するためのプロンプトインジェクションを提案する。 この作業は、異なる思考方法、トレーニング方法、言語モデルの使用方法を提供します。 コードとモデルは \url{https://github.com/eteced/arithmetic_finetuning_v1} でリリースされる。

With the great success of ChatGPT, the research of large language models has become increasingly popular. However, the models have several limitations, such as toxicity and pool performance of arithmetic solving. Meanwhile, LLM may have some potential abilities that have yet to be exploited. In this paper, we choose a different way to enhance the arithmetic ability of LLM. We propose to train LLM to generate a postfix expression related to the arithmetic problem and incorporate it with small pretrained models. Moreover, this small model transfers the token embeddings into real dense numbers and invokes native functions of a deep learning platform to get the correct answer. To generate the final result, we propose prompt injection for adding the result outputs by the small model to LLM. This work provides different ways of thinking, training and using a language model. The codes and models will be released at \url{https://github.com/eteced/arithmetic_finetuning_v1}.
翻訳日:2023-12-01 16:07:15 公開日:2023-11-30
# テキスト誘導型遅延拡散画像編集のためのコントラストDenoising Score

Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing ( http://arxiv.org/abs/2311.18608v1 )

ライセンス: Link先を確認
Hyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye(参考訳) テキスト・画像拡散モデルの顕著な出現により、画像編集手法は多様化し、進化を続けている。 Delta Denoising Score (DDS) - Score Distillation Sampling (SDS)フレームワークに基づく画像編集技術で、テキストから画像への拡散モデルのリッチな生成モデルを活用する。 しかし、スコアリング機能の違いにのみ依存することは、画像編集の重要な側面である原画像から特定の構造要素を保存するには不十分である。 本稿では,DDSの類似性と重要度の違いに着想を得て,遅延拡散モデル(LDM)のためのCDS(Contrastive Denoising Score, Contrastive Denoising Score, CDS)と呼ばれる,DDSの恥ずかしいほど単純だが非常に強力な修正を提示する。 具体的には,コンテントの制御性を維持しつつ,入力と出力間の構造的対応を強制するために,DDSフレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを導入する。 この損失を計算するために、補助的なネットワークを使う代わりに、LDMの中間的特徴、特に豊かな空間情報を持つ自己注意層の特徴を利用する。 提案手法は,ゼロショット画像から画像への変換とニューラルレイディアンスフィールド(NeRF)の編集を可能にする。 定性的な結果と比較は,提案手法の有効性を示す。 コード付きプロジェクトページはhttps://hyelinnam.github.io/cds/。

With the remarkable advent of text-to-image diffusion models, image editing methods have become more diverse and continue to evolve. A promising recent approach in this realm is Delta Denoising Score (DDS) - an image editing technique based on Score Distillation Sampling (SDS) framework that leverages the rich generative prior of text-to-image diffusion models. However, relying solely on the difference between scoring functions is insufficient for preserving specific structural elements from the original image, a crucial aspect of image editing. Inspired by the similarity and importance differences between DDS and the contrastive learning for unpaired image-to-image translation (CUT), here we present an embarrassingly simple yet very powerful modification of DDS, called Contrastive Denoising Score (CDS), for latent diffusion models (LDM). Specifically, to enforce structural correspondence between the input and output while maintaining the controllability of contents, we introduce a straightforward approach to regulate structural consistency using CUT loss within the DDS framework. To calculate this loss, instead of employing auxiliary networks, we utilize the intermediate features of LDM, in particular, those from the self-attention layers, which possesses rich spatial information. Our approach enables zero-shot image-to-image translation and neural radiance field (NeRF) editing, achieving a well-balanced interplay between maintaining the structural details and transforming content. Qualitative results and comparisons demonstrates the effectiveness of our proposed method. Project page with code is available at https://hyelinnam.github.io/CDS/.
翻訳日:2023-12-01 16:07:02 公開日:2023-11-30
# 視覚世界における三角形分布の学習

Learning Triangular Distribution in Visual World ( http://arxiv.org/abs/2311.18605v1 )

ライセンス: Link先を確認
Ping Chen, Xingpeng Zhang, Chengtao Zhou, Dichao Fan, Peng Tu, Le Zhang, Yanlin Qian(参考訳) 畳み込みニューラルネットワークは、ラベル分布学習を含む広汎な視覚タスクで成功しており、通常は、非線形の視覚特徴から明確に定義されたラベルへの注入の形式を学ぶ。 しかし,特徴間の差異がラベルの不一致にどのようにマッピングされるか,その正確性は保証されていない。これらの問題に対処するために,特徴とラベルの数学的関係を考察し,ラベル分布学習のための汎用的かつ単純なフレームワークを提案する。 特徴とラベルの間に射影関数を構築するためのいわゆる三角分布変換(TDT)を提案し、対称的特徴差がラベルの違いを線形に反映することを保証する。 提案したTDTは,各種ラベル分散学習タスクに対処するために,主流のバックボーンネットワークのプラグインとして使用できる。 顔の年齢認識, 照明色度推定, 審美性評価実験は, TDTが先行技術よりも同等以上の結果が得られることを示した。

Convolution neural network is successful in pervasive vision tasks, including label distribution learning, which usually takes the form of learning an injection from the non-linear visual features to the well-defined labels. However, how the discrepancy between features is mapped to the label discrepancy is ambient, and its correctness is not guaranteed.To address these problems, we study the mathematical connection between feature and its label, presenting a general and simple framework for label distribution learning. We propose a so-called Triangular Distribution Transform (TDT) to build an injective function between feature and label, guaranteeing that any symmetric feature discrepancy linearly reflects the difference between labels. The proposed TDT can be used as a plug-in in mainstream backbone networks to address different label distribution learning tasks. Experiments on Facial Age Recognition, Illumination Chromaticity Estimation, and Aesthetics assessment show that TDT achieves on-par or better results than the prior arts.
翻訳日:2023-12-01 16:06:31 公開日:2023-11-30
# スペクトラムセンシングにおける複数認知ユーザのための共同検出アルゴリズム

Joint Detection Algorithm for Multiple Cognitive Users in Spectrum Sensing ( http://arxiv.org/abs/2311.18599v1 )

ライセンス: Link先を確認
Fanfei Meng, Yuxin Wang, Lele Zhang, Yingxin Zhao, David Demeter(参考訳) スペクトルセンシング技術は現代の通信技術の重要な要素であり、タイトな周波数帯域における不足情報資源を効率的に活用するための重要な技術の一つである。 本稿では,まず3つの論理回路決定基準を導入し,その決定厳密性を分析する。 そこで本論文では,ソフト決定に基づくマルチユーザスペクトルセンシング手法について紹介する。 そして、3つの基準に対応する誤報確率と検出確率曲線をシミュレートする。 マルチユーザ協調センシングのシミュレーション結果は、シミュレーションプロセスが誤警報確率を著しく低減し、検出確率を高めることを示す。 このアプローチは、アイドル期間中に未占有のスペクトル資源を効果的に検出し、時間分割多重化の概念を活用し、情報資源の再分配を合理化する。 計算過程全体は、通信理論におけるパワースペクトル密度の計算原理に依存しており、ノイズパワーの閾値決定検出とノイズと信号パワーの和を含んでいる。 論理的検出手法の知覚的決定性能を相対的精度で反映した二次的決定検出を提供する。

Spectrum sensing technology is a crucial aspect of modern communication technology, serving as one of the essential techniques for efficiently utilizing scarce information resources in tight frequency bands. This paper first introduces three common logical circuit decision criteria in hard decisions and analyzes their decision rigor. Building upon hard decisions, the paper further introduces a method for multi-user spectrum sensing based on soft decisions. Then the paper simulates the false alarm probability and detection probability curves corresponding to the three criteria. The simulated results of multi-user collaborative sensing indicate that the simulation process significantly reduces false alarm probability and enhances detection probability. This approach effectively detects spectrum resources unoccupied during idle periods, leveraging the concept of time-division multiplexing and rationalizing the redistribution of information resources. The entire computation process relies on the calculation principles of power spectral density in communication theory, involving threshold decision detection for noise power and the sum of noise and signal power. It provides a secondary decision detection, reflecting the perceptual decision performance of logical detection methods with relative accuracy.
翻訳日:2023-12-01 16:06:14 公開日:2023-11-30
# DQSSA:オンラインソーシャルネットワークへの影響を最大化するための量子インスピレーションドソリューション(論文要約)

DQSSA: A Quantum-Inspired Solution for Maximizing Influence in Online Social Networks (Student Abstract) ( http://arxiv.org/abs/2311.18676v1 )

ライセンス: Link先を確認
Aryaman Rao, Parth Singh, Dinesh Kumar Vishwakarma, Mukesh Prasad(参考訳) 影響の最大化は、ソーシャルネットワークに広がる影響を最大化する最適なノードを選択するタスクである。 本研究では、ソーシャルネットワークにおける影響拡散を最適化するための離散量子ベースのSalp Swarm Algorithm (DQSSA)を提案する。 メタヒューリスティックなアルゴリズムを識別し、量子に触発された拡張を注入することで、早期収束や低い有効性といった問題に対処します。 量子原理によって導かれる提案手法は、影響の最大化に有望な解決策を提供する。 4つの実世界のデータセットの実験は、既存の最先端アルゴリズムと比較してDQSSAの優れたパフォーマンスを示している。

Influence Maximization is the task of selecting optimal nodes maximising the influence spread in social networks. This study proposes a Discretized Quantum-based Salp Swarm Algorithm (DQSSA) for optimizing influence diffusion in social networks. By discretizing meta-heuristic algorithms and infusing them with quantum-inspired enhancements, we address issues like premature convergence and low efficacy. The proposed method, guided by quantum principles, offers a promising solution for Influence Maximisation. Experiments on four real-world datasets reveal DQSSA's superior performance as compared to established cutting-edge algorithms.
翻訳日:2023-12-01 15:59:17 公開日:2023-11-30
# Eroded Deep Supervision を用いた局所物体検出のためのカスケード相互作用

Cascaded Interaction with Eroded Deep Supervision for Salient Object Detection ( http://arxiv.org/abs/2311.18675v1 )

ライセンス: Link先を確認
Hewen Xiao, Jie Mei, Guangfu Ma and Weiren Wu(参考訳) 深部畳み込みニューラルネットワークは有能な物体検出に広く応用されており、この分野で顕著な成果を上げている。 しかし、既存のモデルは、アップサンプリングとダウンサンプリングの間の補間によって引き起こされる情報歪みに苦しむ。 この欠点に応えて、この記事はネットワーク内の2つの方向、すなわち特徴とラベルから始まる。 一方、グローバル・ローカル・アライメント・アテンション(gaa)と呼ばれる誘導モジュールを備えた新しいカスケード・インタラクション・ネットワークは、機能面での補間による負の影響を低減するように設計されている。 一方, 側方出力に対するラベル補間の負のガイダンスを低減するため, エッジ侵食に基づく深い監視戦略が提案されている。 5つの一般的なデータセットに対する大規模な実験は、我々の手法の優位性を示している。

Deep convolutional neural networks have been widely applied in salient object detection and have achieved remarkable results in this field. However, existing models suffer from information distortion caused by interpolation during up-sampling and down-sampling. In response to this drawback, this article starts from two directions in the network: feature and label. On the one hand, a novel cascaded interaction network with a guidance module named global-local aligned attention (GAA) is designed to reduce the negative impact of interpolation on the feature side. On the other hand, a deep supervision strategy based on edge erosion is proposed to reduce the negative guidance of label interpolation on lateral output. Extensive experiments on five popular datasets demonstrate the superiority of our method.
翻訳日:2023-12-01 15:59:07 公開日:2023-11-30
# 不変量と同変量と量子グラフニューラルネットワークの比較

A Comparison Between Invariant and Equivariant Classical and Quantum Graph Neural Networks ( http://arxiv.org/abs/2311.18672v1 )

ライセンス: Link先を確認
Roy T. Forestano, Mar\c{c}al Comajoan Cara, Gopal Ramesh Dahale, Zhongtian Dong, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) 機械学習アルゴリズムは、CERN Large Hadron Collider (LHC)における高エネルギー粒子衝突による膨大な量のデータを理解するために大きく依存している。 このような衝突イベントからのデータは自然にグラフ構造で表される。 したがって、グラフニューラルネットワーク(GNN)のような深層幾何学的手法は、高エネルギー物理学における様々なデータ解析タスクに活用されている。 典型的なタスクはジェットタグであり、ジェットは異なる特徴とそれらの構成粒子間のエッジ接続を持つ点雲と見なされる。 LHC粒子データセットのサイズと複雑さの増大と、その分析に使用される計算モデルが、量子計算のようなより高速で効率的な計算パラダイムの開発を大いに動機付けている。 さらに、ディープネットワークの有効性とロバスト性を高めるために、不変入力と同変層を用いてデータに存在する基本対称性を利用することができる。 本稿では,古典グラフニューラルネットワーク (GNN) と等変グラフニューラルネットワーク (EGNN) と,量子グラフニューラルネットワーク (QGNN) と等変量子グラフニューラルネットワーク (EQGNN) の相互比較を行った。 4つのアーキテクチャは、ジェットを開始するパルトンレベルの粒子を分類するためにバイナリ分類タスクでベンチマークされた。 AUCのスコアに基づいて、量子ネットワークは古典的ネットワークよりも優れていた。 しかし、実際に量子ネットワークの計算上の利点を見るためには、量子技術とその関連APIのさらなる開発を待つ必要があるかもしれない。

Machine learning algorithms are heavily relied on to understand the vast amounts of data from high-energy particle collisions at the CERN Large Hadron Collider (LHC). The data from such collision events can naturally be represented with graph structures. Therefore, deep geometric methods, such as graph neural networks (GNNs), have been leveraged for various data analysis tasks in high-energy physics. One typical task is jet tagging, where jets are viewed as point clouds with distinct features and edge connections between their constituent particles. The increasing size and complexity of the LHC particle datasets, as well as the computational models used for their analysis, greatly motivate the development of alternative fast and efficient computational paradigms such as quantum computation. In addition, to enhance the validity and robustness of deep networks, one can leverage the fundamental symmetries present in the data through the use of invariant inputs and equivariant layers. In this paper, we perform a fair and comprehensive comparison between classical graph neural networks (GNNs) and equivariant graph neural networks (EGNNs) and their quantum counterparts: quantum graph neural networks (QGNNs) and equivariant quantum graph neural networks (EQGNN). The four architectures were benchmarked on a binary classification task to classify the parton-level particle initiating the jet. Based on their AUC scores, the quantum networks were shown to outperform the classical networks. However, seeing the computational advantage of the quantum networks in practice may have to wait for the further development of quantum technology and its associated APIs.
翻訳日:2023-12-01 15:58:54 公開日:2023-11-30
# 婦人科腹腔鏡からの映像記録における行動認識

Action Recognition in Video Recordings from Gynecologic Laparoscopy ( http://arxiv.org/abs/2311.18666v1 )

ライセンス: Link先を確認
Sahar Nasirihaghighi, Negin Ghamsarian, Daniela Stefanics, Klaus Schoeffmann, Heinrich Husslein(参考訳) 手術訓練,手術室計画,フォローアップ手術準備,術後外科的評価,手術成績推定など,腹腔鏡下ビデオ解析の多くの応用において,行動認識は必須条件である。 しかし,腹腔鏡下手術における自動行動認識には, (i) クロスアクションとイントラアクション持続時間の変化, (ii) 煙による関連コンテンツの歪み, 血液蓄積, 高速カメラ動作, オルガン運動, 物体閉塞, および (iii) 異なる照度と視点による手術場面の変動など, 数多くの課題がある。 また、腹腔鏡手術におけるアクションアノテーションは、専門知識を必要とするため、限定的で費用がかかる。 本研究では,腹腔鏡下手術行動認識における課題に対処するために,CNN-RNNアーキテクチャとカスタマイズしたトレーニング推論フレームワークの設計と評価を行う。 そこで,提案するネットワークは,フレーム間の依存性を利用して,コンテンツの歪みや動作認識のばらつきの悪影響を否定する。 さらに,提案するフレームサンプリング戦略は,手術動作の持続時間変化を効果的に管理し,時間分解能の高い動作認識を可能にする。 提案手法が静的CNNと比較して動作認識において優れていることを確認する。

Action recognition is a prerequisite for many applications in laparoscopic video analysis including but not limited to surgical training, operation room planning, follow-up surgery preparation, post-operative surgical assessment, and surgical outcome estimation. However, automatic action recognition in laparoscopic surgeries involves numerous challenges such as (I) cross-action and intra-action duration variation, (II) relevant content distortion due to smoke, blood accumulation, fast camera motions, organ movements, object occlusion, and (III) surgical scene variations due to different illuminations and viewpoints. Besides, action annotations in laparoscopy surgeries are limited and expensive due to requiring expert knowledge. In this study, we design and evaluate a CNN-RNN architecture as well as a customized training-inference framework to deal with the mentioned challenges in laparoscopic surgery action recognition. Using stacked recurrent layers, our proposed network takes advantage of inter-frame dependencies to negate the negative effect of content distortion and variation in action recognition. Furthermore, our proposed frame sampling strategy effectively manages the duration variations in surgical actions to enable action recognition with high temporal resolution. Our extensive experiments confirm the superiority of our proposed method in action recognition compared to static CNNs.
翻訳日:2023-12-01 15:58:31 公開日:2023-11-30
# ASISTの姿勢推定と追跡

Pose Estimation and Tracking for ASIST ( http://arxiv.org/abs/2311.18665v1 )

ライセンス: Link先を確認
Ari Goodman, Gurpreet Singh, Ryan O'Shea, Peter Teague, James Hing(参考訳) Aircraft Ship Integrated Secure and Traverse (ASIST) は、ヘリコプターを安全にかつ効率的に捕獲するシステムである。 当初、精密ヘリコプター位置検出装置(hpse)は、高速確保装置(rsd)に対してヘリコプターの位置を追跡監視していた。 しかし、ハードウェアのインストール要求のため、HPSEコンポーネントの使用はASISTシステムの移行では不可能であると判断された。 その結果、船員は、センサーや人工的な判断支援なしで、目でヘリコプターの位置を追跡することができた。 手動でヘリコプターを追跡するにはさらに時間がかかり、特に高海状態では回復が困難になる。 意思決定支援なしで回復を行うと、高い不確実性と認知負荷が発生する。 PETA (Pose Estimation and Tracking for ASIST) は、ASISTシステムオペレータのハードウェアインストールを必要とせずに、ヘリコプター追跡システムのプロトタイプを開発するための研究である。 その全体的な目標は、状況認識を改善し、RSDに対する航空機の位置に関する操作者の不確実性を低減し、結果として許容される着陸面積を増やすことである。 著者らは、rsdに対してヘリコプターを追跡できるプロトタイプシステムを開発した。 ソフトウェアには、ヘリコプターのポーズ推定コンポーネント、カメラのポーズ推定コンポーネント、ユーザーインターフェイスコンポーネントが含まれていた。 petaは最新のコンピュータビジョンアルゴリズムの可能性を実証し、r-cnnとhrnet(high- resolution network)がヘリコプターの姿勢をリアルタイムで推定し、asistを当初の意図した能力に戻せることを実証した。 PETAはまた、従来のエンコーダ・デコーダの手法がヘリコプターの向きを推定し、HRNetからの出力を確認するためにも使用できることを示した。

Aircraft Ship Integrated Secure and Traverse (ASIST) is a system designed to arrest helicopters safely and efficiently on ships. Originally, a precision Helicopter Position Sensing Equipment (HPSE) tracked and monitored the position of the helicopter relative to the Rapid Securing Device (RSD). However, using the HPSE component was determined to be infeasible in the transition of the ASIST system due to the hardware installation requirements. As a result, sailors track the position of the helicopters with their eyes with no sensor or artificially intelligent decision aid. Manually tracking the helicopter takes additional time and makes recoveries more difficult, especially at high sea states. Performing recoveries without the decision aid leads to higher uncertainty and cognitive load. PETA (Pose Estimation and Tracking for ASIST) is a research effort to create a helicopter tracking system prototype without hardware installation requirements for ASIST system operators. Its overall goal is to improve situational awareness and reduce operator uncertainty with respect to the aircrafts position relative to the RSD, and consequently increase the allowable landing area. The authors produced a prototype system capable of tracking helicopters with respect to the RSD. The software included a helicopter pose estimation component, camera pose estimation component, and a user interface component. PETA demonstrated the potential for state-of-the-art computer vision algorithms Faster R-CNN and HRNet (High-Resolution Network) to be used to estimate the pose of helicopters in real-time, returning ASIST to its originally intended capability. PETA also demonstrated that traditional methods of encoder-decoders could be used to estimate the orientation of the helicopter and could be used to confirm the output from HRNet.
翻訳日:2023-12-01 15:58:08 公開日:2023-11-30
# クロスタスク一貫性を有するマルチタスク学習による大腸内視鏡の深度推定

Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy ( http://arxiv.org/abs/2311.18664v1 )

ライセンス: Link先を確認
Pedro Esteban Chavarrias Solano, Andrew Bulpitt, Venkataraman Subramanian, Sharib Ali(参考訳) 大腸内視鏡検査は潰瘍や癌性ポリープなどの大腸および直腸の異常を評価するための金の標準的方法である。 異常な粘膜面積の測定とその3D再構成は、調査対象領域の定量化と、疾患負担の客観的評価に役立つ。 しかし、これらの臓器の複雑なトポロジーと様々な物理的条件、例えば照明、大きな均質なテクスチャ、カメラの奥行きからの距離を推定するイメージモダリティなどにより、非常に困難である。 さらに, 大腸内視鏡的ビデオ取得のほとんどは単眼的であり, 深さ推定は非自明な問題である。 奥行き推定のためのコンピュータビジョンの手法が提案され,自然景観データセット上では進歩してきたが,大腸内視鏡データではこれらの手法の有効性は広く評価されていない。 大腸粘膜には、発音が良くないいくつかの低テクスチャ領域があるため、補助タスクからの学習表現は、優れた特徴抽出を改善し、正確なカメラ深度の推定を可能にする。 本研究では,共有エンコーダと2つのデコーダ,すなわち表面正規デコーダと深度推定器デコーダを用いた新しいマルチタスク学習(MTL)手法を提案する。 我々の深度推定器は、グローバルな文脈認識を高めるための注意機構を組み込んでいる。 表面の正規予測を利用して幾何学的特徴抽出を改善する。 また,2つの幾何学的タスク,表面正規度とカメラ深度の間に,クロスタスクの整合性損失を適用した。 我々は、最も正確なベースライン・オブ・ザ・アートbtsアプローチよりも、相対誤差が14.17%改善され、$\delta_{1}$精度が10.4%向上したことを示す。 すべての実験は、最近リリースされたC3VDデータセット上で実施される。

Colonoscopy screening is the gold standard procedure for assessing abnormalities in the colon and rectum, such as ulcers and cancerous polyps. Measuring the abnormal mucosal area and its 3D reconstruction can help quantify the surveyed area and objectively evaluate disease burden. However, due to the complex topology of these organs and variable physical conditions, for example, lighting, large homogeneous texture, and image modality estimating distance from the camera aka depth) is highly challenging. Moreover, most colonoscopic video acquisition is monocular, making the depth estimation a non-trivial problem. While methods in computer vision for depth estimation have been proposed and advanced on natural scene datasets, the efficacy of these techniques has not been widely quantified on colonoscopy datasets. As the colonic mucosa has several low-texture regions that are not well pronounced, learning representations from an auxiliary task can improve salient feature extraction, allowing estimation of accurate camera depths. In this work, we propose to develop a novel multi-task learning (MTL) approach with a shared encoder and two decoders, namely a surface normal decoder and a depth estimator decoder. Our depth estimator incorporates attention mechanisms to enhance global context awareness. We leverage the surface normal prediction to improve geometric feature extraction. Also, we apply a cross-task consistency loss among the two geometrically related tasks, surface normal and camera depth. We demonstrate an improvement of 14.17% on relative error and 10.4% improvement on $\delta_{1}$ accuracy over the most accurate baseline state-of-the-art BTS approach. All experiments are conducted on a recently released C3VD dataset; thus, we provide a first benchmark of state-of-the-art methods.
翻訳日:2023-12-01 15:57:39 公開日:2023-11-30
# フェルマー距離のパラメータの選択:幾何学と雑音のナビゲート

Choosing the parameter of the Fermat distance: navigating geometry and noise ( http://arxiv.org/abs/2311.18663v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Chazal, Laure Ferraris, Pablo Groisman, Matthieu Jonckheere, Fr\'ed\'eric Pascal, Facundo Sapienza(参考訳) ファーマー距離は、実践者が自然距離を直接利用できない場合や、データセットの幾何学的および統計的性質を爆発させることでユークリッド距離による結果を改善する際に、機械学習タスクに有用なツールとして最近確立されている。 この距離は、次のタスクのパフォーマンスに大きな影響を及ぼすパラメータ$\alpha$に依存する。 理想的には、$\alpha$の値は問題に固有の幾何学的な複雑さをナビゲートするのに十分である。 同時に、距離推定の過程でノイズに起因する有害な分岐を回避できるほど抑制され続けるべきである。 このパラメータの選び方について理論的およびシミュレーションにより検討した。

The Fermat distance has been recently established as a useful tool for machine learning tasks when a natural distance is not directly available to the practitioner or to improve the results given by Euclidean distances by exploding the geometrical and statistical properties of the dataset. This distance depends on a parameter $\alpha$ that greatly impacts the performance of subsequent tasks. Ideally, the value of $\alpha$ should be large enough to navigate the geometric intricacies inherent to the problem. At the same, it should remain restrained enough to sidestep any deleterious ramifications stemming from noise during the process of distance estimation. We study both theoretically and through simulations how to select this parameter.
翻訳日:2023-12-01 15:57:10 公開日:2023-11-30
# トランスフォーマーによるチームのオリエンテーリング問題の解決

Solving the Team Orienteering Problem with Transformers ( http://arxiv.org/abs/2311.18662v1 )

ライセンス: Link先を確認
Daniel Fuertes, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso Garc\'ia(参考訳) 車両群のためのルートプランニングは、荷物の配送、監視、輸送といった応用において重要な課題である。 この問題は、通常、チームオリエンテーリング問題と呼ばれる組合せ最適化問題としてモデル化される。 最も一般的なチームオリエンテーリング問題の解法は、主に線形プログラミングに基づいており、問題の大きさに応じて成長する大きな計算時間を利用することで正確な解を提供する。 本稿では,チームのオリエンテーリング問題を迅速かつ正確な方法で解くことができるマルチエージェント経路計画システムを提案する。 提案システムは、(グラフとしてモデル化された)シナリオとエージェントのコンテキストを符号化して、高速で正確なソリューションを提供することができる集中型トランスフォーマーニューラルネットワークに基づいている。 提案手法が計算速度の面で最先端の著作物の大部分を上回ることができることを示す実験がいくつか行われている。 さらに、コードは \url{http://gti.ssr.upm.es/data} で公開されている。

Route planning for a fleet of vehicles is an important task in applications such as package delivery, surveillance, or transportation. This problem is usually modeled as a Combinatorial Optimization problem named as Team Orienteering Problem. The most popular Team Orienteering Problem solvers are mainly based on either linear programming, which provides accurate solutions by employing a large computation time that grows with the size of the problem, or heuristic methods, which usually find suboptimal solutions in a shorter amount of time. In this paper, a multi-agent route planning system capable of solving the Team Orienteering Problem in a very fast and accurate manner is presented. The proposed system is based on a centralized Transformer neural network that can learn to encode the scenario (modeled as a graph) and the context of the agents to provide fast and accurate solutions. Several experiments have been performed to demonstrate that the presented system can outperform most of the state-of-the-art works in terms of computation speed. In addition, the code is publicly available at \url{http://gti.ssr.upm.es/data}.
翻訳日:2023-12-01 15:56:58 公開日:2023-11-30
# 合成動物からの学習部セグメンテーション

Learning Part Segmentation from Synthetic Animals ( http://arxiv.org/abs/2311.18661v1 )

ライセンス: Link先を確認
Jiawei Peng, Ju He, Prakhar Kaushik, Zihao Xiao, Jiteng Mu, Alan Yuille(参考訳) 意味的部分分割(Semantic part segmentation)は、オブジェクトの複雑で解釈可能な理解を提供する。 しかし、徹底的なアノテーションの必要性は、さまざまなオブジェクトタイプでの使用を妨げる。 本稿では,Skinned Multi-Animal Linear(SMAL)モデルを用いて,コンピュータ支援デザイン(CAD)動物モデルによって生成された既存の合成データをスケールアップする。 CADモデルと比較して、SMALモデルは現実世界のシナリオで観察される幅広いポーズを持つデータを生成する。 その結果,本研究の最初の貢献は,SAP(Synthetic Animal Parts)と呼ばれる,より多様性のあるトラと馬の合成動物データセットの構築である。 次に、SAPからPartImageNetへのSyn-to-Real動物部分分割、すなわちSynRealPartを既存のセマンティックセマンティクスドメイン適応手法でベンチマークし、さらにそれらを2番目のコントリビューションとして改善する。 具体的には,3つのSyn-to-Real適応法について検討するが,2つのタスクの自然差による相対的な性能低下を観察する。 そこで本研究では,CB-FDM (Class-Balanced Fourier Data Mixing) と呼ばれる単純な手法を提案する。 フーリエデータミキシングは、合成画像のスペクトル振幅を実画像と一致させるため、混合画像は実画像とより類似した周波数内容を有する。 さらに,不均衡クラス分布を緩和するために,クラスバランス疑似ラベル再重み付けを用いる。 そこで本研究では,cb-fdmのsynrealpartに対する有効性を示す。 驚くべきことに、第3の貢献は、合成トラと馬の学習した部分が、partimagenetのすべての四足歩行で移動可能であることを明らかにすることである。

Semantic part segmentation provides an intricate and interpretable understanding of an object, thereby benefiting numerous downstream tasks. However, the need for exhaustive annotations impedes its usage across diverse object types. This paper focuses on learning part segmentation from synthetic animals, leveraging the Skinned Multi-Animal Linear (SMAL) models to scale up existing synthetic data generated by computer-aided design (CAD) animal models. Compared to CAD models, SMAL models generate data with a wider range of poses observed in real-world scenarios. As a result, our first contribution is to construct a synthetic animal dataset of tigers and horses with more pose diversity, termed Synthetic Animal Parts (SAP). We then benchmark Syn-to-Real animal part segmentation from SAP to PartImageNet, namely SynRealPart, with existing semantic segmentation domain adaptation methods and further improve them as our second contribution. Concretely, we examine three Syn-to-Real adaptation methods but observe relative performance drop due to the innate difference between the two tasks. To address this, we propose a simple yet effective method called Class-Balanced Fourier Data Mixing (CB-FDM). Fourier Data Mixing aligns the spectral amplitudes of synthetic images with real images, thereby making the mixed images have more similar frequency content to real images. We further use Class-Balanced Pseudo-Label Re-Weighting to alleviate the imbalanced class distribution. We demonstrate the efficacy of CB-FDM on SynRealPart over previous methods with significant performance improvements. Remarkably, our third contribution is to reveal that the learned parts from synthetic tiger and horse are transferable across all quadrupeds in PartImageNet, further underscoring the utility and potential applications of animal part segmentation.
翻訳日:2023-12-01 15:56:43 公開日:2023-11-30
# ArcMMLU:大規模言語モデルのためのライブラリと情報サイエンスベンチマーク

ArcMMLU: A Library and Information Science Benchmark for Large Language Models ( http://arxiv.org/abs/2311.18658v1 )

ライセンス: Link先を確認
Shitou Zhang, Zuchao Li, Xingshen Liu, Liming Yang, Ping Wang(参考訳) 大規模言語モデル(LLM)の急速に進化する機能を考えると、厳密なドメイン固有評価ベンチマークを開発し、その能力を正確に評価することが不可欠になる。 そこで本研究では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適した特殊なベンチマークであるArcMMLUを紹介する。 このベンチマークは、アーカイブ科学、データサイエンス、図書館科学、情報科学の4つの主要なサブドメインにおいて、llmの知識と推論能力を測定することを目的としている。 MMLU/CMMLUの形式に従い、ArcMMLUのコンパイルに6000以上の高品質な質問を収集した。 この広範なコンパイルは、LISドメインの多様な性質を反映し、LLM評価のための堅牢な基盤を提供する。 総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成しているが,高い性能差がみられ,LIS領域におけるLLMの能力向上のための大きなヘッドルームが示唆されている。 さらに分析は、モデルパフォーマンスにおけるいくつかの例の有効性を探求し、モデルが一貫してパフォーマンスが低下している問題を強調し、目標とする改善のための貴重な洞察を提供する。 ArcMMLU は中国の LIS ドメインにおける LLM 評価において重要なギャップを埋め、この専門分野に適した LLM の今後の発展の道を開く。

In light of the rapidly evolving capabilities of large language models (LLMs), it becomes imperative to develop rigorous domain-specific evaluation benchmarks to accurately assess their capabilities. In response to this need, this paper introduces ArcMMLU, a specialized benchmark tailored for the Library & Information Science (LIS) domain in Chinese. This benchmark aims to measure the knowledge and reasoning capability of LLMs within four key sub-domains: Archival Science, Data Science, Library Science, and Information Science. Following the format of MMLU/CMMLU, we collected over 6,000 high-quality questions for the compilation of ArcMMLU. This extensive compilation can reflect the diverse nature of the LIS domain and offer a robust foundation for LLM evaluation. Our comprehensive evaluation reveals that while most mainstream LLMs achieve an average accuracy rate above 50% on ArcMMLU, there remains a notable performance gap, suggesting substantial headroom for refinement in LLM capabilities within the LIS domain. Further analysis explores the effectiveness of few-shot examples on model performance and highlights challenging questions where models consistently underperform, providing valuable insights for targeted improvements. ArcMMLU fills a critical gap in LLM evaluations within the Chinese LIS domain and paves the way for future development of LLMs tailored to this specialized area.
翻訳日:2023-12-01 15:56:10 公開日:2023-11-30
# 詳細な人文記述型大規模シーン合成

Detailed Human-Centric Text Description-Driven Large Scene Synthesis ( http://arxiv.org/abs/2311.18654v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Dong Un Kang, Hoigi Seo, Hayeon Kim, Se Young Chun(参考訳) テキスト駆動大規模シーン画像合成は拡散モデルで大きな進歩を遂げているが、その制御は困難である。 対応するテキストを付加した空間制御を用いることで、大きなシーン合成の制御性が向上したが、ユーザが提供する制御なしに詳細なテキスト記述を忠実に反映することは依然として困難である。 本稿では,人間中心の詳細なテキスト記述のためのグローバルコンテキストにおける高い忠実性,制御性,自然性を備えた,新たなテキスト駆動大規模画像合成であるdettext2sceneを提案する。 私たちのDetText2Sceneは 1)大言語モデル(llm)を活用した詳細記述による階層的キーポイントボックスレイアウト生成 2)llm生成した接地キーポイントボックスレイアウトを用いた詳細なテキストから大きなシーンを合成するための視点条件付きジョイント拡散プロセス 3) 画素摂動に基づくピラミッド補間により, 大局的なコヒーレンスを実現する。 dettext2sceneは,テキスト対大規模シーン合成における先行技術よりも質的かつ定量的に優れ,詳細な記述,優れた制御性,グローバルな文脈における優れた自然性を示す。

Text-driven large scene image synthesis has made significant progress with diffusion models, but controlling it is challenging. While using additional spatial controls with corresponding texts has improved the controllability of large scene synthesis, it is still challenging to faithfully reflect detailed text descriptions without user-provided controls. Here, we propose DetText2Scene, a novel text-driven large-scale image synthesis with high faithfulness, controllability, and naturalness in a global context for the detailed human-centric text description. Our DetText2Scene consists of 1) hierarchical keypoint-box layout generation from the detailed description by leveraging large language model (LLM), 2) view-wise conditioned joint diffusion process to synthesize a large scene from the given detailed text with LLM-generated grounded keypoint-box layout and 3) pixel perturbation-based pyramidal interpolation to progressively refine the large scene for global coherence. Our DetText2Scene significantly outperforms prior arts in text-to-large scene synthesis qualitatively and quantitatively, demonstrating strong faithfulness with detailed descriptions, superior controllability, and excellent naturalness in a global context.
翻訳日:2023-12-01 15:55:48 公開日:2023-11-30
# LL3DA: Omni-3D理解、推論、計画のためのビジュアルインタラクティブなインストラクションチューニング

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning ( http://arxiv.org/abs/2311.18651v1 )

ライセンス: Link先を確認
Sijin Chen, Xin Chen, Chi Zhang, Mingsheng Li, Gang Yu, Hao Fei, Hongyuan Zhu, Jiayuan Fan, Tao Chen(参考訳) 大規模マルチモーダルモデル(LMM)の最近の進歩は、人間と機械の相互作用における様々な応用を可能にしている。 しかし,複雑で多様な3d環境において理解・推論・計画が可能なlmmの開発は,特に3dシーンの置換不変点クラウド3d表現の理解の要求を考えると,課題となっている。 既存の作品は、マルチビュー画像から助けを求め、2Dの機能を3Dシーン表現として3D空間に投影する。 しかし、これは計算オーバーヘッドと性能の大幅な低下につながります。 本稿では,ポイントクラウドを直接入力とし,テキストインストラクションと視覚的プロンプトの両方に応答する大規模言語3DアシスタントであるLL3DAを提案する。 これにより、LMMは人間のインタラクションをよりよく理解し、散らかった3Dシーンの曖昧さを取り除くのに役立ちます。 実験の結果,LL3DAは3D Dense Captioningと3D Question Answeringの両方において,様々な3次元視覚言語モデルを上回った。

Recent advances in Large Multimodal Models (LMM) have made it possible for various applications in human-machine interactions. However, developing LMMs that can comprehend, reason, and plan in complex and diverse 3D environments remains a challenging topic, especially considering the demand for understanding permutation-invariant point cloud 3D representations of the 3D scene. Existing works seek help from multi-view images, and project 2D features to 3D space as 3D scene representations. This, however, leads to huge computational overhead and performance degradation. In this paper, we present LL3DA, a Large Language 3D Assistant that takes point cloud as direct input and respond to both textual-instructions and visual-prompts. This help LMMs better comprehend human interactions and further help to remove the ambiguities in cluttered 3D scenes. Experiments show that LL3DA achieves remarkable results, and surpasses various 3D vision-language models on both 3D Dense Captioning and 3D Question Answering.
翻訳日:2023-12-01 15:55:29 公開日:2023-11-30
# コヒーレントステートの摂動的構築

Perturbative Construction of Coherent States ( http://arxiv.org/abs/2311.18650v1 )

ライセンス: Link先を確認
Lasha Berezhiani, Giordano Cintia and Michael Zantedeschi(参考訳) 相互作用する量子場理論におけるコヒーレント状態の摂動的一貫性は、それらは単純な非スキーズ形式を超えて変化する必要がある。 この点に基づいて、1ループオーダーでの物理量の有限性によって要求される一貫した圧縮されたコヒーレント状態の明示的な構築を行う。 この解析を2ループに拡張することにより、圧縮されたコヒーレント状態の非ガウス的変化が必要であることを示す。 我々が提案するコヒーレント状態の修正は$\hbar$で摂動的であり、コヒーレンスを非線形に再定義され、背景に依存した自由度で見る必要があることを示すものかもしれない。

The perturbative consistency of coherent states within interacting quantum field theory requires them to be altered beyond the simple non-squeezed form. Building on this point, we perform explicit construction of consistent squeezed coherent states, required by the finiteness of physical quantities at the one-loop order. Extending this analysis to two-loops, we demonstrate that a non-Gaussian alteration of squeezed coherent states is necessary. The modifications of the coherent state we propose are perturbative in $\hbar$ and may be an indication that coherence must be viewed through a nonlinearly redefined, background-dependent, degree of freedom.
翻訳日:2023-12-01 15:55:11 公開日:2023-11-30
# 簡素なセマンティック支援Few-Shot学習

Simple Semantic-Aided Few-Shot Learning ( http://arxiv.org/abs/2311.18649v1 )

ライセンス: Link先を確認
Hai Zhang, Junzhe Xu, Shanlin Jiang, Zhenan He(参考訳) 限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題である。 セマンティクスを利用して複雑なセマンティクス融合機構を設計し、制限されたデータ内の稀な代表的特徴を補う。 しかし、クラス名のような素直な意味論に依存すると、その簡潔さによってバイアスが発生し、一方で外部知識から広範な意味論を取得するには膨大な時間と労力を要する。 この制限は、数ショット学習における意味論の可能性を大幅に制限する。 本稿では,セマンティック進化と呼ばれる,高品質な意味論を生成する自動手法を設計する。 高品質な意味論の導入は、以前の研究で使われた複雑なネットワーク構造と学習アルゴリズムの必要性を軽減する。 そこで我々は,単純な2層ネットワーク「意味アライメントネットワーク」を用いて,意味論と視覚的特徴をロバストなクラスプロトタイプに変換した。 実験の結果,本フレームワークは5つのベンチマークで過去の手法よりも優れており,高品質なセマンティクスを持つ単純なネットワークが,数ショットの分類タスクで複雑なマルチモーダルモジュールを破ることが実証された。

Learning from a limited amount of data, namely Few-Shot Learning, stands out as a challenging computer vision task. Several works exploit semantics and design complicated semantic fusion mechanisms to compensate for rare representative features within restricted data. However, relying on naive semantics such as class names introduces biases due to their brevity, while acquiring extensive semantics from external knowledge takes a huge time and effort. This limitation severely constrains the potential of semantics in few-shot learning. In this paper, we design an automatic way called Semantic Evolution to generate high-quality semantics. The incorporation of high-quality semantics alleviates the need for complex network structures and learning algorithms used in previous works. Hence, we employ a simple two-layer network termed Semantic Alignment Network to transform semantics and visual features into robust class prototypes with rich discriminative features for few-shot classification. The experimental results show our framework outperforms all previous methods on five benchmarks, demonstrating a simple network with high-quality semantics can beat intricate multi-modal modules on few-shot classification tasks.
翻訳日:2023-12-01 15:54:55 公開日:2023-11-30
# Wasserstein Distance-Aware Attention を用いた確率的視覚変換器

Stochastic Vision Transformers with Wasserstein Distance-Aware Attention ( http://arxiv.org/abs/2311.18645v1 )

ライセンス: Link先を確認
Franciskus Xaverius Erick, Mina Rezaei, Johanna Paula M\"uller, Bernhard Kainz(参考訳) 自己教師付き学習は、限られたラベル付きデータから知識を得るための最も有望なアプローチの1つである。 近年の大幅な進歩にもかかわらず、自己監督型モデルはモデルの信頼性と不確実性についてすぐには洞察できないため、実践者には課題を提起している。 主に、明示的なラベルに頼ることなく、事前トレーニング中に学習した潜在表現を活用できるテクニックを実装することに関わる複雑さのためです。 そこで我々は,不確実性と距離認識を自己教師付き学習(SSL)パイプラインに統合する,新しい確率的視覚変換器を提案する。 従来の決定論的ベクトル埋め込みの代わりに、新しい確率的ビジョントランスフォーマーは画像パッチを楕円ガウス分布埋め込みに符号化する。 特に、これらの確率的表現的埋め込みの注意行列は、wasserstein距離に基づく注意を用いて計算され、これらの埋め込みの分布的性質を効果的に活用する。 さらに, 事前学習と微調整の両方のプロセスに対して, Wasserstein 距離に基づく正規化項を提案し, 遅延表現に距離認識を組み込む。 分散の一般化,分散の外部検出,データセットの破損,半教師付き設定,他のデータセットやタスクへの学習など,さまざまなタスクにわたる広範な実験を行う。 提案手法は,多種多様なデータセットを用いた実験において,自己教師ありベースラインを上回って,精度と校正に優れる。

Self-supervised learning is one of the most promising approaches to acquiring knowledge from limited labeled data. Despite the substantial advancements made in recent years, self-supervised models have posed a challenge to practitioners, as they do not readily provide insight into the model's confidence and uncertainty. Tackling this issue is no simple feat, primarily due to the complexity involved in implementing techniques that can make use of the latent representations learned during pre-training without relying on explicit labels. Motivated by this, we introduce a new stochastic vision transformer that integrates uncertainty and distance awareness into self-supervised learning (SSL) pipelines. Instead of the conventional deterministic vector embedding, our novel stochastic vision transformer encodes image patches into elliptical Gaussian distributional embeddings. Notably, the attention matrices of these stochastic representational embeddings are computed using Wasserstein distance-based attention, effectively capitalizing on the distributional nature of these embeddings. Additionally, we propose a regularization term based on Wasserstein distance for both pre-training and fine-tuning processes, thereby incorporating distance awareness into latent representations. We perform extensive experiments across different tasks such as in-distribution generalization, out-of-distribution detection, dataset corruption, semi-supervised settings, and transfer learning to other datasets and tasks. Our proposed method achieves superior accuracy and calibration, surpassing the self-supervised baseline in a wide range of experiments on a variety of datasets.
翻訳日:2023-12-01 15:54:35 公開日:2023-11-30
# JAXにおける自動機能分化

Automatic Functional Differentiation in JAX ( http://arxiv.org/abs/2311.18727v1 )

ライセンス: Link先を確認
Min Lin(参考訳) JAXを高階関数(関数と演算子)を自動的に区別する機能で拡張します。 配列の一般化として関数を表現することで、jaxの既存のプリミティブシステムをシームレスに高次関数を実装する。 本稿では, 基本構造ブロックとして機能するプリミティブ演算子の集合について述べる。 導入されたすべてのプリミティブ演算子に対して、前方および逆モードの自動微分のためのJAXの内部プロトコルと整合して、線形化と転置ルールの両方を導出し実装する。 この拡張により、伝統的に関数に使用される同じ構文で関数の分化が可能になる。 その結果生じる関数勾配は、pythonで呼び出される準備ができている関数である。 機能的微分が不可欠であるアプリケーションを通じて、このツールの有効性と簡易性を示す。 この作業のソースコードはhttps://github.com/sail-sg/autofdで公開されている。

We extend JAX with the capability to automatically differentiate higher-order functions (functionals and operators). By representing functions as a generalization of arrays, we seamlessly use JAX's existing primitive system to implement higher-order functions. We present a set of primitive operators that serve as foundational building blocks for constructing several key types of functionals. For every introduced primitive operator, we derive and implement both linearization and transposition rules, aligning with JAX's internal protocols for forward and reverse mode automatic differentiation. This enhancement allows for functional differentiation in the same syntax traditionally use for functions. The resulting functional gradients are themselves functions ready to be invoked in python. We showcase this tool's efficacy and simplicity through applications where functional derivatives are indispensable. The source code of this work is released at https://github.com/sail-sg/autofd .
翻訳日:2023-12-01 15:49:49 公開日:2023-11-30
# パーソナライズされたシーケンス決定のための薬局内AI:方法、応用、機会

AI in Pharma for Personalized Sequential Decision-Making: Methods, Applications and Opportunities ( http://arxiv.org/abs/2311.18725v1 )

ライセンス: Link先を確認
Yuhan Li, Hongtao Zhang, Keaven Anderson, Songzi Li and Ruoqing Zhu(参考訳) 製薬業界では、人工知能(AI)の使用は過去10年間で一貫した成長を遂げてきた。 この上昇は、統計機械学習の方法論、計算能力、大規模データセットの可用性の向上による。 ai技術は、創薬から市販後の利益リスク評価まで、様々な段階の薬物開発に応用される。 Kolluriらは、これらの段階にまたがるいくつかのケーススタディをレビューし、タンパク質構造予測、成功確率推定、サブグループ同定、AIによる臨床試験モニタリングなどの重要な応用を取り上げている。 規制の観点から見れば、2021年にAIコンポーネントを組み込んだ申請が顕著に増加した。 最も多い治療領域は、腫瘍学(27%)、精神医学(15%)、胃腸学(12%)、神経学(11%)である。 パーソナライズされた、あるいは精密な医学のパラダイムは、ai技術の進歩によって、最近の研究で大きな注目を集めている。 この変化は製薬業界に革新的な影響を与えた。 従来の「one-size-fits-all」モデルから離れて、パーソナライズされた医療は、環境条件、ライフスタイル選択、健康履歴など様々な個別の要素を取り入れ、カスタマイズされた治療計画を作成する。 高度な機械学習アルゴリズムを利用することで、臨床医や研究者は、疾患の予防、診断、治療選択などの領域において情報的な決定を下し、各個人に対する健康結果の最適化を行うことができる。

In the pharmaceutical industry, the use of artificial intelligence (AI) has seen consistent growth over the past decade. This rise is attributed to major advancements in statistical machine learning methodologies, computational capabilities and the increased availability of large datasets. AI techniques are applied throughout different stages of drug development, ranging from drug discovery to post-marketing benefit-risk assessment. Kolluri et al. provided a review of several case studies that span these stages, featuring key applications such as protein structure prediction, success probability estimation, subgroup identification, and AI-assisted clinical trial monitoring. From a regulatory standpoint, there was a notable uptick in submissions incorporating AI components in 2021. The most prevalent therapeutic areas leveraging AI were oncology (27%), psychiatry (15%), gastroenterology (12%), and neurology (11%). The paradigm of personalized or precision medicine has gained significant traction in recent research, partly due to advancements in AI techniques \cite{hamburg2010path}. This shift has had a transformative impact on the pharmaceutical industry. Departing from the traditional "one-size-fits-all" model, personalized medicine incorporates various individual factors, such as environmental conditions, lifestyle choices, and health histories, to formulate customized treatment plans. By utilizing sophisticated machine learning algorithms, clinicians and researchers are better equipped to make informed decisions in areas such as disease prevention, diagnosis, and treatment selection, thereby optimizing health outcomes for each individual.
翻訳日:2023-12-01 15:49:36 公開日:2023-11-30
# トラップイオンシミュレーションプラットフォームを用いた量子忠実カーネル

Quantum fidelity kernel with a trapped-ion simulation platform ( http://arxiv.org/abs/2311.18719v1 )

ライセンス: Link先を確認
Rodrigo Mart\'inez-Pe\~na, Miguel C. Soriano, Roberta Zambrini(参考訳) 量子カーネル法は、入力情報を量子系のヒルベルト空間に埋め込んで計算したカーネル関数を利用する。 しかし、大きなヒルベルト空間は一般化能力を妨げる可能性があり、量子カーネルのスケーラビリティが問題となる。 これらの課題を克服するために,帰納バイアスの概念に基づく様々な戦略が提案されている。 帯域最適化は量子シミュレーションプラットフォームを使って実装できる有望なアプローチである。 本稿では,量子カーネルの計算手段としてトラップイオンシミュレーションプラットフォームを提案し,そのバイナリ分類タスクの有効性を示す。 提案手法の性能を最適化された古典的カーネルと比較し,雑音に対する量子カーネルの堅牢性を評価する。 その結果,イオントラッププラットフォームは量子カーネル計算に適しており,数量子ビットで高い精度が得られることがわかった。

Quantum kernel methods leverage a kernel function computed by embedding input information into the Hilbert space of a quantum system. However, large Hilbert spaces can hinder generalization capability, and the scalability of quantum kernels becomes an issue. To overcome these challenges, various strategies under the concept of inductive bias have been proposed. Bandwidth optimization is a promising approach that can be implemented using quantum simulation platforms. We propose trapped-ion simulation platforms as a means to compute quantum kernels and demonstrate their effectiveness for binary classification tasks. We compare the performance of the proposed method with an optimized classical kernel and evaluate the robustness of the quantum kernel against noise. The results show that ion trap platforms are well-suited for quantum kernel computation and can achieve high accuracy with only a few qubits.
翻訳日:2023-12-01 15:49:10 公開日:2023-11-30
# 後方対応機能アップデートによるDeep Feature Learningのステアリング

Steering Deep Feature Learning with Backward Aligned Feature Updates ( http://arxiv.org/abs/2311.18718v1 )

ライセンス: Link先を確認
L\'ena\"ic Chizat and Praneeth Netrapalli(参考訳) ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)を調整することで、この振る舞いを間接的に制御できる。 本稿では,特徴の学習を予測,測定,制御するための重要な概念として,特徴更新と後方パスの整合性を提案する。 一方,アライメントが成立すると,一つのsgdステップ後の特徴更新の大きさは,単純で一般的な公式による前方および後方通過の大きさと関係していることが示された。 これにより、初期化とトレーニングを通じてhps(初期化スケールと学習率)を自動的に調整し、望ましい特徴学習行動を達成する技術が生まれる。 一方、ランダム初期化では、このアライメントはある核のスペクトルによって決定され、よく条件付けられた層対層ジャコビアン(動的等長法)はアライメントを意味する。 最後に,relu mlpsとresnetsを広幅・奥行き限界で検討する。 ランダム行列理論と数値実験のヒントを組み合わせることで i) iid初期化を伴うMDPでは、アライメントは深度で縮退し、トレーニングの開始が不可能となる。 (ii) ResNets では、分岐スケール $1/\sqrt{\text{depth}}$ は無限の深さで非自明なアライメントを維持する唯一のものである。

Deep learning succeeds by doing hierarchical feature learning, yet tuning Hyper-Parameters (HP) such as initialization scales, learning rates etc., only give indirect control over this behavior. In this paper, we propose the alignment between the feature updates and the backward pass as a key notion to predict, measure and control feature learning. On the one hand, we show that when alignment holds, the magnitude of feature updates after one SGD step is related to the magnitude of the forward and backward passes by a simple and general formula. This leads to techniques to automatically adjust HPs (initialization scales and learning rates) at initialization and throughout training to attain a desired feature learning behavior. On the other hand, we show that, at random initialization, this alignment is determined by the spectrum of a certain kernel, and that well-conditioned layer-to-layer Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from random matrix theory and numerical experiments, we show that (i) in MLP with iid initializations, alignment degenerates with depth, making it impossible to start training, and that (ii) in ResNets, the branch scale $1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at infinite depth.
翻訳日:2023-12-01 15:48:58 公開日:2023-11-30
# CoRec: コーディネーション認識のための簡単なアプローチ

CoRec: An Easy Approach for Coordination Recognition ( http://arxiv.org/abs/2311.18712v1 )

ライセンス: Link先を確認
Qing Wang, Haojie Jia, Wenfei Song, Qi Li(参考訳) 本稿では,協調認識タスクの課題を観察し,対処する。 既存のほとんどの手法は構文解析器を使って文中のコーディネータを識別し、コーディネータの境界を検出する。 しかし、最先端の構文解析器は遅く、特に長く複雑な文ではエラーに悩まされる。 この問題を解決するために,パイプラインモデルコーディネーションRECognizer(CoRec)を提案する。 コーディネータ識別子と接続境界検出器の2つのコンポーネントで構成されている。 提案手法の有効性と有効性を示すため,様々な領域のデータセットに対する実験結果が得られた。 さらなる実験では、CoRecが下流タスクに肯定的な影響を与え、最先端のOpen IEモデルの収量を改善することが示されている。

In this paper, we observe and address the challenges of the coordination recognition task. Most existing methods rely on syntactic parsers to identify the coordinators in a sentence and detect the coordination boundaries. However, state-of-the-art syntactic parsers are slow and suffer from errors, especially for long and complicated sentences. To better solve the problems, we propose a pipeline model COordination RECognizer (CoRec). It consists of two components: coordinator identifier and conjunct boundary detector. The experimental results on datasets from various domains demonstrate the effectiveness and efficiency of the proposed method. Further experiments show that CoRec positively impacts downstream tasks, improving the yield of state-of-the-art Open IE models.
翻訳日:2023-12-01 15:48:33 公開日:2023-11-30
# 女性は美しい、男性はリーダー:機械翻訳と言語モデリングにおけるジェンダーのステレオタイプ

Women Are Beautiful, Men Are Leaders: Gender Stereotypes in Machine Translation and Language Modeling ( http://arxiv.org/abs/2311.18711v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Pikuliak and Andrea Hrckova and Stefan Oresko and Mari\'an \v{S}imko(参考訳) GEST - マスク付きLMと英語-to-X機械翻訳システムにおけるジェンダーステレオタイプ推論の新たなデータセットを提案する。 GESTには9つのスラヴ語と英語で男女16のステレオタイプに対応するサンプルが含まれている(例:女性は美しい、男性はリーダー)。 このステレオタイプの定義は、ジェンダーの専門家によって知らされた。 GESTを用いて11個のマスク付きLMと4個の機械翻訳システムを評価した。 ほぼすべての評価されたモデルと言語において,かなりの量のステレオタイプ推論が発見された。

We present GEST -- a new dataset for measuring gender-stereotypical reasoning in masked LMs and English-to-X machine translation systems. GEST contains samples that are compatible with 9 Slavic languages and English for 16 gender stereotypes about men and women (e.g., Women are beautiful, Men are leaders). The definition of said stereotypes was informed by gender experts. We used GEST to evaluate 11 masked LMs and 4 machine translation systems. We discovered significant and consistent amounts of stereotypical reasoning in almost all the evaluated models and languages.
翻訳日:2023-12-01 15:48:24 公開日:2023-11-30
# Meta-Prior: 適応的逆問題解のためのメタ学習

Meta-Prior: Meta learning for Adaptive Inverse Problem Solvers ( http://arxiv.org/abs/2311.18710v1 )

ライセンス: Link先を確認
Matthieu Terris, Thomas Moreau(参考訳) ディープニューラルネットワークは、画像逆問題に対処するための基礎ツールとなっている。 それらは通常、特定のタスクのために訓練され、観察から回復するための画像へのマッピングを学ぶために教師付き損失を伴う。 しかし、現実のイメージングの課題は、しばしば真実のデータを欠いているため、従来の監督されたアプローチは効果がない。 さらに、新しいイメージングタスクごとに、新しいモデルをゼロからトレーニングし、時間とリソースを浪費する必要があります。 これらの制約を克服するために,メタラーニングに基づく新しいアプローチを導入する。 本手法では,様々な画像処理タスクのメタモデルを訓練し,特定のタスクに対して効率的に微調整できる。 提案手法は教師なし設定に拡張され,基底真理データが得られないことを示す。 2段階の定式化では、外側のレベルは教師付き損失を使用し、細調整されたモデルの性能を評価する一方、内部の損失は教師なしまたは教師なしのどちらかであり、測定演算子のみに依存する。 これによりメタモデルは、新しいイメージングタスクに一般化しながら、各タスクにいくつかの基底真理サンプルを活用できます。 単純な設定で、このアプローチはベイズ最適推定器を復元し、我々のアプローチの健全性を示す。 また, 画像処理や磁気共鳴イメージングなどの様々なタスクにおいて, 本手法の有効性を示す。

Deep neural networks have become a foundational tool for addressing imaging inverse problems. They are typically trained for a specific task, with a supervised loss to learn a mapping from the observations to the image to recover. However, real-world imaging challenges often lack ground truth data, rendering traditional supervised approaches ineffective. Moreover, for each new imaging task, a new model needs to be trained from scratch, wasting time and resources. To overcome these limitations, we introduce a novel approach based on meta-learning. Our method trains a meta-model on a diverse set of imaging tasks that allows the model to be efficiently fine-tuned for specific tasks with few fine-tuning steps. We show that the proposed method extends to the unsupervised setting, where no ground truth data is available. In its bilevel formulation, the outer level uses a supervised loss, that evaluates how well the fine-tuned model performs, while the inner loss can be either supervised or unsupervised, relying only on the measurement operator. This allows the meta-model to leverage a few ground truth samples for each task while being able to generalize to new imaging tasks. We show that in simple settings, this approach recovers the Bayes optimal estimator, illustrating the soundness of our approach. We also demonstrate our method's effectiveness on various tasks, including image processing and magnetic resonance imaging.
翻訳日:2023-12-01 15:48:14 公開日:2023-11-30
# 非可換最適化問題に対するKarush-Kuhn-Tucker条件

Karush-Kuhn-Tucker conditions for non-commutative optimization problems ( http://arxiv.org/abs/2311.18707v1 )

ライセンス: Link先を確認
Mateus Ara\'ujo, Igor Klep, Tam\'as V\'ertesi, Andrew J. P. Garner and Miguel Navascues(参考訳) 我々は、非可換変数の多項式の状態平均、多くの多項式制約を満たすすべての状態と作用素、およびそのような状態と作用素が定義されるすべてのヒルベルト空間の状態平均を最適化する問題を考える。 このような非可換多項式最適化(NPO)問題は、半定値プログラミング(SDP)緩和の階層によって日常的に解決される。 本研究では,多くの古典的最適化問題で満たされるKKT最適化条件の非可換類似性を導入する。 非可換な設定では、KKT条件は標準SDP階層に新しいSDP制約を加えることとなり、収束速度を向上する効果がある。 新しい最適条件はまた、NPO問題における新しいタイプの制約、すなわち任意の数の演算子の共通基底状態の集合に対する状態に対する最適化を強制することができる。 古典的な場合と同様に、KKT条件がNPO問題に収まるためには、いくつかの必要条件や制約条件が必要である。 問題に対する重み付き二乗分解の和の存在と、線形独立制約条件とマンガサリアン・フロモヴィッツ制約条件の非可換アナログの存在について述べる。 また、KKT条件を部分的に適用するための十分な条件も提示する。 多体スピン系の基底状態の局所的性質とベルの不等式最大量子違反を計算し、非可換kkt条件のパワーをテストする。

We consider the problem of optimizing the state average of a polynomial of non-commuting variables, over all states and operators satisfying a number of polynomial constraints, and over all Hilbert spaces where such states and operators are defined. Such non-commutative polynomial optimization (NPO) problems are routinely solved through hierarchies of semidefinite programming (SDP) relaxations. In this work, we introduce a non-commutative analog of the Karush-Kuhn-Tucker (KKT) optimality conditions, which are satisfied by many classical optimization problems. In the non-commutative setting, the KKT conditions amount to adding new SDP constraints to standard SDP hierarchies, with the effect of boosting their speed of convergence. The new optimality conditions also allow enforcing a new type of constraints in NPO problems: namely, restricting the optimization over states to the set of common ground states of an arbitrary number of operators. Like in the classical case, some necessary conditions or constraint qualifications are needed to ensure that the KKT conditions hold in an NPO problem. We provide three: the existence of a sum of weighted squares resolution of the problem and the non-commutative analogs of Linear Independence Constraint Qualification and Mangasarian-Fromovitz Constraint Qualification. We also present sufficient conditions to justify enforcing the KKT conditions partially. We test the power of the non-commutative KKT conditions by computing local properties of ground states of many-body spin systems and the maximum quantum violation of Bell inequalities.
翻訳日:2023-12-01 15:47:54 公開日:2023-11-30
# 局所量子ハミルトンの平衡状態に対する認証アルゴリズム

Certified algorithms for equilibrium states of local quantum Hamiltonians ( http://arxiv.org/abs/2311.18706v1 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet(参考訳) 局所量子ハミルトニアンの平衡状態における可観測物の期待値の計算アルゴリズムをゼロ温度と正温度の両方で設計する。 このアルゴリズムは、正の半定円錐と行列相対エントロピー円錐の上の凸緩和の階層に基づいており、所望の期待値に対して証明された上界と下界を与える。 無限格子の熱力学的極限において、これは局所可観測体の期待値が有限時間で近似できることを示し、これは無限量子格子系の性質に関する最近の不決定性結果とは対照的である。 さらに, 2次元格子上でハミルトニアンが可換である場合, 所望の誤差で多項式であるアルゴリズムのランタイム保証につながる高温での階層の高速収束が証明される。

We design algorithms for computing expectation values of observables in the equilibrium states of local quantum Hamiltonians, both at zero and positive temperature. The algorithms are based on hierarchies of convex relaxations over the positive semidefinite cone and the matrix relative entropy cone, and give certified and converging upper and lower bounds on the desired expectation value. In the thermodynamic limit of infinite lattices, this shows that expectation values of local observables can be approximated in finite time, which contrasts with recent undecidability results about properties of infinite quantum lattice systems. In addition, when the Hamiltonian is commuting on a 2-dimensional lattice, we prove fast convergence of the hierarchy at high temperature leading to a runtime guarantee for the algorithm that is polynomial in the desired error.
翻訳日:2023-12-01 15:47:14 公開日:2023-11-30
# エントロピー速度最小化による予測可能強化学習ダイナミクス

Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization ( http://arxiv.org/abs/2311.18703v1 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier Alonso-Mora(参考訳) 強化学習(rl)では、エージェントは予測可能な行動を示すインセンティブを持たず、しばしば(ポリシーエントロピー正規化などを通じて)探索に有利な行動をランダム化する。 人間の視点では、RLエージェントの解釈と予測が難しくなり、安全性の観点からは、正式な検証がさらに難しくなります。 本稿では,予測可能性指標として状態列エントロピー率を用いる予測可能性認識RL (Predictability-Aware RL) と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。 本稿では, 平均報酬目標としてエントロピー率を定式化する方法を示し, そのエントロピー報酬関数は政策依存であるため, PG法を応用可能なアクション依存サロゲートエントロピーを導入する。 平均代理報酬を最小化する決定論的ポリシーの存在を証明し、実際のエントロピー率を最小化するとともに、学習力学モデルが与えられた場合、真のエントロピー率に付随する値関数を近似できることを示す。 最後に、人間-ロボットのユースケースに触発されたrlタスクにおけるアプローチの有効性を実証し、最適に近い報酬を得ながら、より予測可能な振る舞いを持つエージェントを生成する方法を示す。

In Reinforcement Learning (RL), agents have no incentive to exhibit predictable behaviors, and are often pushed (through e.g. policy entropy regularization) to randomize their actions in favor of exploration. From a human perspective, this makes RL agents hard to interpret and predict, and from a safety perspective, even harder to formally verify. We propose a novel method to induce predictable behavior in RL agents, referred to as Predictability-Aware RL (PA-RL), which employs the state sequence entropy rate as a predictability measure. We show how the entropy rate can be formulated as an average reward objective, and since its entropy reward function is policy-dependent, we introduce an action-dependent surrogate entropy enabling the use of PG methods. We prove that deterministic policies minimizing the average surrogate reward exist and also minimize the actual entropy rate, and show how, given a learned dynamical model, we are able to approximate the value function associated to the true entropy rate. Finally, we demonstrate the effectiveness of the approach in RL tasks inspired by human-robot use-cases, and show how it produces agents with more predictable behavior while achieving near-optimal rewards.
翻訳日:2023-12-01 15:46:49 公開日:2023-11-30
# CritiqueLLM:大規模言語モデル生成の効果的かつ説明可能な評価のためのLCM-as-Criticのスケーリング

CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation ( http://arxiv.org/abs/2311.18702v1 )

ライセンス: Link先を確認
Pei Ke, Bosi Wen, Zhuoer Feng, Xiao Liu, Xuanyu Lei, Jiale Cheng, Shengyuan Wang, Aohan Zeng, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang(参考訳) 自然言語処理(nlp)コミュニティは、gpt-4のような大規模言語モデル(llm)を作り始めたため、生成されたテキストの品質を評価するための批判者の役割を担い、そのほとんどは特定のデータセット上の特定のスケールの批判的生成モデルのみを訓練している。 スケーリング特性などのllmに基づく評価モデルの鍵となる要因に関する総合的な調査が欠如しているため、これらのモデルがgpt-4の評価を実際のシナリオで置き換える可能性を秘めている。 本稿では,高品質な参照/参照フリー評価データのための対話型プロンプト手法を含む,critiquellmと呼ばれる新しい批判的生成モデルを提案する。 実験の結果,システムレベルの相関ではGPT-4に匹敵する評価性能が得られ,また8タスク中3タスク中3タスクではGPT-4よりも優れた結果が得られることがわかった。 我々は,生成した批判の質において,モデルが有望なスケーリング特性を示すための詳細な分析を行う。 また,LLMの生成品質を直接改善するために,生成した批評がスケーラブルなフィードバックとして機能できることを実証した。

Since the natural language processing (NLP) community started to make large language models (LLMs), such as GPT-4, act as a critic to evaluate the quality of generated texts, most of them only train a critique generation model of a specific scale on specific datasets. We argue that a comprehensive investigation on the key factor of LLM-based evaluation models, such as scaling properties, is lacking, so that it is still inconclusive whether these models have potential to replace GPT-4's evaluation in practical scenarios. In this paper, we propose a new critique generation model called CritiqueLLM, which includes a dialogue-based prompting method for high-quality referenced / reference-free evaluation data. Experimental results show that our model can achieve comparable evaluation performance to GPT-4 especially in system-level correlations, and even outperform GPT-4 in 3 out of 8 tasks in a challenging reference-free setting. We conduct detailed analysis to show promising scaling properties of our model in the quality of generated critiques. We also demonstrate that our generated critiques can act as scalable feedback to directly improve the generation quality of LLMs.
翻訳日:2023-12-01 15:46:10 公開日:2023-11-30
# seg2reg: 360室レイアウト再構成のための微分可能な2次元セグメンテーションと1次元回帰レンダリング

Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction ( http://arxiv.org/abs/2311.18695v1 )

ライセンス: Link先を確認
Cheng Sun, Wei-En Tai, Yu-Lin Shih, Kuan-Wei Chen, Yong-Jing Syu, Kent Selwyn The, Yu-Chiang Frank Wang, Hwann-Tzong Chen(参考訳) 最先端のシングルビュー360度部屋レイアウト再構築手法は、高レベルな1D (per-column)レグレッションタスクとして問題を定式化する。 一方、従来の低レベル2次元レイアウトセグメンテーションは学習が簡単で、隠蔽領域を表現できるが、ターゲットレイアウトポリゴンの複雑な後処理を必要とし、精度を犠牲にする。 本稿では,seg2regを用いて2次元セグメンテーションマップから1次元レイアウトの深さ回帰を微分可能かつ咬合対応的に表現し,両者の利点を生かした。 具体的には,入力正方形360度画像のフロアプラン密度を推定する。 2次元レイアウト表現を密度場として定式化することで,‘フラット化’ボリュームレンダリングを用いて1次元レイアウト深さ回帰を生成することができる。 さらに,レイアウトの一般化を改善するために,新しい3次元ウォーピング拡張を提案する。 最後に,最近のroom layout reconstructionメソッドをコードベースに再実装し,ベンチマークを行い,強力なベースラインとして機能する最新のバックボーンとトレーニングテクニックを探求した。 我々のモデルは以前の芸術を大きく上回っている。 コードは公開時に利用可能になる。

State-of-the-art single-view 360-degree room layout reconstruction methods formulate the problem as a high-level 1D (per-column) regression task. On the other hand, traditional low-level 2D layout segmentation is simpler to learn and can represent occluded regions, but it requires complex post-processing for the targeting layout polygon and sacrifices accuracy. We present Seg2Reg to render 1D layout depth regression from the 2D segmentation map in a differentiable and occlusion-aware way, marrying the merits of both sides. Specifically, our model predicts floor-plan density for the input equirectangular 360-degree image. Formulating the 2D layout representation as a density field enables us to employ `flattened' volume rendering to form 1D layout depth regression. In addition, we propose a novel 3D warping augmentation on layout to improve generalization. Finally, we re-implement recent room layout reconstruction methods into our codebase for benchmarking and explore modern backbones and training techniques to serve as the strong baseline. Our model significantly outperforms previous arts. The code will be made available upon publication.
翻訳日:2023-12-01 15:45:03 公開日:2023-11-30
# グラフストリームにおける要約と変化検出のバランス

Balancing Summarization and Change Detection in Graph Streams ( http://arxiv.org/abs/2311.18694v1 )

ライセンス: Link先を確認
Shintaro Fukushima and Kenji Yamanishi(参考訳) 本研究では,グラフ要約とグラフ変更検出のバランス問題に対処する。 グラフ要約は、大規模グラフをより小さなスケールに圧縮する。 しかし、疑問は残る: 元のグラフはどれくらい圧縮されるべきなのか? この問題は,サマリグラフのストリームを用いて統計的に有意な変化を検出することを目的とした,グラフ変化検出の観点から解かれる。 圧縮率が極端に高い場合、重要な変更は無視できるが、圧縮率が極端に低い場合は、メモリの増加とともに誤報が増加する可能性がある。 これは、グラフ総和の圧縮率と変更検出の精度との間にトレードオフがあることを意味する。 本稿では,このトレードオフのバランスを保ち,信頼性の高いグラフ要約と変更検出を同時に実現するための新しい定量的手法を提案する。 本稿では,階層的潜在変数モデルの確率的構造をグラフに導入し,最小記述長原理に基づいてパラメータ化された要約グラフを設計する。 次に、サマリーグラフを特定するパラメータを最適化し、変更検出の精度を保証し、タイプiのエラー確率(誤報を発生させる可能性)を所定の信頼レベル未満に抑える。 まず,グラフ要約と変化検出を結合する理論的枠組みを提案する。 そして、その効果を合成および実データに実証的に示す。

This study addresses the issue of balancing graph summarization and graph change detection. Graph summarization compresses large-scale graphs into a smaller scale. However, the question remains: To what extent should the original graph be compressed? This problem is solved from the perspective of graph change detection, aiming to detect statistically significant changes using a stream of summary graphs. If the compression rate is extremely high, important changes can be ignored, whereas if the compression rate is extremely low, false alarms may increase with more memory. This implies that there is a trade-off between compression rate in graph summarization and accuracy in change detection. We propose a novel quantitative methodology to balance this trade-off to simultaneously realize reliable graph summarization and change detection. We introduce a probabilistic structure of hierarchical latent variable model into a graph, thereby designing a parameterized summary graph on the basis of the minimum description length principle. The parameter specifying the summary graph is then optimized so that the accuracy of change detection is guaranteed to suppress Type I error probability (probability of raising false alarms) to be less than a given confidence level. First, we provide a theoretical framework for connecting graph summarization with change detection. Then, we empirically demonstrate its effectiveness on synthetic and real datasets.
翻訳日:2023-12-01 15:44:18 公開日:2023-11-30
# オフポリシー深層強化学習によるコストと制約の取り扱い

Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning ( http://arxiv.org/abs/2311.18684v1 )

ライセンス: Link先を確認
Jared Markowitz, Jesse Silverberg, Gary Collins(参考訳) トレーニングを通してデータを再利用することで、オフポリシーのディープ強化学習アルゴリズムは、オンポリシーアプローチと比較してサンプル効率が向上する。 継続的アクション空間において、オフポリシー学習の最も一般的な方法は、学習された状態アクション(q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。 これらの更新は、しばしば$q$の過大評価と戦うために正規化と組み合わせられる。 安全に目を向けて、我々は「混合サイン」報酬関数、すなわち、独立性(インセンティブ)と負性(コスト)の用語を含む報酬関数を持つ環境において、この戦略を再考する。 この設定は現実世界のアプリケーションでは一般的であり、コストの条件に制約を課すことなく対処することができる。 関数近似とポリシー更新で$Q$を最大化できる用語の組み合わせが,このような環境で問題となるのは,値推定の体系的誤りが競合する用語からの寄与に非対称に影響を及ぼすためである。 その結果、インセンティブとコストのいずれも過度に強調され、学習を厳しく制限する可能性がある。 この問題に対する2つの対策を探る。 まず、事前の作業と一致して、$Q$とポリシーネットワークの定期的なリセットが、価値推定誤差の低減と、この設定での学習の改善に有効であることがわかった。 第2に、ポリシー更新において明示的にq$を最大化しない制約付き学習と制約付き学習の両方に対して、新たなオフ・ポリティカル・アクタ-批判手法を定式化する。 この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットにより拡張された最先端の手法よりも一貫して、著しく優れる。 さらに,提案手法は,一般的な手法と競合し,混合符号の報酬を持たない頻繁な制御問題に対して,より確実に能力を持つエージェントを生成できることを見いだした。

By reusing data throughout training, off-policy deep reinforcement learning algorithms offer improved sample efficiency relative to on-policy approaches. For continuous action spaces, the most popular methods for off-policy learning include policy improvement steps where a learned state-action ($Q$) value function is maximized over selected batches of data. These updates are often paired with regularization to combat associated overestimation of $Q$ values. With an eye toward safety, we revisit this strategy in environments with "mixed-sign" reward functions; that is, with reward functions that include independent positive (incentive) and negative (cost) terms. This setting is common in real-world applications, and may be addressed with or without constraints on the cost terms. We find the combination of function approximation and a term that maximizes $Q$ in the policy update to be problematic in such environments, because systematic errors in value estimation impact the contributions from the competing terms asymmetrically. This results in overemphasis of either incentives or costs and may severely limit learning. We explore two remedies to this issue. First, consistent with prior work, we find that periodic resetting of $Q$ and policy networks can be used to reduce value estimation error and improve learning in this setting. Second, we formulate novel off-policy actor-critic methods for both unconstrained and constrained learning that do not explicitly maximize $Q$ in the policy update. We find that this second approach, when applied to continuous action spaces with mixed-sign rewards, consistently and significantly outperforms state-of-the-art methods augmented by resetting. We further find that our approach produces agents that are both competitive with popular methods overall and more reliably competent on frequently-studied control problems that do not have mixed-sign rewards.
翻訳日:2023-12-01 15:44:02 公開日:2023-11-30
# RaDialog:放射線学レポート作成と会話支援のための大規模視覚言語モデル

RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance ( http://arxiv.org/abs/2311.18681v1 )

ライセンス: Link先を確認
Chantal Pellegrini, Ege \"Ozsoy, Benjamin Busam, Nassir Navab, Matthias Keicher(参考訳) 特定の医療画像に対して臨床的に正しい放射線学レポートを生成し、議論できる会話型AIツールは、放射線学を変革する可能性がある。 このようなヒト・イン・ザ・ループ・ラジオロジー・アシスタントは、共同診断プロセスを容易にし、時間を節約し、レポートの品質を向上させることができる。 この目的に向けて,ラジオロジーレポート生成と対話対話のための大規模視覚言語モデルであるradialogを紹介する。 RaDialogは画像の特徴と構造的病理所見を大きな言語モデル(LLM)と効果的に統合し、パラメータ効率の良い微調整を用いて特定の領域に適応する。 基礎となるLLMの会話能力を維持するために,胸部X線撮影作業のための包括的,半自動ラベル付き,画像基底型インストラクトデータセットを提案する。 このデータセットをトレーニングすることにより,報告生成における最先端の臨床的正確性を実現し,報告の修正や質問への回答といった対話的なタスクにおいて,臨床対話システムへの基礎的な一歩として機能することを示す。 我々のコードはgithubで入手できる。 https://github.com/ChantalMP/RaDialog.com。

Conversational AI tools that can generate and discuss clinically correct radiology reports for a given medical image have the potential to transform radiology. Such a human-in-the-loop radiology assistant could facilitate a collaborative diagnostic process, thus saving time and improving the quality of reports. Towards this goal, we introduce RaDialog, the first thoroughly evaluated and publicly available large vision-language model for radiology report generation and interactive dialog. RaDialog effectively integrates visual image features and structured pathology findings with a large language model (LLM) while simultaneously adapting it to a specialized domain using parameter-efficient fine-tuning. To keep the conversational abilities of the underlying LLM, we propose a comprehensive, semi-automatically labeled, image-grounded instruct dataset for chest X-ray radiology tasks. By training with this dataset, our method achieves state-of-the-art clinical correctness in report generation and shows impressive abilities in interactive tasks such as correcting reports and answering questions, serving as a foundational step toward clinical dialog systems. Our code is available on github: https://github.com/ChantalMP/RaDialog.
翻訳日:2023-12-01 15:43:29 公開日:2023-11-30
# 言語モデルエージェントがwebオートメーションの合成一般化に苦しむ

Language Model Agents Suffer from Compositional Generalization in Web Automation ( http://arxiv.org/abs/2311.18751v1 )

ライセンス: Link先を確認
Hiroki Furuta, Yutaka Matsuo, Aleksandra Faust, Izzeddin Gur(参考訳) 言語モデルエージェント(LMA)は最近、ミューティステップ決定タスクにおける有望なパラダイムとして登場し、人間や他の強化学習エージェントよりも優れています。 約束にもかかわらず、しばしばタスクの組み合わせを伴う実世界のアプリケーションでの彼らのパフォーマンスは、まだ過小評価されている。 本稿では,より現実的な仮定を反映した新しい構成型web自動化タスクであるcompwob -- 50について紹介する。 既存の推進型lmas (gpt-3.5-turboまたはgpt-4) はベースタスクの平均成功率94.0%を達成するが, 構成タスクでは24.9%に低下する。 一方、転送されたlmas(ベースタスクのみに調整)は一般化のギャップが小さく、85.4%から54.8%に低下した。 タスク間のデータ分散のバランスをとることで、MiniWoBで人間レベルのパフォーマンス(95.2%)を超え、CompWoB(61.5%)で最高のゼロショットパフォーマンスを達成するHTML-T5++をトレーニングします。 これらは、構成一般化のための小型の微調整および変換モデルの約束を強調する一方で、それらの性能は、組み合わせ順序を変える異なる命令構成の下でさらに劣化する。 LMAの最近の顕著な成功とは対照的に、我々のベンチマークと詳細な分析は、実世界の展開において、ロバストでタスク構成性に一般化可能なLMAを構築することの必要性を強調している。

Language model agents (LMA) recently emerged as a promising paradigm on muti-step decision making tasks, often outperforming humans and other reinforcement learning agents. Despite the promise, their performance on real-world applications that often involve combinations of tasks is still underexplored. In this work, we introduce a new benchmark, called CompWoB -- 50 new compositional web automation tasks reflecting more realistic assumptions. We show that while existing prompted LMAs (gpt-3.5-turbo or gpt-4) achieve 94.0% average success rate on base tasks, their performance degrades to 24.9% success rate on compositional tasks. On the other hand, transferred LMAs (finetuned only on base tasks) show less generalization gap, dropping from 85.4% to 54.8%. By balancing data distribution across tasks, we train a new model, HTML-T5++, that surpasses human-level performance (95.2%) on MiniWoB, and achieves the best zero-shot performance on CompWoB (61.5%). While these highlight the promise of small-scale finetuned and transferred models for compositional generalization, their performance further degrades under different instruction compositions changing combinational order. In contrast to the recent remarkable success of LMA, our benchmark and detailed analysis emphasize the necessity of building LMAs that are robust and generalizable to task compositionality for real-world deployment.
翻訳日:2023-12-01 15:36:20 公開日:2023-11-30
# Maxwell-Fish-Eyeレンズにおける超高速励起交換

Ultrafast Excitation Exchange in a Maxwell-Fish-Eye Lens ( http://arxiv.org/abs/2311.18750v1 )

ライセンス: Link先を確認
Oliver Diekmann, Dmitry O. Krimer, Stefan Rotter(参考訳) 量子エミッタのキャビティモードへの強い結合は、量子光学の発展において最重要視されている。 近年、電磁共振器の1つ以上のモードへの強い結合も大きな関心を集めている。 我々は,この多モード強結合系がどのようにして量子系をコヒーレントに制御するかを考察する。 具体的には、Maxwell-Fish-Eyeレンズを用いて、2つの離れた量子エミッタ間のパルス励起交換を実装することを実証する。 この周期的交換は単光子パルスによって媒介され、2つの原子アンサンブル間の光子交換に拡張でき、結合強度をまとめて増強することができる。

The strong coupling of quantum emitters to a cavity mode has been of paramount importance in the development of quantum optics. Recently, also the strong coupling to more than a single mode of an electromagnetic resonator has drawn considerable interest. We investigate how this multimode strong coupling regime can be harnessed to coherently control quantum systems. Specifically, we demonstrate that a Maxwell-Fish-Eye lens can be used to implement a pulsed excitation-exchange between two distant quantum emitters. This periodic exchange is mediated by single-photon pulses and can be extended to a photon-exchange between two atomic ensembles, for which the coupling strength is enhanced collectively.
翻訳日:2023-12-01 15:35:54 公開日:2023-11-30
# transcoralnet:サプライチェーン信用評価コールドスタートのための2ストリームトランスフォーマーコーラルネットワーク

TransCORALNet: A Two-Stream Transformer CORAL Networks for Supply Chain Credit Assessment Cold Start ( http://arxiv.org/abs/2311.18749v1 )

ライセンス: Link先を確認
Jie Shi, Arno P. J. M. Siebes, Siamak Mehrkanoon(参考訳) 本稿では,セグメンテーション業界におけるサプライチェーンクレジット評価とコールドスタート問題に対する解釈可能な2ストリームトランスフォーマーCORALネットワークを提案する。 このモデルは、履歴データに制限のある新規サプライチェーン借入者に対して、正確な信用評価予測を提供することを目的としている。 ここでは、相関アライメント(CORAL)損失を伴う2ストリームドメイン適応アーキテクチャをコアモデルとして使用し、学習した特徴についての洞察を提供し、トレーニング中の効率的な並列化を可能にするトランスフォーマーを備える。 提案するモデルのドメイン適応能力により、ソースとターゲットドメイン間のドメインシフトを最小限に抑えることができる。 したがって、このモデルは、ソースとターゲットが同じ分布に従わないような良い一般化を示し、限られた量のターゲットラベル付きインスタンスが存在する。 さらに,LIME(Local Interpretable Model-Agnostic Explanations)を用いて,モデル予測のさらなる洞察を提供し,サプライチェーンの信用評価決定に寄与する重要な特徴を特定する。 提案モデルは,ドメインシフト,コールドスタート,不均衡クラス,解釈可能性の4つの重要なサプライチェーン評価課題に対処する。 実世界のデータセットの実験結果は、精度の観点から、最先端のベースラインよりもTransCORALNetの方が優れていることを示す。 コードはgithub https://github.com/jiejieniu/transcoralnで入手できる。

This paper proposes an interpretable two-stream transformer CORAL networks (TransCORALNet) for supply chain credit assessment under the segment industry and cold start problem. The model aims to provide accurate credit assessment prediction for new supply chain borrowers with limited historical data. Here, the two-stream domain adaptation architecture with correlation alignment (CORAL) loss is used as a core model and is equipped with transformer, which provides insights about the learned features and allow efficient parallelization during training. Thanks to the domain adaptation capability of the proposed model, the domain shift between the source and target domain is minimized. Therefore, the model exhibits good generalization where the source and target do not follow the same distribution, and a limited amount of target labeled instances exist. Furthermore, we employ Local Interpretable Model-agnostic Explanations (LIME) to provide more insight into the model prediction and identify the key features contributing to supply chain credit assessment decisions. The proposed model addresses four significant supply chain credit assessment challenges: domain shift, cold start, imbalanced-class and interpretability. Experimental results on a real-world data set demonstrate the superiority of TransCORALNet over a number of state-of-the-art baselines in terms of accuracy. The code is available on GitHub https://github.com/JieJieNiu/TransCORALN .
翻訳日:2023-12-01 15:35:44 公開日:2023-11-30
# 多目的特徴選択の解釈を可能にするデータサイエンスパイプライン

A data-science pipeline to enable the Interpretability of Many-Objective Feature Selection ( http://arxiv.org/abs/2311.18746v1 )

ライセンス: Link先を確認
Uchechukwu F. Njoku, Alberto Abell\'o, Besim Bilalli, Gianluca Bontempi(参考訳) 多目的特徴選択(mofs)アプローチは、4つ以上の目的を用いて教師付き学習タスクにおける特徴のサブセットの関連性を決定する。 その結果、MOFSは通常、最終的な選択を進めるためにデータ科学者によって評価されなければならない大量の非支配的なソリューションを返します。 予測精度に関係のない基準(例えば公正性)を含むような評価の多変量性を考えると、このステップは単純ではなく、既存のツールの欠如に悩まされることが多い。 例えば、ソリューションセットに関するトレードオフや基準間の関係についてはほとんど情報を提供しない、ソリューションの表形式でのプレゼンテーションを利用するのが一般的である。 本稿では,mofs結果の解釈と比較において,処理後と解集合の可視化を組み合わせることでデータサイエンティストを支援する手法を提案する。 この方法論は、目的、ソリューション、個々の機能という3つの異なるレベルでハイレベルな情報を提供することで、データサイエンティストが最適な機能サブセットを選択することをサポートする。 この手法は,GAベースのMOFSを6つの目的(選択された特徴数,平衡精度,F1スコア,分散インフレーション係数,統計パリティ,等化オッズ)で採用した2つの特徴選択タスクを実験的に評価した。 その結果,機能の最終サブセットの選択において,方法論の付加価値が示された。

Many-Objective Feature Selection (MOFS) approaches use four or more objectives to determine the relevance of a subset of features in a supervised learning task. As a consequence, MOFS typically returns a large set of non-dominated solutions, which have to be assessed by the data scientist in order to proceed with the final choice. Given the multi-variate nature of the assessment, which may include criteria (e.g. fairness) not related to predictive accuracy, this step is often not straightforward and suffers from the lack of existing tools. For instance, it is common to make use of a tabular presentation of the solutions, which provide little information about the trade-offs and the relations between criteria over the set of solutions. This paper proposes an original methodology to support data scientists in the interpretation and comparison of the MOFS outcome by combining post-processing and visualisation of the set of solutions. The methodology supports the data scientist in the selection of an optimal feature subset by providing her with high-level information at three different levels: objectives, solutions, and individual features. The methodology is experimentally assessed on two feature selection tasks adopting a GA-based MOFS with six objectives (number of selected features, balanced accuracy, F1-Score, variance inflation factor, statistical parity, and equalised odds). The results show the added value of the methodology in the selection of the final subset of features.
翻訳日:2023-12-01 15:35:21 公開日:2023-11-30
# $\mathbb{Z}_2\times \mathbb{Z}_2$ Equivariant Quantum Neural Networks: Benchmarking against Classical Neural Networks

$\mathbb{Z}_2\times \mathbb{Z}_2$ Equivariant Quantum Neural Networks: Benchmarking against Classical Neural Networks ( http://arxiv.org/abs/2311.18744v1 )

ライセンス: Link先を確認
Zhongtian Dong, Mar\c{c}al Comajoan Cara, Gopal Ramesh Dahale, Roy T. Forestano, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) 本稿では,EQNN(Equivariant Quantum Neural Networks)とQNN(Quantum Neural Networks)のパフォーマンスの総合的比較分析を行い,その古典的特徴であるENN(Equivariant Neural Networks)とDNN(Deep Neural Networks)とを比較した。 各ネットワークの性能を,二分分類タスクにおける2つのトイ例を用いて評価し,モデルの複雑さ(パラメータ数による測定)とトレーニングデータセットのサイズに着目した。 以上の結果から,$\mathbb{Z}_2\times \mathbb{Z}_2$ EQNNとQNNは,より小さいパラメータセットと控えめなトレーニングデータサンプルに対して優れた性能を示すことがわかった。

This paper presents a comprehensive comparative analysis of the performance of Equivariant Quantum Neural Networks (EQNN) and Quantum Neural Networks (QNN), juxtaposed against their classical counterparts: Equivariant Neural Networks (ENN) and Deep Neural Networks (DNN). We evaluate the performance of each network with two toy examples for a binary classification task, focusing on model complexity (measured by the number of parameters) and the size of the training data set. Our results show that the $\mathbb{Z}_2\times \mathbb{Z}_2$ EQNN and the QNN provide superior performance for smaller parameter sets and modest training data samples.
翻訳日:2023-12-01 15:34:56 公開日:2023-11-30
# alignbench: 大規模言語モデルの中国アライメントのベンチマーク

AlignBench: Benchmarking Chinese Alignment of Large Language Models ( http://arxiv.org/abs/2311.18743v1 )

ライセンス: Link先を確認
Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang(参考訳) アライメントは、命令調整された大規模言語モデル(LLM)がアシスタントになるための重要なステップとなっている。 しかし、中国におけるLLMのアライメントの効果的な評価は依然として著しく欠落しており、アライメントに適した実シナリオ、オープンエンド、挑戦的、自動評価が求められている。 このギャップを埋めるために、中国語でLLMのアライメントを評価するための総合的な多次元ベンチマークであるAlignBenchを紹介する。 提案するベンチマークでは,マルチ次元LCM-as-JudgeとChain-of-Thoughtを併用し,評価として説明と最終評価を生成し,信頼性と解釈性を確保する。 さらに,GPT-4の評価能力の95%を回復し,中国のLCMのアライメント評価のための公開APIを研究者に提供する専用コンパニオン評価器であるCristiqueLLMを開発した。 すべての評価コード、データ、LCM世代は \url{https://github.com/THUDM/AlignBench} で利用可能である。

Alignment has become a critical step for instruction-tuned Large Language Models (LLMs) to become helpful assistants. However, effective evaluation of alignment for emerging Chinese LLMs is still significantly lacking, calling for real-scenario grounded, open-ended, challenging and automatic evaluations tailored for alignment. To fill in this gap, we introduce AlignBench, a comprehensive multi-dimensional benchmark for evaluating LLMs' alignment in Chinese. Equipped with a human-in-the-loop data curation pipeline, our benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge with Chain-of-Thought to generate explanations and final ratings as evaluations, ensuring high reliability and interpretability. Furthermore, we developed a dedicated companion evaluator LLM -- CritiqueLLM, which recovers 95\% of GPT-4's evaluation ability and will be provided via public APIs to researchers for evaluation of alignment in Chinese LLMs. All evaluation codes, data, and LLM generations are available at \url{https://github.com/THUDM/AlignBench}.
翻訳日:2023-12-01 15:34:41 公開日:2023-11-30
# vrem-fl:vehicular federated learningのためのモビリティアウェア計算スケジューリングコデザイン

VREM-FL: Mobility-Aware Computation-Scheduling Co-Design for Vehicular Federated Learning ( http://arxiv.org/abs/2311.18741v1 )

ライセンス: Link先を確認
Luca Ballotta, Nicol\`o Dal Fabbro, Giovanni Perin, Luca Schenato, Michele Rossi and Giuseppe Piro(参考訳) アシストと自律運転は急速に勢いを増し、間もなく現実になる。 人工知能と機械学習が重要な役割を担うことが期待されている。また、スマート車両が搭載センサーから収集する膨大な量のデータのおかげで。 この領域では、フェデレーション学習は、車両におけるデータのプライバシを保持し、通信リソースの使用を最適化しながら、グローバル機械学習モデルをトレーニングするための最も効果的で有望なテクニックの1つである。 本研究では,推定5g無線環境マップと連動して車両の移動性を活用した車両連関学習のための計算スケジューリング共設計であるvrem-flを提案する。 VREM-FLは、サーバで学んだグローバルモデルを、賢明に通信リソースを割り当てながら、共同で最適化する。 これは、無線チャネルマップを利用して、ローカルモデルの更新を適応的で予測的な方法で送信すると共に、車両のローカル計算をオーケストレーションすることで達成される。 提案アルゴリズムは、無線リソース使用のためのトレードモデルトレーニング時間に調整することができる。 実験の結果,無線地図の有効性が示された。 VREM-FLは、線形回帰モデル(学習時間を28%削減)と、セマンティックイメージセグメンテーションタスク(同じ時間ウィンドウ内でモデル更新数を2倍に)のためのディープニューラルネットワークの両方で、文学ベンチマークより優れています。

Assisted and autonomous driving are rapidly gaining momentum, and will soon become a reality. Among their key enablers, artificial intelligence and machine learning are expected to play a prominent role, also thanks to the massive amount of data that smart vehicles will collect from their onboard sensors. In this domain, federated learning is one of the most effective and promising techniques for training global machine learning models, while preserving data privacy at the vehicles and optimizing communications resource usage. In this work, we propose VREM-FL, a computation-scheduling co-design for vehicular federated learning that leverages mobility of vehicles in conjunction with estimated 5G radio environment maps. VREM-FL jointly optimizes the global model learned at the server while wisely allocating communication resources. This is achieved by orchestrating local computations at the vehicles in conjunction with the transmission of their local model updates in an adaptive and predictive fashion, by exploiting radio channel maps. The proposed algorithm can be tuned to trade model training time for radio resource usage. Experimental results demonstrate the efficacy of utilizing radio maps. VREM-FL outperforms literature benchmarks for both a linear regression model (learning time reduced by 28%) and a deep neural network for a semantic image segmentation task (doubling the number of model updates within the same time window).
翻訳日:2023-12-01 15:34:19 公開日:2023-11-30
# NADI 2023共有課題におけるマベリック:トランスフォーマーを用いた方言識別による地域栄養の解明

Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach ( http://arxiv.org/abs/2311.18739v1 )

ライセンス: Link先を確認
Vedant Deshpande, Yash Patwardhan, Kshitij Deshpande, Sudeep Mangalvedhekar and Ravindra Murumkar(参考訳) 本稿では,本研究のアプローチとして,nadi (nuanced arabic dialect identification) shared task 2023を提案する。 我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。 方言認識は、音声認識や翻訳といった下流の様々なnlpタスクのパフォーマンス向上に重要な役割を果たしている。 このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。 アラビア語で事前訓練された多くのトランスフォーマーベースのモデルは、国レベルの方言を特定するために使用される。 提供されるデータセット上で、これらの最先端モデルを微調整します。 センシング法を利用して、システムの性能を向上させる。 テストデータセットでF1スコア76.65 (11位)を達成した。

In this paper, we present our approach for the "Nuanced Arabic Dialect Identification (NADI) Shared Task 2023". We highlight our methodology for subtask 1 which deals with country-level dialect identification. Recognizing dialects plays an instrumental role in enhancing the performance of various downstream NLP tasks such as speech recognition and translation. The task uses the Twitter dataset (TWT-2023) that encompasses 18 dialects for the multi-class classification problem. Numerous transformer-based models, pre-trained on Arabic language, are employed for identifying country-level dialects. We fine-tune these state-of-the-art models on the provided dataset. The ensembling method is leveraged to yield improved performance of the system. We achieved an F1-score of 76.65 (11th rank on the leaderboard) on the test dataset.
翻訳日:2023-12-01 15:33:54 公開日:2023-11-30
# Controlgym:強化学習アルゴリズムのベンチマークのための大規模安全臨界制御環境

Controlgym: Large-Scale Safety-Critical Control Environments for Benchmarking Reinforcement Learning Algorithms ( http://arxiv.org/abs/2311.18736v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Weichao Mao, Saviz Mowlavi, Mouhacine Benosman, Tamer Ba\c{s}ar(参考訳) 安全クリティカルな産業用制御設定のライブラリであるコントロールジャムと,10個の無限次元偏微分方程式(PDE)に基づく制御問題を導入する。 OpenAI Gym/Gymnasium(Gym)フレームワークに統合されたコントロールジャムは、Stable-baselines3のような標準強化学習(RL)アルゴリズムの直接的な適用を可能にする。 我々の制御環境は、現実の制御アプリケーションに動機づけられた、連続的かつ非有界な行動と観測空間を補完する。 さらに、PDE制御環境は、ユーザが本質的なダイナミクスを保ちながらシステムの状態次元を無限大に拡張することを可能にする。 この機能は制御のためのRLアルゴリズムのスケーラビリティを評価するために重要である。 このプロジェクトは、学習制御ポリシにおけるRLアルゴリズムの収束、学習ベースのコントローラの安定性と堅牢性の問題、高次元および潜在的無限次元システムへのRLアルゴリズムのスケーラビリティなど、重要な課題を探求することを目的とした、力学と制御(L4DC)コミュニティの学習を支援する。 controlgymプロジェクトをhttps://github.com/xiangyuan-zhang/controlgymでオープンソースにしました。

We introduce controlgym, a library of thirty-six safety-critical industrial control settings, and ten infinite-dimensional partial differential equation (PDE)-based control problems. Integrated within the OpenAI Gym/Gymnasium (Gym) framework, controlgym allows direct applications of standard reinforcement learning (RL) algorithms like stable-baselines3. Our control environments complement those in Gym with continuous, unbounded action and observation spaces, motivated by real-world control applications. Moreover, the PDE control environments uniquely allow the users to extend the state dimensionality of the system to infinity while preserving the intrinsic dynamics. This feature is crucial for evaluating the scalability of RL algorithms for control. This project serves the learning for dynamics & control (L4DC) community, aiming to explore key questions: the convergence of RL algorithms in learning control policies; the stability and robustness issues of learning-based controllers; and the scalability of RL algorithms to high- and potentially infinite-dimensional systems. We open-source the controlgym project at https://github.com/xiangyuan-zhang/controlgym.
翻訳日:2023-12-01 15:33:42 公開日:2023-11-30
# 次元混合器:ディープニューラルネットワークにおける構造空間の一般化手法

Dimension Mixer: A Generalized Method for Structured Sparsity in Deep Neural Networks ( http://arxiv.org/abs/2311.18735v1 )

ライセンス: Link先を確認
Suman Sapkota, Binod Bhattarai(参考訳) 最近のCNN、Transformer、MLP-Mixersといった複数のニューラルネットワークの成功は、それらの類似点と相違点を探す動機となった。 これらのアーキテクチャは、次元混合の一般的な概念のレンズを通して解釈できることがわかった。 結合流れとバタフライ変換の研究により、部分的および階層的信号混合スキームは効率的かつ表現的関数近似に十分であることが示されている。 本研究では,グループワイズ,非線形,多層,学習可能な入力混合方式について検討し,それらが多くの標準的なニューラルネットワークアーキテクチャに相補的であることを示す。 我々は,Fast Fourier Transform からインスピレーションを得た後,Butterfly Structure を一般化し,Butterfly MLP と呼ばれる混合関数として MLP を可能にする非線形ミキサー関数を用いた。 また、TransformerベースのアーキテクチャであるButterfly Attentionのシーケンスディメンションと組み合わせることができました。 CIFARとLRAデータセットの実験により、ホストアーキテクチャを混合関数として使用する場合、提案したNon-Linear Butterfly Mixerは効率的でスケール可能であることが示された。 さらに,異なる次元混合戦略を示す空間2次元信号を処理するパッチのみのmlpミキサを提案する。

The recent success of multiple neural architectures like CNNs, Transformers, and MLP-Mixers motivated us to look for similarities and differences between them. We found that these architectures can be interpreted through the lens of a general concept of dimension mixing. Research on coupling flows and the butterfly transform shows that partial and hierarchical signal mixing schemes are sufficient for efficient and expressive function approximation. In this work, we study group-wise sparse, non-linear, multi-layered and learnable mixing schemes of inputs and find that they are complementary to many standard neural architectures. Following our observations and drawing inspiration from the Fast Fourier Transform, we generalize Butterfly Structure to use non-linear mixer function allowing for MLP as mixing function called Butterfly MLP. We were also able to mix along sequence dimension for Transformer-based architectures called Butterfly Attention. Experiments on CIFAR and LRA datasets demonstrate that the proposed Non-Linear Butterfly Mixers are efficient and scale well when the host architectures are used as mixing function. Additionally, we propose Patch-Only MLP-Mixer for processing spatial 2D signals demonstrating a different dimension mixing strategy.
翻訳日:2023-12-01 15:33:20 公開日:2023-11-30
# 非エルミタン転移行列の行列積状態固定点

Matrix Product State Fixed Points of Non-Hermitian Transfer Matrices ( http://arxiv.org/abs/2311.18733v1 )

ライセンス: Link先を確認
Wei Tang, Frank Verstraete, Jutho Haegeman(参考訳) テンソルネットワークの収縮は、量子および古典的な多くの身体系の研究にテンソルネットワーク法を適用する際の中心的な課題である。 本稿では,テンソルネットワークの仮想指標におけるゲージ自由度が収縮過程に与える影響について検討し,特に二次元テンソルネットワークを縮約するための境界行列積状態法に着目した。 ゲージ変換は移動行列の固有状態の絡み合い構造に影響を与え、固有状態における物理情報がどのようにエンコードされるかを変化させることができ、数値シミュレーションの精度に影響を及ぼす。 2つの異なる例を見て、この効果を実証する。 まず,局所ゲージ変換に着目し,その効果を対角形ハミルトニアンによって支配される虚時発展として捉えて解析する。 具体的な例として、正方格子上の古典イジングモデルにおける数値解析を行う。 第二に、局所ゲージ変換の範囲を超えて、三角格子上の反強磁性イジングモデルを研究する。 このモデルの分割関数は、非局所ゲージ変換によって接続された2つのテンソルネットワーク表現を持ち、境界MPS計算において異なる数値的性能をもたらす。

The contraction of tensor networks is a central task in the application of tensor network methods to the study of quantum and classical many body systems. In this paper, we investigate the impact of gauge degrees of freedom in the virtual indices of the tensor network on the contraction process, specifically focusing on boundary matrix product state methods for contracting two-dimensional tensor networks. We show that the gauge transformation can affect the entanglement structures of the eigenstates of the transfer matrix and change how the physical information is encoded in the eigenstates, which can influence the accuracy of the numerical simulation. We demonstrate this effect by looking at two different examples. First, we focus on the local gauge transformation, and analyze its effect by viewing it as an imaginary-time evolution governed by a diagonal Hamiltonian. As a specific example, we perform a numerical analysis in the classical Ising model on the square lattice. Second, we go beyond the scope of local gauge transformations and study the antiferromagnetic Ising model on the triangular lattice. The partition function of this model has two tensor network representations connected by a non-local gauge transformation, resulting in distinct numerical performances in the boundary MPS calculation.
翻訳日:2023-12-01 15:32:58 公開日:2023-11-30
# 複数の自己教師付き微小ニューラルネットワークを用いた屋内ミリ波定位

Indoor Millimeter Wave Localization using Multiple Self-Supervised Tiny Neural Networks ( http://arxiv.org/abs/2311.18732v1 )

ライセンス: Link先を確認
Anish Shastri, Andres Garcia-Saavedra, Paolo Casari(参考訳) マルチ層パーセプトロンニューラルネットワーク(NN)を用いた大規模屋内環境における移動ミリ波クライアントの局所化を検討した。 単一のディープモデルをトレーニングしてデプロイする代わりに、自己管理的な方法でトレーニングされた複数の小さなNNを選択します。 不正なNNがクライアントのローカライズに失敗するため、主要な課題は、利用可能なNNの中で最高のNNを決定して切り替えることである。 ローカライズ精度を向上させるために,カルマンフィルタに基づくものと,トレーニングデータの統計分布に基づくものという2つのスイッチング方式を提案する。 提案手法をシミュレーションにより解析し,幾何学的局所化スキームと1つのNNの使用の両方に優れることを示す。

We consider the localization of a mobile millimeter-wave client in a large indoor environment using multilayer perceptron neural networks (NNs). Instead of training and deploying a single deep model, we proceed by choosing among multiple tiny NNs trained in a self-supervised manner. The main challenge then becomes to determine and switch to the best NN among the available ones, as an incorrect NN will fail to localize the client. In order to upkeep the localization accuracy, we propose two switching schemes: one based on a Kalman filter, and one based on the statistical distribution of the training data. We analyze the proposed schemes via simulations, showing that our approach outperforms both geometric localization schemes and the use of a single NN.
翻訳日:2023-12-01 15:32:39 公開日:2023-11-30
# MAvericks at ArAIEval Shared Task: Towards a Safer Digital Space - Transformer Ensemble Models Tackling Deception and Persuasion

Mavericks at ArAIEval Shared Task: Towards a Safer Digital Space -- Transformer Ensemble Models Tackling Deception and Persuasion ( http://arxiv.org/abs/2311.18730v1 )

ライセンス: Link先を確認
Sudeep Mangalvedhekar, Kshitij Deshpande, Yash Patwardhan, Vedant Deshpande and Ravindra Murumkar(参考訳) 本稿では,「アラビアAIタスク評価(ArAiEval)共有タスク2023」に対する我々のアプローチを強調する。 本稿では,各課題のタスク1-Aとタスク2-Aのアプローチについて述べる。 真の情報の歪みを避けるために説得技術や偽情報の検出が不可欠になっている。 タスクは、与えられたバイナリ分類問題に対して、ツイートとニュース記事のマルチジャンルスニペットを使用する。 アラビア語で事前学習したトランスフォーマーモデルをいくつか実験した。 提供されるデータセット上で、これらの最先端モデルを微調整します。 組み立てはシステムの性能を高めるために使われる。 タスク1-A(8位)では0.742、タスク2-A(7位)では0.901のマイクロF1スコアを達成した。

In this paper, we highlight our approach for the "Arabic AI Tasks Evaluation (ArAiEval) Shared Task 2023". We present our approaches for task 1-A and task 2-A of the shared task which focus on persuasion technique detection and disinformation detection respectively. Detection of persuasion techniques and disinformation has become imperative to avoid distortion of authentic information. The tasks use multigenre snippets of tweets and news articles for the given binary classification problem. We experiment with several transformer-based models that were pre-trained on the Arabic language. We fine-tune these state-of-the-art models on the provided dataset. Ensembling is employed to enhance the performance of the systems. We achieved a micro F1-score of 0.742 on task 1-A (8th rank on the leaderboard) and 0.901 on task 2-A (7th rank on the leaderboard) respectively.
翻訳日:2023-12-01 15:32:27 公開日:2023-11-30
# 合成データを用いたワンショット4次元アバター合成の学習

Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data ( http://arxiv.org/abs/2311.18729v1 )

ライセンス: Link先を確認
Yu Deng, Duomin Wang, Xiaohang Ren, Xingyu Chen, Baoyuan Wang(参考訳) 既存のワンショット4Dヘッド合成法は通常、3DMM再構成の助けを借りて単眼ビデオから学習するが、後者は理にかなった4Dヘッド合成を制限している。 大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。 鍵となるのは,まず,単眼画像から相反学習を通じて部分的4次元生成モデルを学び,多彩なアイデンティティとフルモーションの多視点画像を訓練データとして合成し,トランスフォーマブルな3次元平面再構成器を用いて合成データを用いて4次元頭部再構成を学ぶことである。 3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。 実験は我々の先行技術に対する優越性を実証する。

Existing one-shot 4D head synthesis methods usually learn from monocular videos with the aid of 3DMM reconstruction, yet the latter is evenly challenging which restricts them from reasonable 4D head synthesis. We present a method to learn one-shot 4D head synthesis via large-scale synthetic data. The key is to first learn a part-wise 4D generative model from monocular images via adversarial learning, to synthesize multi-view images of diverse identities and full motions as training data; then leverage a transformer-based animatable triplane reconstructor to learn 4D head reconstruction using the synthetic data. A novel learning strategy is enforced to enhance the generalizability to real images by disentangling the learning process of 3D reconstruction and reenactment. Experiments demonstrate our superiority over the prior art.
翻訳日:2023-12-01 15:32:13 公開日:2023-11-30
# 開放系の量子シミュレーション:散逸1+1次元イジングモデル

Quantum Simulation of an Open System: A Dissipative 1+1D Ising Model ( http://arxiv.org/abs/2311.18728v1 )

ライセンス: Link先を確認
Erik Gustafson, Michael Hite, Jay Hubisz, Bharath Sambasivam, Judah Unmuth-Yockey(参考訳) 1+1Dイジングモデルは理論的に非常によく理解されているため、量子アルゴリズムの理想的なベンチマークである。 これは、複雑な結合定数を含むようにモデルを拡張しても当てはまる。 本研究は、リー・ヤンエッジ特異点の測定に焦点をあて、IBMデバイス上でのオープンまたは複雑なカップリング量子場理論のシミュレーションのために設計された量子アルゴリズムを実装する。 この特徴は(大容量で)相転移に対応し、転移の再現に成功したことは、現在のハードウェアと量子場理論における興味のある特徴を区別する能力に対する非自明なテストである。

The 1+1D Ising model is an ideal benchmark for quantum algorithms, as it is very well understood theoretically. This is true even when expanding the model to include complex coupling constants. In this work, we implement quantum algorithms designed for the simulation of open or complex coupling quantum field theories on IBM devices with a focus on the measurement of the Lee-Yang edge singularity. This feature corresponds (at large volumes) to a phase transition, and our successful reproduction of the transition represents a non-trivial test for current hardware and its ability to distinguish features of interest in quantum field theories.
翻訳日:2023-12-01 15:31:57 公開日:2023-11-30
# ニューラルダーウィン主義とホップフィールドネットワークに基づく教師なし学習アーキテクチャは高精度にシンボルを認識する

Unsupervised learning architecture based on neural Darwinism and Hopfield networks recognizes symbols with high accuracy ( http://arxiv.org/abs/2311.18789v1 )

ライセンス: Link先を確認
Mario Stepanik(参考訳) 本稿では,gerald edelmanの神経群選択理論(neural darwinism)に触発された新しい教師なし学習パラダイムを提案する。 提示されたオートマトンは、任意の記号(例えばアルファベットの文字)を、子供が読むことを学ぶときのように繰り返し表示されるときに認識することを学ぶ。 第2の階層レベルでは、モデルは学習記号を表す抽象カテゴリを作成する。 基本的な計算単位は、完全な連結群(ランダムに初期化された重みを持つホップフィールドネットワーク)に配列された単純なマカロック・ピットニューロンであり、シンボル提示を通じて進化的な意味で「選択」される。 学習プロセスは完全に扱いやすく、ほとんどのニューラルネットワークアーキテクチャとは対照的に、人間にとって容易に解釈できる。 パターン認識が可能なホップフィールドネットワークの計算特性について論じる。 シミュレーションでは、モデルは格子上のバイナリパターンとして提示されるラテンアルファベットの文字を学習することで高い精度を達成する。 この論文は、文字認識における最先端のパフォーマンスを主張できない概念実証であるが、願わくばバイオインスパイアされた機械学習の新しい思考を刺激するものである。

This paper introduces a novel unsupervised learning paradigm inspired by Gerald Edelman's theory of neuronal group selection ("Neural Darwinism"). The presented automaton learns to recognize arbitrary symbols (e.g., letters of an alphabet) when they are presented repeatedly, as they are when children learn to read. On a second hierarchical level, the model creates abstract categories representing the learnt symbols. The fundamental computational unit are simple McCulloch-Pitts neurons arranged into fully-connected groups (Hopfield networks with randomly initialized weights), which are "selected", in an evolutionary sense, through symbol presentation. The learning process is fully tractable and easily interpretable for humans, in contrast to most neural network architectures. Computational properties of Hopfield networks enabling pattern recognition are discussed. In simulations, the model achieves high accuracy in learning the letters of the Latin alphabet, presented as binary patterns on a grid. This paper is a proof of concept with no claims to state-of-the-art performance in letter recognition, but hopefully inspires new thinking in bio-inspired machine learning.
翻訳日:2023-12-01 15:26:09 公開日:2023-11-30
# 多視点心エコー図による先天性心疾患の自動解釈

Automated interpretation of congenital heart disease from multi-view echocardiograms ( http://arxiv.org/abs/2311.18788v1 )

ライセンス: Link先を確認
Jing Wang, Xiaofeng Liu, Fangyun Wang, Lin Zheng, Fengqiao Gao, Hanwen Zhang, Xin Zhang, Wanqing Xie, Binbin Wang(参考訳) 先天性心疾患(CHD)は、中国で最も多い出生障害であり、新生児死亡の原因となっている。 臨床診断は5つの視点から選択した2dキーフレームに基づいて行うことができる。 マルチビューデータの可用性によって制限されたほとんどの手法は、不十分な単一ビュー分析に依存する必要がある。 本研究では,多視点心エコー図を実用的エンドツーエンドのフレームワークで自動解析することを提案する。 心室中隔欠損症(VSD)患者と心房中隔欠損症(ASD)患者を含む1308例の心エコー画像記録を,病名ラベルと標準キーフレームラベルの両方を用いて収集した。 ネットワークパラメータを大幅に削減するために、奥行き分離可能な畳み込み型マルチチャネルネットワークを採用する。 また, 正のトレーニングサンプルを増加させることで, 不均衡なクラス問題にアプローチする。 我々の2Dキーフレームモデルは95.4\%の精度でCHDまたは負のサンプルを診断でき、負のVSDまたはASD分類では92.3\%の精度で診断できる。 実世界実装におけるキーフレーム選択の作業をさらに緩和するため,映像データを直接探索するための適応型ソフトアテンションスキームを提案する。 4種類のニューラルアグリゲーション法を体系的に検討し、ビデオ中の任意の数のフレームの情報を融合させる。 さらに、ビュー検出モジュールにより、システムはビューレコードなしで動作することができる。 ビデオベースモデルでは, キーフレーム選択やビューアノテーションを必要としない2次元ビデオテストセットにおいて, 93.9\%(バイナリ分類), 92.1\%(3クラス分類)の精度で診断できる。 詳細なアブレーション研究と解釈可能性解析を提供する。

Congenital heart disease (CHD) is the most common birth defect and the leading cause of neonate death in China. Clinical diagnosis can be based on the selected 2D key-frames from five views. Limited by the availability of multi-view data, most methods have to rely on the insufficient single view analysis. This study proposes to automatically analyze the multi-view echocardiograms with a practical end-to-end framework. We collect the five-view echocardiograms video records of 1308 subjects (including normal controls, ventricular septal defect (VSD) patients and atrial septal defect (ASD) patients) with both disease labels and standard-view key-frame labels. Depthwise separable convolution-based multi-channel networks are adopted to largely reduce the network parameters. We also approach the imbalanced class problem by augmenting the positive training samples. Our 2D key-frame model can diagnose CHD or negative samples with an accuracy of 95.4\%, and in negative, VSD or ASD classification with an accuracy of 92.3\%. To further alleviate the work of key-frame selection in real-world implementation, we propose an adaptive soft attention scheme to directly explore the raw video data. Four kinds of neural aggregation methods are systematically investigated to fuse the information of an arbitrary number of frames in a video. Moreover, with a view detection module, the system can work without the view records. Our video-based model can diagnose with an accuracy of 93.9\% (binary classification), and 92.1\% (3-class classification) in a collected 2D video testing set, which does not need key-frame selection and view annotation in testing. The detailed ablation study and the interpretability analysis are provided.
翻訳日:2023-12-01 15:25:48 公開日:2023-11-30
# 半分散ネットワーク上での通信効率のよい連合最適化

Communication-Efficient Federated Optimization over Semi-Decentralized Networks ( http://arxiv.org/abs/2311.18787v1 )

ライセンス: Link先を確認
He Wang, Yuejie Chi(参考訳) 大規模なフェデレーションと分散学習では、コミュニケーション効率は最も困難なボトルネックの1つです。 エージェントが隣人と情報を交換できるゴシップ通信は、リモートサーバとの通信よりもコスト効率が高いが、特に大規模で疎結合なネットワークでは、より多くの通信ラウンドが必要になることが多い。 このトレードオフに対処するため,エージェント間通信とエージェント間通信の両方を確率的に行う半分散通信プロトコルを用いて通信効率を検証した。 piscoと呼ばれる半分散ネットワーク上の通信効率を最適化したアルゴリズムを設計し、勾配追跡によってデータの不均一性にロバスト性を継承し、複数のローカル更新を可能とし、通信を節約する。 非凸問題に対するPISCOの収束速度を確立し、PISCOがエージェント数と局所更新数で線形スピードアップを楽しむことを示す。 数値計算の結果,PISCOの通信効率が向上し,データの均一性やネットワークトポロジに対するレジリエンスが向上した。

In large-scale federated and decentralized learning, communication efficiency is one of the most challenging bottlenecks. While gossip communication -- where agents can exchange information with their connected neighbors -- is more cost-effective than communicating with the remote server, it often requires a greater number of communication rounds, especially for large and sparse networks. To tackle the trade-off, we examine the communication efficiency under a semi-decentralized communication protocol, in which agents can perform both agent-to-agent and agent-to-server communication in a probabilistic manner. We design a tailored communication-efficient algorithm over semi-decentralized networks, referred to as PISCO, which inherits the robustness to data heterogeneity thanks to gradient tracking and allows multiple local updates for saving communication. We establish the convergence rate of PISCO for nonconvex problems and show that PISCO enjoys a linear speedup in terms of the number of agents and local updates. Our numerical results highlight the superior communication efficiency of PISCO and its resilience to data heterogeneity and various network topologies.
翻訳日:2023-12-01 15:25:20 公開日:2023-11-30
# テンソルネットワーク再正規化:動的相関関数と非エルミート系への応用

Tensor network renormalization: application to dynamic correlation functions and non-hermitian systems ( http://arxiv.org/abs/2311.18785v1 )

ライセンス: Link先を確認
Ying-Jie Wei and Zheng-Cheng Gu(参考訳) 近年、(1+1)D量子系や2D古典系を実空間再正規化群(RG)技術を用いて研究するための効率的かつ正確な方法としてテンソルネットワーク再正規化(TNR)が出現している。 TNRの注目すべき応用の1つは、臨界系に対する中心電荷と共形スケーリング次元を抽出する能力である。 本稿では,動的相関関数の計算を可能にするLoop-TNRアルゴリズムの実装について述べる。 このアルゴリズムは、分離が整数である空間方向の相関を計算するだけでなく、時間差が十進値を含む時間方向の相関を計算することによって、従来のアプローチを超越している。 本アルゴリズムは,経路積分形式から構築したテンソルネットワーク表現を用いて,虚時相関と実時間相関の両方を扱うように設計されている。 さらに,密度行列再正規化群 (dmrg) と行列積状態 (mps) に基づくアルゴリズムでは従来アクセスできなかった非エルミート系の臨界特性を調べるためにループtnrアルゴリズムが適用可能であることを強調する。

In recent years, tensor network renormalization (TNR) has emerged as an efficient and accurate method for studying (1+1)D quantum systems or 2D classical systems using real-space renormalization group (RG) techniques. One notable application of TNR is its ability to extract central charge and conformal scaling dimensions for critical systems. In this paper, we present the implementation of the Loop-TNR algorithm, which allows for the computation of dynamical correlation functions. Our algorithm goes beyond traditional approaches by not only calculating correlations in the spatial direction, where the separation is an integer, but also in the temporal direction, where the time difference can contain decimal values. Our algorithm is designed to handle both imaginary-time and real-time correlations, utilizing a tensor network representation constructed from a path-integral formalism. Additionally, we highlight that the Loop-TNR algorithm can also be applied to investigate critical properties of non-Hermitian systems, an area that was previously inaccessible using density matrix renormalization group(DMRG) and matrix product state(MPS) based algorithms.
翻訳日:2023-12-01 15:25:02 公開日:2023-11-30
# MultiResFormer: 汎用時系列予測のための適応型マルチリゾリューションモデリング付きトランス

MultiResFormer: Transformer with Adaptive Multi-Resolution Modeling for General Time Series Forecasting ( http://arxiv.org/abs/2311.18780v1 )

ライセンス: Link先を確認
Linfeng Du, Ji Xin, Alex Labach, Saba Zuberi, Maksims Volkovs, Rahul G. Krishnan(参考訳) トランスフォーマーベースのモデルは、最近時系列予測の境界を大きく押し上げている。 既存のメソッドは通常、パッチの長さの固定セットを使用して、時系列データを$\textit{patches}$にエンコードする。 しかし、これは現実の多周期時系列に存在する複雑な時間的依存関係を捉える能力の欠如をもたらす可能性がある。 本稿では,最適パッチ長を適応的に選択することで時間変動を動的にモデル化するMultiResFormerを提案する。 具体的には、各層の初期において、時系列データを複数の並列分岐に符号化し、それぞれ検出された周期性を使用して、トランスエンコーダブロックを通過する。 我々は,MultiResFormerと最先端のベースラインを比較し,長期・短期の予測データセットについて広範な評価を行う。 MultiResFormerは、パッチベースのTransformerベースラインを長期予測タスクで上回り、CNNベースラインをはるかに上回り、これらのベースラインよりもはるかに少ないパラメータを使用する。

Transformer-based models have greatly pushed the boundaries of time series forecasting recently. Existing methods typically encode time series data into $\textit{patches}$ using one or a fixed set of patch lengths. This, however, could result in a lack of ability to capture the variety of intricate temporal dependencies present in real-world multi-periodic time series. In this paper, we propose MultiResFormer, which dynamically models temporal variations by adaptively choosing optimal patch lengths. Concretely, at the beginning of each layer, time series data is encoded into several parallel branches, each using a detected periodicity, before going through the transformer encoder block. We conduct extensive evaluations on long- and short-term forecasting datasets comparing MultiResFormer with state-of-the-art baselines. MultiResFormer outperforms patch-based Transformer baselines on long-term forecasting tasks and also consistently outperforms CNN baselines by a large margin, while using much fewer parameters than these baselines.
翻訳日:2023-12-01 15:24:40 公開日:2023-11-30
# mavericks at blp-2023 task 1: angent-based approach using language models for violence inciting text detection

Mavericks at BLP-2023 Task 1: Ensemble-based Approach Using Language Models for Violence Inciting Text Detection ( http://arxiv.org/abs/2311.18778v1 )

ライセンス: Link先を確認
Saurabh Page, Sudeep Mangalvedhekar, Kshitij Deshpande, Tanmay Chavan and Sheetal Sonawane(参考訳) 本稿では,バングラ語処理に関する第1回ワークショップにおいて,Volence Inciting Text Detection共有タスクについて述べる。 ソーシャルメディアは、社会における憎しみと暴力を誘発する言論の伝播を加速させた。 このようなテキストの伝播を検出・抑制する効率的なメカニズムを開発することが不可欠である。 少ない研究と少ないデータにより、低リソース環境では、暴力を誘発するテキストを検出する問題がさらに悪化する。 共有タスクで提供されるデータはバングラ語のテキストからなり、それぞれの例は暴力を誘発するテキストの種類に基づいて定義された3つのカテゴリの1つに分類される。 いくつかのBERTモデルを評価し、最終的な提案としてモデルのアンサンブルを使用します。 我々の応募は、マクロF1スコア0.737の共有タスクの最終リーダーボードで10位にランクされている。

This paper presents our work for the Violence Inciting Text Detection shared task in the First Workshop on Bangla Language Processing. Social media has accelerated the propagation of hate and violence-inciting speech in society. It is essential to develop efficient mechanisms to detect and curb the propagation of such texts. The problem of detecting violence-inciting texts is further exacerbated in low-resource settings due to sparse research and less data. The data provided in the shared task consists of texts in the Bangla language, where each example is classified into one of the three categories defined based on the types of violence-inciting texts. We try and evaluate several BERT-based models, and then use an ensemble of the models as our final submission. Our submission is ranked 10th in the final leaderboard of the shared task with a macro F1 score of 0.737.
翻訳日:2023-12-01 15:24:23 公開日:2023-11-30
# codi-2: インコンテキスト、インターリーブ、対話型any-to-anyジェネレーション

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation ( http://arxiv.org/abs/2311.18775v1 )

ライセンス: Link先を確認
Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal(参考訳) 複雑なマルチモーダルインターリーブ命令を追従し、文脈内学習(icl)、理性、チャット、編集などを行う、汎用的でインタラクティブなマルチモーダル大言語モデル(mllm)であるcodi-2を、あらゆる入出力モダリティパラダイムで紹介する。 CoDi-2は、モダリティを符号化と生成の両方のための言語と整合させることで、複雑なモダリティをインターリーブした命令やインコンテキストの例だけでなく、連続的な特徴空間における基底およびコヒーレントなマルチモーダル出力を自動回帰的に生成する。 CoDi-2をトレーニングするために,テキスト,視覚,音声のマルチモーダル命令を含む大規模生成データセットを構築した。 CoDi-2は、マルチラウンド対話による任意のモダリティ生成のコンテキスト内学習、推論、構成性など、マルチモーダル生成のための幅広いゼロショット機能を示す。 CoDi-2は、被写体駆動画像生成、視覚変換、オーディオ編集といったタスクにおける従来のドメイン固有モデルを上回る。 CoDi-2は、コンテキスト内言語-vis-audioインターリーブド命令を解釈し、マルチモーダル出力を生成するのに有効な包括的マルチモーダル基盤モデルの開発において、大きなブレークスルーを示す。

We present CoDi-2, a versatile and interactive Multimodal Large Language Model (MLLM) that can follow complex multimodal interleaved instructions, conduct in-context learning (ICL), reason, chat, edit, etc., in an any-to-any input-output modality paradigm. By aligning modalities with language for both encoding and generation, CoDi-2 empowers Large Language Models (LLMs) to not only understand complex modality-interleaved instructions and in-context examples, but also autoregressively generate grounded and coherent multimodal outputs in the continuous feature space. To train CoDi-2, we build a large-scale generation dataset encompassing in-context multimodal instructions across text, vision, and audio. CoDi-2 demonstrates a wide range of zero-shot capabilities for multimodal generation, such as in-context learning, reasoning, and compositionality of any-to-any modality generation through multi-round interactive conversation. CoDi-2 surpasses previous domain-specific models on tasks such as subject-driven image generation, vision transformation, and audio editing. CoDi-2 signifies a substantial breakthrough in developing a comprehensive multimodal foundation model adept at interpreting in-context language-vision-audio interleaved instructions and producing multimodal outputs.
翻訳日:2023-12-01 15:24:11 公開日:2023-11-30
# spacewalk-18: 新たな領域におけるマルチモーダルおよびロングフォームプロシーデュラルビデオ理解のためのベンチマーク

Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains ( http://arxiv.org/abs/2311.18773v1 )

ライセンス: Link先を確認
Rohan Myer Krishnan, Zitian Tang, Zhiqiu Yu and Chen Sun(参考訳) ビデオから学ぶことは、ロボットがプロシージャビデオのような人間のデモからスキルを得ることを可能にする、新たな研究分野である。 これを実現するために、ビデオ言語モデルは、デモの時間的セグメンテーションをアクションやスキルのシーケンスに分割し、新しいドメインへの理解を一般化するといった構造化された理解を得る必要がある。 この目的を追求するために,(1)ステップ認識と(2)国際宇宙ステーションの宇宙遊泳記録における時間分割およびラベル付きタスクのデータセット上のビデオ内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。 タンデムにおいて、2つのタスクは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(テキスト+ビデオ)ドメインを使用するモデルの能力を定量化する。 これは、通常、短いコンテキストの長さを扱い、単一のモダリティで解決できる手続き的ビデオ理解のための既存のベンチマークから外れている。 Spacewalk-18は本質的にマルチモーダルで長期の複雑さを持つため、タスク認識とセグメンテーションの難易度が高い。 現状の手法は我々のベンチマークでは不十分であり、一般化可能な手続き型ビデオ理解モデルの目標が遠く離れており、これらの課題に対する新たなアプローチの必要性が強調されている。 データ、モデル、コードは公開される予定だ。

Learning from videos is an emerging research area that enables robots to acquire skills from human demonstrations, such as procedural videos. To do this, video-language models must be able to obtain structured understandings, such as the temporal segmentation of a demonstration into sequences of actions and skills, and to generalize the understandings to novel domains. In pursuit of this goal, we introduce Spacewalk-18, a benchmark containing two tasks: (1) step recognition and (2) intra-video retrieval over a dataset of temporally segmented and labeled tasks in International Space Station spacewalk recordings. In tandem, the two tasks quantify a model's ability to make use of: (1) out-of-domain visual information; (2) a high temporal context window; and (3) multimodal (text + video) domains. This departs from existing benchmarks for procedural video understanding, which typically deal with short context lengths and can be solved with a single modality. Spacewalk-18, with its inherent multimodal and long-form complexity, exposes the high difficulty of task recognition and segmentation. We find that state-of-the-art methods perform poorly on our benchmark, demonstrating that the goal of generalizable procedural video understanding models is far out and underscoring the need to develop new approaches to these tasks. Data, model, and code will be publicly released.
翻訳日:2023-12-01 15:23:43 公開日:2023-11-30
# 有限サンプル保証による線形力学系のオンライン変化点検出

Online Change Points Detection for Linear Dynamical Systems with Finite Sample Guarantees ( http://arxiv.org/abs/2311.18769v1 )

ライセンス: Link先を確認
Lei Xin, George Chiu, Shreyas Sundaram(参考訳) オンライン変更点検出の問題は、時系列の特性の急激な変化を検出することである。 オンライン変化点検出に関する既存の研究は、i.dデータを仮定し、漸近解析に焦点を当て、検出精度と検出遅延の間のトレードオフに関する理論的保証を提示しないか、単一変化点検出にのみ適している。 本研究では,時間的相関を示す線形力学系のオンライン変化点検出問題について検討し,複数の変化点を持つことができることを示す。 我々は,このテストで使用できるデータ依存しきい値を開発し,誤ったアラームを発生させる確率を事前に指定した上限値にすることができる。 さらに,変化点を検出する確率に対する有限サンプルベース境界も提供する。 提案手法は,検出確率と遅延にパラメータがどう影響するかを示し,検出の保証に必要な最小時間に関するガイダンスを提供する。

The problem of online change point detection is to detect abrupt changes in properties of time series, ideally as soon as possible after those changes occur. Existing work on online change point detection either assumes i.i.d data, focuses on asymptotic analysis, does not present theoretical guarantees on the trade-off between detection accuracy and detection delay, or is only suitable for detecting single change points. In this work, we study the online change point detection problem for linear dynamical systems with unknown dynamics, where the data exhibits temporal correlations and the system could have multiple change points. We develop a data-dependent threshold that can be used in our test that allows one to achieve a pre-specified upper bound on the probability of making a false alarm. We further provide a finite-sample-based bound for the probability of detecting a change point. Our bound demonstrates how parameters used in our algorithm affect the detection probability and delay, and provides guidance on the minimum required time between changes to guarantee detection.
翻訳日:2023-12-01 15:23:15 公開日:2023-11-30
# 自律走行システムテストにおけるフレークシミュレータの影響評価

Evaluating the Impact of Flaky Simulators on Testing Autonomous Driving Systems ( http://arxiv.org/abs/2311.18768v1 )

ライセンス: Link先を確認
Mohammad Hossein Amini, Shervin Naseri, Shiva Nejati(参考訳) シミュレータは自律運転システム(ADS)のテストに広く使用されているが、その潜在的なフレキネスは矛盾するテスト結果をもたらす可能性がある。 1) ランダム化アルゴリズムに依存する自動テストにおいて, フラッキーな広告シミュレーションはどのように影響するのだろうか? そして、機械学習(ML)は、必要なテスト再実行回数を減らしながら、脆弱なADSテストを効果的に特定できるのか? 2つの広く使われているオープンソースADSシミュレータと5つの多種多様なADSテストセットアップから得られた実験結果から、ADSにおけるテストのフレキネスは一般的な発生であり、ランダム化アルゴリズムによるテスト結果に大きな影響を及ぼすことが示された。 さらに, ML分類器は, 単一テスト実行のみを用いて, フレキなADSテストを効果的に識別し, 3種類のADSテスト設定に対して, 85$%, 82$%, 96$%のF1スコアを達成した。 私たちの分類器は、テストの実行を少なくとも2回必要としている、非mlベースラインをそれぞれ311$%、21$%、13$%のf1-scoreパフォーマンスで大幅に上回っています。 本稿では,研究の範囲,含意,限界について論じる。 Githubリポジトリに完全なレプリケーションパッケージを提供しています。

Simulators are widely used to test Autonomous Driving Systems (ADS), but their potential flakiness can lead to inconsistent test results. We investigate test flakiness in simulation-based testing of ADS by addressing two key questions: (1) How do flaky ADS simulations impact automated testing that relies on randomized algorithms? and (2) Can machine learning (ML) effectively identify flaky ADS tests while decreasing the required number of test reruns? Our empirical results, obtained from two widely-used open-source ADS simulators and five diverse ADS test setups, show that test flakiness in ADS is a common occurrence and can significantly impact the test results obtained by randomized algorithms. Further, our ML classifiers effectively identify flaky ADS tests using only a single test run, achieving F1-scores of $85$%, $82$% and $96$% for three different ADS test setups. Our classifiers significantly outperform our non-ML baseline, which requires executing tests at least twice, by $31$%, $21$%, and $13$% in F1-score performance, respectively. We conclude with a discussion on the scope, implications and limitations of our study. We provide our complete replication package in a Github repository.
翻訳日:2023-12-01 15:22:58 公開日:2023-11-30
# MLLMによる視覚言語表現学習

MLLMs-Augmented Visual-Language Representation Learning ( http://arxiv.org/abs/2311.18765v1 )

ライセンス: Link先を確認
Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang and Yang You(参考訳) 視覚言語事前学習(VLP)は、大規模な画像テキストデータセットが利用可能であることから、マルチモーダルタスクにおいて顕著な成功を収めている。 本研究では,マルチモーダル大規模言語モデル(mllms)が,データ品質の向上によって視覚表現学習を向上できることを実証する。 MLLMを用いて,画像毎に複数のキャプションを拡張する手法を提案する。 MLLMの幻覚や本質的なキャプションスタイルによってもたらされるバイアスを回避するため,原文と同一の字幕の長さを保持するために,テキストシーリングを提案する。 画像テキスト検索では,r@1の5.6 ~ 35.0%,16.8 ~ 46.1%の精度向上が得られた。 特に、ゼロショットの結果は、ターゲットデータセットの微調整に匹敵します。

Visual-language pre-training (VLP) have achieved remarkable success in multi-modal tasks, largely attributed to the availability of large-scale image-text datasets. In this work, we demonstrate that multi-modal large language models (MLLMs) can enhance visual-language representation learning by improving data quality. Our approach is simple, utilizing MLLMs to extend multiple captions for each image. To prevent the bias that introduced by MLLMs' hallucinations and intrinsic caption styles, we propose a "text shearing" to keep the lengths of extended captions identical to the originals. In image-text retrieval, our method consistently obtains 5.6 ~ 35.0% and 16.8 ~ 46.1% improvement on R@1 under the fine-tuning and zero-shot settings, respectively. Notably, our zero-shot results are comparable to fine-tuning on target datasets, which encourages more exploration on the versatile use of MLLMs.
翻訳日:2023-12-01 15:22:39 公開日:2023-11-30
# STAMINAによる連続拡散:Stack-and-Maskインクリメンタルアダプタ

Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters ( http://arxiv.org/abs/2311.18763v1 )

ライセンス: Link先を確認
James Seale Smith, Yen-Chang Hsu, Zsolt Kira, Yilin Shen, Hongxia Jin(参考訳) 近年の研究では、テキストから画像への拡散モデルを連続的な(すなわち連続的な)方法で複数のきめ細かい概念にカスタマイズする能力が実証されている。 この設定は連続拡散として知られている。 これらのメソッドを忘れずに、より長い概念シーケンスにスケールできますか? 先行研究は学習した概念の放棄を緩和するが,新しいタスクを学習する能力はより長いシーケンスで飽和に達することを示した。 本稿では,低ランクアテンションマスキングアダプタとカスタマイズMLPトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を導入することで,この問題に対処する。 STAMINAは、低ランクのMLPでパラメータ化された学習可能なハードアテンションマスクを介して、シーケンシャルな概念学習のためのLoRAの堅牢な微調整特性を強化するために設計されており、スパース適応による正確でスケーラブルな学習を可能にする。 特に、導入されたトレーニング可能なパラメータはすべて、トレーニング後にモデルに折り返し、追加の推論パラメータコストを発生させない。 ランドマークと人間の顔からなる50概念のベンチマークにおいて,テキストと画像の連続的なカスタマイズの設定において,STAMINAは従来のSOTAよりも優れており,再生データが保存されていない。 さらに,本手法を画像分類のための連続学習の設定に拡張し,この標準ベンチマークで得られた成果が最先端のパフォーマンスにも変換できることを実証した。

Recent work has demonstrated a remarkable ability to customize text-to-image diffusion models to multiple, fine-grained concepts in a sequential (i.e., continual) manner while only providing a few example images for each concept. This setting is known as continual diffusion. Here, we ask the question: Can we scale these methods to longer concept sequences without forgetting? Although prior work mitigates the forgetting of previously learned concepts, we show that its capacity to learn new tasks reaches saturation over longer sequences. We address this challenge by introducing a novel method, STack-And-Mask INcremental Adapters (STAMINA), which is composed of low-ranked attention-masked adapters and customized MLP tokens. STAMINA is designed to enhance the robust fine-tuning properties of LoRA for sequential concept learning via learnable hard-attention masks parameterized with low rank MLPs, enabling precise, scalable learning via sparse adaptation. Notably, all introduced trainable parameters can be folded back into the model after training, inducing no additional inference parameter costs. We show that STAMINA outperforms the prior SOTA for the setting of text-to-image continual customization on a 50-concept benchmark composed of landmarks and human faces, with no stored replay data. Additionally, we extended our method to the setting of continual learning for image classification, demonstrating that our gains also translate to state-of-the-art performance in this standard benchmark.
翻訳日:2023-12-01 15:22:22 公開日:2023-11-30
# 発達的に妥当なデータを持つカリキュラムでのニューラルネットワークモデルのトレーニングは、人間の読書行動との整合を改善するか?

Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior? ( http://arxiv.org/abs/2311.18761v1 )

ライセンス: Link先を確認
Aryaman Chobey, Oliver Smith, Anzi Wang, Grusha Prasad(参考訳) 人間の振る舞いをモデル化するためのニューラル言語モデルの使用は、様々な成功を収めている。 一部の研究では、これらのモデルによる推定は、広範囲の人間の神経および行動の反応を予測するのに使用できるが、より複雑な構文的現象を研究する他の研究は、これらの推定が不正確な行動予測を生成することを発見した。 本稿では,BabyLM Challengeのように,より発達的に妥当なデータに基づいて,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。 babylm "strict-small" データセット上で教師言語モデルをトレーニングし,これらの教師モデルから文レベルの推定値を用いてカリキュラムを作成した。 英語の文法知識を評価するbabylmチャレンジスイートのタスクのサブセットでは、まずbabylmデータカリキュラムでトレーニングされ、その後、ランダムに順序づけされたトレーニングエポックは、ランダムに順序づけされたエポック単独でトレーニングされたモデルよりもわずかに優れた結果を得た。 babylmデータセットでトレーニングされたモデル(カリキュラムの有無に関わらず)は、より大きなキュレーションされていないデータセットでトレーニングされたモデルと同様に人間の行動とミスアライメントされた予測を生成しました。 これは、開発可能なデータセットのみのトレーニングでは、人間の言語処理を正確に予測できる言語モデルの生成が不十分であることを示唆している。

The use of neural language models to model human behavior has met with mixed success. While some work has found that the surprisal estimates from these models can be used to predict a wide range of human neural and behavioral responses, other work studying more complex syntactic phenomena has found that these surprisal estimates generate incorrect behavioral predictions. This paper explores the extent to which the misalignment between empirical and model-predicted behavior can be minimized by training models on more developmentally plausible data, such as in the BabyLM Challenge. We trained teacher language models on the BabyLM "strict-small" dataset and used sentence level surprisal estimates from these teacher models to create a curriculum. We found tentative evidence that our curriculum made it easier for models to acquire linguistic knowledge from the training data: on the subset of tasks in the BabyLM challenge suite evaluating models' grammatical knowledge of English, models first trained on the BabyLM data curriculum and then on a few randomly ordered training epochs performed slightly better than models trained on randomly ordered epochs alone. This improved linguistic knowledge acquisition did not result in better alignment with human reading behavior, however: models trained on the BabyLM dataset (with or without a curriculum) generated predictions that were as misaligned with human behavior as models trained on larger less curated datasets. This suggests that training on developmentally plausible datasets alone is likely insufficient to generate language models capable of accurately predicting human language processing.
翻訳日:2023-12-01 15:21:53 公開日:2023-11-30
# TaskBench:タスク自動化のための大規模言語モデルのベンチマーク

TaskBench: Benchmarking Large Language Models for Task Automation ( http://arxiv.org/abs/2311.18760v1 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang(参考訳) 近年,大規模言語モデル(LLM)の驚くべき進歩がタスク自動化の火花を火付け,ユーザ命令によって記述された複雑なタスクをサブタスクに分解し,外部ツールを起動して実行し,自律エージェントにおいて中心的な役割を担っている。 しかし、タスク自動化におけるllmの開発を促進するための体系的で標準化されたベンチマークが欠けている。 この目的のために,タスク自動化における LLM の機能を評価するために TaskBench を導入する。 具体的には、タスクの自動化はタスクの分解、ツールの実行、パラメータの予測という3つの重要な段階にまとめることができる。 この複雑さにより、一般的なNLPタスクと比較してデータ収集と評価が困難になる。 高品質な評価データセットを生成するために,ユーザ意図の分解タスクを表現するツールグラフの概念を導入し,ユーザ指示やアノテーションをシミュレートするバックインストラクション手法を採用した。 さらに,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。 実験の結果、タスクベンチはタスク自動化におけるLLMの能力を効果的に反映できることが示された。 自動データ構築とヒューマン検証の混合により、taskbenchは人間評価と比較して高い一貫性を実現し、llmベースの自律エージェントの総合的かつ忠実なベンチマークとして利用できる。

Recently, the incredible progress of large language models (LLMs) has ignited the spark of task automation, which decomposes the complex tasks described by user instructions into sub-tasks, and invokes external tools to execute them, and plays a central role in autonomous agents. However, there lacks a systematic and standardized benchmark to foster the development of LLMs in task automation. To this end, we introduce TaskBench to evaluate the capability of LLMs in task automation. Specifically, task automation can be formulated into three critical stages: task decomposition, tool invocation, and parameter prediction to fulfill user intent. This complexity makes data collection and evaluation more challenging compared to common NLP tasks. To generate high-quality evaluation datasets, we introduce the concept of Tool Graph to represent the decomposed tasks in user intent, and adopt a back-instruct method to simulate user instruction and annotations. Furthermore, we propose TaskEval to evaluate the capability of LLMs from different aspects, including task decomposition, tool invocation, and parameter prediction. Experimental results demonstrate that TaskBench can effectively reflects the capability of LLMs in task automation. Benefiting from the mixture of automated data construction and human verification, TaskBench achieves a high consistency compared to the human evaluation, which can be utilized as a comprehensive and faithful benchmark for LLM-based autonomous agents.
翻訳日:2023-12-01 15:21:23 公開日:2023-11-30
# ラベルなしデータの不確実性向上による半教師付き意味セグメンテーション

Semi-supervised Semantic Segmentation via Boosting Uncertainty on Unlabeled Data ( http://arxiv.org/abs/2311.18758v1 )

ライセンス: Link先を確認
Daoan Zhang, Yunhao Luo, Jianguo Zhang(参考訳) 訓練データセットにおけるラベル付き分布とラベル付き分布の分析を行い,半教師付き意味セグメンテーションに対する新たな視点を提案する。 まず,ラベル付きデータセットとラベル付きデータセットの分布ギャップは,同一分布からサンプリングしても無視できないことが分かった。 この問題に対処するために,ラベルなしデータの不確かさを適切に増やすことで分布ギャップを最小化できることを理論的に解析し,実験的に証明する。 半教師ありセマンティクスセグメンテーションのための2つの戦略と不確実性ブースタアルゴリズムの設計を提案する。 これらの理論に基づいて大規模な実験を行い,アルゴリズムの有効性と戦略を検証した。 我々のプラグアンドプレイ不確実性ブースターは、小さくて効率的で、ハイパーパラメータに対して堅牢であるが、性能を著しく向上させることができる。 提案手法は,現行の半教師付きセマンティックセマンティックセグメンテーション手法であるCityscapes と PASCAL VOC 2012 と比較して,列車設定の異なる実験で最先端の性能を実現する。

We bring a new perspective to semi-supervised semantic segmentation by providing an analysis on the labeled and unlabeled distributions in training datasets. We first figure out that the distribution gap between labeled and unlabeled datasets cannot be ignored, even though the two datasets are sampled from the same distribution. To address this issue, we theoretically analyze and experimentally prove that appropriately boosting uncertainty on unlabeled data can help minimize the distribution gap, which benefits the generalization of the model. We propose two strategies and design an uncertainty booster algorithm, specially for semi-supervised semantic segmentation. Extensive experiments are carried out based on these theories, and the results confirm the efficacy of the algorithm and strategies. Our plug-and-play uncertainty booster is tiny, efficient, and robust to hyperparameters but can significantly promote performance. Our approach achieves state-of-the-art performance in our experiments compared to the current semi-supervised semantic segmentation methods on the popular benchmarks: Cityscapes and PASCAL VOC 2012 with different train settings.
翻訳日:2023-12-01 15:20:58 公開日:2023-11-30
# 大きなモデルでモデルの初期化

Initializing Models with Larger Ones ( http://arxiv.org/abs/2311.18823v1 )

ライセンス: Link先を確認
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu(参考訳) 重み初期化はニューラルネットワークトレーニングにおいて重要な役割を果たす。 スクラッチからトレーニングしたネットワークに対して,広く利用されている初期化手法を提案し,評価した。 しかし、トレーニング済みモデルの増加は、この古典的な重量初期化問題に取り組む新しい機会を与えている。 本研究では,事前訓練された大モデルから重みのサブセットを選択することで,より小さなモデルの初期化を行う手法である重み選択を導入する。 これにより、事前訓練された重量からより小さなモデルへの知識の伝達が可能になる。 実験により,小型モデルの性能を著しく向上し,トレーニング時間を短縮できることが示された。 特に、知識蒸留と併用することもできる。 重みの選択は、リソース制約のある設定で事前訓練されたモデルのパワーを活用するための新しいアプローチを提供する。 コードはhttps://github.com/OscarXZQ/weight-selectionで入手できる。

Weight initialization plays an important role in neural network training. Widely used initialization methods are proposed and evaluated for networks that are trained from scratch. However, the growing number of pretrained models now offers new opportunities for tackling this classical problem of weight initialization. In this work, we introduce weight selection, a method for initializing smaller models by selecting a subset of weights from a pretrained larger model. This enables the transfer of knowledge from pretrained weights to smaller models. Our experiments demonstrate that weight selection can significantly enhance the performance of small models and reduce their training time. Notably, it can also be used together with knowledge distillation. Weight selection offers a new approach to leverage the power of pretrained models in resource-constrained settings, and we hope it can be a useful tool for training small models in the large-model era. Code is available at https://github.com/OscarXZQ/weight-selection.
翻訳日:2023-12-01 15:13:29 公開日:2023-11-30
# ElasticDiffusion: トレーニング不要な任意サイズ画像生成

ElasticDiffusion: Training-free Arbitrary Size Image Generation ( http://arxiv.org/abs/2311.18822v1 )

ライセンス: Link先を確認
Moayed Haji-Ali, Guha Balakrishnan, Vicente Ordonez(参考訳) 近年、拡散モデルは画像生成に革命をもたらしたが、それでもいくつかのサイズとアスペクト比に制限されている。 本稿では,事前訓練されたテキスト-画像拡散モデルを用いて,様々なサイズの画像を生成する,新しいトレーニング不要なデコーディング手法であるElasticDiffusionを提案する。 elasticdiffusionは、事前訓練されたモデルの生成軌跡をローカル信号とグローバル信号に分離しようとする。 局所信号は低レベル画素情報を制御し、局所パッチで推定できるが、グローバル信号は全体の構造的一貫性を維持するために使用され、参照画像で推定される。 CelebA-HQ (faces) とLAION-COCO (objects/indoor/outdoor scene) でテストを行った。 実験と定性的な結果から,多重拡散および安定拡散の標準復号法と比較して,アスペクト比で優れた画像コヒーレンス品質を示す。 コード: https://github.com/moayedhajiali/elasticdiffusion-official.git

Diffusion models have revolutionized image generation in recent years, yet they are still limited to a few sizes and aspect ratios. We propose ElasticDiffusion, a novel training-free decoding method that enables pretrained text-to-image diffusion models to generate images with various sizes. ElasticDiffusion attempts to decouple the generation trajectory of a pretrained model into local and global signals. The local signal controls low-level pixel information and can be estimated on local patches, while the global signal is used to maintain overall structural consistency and is estimated with a reference image. We test our method on CelebA-HQ (faces) and LAION-COCO (objects/indoor/outdoor scenes). Our experiments and qualitative results show superior image coherence quality across aspect ratios compared to MultiDiffusion and the standard decoding strategy of Stable Diffusion. Code: https://github.com/MoayedHajiAli/ElasticDiffusion-official.git
翻訳日:2023-12-01 15:13:17 公開日:2023-11-30
# 早期・後期の介在性ビアーゼの分枝はおそらくグロッキングを引き起こす

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking ( http://arxiv.org/abs/2311.18817v1 )

ライセンス: Link先を確認
Kaifeng Lyu, Jikai Jin, Zhiyuan Li, Simon S. Du, Jason D. Lee, Wei Hu(参考訳) ニューラルネットワークはトレーニングセットを“記憶する”ことで、完全なトレーニング精度とほぼランダムなテスト精度を実現し、十分に長いトレーニングをした後、突然、完全なテスト精度に移行します。 本報告では, グラッキング現象を理論的に検討し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。 具体的には,分類と回帰タスクの両方において,初期化が小さく軽量な均質なニューラルネットワークをトレーニングする場合,学習過程がカーネル予測器に対応する溶液に長時間閉じ込められ,min-norm/max-margin予測器への非常に鋭い遷移が起こり,テスト精度が劇的に変化することを証明する。

Recent work by Power et al. (2022) highlighted a surprising "grokking" phenomenon in learning arithmetic tasks: a neural net first "memorizes" the training set, resulting in perfect training accuracy but near-random test accuracy, and after training for sufficiently longer, it suddenly transitions to perfect test accuracy. This paper studies the grokking phenomenon in theoretical setups and shows that it can be induced by a dichotomy of early and late phase implicit biases. Specifically, when training homogeneous neural nets with large initialization and small weight decay on both classification and regression tasks, we prove that the training process gets trapped at a solution corresponding to a kernel predictor for a long time, and then a very sharp transition to min-norm/max-margin predictors occurs, leading to a dramatic change in test accuracy.
翻訳日:2023-12-01 15:13:03 公開日:2023-11-30
# IMMA: 悪意適応に対するテキスト・ツー・イメージの免疫

IMMA: Immunizing text-to-image Models against Malicious Adaptation ( http://arxiv.org/abs/2311.18815v1 )

ライセンス: Link先を確認
Yijia Zheng and Raymond A. Yeh(参考訳) テキストから画像へのモデルの進歩と微調整手法は、有害な不正なコンテンツを生成するための微調整といった悪意ある適応のリスクを増大させている。 最近の研究、例えばGlazeやMISTは、データを適応的手法から保護するデータポゾン技術を開発した。 本研究では,保護のための代替パラダイムを検討する。 本稿では,悪意のあるコンテンツを微調整する際の適応法が難しいモデルパラメータを学習し,モデル「免疫」を提案する。 実験の結果, IMMAは, 芸術的スタイルの模倣や不適切・無許可なコンテンツの学習を含む悪意ある適応に対する効果をLoRA, Textual-Inversion, DreamBoothの3つの適応手法で示した。

Advancements in text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to ``immunize'' the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Empirical results show IMMA's effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth.
翻訳日:2023-12-01 15:12:45 公開日:2023-11-30
# 水中画像は全ての物体検出器に必要か?

Is Underwater Image Enhancement All Object Detectors Need? ( http://arxiv.org/abs/2311.18814v1 )

ライセンス: Link先を確認
Yudong Wang and Jichang Guo and Wanru He and Huan Gao and Huihui Yue and Zenan Zhang and Chongyi Li(参考訳) 水中物体検出は海洋工学と水生ロボットにとって重要かつ困難な問題である。 難易度の一部は、光選択的吸収と散乱による水中画像の劣化によるものである。 直感的には、水中画像の強化は水中物体検出のような高度な応用に役立つ。 しかし、全ての物体検出器が前処理として水中画像強調を必要とするかどうかはまだ不明である。 そこで我々は,「水中画像強調は水中物体の検出を本当に改善するのか?」「水中画像強調は水中物体検出にどのように寄与するのか?」という疑問を投げかける。 これら2つの質問により、我々は広範な研究を行う。 具体的には,従来型,cnn型,gan型を含む18の水中画像強調アルゴリズムを用いて,水中物体検出データの事前処理を行う。 次に,異なるアルゴリズムによって強化された結果を用いて,7種類の一般的な深層学習型物体検出器を再訓練し,水中物体検出モデルを得る。 水中画像を用いた7つの物体検出モデルと合わせて,これらの133モデルを用いて水中物体検出に対する水中画像強調の効果を総合的に解析した。 本研究は, 上記の疑問に答え, 水中画像強調と水中物体検出という共同問題にコミュニティの注意を惹きつけるのに十分な探索を期待する。 事前訓練されたモデルと結果は公開されており、定期的に更新される。 プロジェクトページ: https://github.com/bigwangyudong/lqit/tree/main/configs/detection/uw_enhancement_affect_detection。

Underwater object detection is a crucial and challenging problem in marine engineering and aquatic robot. The difficulty is partly because of the degradation of underwater images caused by light selective absorption and scattering. Intuitively, enhancing underwater images can benefit high-level applications like underwater object detection. However, it is still unclear whether all object detectors need underwater image enhancement as pre-processing. We therefore pose the questions "Does underwater image enhancement really improve underwater object detection?" and "How does underwater image enhancement contribute to underwater object detection?". With these two questions, we conduct extensive studies. Specifically, we use 18 state-of-the-art underwater image enhancement algorithms, covering traditional, CNN-based, and GAN-based algorithms, to pre-process underwater object detection data. Then, we retrain 7 popular deep learning-based object detectors using the corresponding results enhanced by different algorithms, obtaining 126 underwater object detection models. Coupled with 7 object detection models retrained using raw underwater images, we employ these 133 models to comprehensively analyze the effect of underwater image enhancement on underwater object detection. We expect this study can provide sufficient exploration to answer the aforementioned questions and draw more attention of the community to the joint problem of underwater image enhancement and underwater object detection. The pre-trained models and results are publicly available and will be regularly updated. Project page: https://github.com/BIGWangYuDong/lqit/tree/main/configs/detection/uw_enhancement_affect_detection.
翻訳日:2023-12-01 15:12:32 公開日:2023-11-30
# Llamasは本当に何を考えているのか? 言語モデル表現における選好バイアスの解明

What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations ( http://arxiv.org/abs/2311.18812v1 )

ライセンス: Link先を確認
Raphael Tang, Xinyu Zhang, Jimmy Lin, Ferhan Ture(参考訳) 大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 講演」への拒否を回避すべく,文脈化された埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを検討することにより,この研究課題を考察する。 単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。 まず、3つのペア選好タスクと13のllmについてプローブを検証する。そこでは、暗黙の関連をテストする標準的なアプローチであるword embedded association test(weat)を、エラー率の相対27%で上回っている。 また、単語ペアの好みは中間層で最もよく表される。 次に、民族、政治、宗教、性別の偏見を調べるために、無害なタスク(例えば、より大きな数を選ぶなど)で訓練されたプローブを議論のあるもの(比較民族)に転送する。 例えば、ミストラルのモデルはアフリカよりもヨーロッパを暗黙に好んでおり、キリスト教はユダヤ教よりもキリスト教を好んでおり、答えを辞退したにもかかわらず右翼の政治に傾倒している。 これは、命令の微調整が必ずしもコンテキスト化された埋め込みを損なうとは限らないことを示唆する。 私たちのコードベースはhttps://github.com/castorini/biasprobeです。

Do large language models (LLMs) exhibit sociodemographic biases, even when they decline to respond? To bypass their refusal to "speak," we study this research question by probing contextualized embeddings and exploring whether this bias is encoded in its latent representations. We propose a logistic Bradley-Terry probe which predicts word pair preferences of LLMs from the words' hidden vectors. We first validate our probe on three pair preference tasks and thirteen LLMs, where we outperform the word embedding association test (WEAT), a standard approach in testing for implicit association, by a relative 27% in error rate. We also find that word pair preferences are best represented in the middle layers. Next, we transfer probes trained on harmless tasks (e.g., pick the larger number) to controversial ones (compare ethnicities) to examine biases in nationality, politics, religion, and gender. We observe substantial bias for all target classes: for instance, the Mistral model implicitly prefers Europe to Africa, Christianity to Judaism, and left-wing to right-wing politics, despite declining to answer. This suggests that instruction fine-tuning does not necessarily debias contextualized embeddings. Our codebase is at https://github.com/castorini/biasprobe.
翻訳日:2023-12-01 15:12:07 公開日:2023-11-30
# MMSEデノイザを用いた非凸PnP-ADMMの収束

Convergence of Nonconvex PnP-ADMM with MMSE Denoisers ( http://arxiv.org/abs/2311.18810v1 )

ライセンス: Link先を確認
Chicago Park, Shirin Shoushtari, Weijie Gan, Ulugbek S. Kamilov(参考訳) PnP-ADMM(Plug-and-Play Alternating Direction Method of Multipliers)は、物理測定モデルと畳み込みニューラルネットワーク(CNN)を組み込んだ逆問題の解法である。 PnP-ADMMは、凸データ忠実度項と非膨張CNNに収束することが理論的に証明されている。 しかしながら、PnP-ADMMは広範CNNにおいても経験的に収束することが観察されている。 本稿では、最小平均二乗誤差(MMSE)としてCNNの解釈に基づいて、PnP-ADMMの観測安定性を理論的に説明する。 我々の説明は、PnP (PnP-ISTA) の反復縮小/保持アルゴリズムに対する類似の議論と類似しており、MMSEデノイザと近位演算子間の接続に依存している。 また,拡張性DnCNNデノイザと拡張性DRUNetデノイザを用いてPnP-ADMMの性能ギャップを数値的に評価し,拡張性CNNの使用を動機付ける。

Plug-and-Play Alternating Direction Method of Multipliers (PnP-ADMM) is a widely-used algorithm for solving inverse problems by integrating physical measurement models and convolutional neural network (CNN) priors. PnP-ADMM has been theoretically proven to converge for convex data-fidelity terms and nonexpansive CNNs. It has however been observed that PnP-ADMM often empirically converges even for expansive CNNs. This paper presents a theoretical explanation for the observed stability of PnP-ADMM based on the interpretation of the CNN prior as a minimum mean-squared error (MMSE) denoiser. Our explanation parallels a similar argument recently made for the iterative shrinkage/thresholding algorithm variant of PnP (PnP-ISTA) and relies on the connection between MMSE denoisers and proximal operators. We also numerically evaluate the performance gap between PnP-ADMM using a nonexpansive DnCNN denoiser and expansive DRUNet denoiser, thus motivating the use of expansive CNNs.
翻訳日:2023-12-01 15:11:45 公開日:2023-11-30
# FoundPose: ファンデーション機能によるオブジェクトポス推定

FoundPose: Unseen Object Pose Estimation with Foundation Features ( http://arxiv.org/abs/2311.18809v1 )

ライセンス: Link先を確認
Evin P{\i}nar \"Ornek and Yann Labb\'e and Bugra Tekin and Lingni Ma and Cem Keskin and Christian Forster and Tomas Hodan(参考訳) 単一のRGB画像から見えざる剛体物体の6次元ポーズ推定法であるFoundPoseを提案する。 このメソッドは、オブジェクトの3dモデルが利用可能であるが、オブジェクト固有のトレーニングを必要としないと仮定する。 これは、印象的な一般化能力を持つ最近のvision foundationモデルであるdinov2で実現されている。 オンラインポーズ推定ステージは、レンダリングされたオブジェクトテンプレートから抽出されたDINOv2パッチ機能から短いオンボーディング段階で構築される最小限のオブジェクト表現によってサポートされる。 オブジェクトのセグメンテーションマスクを持つクエリイメージが与えられると、 foundpose は dinov2 ベースのbag-of-words アプローチによって、最初に一握りの類似のテンプレートを素早く取得する。 次に、検索画像と検索テンプレートのDINOv2パッチ特徴とを一致させて確立された2D-3D対応から詩仮説を生成し、最終的に特徴量補正により最適化する。 この手法は,対称性とテクスチャのない課題を含む多種多様なオブジェクトを処理でき,標準BOPベンチマークの精度と速度の両方で,既存のRGB手法よりも顕著に優れている。 補完的なMegaPoseの改良により、この手法は全てのRGB競合より優れていた。 ソースコードは: evinpinar.github.io/foundpose。

We propose FoundPose, a method for 6D pose estimation of unseen rigid objects from a single RGB image. The method assumes that 3D models of the objects are available but does not require any object-specific training. This is achieved by building upon DINOv2, a recent vision foundation model with impressive generalization capabilities. An online pose estimation stage is supported by a minimal object representation that is built during a short onboarding stage from DINOv2 patch features extracted from rendered object templates. Given a query image with an object segmentation mask, FoundPose first rapidly retrieves a handful of similarly looking templates by a DINOv2-based bag-of-words approach. Pose hypotheses are then generated from 2D-3D correspondences established by matching DINOv2 patch features between the query image and a retrieved template, and finally optimized by featuremetric refinement. The method can handle diverse objects, including challenging ones with symmetries and without any texture, and noticeably outperforms existing RGB methods for coarse pose estimation in both accuracy and speed on the standard BOP benchmark. With the featuremetric and additional MegaPose refinement, which are demonstrated complementary, the method outperforms all RGB competitors. Source code is at: evinpinar.github.io/foundpose.
翻訳日:2023-12-01 15:11:26 公開日:2023-11-30
# 予測モデリングのための事前登録

Pre-registration for Predictive Modeling ( http://arxiv.org/abs/2311.18807v1 )

ライセンス: Link先を確認
Jake M. Hofman, Angelos Chatzimparmpas, Amit Sharma, Duncan J. Watts, Jessica Hullman(参考訳) 予測モデリングにおける再現性と一般化可能性の懸念が高まっている中、この分野に事前登録を導入する可能性と潜在的な利点について検討する。 予測モデリングの顕著な進歩、コア機械学習タスクのさまざまな科学的応用、見過ごされたコンテキスト要因、データ依存意思決定、意図しないテストデータの再利用といった課題は、結果の完全性に関する疑問を引き起こしている。 これらの課題に対処するため,説明モデルから予測モデルへの事前登録手法の適用を提案する。 予測モデリングにおける現在のベストプラクティスとその限界を議論し、軽量な事前登録テンプレートを導入し、偏見のある見積もりを防止し、より信頼性の高い研究成果を促進する上で、事前登録の有効性に関する洞察を得るために機械学習研究者と質的研究を行う。 我々は,事前登録が予測モデルで対処できる問題の範囲を探索し,その文脈内での限界を認識することで結論付ける。

Amid rising concerns of reproducibility and generalizability in predictive modeling, we explore the possibility and potential benefits of introducing pre-registration to the field. Despite notable advancements in predictive modeling, spanning core machine learning tasks to various scientific applications, challenges such as overlooked contextual factors, data-dependent decision-making, and unintentional re-use of test data have raised questions about the integrity of results. To address these issues, we propose adapting pre-registration practices from explanatory modeling to predictive modeling. We discuss current best practices in predictive modeling and their limitations, introduce a lightweight pre-registration template, and present a qualitative study with machine learning researchers to gain insight into the effectiveness of pre-registration in preventing biased estimates and promoting more reliable research outcomes. We conclude by exploring the scope of problems that pre-registration can address in predictive modeling and acknowledging its limitations within this context.
翻訳日:2023-12-01 15:11:04 公開日:2023-11-30
# weather4cast 2023における量的降水予測の効率的なベースライン

Efficient Baseline for Quantitative Precipitation Forecasting in Weather4cast 2023 ( http://arxiv.org/abs/2311.18806v1 )

ライセンス: Link先を確認
Akshay Punjabi and Pablo Izquierdo Ayala(参考訳) 各種産業における情報意思決定には正確な降水予測が不可欠である。 しかし、現在のモデルの計算要求は環境問題を引き起こす。 計算資源の環境影響を考慮しつつ、正確な降水予測の必要性に対処し、将来の気象予報イニシアチブのベースラインとなる最小主義的なu-netアーキテクチャを提案する。

Accurate precipitation forecasting is indispensable for informed decision-making across various industries. However, the computational demands of current models raise environmental concerns. We address the critical need for accurate precipitation forecasting while considering the environmental impact of computational resources and propose a minimalist U-Net architecture to be used as a baseline for future weather forecasting initiatives.
翻訳日:2023-12-01 15:10:47 公開日:2023-11-30
# 不自然なエラー訂正:GPT-4は不自然なテキストをほぼ完璧に処理できる

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text ( http://arxiv.org/abs/2311.18805v1 )

ライセンス: Link先を確認
Qi Cao, Takeshi Kojima, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 大きな言語モデル(LLM)は多くのタスクで顕著なパフォーマンスを達成していますが、その内部の動作についてはまだ不明です。 本研究では,llm,特にgpt-4のレジリエンスについて,文字レベルの広範な置換を施す際に実験的に考察する。 そこで我々はまず,スクランブルされた文の回復と,スクランブルされた文脈の質問に対する回答の両面から,スクランブルされた入力を処理するためのLLMの容量を測定するためのスイートであるScrambled Benchを提案する。 実験の結果,最も強力なllmは,第1文字と最後の文字が残されている限り,単語の意味を人間が理解できる現象であるチポグリコミアに類似した能力を示すことが示唆された。 さらに驚くべきことに、極度の条件下であっても、不自然なエラーで入力をほぼ完璧に処理しているのはGPT-4だけであることがわかった。 特に、GPT-4は、元の文がスクランブルされた文からほぼ完全に再構築でき、各単語内のすべての文字が完全にスクランブルされている場合でも、編集距離を95%削減できる。 LLMがスクランブルテキストによる入力トークン化を著しく損なうにもかかわらず、そのようなレジリエンスを示すことは直感的ではない。

While Large Language Models (LLMs) have achieved remarkable performance in many tasks, much about their inner workings remains unclear. In this study, we present novel experimental insights into the resilience of LLMs, particularly GPT-4, when subjected to extensive character-level permutations. To investigate this, we first propose the Scrambled Bench, a suite designed to measure the capacity of LLMs to handle scrambled input, in terms of both recovering scrambled sentences and answering questions given scrambled context. The experimental results indicate that most powerful LLMs demonstrate the capability akin to typoglycemia, a phenomenon where humans can understand the meaning of words even when the letters within those words are scrambled, as long as the first and last letters remain in place. More surprisingly, we found that only GPT-4 nearly flawlessly processes inputs with unnatural errors, even under the extreme condition, a task that poses significant challenges for other LLMs and often even for humans. Specifically, GPT-4 can almost perfectly reconstruct the original sentences from scrambled ones, decreasing the edit distance by 95%, even when all letters within each word are entirely scrambled. It is counter-intuitive that LLMs can exhibit such resilience despite severe disruption to input tokenization caused by scrambled text.
翻訳日:2023-12-01 15:10:40 公開日:2023-11-30
# bioclip: 生命の樹のためのビジョン基盤モデル

BIOCLIP: A Vision Foundation Model for the Tree of Life ( http://arxiv.org/abs/2311.18803v1 )

ライセンス: Link先を確認
Samuel Stevens, Jiaman Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao and Yu Su(参考訳) ドローンからスマートフォンまで、さまざまなカメラによって収集された自然界の画像は、生物情報の豊富な源となっている。 科学と保存のために画像から生物学的に関連のある情報を抽出するための計算方法やツール、特にコンピュータビジョンの爆発があります。 しかし、これらのほとんどは特定のタスク用に設計され、新しい質問やコンテキスト、データセットに容易に適応または拡張できない、目覚ましいアプローチである。 イメージに関する一般的な生物生物学の問題に対するビジョンモデルは、タイムリーに必要です。 そこで我々は、生物学画像の最大かつ最も多様なml対応データセットであるtreeoflife-10mをキュレートし、リリースする。 次に, 植物, 動物, 菌類の多種多様な画像と, 豊かな構造的生物学的知識の利用可能性という, treeoflife-10m が捉えた生物のユニークな特性を活用した生命の樹の基盤モデル bioclip を開発した。 多様な生物分類タスクに対する我々のアプローチを厳格にベンチマークし、BioCLIPが既存のベースライン(絶対値17%から20%)を大幅に上回っていることを発見した。 内在的評価は、BioCLIPが生命の樹の階層的な表現を学び、その強い一般化性に光を当てたことを示している。 私たちのコード、モデル、データはhttps://github.com/Imageomics/bioclip.comで公開されます。

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks, and find that BioCLIP consistently and substantially outperforms existing baselines (by 17% to 20% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. Our code, models and data will be made available at https://github.com/Imageomics/bioclip.
翻訳日:2023-12-01 15:10:13 公開日:2023-11-30
# 深部フロントエンドを用いた分散グローバル構造移動

Distributed Global Structure-from-Motion with a Deep Front-End ( http://arxiv.org/abs/2311.18801v1 )

ライセンス: Link先を確認
Ayush Baid, John Lambert, Travis Driver, Akshay Krishnan, Hayk Stepanyan, and Frank Dellaert(参考訳) SfM(Structure-from-Motion)への最初のアプローチは、グローバルメソッドとインクリメンタルメソッドの両方を中心に展開されたが、近年のアプリケーションでは、より優れたロバスト性のためにカメラのポーズを推定するためにインクリメンタルシステムに依存している。 SfMの「フロントエンド」はデータから学習したディープモデルによって大幅に進歩しているが、SfMパイプラインは2004年に開発された古典的なSIFT機能に依存している。 本研究では,somaインクリメンタルsfmアプローチ (colmap) と同等の機能抽出とマッチングによってグローバルsfmが機能するかどうかを検討する。 そのために、モジュール型のSfMフレームワークを設計し、SfMパイプラインの異なる段階の開発を簡単に組み合わせることができます。 実験の結果, 深層学習に基づく2視点対応推定手法の開発は, グローバルSfMで再構成したシーンの点密度の向上に寄与するが, 一連のデータセットにおける漸進的なSfM結果と比較した場合, SIFTよりも優れていないことがわかった。 私たちのsfmシステムは、分散計算を活用するためにゼロから設計されており、複数のマシンで計算を並列化し、大きなシーンにスケールできます。

While initial approaches to Structure-from-Motion (SfM) revolved around both global and incremental methods, most recent applications rely on incremental systems to estimate camera poses due to their superior robustness. Though there has been tremendous progress in SfM `front-ends' powered by deep models learned from data, the state-of-the-art (incremental) SfM pipelines still rely on classical SIFT features, developed in 2004. In this work, we investigate whether leveraging the developments in feature extraction and matching helps global SfM perform on par with the SOTA incremental SfM approach (COLMAP). To do so, we design a modular SfM framework that allows us to easily combine developments in different stages of the SfM pipeline. Our experiments show that while developments in deep-learning based two-view correspondence estimation do translate to improvements in point density for scenes reconstructed with global SfM, none of them outperform SIFT when comparing with incremental SfM results on a range of datasets. Our SfM system is designed from the ground up to leverage distributed computation, enabling us to parallelize computation on multiple machines and scale to large scenes.
翻訳日:2023-12-01 15:09:48 公開日:2023-11-30
# X-InstructBLIP: X-Modal 命令認識表現を LLM および創発的クロスモーダル推論に整合させるフレームワーク

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning ( http://arxiv.org/abs/2311.18799v1 )

ライセンス: Link先を確認
Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li, Shafiq Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles(参考訳) ビジュアルエンコーダを最先端の大規模言語モデル(LLM)と整列させることにより、2次元視覚推論タスクの汎用性を実証した。 本稿では, 凍結型LLM上に構築された簡易かつ効果的で多目的なフレームワークを導入し, 広範囲なモダリティ固有のカスタマイズを行なわず, 様々なモダリティの統合を実現する。 インストラクションモダリティの微調整を容易にするために,オーディオ用24k qaサンプルと3d用250k qaサンプルからなる,高品位なインストラクションチューニングデータを自動かつスケーラブルに収集する。 本モデルでは,命令認識表現を活用することで,事前学習やカスタマイズを必要とせず,事前学習を行う。 さらに,各モーダル予測が個別に訓練されているにも拘わらず,2つ以上の入力モダリティにまたがるクロスモーダル推論能力を示す。 本研究では,9KオーディオビデオQAサンプルと28K画像3DQAサンプルから構成され,異なる入力モダリティ間での差別的推論を要求される新しい識別的クロスモーダル推論(DisCRn)評価タスクを提案する。

Vision-language pre-training and instruction tuning have demonstrated general-purpose capabilities in 2D visual reasoning tasks by aligning visual encoders with state-of-the-art large language models (LLMs). In this paper, we introduce a simple, yet effective, cross-modality framework built atop frozen LLMs that allows the integration of various modalities without extensive modality-specific customization. To facilitate instruction-modality fine-tuning, we collect high-quality instruction tuning data in an automatic and scalable manner, composed of 24K QA samples for audio and 250K QA samples for 3D. Leveraging instruction-aware representations, our model performs comparably with leading-edge counterparts without the need of extensive modality-specific pre-training or customization. Furthermore, our approach demonstrates cross-modal reasoning abilities across two or more input modalities, despite each modality projection being trained individually. To study the model's cross-modal abilities, we contribute a novel Discriminative Cross-modal Reasoning (DisCRn) evaluation task, comprising 9K audio-video QA samples and 28K image-3D QA samples that require the model to reason discriminatively across disparate input modalities.
翻訳日:2023-12-01 15:09:22 公開日:2023-11-30
# 離散量子ウォークにおける$\epsilon$-Uniform Mixing

$\epsilon$-Uniform Mixing in Discrete Quantum Walks ( http://arxiv.org/abs/2311.18797v1 )

ライセンス: Link先を確認
Hanmeng Zhan(参考訳) 離散量子ウォークは、ある頂点の出射する弧の均一な重ね合わせから始まっていることから、シューラー正方形が全ての弧上に一定である状態と任意に近づくことができるかどうかを考察する。 グラフの隣接スペクトルを用いて、この現象を非二部グラフ上で特徴づける; 特に、全ての頂点でこの現象が起こると、我々は任意に近づいた状態が頂点の外側の弧上で定数であるなら、グラフの随伴代数は実(正則)ハダマール行列を含む。 そして、この現象を認める原始的強正則グラフの無限族を見つける。

We study whether a discrete quantum walk can get arbitrarily close to a state whose Schur square is constant on all arcs, given that the walk starts with a uniform superposition of the outgoing arcs of some vertex. We characterize this phenomenon on non-bipartite graphs using the adjacency spectrum of the graph; in particular, if this happens at every vertex, and the states we get arbitrarily close to are constant on the outgoing arcs of the vertices, then the adjacency algebra of the graph contains a real (regular) Hadamard matrix. We then find infinite families of primitive strongly regular graphs that admit this phenomenon.
翻訳日:2023-12-01 15:09:00 公開日:2023-11-30
# 追加は$\pi$! ポーズ誘発ビデオトランスフォーマによる日常生活活動の理解

Just Add $\pi$! Pose Induced Video Transformers for Understanding Activities of Daily Living ( http://arxiv.org/abs/2311.18840v1 )

ライセンス: Link先を確認
Dominick Reilly, Srijan Das(参考訳) ビデオトランスフォーマーは人間の行動認識のデファクトスタンダードとなっているが、RGBのモダリティへの排他的依存は、特定の領域での採用を制限する。 このような領域の1つは日常生活活動(ADL)であり、RGBだけでは視覚的に類似した行動と複数の視点から観察される行動を区別できない。 ADL用ビデオトランスフォーマーの採用を促進するために,人間のポーズ情報によるRGBの増大は,その微粒な動きや複数の視点に敏感である,という仮説を立てる。 そこで,本研究では,映像トランスフォーマが学習するrgb表現を2次元および3次元ポーズ情報で強化する手法であるpi-vit($\pi$-vit)を提案する。 2dスケルトン誘導モジュールと3dスケルトン誘導モジュールの2つのプラグインモジュールは、2dおよび3dのポーズ情報をrgb表現に誘導する役割を担っている。 これらのモジュールは、推論中に$\pi$-ViTでモジュールを破棄できる設計選択である、ポーズ対応の補助タスクを実行することで動作する。 注目すべきなのは、$\pi$-ViTは、3つの著名なADLデータセットにおける最先端のパフォーマンスを実現し、実際のRGB-Dデータセットと大規模RGB-Dデータセットの両方を含む。

Video transformers have become the de facto standard for human action recognition, yet their exclusive reliance on the RGB modality still limits their adoption in certain domains. One such domain is Activities of Daily Living (ADL), where RGB alone is not sufficient to distinguish between visually similar actions, or actions observed from multiple viewpoints. To facilitate the adoption of video transformers for ADL, we hypothesize that the augmentation of RGB with human pose information, known for its sensitivity to fine-grained motion and multiple viewpoints, is essential. Consequently, we introduce the first Pose Induced Video Transformer: PI-ViT (or $\pi$-ViT), a novel approach that augments the RGB representations learned by video transformers with 2D and 3D pose information. The key elements of $\pi$-ViT are two plug-in modules, 2D Skeleton Induction Module and 3D Skeleton Induction Module, that are responsible for inducing 2D and 3D pose information into the RGB representations. These modules operate by performing pose-aware auxiliary tasks, a design choice that allows $\pi$-ViT to discard the modules during inference. Notably, $\pi$-ViT achieves the state-of-the-art performance on three prominent ADL datasets, encompassing both real-world and large-scale RGB-D datasets, without requiring poses or additional computational overhead at inference.
翻訳日:2023-12-01 15:03:09 公開日:2023-11-30
# TrafficMOT: 複雑な交通シナリオにおける多目的追跡のための混在データセット

TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex Traffic Scenarios ( http://arxiv.org/abs/2311.18839v1 )

ライセンス: Link先を確認
Lihao Liu, Yanqi Cheng, Zhongying Deng, Shujun Wang, Dongdong Chen, Xiaowei Hu, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica Aviles-Rivero(参考訳) 交通ビデオにおける多目的追跡は重要な研究領域であり、高度な機械学習アルゴリズムを利用して、交通監視の精度を高め、道路安全対策を促進する大きな可能性を秘めている。 しかし、トラフィックビデオにおけるマルチオブジェクト追跡のための既存のデータセットは、多くの場合、限られたインスタンスを特徴付け、単一のクラスにフォーカスする。 このギャップに対処するために、複雑なシナリオで多様な交通状況をカバーするために設計された広範なデータセットであるTrafficMOTを紹介します。 TrafficMOTがもたらす複雑さと課題を検証するために,我々は,完全教師付き,半教師付き,最近の強力なゼロショット基礎モデルであるTracking Anything Model (TAM) の3つの異なる設定を用いて,総合的な実験を行った。 実験結果は、このデータセットの本質的な複雑さを強調し、交通監視と多目的追跡の分野における進歩の推進におけるその価値を強調した。

Multi-object tracking in traffic videos is a crucial research area, offering immense potential for enhancing traffic monitoring accuracy and promoting road safety measures through the utilisation of advanced machine learning algorithms. However, existing datasets for multi-object tracking in traffic videos often feature limited instances or focus on single classes, which cannot well simulate the challenges encountered in complex traffic scenarios. To address this gap, we introduce TrafficMOT, an extensive dataset designed to encompass diverse traffic situations with complex scenarios. To validate the complexity and challenges presented by TrafficMOT, we conducted comprehensive empirical studies using three different settings: fully-supervised, semi-supervised, and a recent powerful zero-shot foundation model Tracking Anything Model (TAM). The experimental results highlight the inherent complexity of this dataset, emphasising its value in driving advancements in the field of traffic monitoring and multi-object tracking.
翻訳日:2023-12-01 15:02:41 公開日:2023-11-30
# 大規模データ時代のデータセット蒸留

Dataset Distillation in Large Data Era ( http://arxiv.org/abs/2311.18838v1 )

ライセンス: Link先を確認
Zeyuan Yin and Zhiqiang Shen(参考訳) データセット蒸留(dataset distillation)は、大規模なデータセットから小さなが代表的なサブセットを生成することを目的としている。 以前の多くの作業は、トレーニングウェイトトラジェクトリ、勾配、フィーチャー/バッチノーム分布など、オリジナルのデータセットのさまざまな側面と整合することを目的としていた。 本研究では,従来の入力解像度である224$\times$224で,sre$^2$l, tesla, mttなど,従来のアプローチよりも高い精度を実現するために,フルimagenet-1k/21kなどの大規模データセットを蒸留する方法を示す。 そこで本研究では,大規模画像Net-1K と 21K の精度を IPC (Images Per Class) 50 で 63.2% と IPC (Images Per Class) 50 で,36.1% の精度で取得したデータ合成における${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) を導入する。 最後に、すべての強化を統合することで、提案モデルがimagenet-1k/21kの現在のtop-1精度を4%以上上回り、初めてフルデータのトレーニング対象とのギャップを絶対15%未満に削減できることを示します。 さらに、この研究は、224$\times$224の解像度で大規模なImageNet-21K上でのデータセット蒸留の初歩的な成功を表している。 コードと20 IPCのImageNet-21Kデータセットは,https://github.com/VILA-Lab/SRe2L/tree/main/CDAで公開されている。

Dataset distillation aims to generate a smaller but representative subset from a large dataset, which allows a model to be trained efficiently, meanwhile evaluating on the original testing data distribution to achieve decent performance. Many prior works have aimed to align with diverse aspects of the original datasets, such as matching the training weight trajectories, gradient, feature/BatchNorm distributions, etc. In this work, we show how to distill various large-scale datasets such as full ImageNet-1K/21K under a conventional input resolution of 224$\times$224 to achieve the best accuracy over all previous approaches, including SRe$^2$L, TESLA and MTT. To achieve this, we introduce a simple yet effective ${\bf C}$urriculum ${\bf D}$ata ${\bf A}$ugmentation ($\texttt{CDA}$) during data synthesis that obtains the accuracy on large-scale ImageNet-1K and 21K with 63.2% under IPC (Images Per Class) 50 and 36.1% under IPC 20, respectively. Finally, we show that, by integrating all our enhancements together, the proposed model beats the current state-of-the-art by more than 4% Top-1 accuracy on ImageNet-1K/21K and for the first time, reduces the gap to its full-data training counterpart to less than absolute 15%. Moreover, this work represents the inaugural success in dataset distillation on larger-scale ImageNet-21K under the standard 224$\times$224 resolution. Our code and distilled ImageNet-21K dataset of 20 IPC, 2K recovery budget are available at https://github.com/VILA-Lab/SRe2L/tree/main/CDA.
翻訳日:2023-12-01 15:02:23 公開日:2023-11-30
# VIDiff:拡散モデルを用いたマルチモーダル命令による動画翻訳

VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models ( http://arxiv.org/abs/2311.18837v1 )

ライセンス: Link先を確認
Zhen Xing and Qi Dai and Zihao Zhang and Hui Zhang and Han Hu and Zuxuan Wu and Yu-Gang Jiang(参考訳) 拡散モデルは画像生成とビデオ生成で大きな成功を収めた。 これにより、提供されたテキスト記述に従ってビデオが編集されるビデオ編集タスクへの関心が高まる。 しかし、既存のアプローチのほとんどはショートクリップの動画編集にのみフォーカスし、時間を要するチューニングや推論に依存している。 幅広いビデオタスク用に設計された統一基盤モデルであるvidiff(video instruction diffusion)を最初に提案した。 これらのタスクは、理解タスク(言語誘導ビデオオブジェクトセグメンテーションなど)と生成タスク(ビデオ編集と拡張)の両方を包含する。 我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。 さらに,長いビデオの編集・拡張における一貫性を確保するために,反復的自動回帰手法を設計する。 様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。 その他の例は、私たちのWebサイトhttps://ChenHsing.github.io/VIDiffで確認できます。

Diffusion models have achieved significant success in image and video generation. This motivates a growing interest in video editing tasks, where videos are edited according to provided text descriptions. However, most existing approaches only focus on video editing for short clips and rely on time-consuming tuning or inference. We are the first to propose Video Instruction Diffusion (VIDiff), a unified foundation model designed for a wide range of video tasks. These tasks encompass both understanding tasks (such as language-guided video object segmentation) and generative tasks (video editing and enhancement). Our model can edit and translate the desired results within seconds based on user instructions. Moreover, we design an iterative auto-regressive method to ensure consistency in editing and enhancing long videos. We provide convincing generative results for diverse input videos and written instructions, both qualitatively and quantitatively. More examples can be found at our website https://ChenHsing.github.io/VIDiff.
翻訳日:2023-12-01 15:01:44 公開日:2023-11-30
# PoseGPT: 人間の3D写真

PoseGPT: Chatting about 3D Human Pose ( http://arxiv.org/abs/2311.18836v1 )

ライセンス: Link先を確認
Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Michael J. Black(参考訳) 本稿では,大規模言語モデル(LLM)を用いて画像やテキスト記述から3次元人間のポーズを理解し,推論するフレームワークであるPoseGPTを紹介する。 我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力、画像解釈、世界知識、身体言語を理解するプロセスによって動機付けられている。 従来の人間のポーズ推定手法は、画像ベースでもテキストベースでも、全体像の理解とニュアンスな推論を欠くことが多く、視覚データとその実世界の意味を解き放つ。 PoseGPT は、SMPL のポーズを異なる信号トークンとしてマルチモーダル LLM に埋め込むことによってこれらの制限に対処し、テキスト入力と視覚入力の両方から直接3Dボディのポーズを生成する。 このアプローチはポーズ予測を単純化するだけでなく、llmに人間のポーズに関する推論に世界知識を適用する権限を与え、投機的ポーズ生成とポーズ推定に関する推論という2つの高度なタスクを育む。 これらのタスクには、微妙なテキストクエリから人間の3dポーズを生成するための推論が含まれる。 従来の3Dポーズ生成および推定方法を超えて,これらのタスクのベンチマークを確立する。 以上の結果から,PoseGPT は既存のマルチモーダル LLM やタスク・セプシブな手法よりも優れていることがわかった。 さらに、複雑な推論に基づく3d人間のポーズを理解・生成するsponsgptの能力は、人間のポーズ分析において新たな方向を開く。

We introduce PoseGPT, a framework employing Large Language Models (LLMs) to understand and reason about 3D human poses from images or textual descriptions. Our work is motivated by the human ability to intuitively understand postures from a single image or a brief description, a process that intertwines image interpretation, world knowledge, and an understanding of body language. Traditional human pose estimation methods, whether image-based or text-based, often lack holistic scene comprehension and nuanced reasoning, leading to a disconnect between visual data and its real-world implications. PoseGPT addresses these limitations by embedding SMPL poses as a distinct signal token within a multi-modal LLM, enabling direct generation of 3D body poses from both textual and visual inputs. This approach not only simplifies pose prediction but also empowers LLMs to apply their world knowledge in reasoning about human poses, fostering two advanced tasks: speculative pose generation and reasoning about pose estimation. These tasks involve reasoning about humans to generate 3D poses from subtle text queries, possibly accompanied by images. We establish benchmarks for these tasks, moving beyond traditional 3D pose generation and estimation methods. Our results show that PoseGPT outperforms existing multimodal LLMs and task-sepcific methods on these newly proposed tasks. Furthermore, PoseGPT's ability to understand and generate 3D human poses based on complex reasoning opens new directions in human pose analysis.
翻訳日:2023-12-01 15:01:30 公開日:2023-11-30
# InstructSeq: 命令条件付きマルチモーダルシーケンス生成による視覚タスクの統合

InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation ( http://arxiv.org/abs/2311.18835v1 )

ライセンス: Link先を確認
Rongyao Fang, Shilin Yan, Zhaoyang Huang, Jingqiu Zhou, Hao Tian, Jifeng Dai, Hongsheng Li(参考訳) モデルに自然言語命令を通じて指定されたタスクを動的に達成させることは、より有能で一般的な人工知能への有望な道のりを示している。 本稿では,柔軟な自然言語制御と視覚データとテキストデータの処理を通じて多様な視覚タスクを統合する,命令条件付きマルチモーダルモデリングフレームワークinstructseqを紹介する。 instructseqは、ビジュアル、言語、シーケンシャルモデリングを含むマルチモーダルトランスフォーマーアーキテクチャを採用している。 視覚エンコーダを用いて画像特徴抽出を行い,テキストエンコーダを用いて命令を符号化する。 自己回帰変圧器は、表現を融合して逐次タスク出力を生成する。 LLM生成した自然言語命令でトレーニングすることで、InstructSeqは視覚タスクを特定するための自由形式の命令の強力な理解を得る。 これは柔軟な自然な命令を使って、直感的な指示のためのインターフェースを提供する。 タスク固有のチューニングがなければ、InstructSeqはセマンティックセグメンテーション、表現セグメンテーション/理解、イメージキャプションなどの魅力的なパフォーマンスを達成する。 柔軟な制御とマルチタスク統合により、コンピュータビジョンの汎用性と汎用性が向上する。 コードは近くhttps://github.com/rongyaofang/instructseqでリリースされる。

Empowering models to dynamically accomplish tasks specified through natural language instructions represents a promising path toward more capable and general artificial intelligence. In this work, we introduce InstructSeq, an instruction-conditioned multi-modal modeling framework that unifies diverse vision tasks through flexible natural language control and handling of both visual and textual data. InstructSeq employs a multimodal transformer architecture encompassing visual, language, and sequential modeling. We utilize a visual encoder to extract image features and a text encoder to encode instructions. An autoregressive transformer fuses the representations and generates sequential task outputs. By training with LLM-generated natural language instructions, InstructSeq acquires a strong comprehension of free-form instructions for specifying visual tasks. This provides an intuitive interface for directing capabilities using flexible natural instructions. Without any task-specific tuning, InstructSeq achieves compelling performance on semantic segmentation, referring expression segmentation/comprehension, and image captioning. The flexible control and multi-task unification empower the model with more human-like versatility and generalizability for computer vision. The code will be released soon at https://github.com/rongyaofang/InstructSeq.
翻訳日:2023-12-01 15:01:02 公開日:2023-11-30
# ART$\boldsymbol{\cdot}$V:拡散モデルを用いた自動回帰テキスト・ビデオ生成

ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models ( http://arxiv.org/abs/2311.18834v1 )

ライセンス: Link先を確認
Wenming Weng, Ruoyu Feng, Yanhui Wang, Qi Dai, Chunyu Wang, Dacheng Yin, Zhiyuan Zhao, Kai Qiu, Jianmin Bao, Yuhui Yuan, Chong Luo, Yueyi Zhang, Zhiwei Xiong(参考訳) 本稿では,拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークART$\boldsymbol{\cdot}$Vを提案する。 ビデオ全体をワンショットで生成する既存の方法とは異なり、art$\boldsymbol{\cdot}$vは1つのフレームを一度に生成する。 このフレームワークには3つの利点がある。 まず、隣接するフレーム間の単純な連続運動のみを学習するため、巨大なトレーニングデータを必要とする複雑な長距離運動のモデリングを避ける。 第2に,ネットワーク修正を最小限にすることで,事前学習した画像拡散モデルの高忠実度生成能力を維持する。 第3に、テキストや画像、それらの組み合わせなど、さまざまなプロンプトを条件とした任意に長いビデオを生成することで、汎用性と柔軟性が向上する。 そこで本研究では,arモデルにおける共通のドリフト問題に対処するため,ネットワーク予測ではなく,参照画像からどの情報を描画できるかを暗黙的に学習するマスク拡散モデルを提案する。 さらに、通常最小のノイズを含む初期フレームに条件付けすることで、生成コヒーレンスをさらに向上させる。 これは長編ビデオ生成に特に有用である。 ART$\boldsymbol{\cdot}$Vは4つのGPUでわずか2週間のトレーニングを受けただけで、自然な動き、豊富な詳細、高いレベルの美的品質の動画を作成できる。 さらに、複数のテキストプロンプトから長いビデオを構成するなど、さまざまな魅力的なアプリケーションが可能になる。

We present ART$\boldsymbol{\cdot}$V, an efficient framework for auto-regressive video generation with diffusion models. Unlike existing methods that generate entire videos in one-shot, ART$\boldsymbol{\cdot}$V generates a single frame at a time, conditioned on the previous ones. The framework offers three distinct advantages. First, it only learns simple continual motions between adjacent frames, therefore avoiding modeling complex long-range motions that require huge training data. Second, it preserves the high-fidelity generation ability of the pre-trained image diffusion models by making only minimal network modifications. Third, it can generate arbitrarily long videos conditioned on a variety of prompts such as text, image or their combinations, making it highly versatile and flexible. To combat the common drifting issue in AR models, we propose masked diffusion model which implicitly learns which information can be drawn from reference images rather than network predictions, in order to reduce the risk of generating inconsistent appearances that cause drifting. Moreover, we further enhance generation coherence by conditioning it on the initial frame, which typically contains minimal noise. This is particularly useful for long video generation. When trained for only two weeks on four GPUs, ART$\boldsymbol{\cdot}$V already can generate videos with natural motions, rich details and a high level of aesthetic quality. Besides, it enables various appealing applications, e.g., composing a long video from multiple text prompts.
翻訳日:2023-12-01 15:00:41 公開日:2023-11-30
# 一般化可能な画素レベルセマンティック予測に先立つ爆発拡散

Exploiting Diffusion Prior for Generalizable Pixel-Level Semantic Prediction ( http://arxiv.org/abs/2311.18832v1 )

ライセンス: Link先を確認
Hsin-Ying Lee, Hung-Yu Tseng, Hsin-Ying Lee, Ming-Hsuan Yang(参考訳) 最近のadvanced text-to-image (t2i) 拡散モデルによって生成されたコンテンツは、既成のオフ・ザ・棚特性意味予測器にとって想像力に乏しい場合がある。 画素レベルのセマンティック予測タスクの先行処理として,事前学習したT2Iモデルを利用したパイプラインDMPを導入する。 決定論的予測タスクと確率的T2Iモデルとのミスアライメントに対処するため、補間列を通じて拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。 一般化性を維持するため、我々は微調整事前訓練モデルへの低ランク適応を用いる。 3次元特性推定,セマンティックセグメンテーション,固有画像分解を含む5つのタスクにわたる大規模な実験により,提案手法の有効性が示された。 限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを上回る。

Contents generated by recent advanced Text-to-Image (T2I) diffusion models are sometimes too imaginative for existing off-the-shelf property semantic predictors to estimate due to the immitigable domain gap. We introduce DMP, a pipeline utilizing pre-trained T2I models as a prior for pixel-level semantic prediction tasks. To address the misalignment between deterministic prediction tasks and stochastic T2I models, we reformulate the diffusion process through a sequence of interpolations, establishing a deterministic mapping between input RGB images and output prediction distributions. To preserve generalizability, we use low-rank adaptation to fine-tune pre-trained models. Extensive experiments across five tasks, including 3D property estimation, semantic segmentation, and intrinsic image decomposition, showcase the efficacy of the proposed method. Despite limited-domain training data, the approach yields faithful estimations for arbitrary images, surpassing existing state-of-the-art algorithms.
翻訳日:2023-12-01 15:00:11 公開日:2023-11-30
# MotionEditor:コンテンツ認識拡散による動画の編集

MotionEditor: Editing Video Motion via Content-Aware Diffusion ( http://arxiv.org/abs/2311.18830v1 )

ライセンス: Link先を確認
Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang(参考訳) 既存の拡散型ビデオ編集モデルでは、ソースビデオの属性を時間をかけて編集する際、元の主人公の外観や背景を保ちながら、動作情報を操作するのに苦労している。 そこで本稿では,ビデオ動画編集のための拡散モデルであるmotioneditorを提案する。 MotionEditorは、新しいコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。 controlnetはスケルトンポーズに基づく直接生成を可能にするが、ノイズ(ソース)と条件(参照)との相反する信号による逆ノイズの音源運動を変更する際の課題に遭遇する。 本アダプタは、制御信号をシームレスに転送するために、ソースコンテンツを含む制御ネットを補完する。 さらに,2分岐アーキテクチャ(再構築ブランチと編集ブランチ)を構築し,枝の相互作用を容易にする高忠実度注意注入機構を構築した。 この機構により、編集ブランチが復元ブランチからキーと値を分離してクエリし、編集ブランチが元の背景と主人公の外観を維持することができる。 また,ポーズサイズと位置の差異に対処するためのスケルトンアライメントアルゴリズムを提案する。 実験では,MotionEditorの有望な動作編集能力を質的かつ定量的に示す。

Existing diffusion-based video editing models have made gorgeous advances for editing attributes of a source video over time but struggle to manipulate the motion information while preserving the original protagonist's appearance and background. To address this, we propose MotionEditor, a diffusion model for video motion editing. MotionEditor incorporates a novel content-aware motion adapter into ControlNet to capture temporal motion correspondence. While ControlNet enables direct generation based on skeleton poses, it encounters challenges when modifying the source motion in the inverted noise due to contradictory signals between the noise (source) and the condition (reference). Our adapter complements ControlNet by involving source content to transfer adapted control signals seamlessly. Further, we build up a two-branch architecture (a reconstruction branch and an editing branch) with a high-fidelity attention injection mechanism facilitating branch interaction. This mechanism enables the editing branch to query the key and value from the reconstruction branch in a decoupled manner, making the editing branch retain the original background and protagonist appearance. We also propose a skeleton alignment algorithm to address the discrepancies in pose size and position. Experiments demonstrate the promising motion editing ability of MotionEditor, both qualitatively and quantitatively.
翻訳日:2023-12-01 14:59:40 公開日:2023-11-30
# MicroCinema:テキスト・ビデオ・ジェネレーションのための分断型アプローチ

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation ( http://arxiv.org/abs/2311.18829v1 )

ライセンス: Link先を確認
Yanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin, Tao Yang, Jingxu Zhang, Qi Dai Zhiyuan Zhao, Chunyu Wang, Kai Qiu, Yuhui Yuan, Xiaoyan Sun, Chong Luo, Baining Guo(参考訳) 高品質でコヒーレントなテキスト対ビデオ生成のための,単純かつ効果的なフレームワークであるmicrocinemaを提案する。 テキストプロンプトとビデオを直接結びつける既存のアプローチとは異なり、microcinemaでは、テキストからビデオへの分割と分割という2段階のプロセスを導入している。 この戦略には2つの大きな利点がある。 a) 安定拡散、ミッドジャーニー、ダルルといった最近のテキスト対画像モデルの進歩を最大限に活用し、フォトリアリスティックで高精細な画像を生成することができる。 b) 生成された画像を活用することで,運動力学の効率的な学習を優先して,細部への焦点を小さくすることができる。 この戦略を効果的に実施するために,2つのコア設計を導入する。 まず,画像の外観の保存性を高めた外観注入ネットワークを提案する。 第2に,事前学習した2次元拡散モデルの能力を維持するための新しいメカニズムである外観雑音優先法を導入する。 これらのデザイン要素により、マイクロシネマは、提供されたテキストプロンプトによって、正確な動きで高品質なビデオを生成することができる。 大規模な実験は提案フレームワークの優位性を実証している。 具体的には、microCinemaはUCF-101では342.86、MSR-VTTでは377.40のSOTAゼロショットFVDを達成する。 ビデオサンプルはhttps://wangyanhui666.github.io/microcinema.github.io/を参照。

We present MicroCinema, a straightforward yet effective framework for high-quality and coherent text-to-video generation. Unlike existing approaches that align text prompts with video directly, MicroCinema introduces a Divide-and-Conquer strategy which divides the text-to-video into a two-stage process: text-to-image generation and image\&text-to-video generation. This strategy offers two significant advantages. a) It allows us to take full advantage of the recent advances in text-to-image models, such as Stable Diffusion, Midjourney, and DALLE, to generate photorealistic and highly detailed images. b) Leveraging the generated image, the model can allocate less focus to fine-grained appearance details, prioritizing the efficient learning of motion dynamics. To implement this strategy effectively, we introduce two core designs. First, we propose the Appearance Injection Network, enhancing the preservation of the appearance of the given image. Second, we introduce the Appearance Noise Prior, a novel mechanism aimed at maintaining the capabilities of pre-trained 2D diffusion models. These design elements empower MicroCinema to generate high-quality videos with precise motion, guided by the provided text prompts. Extensive experiments demonstrate the superiority of the proposed framework. Concretely, MicroCinema achieves SOTA zero-shot FVD of 342.86 on UCF-101 and 377.40 on MSR-VTT. See https://wangyanhui666.github.io/MicroCinema.github.io/ for video samples.
翻訳日:2023-12-01 14:59:24 公開日:2023-11-30
# 分布整合蒸留によるワンステップ拡散

One-step Diffusion with Distribution Matching Distillation ( http://arxiv.org/abs/2311.18828v1 )

ライセンス: Link先を確認
Tianwei Yin, Micha\"el Gharbi, Richard Zhang, Eli Shechtman, Fr\'edo Durand, William T. Freeman, Taesung Park(参考訳) 拡散モデルは高品質な画像を生成するが、数十の前方通過を必要とする。 本稿では,拡散モデルを画像品質に最小限の影響を与えるワンステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。 我々は,2つのスコア関数,1つのターゲット分布,および1つのステップ生成器によって生成される合成分布の差として勾配を表現可能な近似KL分散を最小化することにより,拡散モデルと分布レベルで一致したワンステップ画像生成装置を強制する。 スコア関数は、各分布で個別に訓練された2つの拡散モデルとしてパラメータ化される。 多段拡散出力の大規模構造に適合する簡単な回帰損失を組み合わせることで,imagenet 64x64では2.62 fid,ゼロショットcoco-30kでは11.49 fidとなり,安定拡散に匹敵するほど高速である。 FP16推論を用いることで、最新のハードウェア上で20FPSで画像を生成することができる。

Diffusion models generate high-quality images but require dozens of forward passes. We introduce Distribution Matching Distillation (DMD), a procedure to transform a diffusion model into a one-step image generator with minimal impact on image quality. We enforce the one-step image generator match the diffusion model at distribution level, by minimizing an approximate KL divergence whose gradient can be expressed as the difference between 2 score functions, one of the target distribution and the other of the synthetic distribution being produced by our one-step generator. The score functions are parameterized as two diffusion models trained separately on each distribution. Combined with a simple regression loss matching the large-scale structure of the multi-step diffusion outputs, our method outperforms all published few-step diffusion approaches, reaching 2.62 FID on ImageNet 64x64 and 11.49 FID on zero-shot COCO-30k, comparable to Stable Diffusion but orders of magnitude faster. Utilizing FP16 inference, our model can generate images at 20 FPS on modern hardware.
翻訳日:2023-12-01 14:59:01 公開日:2023-11-30
# 映像編集のための動画像アニメーション

Motion-Conditioned Image Animation for Video Editing ( http://arxiv.org/abs/2311.18827v1 )

ライセンス: Link先を確認
Wilson Yan, Andrew Brown, Pieter Abbeel, Rohit Girdhar, Samaneh Azadi(参考訳) 動画編集のためのモーションコンディション画像アニメーション手法であるMoCAを紹介する。 ビデオ編集問題の簡単な分解を画像編集に活用し、次にモーションコンディショニング画像アニメーションを利用する。 さらに,ビデオ編集にロバストな評価データセットが欠如していることを踏まえ,オブジェクト置換,バックグラウンド変更,スタイル変更,モーション編集など,さまざまなタスクにおける編集能力を測定する新たなベンチマークを導入する。 提案するベンチマークでは,MoCAとともに最新の映像編集手法の総合的評価を行う。 MoCAは新たな最先端技術を確立し、人間の好みの勝利率を高め、Dreamix(63%)、MathCtrl(7%)、Tune-A-Video(72%)など、最近の注目すべきアプローチよりも優れており、特にモーション編集の大幅な改善がある。

We introduce MoCA, a Motion-Conditioned Image Animation approach for video editing. It leverages a simple decomposition of the video editing problem into image editing followed by motion-conditioned image animation. Furthermore, given the lack of robust evaluation datasets for video editing, we introduce a new benchmark that measures edit capability across a wide variety of tasks, such as object replacement, background changes, style changes, and motion edits. We present a comprehensive human evaluation of the latest video editing methods along with MoCA, on our proposed benchmark. MoCA establishes a new state-of-the-art, demonstrating greater human preference win-rate, and outperforming notable recent approaches including Dreamix (63%), MasaCtrl (75%), and Tune-A-Video (72%), with especially significant improvements for motion edits.
翻訳日:2023-12-01 14:58:40 公開日:2023-11-30
# 最適因果推論のためのWasserstein流れの幾何学的正規化

Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal Inference ( http://arxiv.org/abs/2311.18826v1 )

ライセンス: Link先を確認
Kaiwen Hou(参考訳) この原稿は、因果推論における連続正規化フロー(CNF)の枠組みを強化し、主に目標最大推定(TMLE)に使用されるパラメトリックサブモデルの幾何学的性質を増大させる。 CNFの革新的な応用を導入することにより、先行分布の$p_0$と経験分布の$p_1$との直接補間を可能にする改良されたパラメトリックサブモデルを構築する。 提案手法は, Wsserstein勾配流に整合するようにCNFを編成することにより, 因果推論における半パラメトリック効率を最適化する。 提案手法は, 推定における平均二乗誤差を最小限に抑えるだけでなく, 幾何的高度化による推定器にも適用し, 誤特定に対する堅牢性を高める。 この頑健性は、tmle における二重ロバスト摂動方向の標準 $n^{\frac{1}{4}}$ の依存性を緩和するため重要である。 強固な最適化原理と微分幾何学を推定器に組み込むことにより、開発された幾何対応のcnfは二重に強固な因果推論の追求において重要な進歩を示している。

This manuscript enriches the framework of continuous normalizing flows (CNFs) within causal inference, primarily to augment the geometric properties of parametric submodels used in targeted maximum likelihood estimation (TMLE). By introducing an innovative application of CNFs, we construct a refined series of parametric submodels that enable a directed interpolation between the prior distribution $p_0$ and the empirical distribution $p_1$. This proposed methodology serves to optimize the semiparametric efficiency bound in causal inference by orchestrating CNFs to align with Wasserstein gradient flows. Our approach not only endeavors to minimize the mean squared error in the estimation but also imbues the estimators with geometric sophistication, thereby enhancing robustness against misspecification. This robustness is crucial, as it alleviates the dependence on the standard $n^{\frac{1}{4}}$ rate for a doubly-robust perturbation direction in TMLE. By incorporating robust optimization principles and differential geometry into the estimators, the developed geometry-aware CNFs represent a significant advancement in the pursuit of doubly robust causal inference.
翻訳日:2023-12-01 14:58:24 公開日:2023-11-30
# CAST: 空間と時間におけるクロスアテンションとビデオアクション認識

CAST: Cross-Attention in Space and Time for Video Action Recognition ( http://arxiv.org/abs/2311.18825v1 )

ライセンス: Link先を確認
Dongho Lee, Jongseo Lee, Jinwoo Choi(参考訳) ビデオにおける人間の行動を認識するには、空間的および時間的理解が必要である。 既存のアクション認識モデルはビデオの時空間的バランスの取れていない。 本研究では,RGB入力のみを用いたビデオの時空間的バランスの取れた理解を実現する,CAST(Cross-Attention in Space and Time)と呼ばれる新しい2ストリームアーキテクチャを提案する。 提案するボトルネック・クロスアテンション機構により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となり,性能が向上する。 本研究では,EPIC-KITCHENS-100, something-Something-V2, Kinetics-400 という,異なる特徴を持つ公開ベンチマークを用いて提案手法の有効性を検証した。 既存の手法の性能はデータセット特性によって変動するが,本手法はデータセット全体で良好に性能を示す。

Recognizing human actions in videos requires spatial and temporal understanding. Most existing action recognition models lack a balanced spatio-temporal understanding of videos. In this work, we propose a novel two-stream architecture, called Cross-Attention in Space and Time (CAST), that achieves a balanced spatio-temporal understanding of videos using only RGB input. Our proposed bottleneck cross-attention mechanism enables the spatial and temporal expert models to exchange information and make synergistic predictions, leading to improved performance. We validate the proposed method with extensive experiments on public benchmarks with different characteristics: EPIC-KITCHENS-100, Something-Something-V2, and Kinetics-400. Our method consistently shows favorable performance across these datasets, while the performance of existing methods fluctuates depending on the dataset characteristics.
翻訳日:2023-12-01 14:58:00 公開日:2023-11-30
# 不確実環境に対するネットワークトラフィック予測の一般化のための適応的フレームワーク

An Adaptive Framework for Generalizing Network Traffic Prediction towards Uncertain Environments ( http://arxiv.org/abs/2311.18824v1 )

ライセンス: Link先を確認
Alexander Downey and Evren Tuna and Alkan Soysal(参考訳) 我々は,従来の無線環境におけるモバイルネットワークトラフィック予測モデルを動的に割り当てるために,時系列解析を用いた新しいフレームワークを開発した。 我々のフレームワークは、学習された振る舞いを選択的に採用し、現在の研究と比較して50%以上改善した1つのモデルよりも優れています。 さらに重要なのは、セルの事前知識を必要とせずに、従来のアプローチを超えることだ。 本稿では,適応予測フレームワークを用いたネットワークトラフィック予測に注目する一方で,不確定な環境での他の機械学習アプリケーションにも適用可能である。 このフレームワークは、時系列データの教師なしクラスタリングから始まり、ユニークな傾向と季節パターンを識別する。 次に,各クラスタ内のトラフィック量予測に教師あり学習を適用する。 この特定の交通行動に対する特殊化は、空間的および時間的変動による罰則を伴わない。 最後に、フレームワークは訓練されたモデルを新しい未発見のセルに適応的に割り当てる。 セルのリアルタイム計測を解析することにより,クラスタ割り当てを時空間変動に動的に調整し,任意の時間にそのセルに適したクラスタをインテリジェントに選択する。

We have developed a new framework using time-series analysis for dynamically assigning mobile network traffic prediction models in previously unseen wireless environments. Our framework selectively employs learned behaviors, outperforming any single model with over a 50% improvement relative to current studies. More importantly, it surpasses traditional approaches without needing prior knowledge of a cell. While this paper focuses on network traffic prediction using our adaptive forecasting framework, this framework can also be applied to other machine learning applications in uncertain environments. The framework begins with unsupervised clustering of time-series data to identify unique trends and seasonal patterns. Subsequently, we apply supervised learning for traffic volume prediction within each cluster. This specialization towards specific traffic behaviors occurs without penalties from spatial and temporal variations. Finally, the framework adaptively assigns trained models to new, previously unseen cells. By analyzing real-time measurements of a cell, our framework intelligently selects the most suitable cluster for that cell at any given time, with cluster assignment dynamically adjusting to spatio-temporal fluctuations.
翻訳日:2023-12-01 14:57:44 公開日:2023-11-30
# 絡み合いと非局所性の相互作用の理解--絡み合い理論の新分野の動機付けと展開

Understanding the interplay of entanglement and nonlocality: motivating and developing a new branch of entanglement theory ( http://arxiv.org/abs/2004.09194v4 )

ライセンス: Link先を確認
David Schmid, Thomas C. Fraser, Ravi Kunjwal, Ana Belen Sainz, Elie Wolfe, Robert W. Spekkens(参考訳) 資源を定量化するための標準的なアプローチは、資源のどの操作が自由に利用できるかを決定し、自由操作の下での変換可能性の関係によって引き起こされる資源上の部分順序を推定することである。 興味のある資源が量子状態(すなわち絡み合い)に具現化された相関の非古典性であれば、自由操作の適切な選択は局所的操作と古典的通信(locc)である、という仮定が一般的である。 ここでは自由操作の異なる選択、すなわち局所操作と共有ランダム性(losr)の研究を提唱し、ベル実験における状態の絡み合いと相関関係の非局所性の間の相互作用を理解する上での有用性を実証する。 具体的には ロスのパラダイムが (i)非局所性の異常を解決し、部分的絡み合い状態は最大絡み合い状態よりも非局所性を示す。 (ii) 従来の概念の病理学的特徴を欠いた真の多元的絡み合いと非局所性の新たな概念を包含する。 (iii)事前結果を一般化し単純化する絡み合った状態の自己テストについて、資源理論的な説明が可能となる。 その過程で、losr下での純粋なエンタングル状態間の変換性に必要な十分条件に関する基礎的な結果が導出され、二成分純粋な状態の触媒化の不可能性など、それらの結果のいくつかを強調する。 資源理論の観点からも、ベルの不等式に違反しない混合絡み状態が存在することは驚きでも問題でもない。 本研究は,新しい絡み合い理論の分野としてのLOSR絡み合いの研究を動機づけるものである。

A standard approach to quantifying resources is to determine which operations on the resources are freely available, and to deduce the partial order over resources that is induced by the relation of convertibility under the free operations. If the resource of interest is the nonclassicality of the correlations embodied in a quantum state, i.e., entanglement, then the common assumption is that the appropriate choice of free operations is Local Operations and Classical Communication (LOCC). We here advocate for the study of a different choice of free operations, namely, Local Operations and Shared Randomness (LOSR), and demonstrate its utility in understanding the interplay between the entanglement of states and the nonlocality of the correlations in Bell experiments. Specifically, we show that the LOSR paradigm (i) provides a resolution of the anomalies of nonlocality, wherein partially entangled states exhibit more nonlocality than maximally entangled states, (ii) entails new notions of genuine multipartite entanglement and nonlocality that are free of the pathological features of the conventional notions, and (iii) makes possible a resource-theoretic account of the self-testing of entangled states which generalizes and simplifies prior results. Along the way, we derive some fundamental results concerning the necessary and sufficient conditions for convertibility between pure entangled states under LOSR and highlight some of their consequences, such as the impossibility of catalysis for bipartite pure states. The resource-theoretic perspective also clarifies why it is neither surprising nor problematic that there are mixed entangled states which do not violate any Bell inequality. Our results motivate the study of LOSR-entanglement as a new branch of entanglement theory.
翻訳日:2023-12-01 13:11:43 公開日:2023-11-30
# 生物デザインツールの責任あるガバナンスに向けて

Towards Responsible Governance of Biological Design Tools ( http://arxiv.org/abs/2311.15936v3 )

ライセンス: Link先を確認
Richard Moulange, Max Langenkamp, Tessa Alexanian, Samuel Curtis, Morgan Livingston(参考訳) 生成機械学習の最近の進歩は、タンパク質構造やシーケンス予測モデルなどの生物設計ツール(BDT)の急速な進歩を可能にしている。 前例のないBDTの予測精度と新規設計能力は、新しい重要な二重利用リスクをもたらす。 例えば、それらの予測精度は、ワクチンや病原体などの生物学的エージェントをより迅速に開発することを可能にし、その設計能力は薬物の発見やDNAスクリーニングの回避に利用できる。 他のデュアルユースAIシステムと同様、BDTも悪質な問題を抱えている。 我々は、大規模な言語モデルに主に適合する現在の規制提案が、トレーニングする計算リソースを少なくし、しばしばオープンソースで開発されるBDTにとって、いかに効果が低いかを強調した。 我々は、bdtが誤用されるリスクを軽減し、責任ある開発、リスクアセスメント、透明性、アクセス管理、サイバーセキュリティ、レジリエンス投資の分野にまたがる幅広い対策を提案する。 このような措置を実施するには、開発者と政府間の緊密な調整が必要である。

Recent advancements in generative machine learning have enabled rapid progress in biological design tools (BDTs) such as protein structure and sequence prediction models. The unprecedented predictive accuracy and novel design capabilities of BDTs present new and significant dual-use risks. For example, their predictive accuracy allows biological agents, whether vaccines or pathogens, to be developed more quickly, while the design capabilities could be used to discover drugs or evade DNA screening techniques. Similar to other dual-use AI systems, BDTs present a wicked problem: how can regulators uphold public safety without stifling innovation? We highlight how current regulatory proposals that are primarily tailored toward large language models may be less effective for BDTs, which require fewer computational resources to train and are often developed in an open-source manner. We propose a range of measures to mitigate the risk that BDTs are misused, across the areas of responsible development, risk assessment, transparency, access management, cybersecurity, and investing in resilience. Implementing such measures will require close coordination between developers and governments.
翻訳日:2023-12-01 13:08:49 公開日:2023-11-30
# アクションカスタマイズテキスト・画像生成のための不整合同定器の学習

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation ( http://arxiv.org/abs/2311.15841v2 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang(参考訳) 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。 このタスクの目的は、限られたデータから共存する行動を学習し、目に見えない人間や動物に一般化することである。 実験の結果,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈特徴から行動の分離に苦慮していることがわかった。 低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。 ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現の豊かさを高める。 次に、動作非依存な特徴の反転をブロックするために、adiは構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新をマスクする。 タスクを包括的に評価するために,様々なアクションを含むactionbenchを,細心の注意を払って選択したサンプルとともに提示する。 定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインよりも優れていた。 プロジェクトページはhttps://adi-t2i.github.io/ADI.com/。

This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation. Our project page is at https://adi-t2i.github.io/ADI.
翻訳日:2023-12-01 13:08:33 公開日:2023-11-30
# check, location, rectify:テキスト対画像生成のためのトレーニングフリーレイアウトキャリブレーションシステム

Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation ( http://arxiv.org/abs/2311.15773v2 )

ライセンス: Link先を確認
Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu(参考訳) 拡散モデルは最近、現実的な画像の生成において顕著な進歩を遂げた。 しかし、テキストプロンプトのレイアウト要求を正確に理解し、合成することは依然として課題である。 生成した画像をレイアウト指示と整合させるため,推定時間中に生成過程に介入するトレーニング不要なレイアウトキャリブレーションシステムSimMを提案する。 具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。 そして、配置されたアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、整流処理を無視できる計算オーバーヘッドで行うことができる。 レイアウト要求の範囲でSimMを評価するため,既存のデータセットの空間関係の欠如を補うベンチマークSimMBenchを提案する。 また, 定量的および定性的な結果から, レイアウトの不整合の校正におけるSimMの有効性が示された。 プロジェクトページはhttps://simm-t2i.github.io/SimM.com/。

Diffusion models have recently achieved remarkable progress in generating realistic images. However, challenges remain in accurately understanding and synthesizing the layout requirements in the textual prompts. To align the generated image with layout instructions, we present a training-free layout calibration system SimM that intervenes in the generative process on the fly during inference time. Specifically, following a "check-locate-rectify" pipeline, the system first analyses the prompt to generate the target layout and compares it with the intermediate outputs to automatically detect errors. Then, by moving the located activations and making intra- and inter-map adjustments, the rectification process can be performed with negligible computational overhead. To evaluate SimM over a range of layout requirements, we present a benchmark SimMBench that compensates for the lack of superlative spatial relations in existing datasets. And both quantitative and qualitative results demonstrate the effectiveness of the proposed SimM in calibrating the layout inconsistencies. Our project page is at https://simm-t2i.github.io/SimM.
翻訳日:2023-12-01 13:08:07 公開日:2023-11-30
# KOPPA: Key-Query Orthogonal ProjectionとプロトタイプベースのOne-Versus-AllによるPromptベースの継続的学習の改善

KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All ( http://arxiv.org/abs/2311.15414v2 )

ライセンス: Link先を確認
Quyen Tran, Lam Tran, Khoat Than, Toan Tran, Dinh Phung, Trung Le(参考訳) 大規模言語モデルに適用された即時チューニング技術からインスピレーションを得た最近のViTネットワークは,連続学習分野において顕著な成果を上げている。 具体的には、一連のプロンプトを維持し、そのサブセットをキー-クエリマッチング戦略を用いて各タスクの学習に割り当てることを提案する。 しかしながら、古いタスククエリと将来のタスクのキーとの相関性、潜在空間の特徴のシフト、独立したタスクで学習された潜在ベクトルの相対的分離の制御を欠くと、制限を受ける可能性がある。 本研究では,モデルに依存しないメタラーニングにインスパイアされた直交投影に基づく新しいキークエリ学習戦略を導入する。 さらに,OVA(One-Versus-All)のプロトタイプベースコンポーネントを導入し,分類ヘッドの区別を強化する。 ベンチマークデータを用いた実験結果から,提案手法は,現在の最先端手法を最大20%超える結果が得られることを示した。

Drawing inspiration from prompt tuning techniques applied to Large Language Models, recent methods based on pre-trained ViT networks have achieved remarkable results in the field of Continual Learning. Specifically, these approaches propose to maintain a set of prompts and allocate a subset of them to learn each task using a key-query matching strategy. However, they may encounter limitations when lacking control over the correlations between old task queries and keys of future tasks, the shift of features in the latent space, and the relative separation of latent vectors learned in independent tasks. In this work, we introduce a novel key-query learning strategy based on orthogonal projection, inspired by model-agnostic meta-learning, to enhance prompt matching efficiency and address the challenge of shifting features. Furthermore, we introduce a One-Versus-All (OVA) prototype-based component that enhances the classification head distinction. Experimental results on benchmark datasets demonstrate that our method empowers the model to achieve results surpassing those of current state-of-the-art approaches by a large margin of up to 20%.
翻訳日:2023-12-01 13:07:20 公開日:2023-11-30
# SAR船舶分類のための手作り共同特徴ビュー付きデュアルストリームコントラスト予測ネットワーク

Dual-stream contrastive predictive network with joint handcrafted feature view for SAR ship classification ( http://arxiv.org/abs/2311.15202v2 )

ライセンス: Link先を確認
Xianting Feng, Hao zheng, Zhigang Hu, Liu Yang, Meiguang Zheng(参考訳) 既存の合成開口レーダー(SAR)の船種分類技術は、ラベルのないSARの船種画像の識別特性を無視して、正確なラベル付きデータに大きく依存している。 研究者は従来の手作りの機能を取り入れてCNNベースの機能を充実させようとするが、既存の手法は情報冗長性を容易に引き起こし、それらの相互作用を捉えるのに失敗する。 これらの問題に対処するために,2つの非対称なタスク設計と偽陰性サンプル除去モジュールからなる新しい二ストリームコントラスト予測ネットワーク(DCPNet)を提案する。 最初のタスクは正のサンプルペアを構築し、コアエンコーダにより一般的な表現を学習させることである。 第2の課題は, 深部特徴と手話特徴との対応を適応的に把握し, モデル内での知識伝達を実現し, 特徴融合による冗長性を効果的に改善することである。 クラスタ間の分離性を高めるため、クラスタレベルのタスクも設計する。 OpenSARShipとFUSAR-Shipデータセットの実験結果は、教師付きモデルの分類精度の向上を示し、DCPNetの効果的な表現の学習能力を確認する。

Most existing synthetic aperture radar (SAR) ship classification technologies heavily rely on correctly labeled data, ignoring the discriminative features of unlabeled SAR ship images. Even though researchers try to enrich CNN-based features by introducing traditional handcrafted features, existing methods easily cause information redundancy and fail to capture the interaction between them. To address these issues, we propose a novel dual-stream contrastive predictive network (DCPNet), which consists of two asymmetric task designs and the false negative sample elimination module. The first task is to construct positive sample pairs, guiding the core encoder to learn more general representations. The second task is to encourage adaptive capture of the correspondence between deep features and handcrated features, achieving knowledge transfer within the model, and effectively improving the redundancy caused by the feature fusion. To increase the separability between clusters, we also design a cluster-level tasks. The experimental results on OpenSARShip and FUSAR-Ship datasets demonstrate the improvement in classification accuracy of supervised models and confirm the capability of learning effective representations of DCPNet.
翻訳日:2023-12-01 13:06:49 公開日:2023-11-30
# スケーラブルな3次元異常検出と局所化に向けて:3次元異常合成と自己改善学習ネットワークによるベンチマーク

Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network ( http://arxiv.org/abs/2311.14897v3 )

ライセンス: Link先を確認
Wenqiao Li, Xiaohao Xu, Yao Gu, Bozhong Zheng, Shenghua Gao, Yingna Wu(参考訳) 近年,細粒度形状の識別に関わる重要な問題である3次元異常検出が注目されている。 しかし、豊富な実3D異常データの欠如は、現在のモデルのスケーラビリティを制限している。 スケーラブルな異常データ収集を実現するため,既存の大規模3次元モデルに適応する3次元異常合成パイプラインを提案する。 具体的には,ShapeNetに基づく合成データセット,すなわちAnomaly-ShapeNetを構築する。 Anomaly-ShapeNetは、40カテゴリ以下の1600点のクラウドサンプルで構成されており、豊かで多様なデータの収集を提供し、効率的なトレーニングと産業シナリオへの適応性の向上を可能にする。 一方,3次元異常局所化のためのスケーラブルな表現学習を実現するために,反復マスク再構成ネットワーク(IMRNet)を提案する。 学習中,ポイントクラウドダウンサンプリング中に異常な局所領域を保存できる幾何対応サンプルモジュールを提案する。 そして、ランダムに点パッチをマスクし、可視パッチを変換器に送信し、再構成に基づく自己監督を行う。 テスト中、ポイントクラウドは繰り返しマスク再構成ネットワークを通過し、各イテレーションの出力が次の入力となる。 最終再構成点雲と初期入力をマージして対比することにより, 異常を同定することに成功した。 実験の結果、IMRNetは従来の最先端の手法よりも優れており、Anomaly-ShapeNetデータセットでは66.1%、Real3D-ADデータセットでは72.5%である。 私たちのデータセットはhttps://github.com/Chopper-233/Anomaly-ShapeNetでリリースされます。

Recently, 3D anomaly detection, a crucial problem involving fine-grained geometry discrimination, is getting more attention. However, the lack of abundant real 3D anomaly data limits the scalability of current models. To enable scalable anomaly data collection, we propose a 3D anomaly synthesis pipeline to adapt existing large-scale 3Dmodels for 3D anomaly detection. Specifically, we construct a synthetic dataset, i.e., Anomaly-ShapeNet, basedon ShapeNet. Anomaly-ShapeNet consists of 1600 point cloud samples under 40 categories, which provides a rich and varied collection of data, enabling efficient training and enhancing adaptability to industrial scenarios. Meanwhile,to enable scalable representation learning for 3D anomaly localization, we propose a self-supervised method, i.e., Iterative Mask Reconstruction Network (IMRNet). During training, we propose a geometry-aware sample module to preserve potentially anomalous local regions during point cloud down-sampling. Then, we randomly mask out point patches and sent the visible patches to a transformer for reconstruction-based self-supervision. During testing, the point cloud repeatedly goes through the Mask Reconstruction Network, with each iteration's output becoming the next input. By merging and contrasting the final reconstructed point cloud with the initial input, our method successfully locates anomalies. Experiments show that IMRNet outperforms previous state-of-the-art methods, achieving 66.1% in I-AUC on Anomaly-ShapeNet dataset and 72.5% in I-AUC on Real3D-AD dataset. Our dataset will be released at https://github.com/Chopper-233/Anomaly-ShapeNet
翻訳日:2023-12-01 13:06:19 公開日:2023-11-30
# 分布シフト下における基礎モデルの正確な解析能力のベースライン解析

A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift ( http://arxiv.org/abs/2311.14743v3 )

ライセンス: Link先を確認
Ben Pikus, Will LeVine, Tony Chen, Sean Hendryx(参考訳) 基礎モデル、特にLarge Language Models (LLM)は近年広く注目を集め、採用されている。 強化学習(Reinforcement Learning with Human Feedback, RLHF)は、所望の行動を捉えるために報酬モデルを訓練し、LLMを整列させる。 これらの報酬モデルはまた、所望の行動にLLMの反応がどの程度順応するかを推測するために、推論時にも使われる。 しかしながら、これらの報酬モデルが分散シフトに対してどれほど堅牢かを測定する作業はほとんどありません。 本研究では,報奨モデルの性能 - 精度とキャリブレーション(精度と信頼性のアライメント)による測定 - が分布シフトによってどのように影響を受けるかを評価する。 我々は、OODプロンプトと応答による新しいキャリブレーションパターンと精度低下を示し、報酬モデルがプロンプトよりも応答の変化に敏感であることを示す。 さらに,報奨モデル設定に分類によく用いられるOOD検出手法を適用し,これらの分布変化をプロンプトや応答で検出する。

Foundation models, specifically Large Language Models (LLM's), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align an LLM. These reward models are additionally used at inference-time to estimate how well LLM responses adhere to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance - measured via accuracy and calibration (i.e. alignment between accuracy and confidence) - is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting in order to detect these distribution shifts in prompts and responses.
翻訳日:2023-12-01 13:05:49 公開日:2023-11-30
# DocPedia:Versatile文書理解のための周波数領域における大規模マルチモーダルモデルのパワーの解放

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding ( http://arxiv.org/abs/2311.11810v3 )

ライセンス: Link先を確認
Hao Feng and Qi Liu and Hao Liu and Wengang Zhou and Houqiang Li and Can Huang(参考訳) DocPediaは、OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)で、2,560$\times$2,560の解像度で画像を解析できる。 既存の作品が高解像度ドキュメントに苦しむか、ビジョンや言語能力に制約のある大きな言語モデルを諦めるかとは異なり、私たちのdocpediaはピクセル空間ではなく周波数領域で視覚入力を直接処理します。 ユニークな特徴により、docpediaは限られた数のビジュアルトークンを使用して、より多くのビジュアル情報とテキスト情報をキャプチャできる。 モデルの知覚能力と理解能力の両立を一貫して向上させるため,二段階の訓練戦略を開発し,複数の文書タイプをカバーするすべての訓練タスクの指示/注釈を充実させる。 様々な公開可能なベンチマークで実施された広範囲な量的および質的な実験は、共同学習の知覚と理解タスクの相互利益を確認する。 その結果,DocPediaが他の手法よりも有効であり,優れた性能を示した。

This work presents DocPedia, a novel large multimodal model (LMM) for versatile OCR-free document understanding, capable of parsing images up to 2,560$\times$2,560 resolution. Unlike existing work either struggle with high-resolution documents or give up the large language model thus vision or language ability constrained, our DocPedia directly processes visual input in the frequency domain rather than the pixel space. The unique characteristic enables DocPedia to capture a greater amount of visual and textual information using a limited number of visual tokens. To consistently enhance both perception and comprehension abilities of our model, we develop a dual-stage training strategy and enrich instructions/annotations of all training tasks covering multiple document types. Extensive quantitative and qualitative experiments conducted on various publicly available benchmarks confirm the mutual benefits of jointly learning perception and comprehension tasks. The results provide further evidence of the effectiveness and superior performance of our DocPedia over other methods.
翻訳日:2023-12-01 13:05:31 公開日:2023-11-30
# 事前学習拡散モデルのh空間における解釈方向の教師なし発見

Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models ( http://arxiv.org/abs/2310.09912v3 )

ライセンス: Link先を確認
Zijian Zhang, Luping Liu, Zhijie Lin, Yichen Zhu, Zhou Zhao(参考訳) 本稿では,事前学習された拡散モデルのh空間における解釈可能な方向を識別する,教師なし学習に基づく最初の手法を提案する。 提案手法は,GAN潜在空間で動作する既存の手法から導かれる。 具体的には、事前学習した拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルを自分自身のシフトバージョンに操作し、次いで再構成器を用いて操作のタイプと強度を再現する。 それらを共同で最適化することで、モデルは自然に絡み合った解釈可能な方向を発見する。 無意味かつ破壊的な方向の発見を防止するため、シフトサンプルの忠実性を維持するために識別器を用いる。 拡散モデルの反復的生成過程のため、バックプロパゲート勾配に多くの中間テンソルを格納するために、我々のトレーニングは相当量のGPU VRAMを必要とする。 この問題に対処するため, 勾配チェックポインティングに基づく一般的なVRAM効率トレーニングアルゴリズムを提案し, VRAMの占有を許容し, トレーニング効率を犠牲にしながら, 生成過程全体を通して勾配をバックプロパガントする。 拡散モデルに関する既存の研究と比較して,本手法は,他の複雑な手順を必要とせず,本質的にグローバルかつスケーラブルな方向を識別する。 各種データセットに対する大規模な実験により,本手法の有効性が示された。

We propose the first unsupervised and learning-based method to identify interpretable directions in h-space of pre-trained diffusion models. Our method is derived from an existing technique that operates on the GAN latent space. Specifically, we employ a shift control module that works on h-space of pre-trained diffusion models to manipulate a sample into a shifted version of itself, followed by a reconstructor to reproduce both the type and the strength of the manipulation. By jointly optimizing them, the model will spontaneously discover disentangled and interpretable directions. To prevent the discovery of meaningless and destructive directions, we employ a discriminator to maintain the fidelity of shifted sample. Due to the iterative generative process of diffusion models, our training requires a substantial amount of GPU VRAM to store numerous intermediate tensors for back-propagating gradient. To address this issue, we propose a general VRAM-efficient training algorithm based on gradient checkpointing technique to back-propagate any gradient through the whole generative process, with acceptable occupancy of VRAM and sacrifice of training efficiency. Compared with existing related works on diffusion models, our method inherently identifies global and scalable directions, without necessitating any other complicated procedures. Extensive experiments on various datasets demonstrate the effectiveness of our method.
翻訳日:2023-12-01 13:05:13 公開日:2023-11-30
# アフィン変換を用いた確率に基づくセンサキャリブレーション

Likelihood-based Sensor Calibration using Affine Transformation ( http://arxiv.org/abs/2309.11526v3 )

ライセンス: Link先を確認
R\"udiger Machhamer, Lejla Begic Fazlic, Eray Guven, David Junk, Gunes Karabulut Kurt, Stefan Naumann, Stephan Didas, Klaus-Uwe Gollmer, Ralph Bergmann, Ingo J. Timm, and Guido Dartmann(参考訳) センサ技術の分野における重要な課題は、あるセンサから同じ設計の別のセンサーへの測定の適応手順の効率的な実装である。 1つの考え方は、専門家の知識によって改善できる、異なるシステム間のアフィン変換の推定を使用することである。 本稿では,1973年に発表された氷河研究による改良解を提案する。 その結果,センサのソフトウェアキャリブレーション,エキスパートベース適応の実装,分散学習手法などの今後の進歩への道を開くなど,様々な応用にこのソリューションが適用可能であることを示す。 ここでのアイデアは、専門家の知識を使って、異なるシステム間のアフィン変換を推定することだ。 シミュレーションと8つの同一センサを用いたマルチセンサボードの実測データを用いて本研究を評価した。 データセットと評価スクリプトの両方がダウンロード可能である。 その結果,実データを用いたシミュレーションと実験の両面で改善が見られた。

An important task in the field of sensor technology is the efficient implementation of adaptation procedures of measurements from one sensor to another sensor of identical design. One idea is to use the estimation of an affine transformation between different systems, which can be improved by the knowledge of experts. This paper presents an improved solution from Glacier Research that was published back in 1973. The results demonstrate the adaptability of this solution for various applications, including software calibration of sensors, implementation of expert-based adaptation, and paving the way for future advancements such as distributed learning methods. One idea here is to use the knowledge of experts for estimating an affine transformation between different systems. We evaluate our research with simulations and also with real measured data of a multi-sensor board with 8 identical sensors. Both data set and evaluation script are provided for download. The results show an improvement for both the simulation and the experiments with real data.
翻訳日:2023-12-01 13:04:50 公開日:2023-11-30
# 変分量子計算化学のシミュレーションのための微分行列積状態

Differentiable matrix product states for simulating variational quantum computational chemistry ( http://arxiv.org/abs/2211.07983v4 )

ライセンス: Link先を確認
Chu Guo, Yi Fan, Zhiqian Xu, Honghui Shang(参考訳) 量子コンピューティングは量子化学問題の究極の解であると考えられている。 大規模でフォールトトレラントな量子コンピュータが出現する以前、変分量子固有ソルバ(vqe)は、有望なヒューリスティック量子アルゴリズムであり、近距離ノイズ量子コンピュータにおける実世界の量子化学問題を解決する。 本稿では,量子状態の行列積状態表現に基づくvqe用高度並列化可能な古典的シミュレータを提案する。 シミュレーションでは、量子回路の進化を古典的自己微分フレームワークにシームレスに統合することで、勾配を古典的ディープニューラルネットワークと同様の効率良く計算し、変動パラメータの数に依存しないスケーリングを行うことができる。 応用として、我々のシミュレーターを用いて、一般的なHF、HCl、LiH、H$_2$Oなどの小分子と、最大40ドルの量子ビットを持つより大きな分子CO$_2$、BeH$_2$、H$_4$を研究する。 量子ビット数とパラメータ数に対するシミュレータのスケーリングは、近距離量子アルゴリズムの理想的なテスト基盤となり、ノイズの多い量子コンピュータで大規模なVQE実験を行うための完璧なベンチマークベースラインとなる。

Quantum Computing is believed to be the ultimate solution for quantum chemistry problems. Before the advent of large-scale, fully fault-tolerant quantum computers, the variational quantum eigensolver~(VQE) is a promising heuristic quantum algorithm to solve real world quantum chemistry problems on near-term noisy quantum computers. Here we propose a highly parallelizable classical simulator for VQE based on the matrix product state representation of quantum state, which significantly extend the simulation range of the existing simulators. Our simulator seamlessly integrates the quantum circuit evolution into the classical auto-differentiation framework, thus the gradients could be computed efficiently similar to the classical deep neural network, with a scaling that is independent of the number of variational parameters. As applications, we use our simulator to study commonly used small molecules such as HF, HCl, LiH and H$_2$O, as well as larger molecules CO$_2$, BeH$_2$ and H$_4$ with up to $40$ qubits. The favorable scaling of our simulator against the number of qubits and the number of parameters could make it an ideal testing ground for near-term quantum algorithms and a perfect benchmarking baseline for oncoming large scale VQE experiments on noisy quantum computers.
翻訳日:2023-12-01 13:04:10 公開日:2023-11-30
# 画像検索による自動運転車用単眼カメラ位置推定

Monocular Camera Localization for Automated Vehicles Using Image Retrieval ( http://arxiv.org/abs/2109.06296v3 )

ライセンス: Link先を確認
Eunhyek Joa, Yibo Sun, and Francesco Borrelli(参考訳) 本研究では,自律走行車の位置と方向角を1台のカメラでリアルタイムで検出する問題に対処する。 リアルタイムにlidarとhd(high definition)3dマップを必要とする手法と比較すると,提案手法はスケーラブルで計算効率が良く,精度が低い。 新しい手法は、既存のアルゴリズムを画像検索、マッピングデータベース、粒子フィルタリングの3つの分野に組み合わせ、適応する。 その結果,lidarで構築した地図を用いた他の単眼カメラローカライズ法に匹敵する性能を有する画像検索手法を用いた簡易なリアルタイムローカライズ手法が得られた。 提案手法は,KITTI odometry データセットと屋内1:10自律走行車を用いた閉ループ実験を用いて評価した。 テストでは、リアルタイム能力と10cmレベルの精度を示す。 また, 閉ループ室内実験の結果, 位置推定誤差と制御誤差との間に正のフィードバックループが存在することがわかった。 このような現象は記事の最後に詳細に分析される。

We address the problem of finding the current position and heading angle of an autonomous vehicle in real-time using a single camera. Compared to methods which require LiDARs and high definition (HD) 3D maps in real-time, the proposed approach is easily scalable and computationally efficient, at the price of lower precision. The new method combines and adapts existing algorithms in three different fields: image retrieval, mapping database, and particle filtering. The result is a simple, real-time localization method using an image retrieval method whose performance is comparable to other monocular camera localization methods which use a map built with LiDARs. We evaluate the proposed method using the KITTI odometry dataset and via closed-loop experiments with an indoor 1:10 autonomous vehicle. The tests demonstrate real-time capability and a 10cm level accuracy. Also, experimental results of the closed-loop indoor tests show the presence of a positive feedback loop between the localization error and the control error. Such phenomena is analysed in details at the end of the article.
翻訳日:2023-12-01 13:03:45 公開日:2023-11-30
# 対話依存関係を用いたマルチターン応答選択

Multi-turn Response Selection using Dialogue Dependency Relations ( http://arxiv.org/abs/2010.01502v3 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Siyu Ren, Kenny Q. Zhu, Haifeng Tang(参考訳) マルチターン応答選択は対話エージェントを開発するために設計されたタスクである。 このタスクのパフォーマンスは、事前訓練された言語モデルで著しく改善されている。 しかし、これらのモデルは単に対話履歴のターンを入力として結合し、ターン間の依存関係をほとんど無視する。 本稿では,対話履歴を依存関係に基づいてスレッドに変換する対話抽出アルゴリズムを提案する。 各スレッドは自己完結したサブダイアログと見なすことができる。 また,事前学習したトランスフォーマによってスレッドや候補をコンパクト表現にエンコードし,最後にアテンション層を通してマッチングスコアを得るスレッドエンコーダモデルを提案する。 実験により,依存関係関係は対話コンテキストの理解に有効であることが示され,私たちのモデルはDSTC7とDSTC8*の双方で最先端のベースラインよりも優れており,UbuntuV2では競合する結果が得られている。

Multi-turn response selection is a task designed for developing dialogue agents. The performance on this task has a remarkable improvement with pre-trained language models. However, these models simply concatenate the turns in dialogue history as the input and largely ignore the dependencies between the turns. In this paper, we propose a dialogue extraction algorithm to transform a dialogue history into threads based on their dependency relations. Each thread can be regarded as a self-contained sub-dialogue. We also propose Thread-Encoder model to encode threads and candidates into compact representations by pre-trained Transformers and finally get the matching score through an attention layer. The experiments show that dependency relations are helpful for dialogue context understanding, and our model outperforms the state-of-the-art baselines on both DSTC7 and DSTC8*, with competitive results on UbuntuV2.
翻訳日:2023-12-01 13:03:30 公開日:2023-11-30
# 動的注意による変圧器型大規模言語モデルのロバスト性向上

Improving the Robustness of Transformer-based Large Language Models with Dynamic Attention ( http://arxiv.org/abs/2311.17400v2 )

ライセンス: Link先を確認
Lujia Shen, Yuwen Pu, Shouling Ji, Changjiang Li, Xuhong Zhang, Chunpeng Ge and Ting Wang(参考訳) BERTやGPTといったトランスフォーマーベースのモデルは、自然言語処理(NLP)において非常に優れた性能で広く採用されている。 しかし、最近の研究では、テキスト入力を意図的に操作することで、モデルの出力を誤認できるような、テキスト敵対攻撃に対する脆弱性が示されている。 モデルの堅牢性を高め、この脆弱性を軽減するための様々な方法が提案されているが、多くは重い消費資源(例えば、敵の訓練)を必要とするか、限られた保護(例えば、防御的なドロップアウト)しか提供しない。 本稿では,トランスアーキテクチャに適した動的アテンション(動的アテンション)と呼ばれる新しい手法を提案する。 我々の方法は下流のタスク知識を必要とせず、追加コストを発生させない。 提案した動的アテンションは, (I) 選択したトークンのアテンション値を隠蔽または弱めるアテンション修正, (II) 動的モデリング, (II) 候補トークンの集合を動的に構築する2つのモジュールから構成される。 広汎な実験により、動的注意が敵攻撃の影響を著しく軽減し、従来手法よりも33倍の性能を向上させることが示されている。 ダイナミックアテンションのモデルレベルの設計により、他の防御手法(例えば、敵の訓練)と容易に組み合わせてモデルの堅牢性を高めることができる。 さらに、他の動的モデリング手法と比較して、動的アテンションは元のモデルの最先端のロバスト性空間を保っていることを示す。

Transformer-based models, such as BERT and GPT, have been widely adopted in natural language processing (NLP) due to their exceptional performance. However, recent studies show their vulnerability to textual adversarial attacks where the model's output can be misled by intentionally manipulating the text inputs. Despite various methods that have been proposed to enhance the model's robustness and mitigate this vulnerability, many require heavy consumption resources (e.g., adversarial training) or only provide limited protection (e.g., defensive dropout). In this paper, we propose a novel method called dynamic attention, tailored for the transformer architecture, to enhance the inherent robustness of the model itself against various adversarial attacks. Our method requires no downstream task knowledge and does not incur additional costs. The proposed dynamic attention consists of two modules: (I) attention rectification, which masks or weakens the attention value of the chosen tokens, and (ii) dynamic modeling, which dynamically builds the set of candidate tokens. Extensive experiments demonstrate that dynamic attention significantly mitigates the impact of adversarial attacks, improving up to 33\% better performance than previous methods against widely-used adversarial attacks. The model-level design of dynamic attention enables it to be easily combined with other defense methods (e.g., adversarial training) to further enhance the model's robustness. Furthermore, we demonstrate that dynamic attention preserves the state-of-the-art robustness space of the original model compared to other dynamic modeling methods.
翻訳日:2023-12-01 12:25:54 公開日:2023-11-30
# 分光・偏光ビジョン:分光・偏光実世界データセット

Spectral and Polarization Vision: Spectro-polarimetric Real-world Dataset ( http://arxiv.org/abs/2311.17396v2 )

ライセンス: Link先を確認
Yujin Jeon, Eunsue Choi, Youngchan Kim, Yunseong Moon, Khalid Omer, Felix Heide, Seung-Hwan Baek(参考訳) 画像データセットは、コンピュータビジョンの既存の方法を検証するだけでなく、新しい方法の開発にも不可欠である。 既存の画像データセットのほとんどは、人間の視覚を模倣する三色強度画像に焦点を当てている。 しかし、厳しい環境や限られた脳能力を持つ動物の光の波動特性である偏光とスペクトルは、既存のデータセットでは不足している。 分光偏光度データセットは存在するが、これらのデータセットはオブジェクトの多様性、照明条件の制限、線形専用偏光データ、不適切な画像数を有する。 本稿では,3色ストークス画像とハイパースペクトルストークス画像の2つの分光偏光データセットを紹介する。 これらの新しいデータセットは、線形および円偏光の両方を含み、複数のスペクトルチャネルを導入し、現実世界のシーンを幅広く選択する。 本研究では,このデータセットを用いて分光偏光画像統計を分析し,高次元データの効率的な表現を開発し,形状から偏光へのスペクトル依存性を評価する。 このように、提案したデータセットは、データ駆動分光偏光分光画像および視覚研究の基礎を約束する。 データセットとコードは公開されます。

Image datasets are essential not only in validating existing methods in computer vision but also in developing new methods. Most existing image datasets focus on trichromatic intensity images to mimic human vision. However, polarization and spectrum, the wave properties of light that animals in harsh environments and with limited brain capacity often rely on, remain underrepresented in existing datasets. Although spectro-polarimetric datasets exist, these datasets have insufficient object diversity, limited illumination conditions, linear-only polarization data, and inadequate image count. Here, we introduce two spectro-polarimetric datasets: trichromatic Stokes images and hyperspectral Stokes images. These novel datasets encompass both linear and circular polarization; they introduce multiple spectral channels; and they feature a broad selection of real-world scenes. With our dataset in hand, we analyze the spectro-polarimetric image statistics, develop efficient representations of such high-dimensional data, and evaluate spectral dependency of shape-from-polarization methods. As such, the proposed dataset promises a foundation for data-driven spectro-polarimetric imaging and vision research. Dataset and code will be publicly available.
翻訳日:2023-12-01 12:25:28 公開日:2023-11-30
# 空間構造は心理的回復にどのように影響するか グラフニューラルネットワークとストリートビュー画像に基づく一手法

How does spatial structure affect psychological restoration? A method based on Graph Neural Networks and Street View Imagery ( http://arxiv.org/abs/2311.17361v2 )

ライセンス: Link先を確認
Haoran Ma, Yan Zhang, Pengyuan Liu, Fan Zhang, Pengyu Zhu(参考訳) 注意修復理論(art)は、都市と自然の修復品質を理解するための4つの重要な指標(距離、範囲、魅力、互換性)を持つ理論的枠組みを示している。 しかし、これまでの研究では、非シーケンスデータと非空間依存の手法に依存しており、ここで定義されている空間構造が、シーンエンティティ間の位置関係が復元品質に与える影響を見越している。 過去の手法は、都市規模での修復品質の測定も困難にしている。 本研究では,空間依存型グラフニューラルネットワーク(gnns)アプローチを提案し,都市規模における空間構造と修復品質の関係を明らかにする。 具体的には,街路と都市レベルで2種類のグラフを構築した。 空間構造を表現するために,道路セグメントの逐次ストリートビュー画像(svis)を用いて実体間の位置関係を捉えたストリートレベルグラフを用いた。 道路のトポロジー関係を非ユークリッドデータ構造としてモデル化した都市レベルグラフ(知覚的特徴、空間的特徴、社会経済的特徴を含む)は、復元品質を測定するために用いられた。 結果はこう示しています 1)空間依存型GNNモデルは従来の手法より優れている(Acc = 0.735, F1 = 0.732)。 2) 連続SVIデータによる空間構造は, 復元品質に大きな影響を及ぼす。 3) 同じ修復品質の空間は, 異なる空間構造パターンを示した。 本研究では,空間構造と修復品質の関連性を明らかにするとともに,今後の都市福祉改善に向けた新たな視点を提供する。

The Attention Restoration Theory (ART) presents a theoretical framework with four essential indicators (being away, extent, fascinating, and compatibility) for comprehending urban and natural restoration quality. However, previous studies relied on non-sequential data and non-spatial dependent methods, which overlooks the impact of spatial structure defined here as the positional relationships between scene entities on restoration quality. The past methods also make it challenging to measure restoration quality on an urban scale. In this work, a spatial-dependent graph neural networks (GNNs) approach is proposed to reveal the relation between spatial structure and restoration quality on an urban scale. Specifically, we constructed two different types of graphs at the street and city levels. The street-level graphs, using sequential street view images (SVIs) of road segments to capture position relationships between entities, were used to represent spatial structure. The city-level graph, modeling the topological relationships of roads as non-Euclidean data structures and embedding urban features (including Perception-features, Spatial-features, and Socioeconomic-features), was used to measure restoration quality. The results demonstrate that: 1) spatial-dependent GNNs model outperforms traditional methods (Acc = 0.735, F1 = 0.732); 2) spatial structure portrayed through sequential SVIs data significantly influences restoration quality; 3) spaces with the same restoration quality exhibited distinct spatial structures patterns. This study clarifies the association between spatial structure and restoration quality, providing a new perspective to improve urban well-being in the future.
翻訳日:2023-12-01 12:25:11 公開日:2023-11-30
# GlycoNMR:グラフニューラルネットワークを用いた炭水化物のNMR化学シフト予測のためのデータセットとベンチマーク

GlycoNMR: Dataset and benchmarks for NMR chemical shift prediction of carbohydrates with graph neural networks ( http://arxiv.org/abs/2311.17134v2 )

ライセンス: Link先を確認
Zizhang Chen, Ryan Paul Badman, Lachele Foley, Robert Woods, Pengyu Hong(参考訳) 分子表現学習(mrl)は、分子を化学特性を維持しながら数値表現に変換するため、機械学習と化学科学の間のギャップを埋める強力なツールである。 これらのエンコード表現は、特性予測や薬物設計を含む様々な下流生化学研究の基盤となる。 MRLはタンパク質と一般的な生体分子のデータセットで大きな成功を収めた。 しかし、糖科学の亜分野(炭水化物の研究、長鎖の炭水化物もグリカンと呼ばれる)では、MRL法はほとんど研究されていない。 このアンダー探索は、主に、炭水化物データによって引き起こされる固有の問題を満たすように特別に調整された、包括的で十分に計算された炭水化物固有のデータセットと機械学習(ML)パイプラインの欠如による。 炭水化物固有のデータの解釈と注釈は一般にタンパク質データよりも複雑であるため、ドメインの専門家が関与する必要がある。 タンパク質や小さな生体分子に優先的に最適化された既存のmrl法は、特別な修飾なしでは直接炭水化物に使用できない。 この課題に対処し、グリコサイエンスの進歩を加速し、MRLコミュニティのデータ資源を充実させるため、GlycoNMRを導入する。 グリコNMRは、2,609の炭水化物構造と211,543のアノテート核磁気共鳴(NMR)化学シフトを持つ、2つの熱処理されたデータセットを含んでいる。 我々は, 炭水化物特有の特徴と既存のMRLモデルを用いて, この問題を効果的に解決した。 図は、新しいデータセットで4つの修正MRLモデルをベンチマークする。

Molecular representation learning (MRL) is a powerful tool for bridging the gap between machine learning and chemical sciences, as it converts molecules into numerical representations while preserving their chemical features. These encoded representations serve as a foundation for various downstream biochemical studies, including property prediction and drug design. MRL has had great success with proteins and general biomolecule datasets. Yet, in the growing sub-field of glycoscience (the study of carbohydrates, where longer carbohydrates are also called glycans), MRL methods have been barely explored. This under-exploration can be primarily attributed to the limited availability of comprehensive and well-curated carbohydrate-specific datasets and a lack of Machine learning (ML) pipelines specifically tailored to meet the unique problems presented by carbohydrate data. Since interpreting and annotating carbohydrate-specific data is generally more complicated than protein data, domain experts are usually required to get involved. The existing MRL methods, predominately optimized for proteins and small biomolecules, also cannot be directly used in carbohydrate applications without special modifications. To address this challenge, accelerate progress in glycoscience, and enrich the data resources of the MRL community, we introduce GlycoNMR. GlycoNMR contains two laboriously curated datasets with 2,609 carbohydrate structures and 211,543 annotated nuclear magnetic resonance (NMR) chemical shifts for precise atomic-level prediction. We tailored carbohydrate-specific features and adapted existing MRL models to tackle this problem effectively. For illustration, we benchmark four modified MRL models on our new datasets.
翻訳日:2023-12-01 12:24:45 公開日:2023-11-30
# Ranni: 正確な指示に従うためのテキストと画像の拡散処理

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following ( http://arxiv.org/abs/2311.17002v2 )

ライセンス: Link先を確認
Yutong Feng, Biao Gong, Di Chen, Yujun Shen, Yu Liu, Jingren Zhou(参考訳) 既存のテキスト・ツー・イメージ(T2I)拡散モデルは通常、複雑なプロンプト、特に量、オブジェクト・属性結合、マルチオブジェクト記述の解釈に苦労する。 本研究では,画像へのテキストの復号化におけるミドルウェアとしてセマンティックパネルを導入する。 このパネルは、入力テキストからパースされた視覚概念を、大きな言語モデルの支援により配置し、そのテキスト条件を補うための詳細な制御信号として、デノージングネットワークに注入することで得られる。 テキストからパネルへの学習を容易にするために、完全に自動的なデータ準備パイプラインを伴う、注意深く設計されたセマンティックフォーマッティングプロトコルを考え出した。 このような設計のおかげで、我々のアプローチはRanniと呼ばれ、テキスト制御性に関して事前訓練されたT2Iジェネレータを拡張できます。 より重要なことは、ジェネレーティブミドルウェアの導入により、より便利なインタラクション形式(パネル内の要素を直接調整したり、言語命令を使ったり)がもたらされ、さらにユーザは、実用的なシステムを開発し、継続的な生成とチャットベースの編集でその可能性を発揮できる。 私たちのプロジェクトページはhttps://ranni-t2i.github.io/Ranniです。

Existing text-to-image (T2I) diffusion models usually struggle in interpreting complex prompts, especially those with quantity, object-attribute binding, and multi-subject descriptions. In this work, we introduce a semantic panel as the middleware in decoding texts to images, supporting the generator to better follow instructions. The panel is obtained through arranging the visual concepts parsed from the input text by the aid of large language models, and then injected into the denoising network as a detailed control signal to complement the text condition. To facilitate text-to-panel learning, we come up with a carefully designed semantic formatting protocol, accompanied by a fully-automatic data preparation pipeline. Thanks to such a design, our approach, which we call Ranni, manages to enhance a pre-trained T2I generator regarding its textual controllability. More importantly, the introduction of the generative middleware brings a more convenient form of interaction (i.e., directly adjusting the elements in the panel or using language instructions) and further allows users to finely customize their generation, based on which we develop a practical system and showcase its potential in continuous generation and chatting-based editing. Our project page is at https://ranni-t2i.github.io/Ranni.
翻訳日:2023-12-01 12:24:16 公開日:2023-11-30
# LLaFS: 大規模な言語モデルがFew-Shotセグメンテーションと出会うとき

LLaFS: When Large-Language Models Meet Few-Shot Segmentation ( http://arxiv.org/abs/2311.16926v2 )

ライセンス: Link先を確認
Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu(参考訳) 本稿では,小規模セグメンテーションにおける大規模言語モデル(llms)を活用した最初の試みであるllafsを提案する。 LLaFSは、注釈付きサポート画像からの限られた偏り情報のみに依存する従来のいくつかのショットセグメンテーション法とは対照的に、LLMが獲得した膨大な事前知識を効果的なサプリメントとして活用し、数ショットで画像のセグメンテーションにLLMを直接利用する。 テキストベースのLLMが画像関連タスクを処理できるようにするため,LLMがポリゴンとして表現されたセグメンテーション結果を生成するための入力命令を慎重に設計し,人間の視覚機構をシミュレートし,マルチモーダルガイダンスを提供する領域属性テーブルを提案する。 また,疑似サンプルを合成し,事前学習にカリキュラム学習を用いてデータを強化し,より良い最適化を実現する。 LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。 コードはhttps://github.com/lanyunzhu99/LLaFSで入手できる。

This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks. Code will be available at https://github.com/lanyunzhu99/LLaFS.
翻訳日:2023-12-01 12:23:52 公開日:2023-11-30
# CADTalk:CADプログラムのセマンティックコメントのためのアルゴリズムとベンチマーク

CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD Programs ( http://arxiv.org/abs/2311.16703v2 )

ライセンス: Link先を確認
Haocheng Yuan, Jing Xu, Hao Pan, Adrien Bousseau, Niloy Mitra, Changjian Li(参考訳) cadプログラムは、パラメトリックな修正が容易な操作のシーケンスとして形状をコンパクトにエンコードする一般的な方法である。 しかし、十分なセマンティックなコメントや構造がなければ、このようなプログラムは理解するのが難しくなる。 本稿では,意味的に意味のある形状部分に対応するコードブロックに入力プログラムを分割し,各ブロックに意味ラベルを割り当てることを目的とする,意味的コメントcadプログラムの問題を紹介する。 基礎言語と視覚モデルの最近の進歩を活かし,プログラム解析と視覚分析を組み合わせることで,この問題を解決した。 具体的には、入力プログラムを実行することで、条件付きフォトリアリスティックな画像を生成するために、そのような画像にセマンティックアノテータを使用する形状を生成する。 その後、画像にまたがって情報を蒸留し、元のプログラムにリンクして意味的にコメントします。 さらに,5,280個の機械製プログラムと45個の人為的プログラムからなるベンチマークデータセットCADTalkを収集,注釈し,今後の研究を促進する。 我々はGPTベースのベースラインアプローチやオープンセットの形状分割ベースラインであるPartSLIPと比較して、我々のアプローチを広範囲に評価し、新しいCADTalkデータセットに対して83.24%の精度を報告した。 プロジェクトページ: https://enigma-li.github.io/CADTalk/。

CAD programs are a popular way to compactly encode shapes as a sequence of operations that are easy to parametrically modify. However, without sufficient semantic comments and structure, such programs can be challenging to understand, let alone modify. We introduce the problem of semantic commenting CAD programs, wherein the goal is to segment the input program into code blocks corresponding to semantically meaningful shape parts and assign a semantic label to each block. We solve the problem by combining program parsing with visual-semantic analysis afforded by recent advances in foundational language and vision models. Specifically, by executing the input programs, we create shapes, which we use to generate conditional photorealistic images to make use of semantic annotators for such images. We then distill the information across the images and link back to the original programs to semantically comment on them. Additionally, we collected and annotated a benchmark dataset, CADTalk, consisting of 5,280 machine-made programs and 45 human-made programs with ground truth semantic comments to foster future research. We extensively evaluated our approach, compared to a GPT-based baseline approach, and an open-set shape segmentation baseline, i.e., PartSLIP, and reported an 83.24% accuracy on the new CADTalk dataset. Project page: https://enigma-li.github.io/CADTalk/.
翻訳日:2023-12-01 12:22:53 公開日:2023-11-30
# LasTGL: 大規模時間グラフ学習のための産業フレームワーク

LasTGL: An Industrial Framework for Large-Scale Temporal Graph Learning ( http://arxiv.org/abs/2311.16605v2 )

ライセンス: Link先を確認
Jintang Li, Jiawang Dan, Ruofan Wu, Jing Zhou, Sheng Tian, Yunfei Liu, Baokun Wang, Changhua Meng, Weiqiang Wang, Yuchang Zhu, Liang Chen, Zibin Zheng(参考訳) ここ数年、グラフニューラルネットワーク(GNN)は、(静的)グラフ構造データを学ぶための強力で実用的なツールになっています。 しかし、ソーシャルネットワークやeコマースのような現実世界のアプリケーションの多くは、ノードとエッジが動的に進化している時間グラフを含んでいる。 時相グラフニューラルネットワーク(TGNN)は、時間進化グラフに対処するGNNの拡張として徐々に現れ、学術と産業の両方において、徐々にトレンドとなっている。 このような分野における研究と応用の促進は、TGNNモデルを構築し、時間グラフを扱うための異なるスキームを統合するための新しいツールの開発を必要とする。 本稿では,様々な高度なタスクに対して共通時間グラフ学習アルゴリズムの統一的かつ拡張可能な実装を統合する産業的フレームワークであるlastglを紹介する。 LasTGLの目的は、PyTorchがベースとするユーザフレンドリ性の原則とクイックプロトタイピングに重点を置いて、時間グラフ学習タスクを解決するための重要なビルディングブロックを提供することである。 特にLasTGLは、包括的な時間グラフデータセット、TGNNモデル、ユーティリティ、ドキュメント化されたチュートリアルを提供しており、絶対的な初心者と専門的なディープラーニング実践者の両方に適している。

Over the past few years, graph neural networks (GNNs) have become powerful and practical tools for learning on (static) graph-structure data. However, many real-world applications, such as social networks and e-commerce, involve temporal graphs where nodes and edges are dynamically evolving. Temporal graph neural networks (TGNNs) have progressively emerged as an extension of GNNs to address time-evolving graphs and have gradually become a trending research topic in both academics and industry. Advancing research and application in such an emerging field necessitates the development of new tools to compose TGNN models and unify their different schemes for dealing with temporal graphs. In this work, we introduce LasTGL, an industrial framework that integrates unified and extensible implementations of common temporal graph learning algorithms for various advanced tasks. The purpose of LasTGL is to provide the essential building blocks for solving temporal graph learning tasks, focusing on the guiding principles of user-friendliness and quick prototyping on which PyTorch is based. In particular, LasTGL provides comprehensive temporal graph datasets, TGNN models and utilities along with well-documented tutorials, making it suitable for both absolute beginners and expert deep learning practitioners alike.
翻訳日:2023-12-01 12:22:29 公開日:2023-11-30
# 意思決定型学習のロバスト性について

On the Robustness of Decision-Focused Learning ( http://arxiv.org/abs/2311.16487v2 )

ライセンス: Link先を確認
Yehya Farhat(参考訳) 決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。 DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。 DFLは多くの約束を示し、多くの現実世界のアプリケーションで意思決定に革命をもたらす能力を持っている。 しかし、これらのモデルの敵攻撃時の性能についてはほとんど分かっていない。 我々は,10種類のDFL手法を採用し,その性能を予測列最適化問題に適応した2つの明確な攻撃条件下でベンチマークする。 本研究は,モデルのロバスト性が,接地ラベルから逸脱することなく最適な決定につながる予測を見つける能力と高い相関関係にあるという仮説を提案する。 さらに、この条件に違反するモデルをターゲットにする方法を考察し、トレーニングサイクルの最後に達成された最適性に応じてこれらのモデルがどのように反応するかを示す。

Decision-Focused Learning (DFL) is an emerging learning paradigm that tackles the task of training a machine learning (ML) model to predict missing parameters of an incomplete optimization problem, where the missing parameters are predicted. DFL trains an ML model in an end-to-end system, by integrating the prediction and optimization tasks, providing better alignment of the training and testing objectives. DFL has shown a lot of promise and holds the capacity to revolutionize decision-making in many real-world applications. However, very little is known about the performance of these models under adversarial attacks. We adopt ten unique DFL methods and benchmark their performance under two distinctly focused attacks adapted towards the Predict-then-Optimize problem setting. Our study proposes the hypothesis that the robustness of a model is highly correlated with its ability to find predictions that lead to optimal decisions without deviating from the ground-truth label. Furthermore, we provide insight into how to target the models that violate this condition and show how these models respond differently depending on the achieved optimality at the end of their training cycles.
翻訳日:2023-12-01 12:21:47 公開日:2023-11-30
# テキストフリー拡散モデルは識別的視覚表現を学習するか?

Do text-free diffusion models learn discriminative visual representations? ( http://arxiv.org/abs/2311.17921v2 )

ライセンス: Link先を確認
Soumik Mukhopadhyay and Matthew Gwilliam and Yosuke Yamaguchi and Vatsal Agarwal and Namitha Padmanabhan and Archana Swaminathan and Tianyi Zhou and Abhinav Shrivastava(参考訳) 多くの教師なし学習モデルは、生成的あるいは差別的なタスクの1つのファミリーに焦点を当てているが、同時にタスクのファミリーに対処するモデルである統一表現学習者の可能性を探る。 生成タスクのための最先端手法である拡散モデルを素候補として同定する。 このようなモデルには、ノイズを反復的に予測して除去するU-Netのトレーニングが含まれており、結果として得られたモデルは高忠実で多様な新しい画像を合成することができる。 U-Netの中間特徴写像は多様で差別的な特徴表現であることがわかった。 本稿では,異なる拡散U-Netブロックとノイズステップから特徴を融合したトランスフォーマーであるDifFormerとして,特徴マップをプールするための新しいアテンション機構を提案する。 また拡散に適した新しいフィードバック機構であるDifFeedを開発した。 拡散モデルはgansよりも優れており、我々の融合とフィードバックのメカニズムにより、識別タスクのための最先端の教師なし画像表現学習手法、すなわちフルおよびセミスーパービジョンによる画像分類、細粒度分類のための転送、オブジェクト検出とセグメンテーション、セマンティックセグメンテーションと競合することができる。 プロジェクトのWebサイト(https://mgwillia.github.io/diffssl/)とコード(https://github.com/soumik-kanad/diffssl)が公開されている。

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which addresses both families of tasks simultaneously. We identify diffusion models, a state-of-the-art method for generative tasks, as a prime candidate. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high-fidelity, diverse, novel images. We find that the intermediate feature maps of the U-Net are diverse, discriminative feature representations. We propose a novel attention mechanism for pooling feature maps and further leverage this mechanism as DifFormer, a transformer feature fusion of features from different diffusion U-Net blocks and noise steps. We also develop DifFeed, a novel feedback mechanism tailored to diffusion. We find that diffusion models are better than GANs, and, with our fusion and feedback mechanisms, can compete with state-of-the-art unsupervised image representation learning methods for discriminative tasks - image classification with full and semi-supervision, transfer for fine-grained classification, object detection and segmentation, and semantic segmentation. Our project website (https://mgwillia.github.io/diffssl/) and code (https://github.com/soumik-kanad/diffssl) are available publicly.
翻訳日:2023-12-01 11:25:34 公開日:2023-11-30
# ゼロショットマルチモーダル合成のための知識探索法

Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis ( http://arxiv.org/abs/2311.17898v2 )

ライセンス: Link先を確認
Jinqi Luo, Kwan Ho Ryan Chan, Dimitris Dimos, Ren\'e Vidal(参考訳) 意味的詳細が不十分な不正確なプロンプトによる幻覚と不適切な合成はマルチモーダル生成モデルで広く観察されている。 複数のモダリティを調整するための一般的な戦略は、多数の注釈付きテキストイメージペアでジェネレータを微調整することである。 しかし、そのような手続きは労働力と資源消費である。 私たちは、広範囲なテキストイメージペアアノテーションを超えて、テキスト駆動生成モデルの品質と忠実性を向上できますか? そこで本稿では,外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。 ジェネリックプロンプトを処理するためにジェネレータを訓練する代わりに、KPPは知識ベースから情報的外部事実を収集するために再帰的知識クエリープロセスを使用し、獲得した知識を即時改善するために圧縮するように言語モデルに指示し、視覚合成にテキスト駆動ジェネレータを使用する。 生成モデルのアーキテクチャやパラメータにアクセスせずに、プロセス全体がゼロショットです。 異なるドメインのデータセット上で、複数のテキスト駆動生成タスク(画像、3Dレンダリング、ビデオ)でフレームワークを評価する。 さらに,KPPの拡張性と適応性について,基礎モデルベースと命令の相違による検証を行った。 以上の結果から,KPPは多様な視覚領域にまたがる忠実で意味的にリッチなコンテンツを生成することが可能であり,マルチモーダル生成モデルを改善するための有望なソリューションを提供する。

Hallucinations and unfaithful synthesis due to inaccurate prompts with insufficient semantic details are widely observed in multimodal generative models. A prevalent strategy to align multiple modalities is to fine-tune the generator with a large number of annotated text-image pairs. However, such a procedure is labor-consuming and resource-draining. The key question we ask is: can we enhance the quality and faithfulness of text-driven generative models beyond extensive text-image pair annotations? To address this question, we propose Knowledge Pursuit Prompting (KPP), a zero-shot framework that iteratively incorporates external knowledge to help generators produce reliable visual content. Instead of training generators to handle generic prompts, KPP employs a recursive knowledge query process to gather informative external facts from the knowledge base, instructs a language model to compress the acquired knowledge for prompt refinement, and utilizes text-driven generators for visual synthesis. The entire process is zero-shot, without accessing the architectures and parameters of generative models. We evaluate the framework across multiple text-driven generative tasks (image, 3D rendering, and video) on datasets of different domains. We further demonstrate the extensibility and adaptability of KPP through varying foundation model bases and instructions. Our results show that KPP is capable of generating faithful and semantically rich content across diverse visual domains, offering a promising solution to improve multimodal generative models.
翻訳日:2023-12-01 11:25:12 公開日:2023-11-30
# SPiC-E : クロスエンティティアテンションを用いた3次元拡散モデルの構造優先

SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity Attention ( http://arxiv.org/abs/2311.17834v2 )

ライセンス: Link先を確認
Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor(参考訳) 我々は,事前学習されたテキスト画像拡散モデルの可用性により,3dアセットの自動生成と操作が急速に進展しているのを目の当たりにしている。 しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成を民主化する可能性を妨げる。 逆に、3d拡散モデルは100万規模の3dデータセットをトレーニングし、高品質なテキスト条件付き3dサンプルを数秒で生成する。 本稿では,3次元拡散モデルに構造的ガイダンスを追加するニューラルネットワークであるspic-eを提案する。 本フレームワークのコアとなるのは,複数のエンティティ(特にペア入力と誘導3D形状)が,認知ネットワーク内の内部表現を介して対話できる,相互注意機構の導入である。 本機構を補助誘導形状から3次元拡散モデルにおけるタスク固有構造事前学習に活用する。 提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する。 大規模な実験により、SPiC-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示されている。 重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。

We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present SPiC-E - a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that SPiC-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task.
翻訳日:2023-12-01 11:24:46 公開日:2023-11-30
# DAP:視覚・言語ナビゲーションのためのドメイン認識型プロンプト学習

DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2311.17812v2 )

ライセンス: Link先を確認
Ting Liu, Yue Hu, Wansen Wu, Youkai Wang, Kai Xu, Quanjun Yin(参考訳) 未知の環境をナビゲートするための言語指示に従うことは、自律型実施エージェントにとって困難なタスクである。 強力な表現能力により、事前訓練された視覚・言語モデルはVLNで広く使われている。 しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。 そこで本研究では,新しいモデルに依存しないdap(domain-aware prompt learning)フレームワークを提案する。 VLNタスクにおいて、事前訓練されたモデルに特定のオブジェクトレベルとシーンレベルのクロスモーダルアライメントを持たせるために、DAPは低コストのプロンプトチューニングパラダイムを適用し、ドメイン内の画像セマンティクスを抽出するためのソフトな視覚的プロンプトを学習する。 具体的には、CLIPモデルの助けを借りて、まずドメイン内の画像とテキストのペアを生成する。 次に,事前学習モデルにおいて,視覚エンコーダの入力空間にソフトビジュアルプロンプトを導入する。 DAPは、訓練済みモデルの視覚エンコーダにドメイン内の視覚知識を効率的に注入する。 R2RとREVERIEの両方の実験結果は、既存の最先端手法と比較してDAPの優位性を示している。

Following language instructions to navigate in unseen environments is a challenging task for autonomous embodied agents. With strong representation capabilities, pretrained vision-and-language models are widely used in VLN. However, most of them are trained on web-crawled general-purpose datasets, which incurs a considerable domain gap when used for VLN tasks. To address the problem, we propose a novel and model-agnostic domain-aware prompt learning (DAP) framework. For equipping the pretrained models with specific object-level and scene-level cross-modal alignment in VLN tasks, DAP applies a low-cost prompt tuning paradigm to learn soft visual prompts for extracting in-domain image semantics. Specifically, we first generate a set of in-domain image-text pairs with the help of the CLIP model. Then we introduce soft visual prompts in the input space of the visual encoder in a pretrained model. DAP injects in-domain visual knowledge into the visual encoder of the pretrained model in an efficient way. Experimental results on both R2R and REVERIE show the superiority of DAP compared to existing state-of-the-art methods.
翻訳日:2023-12-01 11:24:21 公開日:2023-11-30
# 大規模言語モデルと検索拡張生成を用いた任意のコースに適応し、正確な回答を提供するAIチュータの作り方

How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation ( http://arxiv.org/abs/2311.17696v2 )

ライセンス: Link先を確認
Chenxi Dong(参考訳) 人工知能は、データ駆動でパーソナライズされた学習ソリューションを通じて教育を変革している。 本稿では,最先端のLarge Language Model (LLM)を用いて,どの科目でもパーソナライズされた学習を提供する,革新的なWebアプリケーションであるAI Tutorを紹介する。 AI Tutorはコース素材を取り込み、コースに合わせて適応的な知識ベースを構築する。 学生が質問を行うと、最も関連性の高い情報を取得し、証拠を引用して詳細な会話応答を生成する。 このシステムは、高度な大規模言語モデルと、正確で自然な質問応答のためのRAG(Retrieval-Augmented Generation)技術によって実現されている。 我々は、AI Tutorの多目的性と、教育学的にコジェントな応答を生成する能力を示す、フル機能のWebインターフェースとビデオデモを紹介する。 初期のプロトタイプだが、この研究は、高品質でカスタマイズされた教育サポートへのアクセスを民主化できるAI対応のチューターシステムへの先駆的な一歩だ。

Artificial intelligence is transforming education through data-driven, personalized learning solutions. This paper introduces AI Tutor, an innovative web application that provides personalized tutoring in any subject using state-of-the-art Large Language Model (LLM). AI Tutor ingests course materials to construct an adaptive knowledge base tailored to the course. When students pose questions, it retrieves the most relevant information and generates detailed, conversational responses citing supporting evidence. The system is powered by advanced large language models and Retrieval-Augmented Generation (RAG) techniques for accurate, natural question answering. We present a fully-functional web interface and video demonstration that showcase AI Tutor's versatility across diverse subjects and its ability to produce pedagogically cogent responses. While an initial prototype, this work represents a pioneering step toward AI-enabled tutoring systems that can democratize access to high-quality, customized educational support.
翻訳日:2023-12-01 11:24:01 公開日:2023-11-30
# 誰が助けてくれる? うつ病関連ソーシャルメディアインタラクションにおけるユーザの心理的旅の再構築

Who can help me? Reconstructing users' psychological journeys in depression-related social media interactions ( http://arxiv.org/abs/2311.17684v2 )

ライセンス: Link先を確認
Virginia Morini and Salvatore Citraro and Elena Sajno and Maria Sansoni and Giuseppe Riva and Massimo Stella and Giulio Rossetti(参考訳) ソーシャルメディアは、個人が個人的な経験や感情を開示し、仲間や専門家からの支援を求めるセルフヘルプボードとして使われるようになっている。 そこで我々は,新しい心理社会的枠組みを提案しながら,うつ病に関する一般的なメンタルヘルス関連redditの掲示板を調査した。 ユーザの心理的・言語的プロファイルを社会的相互作用とともに再構築する。 総ユーザ数は303,016で、378,483の投稿と1,475,044のコメントがある。 ユーザーのインタラクションのネットワーク、例えば誰が答えたかを特定した後、精神保健研究に関連性のある精神言語学、認知学、感情的デジタルトレースに関する前例のない窓を開く。 ユーザ生成コンテンツを通じて,患者の健康への関与モデルに準拠した4つのカテゴリないしアーチタイプ,すなわち,感情的に乱れ/下降するブラックアウト,覚醒,密着したイエト・コンフリクト,顕在的な希望を識別する。 ユーザの時間経過を条件付きマルコフプロセスを通じて分析し,これら4つのアーチタイプが連続したステージではないことを示す。 ユーザが対立の感情を通じて苦悩からセレニティへと進化する、直線的な進歩や連続的な患者旅行は見当たらない。 その代わり、オンラインユーザーは、ネガティブとポジティブの両方のアーキティパルステージにスパイラルをフォローできる。 心理学的・言語的・社会的ネットワークモデリングを通じて、このような複雑な経路が正、負、矛盾するオンラインコンテキストを通じてどのように広がるかという、説得力のある定量的証拠を提供することができる。 我々のアプローチは、ソーシャルメディアを通じてメンタルヘルス問題に対処する、データインフォームドな理解への道を開く。

Social media are increasingly being used as self-help boards, where individuals can disclose personal experiences and feelings and look for support from peers or experts. Here we investigate several popular mental health-related Reddit boards about depression while proposing a novel psycho-social framework. We reconstruct users' psychological/linguistic profiles together with their social interactions. We cover a total of 303,016 users, engaging in 378,483 posts and 1,475,044 comments from 01/05/2018 to 01/05/2020. After identifying a network of users' interactions, e.g., who replied to whom, we open an unprecedented window over psycholinguistic, cognitive, and affective digital traces with relevance for mental health research. Through user-generated content, we identify four categories or archetypes of users in agreement with the Patient Health Engagement model: the emotionally turbulent/under blackout, the aroused, the adherent-yet-conflicted, and the eudaimonically hopeful. Analyzing users' transitions over time through conditional Markov processes, we show how these four archetypes are not consecutive stages. We do not find a linear progression or sequential patient journey, where users evolve from struggling to serenity through feelings of conflict. Instead, we find online users to follow spirals towards both negative and positive archetypal stages. Through psychological/linguistic and social network modelling, we can provide compelling quantitative pieces of evidence on how such a complex path unfolds through positive, negative, and conflicting online contexts. Our approach opens the way to data-informed understandings of psychological coping with mental health issues through social media.
翻訳日:2023-12-01 11:23:44 公開日:2023-11-30
# ShapeGPT:統一多モード言語モデルによる3次元形状生成

ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model ( http://arxiv.org/abs/2311.17618v2 )

ライセンス: Link先を確認
Fukun Yin, Xin Chen, Chi Zhang, Biao Jiang, Zibo Zhao, Jiayuan Fan, Gang Yu, Taihao Li, Tao Chen(参考訳) 命令駆動アプローチによって柔軟性を実現する大規模言語モデルの出現は、多くの伝統的な生成タスクに革命をもたらしたが、特に他のモダリティで包括的に3d形状を扱う3dデータのための大規模モデルはまだ未検討のままである。 命令ベースの形状生成によって、多目的多モード生成形状モデルは、3D仮想構築やネットワーク支援設計といった様々な分野に多大な利益をもたらすことができる。 本研究では,複数の形状関連タスクに対処するために,強力な事前学習言語モデルを活用する形状対応マルチモーダルフレームワークであるShapeGPTを提案する。 具体的には、ShapeGPTは単語文パラグラフの枠組みを用いて、連続した形を形づくり語に識別し、さらにこれらの単語を形づくり文のために組み立て、また複数段落の指示文と整合する。 この形状言語モデルを学ぶために、形状表現、マルチモーダルアライメント、命令に基づく生成を含む3段階のトレーニングスキームを用いて、形状言語コードブックをアライメントし、それらのモダリティ間の複雑な相関を学習する。 大規模な実験により、ShapeGPTは、テキスト・トゥ・シェイプ、シェイプ・トゥ・テキスト、シェイプ・コンプリート、形状編集など、形状関連タスクに匹敵する性能を達成している。

The advent of large language models, enabling flexibility through instruction-driven approaches, has revolutionized many traditional generative tasks, but large models for 3D data, particularly in comprehensively handling 3D shapes with other modalities, are still under-explored. By achieving instruction-based shape generations, versatile multimodal generative shape models can significantly benefit various fields like 3D virtual construction and network-aided design. In this work, we present ShapeGPT, a shape-included multi-modal framework to leverage strong pre-trained language models to address multiple shape-relevant tasks. Specifically, ShapeGPT employs a word-sentence-paragraph framework to discretize continuous shapes into shape words, further assembles these words for shape sentences, as well as integrates shape with instructional text for multi-modal paragraphs. To learn this shape-language model, we use a three-stage training scheme, including shape representation, multimodal alignment, and instruction-based generation, to align shape-language codebooks and learn the intricate correlations among these modalities. Extensive experiments demonstrate that ShapeGPT achieves comparable performance across shape-relevant tasks, including text-to-shape, shape-to-text, shape completion, and shape editing.
翻訳日:2023-12-01 11:23:15 公開日:2023-11-30
# 継続的自己指導型学習 : ユニバーサルマルチモーダル医療データ表現学習を目指して

Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning ( http://arxiv.org/abs/2311.17597v2 )

ライセンス: Link先を確認
Yiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, Qi Wu, Yong Xia(参考訳) 自己教師付き学習は、医用画像解析のための効率的な事前学習方法である。 しかし、現在の研究は主に特定のモダリティデータの事前学習に限られており、様々なモダリティの普遍性を達成せずにかなりの時間と資源を消費している。 簡単な解決策は、共同で指導する事前学習のためのすべてのモダリティデータを組み合わせることである。 まず,モダリティの数が増えるにつれて,表現学習における矛盾を明らかにする。 第二に、事前に収集されたマルチモーダルデータは、すべての実世界のシナリオをカバーできない。 本稿では,連続学習の観点から多目的自己教師型学習を再考し,マルチモーダル医療データに対する継続的自己教師型学習アプローチであるMedCoSSを提案する。 共同教師付き学習とは異なり、MedCoSSは異なる訓練段階に異なるモダリティデータを割り当て、多段階事前学習プロセスを形成する。 モーダルコンフリクトのバランスを保ち,破滅的忘れを防止するために,リハーサルに基づく連続学習手法を提案する。 我々は,k-meansサンプリング戦略を導入し,新しいモーダリティを学ぶ際に,先行モダリティからデータを保持し,リハーサルする。 バッファデータ上でプリテキストタスクを実行する代わりに、これらのデータに特徴蒸留戦略とモード内混合戦略を適用して知識保持を行う。 臨床報告, x線, ctスキャン, mriスキャン, 病理画像など, 大規模マルチモーダル非ラベルデータセット上で, 自己教師あり事前訓練を継続する。 実験により、MedCoSSの9つの下流データセットにまたがる例外的な一般化能力と、新しいモダリティデータの統合における大きなスケーラビリティを示す。 コードとトレーニング済みの重量はhttps://github.com/yeerwen/medcoss.com/で確認できる。

Self-supervised learning is an efficient pre-training method for medical image analysis. However, current research is mostly confined to specific-modality data pre-training, consuming considerable time and resources without achieving universality across different modalities. A straightforward solution is combining all modality data for joint self-supervised pre-training, which poses practical challenges. Firstly, our experiments reveal conflicts in representation learning as the number of modalities increases. Secondly, multi-modal data collected in advance cannot cover all real-world scenarios. In this paper, we reconsider versatile self-supervised learning from the perspective of continual learning and propose MedCoSS, a continuous self-supervised learning approach for multi-modal medical data. Unlike joint self-supervised learning, MedCoSS assigns different modality data to different training stages, forming a multi-stage pre-training process. To balance modal conflicts and prevent catastrophic forgetting, we propose a rehearsal-based continual learning method. We introduce the k-means sampling strategy to retain data from previous modalities and rehearse it when learning new modalities. Instead of executing the pretext task on buffer data, a feature distillation strategy and an intra-modal mixup strategy are applied to these data for knowledge retention. We conduct continuous self-supervised pre-training on a large-scale multi-modal unlabeled dataset, including clinical reports, X-rays, CT scans, MRI scans, and pathological images. Experimental results demonstrate MedCoSS's exceptional generalization ability across nine downstream datasets and its significant scalability in integrating new modality data. Code and pre-trained weight are available at https://github.com/yeerwen/MedCoSS.
翻訳日:2023-12-01 11:22:52 公開日:2023-11-30
# StructRe:構造化形状モデリングのための書き換え

StructRe: Rewriting for Structured Shape Modeling ( http://arxiv.org/abs/2311.17510v2 )

ライセンス: Link先を確認
Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Taku Komura, Wenping Wang(参考訳) 人工の3d形状は、自然に部品や階層に構成され、そのような構造は形状の再構築や生成に重要な制約を与える。 形状構造のモデリングは、与えられた形状に対して複数の階層が存在し、あいまいさを引き起こし、異なるカテゴリにわたって、形状構造は意味論と相関し、一般化を制限するため困難である。 本稿では構造化形状モデリングの新しいアプローチとして構造書き換えシステムStructReを提案する。 ポイントとコンポーネントで表現された3dオブジェクトが与えられると、structreはそれをより簡潔な構造に上向きに書き換えるか、より詳細な構造に下向きに書き換えることができる。 このような局所的な書き換えプロセスは、あいまいな構造の確率的モデリングとオブジェクトカテゴリ間の堅牢な一般化を可能にする。 PartNetデータ上でStructReをトレーニングし、そのクロスカテゴリと複数のオブジェクト階層への一般化を示し、ShapeNetの拡張をテストする。 また, 形状再構成, 生成, 編集作業における確率的, 一般化可能な構造モデリングの利点を示す。

Man-made 3D shapes are naturally organized in parts and hierarchies; such structures provide important constraints for shape reconstruction and generation. Modeling shape structures is difficult, because there can be multiple hierarchies for a given shape, causing ambiguity, and across different categories the shape structures are correlated with semantics, limiting generalization. We present StructRe, a structure rewriting system, as a novel approach to structured shape modeling. Given a 3D object represented by points and components, StructRe can rewrite it upward into more concise structures, or downward into more detailed structures; by iterating the rewriting process, hierarchies are obtained. Such a localized rewriting process enables probabilistic modeling of ambiguous structures and robust generalization across object categories. We train StructRe on PartNet data and show its generalization to cross-category and multiple object hierarchies, and test its extension to ShapeNet. We also demonstrate the benefits of probabilistic and generalizable structure modeling for shape reconstruction, generation and editing tasks.
翻訳日:2023-12-01 11:22:23 公開日:2023-11-30
# ml対応システムにおける非機能要件対応のための分類,課題,自動アプローチ--体系的文献レビュー

Classification, Challenges, and Automated Approaches to Handle Non-Functional Requirements in ML-Enabled Systems: A Systematic Literature Review ( http://arxiv.org/abs/2311.17483v2 )

ライセンス: Link先を確認
Vincenzo De Martino, Fabio Palomba(参考訳) 機械学習(ML)は今や広く普及しており、ほとんど誰もその使用を避けることができない。 それでもその巨大なポテンシャルは、持続可能性のような非機能要件によって常に脅かされている。 特に,これまでの研究成果の総合的な合成の欠如と,これらの研究がさらなる研究にどのように寄与するかに気付きました。 本稿では,(1)これまで検討されてきた非機能要件の分類,(2)それを扱う際に直面する課題,(3)実践者を支援するために文献に提案する自動化アプローチの3つの重要な側面を対象とする,体系的な文献レビューを提案する。 体系的な文献レビューを行うためのガイドラインと追加の検索基準を組み合わせることで,69の論文の総量を調査した。 以上の結果から,本研究は6つのクラスに分類できる30の異なる非機能要件を明らかにした。 また、さらに研究すべき23以上のソフトウェアエンジニアリングの課題のカタログを提供し、機械学習対応システムの非機能要件を最適化する際に、研究者が実践者を支援するために提案する自動アプローチの概要を提供する。 本研究の結論は, 含意を蒸留し, 今後の展望である。

Machine learning (ML) is nowadays so pervasive and diffused that virtually no application can avoid its use. Nonetheless, its enormous potential is constantly threatened by non-functional requirements, such as sustainability. In particular, we noticed the lack of a comprehensive synthesis of the research efforts done so far and how these may drive further research. In this paper, we propose a systematic literature review targeting three key aspects such as (1) the classification of the non-functional requirements investigated so far, (2) the challenges to face when dealing with them, and (3) the automated approaches proposed in literature to support practitioners when optimizing them in practice. Through the combination of well-established guidelines for conducting systematic literature reviews and additional search criteria, we survey a total amount of 69 research articles. Our findings report that current research identified 30 different non-functional requirements, which can be grouped into six main classes. We also deliver a catalog of over 23 software engineering challenges that further research should consider, besides an overview of the automated approaches researchers proposed to support practitioners when optimizing non-functional requirements of machine learning-enabled systems. We conclude our work by distilling implications and a future outlook on the topic.
翻訳日:2023-12-01 11:22:04 公開日:2023-11-30
# W-HMR:Weak-supervised Camera Calibration and Orientation Correctionを用いた世界空間でのヒューマンメッシュリカバリ

W-HMR: Human Mesh Recovery in World Space with Weak-supervised Camera Calibration and Orientation Correction ( http://arxiv.org/abs/2311.17460v2 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang(参考訳) 長期にわたり、モノクロ画像から3次元の人体を再構築する分野では、カメラの影響を最小限に抑えてタスクを単純化することを選んだ。 粗い焦点長設定を用いることで、再構成体は歪んだ画像とうまく一致しない。 カメラの回転を無視すると、世界空間で非現実的な再構築されたボディポーズにつながる。 その結果、既存のメソッドのアプリケーションシナリオは、制御された環境に限られる。 そして彼らは、複雑で多種多様な画像と向き合う世界の空間において、正確で合理的な再構築を達成するのに苦労している。 この問題に対処するため,w-hmrを提案する。w-hmrは,グローバルボディリカバリをカメラキャリブレーション,ローカルボディリカバリ,グローバルボディオリエンテーション補正に分解する。 身体歪みに対する最初の弱教師付きカメラキャリブレーション法を考案し,焦点長ラベルへの依存をなくし,より微細なメッシュ画像アライメントを実現する。 本研究では,再建された人体を世界空間で正常に維持するための新しい配向補正モジュールを提案する。 ボディオリエンテーションとボディポーズの分離は,カメラ座標の精度と世界座標の合理的性を同時に考慮し,応用範囲を広げることを可能にする。 その結果、W-HMRは二元座標系、特に困難な場面において高品質な再構成を実現する。 コードは公開後、https://yw0208.github.io/w-hmr/でリリースされる。

For a long time, in the field of reconstructing 3D human bodies from monocular images, most methods opted to simplify the task by minimizing the influence of the camera. Using a coarse focal length setting results in the reconstructed bodies not aligning well with distorted images. Ignoring camera rotation leads to an unrealistic reconstructed body pose in world space. Consequently, existing methods' application scenarios are confined to controlled environments. And they struggle to achieve accurate and reasonable reconstruction in world space when confronted with complex and diverse in-the-wild images. To address the above issues, we propose W-HMR, which decouples global body recovery into camera calibration, local body recovery and global body orientation correction. We design the first weak-supervised camera calibration method for body distortion, eliminating dependence on focal length labels and achieving finer mesh-image alignment. We propose a novel orientation correction module to allow the reconstructed human body to remain normal in world space. Decoupling body orientation and body pose enables our model to consider the accuracy in camera coordinate and the reasonableness in world coordinate simultaneously, expanding the range of applications. As a result, W-HMR achieves high-quality reconstruction in dual coordinate systems, particularly in challenging scenes. Codes will be released on https://yw0208.github.io/w-hmr/ after publication.
翻訳日:2023-12-01 11:21:43 公開日:2023-11-30
# CLOMO: 大規模言語モデルによる対実論理修正

CLOMO: Counterfactual Logical Modification with Large Language Models ( http://arxiv.org/abs/2311.17438v2 )

ライセンス: Link先を確認
Yinya Huang, Ruixin Hong, Hongming Zhang, Wei Shao, Zhicheng Yang, Dong Yu, Changshui Zhang, Xiaodan Liang, Linqi Song(参考訳) 本研究では,大規模言語モデル(LLM)の対実的推論能力の領域を探索する。 我々の主な目的は、LLM内の反現実的思考過程を育成し、それらのプロセスの有効性を厳格に評価することである。 具体的には、新しいタスク、CLOMO(Counterfactual Logical Modification)と、高品質な人間注釈ベンチマークを紹介する。 このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければならない。 生成モデルの反事実能力を評価するために, タスクをマルチチョイス問題としてモデル化するのではなく, llmの自然言語出力を直接評価するための, 革新的な評価指標, logicaware counterfactual scoreを提案する。 分析の結果,提案手法は人間の好みとよく一致することがわかった。 実験の結果,LLMは論理的対実的思考において顕著な能力を示すが,現在の能力と人的パフォーマンスとの間には明確なギャップが残っていることがわかった。

In this study, we delve into the realm of counterfactual reasoning capabilities of large language models (LLMs). Our primary objective is to cultivate the counterfactual thought processes within LLMs and rigorously assess these processes for their validity. Specifically, we introduce a novel task, Counterfactual Logical Modification (CLOMO), and a high-quality human-annotated benchmark. In this task, LLMs must adeptly alter a given argumentative text to uphold a predetermined logical relationship. To effectively evaluate a generation model's counterfactual capabilities, we propose an innovative evaluation metric, the LogicAware Counterfactual Score to directly evaluate the natural language output of LLMs instead of modeling the task as a multiple-choice problem. Analysis shows that the proposed automatic metric aligns well with human preference. Our experimental results show that while LLMs demonstrate a notable capacity for logical counterfactual thinking, there remains a discernible gap between their current abilities and human performance.
翻訳日:2023-12-01 11:21:17 公開日:2023-11-30
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v2 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2023-12-01 11:20:59 公開日:2023-11-30
# GNNFlow - 動的グラフによる継続的時間的GNN学習のための分散フレームワーク

GNNFlow: A Distributed Framework for Continuous Temporal GNN Learning on Dynamic Graphs ( http://arxiv.org/abs/2311.17410v2 )

ライセンス: Link先を確認
Yuchen Zhong, Guangming Sheng, Tianzuo Qin, Minjie Wang, Quan Gan, and Chuan Wu(参考訳) グラフニューラルネットワーク(GNN)は様々な分野で重要な役割を果たしている。 しかし、既存のディープグラフ学習フレームワークの多くは、事前ストアされた静的グラフを前提としており、グラフストリームのトレーニングをサポートしていない。 対照的に、現実世界のグラフの多くは動的であり、時間領域情報を含んでいる。 GNNFlowは,マルチGPUマシン上で動的グラフの効率的な連続時間グラフ表現学習を実現する分散フレームワークである。 GNNFlowは、メモリ使用量とグラフ更新とサンプリング操作効率を効果的にバランスさせる適応時間インデックスブロックベースのデータ構造を導入している。 高速GPUベースの時間領域サンプリングのためのハイブリッドGPU-CPUグラフデータ配置と、強化サンプリングプロセスのためのカーネル最適化を備えている。 ノードとエッジ機能のための動的GPUキャッシュを開発し、再利用と復元戦略を通じてキャッシュヒット率を最大化する。 GNNFlowは、負荷バランスを確保するために静的スケジューリングを備えた複数のマシンでの分散トレーニングをサポートする。 DGLとPyTorchに基づいたGNNFlowを実装した。 実験の結果,GNNFlowは既存のシステムに比べて最大21.1倍高速な継続的学習を実現することがわかった。

Graph Neural Networks (GNNs) play a crucial role in various fields. However, most existing deep graph learning frameworks assume pre-stored static graphs and do not support training on graph streams. In contrast, many real-world graphs are dynamic and contain time domain information. We introduce GNNFlow, a distributed framework that enables efficient continuous temporal graph representation learning on dynamic graphs on multi-GPU machines. GNNFlow introduces an adaptive time-indexed block-based data structure that effectively balances memory usage with graph update and sampling operation efficiency. It features a hybrid GPU-CPU graph data placement for rapid GPU-based temporal neighborhood sampling and kernel optimizations for enhanced sampling processes. A dynamic GPU cache for node and edge features is developed to maximize cache hit rates through reuse and restoration strategies. GNNFlow supports distributed training across multiple machines with static scheduling to ensure load balance. We implement GNNFlow based on DGL and PyTorch. Our experimental results show that GNNFlow provides up to 21.1x faster continuous learning than existing systems.
翻訳日:2023-12-01 11:20:28 公開日:2023-11-30
# 単体画像からの頭(?)アニメ:改良されたモデルとその蒸留

Talking Head(?) Anime from a Single Image 4: Improved Model and Its Distillation ( http://arxiv.org/abs/2311.17409v2 )

ライセンス: Link先を確認
Pramook Khungurn(参考訳) 本研究では,アニメキャラクタの単一画像からリアルタイムに制御可能なキャラクタモデルを作成する問題について検討する。 この問題の解決策は、アバター、コンピュータゲーム、その他のインタラクティブなアプリケーションを作成するコストを大幅に削減する。 Talking Head Anime 3 (THA3)は、この問題に直接対処しようとするオープンソースプロジェクトである。 1)アニメキャラクタの上半身の画像と(2)45次元ポーズベクトルとを入力として、指定されたポーズを取る同一キャラクタの新しいイメージを出力する。 可能な動きの範囲は、個人のアバターや特定の種類のゲームキャラクタに十分表現できる。 しかし、このシステムは、一般的なPC上でリアルタイムにアニメーションを生成するには遅すぎるため、画質を向上することができる。 本稿ではTHA3を2つの方法で改善する。 まず, 現代の生成モデルで広く用いられているu-netに基づいて, キャラクタの頭部と身体を回転させる構成ネットワークのための新しいアーキテクチャを提案する。 新しいアーキテクチャは、常にTHA3ベースラインよりも画質が良い。 それでも、フレームを生成するのに最大150ミリ秒かかるので、システム全体がずっと遅くなります。 第2に,コンシューマ向けGPUを用いて512×512のアニメーションフレームをリアルタイム(30FPS以下)に生成できる小型ネットワーク(2MB未満)にシステムを蒸留する手法を提案する。 この改良により、システム全体がリアルタイムアプリケーションに実用的になる。

We study the problem of creating a character model that can be controlled in real time from a single image of an anime character. A solution to this problem would greatly reduce the cost of creating avatars, computer games, and other interactive applications. Talking Head Anime 3 (THA3) is an open source project that attempts to directly address the problem. It takes as input (1) an image of an anime character's upper body and (2) a 45-dimensional pose vector and outputs a new image of the same character taking the specified pose. The range of possible movements is expressive enough for personal avatars and certain types of game characters. However, the system is too slow to generate animations in real time on common PCs, and its image quality can be improved. In this paper, we improve THA3 in two ways. First, we propose new architectures for constituent networks that rotate the character's head and body based on U-Nets with attention that are widely used in modern generative models. The new architectures consistently yield better image quality than the THA3 baseline. Nevertheless, they also make the whole system much slower: it takes up to 150 milliseconds to generate a frame. Second, we propose a technique to distill the system into a small network (less than 2 MB) that can generate 512x512 animation frames in real time (under 30 FPS) using consumer gaming GPUs while keeping the image quality close to that of the full system. This improvement makes the whole system practical for real-time applications.
翻訳日:2023-12-01 11:20:10 公開日:2023-11-30