このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20230818)

# 多段階回帰株価予測における確率的タックリングのための拡散変動オートエンコーダ

Diffusion Variational Autoencoder for Tackling Stochasticity in Multi-Step Regression Stock Price Prediction ( http://arxiv.org/abs/2309.00073v1 )

ライセンス: Link先を確認
Kelvin J.L. Koa, Yunshan Ma, Ritchie Ng and Tat-Seng Chua(参考訳) 長期的視野での多段階株価予測はボラティリティ(変動性)の予測に不可欠であり、金融機関は価格とヘッジファンドデリバティブを許容し、銀行はトレーディングブックのリスクを定量化することができる。 加えて、ほとんどの金融規制当局も、実質的な市場価格に影響を及ぼさないために、機関投資家がリスクの高い資産を退去する日数日間の流動性地平線を必要としている。 しかし、株価データの非常に確率的な性質を考えると、多段階の株価予測の課題は難しい。 この問題に対処するための現在の解決策は、主に単一段階の分類に基づく予測のために設計されており、表現力の低いものに限られている。 この問題は、確率的ノイズも含むターゲット価格シーケンスの導入によって徐々に難しくなり、テスト時の一般化性も低下する。 これらの問題に対処するために,vae (deep hierarchy variational-autoencoder) と拡散確率法を組み合わせて,確率的生成過程を通じてseq2seqストック予測を行う。 階層的vaeにより,ストック予測のための複雑かつ低レベルな潜在変数を学習できる一方で,拡散確率モデルでは,ランダムノイズを漸進的にストックデータに加えることで,予測者に株価確率性に対処するように訓練する。 我々の拡散-VAE(D-Va)モデルは,その予測精度と分散性の観点から,最先端の解より優れていることを示す。 さらに重要なのは、複数ステップのアウトプットによって、予測期間を超えて株式ポートフォリオを形成することも可能です。 シャープ比測定を用いてポートフォリオ投資タスクにおけるモデルアウトプットの有効性を実証し,予測の不確実性の種類に対処することの重要性を強調した。

Multi-step stock price prediction over a long-term horizon is crucial for forecasting its volatility, allowing financial institutions to price and hedge derivatives, and banks to quantify the risk in their trading books. Additionally, most financial regulators also require a liquidity horizon of several days for institutional investors to exit their risky assets, in order to not materially affect market prices. However, the task of multi-step stock price prediction is challenging, given the highly stochastic nature of stock data. Current solutions to tackle this problem are mostly designed for single-step, classification-based predictions, and are limited to low representation expressiveness. The problem also gets progressively harder with the introduction of the target price sequence, which also contains stochastic noise and reduces generalizability at test-time. To tackle these issues, we combine a deep hierarchical variational-autoencoder (VAE) and diffusion probabilistic techniques to do seq2seq stock prediction through a stochastic generative process. The hierarchical VAE allows us to learn the complex and low-level latent variables for stock prediction, while the diffusion probabilistic model trains the predictor to handle stock price stochasticity by progressively adding random noise to the stock data. Our Diffusion-VAE (D-Va) model is shown to outperform state-of-the-art solutions in terms of its prediction accuracy and variance. More importantly, the multi-step outputs can also allow us to form a stock portfolio over the prediction length. We demonstrate the effectiveness of our model outputs in the portfolio investment task through the Sharpe ratio metric and highlight the importance of dealing with different types of prediction uncertainties.
翻訳日:2023-09-10 03:56:19 公開日:2023-08-18
# bixon-jortnerモデルにおける励起状態の生存確率

Survival Probability of an Excited State in the Bixon-Jortner Model ( http://arxiv.org/abs/2309.03365v1 )

ライセンス: Link先を確認
James P. Lavine(参考訳) 量子力学系の初期状態が励起状態であるとき、その状態の占有または生存確率は減少すると予想される。 これは分子内放射線のない遷移をモデル化するために導入されたbixon-jortnerモデルで数値的に研究されている。 ここでは有限状態の集合が使用され、一定数の状態に対して、モデルのパラメータはエネルギーレベル分離と遷移行列要素の強さである。 これら3種はいずれも生存確率に影響を及ぼすため多様である。 短い期間の後、生存確率の減衰は指数関数的であることがしばしば見出される。 しかし、生存確率は、さらに経つにつれて上昇し、経時的に続くパターンが減少することが判明する。 この再分布は可算状態の集合が存在する場合の一般的な特徴である。

When the initial state of a quantum mechanical system is an excited state, then it is expected that the occupation, or survival, probability of that state will decrease. This is studied numerically within the Bixon-Jortner model, which was introduced to model intramolecular radiationless transitions. Here a finite set of states is used and for a fixed number of states, the parameters of the model are the energy level separation and the strength of the transition matrix element. All three of these are varied to see their effects on the survival probability. After a short interval of time, the survival probability decay is often found to be an exponential. But the survival probability is then found to increase with further time and then decrease in a pattern that continues in time. This repopulation is a general feature when a countable set of states is present.
翻訳日:2023-09-10 03:28:59 公開日:2023-08-18
# SA Unetの改善

SA Unet Improved ( http://arxiv.org/abs/2308.15487v1 )

ライセンス: Link先を確認
Nadav Potesman and Ariel Rechtman(参考訳) 網膜血管セグメンテーションは、医療領域における画像処理においてよく知られた問題である。 良いセグメンテーションは、医師がより良い判断を下すのに役立つかもしれない。 本稿では,網膜血管のセグメンテーションを含むドライブチャレンジについて述べる。 stylegan2とsa-unetを組み合わせた新しい手法を開発した。 私たちのイノベーションは、小さなデータセットセグメンテーションの問題に役立ちます。

Retinal vessels segmentation is well known problem in image processing on the medical field. Good segmentation may help doctors take better decisions while diagnose eyes disuses. This paper describes our work taking up the DRIVE challenge which include segmentation on retinal vessels. We invented a new method which combine using of StyleGAN2 and SA-Unet. Our innovation can help any small data set segmentation problem.
翻訳日:2023-09-03 21:21:57 公開日:2023-08-18
# 長期記憶ネットワークを用いたICU死亡予測

ICU Mortality Prediction Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2308.12800v1 )

ライセンス: Link先を確認
Manel Mili (FSM, TIM), Asma Kerkeni (ISIMM, TIM), Asma Ben Abdallah (ISIMM, TIM), Mohamed Hedi Bedoui (TIM)(参考訳) 集中治療室(ICUs)におけるベッドサイドの大規模モニタリングは、患者の生理学に関する複雑な時間的データをもたらし、臨床データ分析の大規模状況を示す。 一方で、これらのデータ内の時系列パターンを特定することは、臨床事象を予測するための高い適性をもたらす可能性がある。 そこで本研究では,電子健康記録(ehrs)から得られた多変量時系列データを多変量解析し,病院内死亡率と滞在期間(los)を早期に予測するために高レベル情報を抽出する自動データ駆動システムの実装について検討する。 本研究は, LSTMネットワークの適用性を検討するために, 時間枠を6時間に短縮し, 臨床業務を強化する。 実世界の予測エンジン構築のための厳密な多変量時系列測定によるLSTMモデルの効率性を明らかにする。

Extensive bedside monitoring in Intensive Care Units (ICUs) has resulted in complex temporal data regarding patient physiology, which presents an upscale context for clinical data analysis. In the other hand, identifying the time-series patterns within these data may provide a high aptitude to predict clinical events. Hence, we investigate, during this work, the implementation of an automatic data-driven system, which analyzes large amounts of multivariate temporal data derived from Electronic Health Records (EHRs), and extracts high-level information so as to predict in-hospital mortality and Length of Stay (LOS) early. Practically, we investigate the applicability of LSTM network by reducing the time-frame to 6-hour so as to enhance clinical tasks. The experimental results highlight the efficiency of LSTM model with rigorous multivariate time-series measurements for building real-world prediction engines.
翻訳日:2023-08-27 04:39:11 公開日:2023-08-18
# 数万の超伝導量子ビットと数千ゲートを用いた高密度イジング最適化問題のための量子回路の設計と実行

Design and execution of quantum circuits using tens of superconducting qubits and thousands of gates for dense Ising optimization problems ( http://arxiv.org/abs/2308.12423v1 )

ライセンス: Link先を確認
Filip B. Maciejewski, Stuart Hadfield, Benjamin Hall, Mark Hodson, Maxime Dupont, Bram Evert, James Sud, M. Sohaib Alam, Zhihui Wang, Stephen Jeffrey, Bhuvanesh Sundar, P. Aaron Lott, Shon Grabbe, Eleanor G. Rieffel, Matthew J. Reagor and Davide Venturelli(参考訳) 我々は,各層におけるコストハミルトニアン内のすべての相互作用のサブセットをパラメータ化する,既存のアンサットから派生した変分最適化のためのハードウェア効率の高いアンサッツを開発した。 ゲート順序を変分パラメータとして扱い,実験において大きな性能向上が期待できることを示す。 リゲッティ・アスペン-M-3トランスモンプロセッサの50ビット線形鎖サブシステム上で,完全連結シェリントン・カークパトリック・ハミルトンのコンパイル最適化実装実験を行った。 その結果, 最良回路設計では, 高レベルのノイズが存在するにもかかわらず, 最適角度, ゲート順序における平均性能は回路深さ(より多くのパラメータを用いて)とともに増加することがわかった。 最大5000個の2量子ビットおよび5000個の1量子ビットネイティブゲートを含む回路において、ランダムな推定オラクルを使用するよりも性能が大幅に向上したことを報告した。 さらに、現在の量子プロセッサと将来の量子プロセッサを最適化のためにより効果的に利用するための結果の様々な要約についても論じる。

We develop a hardware-efficient ansatz for variational optimization, derived from existing ansatze in the literature, that parametrizes subsets of all interactions in the Cost Hamiltonian in each layer. We treat gate orderings as a variational parameter and observe that doing so can provide significant performance boosts in experiments. We carried out experimental runs of a compilation-optimized implementation of fully-connected Sherrington-Kirkpatrick Hamiltonians on a 50-qubit linear-chain subsystem of Rigetti Aspen-M-3 transmon processor. Our results indicate that, for the best circuit designs tested, the average performance at optimized angles and gate orderings increases with circuit depth (using more parameters), despite the presence of a high level of noise. We report performance significantly better than using a random guess oracle for circuits involving up to approx 5000 two-qubit and approx 5000 one-qubit native gates. We additionally discuss various takeaways of our results toward more effective utilization of current and future quantum processors for optimization.
翻訳日:2023-08-27 04:38:55 公開日:2023-08-18
# 集合的拡張による例による言語探索による関係抽出の促進

Advancing Relation Extraction through Language Probing with Exemplars from Set Co-Expansion ( http://arxiv.org/abs/2308.11720v1 )

ライセンス: Link先を確認
Yerong Li, Roxana Girju(参考訳) 関係抽出(RE)は、構造化されていないテキストから構造化情報を自動的に抽出する重要なタスクである。 本稿では,代表例の統合とコセット展開による多面的アプローチを提案する。 本手法の主な目的は,関係分類の精度を高め,クラス間の混乱を緩和することである。 私たちのアプローチは、それぞれの関係クラスを代表例でシードすることから始まります。 その後,対象クラスから対象ペアと代表ペアの類似度尺度を組み込むことにより,学習目標を充実させる。 さらに、共集合展開プロセスは、対照クラスからの例式を考慮したクラスランキング手順を含む。 関連を包含する文脈の詳細は、文脈の類似性を確認するためにコンテキストフリーのハーストパターンによって活用される。 経験的評価により,共同セット展開手法の有効性が示され,関係分類性能が著しく向上した。 提案手法は,既存の微調整手法を用いて,ほとんどの設定において,少なくとも1%の精度向上を実現している。 提案手法をさらに洗練するために,コントラスト的な例のチューニングに焦点を当てた詳細な分析を行う。 この戦略的選択とチューニングは、類似性を共有するクラス間の混乱を効果的に低減し、より正確な分類プロセスをもたらす。 実験結果は,提案手法の有効性を裏付けるものである。 共セット展開と文脈認識プロンプトチューニングの相乗効果は分類精度の向上に大きく寄与する。 さらに,コントラスト・サンプル・チューニングによるコントラスト・クラス間の混乱の低減は,本手法のロバスト性と信頼性を検証する。

Relation Extraction (RE) is a pivotal task in automatically extracting structured information from unstructured text. In this paper, we present a multi-faceted approach that integrates representative examples and through co-set expansion. The primary goal of our method is to enhance relation classification accuracy and mitigating confusion between contrastive classes. Our approach begins by seeding each relationship class with representative examples. Subsequently, our co-set expansion algorithm enriches training objectives by incorporating similarity measures between target pairs and representative pairs from the target class. Moreover, the co-set expansion process involves a class ranking procedure that takes into account exemplars from contrastive classes. Contextual details encompassing relation mentions are harnessed via context-free Hearst patterns to ascertain contextual similarity. Empirical evaluation demonstrates the efficacy of our co-set expansion approach, resulting in a significant enhancement of relation classification performance. Our method achieves an observed margin of at least 1 percent improvement in accuracy in most settings, on top of existing fine-tuning approaches. To further refine our approach, we conduct an in-depth analysis that focuses on tuning contrastive examples. This strategic selection and tuning effectively reduce confusion between classes sharing similarities, leading to a more precise classification process. Experimental results underscore the effectiveness of our proposed framework for relation extraction. The synergy between co-set expansion and context-aware prompt tuning substantially contributes to improved classification accuracy. Furthermore, the reduction in confusion between contrastive classes through contrastive examples tuning validates the robustness and reliability of our method.
翻訳日:2023-08-27 04:37:04 公開日:2023-08-18
# インタラクティブWebベースプログラミングのための創造的AIツールとゲームベースの方法論の力を探る

Exploring the Power of Creative AI Tools and Game-Based Methodologies for Interactive Web-Based Programming ( http://arxiv.org/abs/2308.11649v1 )

ライセンス: Link先を確認
Benjamin Kenwright(参考訳) 近年、人工知能とwebベースのプログラミングの分野は大幅に進歩し、開発者は動的でインタラクティブなwebサイトやアプリケーションを作れるようになった。 これらの進歩の最前線では、クリエイティブなAIツールとゲームベースの方法論が強力な手段として登場し、ユーザエクスペリエンスの向上と教育環境への関与を約束している。 この章は、インタラクティブなwebベースのプログラミングのためのツールと方法論の可能性を探求し、それらの利点、制限、現実世界のアプリケーションを調べます。 プライバシー問題やAI生成コンテンツにおけるバイアスの可能性など,これらの技術をWeb開発に統合する際の課題と倫理的考察を検討する。 この調査を通じて、創造的なAIツールとゲームベースの方法論がWebベースのプログラミングの未来にもたらすエキサイティングな可能性に関する洞察を提供することを目指している。

In recent years, the fields of artificial intelligence and web-based programming have seen tremendous advancements, enabling developers to create dynamic and interactive websites and applications. At the forefront of these advancements, creative AI tools and game-based methodologies have emerged as potent instruments, promising enhanced user experiences and increased engagement in educational environments. This chapter explores the potential of these tools and methodologies for interactive web-based programming, examining their benefits, limitations, and real-world applications. We examine the challenges and ethical considerations that arise when integrating these technologies into web development, such as privacy concerns and the potential for bias in AI-generated content. Through this exploration, we aim to provide insights into the exciting possibilities that creative AI tools and game-based methodologies offer for the future of web-based programming.
翻訳日:2023-08-27 04:36:42 公開日:2023-08-18
# 正規化された$(xp)^2$モデル

A Regularized $(XP)^2$ Model ( http://arxiv.org/abs/2308.11648v1 )

ライセンス: Link先を確認
Zhao-Feng Ge and Yu-Qi Chen(参考訳) 古典的ハミルトニアンである $h(x,p)=(x^2+a^2)(p^2+a^2)$ で記述される動的モデルについて検討する。ここでは、古典的、半古典的、量子力学において $a^2>0$ であり、高エネルギーの $e$ 極限では、位相経路は $(xp)^2$ モデルに似ている。 しかし、$a$のゼロでない値はレギュレータとして作用し、$x, p \sim 0$ の領域に現れる特異点を取り除き、状態密度の対数的増加を特徴とする離散スペクトルとなる。 古典解は楕円函数によって記述され、周期は楕円積分によって決定される。 量子化ハミルトニアンの3つの異なる形式を示し、それらを$\cosh 2x$-likeポテンシャルを持つ標準シュレーディンガー方程式に再構成する。 これらのスペクトルの数値評価を行い、エネルギー準位の違いを明らかにした。 そのうちの1つの興味深い形式は、古典版と同一のシュルク・オディンガー方程式においてハミルトニアンを持つ。 そのようなシナリオでは、固有値方程式は$i\infty$ポイントでのマチュー関数の値の消滅として表すことができ、さらにマチュー関数は波動関数として表すことができる。

We investigate a dynamic model described by the classical Hamiltonian $H(x,p)=(x^2+a^2)(p^2+a^2)$ , where $a^2>0$, in classical, semi-classical, and quantum mechanics.In the high-energy $E$ limit, the phase path resembles that of the $(XP)^2$ model. However, the non-zero value of $a$ acts as a regulator, removing the singularities that appear in the region where $x, p \sim 0$ , resulting in a discrete spectrum characterized by a logarithmic increase in state density. Classical solutions are described by elliptic functions, with the period being determined by elliptic integrals. We present three different forms of quantized Hamiltonians, and reformulate them into the standard Schr\" odinger equation with $\cosh 2x$-like potentials. Numerical evaluations of the spectra for these forms are carried out and reveal minor differences in energy levels. Among them, one interesting form possesses Hamiltonian in the Schr\" odinger equation that is identical to its classical version. In such scenarios, the eigenvalue equations can be expressed as the vanishing of the Mathieu functions' value at $i\infty$ points, and furthermore, the Mathieu functions can be represented as the wave functions.
翻訳日:2023-08-27 04:36:28 公開日:2023-08-18
# 固有値に基づく増分スペクトルクラスタリング

Eigenvalue-based Incremental Spectral Clustering ( http://arxiv.org/abs/2308.10999v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek and Bart{\l}miej Starosta and S{\l}awomir T. Wierzcho\'n(参考訳) 我々の以前の実験では、(数百のエントリを持つ)文書の部分集合が、何らかの方法で組合せラプラシアンの固有値スペクトルで一般化された共通正規化を共有することを示した。 そこで本研究では,インクリメンタルスペクトルクラスタリング手法を提案する。 この方法は、(1)データを管理可能なサブセットに分割する、(2)各サブセットをクラスタ化する、(3)集合全体のクラスタを形成する固有値スペクトルの類似性に基づいて異なるサブセットからクラスタをマージする、というステップから成り立っている。 この方法は、典型的なスペクトルクラスタリングの場合のように、データサンプルのサイズによって大きく増加する複雑性のクラスタリング法に特に有用である。 実際に、サブセットのクラスタリングとマージによって、データセット全体のクラスタリングに近いクラスタが得られることを示す実験が行われた。

Our previous experiments demonstrated that subsets collections of (short) documents (with several hundred entries) share a common normalized in some way eigenvalue spectrum of combinatorial Laplacian. Based on this insight, we propose a method of incremental spectral clustering. The method consists of the following steps: (1) split the data into manageable subsets, (2) cluster each of the subsets, (3) merge clusters from different subsets based on the eigenvalue spectrum similarity to form clusters of the entire set. This method can be especially useful for clustering methods of complexity strongly increasing with the size of the data sample,like in case of typical spectral clustering. Experiments were performed showing that in fact the clustering and merging the subsets yields clusters close to clustering the entire dataset.
翻訳日:2023-08-23 20:10:03 公開日:2023-08-18
# ロジスティックスハブ配置最適化:道路ネットワーク距離を用いたK平均とP媒介モデルハイブリッドアプローチ

Logistics Hub Location Optimization: A K-Means and P-Median Model Hybrid Approach Using Road Network Distances ( http://arxiv.org/abs/2308.11038v1 )

ライセンス: Link先を確認
Muhammad Abdul Rahman and Muhammad Aamir Basheer and Zubair Khalid and Muhammad Tahir and Momin Uppal(参考訳) ロジスティックハブはラストマイルの配達距離において重要な役割を担っており、わずかな距離の増加でもeコマース産業のビジネスに悪影響を与え、二酸化炭素排出量も増加する。 コビッド19以降のこの産業の成長は、都市環境における資源配分の最適化の必要性をさらに高めている。 本研究では,ロジスティックハブの配置を最適化するためにハイブリッドアプローチを用いる。 アプローチにはさまざまなテクニックが順次採用されている。 最初は、配送ポイントは空間的位置に関連してK-Meansを使ってクラスタ化される。 クラスタリング手法はユークリッド距離とは対照的に道路網距離を利用する。 非道路ネットワークベースのアプローチは、誤った誤解を招く結果につながるため、避けられている。 最後に、ハブはP-Median法による。 p-median法は、配送数と人口を重みとして含む。 Muller と Phipps (M&P) の実際の配信データは、このアプローチの有効性を示すために使用される。 最適なハブ場所からの配達は、1回の配送で815メートル (10%) 節約される。

Logistic hubs play a pivotal role in the last-mile delivery distance; even a slight increment in distance negatively impacts the business of the e-commerce industry while also increasing its carbon footprint. The growth of this industry, particularly after Covid-19, has further intensified the need for optimized allocation of resources in an urban environment. In this study, we use a hybrid approach to optimize the placement of logistic hubs. The approach sequentially employs different techniques. Initially, delivery points are clustered using K-Means in relation to their spatial locations. The clustering method utilizes road network distances as opposed to Euclidean distances. Non-road network-based approaches have been avoided since they lead to erroneous and misleading results. Finally, hubs are located using the P-Median method. The P-Median method also incorporates the number of deliveries and population as weights. Real-world delivery data from Muller and Phipps (M&P) is used to demonstrate the effectiveness of the approach. Serving deliveries from the optimal hub locations results in the saving of 815 (10%) meters per delivery.
翻訳日:2023-08-23 20:00:21 公開日:2023-08-18
# RBA-GCN:感情認識のためのリレーショナルバイレベルアグリゲーショングラフ畳み込みネットワーク

RBA-GCN: Relational Bilevel Aggregation Graph Convolutional Network for Emotion Recognition ( http://arxiv.org/abs/2308.11029v1 )

ライセンス: Link先を確認
Lin Yuan, Guoheng Huang, Fenghuan Li, Xiaochen Yuan, Chi-Man Pun, Guo Zhong(参考訳) 会話における感情認識(ERC)は、幅広い応用のために研究者から注目を集めている。 会話には自然なグラフ構造があり、グラフ畳み込みネットワーク(GCN)に基づくERCのモデル化に多くのアプローチが用いられている。 しかし、従来のGCNの集約アプローチはノード情報冗長性の問題に悩まされ、ノード識別情報の損失につながる。 さらに、単一層GCNには、グラフから長距離コンテキスト情報をキャプチャする能力がない。 さらに、ほとんどのアプローチはテキストのモダリティに基づいており、異なるモダリティを縫い合わせることで、モダリティ間の相互作用を捉える能力は弱くなる。 これらの問題に対処するために,グラフ生成モジュール (ggm) と類似性に基づくクラスタ構築モジュール (scbm) とbilevel aggregation module (biam) の3つのモジュールからなる,リレーショナルバイレベルアグリゲーショングラフ畳み込みネットワーク (rba-gcn) を提案する。 まず、ggmは、ターゲットノード情報の冗長性を低減するために、新しいグラフを構築する。 そして、ターゲットノードとその構造近傍におけるノード類似度を算出し、類似度の低いノイズ情報をフィルタアウトしてノードの識別情報を保持する。 一方、BiAMは集約プロセス中にノードの情報を保存できる新しい集約手法である。 このモジュールは、異なるモダリティ間の相互作用を構築し、類似性クラスタに基づく長距離コンテキスト情報をキャプチャすることができる。 IEMOCAPとMELDの両方のデータセットでは、RAB-GCNの重み付き平均F1スコアは2.17$\sim$5.21\%改善している。

Emotion recognition in conversation (ERC) has received increasing attention from researchers due to its wide range of applications. As conversation has a natural graph structure, numerous approaches used to model ERC based on graph convolutional networks (GCNs) have yielded significant results. However, the aggregation approach of traditional GCNs suffers from the node information redundancy problem, leading to node discriminant information loss. Additionally, single-layer GCNs lack the capacity to capture long-range contextual information from the graph. Furthermore, the majority of approaches are based on textual modality or stitching together different modalities, resulting in a weak ability to capture interactions between modalities. To address these problems, we present the relational bilevel aggregation graph convolutional network (RBA-GCN), which consists of three modules: the graph generation module (GGM), similarity-based cluster building module (SCBM) and bilevel aggregation module (BiAM). First, GGM constructs a novel graph to reduce the redundancy of target node information. Then, SCBM calculates the node similarity in the target node and its structural neighborhood, where noisy information with low similarity is filtered out to preserve the discriminant information of the node. Meanwhile, BiAM is a novel aggregation method that can preserve the information of nodes during the aggregation process. This module can construct the interaction between different modalities and capture long-range contextual information based on similarity clusters. On both the IEMOCAP and MELD datasets, the weighted average F1 score of RBA-GCN has a 2.17$\sim$5.21\% improvement over that of the most advanced method.
翻訳日:2023-08-23 20:00:08 公開日:2023-08-18
# AIOpsのためのログ表現の学習

Learning Representations on Logs for AIOps ( http://arxiv.org/abs/2308.11526v1 )

ライセンス: Link先を確認
Pranjal Gupta and Harshit Kumar and Debanjana Kar and Karan Bhukar and Pooja Aggarwal and Prateeti Mohapatra(参考訳) AI for IT Operations(AIOps)は、Site Reliability Engineers(SRE)が、人間の介入を最小限にして運用ワークフローの自動化と合理化に使用している、強力なプラットフォームである。 自動ログ分析は、SREが進行中の障害を特定し、対処するための重要な洞察を提供するため、AIOpsでは重要なタスクである。 ログフォーマット検出、ログ分類、ログ解析といったタスクは、自動ログ分析の重要なコンポーネントである。 これらのタスクの多くは教師付き学習を必要とするが、ラベル付きログデータとログデータの多様な性質のために、複数の課題がある。 BERTやGPT3のような大規模言語モデル(LLM)は、膨大な量のラベルのないデータに基づいて自己監督を用いて訓練される。 これらのモデルは、ラベル付きデータに制限のある様々な下流タスクに効果的に使用できる一般化された表現を提供する。 科学や生物学などの特定の分野におけるLLMの成功に触発された本論文では,公開およびプロプライエタリなログデータに基づいてトレーニングされたログデータのためのLLMを紹介する。 実験の結果,提案手法は複数の下流タスクにおいて既存モデルよりも優れていた。 要約すると、LLMを搭載したAIOpsは、ログ分析タスクを自動化し、SREがより高いレベルのタスクに集中できるようにする、効率的で効果的なソリューションを提供する。 提案するllmはパブリックおよびプロプライエタリなログデータに基づいてトレーニングされ、複数のダウンストリームタスクで優れたパフォーマンスを提供します。

AI for IT Operations (AIOps) is a powerful platform that Site Reliability Engineers (SREs) use to automate and streamline operational workflows with minimal human intervention. Automated log analysis is a critical task in AIOps as it provides key insights for SREs to identify and address ongoing faults. Tasks such as log format detection, log classification, and log parsing are key components of automated log analysis. Most of these tasks require supervised learning; however, there are multiple challenges due to limited labelled log data and the diverse nature of log data. Large Language Models (LLMs) such as BERT and GPT3 are trained using self-supervision on a vast amount of unlabeled data. These models provide generalized representations that can be effectively used for various downstream tasks with limited labelled data. Motivated by the success of LLMs in specific domains like science and biology, this paper introduces a LLM for log data which is trained on public and proprietary log data. The results of our experiments demonstrate that the proposed LLM outperforms existing models on multiple downstream tasks. In summary, AIOps powered by LLMs offers an efficient and effective solution for automating log analysis tasks and enabling SREs to focus on higher-level tasks. Our proposed LLM, trained on public and proprietary log data, offers superior performance on multiple downstream tasks, making it a valuable addition to the AIOps platform.
翻訳日:2023-08-23 17:30:51 公開日:2023-08-18
# 極端気象イベントにおける深層学習技術:概観

Deep Learning Techniques in Extreme Weather Events: A Review ( http://arxiv.org/abs/2308.10995v1 )

ライセンス: Link先を確認
Shikha Verma, Kuldeep Srivastava, Akhilesh Tiwari, Shekhar Verma(参考訳) 極端な気象現象は重大な問題を引き起こし、その影響を緩和するために正確な分析と正確な予測のための技術を要求する。 近年,気象予報や極端な気象現象のダイナミクスの理解において,深層学習技術が有望なアプローチとして出現している。 本総説は,その分野における最先端の深層学習の概要を概観することを目的としている。 本研究では,雷雨,雷,降水,干ばつ,熱波,寒波,熱帯サイクロンなど,気象予報のさまざまな面において,ディープラーニングアーキテクチャの利用を検討する。 複雑なパターンや非線形関係をキャプチャする能力など、ディープラーニングの可能性を強調します。 さらに,現在のアプローチの限界を議論し,気象分野の進歩に向けた今後の方向性を強調する。 この体系的なレビューから得られた洞察は、科学的コミュニティが決定を下し、極端な気象事象の影響を軽減するために不可欠である。

Extreme weather events pose significant challenges, thereby demanding techniques for accurate analysis and precise forecasting to mitigate its impact. In recent years, deep learning techniques have emerged as a promising approach for weather forecasting and understanding the dynamics of extreme weather events. This review aims to provide a comprehensive overview of the state-of-the-art deep learning in the field. We explore the utilization of deep learning architectures, across various aspects of weather prediction such as thunderstorm, lightning, precipitation, drought, heatwave, cold waves and tropical cyclones. We highlight the potential of deep learning, such as its ability to capture complex patterns and non-linear relationships. Additionally, we discuss the limitations of current approaches and highlight future directions for advancements in the field of meteorology. The insights gained from this systematic review are crucial for the scientific community to make informed decisions and mitigate the impacts of extreme weather events.
翻訳日:2023-08-23 14:16:49 公開日:2023-08-18
# 不均一ノード特徴と相互作用規則に基づくディジタルツイン配向複合ネットワークシステム

Digital Twin-Oriented Complex Networked Systems based on Heterogeneous node features and interaction rules ( http://arxiv.org/abs/2308.11034v1 )

ライセンス: Link先を確認
Jiaqi Wen, Bogdan Gabrys, Katarzyna Musial(参考訳) 本研究では,実システムに忠実なネットワークを生成することを目的とした,Digital Twin-Oriented Complex Networked Systems(DT-CNS)の拡張可能なモデリングフレームワークを提案する。 モデリングプロセスは焦点を絞る (i)ノードの特徴、及び (ii)個々のノードの好みに基づいて構築された接続を作成するための相互作用ルール。 我々は,これらのネットワークに広まる流行に関連するネットワーク成長と異なる透過性に関する様々な特徴と規則を取り入れたシミュレーションベースのDT-CNSの実験を行う。 本研究は,特定の時間と社会的距離内で発生した感染状況を調査し,疫病発生時におけるソーシャルネットワークの災害回復性に関するケーススタディである。 実験の結果, 相互作用規則の特徴の多様性と柔軟性をそれぞれ考慮し, 構造的・ダイナミクス的複雑度の違いが, ネットワークの成長と流行にどのように影響するかを示した。 分析の結果,災害のレジリエンスを最大化するためには,感染リスクが高いため望ましい特徴を有するノードを対象とし,流行対策の焦点となるべきと考えられた。

This study proposes an extendable modelling framework for Digital Twin-Oriented Complex Networked Systems (DT-CNSs) with a goal of generating networks that faithfully represent real systems. Modelling process focuses on (i) features of nodes and (ii) interaction rules for creating connections that are built based on individual node's preferences. We conduct experiments on simulation-based DT-CNSs that incorporate various features and rules about network growth and different transmissibilities related to an epidemic spread on these networks. We present a case study on disaster resilience of social networks given an epidemic outbreak by investigating the infection occurrence within specific time and social distance. The experimental results show how different levels of the structural and dynamics complexities, concerned with feature diversity and flexibility of interaction rules respectively, influence network growth and epidemic spread. The analysis revealed that, to achieve maximum disaster resilience, mitigation policies should be targeted at nodes with preferred features as they have higher infection risks and should be the focus of the epidemic control.
翻訳日:2023-08-23 14:04:35 公開日:2023-08-18
# 周期的リレーショナルコンセンサスを用いたロバスト参照ビデオオブジェクトセグメンテーション

Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus ( http://arxiv.org/abs/2207.01203v3 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu(参考訳) Referring Video Object Segmentation (R-VOS)は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。 既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。 意味的コンセンサス(semantic consensus)と呼ばれるこの仮定は、現実のシナリオにおいてしばしば破られ、その表現は偽のビデオに対して照会される可能性がある。 本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。 そこで,ロバストR-VOSと呼ばれる拡張タスクを提案する。 本稿では,R-VOS問題とその双対(テキスト再構成)を共同でモデル化することによって,この問題に対処する。 ビデオテキストペア間のセマンティックコンセンサスを識別し、正のペアに付与する構造的テキスト-テキストサイクル制約を導入し、正のペアと負のペアの両方からマルチモーダルアライメントを実現する。 我々の構造的制約は言語多様性がもたらす課題に効果的に対処し、ポイントワイド制約に依存する従来の手法の制約を克服する。 新しい評価データセットであるR\textsuperscript{2}-Youtube-VOSisは、モデルの堅牢性を測定するために構築された。 我々のモデルは、R-VOSベンチマーク、Ref-DAVIS17、Ref-Youtube-VOS、R\textsuperscript{2}-Youtube-VOS~データセットの最先端性能を達成する。

Referring Video Object Segmentation (R-VOS) is a challenging task that aims to segment an object in a video based on a linguistic expression. Most existing R-VOS methods have a critical assumption: the object referred to must appear in the video. This assumption, which we refer to as semantic consensus, is often violated in real-world scenarios, where the expression may be queried against false videos. In this work, we highlight the need for a robust R-VOS model that can handle semantic mismatches. Accordingly, we propose an extended task called Robust R-VOS, which accepts unpaired video-text inputs. We tackle this problem by jointly modeling the primary R-VOS problem and its dual (text reconstruction). A structural text-to-text cycle constraint is introduced to discriminate semantic consensus between video-text pairs and impose it in positive pairs, thereby achieving multi-modal alignment from both positive and negative pairs. Our structural constraint effectively addresses the challenge posed by linguistic diversity, overcoming the limitations of previous methods that relied on the point-wise constraint. A new evaluation dataset, R\textsuperscript{2}-Youtube-VOSis constructed to measure the model robustness. Our model achieves state-of-the-art performance on R-VOS benchmarks, Ref-DAVIS17 and Ref-Youtube-VOS, and also our R\textsuperscript{2}-Youtube-VOS~dataset.
翻訳日:2023-08-23 03:06:13 公開日:2023-08-18
# StudioGAN: 画像合成のためのGANの分類とベンチマーク

StudioGAN: A Taxonomy and Benchmark of GANs for Image Synthesis ( http://arxiv.org/abs/2206.09479v3 )

ライセンス: Link先を確認
Minguk Kang, Joonghyuk Shin, and Jaesik Park(参考訳) Generative Adversarial Network (GAN) は、現実的な画像合成のための最先端の生成モデルの一つである。 GANのトレーニングと評価がますます重要になる一方で、現在のGAN研究エコシステムは、その評価が一貫して公平に行われる信頼できるベンチマークを提供していない。 さらに、検証済みのGAN実装が少ないため、研究者はベースラインの再現にかなりの時間を費やしている。 我々はGANアプローチの分類について研究し、StudioGANという新しいオープンソースライブラリを提示する。 StudioGANは7つのGANアーキテクチャ、9つの条件付きメソッド、4つの敵損失、12の正規化モジュール、3つの差別化可能な拡張、7つの評価指標、5つの評価バックボーンをサポートする。 本稿では,各種データセット(CIFAR10, ImageNet, AFHQv2, FFHQ, Baby/Papa/Granpa-ImageNet)と3種類の評価バックボーン(InceptionV3, SwAV, Swin Transformer)を用いた大規模ベンチマークを提案する。 GANコミュニティで使用されている他のベンチマークとは異なり、BigGANやStyleGANシリーズを含む代表的GANを統一的なトレーニングパイプラインでトレーニングし、7つの評価指標で生成パフォーマンスを定量化しています。 このベンチマークは、他の最先端生成モデル(stylegan-xl, adm, maskgit, rq-transformerなど)を評価する。 StudioGANは、事前トレーニングされた重量でGAN実装、トレーニング、評価スクリプトを提供する。 StudioGANはhttps://github.com/POSTECH-CVLab/PyTorch-StudioGANで入手できる。

Generative Adversarial Network (GAN) is one of the state-of-the-art generative models for realistic image synthesis. While training and evaluating GAN becomes increasingly important, the current GAN research ecosystem does not provide reliable benchmarks for which the evaluation is conducted consistently and fairly. Furthermore, because there are few validated GAN implementations, researchers devote considerable time to reproducing baselines. We study the taxonomy of GAN approaches and present a new open-source library named StudioGAN. StudioGAN supports 7 GAN architectures, 9 conditioning methods, 4 adversarial losses, 12 regularization modules, 3 differentiable augmentations, 7 evaluation metrics, and 5 evaluation backbones. With our training and evaluation protocol, we present a large-scale benchmark using various datasets (CIFAR10, ImageNet, AFHQv2, FFHQ, and Baby/Papa/Granpa-ImageNet) and 3 different evaluation backbones (InceptionV3, SwAV, and Swin Transformer). Unlike other benchmarks used in the GAN community, we train representative GANs, including BigGAN and StyleGAN series in a unified training pipeline and quantify generation performance with 7 evaluation metrics. The benchmark evaluates other cutting-edge generative models (e.g., StyleGAN-XL, ADM, MaskGIT, and RQ-Transformer). StudioGAN provides GAN implementations, training, and evaluation scripts with the pre-trained weights. StudioGAN is available at https://github.com/POSTECH-CVLab/PyTorch-StudioGAN.
翻訳日:2023-08-23 03:05:11 公開日:2023-08-18
# ベイズ最適化における混合変数のハイブリッドモデル

Hybrid Models for Mixed Variables in Bayesian Optimization ( http://arxiv.org/abs/2206.01409v3 )

ライセンス: Link先を確認
Hengrui Luo, Younghyun Cho, James W. Demmel, Xiaoye S. Li, Yang Liu(参考訳) 本稿では,混合変数の管理に有効なベイズ最適化(BO)のハイブリッドモデルについて,定量的(連続型と整数型)と定性的(カテゴリー型)の2種類のモデルを提案する。 本研究では,モンテカルロ木探索構造 (mcts) とガウス過程 (gp) を連続的に結合した新しいハイブリッドモデルを提案する。 探索フェーズにおける効率性に対応するため,元の(頻度の低い)高信頼木探索(UCTS)とベイズディリクレ探索戦略を並べて,木アーキテクチャのベイズ最適化への統合を示す。 代理モデリングフェーズにおける私たちの革新の中心は、混合変数BOのオンラインカーネル選択です。 動的カーネル選択,ユニークな ucts (hybridm) とベイズ更新戦略 (hybridd) を含む我々のイノベーションは,ハイブリッドモデルを混合変数型サロゲートモデルの進歩と位置づけている。 数値実験はハイブリッドモデルの優位性を強調し、ベイズ最適化におけるその可能性を強調した。

This paper presents a new type of hybrid models for Bayesian optimization (BO) adept at managing mixed variables, encompassing both quantitative (continuous and integer) and qualitative (categorical) types. Our proposed new hybrid models merge Monte Carlo Tree Search structure (MCTS) for categorical variables with Gaussian Processes (GP) for continuous ones. Addressing efficiency in searching phase, we juxtapose the original (frequentist) upper confidence bound tree search (UCTS) and the Bayesian Dirichlet search strategies, showcasing the tree architecture's integration into Bayesian optimization. Central to our innovation in surrogate modeling phase is online kernel selection for mixed-variable BO. Our innovations, including dynamic kernel selection, unique UCTS (hybridM) and Bayesian update strategies (hybridD), position our hybrid models as an advancement in mixed-variable surrogate models. Numerical experiments underscore the hybrid models' superiority, highlighting their potential in Bayesian optimization.
翻訳日:2023-08-23 03:03:46 公開日:2023-08-18
# 透明AIに向けて:ディープニューラルネットワークの内部構造を解釈する調査

Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks ( http://arxiv.org/abs/2207.13243v6 )

ライセンス: Link先を確認
Tilman R\"auker, Anson Ho, Stephen Casper, Dylan Hadfield-Menell(参考訳) 機械学習の過去10年間は、規模と能力が大幅に増加した。 ディープニューラルネットワーク(DNN)は、ますます現実世界に展開されている。 しかし、それらは分析が難しく、どのように機能するかを厳密に理解することなく、それらを使うことについての懸念を提起する。 問題を識別し、バグを修正し、基本的な理解を改善することで、より信頼できるAIを構築する上で、それらを解釈するための効果的なツールが重要だ。 特に、DNNの内部コンポーネントを説明することに焦点を当てた"インナー"解釈可能性技術は、機械的理解、手動修正の指導、リバースエンジニアリングソリューションの開発に適している。 最近の研究はDNNの解釈可能性に重点を置いており、急速な進歩はメソッドの徹底的な体系化を困難にしている。 本調査では,300以上の研究を内的解釈可能性ツールに焦点をあててレビューする。 本稿では,ネットワークのどの部分(重み,ニューロン,サブネットワーク,潜在表現)を説明し,それが(イントリンシック)トレーニング中あるいは後(hoc後)に実施されているかを分類する分類法を提案する。 我々の知る限り、私たちは、解釈可能性の研究と、対向的堅牢性、連続学習、モジュール性、ネットワーク圧縮、人間の視覚システムの研究との間の多くの関係を調査した最初の人物です。 我々は、重要な課題について議論し、解釈可能性研究における現状は、主に非生産的であると論じる。 最後に、実用的なアプリケーションのエンジニアにとって、解釈可能性ツールをより便利にするために、診断、デバッグ、敵、ベンチマークを強調する将来の作業の重要性を強調します。

The last decade of machine learning has seen drastic increases in scale and capabilities. Deep neural networks (DNNs) are increasingly being deployed in the real world. However, they are difficult to analyze, raising concerns about using them without a rigorous understanding of how they function. Effective tools for interpreting them will be important for building more trustworthy AI by helping to identify problems, fix bugs, and improve basic understanding. In particular, "inner" interpretability techniques, which focus on explaining the internal components of DNNs, are well-suited for developing a mechanistic understanding, guiding manual modifications, and reverse engineering solutions. Much recent work has focused on DNN interpretability, and rapid progress has thus far made a thorough systematization of methods difficult. In this survey, we review over 300 works with a focus on inner interpretability tools. We introduce a taxonomy that classifies methods by what part of the network they help to explain (weights, neurons, subnetworks, or latent representations) and whether they are implemented during (intrinsic) or after (post hoc) training. To our knowledge, we are also the first to survey a number of connections between interpretability research and work in adversarial robustness, continual learning, modularity, network compression, and studying the human visual system. We discuss key challenges and argue that the status quo in interpretability research is largely unproductive. Finally, we highlight the importance of future work that emphasizes diagnostics, debugging, adversaries, and benchmarking in order to make interpretability tools more useful to engineers in practical applications.
翻訳日:2023-08-23 02:55:47 公開日:2023-08-18
# 嘘は偽造できるのか? 機械学習の観点からの低テイクと高テイクのデセプションビデオデータセットの比較

Can lies be faked? Comparing low-stakes and high-stakes deception video datasets from a Machine Learning perspective ( http://arxiv.org/abs/2211.13035v2 )

ライセンス: Link先を確認
Mateus Karvat Camara, Adriana Postal, Tomas Henrique Maul, Gustavo Paetzold(参考訳) 人間の社会に重大な影響があるにもかかわらず、認識検出(DD)の精度は54%に過ぎず、自動DDを実行する機械学習システムは、データ不足による現実の環境での適切な適用には至っていない。 公開されているDDデータセットはほとんど存在せず、新しいデータセットの作成は、低テイクと高テイクの嘘の概念的な区別によって妨げられている。 理論的には、2つの種類の嘘は非常に異なるので、ある種類のデータセットは別の種類のアプリケーションでは使用できない。 制御された設定でシミュレート(フェイク)できるので、低盗難のデータを取得するのは容易であるが、これらの嘘は本物のハイテイクの嘘と同じ重要性や深さを持っていないため、自動化DDシステムの実用的関心を得るのは非常に困難である。 この区別が実際的な観点から真であるかどうかを調べるため,ビデオデータからのみ動作する深層学習分類器を用いて,高値ddデータセットと低値ddデータセットを比較したいくつかの実験を行った。 実験では,低テイクデータセットの強化戦略として低テイクデータを用いた場合,低テイクデータを用いた場合よりも,高テイクデータを識別するネットワークの精度が向上した。

Despite the great impact of lies in human societies and a meager 54% human accuracy for Deception Detection (DD), Machine Learning systems that perform automated DD are still not viable for proper application in real-life settings due to data scarcity. Few publicly available DD datasets exist and the creation of new datasets is hindered by the conceptual distinction between low-stakes and high-stakes lies. Theoretically, the two kinds of lies are so distinct that a dataset of one kind could not be used for applications for the other kind. Even though it is easier to acquire data on low-stakes deception since it can be simulated (faked) in controlled settings, these lies do not hold the same significance or depth as genuine high-stakes lies, which are much harder to obtain and hold the practical interest of automated DD systems. To investigate whether this distinction holds true from a practical perspective, we design several experiments comparing a high-stakes DD dataset and a low-stakes DD dataset evaluating their results on a Deep Learning classifier working exclusively from video data. In our experiments, a network trained in low-stakes lies had better accuracy classifying high-stakes deception than low-stakes, although using low-stakes lies as an augmentation strategy for the high-stakes dataset decreased its accuracy.
翻訳日:2023-08-23 02:26:03 公開日:2023-08-18
# 画像がないなんて信じられない! 言語指導のみを用いた視覚タスクの学習

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision ( http://arxiv.org/abs/2211.09778v4 )

ライセンス: Link先を確認
Sophia Gu, Christopher Clark, Aniruddha Kembhavi(参考訳) 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。 本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクに伝達できるかどうかを問う。 我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。 実際、対照的なモデルの異なるモダリティのための埋め込み空間の間には系統的な違いがあり、これらの違いが我々のアプローチや研究戦略にどのように影響するかを分析し、この懸念を緩和する。 画像キャプション,視覚的エンターテイメント,視覚的質問応答,視覚的ニュースキャプションの4つのタスクに関するテキストトレーニングデータのみを用いたモデルを作成し,画像を用いた標準ベンチマークで評価する。 これらのモデルは、画像上で訓練されたモデルに近い性能を示し、このテキストのみの設定におけるキャプションと視覚的エンターテイメントの先行作業を9ポイント以上上回り、視覚ニュースの先行作業を30ポイント以上上回っている。 また、画像データや人為的な言語データではなく、書籍、ウェブ、言語モデルから手軽に利用できるテキストデータを用いて訓練された様々なスタイルのイメージキャプションモデルについても紹介する。

Many high-level skills that are required for computer vision tasks, such as parsing questions, comparing and contrasting semantics, and writing descriptions, are also required in other domains such as natural language processing. In this paper, we ask whether it is possible to learn those skills from text data and then transfer them to vision tasks without ever training on visual training data. Key to our approach is exploiting the joint embedding space of contrastively trained vision and language encoders. In practice, there can be systematic differences between embedding spaces for different modalities in contrastive models, and we analyze how these differences affect our approach and study strategies to mitigate this concern. We produce models using only text training data on four representative tasks: image captioning, visual entailment, visual question answering and visual news captioning, and evaluate them on standard benchmarks using images. We find these models perform close to models trained on images, while surpassing prior work for captioning and visual entailment in this text-only setting by over 9 points, and outperforming all prior work on visual news by over 30 points. We also showcase a variety of stylistic image captioning models that are trained using no image data and no human-curated language data, but instead using readily-available text data from books, the web, or language models.
翻訳日:2023-08-23 02:24:12 公開日:2023-08-18
# PhysDiff:物理誘導型人体運動拡散モデル

PhysDiff: Physics-Guided Human Motion Diffusion Model ( http://arxiv.org/abs/2212.02500v3 )

ライセンス: Link先を確認
Ye Yuan, Jiaming Song, Umar Iqbal, Arash Vahdat, Jan Kautz(参考訳) 拡散モデルをデノイングすることは、多様で現実的な人間の動きを生み出す大きな約束である。 しかし、既存の運動拡散モデルは拡散過程における物理法則をほとんど無視しており、しばしば浮動、足の滑動、地中浸透といった明瞭なアーティファクトを持つ物理的に実現可能な運動を生成する。 これは生成されたモーションの品質に深刻な影響を与え、現実世界のアプリケーションを制限する。 本稿では, 物理的制約を拡散過程に組み込んだ新しい物理誘導運動拡散モデル(physdiff)を提案する。 具体的には,物理シミュレータにおける運動模倣を用いて,拡散ステップの消音運動を物理的に可視的な運動に投影する物理ベースの運動投影モジュールを提案する。 投影された動きは次の拡散ステップでさらに使われ、消音拡散過程を導く。 直感的には、我々のモデルにおける物理学の使用は、単純な後処理では達成できない物理的に証明可能な空間への運動を反復的に引き出す。 大規模な人体運動データセットの実験により、我々の手法は最先端の運動品質を達成し、身体的可視性を大幅に向上する(全データセットの78%以上)。

Denoising diffusion models hold great promise for generating diverse and realistic human motions. However, existing motion diffusion models largely disregard the laws of physics in the diffusion process and often generate physically-implausible motions with pronounced artifacts such as floating, foot sliding, and ground penetration. This seriously impacts the quality of generated motions and limits their real-world application. To address this issue, we present a novel physics-guided motion diffusion model (PhysDiff), which incorporates physical constraints into the diffusion process. Specifically, we propose a physics-based motion projection module that uses motion imitation in a physics simulator to project the denoised motion of a diffusion step to a physically-plausible motion. The projected motion is further used in the next diffusion step to guide the denoising diffusion process. Intuitively, the use of physics in our model iteratively pulls the motion toward a physically-plausible space, which cannot be achieved by simple post-processing. Experiments on large-scale human motion datasets show that our approach achieves state-of-the-art motion quality and improves physical plausibility drastically (>78% for all datasets).
翻訳日:2023-08-23 02:17:16 公開日:2023-08-18
# DALL-EとFlamingoはお互いに理解しているのか?

Do DALL-E and Flamingo Understand Each Other? ( http://arxiv.org/abs/2212.12249v2 )

ライセンス: Link先を確認
Hang Li, Jindong Gu, Rajat Koner, Sahand Sharifzadeh, Volker Tresp(参考訳) 画像とテキストの理解と作成に焦点を当てたマルチモーダル研究の分野は、大きな進歩を遂げている。 この進歩は、著名なフラミンゴモデルやテキスト・ツー・イメージ生成モデルなど、画像キャプションを大規模に扱う洗練されたモデルが出現し、DALL-Eが顕著な例となっている。 この領域で探求する価値のある興味深い質問は、FlamingoとDALL-Eがお互いを理解しているかどうかである。 そこで本研究では,Flamingoが与えられた画像の記述を生成し,DALL-Eがこの記述を入力として新しい画像の合成を行う再構成タスクを提案する。 生成した画像が与えられた画像と類似している場合、これらのモデルは互いに理解する。 具体的には,画像再構成の品質とテキスト生成の質の関係について検討する。 画像の最適な記述は,その画像に類似した画像を生成するものであることがわかった。 この発見は、テキストから画像へ、画像からテキストへモデルを微調整するための統一フレームワークの提案を動機付ける。 具体的には、再構成部は、モデルのチューニングをガイドする正規化損失を形成する。 画像キャプションと画像生成モデルが異なる複数のデータセットに関する広範な実験により,提案手法の有効性が検証された。 DALL-EとFlamingoは公開されていないので、残りの作業にはStable DiffusionとBLIPを使用します。 プロジェクトウェブサイト: https://dalleflamingo.github.io

The field of multimodal research focusing on the comprehension and creation of both images and text has witnessed significant strides. This progress is exemplified by the emergence of sophisticated models dedicated to image captioning at scale, such as the notable Flamingo model and text-to-image generative models, with DALL-E serving as a prominent example. An interesting question worth exploring in this domain is whether Flamingo and DALL-E understand each other. To study this question, we propose a reconstruction task where Flamingo generates a description for a given image and DALL-E uses this description as input to synthesize a new image. We argue that these models understand each other if the generated image is similar to the given image. Specifically, we study the relationship between the quality of the image reconstruction and that of the text generation. We find that an optimal description of an image is one that gives rise to a generated image similar to the original one. The finding motivates us to propose a unified framework to finetune the text-to-image and image-to-text models. Concretely, the reconstruction part forms a regularization loss to guide the tuning of the models. Extensive experiments on multiple datasets with different image captioning and image generation models validate our findings and demonstrate the effectiveness of our proposed unified framework. As DALL-E and Flamingo are not publicly available, we use Stable Diffusion and BLIP in the remaining work. Project website: https://dalleflamingo.github.io.
翻訳日:2023-08-23 02:06:48 公開日:2023-08-18
# 病理画像における複数インスタンス学習のためのマルチスケール関係グラフ畳み込みネットワーク

Multi-Scale Relational Graph Convolutional Network for Multiple Instance Learning in Histopathology Images ( http://arxiv.org/abs/2212.08781v2 )

ライセンス: Link先を確認
Roozbeh Bazargani, Ladan Fazli, Larry Goldenberg, Martin Gleave, Ali Bashashati, Septimiu Salcudean(参考訳) グラフ畳み込みニューラルネットワークは、自然および病理像に有意な可能性を示している。 しかし、それらの用途は単一の倍率または後期融合による多重化でのみ研究されている。 マルチスケールグラフ畳み込みネットワーク(Multi-Scale Relational Graph Convolutional Network, MS-RGCN)を複数インスタンス学習手法として導入することにより, グラフ畳み込みネットワークと早期融合する。 病理組織学的画像パッチとその隣り合うパッチやパッチとの関係をグラフとしてモデル化する。 異なる拡大埋め込み空間間で情報を渡すために、ノードとエッジタイプに基づいて別々のメッセージパッシングニューラルネットワークを定義する。 前立腺癌病理像を用いて,パッチから抽出した特徴に基づいて分類群を予測する。 また、MS-RGCNと複数の最先端手法を比較し、複数のソースおよびホールドアウトデータセットの評価を行った。 本手法は,組織マイクロアレイ,全山スライド領域,全スライド画像からなる,全データセットと画像タイプにおいて最先端を上回っている。 アブレーション研究を通じて,MS-RGCNの関連する設計特徴を検証し,その価値を示す。

Graph convolutional neural networks have shown significant potential in natural and histopathology images. However, their use has only been studied in a single magnification or multi-magnification with late fusion. In order to leverage the multi-magnification information and early fusion with graph convolutional networks, we handle different embedding spaces at each magnification by introducing the Multi-Scale Relational Graph Convolutional Network (MS-RGCN) as a multiple instance learning method. We model histopathology image patches and their relation with neighboring patches and patches at other scales (i.e., magnifications) as a graph. To pass the information between different magnification embedding spaces, we define separate message-passing neural networks based on the node and edge type. We experiment on prostate cancer histopathology images to predict the grade groups based on the extracted features from patches. We also compare our MS-RGCN with multiple state-of-the-art methods with evaluations on several source and held-out datasets. Our method outperforms the state-of-the-art on all of the datasets and image types consisting of tissue microarrays, whole-mount slide regions, and whole-slide images. Through an ablation study, we test and show the value of the pertinent design features of the MS-RGCN.
翻訳日:2023-08-23 02:05:12 公開日:2023-08-18
# ラベルフリーデータに基づく深部ニューラルネットワークの知識蒸留と量子化のための特徴親和性

Feature Affinity Assisted Knowledge Distillation and Quantization of Deep Neural Networks on Label-Free Data ( http://arxiv.org/abs/2302.10899v3 )

ライセンス: Link先を確認
Zhijian Li, Biao Yang, Penghang Yin, Yingyong Qi, and Jack Xin(参考訳) 本稿では,深層ニューラルネットワーク(DNN)の量子化学習を改善するために,機能親和性(FA)支援知識蒸留(KD)法を提案する。 DNNの中間機能マップにおけるFA損失は、ネットワークロジットに損失が作用する従来のKDにおいてのみ最終回答を与えるのではなく、生徒にソリューションの中間ステップを教える役割を担っている。 ロジット損失とfa損失を組み合わせることで,定量化学生ネットワークはラベル付き地中データよりも強い監督を受けていることがわかった。 FAQDはラベルのないデータでモデルを圧縮することができ、事前学習された教師モデルが容易に利用可能であり、ラベルなしデータが豊富であるので、すぐに実用的な利点をもたらす。 対照的に、データラベリングはしばしば手間と費用がかかる。 最後に,高速な特徴親和性(FFA)損失を計算複雑性の低い順で正確に近似し,高分解能画像入力のトレーニングを高速化する手法を提案する。

In this paper, we propose a feature affinity (FA) assisted knowledge distillation (KD) method to improve quantization-aware training of deep neural networks (DNN). The FA loss on intermediate feature maps of DNNs plays the role of teaching middle steps of a solution to a student instead of only giving final answers in the conventional KD where the loss acts on the network logits at the output level. Combining logit loss and FA loss, we found that the quantized student network receives stronger supervision than from the labeled ground-truth data. The resulting FAQD is capable of compressing model on label-free data, which brings immediate practical benefits as pre-trained teacher models are readily available and unlabeled data are abundant. In contrast, data labeling is often laborious and expensive. Finally, we propose a fast feature affinity (FFA) loss that accurately approximates FA loss with a lower order of computational complexity, which helps speed up training for high resolution image input.
翻訳日:2023-08-23 01:35:21 公開日:2023-08-18
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置

Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v3 )

ライセンス: Link先を確認
Kalvik Jakkala, Srinivas Akella(参考訳) センサ配置問題は温度や降水などの相関現象を監視する際に発生する一般的な問題である。 この問題に対する既存のアプローチでは、計算コストが高く、大きな問題にはスケールできない離散最適化手法が一般的に用いられる。 相関環境におけるセンサ配置問題を,スパースガウス過程(SGP)を用いて効率的に解ける回帰問題に還元することで解決する。 提案手法は,センサが所定の位置のサブセットに制限されるような離散的なセンサ配置問題と,センサを境界のある連続領域に配置できる連続的なセンサ配置問題の両方を扱うことができる。 さらに,センサを扱うアプローチを,非点視野と統合観察で一般化した。 実世界の3つのデータセットに対する実験結果から,我々の手法はセンサ配置を生成し,従来と同等かそれ以上の再現品質を実現し,精度は大幅に向上した。 我々の計算効率の良いアプローチは、情報経路計画アルゴリズムのための大規模センサー配置と高速ロボットセンサ配置の両方を可能にする。

The sensor placement problem is a common problem that arises when monitoring correlated phenomena, such as temperature and precipitation. Existing approaches to this problem typically use discrete optimization methods, which are computationally expensive and cannot scale to large problems. We address the sensor placement problem in correlated environments by reducing it to a regression problem that can be efficiently solved using sparse Gaussian processes (SGPs). Our approach can handle both discrete sensor placement problems-where sensors are limited to a subset of a given set of locations-and continuous sensor placement problems-where sensors can be placed anywhere in a bounded continuous region. We further generalize our approach to handle sensors with a non-point field of view and integrated observations. Our experimental results on three real-world datasets show that our approach generates sensor placements that result in reconstruction quality that is consistently on par or better than the prior state-of-the-art approach while being significantly faster. Our computationally efficient approach enables both large-scale sensor placement and fast robotic sensor placement for informative path planning algorithms.
翻訳日:2023-08-23 01:23:13 公開日:2023-08-18
# 量子状態における音響周波数原子スピン振動子

Acoustic frequency atomic spin oscillator in the quantum regime ( http://arxiv.org/abs/2303.11029v3 )

ライセンス: Link先を確認
Jun Jia, Valeriy Novikov, Tulio Brito Brasil, Emil Zeuthen, J\"org Helge M\"uller and Eugene S. Polzik(参考訳) 音響周波数領域におけるマクロ原子スピン振動子の量子挙動を実験的に実証する。 スピン測定の量子バックアクション、光の入射的スクイーズ、発振器スプリング軟化は、スピン発振周波数が6kHz以下で観測される。 近DC周波数帯で動作するスピン発振器の特徴となる量子ノイズ源を特定し、その緩和手段を示す。 これらの結果は、負質量参照フレームを用いた音域の量子ノイズ低減とエンタングルメントエンハンスセンシングへの重要なステップである。 特に、この結果は重力波検出器の広帯域ノイズ低減に関係している。

We experimentally demonstrate quantum behavior of a macroscopic atomic spin oscillator in the acoustic frequency range. Quantum back-action of the spin measurement, ponderomotive squeezing of light, and oscillator spring softening are observed at spin oscillation frequencies down to 6 kHz. Quantum noise sources characteristic of spin oscillators operating in the near-DC frequency range are identified and means for their mitigation are presented. These results constitute an important step towards quantum noise reduction and entanglement-enhanced sensing in the acoustic range using a negative-mass reference frame. In particular, the results are relevant for broadband noise reduction in gravitational wave detectors.
翻訳日:2023-08-23 00:46:55 公開日:2023-08-18
# SKED:スケッチガイド付きテキストベースの3D編集

SKED: Sketch-guided Text-based 3D Editing ( http://arxiv.org/abs/2303.10735v4 )

ライセンス: Link先を確認
Aryan Mikaeili, Or Perel, Mehdi Safaee, Daniel Cohen-Or, Ali Mahdavi-Amiri(参考訳) テキストから画像への拡散モデルは徐々にコンピュータグラフィックスに導入され、最近はオープンドメインでテキストから3Dパイプラインの開発が可能になった。 しかし、インタラクティブな編集のためには、単純なテキストインタフェースによるコンテンツの局所的な操作は困難である。 ユーザガイドによるスケッチをText-to-imageパイプラインに組み込むことで,より直感的なコントロールが可能になる。 それでも、最先端のText-to-3Dパイプラインは任意のレンダリングビューからの勾配を通じてNeRF(Neural Radiance Fields)の最適化に依存しているため、スケッチの条件付けは簡単ではない。 本稿では,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。 本手法は,既存のニューラルフィールドを変化させるために,異なる視点からの2つのガイドスケッチを用いる。 編集された領域は、事前訓練された拡散モデルを通じてプロンプトセマンティクスを尊重する。 生成した出力が提供されるスケッチに確実に準拠するように,ベースインスタンスの密度と放射率を維持しつつ,所望の編集を生成する新しい損失関数を提案する。 提案手法の有効性を, 定性的, 定量的な実験によって実証する。 https://sked-paper.github.io/

Text-to-image diffusion models are gradually introduced into computer graphics, recently enabling the development of Text-to-3D pipelines in an open domain. However, for interactive editing purposes, local manipulations of content through a simplistic textual interface can be arduous. Incorporating user guided sketches with Text-to-image pipelines offers users more intuitive control. Still, as state-of-the-art Text-to-3D pipelines rely on optimizing Neural Radiance Fields (NeRF) through gradients from arbitrary rendering views, conditioning on sketches is not straightforward. In this paper, we present SKED, a technique for editing 3D shapes represented by NeRFs. Our technique utilizes as few as two guiding sketches from different views to alter an existing neural field. The edited region respects the prompt semantics through a pre-trained diffusion model. To ensure the generated output adheres to the provided sketches, we propose novel loss functions to generate the desired edits while preserving the density and radiance of the base instance. We demonstrate the effectiveness of our proposed method through several qualitative and quantitative experiments. https://sked-paper.github.io/
翻訳日:2023-08-23 00:46:40 公開日:2023-08-18
# LFM-3D:3次元信号を用いた広帯域特徴マッチング

LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals ( http://arxiv.org/abs/2303.12779v2 )

ライセンス: Link先を確認
Arjun Karpur, Guilherme Perrotta, Ricardo Martin-Brualla, Howard Zhou, Andre Araujo(参考訳) 同じ物体の異なる画像にまたがる局所的な対応を見つけることは、その幾何学を理解する上で重要である。 近年,深層学習に基づく局所画像特徴と学習可能なマッチングの出現により,この問題は顕著に進展している。 それでも、学習可能なマッチングは、画像ペア(すなわちワイドカメラのベースライン)間の共有可視性の小さな領域のみが存在する場合、しばしば過小評価される。 この問題に対処するために,粗い単視点幾何推定手法の最近の進歩を利用する。 本稿では,グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワークであるlmm-3dを提案する。 マッチングモデルに3d信号を統合する場合,低次元の3d情報を有効に活用するには適切な位置符号化が不可欠であることを示す。 我々は、正規化された物体座標と単眼深度推定という2つの異なる3次元信号を実験し、広範囲のベースラインにオブジェクト中心の画像対を含む大規模(合成および実)データセット上で評価した。 また,2Dのみの手法と比較して,最大で6%,固定リコールで+28%の精度で特徴マッチングの改善が見られた。 さらに,得られた対応性の改善は,2Dのみのアプローチに比べて,画像対の相対的ポーズ精度を最大8.6%向上させることを示した。

Finding localized correspondences across different images of the same object is crucial to understand its geometry. In recent years, this problem has seen remarkable progress with the advent of deep learning-based local image features and learnable matchers. Still, learnable matchers often underperform when there exists only small regions of co-visibility between image pairs (i.e. wide camera baselines). To address this problem, we leverage recent progress in coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable Feature Matching framework that uses models based on graph neural networks and enhances their capabilities by integrating noisy, estimated 3D signals to boost correspondence estimation. When integrating 3D signals into the matcher model, we show that a suitable positional encoding is critical to effectively make use of the low-dimensional 3D information. We experiment with two different 3D signals - normalized object coordinates and monocular depth estimates - and evaluate our method on large-scale (synthetic and real) datasets containing object-centric image pairs across wide baselines. We observe strong feature matching improvements compared to 2D-only methods, with up to +6% total recall and +28% precision at fixed recall. Additionally, we demonstrate that the resulting improved correspondences lead to much higher relative posing accuracy for in-the-wild image pairs - up to 8.6% compared to the 2D-only approach.
翻訳日:2023-08-23 00:35:07 公開日:2023-08-18
# プラケット鎖上の2+1$次元におけるSU(2)ゲージ理論と固有状態熱化仮説

SU(2) Gauge Theory in $2+1$ Dimensions on a Plaquette Chain Obeys the Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2303.14264v3 )

ライセンス: Link先を確認
Xiaojun Yao(参考訳) 2+1次元su(2)格子ゲージ理論の固有状態熱化仮説(eth)をテストする。 プラケットの連鎖の理論と、リンク変数の基底状態が$j=1/2$であることを考えると、局所相互作用を持つ量子スピン鎖にそれを写像し、合理的に大きな格子サイズのハミルトニアンを数値的に対角化することができる。 運動量セクターのエネルギー準位は、残りの離散対称性を持たない。 我々はWilsonループからなる局所観測器を2つ研究し、ETHと整合性を示すエネルギー固有基底の行列要素を計算した。

We test the eigenstate thermalization hypothesis (ETH) for 2+1 dimensional SU(2) lattice gauge theory. By considering the theory on a chain of plaquettes and truncating basis states for link variables at $j=1/2$, we can map it onto a quantum spin chain with local interactions and numerically exactly diagonalize the Hamiltonian for reasonably large lattice sizes. We find energy level repulsion in momentum sectors with no remaining discrete symmetry. We study two local observables made up of Wilson loops and calculate their matrix elements in the energy eigenbasis, which are shown consistent with the ETH.
翻訳日:2023-08-23 00:23:51 公開日:2023-08-18
# 行動認識の新しいベンチマークを用いた時空間表現学習の大規模研究

A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition ( http://arxiv.org/abs/2303.13505v2 )

ライセンス: Link先を確認
Andong Deng, Taojiannan Yang, Chen Chen(参考訳) ベンチマーク(データセットの適合)を構築する目標は、公正な評価のための統一されたプロトコルを提供することで、特定の領域の進化を促進することである。 それでも,既存の行動認識プロトコルでは,いくつかの制限により部分的な評価が可能であることを指摘する。 時空間表現学習の有効性を総合的に調査するため,ビデオ行動認識における新しいベンチマークであるBEARを導入する。 BEARは5つのカテゴリ(異常、ジェスチャー、毎日、スポーツ、インストラクショナル)に分類される18のビデオデータセットのコレクションで、さまざまな現実世界のアプリケーションをカバーする。 BEARでは,教師付き学習と自己指導型学習の両方で事前学習した6つの時空間モデルについて,徹底的に評価した。 また、標準的な微調整、少数ショット微調整、教師なしドメイン適応による転送性能を報告する。 我々の観察では、現在の最先端技術は現実世界のアプリケーションに近いデータセットで高い性能を確実に保証できないことを示唆しており、BEARが公正かつ挑戦的な評価ベンチマークとして機能し、次世代の時空間学習者構築に関する洞察を得ることができることを願っている。 私たちのデータセット、コード、モデルは、https://github.com/AndongDeng/BEARでリリースされます。

The goal of building a benchmark (suite of datasets) is to provide a unified protocol for fair evaluation and thus facilitate the evolution of a specific area. Nonetheless, we point out that existing protocols of action recognition could yield partial evaluations due to several limitations. To comprehensively probe the effectiveness of spatiotemporal representation learning, we introduce BEAR, a new BEnchmark on video Action Recognition. BEAR is a collection of 18 video datasets grouped into 5 categories (anomaly, gesture, daily, sports, and instructional), which covers a diverse set of real-world applications. With BEAR, we thoroughly evaluate 6 common spatiotemporal models pre-trained by both supervised and self-supervised learning. We also report transfer performance via standard finetuning, few-shot finetuning, and unsupervised domain adaptation. Our observation suggests that current state-of-the-art cannot solidly guarantee high performance on datasets close to real-world applications, and we hope BEAR can serve as a fair and challenging evaluation benchmark to gain insights on building next-generation spatiotemporal learners. Our dataset, code, and models are released at: https://github.com/AndongDeng/BEAR
翻訳日:2023-08-23 00:23:39 公開日:2023-08-18
# トポロジカルディープラーニングのアーキテクチャ:トポロジカルニューラルネットワークに関する調査

Architectures of Topological Deep Learning: A Survey on Topological Neural Networks ( http://arxiv.org/abs/2304.10031v2 )

ライセンス: Link先を確認
Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane(参考訳) 自然界は、その構成要素間の複雑な関係によって特徴づけられる複雑なシステムでいっぱいである:ソーシャルネットワーク内の個人間の社会的相互作用から、タンパク質内の原子間の静電気的相互作用まで。 トポロジカルディープラーニング(topological deep learning, tdl)は、個人が属する社会コミュニティの予測や、タンパク質が薬物開発に適したターゲットとなるかどうかの予測など、これらのシステムに関連するデータから知識を処理および抽出するための包括的なフレームワークを提供する。 TDLは、応用科学以上の分野において、破滅の約束を守る理論的、実践的な利点を示してきた。 しかし、TDL文学の急速な発展は、トポロジカルニューラルネットワーク(TNN)アーキテクチャにおける表記と言語の統合の欠如につながっている。 これは、既存の作業の上に構築し、TNNを新たな現実的な問題にデプロイする上で、真の障害となる。 この問題に対処するため,我々は最近公開されたTNNを,数学的およびグラフィカルな統一表記法を用いて比較する。 tdlの新興分野に関する直感的かつ批判的なレビューを通じて、現在の課題と将来の開発へのエキサイティングな機会に対する貴重な洞察を抽出します。

The natural world is full of complex systems characterized by intricate relations between their components: from social interactions between individuals in a social network to electrostatic interactions between atoms in a protein. Topological Deep Learning (TDL) provides a comprehensive framework to process and extract knowledge from data associated with these systems, such as predicting the social community to which an individual belongs or predicting whether a protein can be a reasonable target for drug development. TDL has demonstrated theoretical and practical advantages that hold the promise of breaking ground in the applied sciences and beyond. However, the rapid growth of the TDL literature has also led to a lack of unification in notation and language across Topological Neural Network (TNN) architectures. This presents a real obstacle for building upon existing works and for deploying TNNs to new real-world problems. To address this issue, we provide an accessible introduction to TDL, and compare the recently published TNNs using a unified mathematical and graphical notation. Through an intuitive and critical review of the emerging field of TDL, we extract valuable insights into current challenges and exciting opportunities for future development.
翻訳日:2023-08-23 00:15:29 公開日:2023-08-18
# LLMにおける人間とAIの協調支援

Supporting Human-AI Collaboration in Auditing LLMs with LLMs ( http://arxiv.org/abs/2304.09991v2 )

ライセンス: Link先を確認
Charvi Rastogi, Marco Tulio Ribeiro, Nicholas King, Saleema Amershi(参考訳) 社会技術的システムへの展開を通じて,大規模言語モデルの普及とユビキタス化が進んでいる。 しかし、これらの言語モデルは分類や生成のためのもので、偏見があり、無責任に振る舞うことが示され、大規模に人々に害を与えている。 これらの言語モデルを厳密に監査することが重要である。 既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。 本研究では、人間とAIのコラボレーションとセンスメイキングの文献を取り上げ、安全で公正なAIの専門家とのインタビューを行い、監査ツールであるAdaTest(Ribeiro and Lundberg, 2022)をベースとして、ジェネレーティブな大規模言語モデル(LLM)を活用している。 デザインプロセスを通じて,協調監査における人間と生成モデルの補完的強みを活用するために,感性作りと人間-aiコミュニケーションの重要性を強調する。 拡張ツールであるAdaTest++の有効性を評価するために,OpenAIのGPT-3とAzureの感情分析モデルという,2つの商用言語モデルを監査する参加者を対象に,ユーザスタディを実施している。 定性的分析は、AdaTest++がスキーマ化や仮説形成、テストといった人間の強みを効果的に活用していることを示している。 さらに,本ツールでは,2つのタスクに対して26のトピックをカバーし,これまで公式な監査や報告が不十分であったさまざまな障害モードを特定した。

Large language models are becoming increasingly pervasive and ubiquitous in society via deployment in sociotechnical systems. Yet these language models, be it for classification or generation, have been shown to be biased and behave irresponsibly, causing harm to people at scale. It is crucial to audit these language models rigorously. Existing auditing tools leverage either or both humans and AI to find failures. In this work, we draw upon literature in human-AI collaboration and sensemaking, and conduct interviews with research experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro and Lundberg, 2022), which is powered by a generative large language model (LLM). Through the design process we highlight the importance of sensemaking and human-AI communication to leverage complementary strengths of humans and generative models in collaborative auditing. To evaluate the effectiveness of the augmented tool, AdaTest++, we conduct user studies with participants auditing two commercial language models: OpenAI's GPT-3 and Azure's sentiment analysis model. Qualitative analysis shows that AdaTest++ effectively leverages human strengths such as schematization, hypothesis formation and testing. Further, with our tool, participants identified a variety of failures modes, covering 26 different topics over 2 tasks, that have been shown before in formal audits and also those previously under-reported.
翻訳日:2023-08-23 00:15:10 公開日:2023-08-18
# プライベートフェデレーション学習アルゴリズムのプライバシとパフォーマンスのバランスをとる

Balancing Privacy and Performance for Private Federated Learning Algorithms ( http://arxiv.org/abs/2304.05127v2 )

ライセンス: Link先を確認
Xiangjian Hou, Sarit Khirirat, Mohammad Yaqub, and Samuel Horvath(参考訳) Federated Learning(FL)は、複数のクライアントがプライベートデータを公開せずにモデルをトレーニングする分散機械学習(ML)フレームワークである。 FLは、クライアントとサーバ間のローカル計算と双方向通信のサイクルを含む。 このプロセスでデータのセキュリティを強化するため、FLアルゴリズムは、共有前に各クライアントのモデル更新にノイズを導入する差分プライバシ(DP)メカニズムを頻繁に採用する。 しかし、プライバシーを高める一方で、DPメカニズムはしばしば収束性能を損なう。 本稿では,所定のプライバシー予算内での収束性能を最大化する,局所的なステップ数と通信ラウンド数の間に最適なバランスが存在することを実証する。 具体的には、ScaffNewアルゴリズムのDPバージョンにおける収束境界を高めるための局所的なステップ数と通信ラウンドの最適数を示す。 以上の結果から,局所的ステップ数,通信ラウンド数,およびdpプライバシ予算などの問題パラメータ群,特に強凸最適化の文脈において,直接相関関係が明らかとなった。 さらに、我々の理論的な発見を検証するための実証的な証拠を提供する。

Federated learning (FL) is a distributed machine learning (ML) framework where multiple clients collaborate to train a model without exposing their private data. FL involves cycles of local computations and bi-directional communications between the clients and server. To bolster data security during this process, FL algorithms frequently employ a differential privacy (DP) mechanism that introduces noise into each client's model updates before sharing. However, while enhancing privacy, the DP mechanism often hampers convergence performance. In this paper, we posit that an optimal balance exists between the number of local steps and communication rounds, one that maximizes the convergence performance within a given privacy budget. Specifically, we present a proof for the optimal number of local steps and communication rounds that enhance the convergence bounds of the DP version of the ScaffNew algorithm. Our findings reveal a direct correlation between the optimal number of local steps, communication rounds, and a set of variables, e.g the DP privacy budget and other problem parameters, specifically in the context of strongly convex optimization. We furthermore provide empirical evidence to validate our theoretical findings.
翻訳日:2023-08-23 00:14:11 公開日:2023-08-18
# FineRecon:詳細な3D再構成のための奥行き認識フィードフォワードネットワーク

FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction ( http://arxiv.org/abs/2304.01480v2 )

ライセンス: Link先を確認
Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles(参考訳) 提案画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いて、テスト時間最適化を伴わないシーンレベルの3次元幾何を直接推定できることを実証している。 しかし、3次元切断符号付き距離関数(tsdf)として表される再構成幾何は、細かな幾何学的詳細を持たずに粗いことが多い。 この問題に対処するため,我々は推論に基づく3次元再構成の忠実性を改善するための3つの効果的な解を提案する。 まず,従来の研究で見られたTSDF補間の落とし穴を回避し,トレーニング中により正確な学習信号を提供するためのTSDF監視戦略を提案する。 次に,多視点深度推定を用いた深度誘導戦略を導入し,シーン表現の強化とより正確な表面の復元を行う。 最後に,ネットワークの最終層に対して,粗いボクセル機能に加えて,高分解能画像特徴に対する出力tsdf予測を条件とし,より鮮明な細部再構成を実現する新しいアーキテクチャを開発した。 提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。

Recent works on 3D reconstruction from posed images have demonstrated that direct inference of scene-level 3D geometry without test-time optimization is feasible using deep neural networks, showing remarkable promise and high efficiency. However, the reconstructed geometry, typically represented as a 3D truncated signed distance function (TSDF), is often coarse without fine geometric details. To address this problem, we propose three effective solutions for improving the fidelity of inference-based 3D reconstructions. We first present a resolution-agnostic TSDF supervision strategy to provide the network with a more accurate learning signal during training, avoiding the pitfalls of TSDF interpolation seen in previous work. We then introduce a depth guidance strategy using multi-view depth estimates to enhance the scene representation and recover more accurate surfaces. Finally, we develop a novel architecture for the final layers of the network, conditioning the output TSDF prediction on high-resolution image features in addition to coarse voxel features, enabling sharper reconstruction of fine details. Our method, FineRecon, produces smooth and highly accurate reconstructions, showing significant improvements across multiple depth and 3D reconstruction metrics.
翻訳日:2023-08-23 00:12:50 公開日:2023-08-18
# LivePose:ダイナミックカメラでモノクロ映像からオンライン3Dレコンストラクション

LivePose: Online 3D Reconstruction from Monocular Video with Dynamic Camera Poses ( http://arxiv.org/abs/2304.00054v2 )

ライセンス: Link先を確認
Noah Stier, Baptiste Angles, Liang Yang, Yajie Yan, Alex Colburn, Ming Chuang(参考訳) RGB画像からのDense 3D再構成は、伝統的に静的カメラのポーズ推定を前提としている。 この仮定は、最近の研究がモバイルデバイスのリアルタイム手法にますます注力しているにもかかわらず、存続している。 しかし、各画像に対する固定ポーズの仮定はオンライン実行には当てはまらない:リアルタイムSLAMからのポーズは動的であり、バンドル調整やループ閉鎖といったイベントに続いて更新される可能性がある。 これは、過去のビューを非統合し、更新されたポーズと再統合することで、RGB-D設定で対処されてきたが、RGBのみの設定では、ほとんど未処理のままである。 我々はこの問題を形式化し、動的に配置された画像から高密度のオンライン再構成を行う新しいタスクを定義する。 さらなる研究を支援するために,ScanNet上で動作するSLAMシステムからの動的ポーズを含むLivePoseというデータセットを紹介した。 我々は,最近の3つの再構成システムを選択し,動的配置に適合させるために,分解に基づくフレームワークを適用した。 さらに,古いシーンのコンテンツを削除することを学ぶ,新しい非線形デインテグレーションモジュールを提案する。 ポーズ更新に対する応答は高品質な再構築に不可欠であり、分解フレームワークは効果的なソリューションであることを示す。

Dense 3D reconstruction from RGB images traditionally assumes static camera pose estimates. This assumption has endured, even as recent works have increasingly focused on real-time methods for mobile devices. However, the assumption of a fixed pose for each image does not hold for online execution: poses from real-time SLAM are dynamic and may be updated following events such as bundle adjustment and loop closure. This has been addressed in the RGB-D setting, by de-integrating past views and re-integrating them with updated poses, but it remains largely untreated in the RGB-only setting. We formalize this problem to define the new task of dense online reconstruction from dynamically-posed images. To support further research, we introduce a dataset called LivePose containing the dynamic poses from a SLAM system running on ScanNet. We select three recent reconstruction systems and apply a framework based on de-integration to adapt each one to the dynamic-pose setting. In addition, we propose a novel, non-linear de-integration module that learns to remove stale scene content. We show that responding to pose updates is critical for high-quality reconstruction, and that our de-integration framework is an effective solution.
翻訳日:2023-08-23 00:12:28 公開日:2023-08-18
# ニュートリノ物理学の量子情報と量子シミュレーション

Quantum information and quantum simulation of neutrino physics ( http://arxiv.org/abs/2305.01150v2 )

ライセンス: Link先を確認
A. B. Balantekin, Michael J. Cervia, Amol V. Patwardhan, Ermal Rrapaj, Pooja Siwach(参考訳) 核崩壊型超新星や二元中性子星の融合のような極端に天体物理学的な環境では、ニュートリノはバリオニクス物質の流出、重元素の合成、超新星爆発機構など様々な力学現象やミクロ物理現象を駆動する上で重要な役割を果たしている。 これらの環境におけるニュートリノと物質との相互作用はフレーバー特異的であり、ニュートリノのフレーバー進化を理解することが重要である。 これらの環境におけるフレーバーの進化は、高ニュートリノ密度の領域におけるニュートリノ-ニュートリノ相互作用($\nu$-$\nu$)によって生じる、フレーバー空間の集合的な影響によって非常に非自明な問題となる。 重要な$\nu$-$\nu$相互作用の影響下でフレーバー振動を行うニュートリノアンサンブルは、長い距離相互作用を持つ結合スピンの系と外界(ニュートリノの場合の運動量空間における「長距離」)の系と幾分類似している。 その結果、これらの相互作用が相互作用するニュートリノの間に有意な量子相関をもたらすかどうか、およびこれらの相関がアンサンブルのフレーバー進化に何らかの影響を及ぼすかどうかを検討することが重要となる。 特に、量子情報科学と量子コンピューティングの概念とツールを活用し、これらの現象の理解を深めようとしているかもしれない。 本稿では,この分野における最近の成果を概説する。 さらに, 複雑な初期状態を考慮した3つのフレーバー設定において, 新たな結果を提示する。

In extreme astrophysical environments such as core-collapse supernovae and binary neutron star mergers, neutrinos play a major role in driving various dynamical and microphysical phenomena, such as baryonic matter outflows, the synthesis of heavy elements, and the supernova explosion mechanism itself. The interactions of neutrinos with matter in these environments are flavor-specific, which makes it of paramount importance to understand the flavor evolution of neutrinos. Flavor evolution in these environments can be a highly nontrivial problem thanks to a multitude of collective effects in flavor space, arising due to neutrino-neutrino ($\nu$-$\nu$) interactions in regions with high neutrino densities. A neutrino ensemble undergoing flavor oscillations under the influence of significant $\nu$-$\nu$ interactions is somewhat analogous to a system of coupled spins with long-range interactions among themselves and with an external field ('long-range' in momentum-space in the case of neutrinos). As a result, it becomes pertinent to consider whether these interactions can give rise to significant quantum correlations among the interacting neutrinos, and whether these correlations have any consequences for the flavor evolution of the ensemble. In particular, one may seek to utilize concepts and tools from quantum information science and quantum computing to deepen our understanding of these phenomena. In this article, we attempt to summarize recent work in this field. Furthermore, we also present some new results in a three-flavor setting, considering complex initial states.
翻訳日:2023-08-23 00:06:08 公開日:2023-08-18
# SU(2)対称性を持つスピン系における平均純状態エンタングルメントエントロピー

Average Pure-State Entanglement Entropy in Spin Systems with SU(2) Symmetry ( http://arxiv.org/abs/2305.11211v2 )

ライセンス: Link先を確認
Rohit Patil, Lucas Hackl, George R. Fagan, Marcos Rigol(参考訳) 格子スピン系において生成されるsu(2)対称性とリッチヒルベルト空間構造が、局所ハミルトニアンの高励起固有状態と無作為な純粋な状態の平均エントロピーに与える影響について検討した。 異なる固定全スピン $j$ に対するゼロ全磁化セクタ (j_z=0$) に焦点をあてて、量子カオスハミルトニアンとランダム純状態の高励起固有状態の平均絡み合いエントロピーは、s_a$ がスピン密度 $j=j/(\mathfrak{j}l)$ に依存し、$s_a(j \rightarrow 0)=\ln (2\mathfrak{j}+1)$ と $s_a(j \rightarrow 1)=0$、ここで $\mathfrak{j}$ は微小スピンである。 このことは、平均固有状態絡み合いエントロピーが、非アベリア対称性を持つハミルトニアンの量子カオスと可積分性の診断に使用できるという期待を裏付けるものである。 ハミルトン固有状態の文脈では、スピン $\mathfrak{j}=1/2$ と $1$ を考えるが、ランダム純粋状態に基づく計算では、スピン $\mathfrak{j}=1/2$ にフォーカスする。

We study the effect that the SU(2) symmetry, and the rich Hilbert space structure that it generates in lattice spin systems, has on the average entanglement entropy of highly-excited eigenstates of local Hamiltonians and of random pure states. Focusing on the zero total magnetization sector ($J_z=0$) for different fixed total spin $J$, we argue that the average entanglement entropy of highly-excited eigenstates of quantum-chaotic Hamiltonians and of random pure states has a leading volume-law term whose coefficient $s_A$ depends on the spin density $j=J/(\mathfrak{j}L)$, with $s_A(j \rightarrow 0)=\ln (2\mathfrak{j}+1)$ and $s_A(j \rightarrow 1)=0$, where $\mathfrak{j}$ is the microscopic spin. We provide numerical evidence that $s_A$ is smaller in highly-excited eigenstates of integrable interacting Hamiltonians, which lends support to the expectation that the average eigenstate entanglement entropy can be used as a diagnostic of quantum chaos and integrability for Hamiltonians with non-Abelian symmetries. In the context of Hamiltonian eigenstates we consider spins $\mathfrak{j}=1/2$ and $1$, while for our calculations based on random pure states we focus on the spin $\mathfrak{j}=1/2$ case.
翻訳日:2023-08-22 23:55:44 公開日:2023-08-18
# EgoHumans:エゴセントリックな3Dマルチヒューマンベンチマーク

EgoHumans: An Egocentric 3D Multi-Human Benchmark ( http://arxiv.org/abs/2305.16487v2 )

ライセンス: Link先を確認
Rawal Khirodkar, Aayush Bansal, Lingni Ma, Richard Newcombe, Minh Vo, Kris Kitani(参考訳) EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。 既存のエゴセントリックベンチマークは、1つの主題または屋内のみのシナリオをキャプチャし、現実のアプリケーションに対するコンピュータビジョンアルゴリズムの一般化を制限する。 本稿では,人間検出,追跡,2d/3dポーズ推定,メッシュリカバリといった多様なタスクをサポートするアノテーションを備えた,総合的な自己中心型マルチヒューマンベンチマークを構築するための,新たな3dキャプチャセットアップを提案する。 私たちは、カメラ付きカメラ付きウェアラブルグラスをエゴセントリックな視点で活用し、テニス、フェンシング、バレーボールなどのダイナミックなアクティビティを捉えることができます。 さらに,重度の咬合や完全咬合下でも正確な3次元地中真実を再現する。 データセットは125万以上のエゴセントリックなイメージで構成され、さまざまなシーンにまたがって、挑戦的でコレオグラフィのないマルチヒューマンアクティビティと、高速に動くエゴセントリックなビューに焦点を当てている。 我々は,既存の最先端手法を厳格に評価し,そのエゴセントリックなシナリオ,特にマルチヒューマントラッキングにおける限界を強調する。 このような制約に対処するために,マルチストリームトランスフォーマーアーキテクチャと明示的な3次元空間推論を用いた新しいアプローチである egoformer を提案する。 egoformer は egohumans データセットで 13.6% の idf1 で先行技術を大きく上回っている。

We present EgoHumans, a new multi-view multi-human video benchmark to advance the state-of-the-art of egocentric human 3D pose estimation and tracking. Existing egocentric benchmarks either capture single subject or indoor-only scenarios, which limit the generalization of computer vision algorithms for real-world applications. We propose a novel 3D capture setup to construct a comprehensive egocentric multi-human benchmark in the wild with annotations to support diverse tasks such as human detection, tracking, 2D/3D pose estimation, and mesh recovery. We leverage consumer-grade wearable camera-equipped glasses for the egocentric view, which enables us to capture dynamic activities like playing tennis, fencing, volleyball, etc. Furthermore, our multi-view setup generates accurate 3D ground truth even under severe or complete occlusion. The dataset consists of more than 125k egocentric images, spanning diverse scenes with a particular focus on challenging and unchoreographed multi-human activities and fast-moving egocentric views. We rigorously evaluate existing state-of-the-art methods and highlight their limitations in the egocentric scenario, specifically on multi-human tracking. To address such limitations, we propose EgoFormer, a novel approach with a multi-stream transformer architecture and explicit 3D spatial reasoning to estimate and track the human pose. EgoFormer significantly outperforms prior art by 13.6% IDF1 on the EgoHumans dataset.
翻訳日:2023-08-22 23:46:11 公開日:2023-08-18
# 深層連続学習における可塑性の喪失

Loss of Plasticity in Deep Continual Learning ( http://arxiv.org/abs/2306.13812v2 )

ライセンス: Link先を確認
Shibhansh Dohare, J. Fernando Hernandez-Garcia, Parash Rahman, Richard S. Sutton, A. Rupam Mahmood(参考訳) 現代のディープラーニングシステムは、継続的にトレーニングを行う継続的学習とは対照的に、トレーニングが繰り返される問題の設定に特化している。 深層学習システムが連続的な学習環境に適用された場合、初期の例を思い出せないことはよく知られている。 より根本的だがあまり知られていないのは、プラスチックの喪失と呼ばれる新しい例について学ぶ能力を失うかもしれないということだ。 mnist と imagenet データセットをタスクのシーケンスとして連続学習に再利用して,可塑性損失の直接実証を行う。 imagenetでは、2000番目のタスクでは、バイナリ分類のパフォーマンスは、初期タスクの89\%精度から、リニアネットワークのレベルに関する77\%に低下した。 可塑性の喪失は、幅広い深層ネットワークアーキテクチャ、オプティマイザ、アクティベーション機能、バッチ正規化、ドロップアウトで発生したが、特に重量摂動と組み合わせた場合、$L^2$-regularizationによって著しく緩和された。 さらに,従来のバックプロパゲーションをわずかに修正して,使用頻度の低い単位のごく一部を再活性化し,可塑性を無期限に維持する新しいアルゴリズム,continual backpropagationを導入する。

Modern deep-learning systems are specialized to problem settings in which training occurs once and then never again, as opposed to continual-learning settings in which training occurs continually. If deep-learning systems are applied in a continual learning setting, then it is well known that they may fail to remember earlier examples. More fundamental, but less well known, is that they may also lose their ability to learn on new examples, a phenomenon called loss of plasticity. We provide direct demonstrations of loss of plasticity using the MNIST and ImageNet datasets repurposed for continual learning as sequences of tasks. In ImageNet, binary classification performance dropped from 89\% accuracy on an early task down to 77\%, about the level of a linear network, on the 2000th task. Loss of plasticity occurred with a wide range of deep network architectures, optimizers, activation functions, batch normalization, dropout, but was substantially eased by $L^2$-regularization, particularly when combined with weight perturbation. Further, we introduce a new algorithm -- continual backpropagation -- which slightly modifies conventional backpropagation to reinitialize a small fraction of less-used units after each example and appears to maintain plasticity indefinitely.
翻訳日:2023-08-22 23:27:44 公開日:2023-08-18
# ヤコビ法によるフェルミの黄金律を超えて

Beyond Fermi's golden rule with the Jacobi method ( http://arxiv.org/abs/2306.16457v2 )

ライセンス: Link先を確認
David M. Long, Dominik Hahn, Marin Bukov, Anushya Chandran(参考訳) 量子力学における多くの問題は、単一量子状態の連続体への崩壊として考えられる。 時間に依存した初期状態との重なりは忠実性と呼ばれ、この崩壊を特徴づける。 エルゴード・ハミルトニアンへのクエンチ後の忠実性の解析的表現を導出する。 この表現は弱クエンチェと強クエンチェの両方で有効であり、ヒルベルト空間の有限性以前の時間スケールは忠実性を制限する。 初期の二次的崩壊と漸近的指数的崩壊を再現し、強いクエンチェではフェルミの黄金律とは異なる速度で再現する。 この分析は、もともとほぼ局所的なシステムに応用された統計的ヤコビ近似(SJA)に依存しており、ここでは熱処理系に適応する。 本結果は,SJAが量子力学の異なる状態において予測可能であることを示す。

Many problems in quantum dynamics can be cast as the decay of a single quantum state into a continuum. The time-dependent overlap with the initial state, called the fidelity, characterizes this decay. We derive an analytic expression for the fidelity after a quench to an ergodic Hamiltonian. The expression is valid for both weak and strong quenches, and timescales before finiteness of the Hilbert space limits the fidelity. It reproduces initial quadratic decay and asymptotic exponential decay with a rate which, for strong quenches, differs from Fermi's golden rule. The analysis relies on the statistical Jacobi approximation (SJA), which was originally applied in nearly localized systems, and which we here adapt to well-thermalizing systems. Our results demonstrate that the SJA is predictive in disparate regimes of quantum dynamics.
翻訳日:2023-08-22 23:13:57 公開日:2023-08-18
# PoseDiffusion: Diffusion-aided Bundle Adjustment によるPose推定の解法

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment ( http://arxiv.org/abs/2306.15667v3 )

ライセンス: Link先を確認
Jianyuan Wang, Christian Rupprecht, David Novotny(参考訳) カメラポーズ推定は、従来は手作りのキーポイントマッチング、RANSAC、バンドル調整といった古典的な手法に依存していたコンピュータビジョンの問題である。 本稿では,入力画像に対するカメラポーズの条件分布をモデル化し,確率拡散フレームワーク内の運動からの構造 (sfm) を定式化する。 古い問題に対するこの新しい見方にはいくつかの利点がある。 (i)拡散フレームワークの性質は、バンドル調整の反復手順を反映している。 (ii)この定式化はエピポーラ幾何学からの幾何学的制約のシームレスな統合を可能にする。 (iii)広い基準線を持つスパースビューのような典型的な難易度シナリオに優れる。 (iv)任意の量の画像に対して内在性及び外在性を予測することができる。 提案手法は,従来のSfMパイプラインと実世界の2つのデータセットに対する学習アプローチよりも大幅に改善されていることを示す。 最後に,本手法がさらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。 プロジェクトページ: https://posediffusion.github.io/

Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/
翻訳日:2023-08-22 23:13:16 公開日:2023-08-18
# キャビティ結合スピン発振器の自律フィードバック安定化

Autonomous feedback stabilization of a cavity-coupled spin oscillator ( http://arxiv.org/abs/2307.04808v2 )

ライセンス: Link先を確認
Julian Wolf, Olive H. Eilbott, Josh A. Isaacs, Kevin P. Mours, Jonathan Kohler, Dan M. Stamper-Kurn(参考訳) 我々は,光共振器による自律的フィードバックによる原子アンサンブルの集合スピンの平衡安定化を報告する。 キャビティ軸に対する角度で印加された磁場に対して、キャビティへの分散結合は、縦方向と横方向のスピンの組み合わせに対して感度を与える。 キャビティ光による原子へのコヒーレントバックアクションは、光学キャビティ感受性によって条件付けられ、任意のエネルギーで集団スピン状態を安定化する。 フィードバックシステムの設定点追跡と閉ループ利得スペクトルは解析的予測と密接に一致していることがわかった。

We report out-of-equilibrium stabilization of the collective spin of an atomic ensemble through autonomous feedback by a driven optical cavity. For a magnetic field applied at an angle to the cavity axis, dispersive coupling to the cavity provides sensitivity to a combination of the longitudinal and transverse spin. Coherent backaction by cavity light onto the atoms, conditioned by the optical cavity susceptibility, stabilizes the collective spin state at an arbitrary energy. The set point tracking and closed-loop gain spectrum of the feedback system are characterized and found to agree closely with analytic predictions.
翻訳日:2023-08-22 23:04:58 公開日:2023-08-18
# セミスーパービジョンオブジェクト検出のためのトレーニングベースモデル再構成と表現分離

Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection ( http://arxiv.org/abs/2307.13755v2 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Nilanjan Ray, Nadir Erbilgin(参考訳) 半教師付きオブジェクト検出(SSOD)は,限られたラベル付きデータと広範囲なラベル付きデータを利用することで,既存のオブジェクト検出の性能と一般化を向上することを目的としている。 多くの進歩にもかかわらず、最近のSSOD法は、古典的指数移動平均(EMA)戦略によるモデル改良の不適切さ、訓練後期の教師・学生モデルのコンセンサス(特色を失うこと)、ノイズ/ミスリードの擬似ラベルによって、いまだに挑戦されている。 本稿では,従来のEMAの限界とコンセンサス問題に対処するための,新しいトレーニングベースモデル改良(TMR)ステージと,シンプルで効果的な表現不一致(RD)戦略を提案する。 Teacher-StudentモデルのTMRステージは、軽量なスケーリング操作を最適化し、モデルの重みを洗練し、学習パターンがラベルなしのデータから過度に適合したり忘れたりするのを防ぐ。 一方、RD戦略はこれらのモデルを分散させ、学生モデルに補完的な表現を探求するよう促すのに役立つ。 提案手法は確立されたSSOD法に統合可能であり,カスケード回帰を伴う2つのベースライン法を用いて実証的に検証し,より信頼性の高い擬似ラベルを生成する。 SSOD法に対する我々のアプローチの優れた性能を示す大規模な実験を行った。 具体的には,COCO標準,COCO付加およびパスカルVOCデータセット上で平均mAPマージン2.23,2.1,3.36(&2.07,1.9,3.27)で,Unbiased-Teacher-v2(&Unbiased-Teacher-v1)法をそれぞれ上回っている。

Semi-supervised object detection (SSOD) aims to improve the performance and generalization of existing object detectors by utilizing limited labeled data and extensive unlabeled data. Despite many advances, recent SSOD methods are still challenged by inadequate model refinement using the classical exponential moving average (EMA) strategy, the consensus of Teacher-Student models in the latter stages of training (i.e., losing their distinctiveness), and noisy/misleading pseudo-labels. This paper proposes a novel training-based model refinement (TMR) stage and a simple yet effective representation disagreement (RD) strategy to address the limitations of classical EMA and the consensus problem. The TMR stage of Teacher-Student models optimizes the lightweight scaling operation to refine the model's weights and prevent overfitting or forgetting learned patterns from unlabeled data. Meanwhile, the RD strategy helps keep these models diverged to encourage the student model to explore complementary representations. Our approach can be integrated into established SSOD methods and is empirically validated using two baseline methods, with and without cascade regression, to generate more reliable pseudo-labels. Extensive experiments demonstrate the superior performance of our approach over state-of-the-art SSOD methods. Specifically, the proposed approach outperforms the baseline Unbiased-Teacher-v2 (& Unbiased-Teacher-v1) method by an average mAP margin of 2.23, 2.1, and 3.36 (& 2.07, 1.9, and 3.27) on COCO-standard, COCO-additional, and Pascal VOC datasets, respectively.
翻訳日:2023-08-22 22:46:16 公開日:2023-08-18
# RLCD:言語モデルアライメントのためのコントラスト蒸留による強化学習

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment ( http://arxiv.org/abs/2307.12950v2 )

ライセンス: Link先を確認
Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian(参考訳) 人間のフィードバックを使わずに自然言語の原則に従うために言語モデルを整合させる手法であるReinforcement Learning from Contrast Distillation (RLCD)を提案する。 RLCDは、比較正と負のプロンプトを用いて生成された高品質と低品質の両方の例を含むシミュレーションされた選好ペアを使用して、選好モデルを訓練する。 選好モデルは強化学習を通じて基本不整合言語モデルを改善するために使われる。 RLCD は RLAIF (Bai et al., 2022b) とコンテキスト蒸留 (Huang et al., 2022) を3つの多彩なアライメントタスク – 無害性, 有用性, ストーリーアウトライン生成 – で上回り, および 7B モデルと 30B モデルの両方で優先データシミュレーションを行う。

We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.
翻訳日:2023-08-22 22:45:11 公開日:2023-08-18
# Hindsight-DICE: 深層強化学習のための安定したクレジットアサインメント

Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning ( http://arxiv.org/abs/2307.11897v2 )

ライセンス: Link先を確認
Akash Velu, Skanda Vaidyanath, Dilip Arumugam(参考訳) 多くの場合、強化学習エージェントを指導するための評価フィードバックの提供においては、逐次的な意思決定問題のための環境は極めて少ない。 極端な場合、行動の長い軌跡は単に単一の終端フィードバック信号で刻み込まれ、非自明な報酬の観察と、その報酬を達成するための個々の行動ステップの間にかなりの時間的遅延が生じる。 このような信用課題への対処は、強化学習の目立った特徴の一つである。 先行研究では, 複雑な環境下での非効率な学習につながる不安定さを経験し, 予測された軌道回帰の達成に影響を及ぼすことによって, 政治的データの重み付けを理論的にモクティベートする手法を開発するために, 後見政策の概念を導入している。 本研究では,既存の重要度サンプリング比推定手法をオフ・ポリシー評価に応用し,いわゆる後見政策手法の安定性と効率を飛躍的に向上させる。 私たちの後ろ視分布補正は、クレジット割り当てがベースラインメソッドを悩ませる幅広い環境において、安定して効率的な学習を促進する。

Oftentimes, environments for sequential decision-making problems can be quite sparse in the provision of evaluative feedback to guide reinforcement-learning agents. In the extreme case, long trajectories of behavior are merely punctuated with a single terminal feedback signal, leading to a significant temporal delay between the observation of a non-trivial reward and the individual steps of behavior culpable for achieving said reward. Coping with such a credit assignment challenge is one of the hallmark characteristics of reinforcement learning. While prior work has introduced the concept of hindsight policies to develop a theoretically moxtivated method for reweighting on-policy data by impact on achieving the observed trajectory return, we show that these methods experience instabilities which lead to inefficient learning in complex environments. In this work, we adapt existing importance-sampling ratio estimation techniques for off-policy evaluation to drastically improve the stability and efficiency of these so-called hindsight policy methods. Our hindsight distribution correction facilitates stable, efficient learning across a broad range of environments where credit assignment plagues baseline methods.
翻訳日:2023-08-22 22:44:18 公開日:2023-08-18
# 双対性ツイストからの量子コンピュータにおけるマヨラナモードの分離

Isolated Majorana mode in a quantum computer from a duality twist ( http://arxiv.org/abs/2308.02387v2 )

ライセンス: Link先を確認
Sutapa Samanta, Derek S. Wang, Armin Rahmani, Aditi Mitra(参考訳) 双対性、一般化対称性、トポロジカル欠陥の相互作用に関する実験的研究は、凝縮物質物理学や量子材料において重要な課題である。 この物理学を示す単純なモデルは横場イジングモデルであり、クラマース・ワニエ双対変換を実行する非可逆位相的欠陥をホストすることができる。 空間の一点に作用するとき、この双対性欠陥は双対性ツイスト境界条件を課し、単一のマヨラナ零モードを結合する。 このマヨラナゼロモードは局所化されたパートナーがなく、有限系においても無限の寿命を持つため、珍しい。 二重性欠陥を持つ閉IsingチェーンのFloquet駆動を用いて、ディジタル量子コンピュータにおいてこのMajoranaゼロモードを生成する。 効率的なサンプリングプロトコルとエラー緩和のための複合戦略を用いて,関連する持続的自己相関関数を測定することで,モードの検出を行う。 また,mallana zeroモードはkramers-wannier双対性に関連する2つの領域の間のドメインウォールに存在することを示した。 最後に,分離マヨラナゼロモードの可積分性と対称性破壊摂動に対する堅牢性を強調した。 本研究は,ディジタル量子デバイスにおけるエキゾチックな位相的欠陥を調査するためのアプローチを提供する。

Experimental investigation of the interplay of dualities, generalized symmetries, and topological defects is an important challenge in condensed matter physics and quantum materials. A simple model exhibiting this physics is the transverse-field Ising model, which can host a noninvertible topological defect that performs the Kramers-Wannier duality transformation. When acting on one point in space, this duality defect imposes the duality twisted boundary condition and binds a single Majorana zero mode. This Majorana zero mode is unusual as it lacks localized partners and has an infinite lifetime, even in finite systems. Using Floquet driving of a closed Ising chain with a duality defect, we generate this Majorana zero mode in a digital quantum computer. We detect the mode by measuring its associated persistent autocorrelation function using an efficient sampling protocol and a compound strategy for error mitigation. We also show that the Majorana zero mode resides at the domain wall between two regions related by a Kramers-Wannier duality. Finally, we highlight the robustness of the isolated Majorana zero mode to integrability and symmetry-breaking perturbations. Our findings offer an approach to investigating exotic topological defects in digitized quantum devices.
翻訳日:2023-08-22 22:36:11 公開日:2023-08-18
# 大規模言語モデルを用いた臨床試験のスケーリング:オンコロジーを事例として

Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology ( http://arxiv.org/abs/2308.02180v3 )

ライセンス: Link先を確認
Cliff Wong, Sheng Zhang, Yu Gu, Christine Moung, Jacob Abel, Naoto Usuyama, Roshanthi Weerasinghe, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon(参考訳) 臨床試験マッチングは、医療提供と発見の重要なプロセスである。 実際には、非構造化データの圧倒的増加と手作業による処理に苦しめられている。 本稿では,大規模言語モデル(llm)を用いた臨床試験マッチングのスケールアップに関する体系的研究を行い,オンコロジーを焦点領域とした。 今回の研究は、米国の大規模健康ネットワークで現在テスト展開中の臨床試験マッチングシステムに基づいている。 gpt-4のような最先端のllmは、臨床試験の精巧な適性基準をすでに構築でき、複雑なマッチングロジック(例えばnestedや/または/not)を抽出することができる。 まだまだ完璧には程遠いが、LSMは以前の強いベースラインを大きく上回っており、患者と臨床の候補者をループに巻き込むための予備的な解決策として機能する可能性がある。 また, 長期医療記録から患者情報を構造化する際の文脈制限や精度など, LLMをエンドツーエンドの臨床試験マッチングに適用するための重要な成長領域も明らかにした。

Clinical trial matching is a key process in health delivery and discovery. In practice, it is plagued by overwhelming unstructured data and unscalable manual processing. In this paper, we conduct a systematic study on scaling clinical trial matching using large language models (LLMs), with oncology as the focus area. Our study is grounded in a clinical trial matching system currently in test deployment at a large U.S. health network. Initial findings are promising: out of box, cutting-edge LLMs, such as GPT-4, can already structure elaborate eligibility criteria of clinical trials and extract complex matching logic (e.g., nested AND/OR/NOT). While still far from perfect, LLMs substantially outperform prior strong baselines and may serve as a preliminary solution to help triage patient-trial candidates with humans in the loop. Our study also reveals a few significant growth areas for applying LLMs to end-to-end clinical trial matching, such as context limitation and accuracy, especially in structuring patient information from longitudinal medical records.
翻訳日:2023-08-22 22:35:49 公開日:2023-08-18
# ソースフリードメイン適応型ヒューマンポース推定

Source-free Domain Adaptive Human Pose Estimation ( http://arxiv.org/abs/2308.03202v4 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen(参考訳) HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、仮想現実など、さまざまな分野で広く使われている。 しかし、ラベル付き実世界のデータセットの膨大な費用は、HPEにとって大きな課題となる。 これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実際のデータ上でドメイン適応(DA)を実行することである。 残念ながら、HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視している。 そこで本研究では,hpeのクロスドメイン学習の課題を解決するために,適応プロセス中にソースデータにアクセスせずに,新たなタスクであるsource-free domain adaptive hpeを提案する。 さらに、ソースモデル、中間モデル、ターゲットモデルという3つのモデルからなる新しいフレームワークを提案し、ソース保護とターゲット関連の観点からタスクを探索する。 音源保護モジュールは、ノイズに抵抗しながらより効果的にソース情報を保存し、ターゲット関連モジュールは、新しい空間確率空間を構築して空間表現のスパーシティを低減し、この空間に基づいてポーズ固有のコントラスト学習と情報最大化を提案する。 いくつかの領域適応型HPEベンチマークの総合的な実験により、提案手法は既存の手法よりもかなり優れていることが示された。 コードはhttps://github.com/davidpengucf/SFDAHPEで入手できる。

Human Pose Estimation (HPE) is widely used in various fields, including motion analysis, healthcare, and virtual reality. However, the great expenses of labeled real-world datasets present a significant challenge for HPE. To overcome this, one approach is to train HPE models on synthetic datasets and then perform domain adaptation (DA) on real-world data. Unfortunately, existing DA methods for HPE neglect data privacy and security by using both source and target data in the adaptation process. To this end, we propose a new task, named source-free domain adaptive HPE, which aims to address the challenges of cross-domain learning of HPE without access to source data during the adaptation process. We further propose a novel framework that consists of three models: source model, intermediate model, and target model, which explores the task from both source-protect and target-relevant perspectives. The source-protect module preserves source information more effectively while resisting noise, and the target-relevant module reduces the sparsity of spatial representations by building a novel spatial probability space, and pose-specific contrastive learning and information maximization are proposed on the basis of this space. Comprehensive experiments on several domain adaptive HPE benchmarks show that the proposed method outperforms existing approaches by a considerable margin. The codes are available at https://github.com/davidpengucf/SFDAHPE.
翻訳日:2023-08-22 22:25:51 公開日:2023-08-18
# NeRFs:最高の3D表現の検索

NeRFs: The Search for the Best 3D Representation ( http://arxiv.org/abs/2308.02751v2 )

ライセンス: Link先を確認
Ravi Ramamoorthi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、ビュー合成や画像ベースのレンダリングにおける問題や、コンピュータグラフィックスやビジョンなど他の多くのアプリケーションにおいて、選択の表現となっている。 中心となるNeRFは、3Dシーンや3D幾何学の新しい表現を記述する。 メッシュ、不均一マップ、マルチプレーンイメージ、さらにはボクセルグリッドなどの代わりに、ビュー依存放射率やニューラルネットワークをクエリすることで得られるボリューム密度といったボリュームパラメータを備えた連続ボリュームとしてシーンを表現する。 現在、NeRF表現は広く使われており、何千もの論文が毎年拡張または構築され、複数の著者やウェブサイトが概要と調査を提供し、多くの産業アプリケーションやスタートアップ企業を提供している。 本稿では、NeRFの表現を概観し、ビュー合成と関連する問題に最適な3次元表現を見つけるための30年間の探求について述べる。 次に、NeRF表現の観点から新しい展開を記述し、3D表現の将来についていくつかの観察と考察を行う。

Neural Radiance Fields or NeRFs have become the representation of choice for problems in view synthesis or image-based rendering, as well as in many other applications across computer graphics and vision, and beyond. At their core, NeRFs describe a new representation of 3D scenes or 3D geometry. Instead of meshes, disparity maps, multiplane images or even voxel grids, they represent the scene as a continuous volume, with volumetric parameters like view-dependent radiance and volume density obtained by querying a neural network. The NeRF representation has now been widely used, with thousands of papers extending or building on it every year, multiple authors and websites providing overviews and surveys, and numerous industrial applications and startup companies. In this article, we briefly review the NeRF representation, and describe the three decades-long quest to find the best 3D representation for view synthesis and related problems, culminating in the NeRF papers. We then describe new developments in terms of NeRF representations and make some observations and insights regarding the future of 3D representations.
翻訳日:2023-08-22 22:24:29 公開日:2023-08-18
# 大規模視覚言語モデルにおける幻覚の検出と防止

Detecting and Preventing Hallucinations in Large Vision Language Models ( http://arxiv.org/abs/2308.06394v2 )

ライセンス: Link先を確認
Anisha Gunjal, Jihan Yin, Erhan Bas(参考訳) LVLM(Large Vision Language Models)は、特にVQA(Visual Question Answering)において、様々なマルチモーダルタスクを一般化する上で大きな進歩を遂げている。 しかし、視覚的に接地された詳細な応答を生成することは、これらのモデルにとって依然として難しい課題である。 現在最先端のLVLM(InstructBLIP)でさえも、存在しないオブジェクト、不信な記述、不正確な関係という形で、幻覚文の30%が停滞している。 そこで本研究では,幻覚検出と予防のためのモデルの構築とベンチマークに使用できる (M)ultimodal (Hal)lucination (Detect)ion DatasetであるM-HalDetectを紹介する。 M-HalDetectはVQAの例で16kの細かいアノテーションで構成されており、詳細な画像記述のための最初の総合的なマルチモーダル幻覚検出データセットである。 オブジェクト幻覚のみを考える以前の作業とは異なり、エンティティ記述と不適切な関係の両方に注釈を付けます。 幻覚予防のためのこのデータセットの可能性を示すため、我々は新しいFDPOによるインストラクトBLIPを最適化する。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 fdpo標本と拒絶標本の両方についてヒトによる評価を行い,instructblipの幻覚率をそれぞれ41%,55%低下させた。 また,報奨モデルが他のマルチモーダルモデルに一般化され,LLaVAとmPLUG-OWLの幻覚が15%,mPLUG-OWLが57%減少し,評価精度スコアと強い相関が得られた。

Instruction tuned Large Vision Language Models (LVLMs) have significantly advanced in generalizing across a diverse set of multi-modal tasks, especially for Visual Question Answering (VQA). However, generating detailed responses that are visually grounded is still a challenging task for these models. We find that even the current state-of-the-art LVLMs (InstructBLIP) still contain a staggering 30 percent of the hallucinatory text in the form of non-existent objects, unfaithful descriptions, and inaccurate relationships. To address this, we introduce M-HalDetect, a (M)ultimodal (Hal)lucination (Detect)ion Dataset that can be used to train and benchmark models for hallucination detection and prevention. M-HalDetect consists of 16k fine-grained annotations on VQA examples, making it the first comprehensive multi-modal hallucination detection dataset for detailed image descriptions. Unlike previous work that only consider object hallucination, we additionally annotate both entity descriptions and relationships that are unfaithful. To demonstrate the potential of this dataset for hallucination prevention, we optimize InstructBLIP through our novel Fine-grained Direct Preference Optimization (FDPO). We also train fine-grained multi-modal reward models from InstructBLIP and evaluate their effectiveness with best-of-n rejection sampling. We perform human evaluation on both FDPO and rejection sampling, and find that they reduce hallucination rates in InstructBLIP by 41% and 55% respectively. We also find that our reward model generalizes to other multi-modal models, reducing hallucinations in LLaVA and mPLUG-OWL by 15% and 57% respectively, and has strong correlation with human evaluated accuracy scores.
翻訳日:2023-08-22 20:29:17 公開日:2023-08-18
# 統合性は魅力的です

Integrability is attractive ( http://arxiv.org/abs/2308.09745v1 )

ライセンス: Link先を確認
Hyeongjin Kim, Anatoli Polkovnikov(参考訳) 量子カオスと積分性の間の相互作用は、過去数十年にわたって広く研究されてきた。 我々は、断熱変換の複雑性を記述する量子幾何テンソルにエンコードされた幾何学の観点から、この話題にアプローチする。 特に、2つの独立結合によってパラメータ化されるスピン鎖の2つのジェネリックモデルを考える。 一方、可積分性破壊摂動は大域的であり、他方では可積分性は境界でのみ破られる。 どちらの場合も、結合空間の最も短い経路は可積分領域へと導かれ、この挙動は総称的であると論じる。 これらの地域は、自然の河川流域と同様の断熱的な流れの引き金となる。 物理的には、可積分領域への方向は可積分性に平行な方向よりもより速い緩和ダイナミクスによって特徴づけられる。 それらの間の異方性は、系が可積分点に近づくにつれて熱力学的限界内で発散する。 これらの方向は、それらが動的自由度と見なされる場合、カップリングの時間発展の誘引役でもあると論じている。 したがって、ジェネリックシステムは、可積分あるいはほぼ可積分なレジームに動的に自己調整することが期待される。 その結果,局所可積分性破砕モデルがカオス的になるが,熱力学的限界においてもエルゴディシティを回避できるという数値的証拠が得られた。

The interplay between quantum chaos and integrability has been extensively studied in the past decades. We approach this topic from the point of view of geometry encoded in the quantum geometric tensor, which describes the complexity of adiabatic transformations. In particular, we consider two generic models of spin chains that are parameterized by two independent couplings. In one, the integrability breaking perturbation is global while, in the other, integrability is broken only at the boundary. In both cases, the shortest paths in the coupling space lead towards integrable regions and we argue that this behavior is generic. These regions thus act as attractors of adiabatic flows similar to river basins in nature. Physically, the directions towards integrable regions are characterized by faster relaxation dynamics than those parallel to integrability. The anisotropy between them diverges in the thermodynamic limit as the system approaches the integrable point. We argue that these directions also serve as attractors of the couplings' time evolution if they are considered as dynamical degrees of freedom. Therefore, generic systems are expected to dynamically self tune themselves to integrable or nearly integrable regimes. As a side result, we provide numerical evidence that the model with local integrability breaking quickly becomes chaotic but avoids ergodicity even in the thermodynamic limit.
翻訳日:2023-08-22 20:10:50 公開日:2023-08-18
# 慢性疾患の因果的解釈可能な進行軌跡解析

Causal Interpretable Progression Trajectory Analysis of Chronic Disease ( http://arxiv.org/abs/2308.09735v1 )

ライセンス: Link先を確認
Zhoujian Sun, Wenzhuo Zhang, Zhengxing Huang, Nai Ding(参考訳) 慢性疾患は死因の主要な要因であり、疾患進行軌跡の正確な予測の必要性を強調し、臨床的な意思決定を通知する。 機械学習(ML)モデルは、患者機能内の非線形パターンをキャプチャすることで、この領域で有望であることを示している。 しかしながら、既存のmlベースのモデルは、因果解釈可能な予測を提供し、治療効果を推定する能力が欠けている。 本研究では,この限界に対応するために,因果軌道予測(CTP)と呼ばれる新しいモデルを提案する。 CTPモデルは、軌跡予測と因果発見を組み合わせて、疾患進行軌跡の正確な予測と特徴間の因果関係を明らかにする。 因果グラフを予測プロセスに組み込むことで、CTPは祖先の特徴が子孫の特徴の扱いに影響されないことを保証し、モデルの解釈可能性を高める。 治療効果の限界を推定することにより、測定されていない共同創設者の存在下においても、CTPは臨床的意思決定に有用な洞察を提供する。 シミュレーションと実際の医療データを用いてctpの性能を評価する。 実験の結果,本モデルは良好な成績を得られ,臨床判断支援の可能性を強調した。

Chronic disease is the leading cause of death, emphasizing the need for accurate prediction of disease progression trajectories and informed clinical decision-making. Machine learning (ML) models have shown promise in this domain by capturing non-linear patterns within patient features. However, existing ML-based models lack the ability to provide causal interpretable predictions and estimate treatment effects, limiting their decision-assisting perspective. In this study, we propose a novel model called causal trajectory prediction (CTP) to tackle the limitation. The CTP model combines trajectory prediction and causal discovery to enable accurate prediction of disease progression trajectories and uncovering causal relationships between features. By incorporating a causal graph into the prediction process, CTP ensures that ancestor features are not influenced by treatment on descendant features, thereby enhancing the interpretability of the model. By estimating the bounds of treatment effects, even in the presence of unmeasured confounders, the CTP provides valuable insights for clinical decision-making. We evaluate the performance of the CTP using simulated and real medical datasets. Experimental results demonstrate that our model achieves satisfactory performance, highlighting its potential to assist clinical decisions.
翻訳日:2023-08-22 20:10:31 公開日:2023-08-18
# 非定常環境における多目的強化学習のためのロバストポリシーブートストラップアルゴリズム

A Robust Policy Bootstrapping Algorithm for Multi-objective Reinforcement Learning in Non-stationary Environments ( http://arxiv.org/abs/2308.09734v1 )

ライセンス: Link先を確認
Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu(参考訳) 多目的マルコフ決定過程は、確率過程のマルコフ特性を満足させながら、逐次決定を伴う特殊タイプの多目的最適化問題である。 多目的強化学習法は、多目的最適化手法を用いて強化学習パラダイムを融合することによりこの問題に対処する。 これらの方法の大きな欠点は、環境における非定常力学への適応性の欠如である。 これは、定常性を前提として、問題を解決可能な一連のポリシーを展開する最適化手順を採用するためである。 本稿では,定義した目的の優先空間をオンライン的に探索しながら,政策カバレッジセットを進化させる開発最適化手法を提案する。 本研究では,非定常環境において,凸カバレッジの集合をオンライン的に堅牢に進化させることができる新しい多目的強化学習アルゴリズムを提案する。 提案アルゴリズムを静止環境と非定常環境の2つの最先端多目的強化学習アルゴリズムと比較した。 その結果,提案アルゴリズムは静止環境における既存アルゴリズムよりも優れ,静止環境においては同等の結果が得られた。

Multi-objective Markov decision processes are a special kind of multi-objective optimization problem that involves sequential decision making while satisfying the Markov property of stochastic processes. Multi-objective reinforcement learning methods address this problem by fusing the reinforcement learning paradigm with multi-objective optimization techniques. One major drawback of these methods is the lack of adaptability to non-stationary dynamics in the environment. This is because they adopt optimization procedures that assume stationarity to evolve a coverage set of policies that can solve the problem. This paper introduces a developmental optimization approach that can evolve the policy coverage set while exploring the preference space over the defined objectives in an online manner. We propose a novel multi-objective reinforcement learning algorithm that can robustly evolve a convex coverage set of policies in an online manner in non-stationary environments. We compare the proposed algorithm with two state-of-the-art multi-objective reinforcement learning algorithms in stationary and non-stationary environments. Results showed that the proposed algorithm significantly outperforms the existing algorithms in non-stationary environments while achieving comparable results in stationary environments.
翻訳日:2023-08-22 20:10:12 公開日:2023-08-18
# 多目的マルコフ決定過程における本質的動機づけによる階層的政策学習

Intrinsically Motivated Hierarchical Policy Learning in Multi-objective Markov Decision Processes ( http://arxiv.org/abs/2308.09733v1 )

ライセンス: Link先を確認
Sherif Abdelfattah, Kathryn Merrick, Jiankun Hu(参考訳) 多目的マルコフ決定プロセスは、妥協なしには同時に最適化できない複数の相反する報酬関数を含む一連の意思決定問題である。 この種の問題は、従来のような一つの最適政策では解決できない。 あるいは、多目的強化学習手法は、問題を解く際のあらゆる選択肢を満たす最適なポリシーのカバレッジセットを進化させる。 しかし,これらの手法の多くは,非定常環境で動作するようにカバレッジセットを一般化することはできない。 これらの環境では、状態遷移と報酬分布のパラメータは時間とともに変化する。 この制限により、進化したポリシーセットのパフォーマンスが大幅に低下する。 この制限を克服するには、環境のダイナミクスの変化ごとに設定されたポリシーカバレッジの進化をブートストラップできる一般的なスキルセットを学ぶ必要があるため、継続的学習プロセスを促進できる。 本研究は,多目的マルコフ決定過程を解くための階層的政策を学習するための総合的スキルセットの進化に本質的に動機づけた強化学習が成功している。 本稿では,この制限に対処する2相本質的な強化学習法を提案する。 第1フェーズでは、一般的なスキルセットが学習される。 第2フェーズでは、このセットは環境ダイナミクスのシフトごとにポリシーカバレッジセットをブートストラップするために使用される。 動的ロボット環境において,提案手法が最先端の多目的補強法を著しく上回っていることを実験的に示す。

Multi-objective Markov decision processes are sequential decision-making problems that involve multiple conflicting reward functions that cannot be optimized simultaneously without a compromise. This type of problems cannot be solved by a single optimal policy as in the conventional case. Alternatively, multi-objective reinforcement learning methods evolve a coverage set of optimal policies that can satisfy all possible preferences in solving the problem. However, many of these methods cannot generalize their coverage sets to work in non-stationary environments. In these environments, the parameters of the state transition and reward distribution vary over time. This limitation results in significant performance degradation for the evolved policy sets. In order to overcome this limitation, there is a need to learn a generic skill set that can bootstrap the evolution of the policy coverage set for each shift in the environment dynamics therefore, it can facilitate a continuous learning process. In this work, intrinsically motivated reinforcement learning has been successfully deployed to evolve generic skill sets for learning hierarchical policies to solve multi-objective Markov decision processes. We propose a novel dual-phase intrinsically motivated reinforcement learning method to address this limitation. In the first phase, a generic set of skills is learned. While in the second phase, this set is used to bootstrap policy coverage sets for each shift in the environment dynamics. We show experimentally that the proposed method significantly outperforms state-of-the-art multi-objective reinforcement methods in a dynamic robotics environment.
翻訳日:2023-08-22 20:09:55 公開日:2023-08-18
# Baird Counterexampleは解決された: 2時間スケールのアルゴリズムをデバッグする方法の例

Baird Counterexample Is Solved: with an example of How to Debug a Two-time-scale Algorithm ( http://arxiv.org/abs/2308.09732v1 )

ライセンス: Link先を確認
Hengshuai Yao(参考訳) Baird反例は1995年にLeemon Bairdによって提案され、この例で時間差分(TD(0))アルゴリズムが分岐することを示すために最初に使われた。 それ以来、政治以外の学習アルゴリズムのテストや比較にしばしば使用される。 勾配TDアルゴリズムは、Baird反例におけるTDの分散問題を解いた。 しかし、この例におけるそれらの収束は依然として非常に遅く、例えば Sutton と Barto 2018 など、遅くなる性質はよく理解されていない。 特に、この例ではなぜTDCが遅いのかを理解し、この振る舞いを理解するためにデバッグ分析を提供する。 このデバッギング技術は,2時間スケール確率近似アルゴリズムの収束挙動の研究に利用できる。 この例では,最近の印象gtdアルゴリズムの実験結果も提供し,収束が非常に高速であることを示した。 我々は,一般のTD解に対する収束保証と高速収束率のアルゴリズムを用いて,Baird反例を解くことを結論付けた。

Baird counterexample was proposed by Leemon Baird in 1995, first used to show that the Temporal Difference (TD(0)) algorithm diverges on this example. Since then, it is often used to test and compare off-policy learning algorithms. Gradient TD algorithms solved the divergence issue of TD on Baird counterexample. However, their convergence on this example is still very slow, and the nature of the slowness is not well understood, e.g., see (Sutton and Barto 2018). This note is to understand in particular, why TDC is slow on this example, and provide debugging analysis to understand this behavior. Our debugging technique can be used to study the convergence behavior of two-time-scale stochastic approximation algorithms. We also provide empirical results of the recent Impression GTD algorithm on this example, showing the convergence is very fast, in fact, in a linear rate. We conclude that Baird counterexample is solved, by an algorithm with convergence guarantee to the TD solution in general and a fast convergence rate.
翻訳日:2023-08-22 20:09:34 公開日:2023-08-18
# EAVL:画像セグメンテーションを参照するための視覚と言語

EAVL: Explicitly Align Vision and Language for Referring Image Segmentation ( http://arxiv.org/abs/2308.09779v1 )

ライセンス: Link先を確認
Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu(参考訳) 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。 主な課題は言語に関連したローカライゼーションである。 従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。 従来のアプローチでは、融合した視覚言語機能はデコーダに直接入力され、固定されたカーネルとの畳み込みを通過して結果を得る。 このアプローチは、セグメンテーション段階における言語と視覚の特徴を明示的に調整するものではない。 従来の手法とは違って,画像セグメンテーション(EAVL)のための視覚と言語を明示的にアライメントする手法を提案する。 固定畳み込みカーネルの代わりに,セグメント化段階における視覚と言語の特徴を明確に整列する Aligner を提案する。 具体的には、一連の固定されていない畳み込みカーネルが入力lに基づいて生成され、視覚と言語の特徴を明示的に整列するために使用される。 これを実現するために、言語表現の異なる相を表す複数のクエリを生成する。 これらのクエリは、一連のクエリベースの畳み込みカーネルに変換される。 次に,これらのカーネルを用いてセグメンテーション段階の畳み込みを行い,一連のセグメンテーションマスクを得る。 最終結果はすべてのマスクの集合によって得られる。 本手法は視覚と言語機能を効果的に融合できるだけでなく,セグメンテーション段階でその潜在能力を活用できる。 そして、最も重要なことは、異なる位相の言語特徴を画像特徴と明示的に整合させ、言語関連ローカライゼーションを実現することである。 提案手法は,RefCOCO,RefCOCO+,G-Refにおける従来の最先端手法を大きなマージンで上回る。

Referring image segmentation aims to segment an object mentioned in natural language from an image. A main challenge is language-related localization, which means locating the object with the relevant language. Previous approaches mainly focus on the fusion of vision and language features without fully addressing language-related localization. In previous approaches, fused vision-language features are directly fed into a decoder and pass through a convolution with a fixed kernel to obtain the result, which follows a similar pattern as traditional image segmentation. This approach does not explicitly align language and vision features in the segmentation stage, resulting in a suboptimal language-related localization. Different from previous methods, we propose Explicitly Align the Vision and Language for Referring Image Segmentation (EAVL). Instead of using a fixed convolution kernel, we propose an Aligner which explicitly aligns the vision and language features in the segmentation stage. Specifically, a series of unfixed convolution kernels are generated based on the input l, and then are use to explicitly align the vision and language features. To achieve this, We generate multiple queries that represent different emphases of the language expression. These queries are transformed into a series of query-based convolution kernels. Then, we utilize these kernels to do convolutions in the segmentation stage and obtain a series of segmentation masks. The final result is obtained through the aggregation of all masks. Our method can not only fuse vision and language features effectively but also exploit their potential in the segmentation stage. And most importantly, we explicitly align language features of different emphases with the image features to achieve language-related localization. Our method surpasses previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins.
翻訳日:2023-08-22 19:59:43 公開日:2023-08-18
# マルチモーダル視覚言語モデルにおける接地空間推論に向けて

Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models ( http://arxiv.org/abs/2308.09778v1 )

ライセンス: Link先を確認
Navid Rajabi, Jana Kosecka(参考訳) 大規模視覚言語モデル(vlms)の発展に伴い、数え上げ、参照表現、一般的な視覚的質問応答など、様々な視覚的推論タスクにおける彼らのパフォーマンスを評価することが注目される。 この研究の焦点は、これらのモデルが空間関係を理解する能力を研究することである。 これまでは、画像テキストマッチング(liu, emerson, and collier 2022)や視覚的質問応答タスクを使用してこの問題に取り組んできた。 このギャップをよりよく理解するために,空間関係のきめ細かい構成的接地を示し,空間節のランク付けと空間関係推論タスクの性能評価のためのボトムアップアプローチを提案する。 本稿では,オブジェクトとその位置に対応する名詞句の接地から得られた証拠を組み合わせて,空間節の最終ランクを計算することを提案する。 我々は,代表的視覚言語モデル(Tan and Bansal 2019, Gupta et al. 2022, Kamath et al. 2021)に対するアプローチを実証し,空間的関係を推論する能力の比較と強調を行う。

With the advances in large scale vision-and-language models (VLMs) it is of interest to assess their performance on various visual reasoning tasks such as counting, referring expressions and general visual question answering. The focus of this work is to study the ability of these models to understanding spatial relations. Previously, this has been tackled using image-text matching (Liu, Emerson, and Collier 2022) or visual question answering task, both showing poor performance and a large gap compared to human performance. To better understand the gap, we present fine-grained compositional grounding of spatial relationships and propose a bottom up approach for ranking spatial clauses and evaluating the performance of spatial relationship reasoning task. We propose to combine the evidence from grounding noun phrases corresponding to objects and their locations to compute the final rank of the spatial clause. We demonstrate the approach on representative vision-language models (Tan and Bansal 2019; Gupta et al. 2022; Kamath et al. 2021) and compare and highlight their abilities to reason about spatial relationships.
翻訳日:2023-08-22 19:59:15 公開日:2023-08-18
# 映画理解のための長距離マルチモーダル事前学習

Long-range Multimodal Pretraining for Movie Understanding ( http://arxiv.org/abs/2308.09775v1 )

ライセンス: Link先を確認
Dawit Mureja Argaw, Joon-Young Lee, Markus Woodson, In So Kweon, Fabian Caba Heilbron(参考訳) コンピュータビジョンのモデルを映画から学ぶのは、長年の歴史がある。 大きな進歩はあったが、コミュニティが確立してきた映画理解のタスクでうまく機能する事前訓練されたマルチモーダルモデルの必要性は依然として残っている。 本研究では,多モード・クロスモーダルエンコーダの長距離プリトレーニング,戦略,および動画データを活用したモデルを提案する。 私たちのキーとなるアイデアは、長期にわたる関係を観察し、抽出することで、映画のあらゆるモダリティから学ぶことです。 プレトレーニング後、LVUベンチマークのアブレーション研究を行い、モデリングの選択と長距離時間からの学習の重要性を検証する。 本モデルでは,複数のLVUタスクの最先端化を実現し,従来の作業よりもはるかにデータ効率がよい。 最後に,5つのベンチマークで新たな状態を設定することで,モデルの転送性を評価する。

Learning computer vision models from (and for) movies has a long-standing history. While great progress has been attained, there is still a need for a pretrained multimodal model that can perform well in the ever-growing set of movie understanding tasks the community has been establishing. In this work, we introduce Long-range Multimodal Pretraining, a strategy, and a model that leverages movie data to train transferable multimodal and cross-modal encoders. Our key idea is to learn from all modalities in a movie by observing and extracting relationships over a long-range. After pretraining, we run ablation studies on the LVU benchmark and validate our modeling choices and the importance of learning from long-range time spans. Our model achieves state-of-the-art on several LVU tasks while being much more data efficient than previous works. Finally, we evaluate our model's transferability by setting a new state-of-the-art in five different benchmarks.
翻訳日:2023-08-22 19:58:53 公開日:2023-08-18
# 量子供給ダイナミクスと脅威景観に関する第1次調査

A First Order Survey of Quantum Supply Dynamics and Threat Landscapes ( http://arxiv.org/abs/2308.09772v1 )

ライセンス: Link先を確認
Subrata Das, Avimita Chatterjee and Swaroop Ghosh(参考訳) 量子コンピューティングは、その変形的な計算能力を持つが、技術界で注目されている。 量子コンピュータは、新しいエキゾチックな技術として、製造レシピや制御エレクトロニクス、ソフトウェア技術の形で無数の知的財産権(IP)を含んでいる。 さらに、量子システムの複雑さは、IPやQuality of Serviceを危険にさらす可能性のあるサードパーティのツール、機器、サービスの広範な関与を必要とする。 本稿では,量子プロセッサの製造からセキュリティの観点から,特殊なソフトウェアツールやハードウェアコンポーネントの開発に至るまで,量子コンピューティングのエコシステムを探求する最初の試みである。 IBM、Google、Honeywellなどの業界トップランナーから公開された情報を調査することで、量子コンピューティングサプライチェーンのさまざまなコンポーネントをまとめました。 また、潜在的な脆弱性や攻撃モデルを発見し、防御を提案する。 セキュリティのレンズを通じて、量子コンピューティングサプライチェーンをさらに精査する必要性を強調します。

Quantum computing, with its transformative computational potential, is gaining prominence in the technological landscape. As a new and exotic technology, quantum computers involve innumerable Intellectual Property (IP) in the form of fabrication recipe, control electronics and software techniques, to name a few. Furthermore, complexity of quantum systems necessitates extensive involvement of third party tools, equipment and services which could risk the IPs and the Quality of Service and enable other attack surfaces. This paper is a first attempt to explore the quantum computing ecosystem, from the fabrication of quantum processors to the development of specialized software tools and hardware components, from a security perspective. By investigating the publicly disclosed information from industry front runners like IBM, Google, Honeywell and more, we piece together various components of quantum computing supply chain. We also uncover some potential vulnerabilities and attack models and suggest defenses. We highlight the need to scrutinize the quantum computing supply chain further through the lens of security.
翻訳日:2023-08-22 19:58:38 公開日:2023-08-18
# YORC:Yoruba Reading Comprehension データセット

YORC: Yoruba Reading Comprehension dataset ( http://arxiv.org/abs/2308.09768v1 )

ライセンス: Link先を確認
Anuoluwapo Aremu, Jesujoba O. Alabi, David Ifeoluwa Adelani(参考訳) 本稿では, ヨルバ高校読書理解試験に基づく, ヨルバ読解理解データセット YORC を作成する。 事前学習されたエンコーダのみモデルに基づいて,既存の英語レースデータセットを用いて言語間転送を行うことにより,基本結果を提供する。 さらに, GPT-4 のような大規模言語モデル (LLM) も提案する。

In this paper, we create YORC: a new multi-choice Yoruba Reading Comprehension dataset that is based on Yoruba high-school reading comprehension examination. We provide baseline results by performing cross-lingual transfer using existing English RACE dataset based on a pre-trained encoder-only model. Additionally, we provide results by prompting large language models (LLMs) like GPT-4.
翻訳日:2023-08-22 19:58:22 公開日:2023-08-18
# モニタリングされていない場所での時系列予測:水資源における機械学習技術の調査

Time Series Predictions in Unmonitored Sites: A Survey of Machine Learning Techniques in Water Resources ( http://arxiv.org/abs/2308.09766v1 )

ライセンス: Link先を確認
Jared D. Willard, Charuleka Varadharajan, Xiaowei Jia, Vipin Kumar(参考訳) 非監視地における動的環境変数の予測は、水資源科学にとって長年の課題である。 世界の淡水資源の大半は、管理に必要な重要な環境変数のモニタリングが不十分である。 しかし、過去数十年間の気候・土地利用の変化とそれに伴う水資源への影響により、河川流動や水質などの水文学変数の広範な予測の必要性がますます急激化している。 現代の機械学習手法は、大規模で多様なデータセットから情報を抽出する能力によって、水文時系列予測のためのプロセスベースで経験的なモデルよりも、ますます優れている。 本稿では,機械学習の流水,水質,その他の水資源予測への応用を概観し,深層学習モデルに流域特性を取り入れ,転移学習を行い,プロセス知識を機械学習モデルに組み込む新たな手法を用いて,機械学習の利用を改善する機会について論じる。 この分析は、米国の日々の時間スケールでの予測のために多くのサイト上に構築されたディープラーニング学習フレームワークに、これまでのほとんどの取り組みが焦点を当てていることを示唆している。 我々は、動的入力とサイト特性、機械的理解と空間的文脈、現代の機械学習フレームワークにおける説明可能なAI技術を含む、監視されていないサイトの時系列予測に関するいくつかのオープンな質問を識別する。

Prediction of dynamic environmental variables in unmonitored sites remains a long-standing challenge for water resources science. The majority of the world's freshwater resources have inadequate monitoring of critical environmental variables needed for management. Yet, the need to have widespread predictions of hydrological variables such as river flow and water quality has become increasingly urgent due to climate and land use change over the past decades, and their associated impacts on water resources. Modern machine learning methods increasingly outperform their process-based and empirical model counterparts for hydrologic time series prediction with their ability to extract information from large, diverse data sets. We review relevant state-of-the art applications of machine learning for streamflow, water quality, and other water resources prediction and discuss opportunities to improve the use of machine learning with emerging methods for incorporating watershed characteristics into deep learning models, transfer learning, and incorporating process knowledge into machine learning models. The analysis here suggests most prior efforts have been focused on deep learning learning frameworks built on many sites for predictions at daily time scales in the United States, but that comparisons between different classes of machine learning methods are few and inadequate. We identify several open questions for time series predictions in unmonitored sites that include incorporating dynamic inputs and site characteristics, mechanistic understanding and spatial context, and explainable AI techniques in modern machine learning frameworks.
翻訳日:2023-08-22 19:58:16 公開日:2023-08-18
# 驚きによって取られる:類似度スコアのコントラスト効果

Taken by Surprise: Contrast effect for Similarity Scores ( http://arxiv.org/abs/2308.09765v1 )

ライセンス: Link先を確認
homas C. Bachlechner, Mario Martone and Marjorie Schillo(参考訳) オブジェクトベクトル埋め込みの類似性を正確に評価することは、自然言語処理、情報検索、分類タスクにおいて重要である。 一般的な類似度スコア(例えばコサイン類似度)は埋め込みベクトルのペアに基づいており、オブジェクトが描画されるアンサンブルの分布を無視している。 オブジェクトの類似性に対する人間の認識は、オブジェクトが現れるコンテキストに大きく依存する。 本研究では,人間の知覚のコントラスト効果を包含するアンサンブル正規化類似度指標である \emph{surprise score} を提案する。 このスコアは、ペアワイズアンサンブルの類似性に対する2つの要素間の与えられた類似性を見つけることに驚きを定量化する。 0/fewショットの分類とクラスタリングのタスクでこの測定値を評価し、通常、生のコサインの類似性よりも10~15~15%優れたパフォーマンスを見出す。 私たちのコードはhttps://github.com/MeetElise/surprise-similarity.comで利用可能です。

Accurately evaluating the similarity of object vector embeddings is of critical importance for natural language processing, information retrieval and classification tasks. Popular similarity scores (e.g cosine similarity) are based on pairs of embedding vectors and disregard the distribution of the ensemble from which objects are drawn. Human perception of object similarity significantly depends on the context in which the objects appear. In this work we propose the \emph{surprise score}, an ensemble-normalized similarity metric that encapsulates the contrast effect of human perception and significantly improves the classification performance on zero- and few-shot document classification tasks. This score quantifies the surprise to find a given similarity between two elements relative to the pairwise ensemble similarities. We evaluate this metric on zero/few shot classification and clustering tasks and typically find 10-15\% better performance compared to raw cosine similarity. Our code is available at https://github.com/MeetElise/surprise-similarity.
翻訳日:2023-08-22 19:57:51 公開日:2023-08-18
# 背景除去がファッション画像分類とセグメンテーションにおけるニューラルネットワークの性能に及ぼす影響

The Impact of Background Removal on Performance of Neural Networks for Fashion Image Classification and Segmentation ( http://arxiv.org/abs/2308.09764v1 )

ライセンス: Link先を確認
Junhui Liang, Ying Liu, Vladimir Vlassov(参考訳) ファッション理解はコンピュータビジョンにおいてホットなトピックであり、多くのアプリケーションが市場で大きなビジネス価値を持っている。 ファッション理解は、衣料の多様さや様々な場面や背景が多様であるため、コンピュータビジョンにとって難しい課題である。 本研究では,ファッション画像から背景を取り除き,データ品質の向上とモデル性能の向上を試みる。 完全可視な服装の明らかな人物のファッションイメージを保有することで、Salient Object Detection を用いて、ファッションデータの背景的除去を期待できる。 背景を取り除いたファッションイメージは、ファッションデータセットのオリジナルイメージとは対照的に、"rembg"イメージとして主張される。 モデルアーキテクチャ,モデル初期化,他のトレーニングトリックとの互換性,データ拡張,ターゲットタスクタイプなど,モデルトレーニングの複数の側面に関する2種類の画像との比較実験を行った。 提案実験では,過度に適合しにくい単純で浅いネットワークのファッションデータに対して,背景除去が効果的に有効であることを示す。 モデルをスクラッチからトレーニングする場合、fashionstyle14データセットの分類を最大5%改善することができる。 しかし、バックグラウンド除去は、バッチ正規化、事前訓練された初期化、ランダム性を導入したデータ拡張といった他の正規化技術と互換性がないため、ディープニューラルネットワークではうまく機能しない。 背景画素の喪失は、モデルトレーニングにおける多くの既存のトレーニングトリックを無効にし、深層モデルに過度に適合するリスクを追加する。

Fashion understanding is a hot topic in computer vision, with many applications having great business value in the market. Fashion understanding remains a difficult challenge for computer vision due to the immense diversity of garments and various scenes and backgrounds. In this work, we try removing the background from fashion images to boost data quality and increase model performance. Having fashion images of evident persons in fully visible garments, we can utilize Salient Object Detection to achieve the background removal of fashion data to our expectations. A fashion image with the background removed is claimed as the "rembg" image, contrasting with the original one in the fashion dataset. We conducted extensive comparative experiments with these two types of images on multiple aspects of model training, including model architectures, model initialization, compatibility with other training tricks and data augmentations, and target task types. Our experiments show that background removal can effectively work for fashion data in simple and shallow networks that are not susceptible to overfitting. It can improve model accuracy by up to 5% in the classification on the FashionStyle14 dataset when training models from scratch. However, background removal does not perform well in deep neural networks due to incompatibility with other regularization techniques like batch normalization, pre-trained initialization, and data augmentations introducing randomness. The loss of background pixels invalidates many existing training tricks in the model training, adding the risk of overfitting for deep models.
翻訳日:2023-08-22 19:57:33 公開日:2023-08-18
# 量子多体系、場理論、ホログラフィにおける絡み合い構造

Entanglement structure in quantum many-body systems, field theories, and holography ( http://arxiv.org/abs/2308.09758v1 )

ライセンス: Link先を確認
Takato Mori(参考訳) この論文の目的は、一般的な量子系と時空の間のホログラフィーの自由度が高い様々な量子系において、量子相関の一種であるエンタングルメントの構造を明らかにすることである。 エンタングルメントとホログラフィーの以前の研究は、場の理論における計算技術の欠如とホログラフィー固有の制限のために、量子システムの特定のクラスに焦点を当ててきた。 この論文は、ターゲット量子系を質量と相互作用、境界、幾何学的変分アンサーゼで拡張することで、これらの困難を克服する様々な方法や形式を通知する。 これらのアプローチは、下からホログラフィの一般化に関する洞察を与える。 この論文は、量子場理論、ホログラフィー、テンソルネットワークの新しい技術を確立することによって、従来のホログラフィーを超えて包括的な研究を開始する。 絡み合いエントロピーに着目して、基本作用素と合成作用素の両方の正規化二点相関項で表されるのが一般的である。 エンタングルメントエントロピー以外にも、一般的なテンソルネットワークにおけるエンタングルメント構造の操作的意味を見出した。 さらに,AdS/BCFT対応を局所的な演算子クエンチと正しく一致させた。

The aim of this dissertation is to clarify the structure of entanglement, a type of quantum correlations, in various quantum systems with a large number of degrees of freedom for holography between generic quantum systems and spacetimes toward a quantum description of our universe. Previous examinations of entanglement and holography have focused on specific classes of quantum systems due to the lack of computational techniques in field theory and the inherent limitation of holography. This dissertation informs various methods and formalisms to overcome these difficulties by extending the target quantum systems with mass and interactions, boundaries, and geometric variational ansatze. These approaches provide insights into the generalization of holography from the bottom up. This dissertation initiates a comprehensive study beyond conventional holography by establishing new techniques in quantum field theory, holography, and tensor networks. Focusing on entanglement entropy, we found it is generally expressed in terms of renormalized two-point correlators of both fundamental and composite operators. Beyond entanglement entropy, we found the operational meaning of the entanglement structure in generic tensor networks. Furthermore, we established a correct prescription for the AdS/BCFT correspondence with a local operator quench.
翻訳日:2023-08-22 19:57:09 公開日:2023-08-18
# 自己教師付き機械学習を用いた宇宙論におけるデータ圧縮と推論

Data Compression and Inference in Cosmology with Self-Supervised Machine Learning ( http://arxiv.org/abs/2308.09751v1 )

ライセンス: Link先を確認
Aizhan Akhmetzhanova, Siddharth Mishra-Sharma, Cora Dvorkin(参考訳) 現在および今後の宇宙調査からの大量のデータが流入することは、情報の損失を最小限に抑えて効率的にデータを要約できる圧縮スキームを必要とする。 シミュレーションに基づく拡張を用いた大規模データセットの代表的な要約を構築するために,自己教師型機械学習のパラダイムを新しい方法で活用する手法を提案する。 本手法を流体力学的宇宙シミュレーションに展開することにより, 高精度かつ正確なパラメータ推定を含む, 下流の様々なタスクに使用できる, 高度な情報的要約を実現できることを示す。 本研究では,このパラダイムを用いて,バリオン物理学の影響など,所定の系統的効果に敏感な要約表現を構築する方法を示す。 この結果から,自己教師型機械学習技術は宇宙データの圧縮と解析に有望な新しいアプローチを提供することが示された。

The influx of massive amounts of data from current and upcoming cosmological surveys necessitates compression schemes that can efficiently summarize the data with minimal loss of information. We introduce a method that leverages the paradigm of self-supervised machine learning in a novel manner to construct representative summaries of massive datasets using simulation-based augmentations. Deploying the method on hydrodynamical cosmological simulations, we show that it can deliver highly informative summaries, which can be used for a variety of downstream tasks, including precise and accurate parameter inference. We demonstrate how this paradigm can be used to construct summary representations that are insensitive to prescribed systematic effects, such as the influence of baryonic physics. Our results indicate that self-supervised machine learning techniques offer a promising new approach for compression of cosmological data as well its analysis.
翻訳日:2023-08-22 19:56:49 公開日:2023-08-18
# $s$-spinコヒーレント状態の重ね合わせによる量子力学性能と正確なハイゼンベルク極限精度の実現

Achieving quantum metrological performance and exact Heisenberg limit precision through superposition of $s$-spin coherent states ( http://arxiv.org/abs/2308.09833v1 )

ライセンス: Link先を確認
Hanan Saidi, Hanane El Hadfi, Abdallah Slaoui and Rachid Ahl Laamara(参考訳) 量子位相推定において、ハイゼンベルク極限は準古典的推定手順の最終的な精度を提供する。 しかし、この限界の実現は、出力測定に使用される検出戦略と入力状態の特性の両方にかかっている。 本研究では,$s$-spinコヒーレント状態重ね合わせを用いた量子位相推定を行う。 はじめに、スピン $s=3/2$ に対するスピンコヒーレント状態の明示的な定式化を考える。 量子フィッシャー情報と量子クラーラオ境界は細心の注意を払って検討される。 我々はスピン猫状態の最終的な測定精度がハイゼンベルク限界に近づき、不確実性は全粒子数と逆向きに減少することを示した。 さらに、演算子 $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ および $e^{i\zeta{S}_{y}}$ によって導入された位相感度について検討し、その結果を比較した。 最後に、これら3つのパラメータ生成演算子に適用される量子クレーダ-rao境界の一般的な解析式を提供し、一般的な$s$-spinコヒーレント状態を利用する。 ハイゼンベルク・リミット精度を達成するには、ブロッホ球面上の$s$-spin cat状態の幾何学に関する洞察的な情報を注意深く調整する必要がある。 さらに、$s$-spinの数が増加するにつれて、ハイゼンベルクの極限は減少し、この減少は$s$-spin数に逆比例する。

In quantum phase estimation, the Heisenberg limit provides the ultimate accuracy over quasi-classical estimation procedures. However, realizing this limit hinges upon both the detection strategy employed for output measurements and the characteristics of the input states. This study delves into quantum phase estimation using $s$-spin coherent states superposition. Initially, we delve into the explicit formulation of spin coherent states for a spin $s=3/2$. Both the quantum Fisher information and the quantum Cramer-Rao bound are meticulously examined. We analytically show that the ultimate measurement precision of spin cat states approaches the Heisenberg limit, where uncertainty decreases inversely with the total particle number. Moreover, we investigate the phase sensitivity introduced through operators $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ and $e^{i\zeta{S}_{y}}$, subsequently comparing the resultants findings. In closing, we provide a general analytical expression for the quantum Cramer-Rao boundary applied to these three parameter-generating operators, utilizing general $s$-spin coherent states. We remarked that attaining Heisenberg-limit precision requires the careful adjustment of insightful information about the geometry of $s$-spin cat states on the Bloch sphere. Additionally, as the number of $s$-spin increases, the Heisenberg limit decreases, and this reduction is inversely proportional to the $s$-spin number.
翻訳日:2023-08-22 19:52:43 公開日:2023-08-18
# 非小細胞肺癌(NSCLC)患者の生存予測におけるクロスモーダルアテンションに基づくマルチモーダルフュージョン

Cross-modality Attention-based Multimodal Fusion for Non-small Cell Lung Cancer (NSCLC) Patient Survival Prediction ( http://arxiv.org/abs/2308.09831v1 )

ライセンス: Link先を確認
Ruining Deng, Nazim Shaikh, Gareth Shannon, Yao Nie(参考訳) がん予後と生存予後予測は治療反応推定および様々な治療群への階層化に不可欠である。 癌予後に関連する医療領域は、病理画像データやゲノム情報などの非画像データなど、多種多様である。 これまでマルチモーダル学習は、同一対象の異なるモーダルから情報を抽出し集約することにより、臨床予測モデルの性能を高める可能性を示してきた。 このアプローチは単一のモダリティ学習を上回り、多くの医学的応用においてコンピュータ支援診断と予後を改善する。 本研究は,非小細胞肺癌(NSCLC)における患者生存予測のためのモダリティ特異的知識の統合を目的とした,モダリティ横断型マルチモーダル融合パイプラインを提案する。 異なるモダリティから特徴を結合またはまとめる代わりに、マルチモダリティ特徴を取り入れる際に、交叉モダリティ関係を持つ特徴融合における各モダリティの重要性を計測する。 組織画像データとRNA-seqデータのみを用いてc-indexを0.5772と0.5885で達成した単一モダリティと比較して, 本実験ではc-index 0.6587が得られた。

Cancer prognosis and survival outcome predictions are crucial for therapeutic response estimation and for stratifying patients into various treatment groups. Medical domains concerned with cancer prognosis are abundant with multiple modalities, including pathological image data and non-image data such as genomic information. To date, multimodal learning has shown potential to enhance clinical prediction model performance by extracting and aggregating information from different modalities of the same subject. This approach could outperform single modality learning, thus improving computer-aided diagnosis and prognosis in numerous medical applications. In this work, we propose a cross-modality attention-based multimodal fusion pipeline designed to integrate modality-specific knowledge for patient survival prediction in non-small cell lung cancer (NSCLC). Instead of merely concatenating or summing up the features from different modalities, our method gauges the importance of each modality for feature fusion with cross-modality relationship when infusing the multimodal features. Compared with single modality, which achieved c-index of 0.5772 and 0.5885 using solely tissue image data or RNA-seq data, respectively, the proposed fusion approach achieved c-index 0.6587 in our experiment, showcasing the capability of assimilating modality-specific knowledge from varied modalities.
翻訳日:2023-08-22 19:52:13 公開日:2023-08-18
# ロバストAIのための大規模言語モデルと認知アーキテクチャの相乗的統合:探索的分析

Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis ( http://arxiv.org/abs/2308.09830v1 )

ライセンス: Link先を確認
Oscar J. Romero, John Zimmerman, Aaron Steinfeld, Anthony Tomasic(参考訳) 本稿では,知的行動を示す人工エージェントの構築において,AIの2つのサブ分野を統合するための選択肢について検討する。 理論モデルに導かれ、予備的な実証データによって支援された我々は、多様な相乗的アプローチがそれぞれの弱点と限界を相互に補償し、最終的により堅牢で洗練された人工知能システムを育むことができるかを仮定する。 さらに、それぞれのアプローチに関連するトレードオフと課題についても論じる。

This paper explores alternatives for integrating two subdisciplines of AI in the construction of artificial agents that exhibit intelligent behavior: Large Language Models (LLMs) and Cognitive Architectures (CAs). Guided by theoretical models and supported by preliminary empirical data, we hypothesize how diverse synergistic approaches can mutually compensate for their respective weaknesses and limitations, ultimately fostering more robust and sophisticated artificial intelligence systems. Additionally, we discuss the tradeoffs and challenges associated with each approach.
翻訳日:2023-08-22 19:51:49 公開日:2023-08-18
# シングルグラフからの学習は、無線ネットワークにおける近距離経路ルーティングに必要なもの

Learning from A Single Graph is All You Need for Near-Shortest Path Routing in Wireless Networks ( http://arxiv.org/abs/2308.09829v1 )

ライセンス: Link先を確認
Yung-Fu Chen, Sen Lin, Anish Arora(参考訳) 無線ネットワークの標準モデルにおいて,任意のランダムグラフに一般化しながら,単一のグラフから得られたデータサンプルを数個だけ必要な局所ルーティングポリシーの学習アルゴリズムを提案する。 そこで本研究では,ディープニューラルネットワーク(dnn)を訓練し,局所的なルーティングポリシ,すなわちノード状態と隣接ノードの状態のみを効率的に学習することで,最短経路問題を解く。 注目すべきは、私たちがトレーニングしているこれらのDNNの1つは、欲張りの転送のパフォーマンスと正確に一致するポリシーを学びます。 第1に,入力特徴の選択,第2に ``seed graph'' の選択,第2に,最短経路からサブサンプリングを行う。 ドメイン知識の活用は、なぜシードグラフとノードサブサンプリングが効率的でスケーラブルで一般化可能な学習に十分かを理論的に説明できる。 様々な大きさと密度のランダムグラフに関するシミュレーションに基づく結果は、モデストサイズのシードグラフにおけるいくつかのルーティングパスから生成されたサンプルを用いて、無線ネットワークモデル内の(ほぼ)ランダムグラフ全体にわたって一般化可能なモデルを素早く学習する、経験的に相関する。

We propose a learning algorithm for local routing policies that needs only a few data samples obtained from a single graph while generalizing to all random graphs in a standard model of wireless networks. We thus solve the all-pairs near-shortest path problem by training deep neural networks (DNNs) that efficiently and scalably learn routing policies that are local, i.e., they only consider node states and the states of neighboring nodes. Remarkably, one of these DNNs we train learns a policy that exactly matches the performance of greedy forwarding; another generally outperforms greedy forwarding. Our algorithm design exploits network domain knowledge in several ways: First, in the selection of input features and, second, in the selection of a ``seed graph'' and subsamples from its shortest paths. The leverage of domain knowledge provides theoretical explainability of why the seed graph and node subsampling suffice for learning that is efficient, scalable, and generalizable. Simulation-based results on uniform random graphs with diverse sizes and densities empirically corroborate that using samples generated from a few routing paths in a modest-sized seed graph quickly learns a model that is generalizable across (almost) all random graphs in the wireless network model.
翻訳日:2023-08-22 19:51:39 公開日:2023-08-18
# 画像は数千の有害単語の価値:コンテンツモデレーションソフトウェアのためのメタモルフィックテスティングフレームワーク

An Image is Worth a Thousand Toxic Words: A Metamorphic Testing Framework for Content Moderation Software ( http://arxiv.org/abs/2308.09810v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jingyuan Huang, Jen-tse Huang, Chang Chen, Jiazhen Gu, Pinjia He, Michael R. Lyu(参考訳) ソーシャルメディアプラットフォームの急速な成長は、人間社会におけるコミュニケーションとコンテンツの普及に革命をもたらした。 それにもかかわらず、これらのプラットフォームはヘイトスピーチ、悪意のある広告、ポルノなど有害なコンテンツの拡散に悪用され、ティーンエイジャーのメンタルヘルスへの害など深刻なネガティブな結果をもたらしている。 テキストコンテンツや画像コンテンツのモデレーション手法の開発とデプロイに多大な努力をしたが、悪意のあるユーザーはテキストのスクリーンショットのような画像にテキストを埋め込むことでモデレーションを回避することができる。 このような悪意のある入力に対する現代のコンテンツモデレーションソフトウェアの性能はいまだ探索されていない。 本稿では,コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークであるOASISを提案する。 OASISは、Twitter、Instagram、Sina Weibo、Baidu Tiebaを含む4つのソーシャルメディアアプリケーションから収集された5000の現実世界の有害コンテンツに関するパイロット研究から要約した21のトランスフォーメーションルールを採用しています。 有毒なテキストの内容から、OASISは画像検査ケースを生成できるが、毒性は保たれるが、モデレーションを回避できる可能性がある。 評価では、OASISを使用して、有名な企業(Google Cloud、Microsoft Azure、Baidu Cloud、Alibaba Cloud、Tencent Cloudなど)の5つの商用テキストコンテンツモデレーションソフトウェアと、最先端のモデレーション調査モデルをテストする。 その結果,oasisは最大100%のエラー検出率を達成した。 さらに、OASISが生成したテストケースでモデルを再トレーニングすることで、性能劣化なしにモデレーションモデルの堅牢性を向上させることができる。

The exponential growth of social media platforms has brought about a revolution in communication and content dissemination in human society. Nevertheless, these platforms are being increasingly misused to spread toxic content, including hate speech, malicious advertising, and pornography, leading to severe negative consequences such as harm to teenagers' mental health. Despite tremendous efforts in developing and deploying textual and image content moderation methods, malicious users can evade moderation by embedding texts into images, such as screenshots of the text, usually with some interference. We find that modern content moderation software's performance against such malicious inputs remains underexplored. In this work, we propose OASIS, a metamorphic testing framework for content moderation software. OASIS employs 21 transform rules summarized from our pilot study on 5,000 real-world toxic contents collected from 4 popular social media applications, including Twitter, Instagram, Sina Weibo, and Baidu Tieba. Given toxic textual contents, OASIS can generate image test cases, which preserve the toxicity yet are likely to bypass moderation. In the evaluation, we employ OASIS to test five commercial textual content moderation software from famous companies (i.e., Google Cloud, Microsoft Azure, Baidu Cloud, Alibaba Cloud and Tencent Cloud), as well as a state-of-the-art moderation research model. The results show that OASIS achieves up to 100% error finding rates. Moreover, through retraining the models with the test cases generated by OASIS, the robustness of the moderation model can be improved without performance degradation.
翻訳日:2023-08-22 19:51:16 公開日:2023-08-18
# VL-PET:粒度制御による視覚・言語パラメータ効率調整

VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity Control ( http://arxiv.org/abs/2308.09804v1 )

ライセンス: Link先を確認
Zi-Yuan Hu, Yanyang Li, Michael R. Lyu, Liwei Wang(参考訳) 事前学習された言語モデル(plm)のモデルサイズが急速に大きくなるにつれて、モデルのトレーニングやストレージには完全な微調整が必須になる。 ビジョン・アンド・ランゲージ(VL)では、モジュール修飾(AdapterやLoRAなど)をエンコーダ・デコーダ PLM に統合するために、パラメータ効率調整(PET)技術が提案されている。 トレーニング可能なパラメータの小さなセットをチューニングすることで、これらのテクニックは完全な微調整と同等に機能する。 しかしながら、過剰なモジュラー修正とエンコーダとデコーダの機能ギャップの無視はパフォーマンスの低下につながる可能性があるが、既存のPET技術(例えばVL-Adapter)はこれらの重要な問題を見逃している。 本稿では,新しい粒度制御機構により,モジュラー修正を効果的に制御するためのVL-PET(Vision-and-Language Parameter-Efficient Tuning)フレームワークを提案する。 この機構によって生成される粒度制御の異なる行列を考えると、モデルに依存しない様々なVL-PETモジュールが我々のフレームワークからインスタンス化され、効率と効率のトレードオフが改善される。 さらに,エンコーダのVLアライメントとモデリングを強化し,デコーダのテキスト生成を維持するために,軽量なPETモジュールの設計を提案する。 4つの画像テキストタスクと4つのビデオテキストタスクで実施された大規模な実験は、VL-PETフレームワークの効率、有効性、転送性を示す。 特に、軽量PETモジュールを設計したVL-PETは、VL-Adapterを2.92%(3.41%)、LoRAを3.37%(7.03%)、BART-base(T5ベース)を画像テキストタスクで大幅に上回っている。 さらに,既存のPET技術に対するVL-PET設計の適用の強化効果を検証し,大幅な性能向上を実現した。 私たちのコードはhttps://github.com/HenryHZY/VL-PETで利用可能です。

As the model size of pre-trained language models (PLMs) grows rapidly, full fine-tuning becomes prohibitively expensive for model training and storage. In vision-and-language (VL), parameter-efficient tuning (PET) techniques are proposed to integrate modular modifications (e.g., Adapter and LoRA) into encoder-decoder PLMs. By tuning a small set of trainable parameters, these techniques perform on par with full fine-tuning. However, excessive modular modifications and neglecting the functionality gap between the encoders and decoders can lead to performance degradation, while existing PET techniques (e.g., VL-Adapter) overlook these critical issues. In this paper, we propose a Vision-and-Language Parameter-Efficient Tuning (VL-PET) framework to impose effective control over modular modifications via a novel granularity-controlled mechanism. Considering different granularity-controlled matrices generated by this mechanism, a variety of model-agnostic VL-PET modules can be instantiated from our framework for better efficiency and effectiveness trade-offs. We further propose lightweight PET module designs to enhance VL alignment and modeling for the encoders and maintain text generation for the decoders. Extensive experiments conducted on four image-text tasks and four video-text tasks demonstrate the efficiency, effectiveness and transferability of our VL-PET framework. In particular, our VL-PET-large with lightweight PET module designs significantly outperforms VL-Adapter by 2.92% (3.41%) and LoRA by 3.37% (7.03%) with BART-base (T5-base) on image-text tasks. Furthermore, we validate the enhanced effect of employing our VL-PET designs on existing PET techniques, enabling them to achieve significant performance improvements. Our code is available at https://github.com/HenryHZY/VL-PET.
翻訳日:2023-08-22 19:50:45 公開日:2023-08-18
# 生物学的データ分類のための二乗馬群最適化アルゴリズムに基づく高次元遺伝子選択法

An Efficient High-Dimensional Gene Selection Approach based on Binary Horse Herd Optimization Algorithm for Biological Data Classification ( http://arxiv.org/abs/2308.09791v1 )

ライセンス: Link先を確認
Niloufar Mehrabi, Sayed Pedram Haeri Boroujeni, Elnaz Pashaei(参考訳) Horse Herd Optimization Algorithm (HOA)は、異なる年齢の馬の行動に基づく新しいメタヒューリスティックアルゴリズムである。 HOAは、複雑で高次元の問題を解決するために最近導入された。 本稿では、離散的な問題を解き、特徴部分集合を選択するために、Horse Herd Optimization Algorithm(BHOA)のバイナリバージョンを提案する。 さらに,本研究では,BHOAと最小冗長最大値(MRMR)フィルタに基づく新しいハイブリッド特徴選択フレームワークを提案する。 このハイブリッドな特徴選択は、より計算的に効率的であり、関連する特徴と情報的特徴の有益なサブセットを生成する。 特徴選択は二元問題であるため、連続的な問題を二元探索空間に変換する X-shape TF と呼ばれる新しい転送関数(TF)を適用した。 さらに,SVM(Support Vector Machine)を用いて,Lymphoma, Prostate, Brain-1, DLBCL, SRBCT, Leukemia, Ovarian, Colon, Lung, MLLの10種類のマイクロアレイデータセットに対して,提案手法の有効性を検討する。 Gray Wolf (GW) や Particle Swarm Optimization (PSO) や Genetic Algorithm (GA) といった他の最先端技術と比較して,提案手法は精度と最小選択特性において優れた性能を示す。 また、実験結果から、X字型BHOAアプローチが他の手法よりも優れていることが証明された。

The Horse Herd Optimization Algorithm (HOA) is a new meta-heuristic algorithm based on the behaviors of horses at different ages. The HOA was introduced recently to solve complex and high-dimensional problems. This paper proposes a binary version of the Horse Herd Optimization Algorithm (BHOA) in order to solve discrete problems and select prominent feature subsets. Moreover, this study provides a novel hybrid feature selection framework based on the BHOA and a minimum Redundancy Maximum Relevance (MRMR) filter method. This hybrid feature selection, which is more computationally efficient, produces a beneficial subset of relevant and informative features. Since feature selection is a binary problem, we have applied a new Transfer Function (TF), called X-shape TF, which transforms continuous problems into binary search spaces. Furthermore, the Support Vector Machine (SVM) is utilized to examine the efficiency of the proposed method on ten microarray datasets, namely Lymphoma, Prostate, Brain-1, DLBCL, SRBCT, Leukemia, Ovarian, Colon, Lung, and MLL. In comparison to other state-of-the-art, such as the Gray Wolf (GW), Particle Swarm Optimization (PSO), and Genetic Algorithm (GA), the proposed hybrid method (MRMR-BHOA) demonstrates superior performance in terms of accuracy and minimum selected features. Also, experimental results prove that the X-Shaped BHOA approach outperforms others methods.
翻訳日:2023-08-22 19:50:07 公開日:2023-08-18
# a/bテストにおけるネットワーク干渉を特徴付ける2部機械学習手法

A Two-Part Machine Learning Approach to Characterizing Network Interference in A/B Testing ( http://arxiv.org/abs/2308.09790v1 )

ライセンス: Link先を確認
Yuan Yuan, Kristen M. Altenburger(参考訳) 制御された実験、または「a/bテスト」の信頼性は、ネットワーク干渉現象によってしばしば損なわれることがある。 そこで本研究では,異種ネットワーク干渉を識別し特徴付ける機械学習手法を提案する。 提案手法は,潜伏する複雑なネットワーク構造を考慮し,既存の文献における2つの大きな制約に対処する「露出マッピング」決定のタスクを自動化し,ネットワーク干渉パターンを反映する最も適切な露光マッピングを確立するために,透明な機械学習モデルを採用する。 提案手法の有効性は,2つの合成実験と,11~2百万人のInstagramユーザを対象とした実世界の大規模テストによるシミュレーションにより検証された。 全体として、当社のアプローチは、ネットワーク干渉の管理とA/Bテスト結果の精度向上のための包括的な自動化ソリューションを提供するだけでなく、ユーザの相互影響やマーケティング戦略の洗練への支援にも光を当てています。

The reliability of controlled experiments, or "A/B tests," can often be compromised due to the phenomenon of network interference, wherein the outcome for one unit is influenced by other units. To tackle this challenge, we propose a machine learning-based method to identify and characterize heterogeneous network interference. Our approach accounts for latent complex network structures and automates the task of "exposure mapping'' determination, which addresses the two major limitations in the existing literature. We introduce "causal network motifs'' and employ transparent machine learning models to establish the most suitable exposure mapping that reflects underlying network interference patterns. Our method's efficacy has been validated through simulations on two synthetic experiments and a real-world, large-scale test involving 1-2 million Instagram users, outperforming conventional methods such as design-based cluster randomization and analysis-based neighborhood exposure mapping. Overall, our approach not only offers a comprehensive, automated solution for managing network interference and improving the precision of A/B testing results, but it also sheds light on users' mutual influence and aids in the refinement of marketing strategies.
翻訳日:2023-08-22 19:49:25 公開日:2023-08-18
# 分離可能な相互作用チャネルを用いた計測モデル

Measurement Models with Separable Interaction Channels ( http://arxiv.org/abs/2308.09785v1 )

ライセンス: Link先を確認
Stan Gudder(参考訳) 測定モデル(MM)は、量子測定理論の最も高い構造レベルにある。 MMは次のレベルに立つ楽器を構築するために使用できる。 観測器は観測可能な状態の計測や更新に使用される機器であると考えられている。 可観測性は依然として次のレベルであり、量子事象の確率を決定するために用いられる。 MMの主な要素は、測定されるシステムとプローブシステムとの間の相互作用チャネル$\nu$である。 一般の$\nu$ に対して、測定されたobservable $a$ は明示的な有用な形式を持たない。 この場合、分離性と呼ばれる$\nu$の条件を導入し、この場合、$A$は明示的な形式を持つ。 $\nu$ が分離可能であるという仮定の下で、積 MM と条件付き MM を研究する。 また、MMの統計と不確実性原理についても検討する。 様々な概念は、l\"udersとholevoの楽器の例を使って示される。

Measurement models (MMs) stand at the highest structural level of quantum measurement theory. MMs can be employed to construct instruments which stand at the next level. An instrument is thought of as an apparatus that is used to measure observables and update states. Observables, which are still at the next level, are used to determine probabilities of quantum events. The main ingredient of an MM is an interaction channel $\nu$ between the system being measured and a probe system. For a general $\nu$, the measured observable $A$ need not have an explicit useful form. In this work we introduce a condition for $\nu$ called separability and in this case $A$ has an explicit form. Under the assumption that $\nu$ is separable, we study product MMs and conditioned MMs. We also consider the statistics of MMs and their uncertainty principle. Various concepts are illustrated using examples of L\"uders and Holevo instruments.
翻訳日:2023-08-22 19:48:50 公開日:2023-08-18
# 多体量子系における絡み合いのダイナミクスと幾何学

Dynamics and Geometry of Entanglement in Many-Body Quantum Systems ( http://arxiv.org/abs/2308.09784v1 )

ライセンス: Link先を確認
Peyman Azodi, Herschel A Rabitz(参考訳) 新しい枠組みは、多体量子系の絡み合い力学と関連する幾何学的記述を研究するために定式化されている。 量子相関伝達関数 (QCTF) と呼ばれるこの定式化では、系の波動関数や密度行列は孤立特異点を持つ複素関数の新しい空間に変換される。 したがって、エンタングルメントダイナミクスはqctfの特定の残差に符号化され、重要なのは、システムの時間依存の明示的な評価を避けることである。 特に、QCTF の定式化は、多体ヒルベルト空間が体数で指数関数的に成長するため、通常の複雑性に対処する様々な代数的単純化と近似を可能にする。 これらの単純化は、システムの状態内にある要素の代わりにパターンを考慮し、容易に行われる。 したがって、本論文の主な発見は、波動関数の対の射影によって任意の基底にまたがるヒルベルト空間内の領域の集合領域としての多体絡みの外部(グラスマン的)代数的表現である。 この後者の幾何測度は2階レニイエントロピーと同値であることが示されている。 さらに、QCTFの幾何学的記述は、減少密度行列の特徴を実験的に観測可能な量に関連付けることができることを示している。 qctfに基づく幾何学的記述は、多体絡み合いの側面を理論的に明らかにする可能性を提供し、幾何学から方法の広い範囲を描いている。

A new framework is formulated to study entanglement dynamics in many-body quantum systems along with an associated geometric description. In this formulation, called the Quantum Correlation Transfer Function (QCTF), the system's wave function or density matrix is transformed into a new space of complex functions with isolated singularities. Accordingly, entanglement dynamics is encoded in specific residues of the QCTF, and importantly, the explicit evaluation of the system's time dependence is avoided. Notably, the QCTF formulation allows for various algebraic simplifications and approximations to address the normally encountered complications due to the exponential growth of the many-body Hilbert space with the number of bodies. These simplifications are facilitated through considering the patterns, in lieu of the elements, lying within the system's state. Consequently, a main finding of this paper is the exterior (Grassmannian) algebraic expression of many-body entanglement as the collective areas of regions in the Hilbert space spanned by pairs of projections of the wave function onto an arbitrary basis. This latter geometric measure is shown to be equivalent to the second-order Renyi entropy. Additionally, the geometric description of the QCTF shows that characterizing features of the reduced density matrix can be related to experimentally observable quantities. The QCTF-based geometric description offers the prospect of theoretically revealing aspects of many-body entanglement, by drawing on the vast scope of methods from geometry.
翻訳日:2023-08-22 19:48:19 公開日:2023-08-18
# ニューラルネットワークのためのテンソル圧縮バックプロパゲーションフリートレーニング

Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed) Neural Networks ( http://arxiv.org/abs/2308.09858v1 )

ライセンス: Link先を確認
Yequan Zhao, Xinling Yu, Zhixiong Chen, Ziyue Liu, Sijia Liu and Zheng Zhang(参考訳) 後方伝播(BP)はニューラルネットワークトレーニングの勾配を計算するために広く用いられている。 しかし,ハードウェアやソフトウェアリソースが不足しているため,エッジデバイス上でbpを実装することは困難である。 これは、オンデバイストレーニングアクセラレータの設計の複雑さと市場投入時間を大幅に増加させた。 本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする完全BPフリーフレームワークを提案する。 私たちの技術貢献は3倍です。 まず,ゼロ次最適化(zo)のスケーラビリティを大幅に向上させるために,テンソル圧縮分散低減手法を提案する。 次に,ZO訓練の効率化を目的としたハイブリッド勾配評価手法を提案する。 最後に、BPを用いずに損失関数の導関数を推定するスパースグリッドアプローチを提案することにより、BPフリートレーニングフレームワークを物理学情報ニューラルネットワーク(PINN)に拡張する。 BPフリートレーニングは、標準の1次トレーニングと比較して、MNISTデータセットではほとんど精度が低下しない。 また,20dim Hamiltonian-Jacobi-Bellman PDEを解くためにPINNのトレーニングに成功した。 このメモリ効率とBPフリーのアプローチは、多くのリソース制約のあるプラットフォーム(FPGA、ASIC、マイクロコントローラ、フォトニックチップなど)における、近い将来のオンデバイストレーニングの基礎となる。

Backward propagation (BP) is widely used to compute the gradients in neural network training. However, it is hard to implement BP on edge devices due to the lack of hardware and software resources to support automatic differentiation. This has tremendously increased the design complexity and time-to-market of on-device training accelerators. This paper presents a completely BP-free framework that only requires forward propagation to train realistic neural networks. Our technical contributions are three-fold. Firstly, we present a tensor-compressed variance reduction approach to greatly improve the scalability of zeroth-order (ZO) optimization, making it feasible to handle a network size that is beyond the capability of previous ZO approaches. Secondly, we present a hybrid gradient evaluation approach to improve the efficiency of ZO training. Finally, we extend our BP-free training framework to physics-informed neural networks (PINNs) by proposing a sparse-grid approach to estimate the derivatives in the loss function without using BP. Our BP-free training only loses little accuracy on the MNIST dataset compared with standard first-order training. We also demonstrate successful results in training a PINN for solving a 20-dim Hamiltonian-Jacobi-Bellman PDE. This memory-efficient and BP-free approach may serve as a foundation for the near-future on-device training on many resource-constraint platforms (e.g., FPGA, ASIC, micro-controllers, and photonic chips).
翻訳日:2023-08-22 19:38:18 公開日:2023-08-18
# LLMは論理的誤りにどの程度影響するか?

How susceptible are LLMs to Logical Fallacies? ( http://arxiv.org/abs/2308.09853v1 )

ライセンス: Link先を確認
Amirreza Payandeh, Dan Pluth, Jordan Hosier, Xuesu Xiao, Vijay K. Gurbani(参考訳) 本稿では,多ラウンド議論におけるLarge Language Models(LLMs)の合理的思考能力について,その論理的推論性能に対する誤った議論の影響について検討する。 具体的には,論理能力測定ベンチマーク(logicom, logic competence measurement benchmark)を提案する。 logicomには2つのエージェントが含まれている: 説得者と議論者が議論の的となっている話題について複数回議論し、説得者はその主張の正しさを議論者に納得させようとする。 まず、LOGICOMはLLMが推論によって意見を変える可能性を評価する。 そして、説得者が論理的誤用を用いるシナリオと論理的推論が使用されるシナリオとを対比して、論理的推論におけるディベートの性能を評価する。 本稿では,GPT-3.5 と GPT-4 のパフォーマンスを評価するために,議論の的となっているトピック,クレーム,それを支持する理由を含むデータセットを用いて評価を行った。 以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。 しかし, GPT-3.5 と GPT-4 は, 論理的推論を用いた場合と比較して, それぞれ 41% と 69% の確率で誤認される。 最後に、5k以上の論理対と誤対の引数を含む新しいデータセットを導入する。 この作業のソースコードとデータセットが公開されている。

This paper investigates the rational thinking capability of Large Language Models (LLMs) in multi-round argumentative debates by exploring the impact of fallacious arguments on their logical reasoning performance. More specifically, we present Logic Competence Measurement Benchmark (LOGICOM), a diagnostic benchmark to assess the robustness of LLMs against logical fallacies. LOGICOM involves two agents: a persuader and a debater engaging in a multi-round debate on a controversial topic, where the persuader tries to convince the debater of the correctness of its claim. First, LOGICOM assesses the potential of LLMs to change their opinions through reasoning. Then, it evaluates the debater's performance in logical reasoning by contrasting the scenario where the persuader employs logical fallacies against one where logical reasoning is used. We use this benchmark to evaluate the performance of GPT-3.5 and GPT-4 using a dataset containing controversial topics, claims, and reasons supporting them. Our findings indicate that both GPT-3.5 and GPT-4 can adjust their opinion through reasoning. However, when presented with logical fallacies, GPT-3.5 and GPT-4 are erroneously convinced 41% and 69% more often, respectively, compared to when logical reasoning is used. Finally, we introduce a new dataset containing over 5k pairs of logical vs. fallacious arguments. The source code and dataset of this work are made publicly available.
翻訳日:2023-08-22 19:37:55 公開日:2023-08-18
# 神経活動分布の補正によるバックドア緩和

Backdoor Mitigation by Correcting the Distribution of Neural Activations ( http://arxiv.org/abs/2308.09850v1 )

ライセンス: Link先を確認
Xi Li, Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する重要な敵攻撃であり、攻撃者のバックドアトリガーが存在するたびに、テストインスタンスは攻撃者のターゲットクラスに(ミス)分類される。 本稿では,バックドア攻撃の重要な特性を明らかにするとともに解析する。攻撃の成功は,クリーンインスタンスと比較して,バックドアトリガーインスタンスの内部レイヤアクティベーションの分布に変化をもたらす。 さらに重要なのは、この分散変更が修正されれば、バックドアトリガを持つインスタンスが元のソースクラスに正しく分類されることです。 本研究は, 逆発振器による分布変化を補正し, 学習後のバックドア緩和を効果的かつ効果的に行う手法を提案する。 特に,本手法はDNNのトレーニング可能なパラメータを一切変更しないが,DNNパラメータの集中的なチューニングを必要とする既存手法よりも,全般的に優れた緩和性能を実現する。 また、トリガーでテストインスタンスを効率的に検出し、バックドアを悪用する行為で敵エンティティをキャッチするのに役立ちます。

Backdoor (Trojan) attacks are an important type of adversarial exploit against deep neural networks (DNNs), wherein a test instance is (mis)classified to the attacker's target class whenever the attacker's backdoor trigger is present. In this paper, we reveal and analyze an important property of backdoor attacks: a successful attack causes an alteration in the distribution of internal layer activations for backdoor-trigger instances, compared to that for clean instances. Even more importantly, we find that instances with the backdoor trigger will be correctly classified to their original source classes if this distribution alteration is corrected. Based on our observations, we propose an efficient and effective method that achieves post-training backdoor mitigation by correcting the distribution alteration using reverse-engineered triggers. Notably, our method does not change any trainable parameters of the DNN, but achieves generally better mitigation performance than existing methods that do require intensive DNN parameter tuning. It also efficiently detects test instances with the trigger, which may help to catch adversarial entities in the act of exploiting the backdoor.
翻訳日:2023-08-22 19:37:31 公開日:2023-08-18
# 確率的保証付きディープニューラルネットワークにおける安全領域の列挙

Enumerating Safe Regions in Deep Neural Networks with Provable Probabilistic Guarantees ( http://arxiv.org/abs/2308.09842v1 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Enrico Marchesini, Alessandro Farinelli and Ferdinando Cicalese(参考訳) 安全な領域を特定することは、ディープニューラルネットワーク(DNN)に基づくシステムの信頼性を保証する重要なポイントである。 この目的のために、安全プロパティとDNNが与えられた場合、安全であるプロパティ入力領域のすべての領域の集合を列挙する、すなわち、そのプロパティが保持される場所を列挙する。 この問題の #P-hardness のため,epsilon-ProVe と呼ばれる効率的な近似法を提案する。 本手法は,許容限界の統計的予測によって得られる出力到達可能集合の制御可能な過小評価を活用し,安全領域の厳密な(確率的保証の可能な)推定を提供する。 異なる標準ベンチマークに対する実証的な評価は、我々の手法のスケーラビリティと有効性を示し、この新しいタイプのDNNの検証に有用な洞察を提供する。

Identifying safe areas is a key point to guarantee trust for systems that are based on Deep Neural Networks (DNNs). To this end, we introduce the AllDNN-Verification problem: given a safety property and a DNN, enumerate the set of all the regions of the property input domain which are safe, i.e., where the property does hold. Due to the #P-hardness of the problem, we propose an efficient approximation method called epsilon-ProVe. Our approach exploits a controllable underestimation of the output reachable sets obtained via statistical prediction of tolerance limits, and can provide a tight (with provable probabilistic guarantees) lower estimate of the safe areas. Our empirical evaluation on different standard benchmarks shows the scalability and effectiveness of our method, offering valuable insights for this new type of verification of DNNs.
翻訳日:2023-08-22 19:37:12 公開日:2023-08-18
# 点および形状正規化データ合成による顕微鏡画像のセグメンテーション

Microscopy Image Segmentation via Point and Shape Regularized Data Synthesis ( http://arxiv.org/abs/2308.09835v1 )

ライセンス: Link先を確認
Shijie Li, Mengwei Ren, Thomas Ach, Guido Gerig(参考訳) 現在の深層学習に基づく顕微鏡画像のセグメンテーション手法は,高度なアノテーションを用いた大量のトレーニングデータに大きく依存している。 オブジェクトの完全な輪郭が描かれる完全なアノテーションに比べ、ポイントアノテーション、特にオブジェクトセントロイドは、取得がずっと簡単で、その後のセグメンテーションのための重要な情報を提供する。 本稿では,訓練中のみ点アノテーションへのアクセスを想定し,合成学習データを用いた顕微鏡画像分割のための統一パイプラインを開発する。 提案手法は,(1)ポイントアノテーションを取り,形状に制約のある擬似高密度セグメンテーションマスクをサンプリングする,(2)非対向的に訓練された画像生成モデルを用いて,オブジェクトレベルの一貫性によって正規化された現実的な顕微鏡画像に変換する,(3)合成画像と共に擬似マスクをペアワイズデータセットとしてアドホックセグメンテーションモデルを訓練する,の3段階を含む。 一般のmonusegデータセットでは,入力マスクと生成画像との一貫性を維持しつつ,ベースラインモデルよりも多様で現実的な画像を生成する。 同じセグメンテーションバックボーンを使用する場合、我々の合成データセットでトレーニングされたモデルは、擬似ラベルやベースライン生成画像でトレーニングされたモデルよりも大幅に優れている。 さらに,本フレームワークは,高密度ラベルを用いた実写顕微鏡画像の訓練モデルと比較し,顕微鏡画像セグメント化における作業集約的手動ピクセルワイドアノテーションの信頼性と高効率な代替手段としての可能性を示した。 コードは利用可能です。

Current deep learning-based approaches for the segmentation of microscopy images heavily rely on large amount of training data with dense annotation, which is highly costly and laborious in practice. Compared to full annotation where the complete contour of objects is depicted, point annotations, specifically object centroids, are much easier to acquire and still provide crucial information about the objects for subsequent segmentation. In this paper, we assume access to point annotations only during training and develop a unified pipeline for microscopy image segmentation using synthetically generated training data. Our framework includes three stages: (1) it takes point annotations and samples a pseudo dense segmentation mask constrained with shape priors; (2) with an image generative model trained in an unpaired manner, it translates the mask to a realistic microscopy image regularized by object level consistency; (3) the pseudo masks along with the synthetic images then constitute a pairwise dataset for training an ad-hoc segmentation model. On the public MoNuSeg dataset, our synthesis pipeline produces more diverse and realistic images than baseline models while maintaining high coherence between input masks and generated images. When using the identical segmentation backbones, the models trained on our synthetic dataset significantly outperform those trained with pseudo-labels or baseline-generated images. Moreover, our framework achieves comparable results to models trained on authentic microscopy images with dense labels, demonstrating its potential as a reliable and highly efficient alternative to labor-intensive manual pixel-wise annotations in microscopy image segmentation. The code is available.
翻訳日:2023-08-22 19:36:57 公開日:2023-08-18
# 非剛構造モデルを用いた教師なし3次元ポーズ推定

Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion Modeling ( http://arxiv.org/abs/2308.10705v1 )

ライセンス: Link先を確認
Haorui Ji, Hui Deng, Yuchao Dai, Hongdong Li(参考訳) 従来の3次元ポーズ推定作業のほとんどは、トレーニングデータから適切な2D-3Dマッピングを得るために、ネットワークの強力なメモリ能力に依存していた。 動作中の人間の姿勢変形のモデル化を研究した研究は少ない。 本稿では,人間のポーズ変形の新しいモデリング手法を提案し,それに伴う拡散に基づく動きを事前に設計する。 非剛体構造の運動場に着想を得て、3次元人体骨格を運動で再構築するタスクを3次元基準骨格の推定とフレーム・バイ・フレームの骨格変形に分割した。 混合時空間NASfMformerを用いて、2次元観察シーケンスから各フレームの3次元基準骨格と骨格変形を同時に推定し、合計して各フレームのポーズを得る。 その後、拡散モデルに基づく損失項を使用して、パイプラインが正しい事前動作知識を学習することを保証する。 最後に,本提案手法をメインストリームデータセット上で評価し,最新技術よりも優れた結果を得た。

Most of the previous 3D human pose estimation work relied on the powerful memory capability of the network to obtain suitable 2D-3D mappings from the training data. Few works have studied the modeling of human posture deformation in motion. In this paper, we propose a new modeling method for human pose deformations and design an accompanying diffusion-based motion prior. Inspired by the field of non-rigid structure-from-motion, we divide the task of reconstructing 3D human skeletons in motion into the estimation of a 3D reference skeleton, and a frame-by-frame skeleton deformation. A mixed spatial-temporal NRSfMformer is used to simultaneously estimate the 3D reference skeleton and the skeleton deformation of each frame from 2D observations sequence, and then sum them to obtain the pose of each frame. Subsequently, a loss term based on the diffusion model is used to ensure that the pipeline learns the correct prior motion knowledge. Finally, we have evaluated our proposed method on mainstream datasets and obtained superior results outperforming the state-of-the-art.
翻訳日:2023-08-22 13:29:50 公開日:2023-08-18
# LibreFace: 深層表情解析のためのオープンソースツールキット

LibreFace: An Open-Source Toolkit for Deep Facial Expression Analysis ( http://arxiv.org/abs/2308.10713v1 )

ライセンス: Link先を確認
Di Chang, Yufeng Yin, Zongjian Li, Minh Tran, Mohammad Soleymani(参考訳) 表情解析は人間とコンピュータの相互作用にとって重要なツールである。 本稿では,表情解析のためのオープンソースのツールキットLibreFaceを紹介する。 このオープンソースのツールボックスは、顔認識ユニット(AU)検出、AU強度推定、表情認識など、ディープラーニングモデルによる顔の動作のリアルタイムおよびオフライン分析を提供する。 これを実現するために, 大規模事前学習ネットワークの利用, 機能的知識蒸留, タスク固有の微調整など, 様々な手法を応用した。 これらの手法は,視覚情報を利用して表情を効果的かつ正確に分析し,リアルタイム対話型アプリケーションの実装を容易にする。 動作単位(au)の強度推定では、openface 2.0の性能よりも7%高いdisfa上のパーソン相関係数(pcc) 0.63 を達成し、openface 2.0よりも2倍高速に動作する高い効率の推論を維持した。 コンパクトであるにもかかわらず,AffecNet,FFHQ,RAFDB上での最先端の表情解析手法と競合する性能を示す。 私たちのコードはhttps://github.com/ihp-lab/LibreFaceでリリースされます。

Facial expression analysis is an important tool for human-computer interaction. In this paper, we introduce LibreFace, an open-source toolkit for facial expression analysis. This open-source toolbox offers real-time and offline analysis of facial behavior through deep learning models, including facial action unit (AU) detection, AU intensity estimation, and facial expression recognition. To accomplish this, we employ several techniques, including the utilization of a large-scale pre-trained network, feature-wise knowledge distillation, and task-specific fine-tuning. These approaches are designed to effectively and accurately analyze facial expressions by leveraging visual information, thereby facilitating the implementation of real-time interactive applications. In terms of Action Unit (AU) intensity estimation, we achieve a Pearson Correlation Coefficient (PCC) of 0.63 on DISFA, which is 7% higher than the performance of OpenFace 2.0 while maintaining highly-efficient inference that runs two times faster than OpenFace 2.0. Despite being compact, our model also demonstrates competitive performance to state-of-the-art facial expression analysis methods on AffecNet, FFHQ, and RAFDB. Our code will be released at https://github.com/ihp-lab/LibreFace
翻訳日:2023-08-22 13:17:21 公開日:2023-08-18
# アクションと言語によるエージェントコミュニケーションと学習の促進

Enhancing Agent Communication and Learning through Action and Language ( http://arxiv.org/abs/2308.10842v1 )

ライセンス: Link先を確認
Caselles-Dupr\'e Hugo, Sigaud Olivier, Chetouani Mohamed(参考訳) 教師と学習者の両方として機能するgcエージェントの新たなカテゴリを提案する。 アクションベースのデモンストレーションと言語ベースの命令を活用することで、これらのエージェントはコミュニケーション効率を高める。 教育学とプラグマティズム,人間のコミュニケーションと目標達成に不可欠な要素,エージェントの指導と学習能力の向上について検討した。 さらに,コミュニケーションモード(行動と言語)の組み合わせが学習結果に与える影響についても検討し,マルチモーダルアプローチのメリットを強調した。

We introduce a novel category of GC-agents capable of functioning as both teachers and learners. Leveraging action-based demonstrations and language-based instructions, these agents enhance communication efficiency. We investigate the incorporation of pedagogy and pragmatism, essential elements in human communication and goal achievement, enhancing the agents' teaching and learning capabilities. Furthermore, we explore the impact of combining communication modes (action and language) on learning outcomes, highlighting the benefits of a multi-modal approach.
翻訳日:2023-08-22 12:39:54 公開日:2023-08-18
# FunQuant: レアイベントと時間的シミュレーションのコンテキストで量子化を実行するRパッケージ

FunQuant: A R package to perform quantization in the context of rare events and time-consuming simulations ( http://arxiv.org/abs/2308.10871v1 )

ライセンス: Link先を確認
Charlie Sire and Yann Richet and Rodolphe Le Riche and Didier Rulli\`ere and J\'er\'emy Rohmer and Lucie Pheulpin(参考訳) 量子化は離散近似を計算することによって連続分布を要約する。 データ量子化の手法として広く採用されているのがロイドのアルゴリズムであり、空間をクラスタと見なすことができる vorono\"i 細胞に分割し、その中心体と確率的質量に基づく離散分布を構築する。 ロイドのアルゴリズムは、最小距離感覚で最適なセンチロイドを推定するが、このアプローチは、データ評価がコストがかかり、まれな事象と関連するシナリオにおいて重大な課題をもたらす。 そして、すべての事象に関連する単一のクラスタが確率質量の過半数を取る。 この文脈では、メタモデルが必要であり、まれなクラスタ上の計算の精度を高めるために、適応したサンプリング手法が必要である。

Quantization summarizes continuous distributions by calculating a discrete approximation. Among the widely adopted methods for data quantization is Lloyd's algorithm, which partitions the space into Vorono\"i cells, that can be seen as clusters, and constructs a discrete distribution based on their centroids and probabilistic masses. Lloyd's algorithm estimates the optimal centroids in a minimal expected distance sense, but this approach poses significant challenges in scenarios where data evaluation is costly, and relates to rare events. Then, the single cluster associated to no event takes the majority of the probability mass. In this context, a metamodel is required and adapted sampling methods are necessary to increase the precision of the computations on the rare clusters.
翻訳日:2023-08-22 12:29:56 公開日:2023-08-18
# 実ハードウェア上での動的量子回路を用いたハイブリッドHHL

Hybrid HHL with Dynamic Quantum Circuits on Real Hardware ( http://arxiv.org/abs/2110.15958v5 )

ライセンス: Link先を確認
Romina Yalovetzky, Pierre Minssen, Dylan Herman, Marco Pistoia(参考訳) 近年,量子状態に符号化されたベクトルに適用される基本線形代数演算を高速化する量子アルゴリズムが開発されている。 残念なことに、量子線形系解法の大部分のコンポーネントは、ノイズの多い中間スケールの量子デバイスには程遠い。 これにより、実際の量子ハードウェア上ですべてのコンポーネントをベンチマークする小さな実験を作成できない。 この研究は、より小さな量子デバイスに適しているHarrow-Hassidim-Lloyd (HHL)アルゴリズムのハイブリッド版を推し進める。 まず、中間回路計測、量子ビットのリセットと再利用、量子条件論理などの動的量子回路の実装に、新たに利用可能な量子ハードウェア機能を活用することにより、固有値推定成分の回路複雑性を低減する。 第二に,固有値推定がより正確になるように線形系行列をスケールする方法を提案する。 このアルゴリズムをポートフォリオ最適化問題に適用し,量子量子量子コンピュータh1-2でエンドツーエンドに実行することにより,これらのハイブリッドhhl強化の有効性を実証的に実証する。 最後に,ハイブリッドhhlの利用が有用である場合の固有値反転に対する様々なアプローチの比較分析を行った。

In recent years, quantum algorithms have been developed for accelerating basic linear algebraic operations applied to vectors encoded in quantum states. Unfortunately, the majority of the components of quantum linear system solvers are far out of the reach of noisy intermediate-scale quantum devices. This precludes the ability to produce small-scale experiments for benchmarking all the components on real quantum hardware. This work advances a hybrid variant of the Harrow-Hassidim-Lloyd (HHL) algorithm that is more suitable for small quantum devices. First, we reduce the circuit complexity of the eigenvalue estimation component by leveraging newly available quantum-hardware features for implementing dynamic quantum circuits, such as mid-circuit measurements, qubit reset and reuse, and quantum conditional logic. Second, we introduce a novel method for scaling the linear-system matrix such that the eigenvalue estimation is more accurate. We empirically demonstrate the effectiveness of these Hybrid HHL enhancements by applying this algorithm to small portfolio optimization problems, executed end-to-end on the Quantinuum System Model H1-2 trapped-ion quantum computer. Lastly, we present a comparative analysis of the various approaches for eigenvalue inversion to better understand when it is beneficial to utilize Hybrid HHL.
翻訳日:2023-08-22 01:56:28 公開日:2023-08-18
# ガウス過程の混合による能動学習のための局所関数複雑性

Local Function Complexity for Active Learning via Mixture of Gaussian Processes ( http://arxiv.org/abs/1902.10664v5 )

ライセンス: Link先を確認
Danny Panknin, Stefan Chmiela, Klaus-Robert M\"uller, Shinichi Nakajima(参考訳) 実世界のデータにおける不均一性(例えば観測ノイズレベルの変化やソース関数の構造的複雑性の変化)は、統計的推論にユニークな課題をもたらす。 彼らに対する会計は、物理資源や計算時間が制限された場合の予測能力を大幅に向上させることができる。 本稿では,局所多項式平滑化 (lps) の領域から導出した局所関数複雑性 (lfc) の推定について, モデル非依存アクティブラーニング (al) フレームワークの開発に用いられる局所構造複雑性の概念を確立するための最近の理論結果について述べる。 点推定に依存しているため、LPSモデルクラスは実世界の問題に付随する大きな入力空間次元に関して堅牢でスケーラブルではない。 ここでは、LPSベースのLFCのガウス過程回帰(GPR)に基づくアナログを導出、推定し、上記フレームワークの代用として使用し、堅牢でスケーラブルにする。 我々は, 有機分子の量子化学力場を再構築し, トレーニング要求を大幅に減らし, 最先端性能を実証する上で, 実世界の課題に取り組む前に, 原型低次元合成データセットを用いたAL応用におけるLFC推定の有効性を評価する。

Inhomogeneities in real-world data, e.g., due to changes in the observation noise level or variations in the structural complexity of the source function, pose a unique set of challenges for statistical inference. Accounting for them can greatly improve predictive power when physical resources or computation time is limited. In this paper, we draw on recent theoretical results on the estimation of local function complexity (LFC), derived from the domain of local polynomial smoothing (LPS), to establish a notion of local structural complexity, which is used to develop a model-agnostic active learning (AL) framework. Due to its reliance on pointwise estimates, the LPS model class is not robust and scalable concerning large input space dimensions that typically come along with real-world problems. Here, we derive and estimate the Gaussian process regression (GPR)-based analog of the LPS-based LFC and use it as a substitute in the above framework to make it robust and scalable. We assess the effectiveness of our LFC estimate in an AL application on a prototypical low-dimensional synthetic dataset, before taking on the challenging real-world task of reconstructing a quantum chemical force field for a small organic molecule and demonstrating state-of-the-art performance with a significantly reduced training demand.
翻訳日:2023-08-22 01:54:32 公開日:2023-08-18
# 不完全な情報集約型ゲームにおける一般化帯域制限最小化フレームワーク

Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game ( http://arxiv.org/abs/2203.05920v4 )

ライセンス: Link先を確認
Linjian Meng, Yang Gao(参考訳) レグレット最小化法は、2プレイヤーゼロサム不完全情報広義ゲーム(IIEG)における近似ナッシュ均衡(NE)を学習するための強力なツールである。 我々は,IIEGのダイナミクスを知らない対話型バンディットフィードバック設定における問題を考察する。 一般に、対話的軌道と到達した終端ノード値$v(z^t)$のみを明らかにする。 neを学ぶには、完全フィードバック損失勾配 $\ell^t$ by $v(z^t)$ を推定し、後悔を最小限に抑える必要がある。 本稿では,この学習設定のための一般化フレームワークを提案する。 これは、バンディット後悔最小化法の設計とモジュラー解析のための理論的枠組みを示す。 我々は、最新のbandit regretの最小化手法を、フレームワークの特定のケースとして分析できることを実証する。 この枠組みに従って、近似NEを学習するための新しいSIX-OMD法について述べる。 モデルフリーであり、$O(\sqrt{X B/T}+\sqrt{Y C/T})$から$O(\sqrt{M_{\mathcal{X}}/T} +\sqrt{M_{\mathcal{Y}}/T})$までの最良の収束率を大幅に改善する。 さらに、SIX-OMDは、サンプリングされた軌道に沿ってのみ現在の戦略と平均戦略更新を実行する必要があるため、計算的に効率的である。

Regret minimization methods are a powerful tool for learning approximate Nash equilibrium (NE) in two-player zero-sum imperfect information extensive-form games (IIEGs). We consider the problem in the interactive bandit-feedback setting where we don't know the dynamics of the IIEG. In general, only the interactive trajectory and the reached terminal node value $v(z^t)$ are revealed. To learn NE, the regret minimizer is required to estimate the full-feedback loss gradient $\ell^t$ by $v(z^t)$ and minimize the regret. In this paper, we propose a generalized framework for this learning setting. It presents a theoretical framework for the design and the modular analysis of the bandit regret minimization methods. We demonstrate that the most recent bandit regret minimization methods can be analyzed as a particular case of our framework. Following this framework, we describe a novel method SIX-OMD to learn approximate NE. It is model-free and extremely improves the best existing convergence rate from the order of $O(\sqrt{X B/T}+\sqrt{Y C/T})$ to $O(\sqrt{ M_{\mathcal{X}}/T} +\sqrt{ M_{\mathcal{Y}}/T})$. Moreover, SIX-OMD is computationally efficient as it needs to perform the current strategy and average strategy updates only along the sampled trajectory.
翻訳日:2023-08-22 01:48:06 公開日:2023-08-18
# 確率ブロックモデルに対する差分私的コミュニティ検出

Differentially Private Community Detection for Stochastic Block Models ( http://arxiv.org/abs/2202.00636v2 )

ライセンス: Link先を確認
Mohamed Seif, Dung Nguyen, Anil Vullikanti, Ravi Tandon(参考訳) グラフ上のコミュニティ検出の目標は、ユーザ間の接続性(グラフの隣接行列で表される)によって、ユーザの基礎となるラベル/属性(例えば、政治的関連)を回復することである。 確率ブロックモデル (SBM) からグラフを生成する際に, コミュニティ検出の基本的な限界を理解するための重要な進歩があった。 具体的には、SBMに対して、コミュニティ内およびコミュニティ間接続確率を表す$p$と$q$の関数として、鋭い情報理論の限界と効率的なアルゴリズムが得られた。 本稿では,頂点間の個々の接続(エッジ)のプライバシを保ちながら,コミュニティ検出問題について検討する。 我々は、$(\epsilon, \delta)$-edge differential privacy (dp)の概念に着目し、$(p, q)$, dp budget $(\epsilon, \delta)$, and computational efficiency for exact recovery of the community labels という基本的なトレードオフを理解しようとしている。 この目的のために,我々は3種類の異なる個人的コミュニティ・リカバリメカニズムについて,関連する情報理論上のトレードオフを提示・分析する。 a) 安定性に基づく機構 b) サンプリングに基づく機構,及び c) グラフ摂動機構 主な発見は、安定性とサンプリングに基づくメカニズムによって、$(p,q)$とプライバシ予算$(\epsilon, \delta)$の間の優れたトレードオフがもたらされるということです。 一方、複雑さの低いグラフ摂動機構では、正確なリカバリのために、プライバシー予算$\epsilon$を$\Omega(\log(n))$にスケールする必要がある。 私たちの知る限りでは、これはコミュニティ検出の基本的な限界に対するプライバシー制約の影響を研究する最初の研究である。

The goal of community detection over graphs is to recover underlying labels/attributes of users (e.g., political affiliation) given the connectivity between users (represented by adjacency matrix of a graph). There has been significant recent progress on understanding the fundamental limits of community detection when the graph is generated from a stochastic block model (SBM). Specifically, sharp information theoretic limits and efficient algorithms have been obtained for SBMs as a function of $p$ and $q$, which represent the intra-community and inter-community connection probabilities. In this paper, we study the community detection problem while preserving the privacy of the individual connections (edges) between the vertices. Focusing on the notion of $(\epsilon, \delta)$-edge differential privacy (DP), we seek to understand the fundamental tradeoffs between $(p, q)$, DP budget $(\epsilon, \delta)$, and computational efficiency for exact recovery of the community labels. To this end, we present and analyze the associated information-theoretic tradeoffs for three broad classes of differentially private community recovery mechanisms: a) stability based mechanism; b) sampling based mechanisms; and c) graph perturbation mechanisms. Our main findings are that stability and sampling based mechanisms lead to a superior tradeoff between $(p,q)$ and the privacy budget $(\epsilon, \delta)$; however this comes at the expense of higher computational complexity. On the other hand, albeit low complexity, graph perturbation mechanisms require the privacy budget $\epsilon$ to scale as $\Omega(\log(n))$ for exact recovery. To the best of our knowledge, this is the first work to study the impact of privacy constraints on the fundamental limits for community detection.
翻訳日:2023-08-22 01:46:08 公開日:2023-08-18
# 等角タイトフレームからのエントロピー不確かさ関係とその応用

Entropic uncertainty relations from equiangular tight frames and their applications ( http://arxiv.org/abs/2112.12375v4 )

ライセンス: Link先を確認
Alexey E. Rastegin(参考訳) 有限タイトフレームは量子情報の質問を含む様々なトピックで興味深い。 それぞれの複素強フレームはヒルベルト空間の恒等性の分解につながる。 対称情報完全測定は、特別な等角タイトフレームのクラスである。 量子物理学におけるそのようなフレームの応用は、得られるものよりも注目に値する。 等角的タイトフレームに割り当てられた量子測度に対する不確実性関係を導出する。 主な結果は一致の指標の推定によるものである。 状態依存型と状態依存型の両方に対処する。 また, 絡み合いなどの相関を検出するために, 考慮された測定の応用について検討する。

Finite tight frames are interesting in various topics including questions of quantum information. Each complex tight frame leads to a resolution of the identity in the Hilbert space. Symmetric informationally complete measurements are a special class of equiangular tight frames. Applications of such frames in quantum physics deserve more attention than they have obtained. We derive uncertainty relations for a quantum measurement assigned to an equiangular tight frame. Main results follow from estimation of the corresponding index of coincidence. State-dependent and state-independent formulations are both addressed. Also, we discuss applications of considered measurements to detect entanglement and other correlations.
翻訳日:2023-08-22 01:45:16 公開日:2023-08-18
# 閉じ込められたイオン量子コンピュータのための簡易M{\o}lmer-S{\o}rensenゲート

A simplified M{\o}lmer-S{\o}rensen gate for the trapped ion quantum computer ( http://arxiv.org/abs/2112.07855v2 )

ライセンス: Link先を確認
Hiroo Azuma(参考訳) トラップされたイオン量子コンピュータで使用されるMolmer-Sorensen(MS)ゲートの簡易化について論じる。 元のMSゲートは、2つのイオンを2つの二色コヒーレント光電場を同時に照射することで実装され、合計4ビームのレーザー光を必要とする。 本稿では, 単色コヒーレント光電場を個別に照射することにより, 2つのイオンの分離可能な状態をベル状態の1つに変換する方法を提案する。 したがって,レーザ光のビームは2本しか必要とせず,この点が元のMSゲートよりも有利である。 単純化したMSゲートは,従来のMSゲートと比較してほぼ等価な特性,実行時間の長さ,およびフォノンの熱ゆらぎによるロバスト性を示す。 絡み合いを発生できるが熱ゆらぎに弱い単純な2イオンゲートの別の例を挙げることで、単純化したMSゲートが通常のゲートよりもマークされていることを示す。

We discuss how to simplify the Molmer-Sorensen (MS) gate which is used for the trapped ion quantum computer. The original MS gate is implemented by illuminating two ions with bichromatic coherent light fields separately at the same time, so that it requires four beams of laser light in total. In this paper, we propose a method for transforming a separable state of two ions into one of the Bell states by illuminating the two ions with monochromatic coherent light fields individually. Thus, our method requires only two beams of laser light in total and this point is the advantage over the original MS gate. Our simplified MS gate shows nearly equivalent characteristics, the length of the execution time and the robustness under thermal fluctuations of phonons, compared to the original MS gate. By giving another example of a simple two-ion gate that can generate entanglement but is vulnerable to thermal fluctuations, we show that our simplified MS gate is more marked than usual ones.
翻訳日:2023-08-22 01:44:35 公開日:2023-08-18
# rocoursenet:予測を考慮したリコースモデルの分布的ロバストなトレーニング

RoCourseNet: Distributionally Robust Training of a Prediction Aware Recourse Model ( http://arxiv.org/abs/2206.00700v2 )

ライセンス: Link先を確認
Hangzhi Guo, Feiran Jia, Jinghui Chen, Anna Squicciarini, Amulya Yadav(参考訳) 機械学習(ML)モデルに対する対実的(CF)説明は、予測結果に悪影響を及ぼした個人に対して、リコース(あるいは対照的な)ケースを提供することによってMLモデルの予測を説明するため、エンドユーザーによって好まれる。 既存のcf説明手法は、基盤となるターゲットmlモデルが時間とともに静止していると仮定して、リコースを生成する。 しかしながら、トレーニングデータの分散シフトが一般的に発生するため、mlモデルは常に更新されるため、従来生成されたリコースを無効にすることで、アルゴリズムフレームワークに対するエンドユーザの信頼を損なう可能性がある。 この問題に対処するために,将来のデータシフトにロバストな予測とリコースを共同で最適化するトレーニングフレームワークであるrocoursenetを提案する。 1) ロバストなリコース生成問題を2つのサブ問題からなる三段階最適化問題として定式化する。 (i)訓練データにおける最悪の敵意変化を見出す二段階問題、及び (ii)この最悪のケースシフトに対してロバストなリコースを生成するための外的最小化問題。 2) この三段階最適化問題を解決するために, 逆訓練を利用する。 i)トレーニングデータセットの最悪のデータシフトを明示的に考慮し、最悪のMLモデルを見つけるために、新しい仮想データシフト(VDS)アルゴリズムを提案する。 (ii)予測と対応するロバストなリコースを最適化するブロック回りの座標降下手順。 3) 3つの実世界のデータセット上でのrocoursenetの性能を評価し,ロコースネットが一貫して96%強固な妥当性を達成し,ロバストなcf説明の生成において,最先端のベースラインを少なくとも10%上回っていることを示す。 (4) 最後に,rocoursenetフレームワークを一般化し,ロバストな妥当性向上のためのパラメトリックポストホック法に対応する。

Counterfactual (CF) explanations for machine learning (ML) models are preferred by end-users, as they explain the predictions of ML models by providing a recourse (or contrastive) case to individuals who are adversely impacted by predicted outcomes. Existing CF explanation methods generate recourses under the assumption that the underlying target ML model remains stationary over time. However, due to commonly occurring distributional shifts in training data, ML models constantly get updated in practice, which might render previously generated recourses invalid and diminish end-users trust in our algorithmic framework. To address this problem, we propose RoCourseNet, a training framework that jointly optimizes predictions and recourses that are robust to future data shifts. This work contains four key contributions: (1) We formulate the robust recourse generation problem as a tri-level optimization problem which consists of two sub-problems: (i) a bi-level problem that finds the worst-case adversarial shift in the training data, and (ii) an outer minimization problem to generate robust recourses against this worst-case shift. (2) We leverage adversarial training to solve this tri-level optimization problem by: (i) proposing a novel virtual data shift (VDS) algorithm to find worst-case shifted ML models via explicitly considering the worst-case data shift in the training dataset, and (ii) a block-wise coordinate descent procedure to optimize for prediction and corresponding robust recourses. (3) We evaluate RoCourseNet's performance on three real-world datasets, and show that RoCourseNet consistently achieves more than 96% robust validity and outperforms state-of-the-art baselines by at least 10% in generating robust CF explanations. (4) Finally, we generalize the RoCourseNet framework to accommodate any parametric post-hoc methods for improving robust validity.
翻訳日:2023-08-22 01:38:40 公開日:2023-08-18
# yiddish (複数形 yiddishs)

A Part-of-Speech Tagger for Yiddish ( http://arxiv.org/abs/2204.01175v2 )

ライセンス: Link先を確認
Seth Kulick, Neville Ryant, Beatrice Santorini, Joel Wallenberg, Assaf Urieli(参考訳) 本稿では,Yiddishのための音声タグの構築と評価について述べる。 これは、言語研究のためにYiddishテキストに音声タグと構文構造を自動的に割り当てる大規模なプロジェクトの第一歩である。 現在の作業には、Penn Parsed Corpus of Historical Yiddish(PPCHY)の80Kワードサブセットと、Yiddish Book Center(YBC)のOCRのYiddishテキストの6億5000万ワードという2つのリソースを組み合わせています。 YBCコーパスのYiddish正書法にはスペルの不整合が多数あり、YBCで訓練された単純な非コンテクスト化埋め込みでさえ、最初のコーパスを「標準化」することなく、スペル変種間の関係を捉えることができることを示す証拠がいくつかある。 また,ybcを,ppchy上で訓練および評価したタガーモデルに統合した,同軸埋め込みの継続事前学習にも用いる。 10倍のクロスバリデーションスプリットにおけるタガー性能を評価し,コンテキスト化埋め込みにおけるybcテキストの使用によりタガー性能が向上することを示す。 最後に,アノテーション付きトレーニングやテストデータの追加など,次のステップについて論じる。

We describe the construction and evaluation of a part-of-speech tagger for Yiddish. This is the first step in a larger project of automatically assigning part-of-speech tags and syntactic structure to Yiddish text for purposes of linguistic research. We combine two resources for the current work - an 80K-word subset of the Penn Parsed Corpus of Historical Yiddish (PPCHY) and 650 million words of OCR'd Yiddish text from the Yiddish Book Center (YBC). Yiddish orthography in the YBC corpus has many spelling inconsistencies, and we present some evidence that even simple non-contextualized embeddings trained on YBC are able to capture the relationships among spelling variants without the need to first "standardize" the corpus. We also use YBC for continued pretraining of contexualized embeddings, which are then integrated into a tagger model trained and evaluated on the PPCHY. We evaluate the tagger performance on a 10-fold cross-validation split, showing that the use of the YBC text for the contextualized embeddings improves tagger performance. We conclude by discussing some next steps, including the need for additional annotated training and test data.
翻訳日:2023-08-22 01:36:21 公開日:2023-08-18
# GPS-GLASS:昼夜映像とGPSデータを用いた夜間セマンティックセマンティックセグメンテーション学習

GPS-GLASS: Learning Nighttime Semantic Segmentation Using Daytime Video and GPS data ( http://arxiv.org/abs/2207.13297v5 )

ライセンス: Link先を確認
Hongjae Lee, Changwoo Han, Jun-Sang Yoo, Seung-Won Jung(参考訳) 自動運転のセマンティックセグメンテーションは、様々な現場環境に対して堅牢であるべきである。 特に夜間セマンティックセグメンテーションは、注釈付き夜間画像の欠如と、十分な注釈付き昼間画像とのドメインギャップが大きいため困難である。 本稿では,夜間セマンティックセグメンテーションのための新しいGPSベースのトレーニングフレームワークを提案する。 昼間・夜間のGPS対応画像に対して,画素レベルの擬似監督を得るためにドメイン間対応マッチングを行う。 さらに、日中のビデオフレーム間のフロー推定を行い、GPSによるスケーリングを適用して、別のピクセルレベルの疑似監視を取得する。 これらの疑似監視と信頼マップを用いて、夜間画像からのアノテーションなしで夜間意味セグメンテーションネットワークを訓練する。 実験により,複数の夜間セマンティックセグメンテーションデータセットにおける提案手法の有効性が示された。 ソースコードはhttps://github.com/jimmy9704/GPS-GLASS.comで公開されています。

Semantic segmentation for autonomous driving should be robust against various in-the-wild environments. Nighttime semantic segmentation is especially challenging due to a lack of annotated nighttime images and a large domain gap from daytime images with sufficient annotation. In this paper, we propose a novel GPS-based training framework for nighttime semantic segmentation. Given GPS-aligned pairs of daytime and nighttime images, we perform cross-domain correspondence matching to obtain pixel-level pseudo supervision. Moreover, we conduct flow estimation between daytime video frames and apply GPS-based scaling to acquire another pixel-level pseudo supervision. Using these pseudo supervisions with a confidence map, we train a nighttime semantic segmentation network without any annotation from nighttime images. Experimental results demonstrate the effectiveness of the proposed method on several nighttime semantic segmentation datasets. Our source code is available at https://github.com/jimmy9704/GPS-GLASS.
翻訳日:2023-08-22 01:27:08 公開日:2023-08-18
# トポロジカルマルチモード導波路QED

Topological multi-mode waveguide QED ( http://arxiv.org/abs/2207.02090v2 )

ライセンス: Link先を確認
Carlos Vega, Diego Porras, Alejandro Gonz\'alez-Tudela(参考訳) トポロジカル絶縁体は、そのバルク不変量の値に関連する多くの位相的に保護された境界モードを特徴としている。 1次元系では境界モードはゼロ次元で局所化されるが、2次元トポロジカル絶縁体では境界モードはキラルであり、系の端に沿って1次元の伝播モードである。 このように、大きなチャーン数を持つトポロジカルフォトニック絶縁体は、自然に位相的に保護された多モード導波路をその端に表示する。 ここでは、これらの位相的に保護された伝播モードを量子エミッタで対向して利用する方法を示す。 特に、Harper-Hofstadter格子を用いて、エッジモードの増加によりエミッタが擬似減衰率を特徴付ける状況と、その自然放出が異なるモードで空間的に分離される状況を見出した。 また,そのような空間的分離とエミッタの相互作用特性の組み合わせを1つの$\pi$-pulseを使用することで,古典的アナログを含まない1光子時間ビン絡み状態が形成されることを示し,エントロピーの計算を特徴付ける。 最後に、巨大原子で得られるような非局所的な光物質結合を用いて、エミッタが異なるチャネルと選択的に相互作用できることを示す。 このような能力は、位相的に保護された光子の間で量子ゲートを生成する方法となり、位相チャネル内のより複雑な光の絡み合い状態を生成する。

Topological insulators feature a number of topologically protected boundary modes linked to the value of their bulk invariant. While in one-dimensional systems the boundary modes are zero dimensional and localized, in two-dimensional topological insulators the boundary modes are chiral, one-dimensional propagating modes along the edges of the system. Thus, topological photonic insulators with large Chern numbers naturally display a topologically protected multimode waveguide at their edges. Here, we show how to take advantage of these topologically protected propagating modes by interfacing them with quantum emitters. In particular, using a Harper-Hofstadter lattice, we find situations in which the emitters feature quasiquantized decay rates due to the increasing number of edge modes, and where their spontaneous emission spatially separates in different modes. We also show how using a single $\pi$-pulse the combination of such spatial separation and the interacting character of the emitters leads to the formation of a single-photon time-bin entangled state with no classical analog, which we characterize computing its entanglement entropy. Finally, we also show how the emitters can selectively interact with the different channels using nonlocal light-matter couplings such as the ones that can be obtained with giant atoms. Such capabilities pave the way for generating quantum gates among topologically protected photons as well as generating more complex entangled states of light in topological channels.
翻訳日:2023-08-22 01:26:04 公開日:2023-08-18
# LVOS: 長期ビデオオブジェクトセグメンテーションのためのベンチマーク

LVOS: A Benchmark for Long-term Video Object Segmentation ( http://arxiv.org/abs/2211.10181v2 )

ライセンス: Link先を確認
Lingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo, Zhaoyu Chen, Wenqiang Zhang(参考訳) 既存のvos(video object segmentation)ベンチマークでは、約3~5秒の短いビデオに焦点が当てられている。 これらのビデオは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。 そこで本稿では,合計421分間の220本のビデオからなる,新しいベンチマークデータセットである \textbf{lvos} を提案する。 我々の知る限りでは、LVOSは最初の高密度アノテーション付き長期VOSデータセットである。 LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。 LVOSをベースとして,既存のビデオオブジェクトセグメンテーションアルゴリズムを評価し,時間的情報を適切に活用するための3つの相補的メモリバンクからなるDiverse Dynamic Memory Network(DDMemory)を提案する。 実験結果は,先行手法の強度と弱さを示し,今後の研究に有望な方向を示した。 データとコードはhttps://lingyihongfd.github.io/lvos.github.io/で入手できる。

Existing video object segmentation (VOS) benchmarks focus on short-term videos which just last about 3-5 seconds and where objects are visible most of the time. These videos are poorly representative of practical applications, and the absence of long-term datasets restricts further investigation of VOS on the application in realistic scenarios. So, in this paper, we present a new benchmark dataset named \textbf{LVOS}, which consists of 220 videos with a total duration of 421 minutes. To the best of our knowledge, LVOS is the first densely annotated long-term VOS dataset. The videos in our LVOS last 1.59 minutes on average, which is 20 times longer than videos in existing VOS datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objeccts.Based on LVOS, we assess existing video object segmentation algorithms and propose a Diverse Dynamic Memory network (DDMemory) that consists of three complementary memory banks to exploit temporal information adequately. The experimental results demonstrate the strength and weaknesses of prior methods, pointing promising directions for further study. Data and code are available at https://lingyihongfd.github.io/lvos.github.io/.
翻訳日:2023-08-22 01:19:09 公開日:2023-08-18
# テキスト認識のための自己教師付き文字対文字蒸留

Self-supervised Character-to-Character Distillation for Text Recognition ( http://arxiv.org/abs/2211.00288v4 )

ライセンス: Link先を確認
Tongkun Guan, Wei Shen, Xue Yang, Qi Feng, Zekun Jiang, Xiaokang Yang(参考訳) 複雑なテキスト画像(不規則な構造、低い解像度、重い咬合、不均一な照明など)を扱う場合、既存の教師付きテキスト認識手法はデータ格納型である。 これらの手法は、注釈付き実画像への依存を減らすために大規模な合成テキスト画像を用いるが、ドメインギャップは認識性能に制限がある。 したがって、自己教師付き学習によるラベルのない実画像上のロバストテキスト特徴表現の探索は良い解である。 しかし、既存の自己教師付きテキスト認識法は、水平軸に沿って視覚的な特徴を大まかに分割してシーケンスからシーケンスへの表現学習を行い、拡張の柔軟性を制限している。 そこで本研究では,汎用的な補修により汎用的なテキスト表現学習が容易な自己教師付き文字対文字蒸留法であるccdを提案する。 具体的には,自己教師付き文字セグメンテーションモジュールの設計により,ラベルなし実画像のキャラクタ構造を記述する。 これに続いて、CCDは、画像からの2つの拡張ビュー間の変換行列を用いて、フレキシブルな拡張の下でペアのアライメントを維持しながら、局所的な文字の多様性を容易に向上する。 実験の結果、CCDはテキスト認識では1.38%、テキストセグメンテーションでは1.7%、テキスト超解像では0.24dB、SSIMでは0.0321となっている。 コードはhttps://github.com/TongkunGuan/CCDで入手できる。

When handling complicated text images (e.g., irregular structures, low resolution, heavy occlusion, and uneven illumination), existing supervised text recognition methods are data-hungry. Although these methods employ large-scale synthetic text images to reduce the dependence on annotated real images, the domain gap still limits the recognition performance. Therefore, exploring the robust text feature representations on unlabeled real images by self-supervised learning is a good solution. However, existing self-supervised text recognition methods conduct sequence-to-sequence representation learning by roughly splitting the visual features along the horizontal axis, which limits the flexibility of the augmentations, as large geometric-based augmentations may lead to sequence-to-sequence feature inconsistency. Motivated by this, we propose a novel self-supervised Character-to-Character Distillation method, CCD, which enables versatile augmentations to facilitate general text representation learning. Specifically, we delineate the character structures of unlabeled real images by designing a self-supervised character segmentation module. Following this, CCD easily enriches the diversity of local characters while keeping their pairwise alignment under flexible augmentations, using the transformation matrix between two augmented views from images. Experiments demonstrate that CCD achieves state-of-the-art results, with average performance gains of 1.38% in text recognition, 1.7% in text segmentation, 0.24 dB (PSNR) and 0.0321 (SSIM) in text super-resolution. Code is available at https://github.com/TongkunGuan/CCD.
翻訳日:2023-08-22 01:18:48 公開日:2023-08-18
# FeDXL: 深部X-Risk最適化のための有望なフェデレーション学習

FeDXL: Provable Federated Learning for Deep X-Risk Optimization ( http://arxiv.org/abs/2210.14396v4 )

ライセンス: Link先を確認
Zhishuai Guo, Rong Jin, Jiebo Luo, Tianbao Yang(参考訳) 本稿では,既存のflアルゴリズムを適用できないx-risk群を最適化するための新しい連合学習(fl)問題に取り組む。 特に、目標は$\mathbb e_{z\sim s_1} f(\mathbb e_{z'\sim s_2} \ell(w; z, z'))$であり、2組のデータ $s_1, s_2$ が複数のマシンに分散されている場合、$\ell(\cdot)$ は入力データ対 $(z, z')$ と $f(\cdot)$ の予測出力にのみ依存する対損失である。 この問題は、AUROCの最大化とAUROCの最大化と構成損失の最大化といった機械学習において重要な応用がある。 Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非分解性と異なるマシン間の相互依存性にある。 そこで本研究では, 局所モデルで計算される局所データと, パッシブ部が歴史的なモデルとサンプルに基づいて通信・計算される他の機械に依存した, アクティブ部分とパッシブ部分という2つのタイプで勾配成分を分解する能動パッシブ分解フレームワークを提案する。 本フレームワークでは,線形および非線形の$f$をそれぞれフェデレート平均とマージに基づいて処理するための2つの証明可能なFLアルゴリズム(FeDXL)を開発した。 本研究では,受動部品の遅延と局所モデルパラメータ間の相互依存性に対処する理論解析を開発し,局所勾配推定器の計算を行う。 繰り返しと通信の両複雑さを確立し、過去のサンプルとモデルを用いて受動部品を計算しても複雑さは劣化しないことを示す。 深部AUROCおよび部分AUROCの最大化のためのFeDXLの実証的研究を行い, それらの性能をいくつかのベースラインと比較した。

In this paper, we tackle a novel federated learning (FL) problem for optimizing a family of X-risks, to which no existing FL algorithms are applicable. In particular, the objective has the form of $\mathbb E_{z\sim S_1} f(\mathbb E_{z'\sim S_2} \ell(w; z, z'))$, where two sets of data $S_1, S_2$ are distributed over multiple machines, $\ell(\cdot)$ is a pairwise loss that only depends on the prediction outputs of the input data pairs $(z, z')$, and $f(\cdot)$ is possibly a non-linear non-convex function. This problem has important applications in machine learning, e.g., AUROC maximization with a pairwise loss, and partial AUROC maximization with a compositional loss. The challenges for designing an FL algorithm for X-risks lie in the non-decomposability of the objective over multiple machines and the interdependency between different machines. To this end, we propose an active-passive decomposition framework that decouples the gradient's components with two types, namely active parts and passive parts, where the active parts depend on local data that are computed with the local model and the passive parts depend on other machines that are communicated/computed based on historical models and samples. Under this framework, we develop two provable FL algorithms (FeDXL) for handling linear and nonlinear $f$, respectively, based on federated averaging and merging. We develop a novel theoretical analysis to combat the latency of the passive parts and the interdependency between the local model parameters and the involved data for computing local gradient estimators. We establish both iteration and communication complexities and show that using the historical samples and models for computing the passive parts do not degrade the complexities. We conduct empirical studies of FeDXL for deep AUROC and partial AUROC maximization, and demonstrate their performance compared with several baselines.
翻訳日:2023-08-22 01:17:45 公開日:2023-08-18
# 大型SYKモデルと大規模SYKモデルにおけるクリロフ複雑性

Krylov complexity in large-$q$ and double-scaled SYK model ( http://arxiv.org/abs/2210.02474v4 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Pratik Nandy, Tanay Pathak(参考訳) 2段階の極限におけるSachdev-Ye-Kitaev (SYK) モデルの大規模な$qの展開を考えると、Lanczos係数、Krylov複雑性、およびより高いKrylov累積を、$t/q$効果とともに昇華順序で計算する。 クリロフ複雑性は分布の「サイズ」を自然に記述し、高い累積量はよりリッチな情報をエンコードする。 さらに、無限温度での SYK$_q$ の倍スケール極限を考え、$q \sim \sqrt{N}$ を考える。 そのような極限において、スクランブル時間は0に縮まり、ランツォ係数は分岐する。 クリロフ複雑性の成長は「超高速」であり、以前はド・ジッター空間におけるスクランブルと関連していると推測されていた。

Considering the large-$q$ expansion of the Sachdev-Ye-Kitaev (SYK) model in the two-stage limit, we compute the Lanczos coefficients, Krylov complexity, and the higher Krylov cumulants in subleading order, along with the $t/q$ effects. The Krylov complexity naturally describes the "size" of the distribution, while the higher cumulants encode richer information. We further consider the double-scaled limit of SYK$_q$ at infinite temperature, where $q \sim \sqrt{N}$. In such a limit, we find that the scrambling time shrinks to zero, and the Lanczos coefficients diverge. The growth of Krylov complexity appears to be "hyperfast", which is previously conjectured to be associated with scrambling in de Sitter space.
翻訳日:2023-08-22 01:17:00 公開日:2023-08-18
# 未知の物体と未知の物体を事前知識なしで分割する

Segmenting Known Objects and Unseen Unknowns without Prior Knowledge ( http://arxiv.org/abs/2209.05407v4 )

ライセンス: Link先を確認
Stefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) パノプティックセグメンテーション法は、入力された各ピクセルに既知のクラスを割り当てる。 最先端のアプローチであっても、これは必然的に、トレーニングカテゴリ外のオブジェクトの誤った予測につながる決定を強制する。 しかし, 危険を回避し, 安全クリティカルな環境では, 分散サンプルやコーナーケースに対するロバスト性が重要である。 実世界のデータセットは、基盤となるディストリビューションのロングテールを適切にサンプリングするために十分なデータポイントを格納できないため、モデルは、未知のシナリオにも対処できなければならない。 それまでの方法は、すでに表示されていない未表示のオブジェクトを再識別することであった。 本研究では,全体的セグメンテーションと呼ぶ新しいセグメンテーションでセグメンテーションを拡張するために必要なステップを提案する。 包括的セグメンテーションは、未知の未知のカテゴリのオブジェクトを、既知のクラスのpanopticセグメンテーションを実行しながら、事前の知識なしでインスタンスに識別し、分離することを目的としている。 U3HSは未知を極めて不確実な領域として発見し、対応するインスタンス認識の埋め込みを個々のオブジェクトにクラスタ化する。 そうすることで、未知のオブジェクトでパンオプティカルセグメンテーションで初めて、我々のu3hsは未知のカテゴリなしでトレーニングされ、仮定を減少させ、実際のシナリオのように設定が訓練されていない状態になる。 MS COCO、Cityscapes、Lost&Foundの公開データに関する大規模な実験は、この新たな、挑戦的で仮定なしの設定に対してU3HSの有効性を実証している。 プロジェクトページ: https://holisticseg.github.io。

Panoptic segmentation methods assign a known class to each pixel given in input. Even for state-of-the-art approaches, this inevitably enforces decisions that systematically lead to wrong predictions for objects outside the training categories. However, robustness against out-of-distribution samples and corner cases is crucial in safety-critical settings to avoid dangerous consequences. Since real-world datasets cannot contain enough data points to adequately sample the long tail of the underlying distribution, models must be able to deal with unseen and unknown scenarios as well. Previous methods targeted this by re-identifying already-seen unlabeled objects. In this work, we propose the necessary step to extend segmentation with a new setting which we term holistic segmentation. Holistic segmentation aims to identify and separate objects of unseen, unknown categories into instances without any prior knowledge about them while performing panoptic segmentation of known classes. We tackle this new problem with U3HS, which finds unknowns as highly uncertain regions and clusters their corresponding instance-aware embeddings into individual objects. By doing so, for the first time in panoptic segmentation with unknown objects, our U3HS is trained without unknown categories, reducing assumptions and leaving the settings as unconstrained as in real-life scenarios. Extensive experiments on public data from MS COCO, Cityscapes, and Lost&Found demonstrate the effectiveness of U3HS for this new, challenging, and assumptions-free setting called holistic segmentation. Project page: https://holisticseg.github.io.
翻訳日:2023-08-22 01:16:42 公開日:2023-08-18
# 計算するか計算しないか? 資源制約エッジコンピューティングにおける適応型スマートセンシング

To Compute or not to Compute? Adaptive Smart Sensing in Resource-Constrained Edge Computing ( http://arxiv.org/abs/2209.02166v3 )

ライセンス: Link先を確認
Luca Ballotta, Giovanni Peserico, Francesco Zanini, Paolo Dini(参考訳) 我々は,時間変化信号のサンプリングと基地局への更新をリモートグローバル監視のために送信するエッジコンピューティングアプリケーションのための,スマートセンサのネットワークを考察する。 センサーはセンシングと計算機能を備えており、生データを送信したり、送信前に処理することができる。 エッジの限られたハードウェアリソースは、基本的な遅延精度のトレードオフを生成する: 生の測定は不正確だが、タイムリーであるのに対して、処理遅延後に正確な処理された更新が利用可能である。 したがって、ネットワーク監視性能を最大化するために、センサーがいつ生の測定を送信すべきか、あるいはローカル処理に依存するべきかを決定する必要がある。 このセンシング設計問題に取り組むために,計算遅延と通信遅延の両方を組み込んだ推定理論最適化フレームワークをモデル化し,各センサに動的に計算資源を割り当てる強化学習ベースアプローチを提案する。 提案手法の有効性は、ドローンと自動運転車のスマートセンシングによる数値実験によって検証される。 特に,基地局での制約のある計算では,オンラインセンサ選択によって監視性能がさらに向上することを示す。

We consider a network of smart sensors for an edge computing application that sample a time-varying signal and send updates to a base station for remote global monitoring. Sensors are equipped with sensing and compute, and can either send raw data or process them on-board before transmission. Limited hardware resources at the edge generate a fundamental latency-accuracy trade-off: raw measurements are inaccurate but timely, whereas accurate processed updates are available after processing delay. Hence, one needs to decide when sensors should transmit raw measurements or rely on local processing to maximize network monitoring performance. To tackle this sensing design problem, we model an estimation-theoretic optimization framework that embeds both computation and communication latency, and propose a Reinforcement Learning-based approach that dynamically allocates computational resources at each sensor. Effectiveness of our proposed approach is validated through numerical experiments motivated by smart sensing for the Internet of Drones and self-driving vehicles. In particular, we show that, under constrained computation at the base station, monitoring performance can be further improved by an online sensor selection.
翻訳日:2023-08-22 01:16:17 公開日:2023-08-18
# ガッピング境界を持つトーリック符号に対する代数的量子場理論的アプローチ

An algebraic quantum field theoretic approach to toric code with gapped boundary ( http://arxiv.org/abs/2212.01952v2 )

ライセンス: Link先を確認
Daniel Wallick(参考訳) トポロジカルに順序付けられた量子スピン系は、量子計算のフォールトトレラントな手段を提供するため、大きな関心を集めている。 そのようなスピン系の最も単純な例の1つは、キタエフのトーリック符号である。 ナイケンスは、代数量子場理論による作用素代数的アプローチを用いて、無限平面格子(熱力学的極限)上のトーリック符号の扱いを数学的に厳密にした。 我々は、ガッピング境界を持つトーリック符号の場合を調べるために、彼の手法を適用する。 特に、キタエフとコングで記述された凝縮結果を復元し、境界理論が予想通りバルク上の加群テンソル圏であることを示す。

Topologically ordered quantum spin systems have become an area of great interest, as they may provide a fault-tolerant means of quantum computation. One of the simplest examples of such a spin system is Kitaev's toric code. Naaijkens made mathematically rigorous the treatment of toric code on an infinite planar lattice (the thermodynamic limit), using an operator algebraic approach via algebraic quantum field theory. We adapt his methods to study the case of toric code with gapped boundary. In particular, we recover the condensation results described in Kitaev and Kong and show that the boundary theory is a module tensor category over the bulk, as expected.
翻訳日:2023-08-22 01:07:25 公開日:2023-08-18
# 合成データを用いた点雲中の人間の3次元セグメンテーション

3D Segmentation of Humans in Point Clouds with Synthetic Data ( http://arxiv.org/abs/2212.00786v4 )

ライセンス: Link先を確認
Ay\c{c}a Takmaz, Jonas Schult, Irem Kaftan, Mertcan Ak\c{c}ay, Bastian Leibe, Robert Sumner, Francis Engelmann, Siyu Tang(参考訳) 3D屋内シーンにおける人間のセグメンテーションは、人間中心のロボット工学とAR/VR応用の台頭によってますます重要になっている。 そこで本研究では,3次元人間意味セグメンテーション,インスタンスセグメンテーション,マルチヒューマンボディーパートセグメンテーションの課題を提案する。 3Dシーンと対話する人間のアノテートトレーニングデータが欠如していることから、散在した3Dシーンで人間を直接セグメント化しようとする研究はほとんどない。 この課題に対処し、実際の3dシーンと対話する合成人間のトレーニングデータを生成するためのフレームワークを提案する。 さらに,複数の人体を統一的にセグメント化するための最初のエンドツーエンドモデルである,トランスフォーマーに基づく新しいモデルHuman3Dを提案する。 私たちの合成データ生成フレームワークの重要な利点は、高度に正確な基盤真理を持つ、多様で現実的な人間とシーンのインタラクションを生成する能力です。 実験により,合成データの事前学習により,様々な3次元人間のセグメンテーションタスクの性能が向上することが示された。 最後に,Human3Dがタスク固有の3Dセグメンテーション手法よりも優れていることを示す。

Segmenting humans in 3D indoor scenes has become increasingly important with the rise of human-centered robotics and AR/VR applications. To this end, we propose the task of joint 3D human semantic segmentation, instance segmentation and multi-human body-part segmentation. Few works have attempted to directly segment humans in cluttered 3D scenes, which is largely due to the lack of annotated training data of humans interacting with 3D scenes. We address this challenge and propose a framework for generating training data of synthetic humans interacting with real 3D scenes. Furthermore, we propose a novel transformer-based model, Human3D, which is the first end-to-end model for segmenting multiple human instances and their body-parts in a unified manner. The key advantage of our synthetic data generation framework is its ability to generate diverse and realistic human-scene interactions, with highly accurate ground truth. Our experiments show that pre-training on synthetic data improves performance on a wide variety of 3D human segmentation tasks. Finally, we demonstrate that Human3D outperforms even task-specific state-of-the-art 3D segmentation methods.
翻訳日:2023-08-22 01:07:12 公開日:2023-08-18
# ナノフォトニック導波路の存在下での双極子-双極子相互作用の修飾

Modified dipole-dipole interactions in the presence of a nanophotonic waveguide ( http://arxiv.org/abs/2211.13595v4 )

ライセンス: Link先を確認
Mathias B. M. Svendsen, Beatriz Olmos(参考訳) エミッタアンサンブルが電磁界と相互作用すると、エミッタ間で双極子-双極子相互作用が引き起こされる。 これらの相互作用の大きさと形状は電磁場モードの特定の形態によって決定される。 円筒状ナノファイバーのようなナノフォトニック導波路近傍にエミッタを配置すると、これらのモードの複雑な機能形態は双極子-双極子相互作用の解析的評価を煩雑で数値的に高価に行う。 本稿では,これらの相互作用をうまく計算する方法を詳細に説明し,他の環境や境界条件に容易に拡張できる方法を概説する。 このような正確な評価は、この種のシステムにおける相互作用と散逸の集合的な特徴のため、相互作用の小さな変更は、特にエミッターの数が増加するにつれて、実験的な観測可能性に劇的な変化をもたらす可能性がある。 本稿では, 円筒状ナノファイバーで導かれる光の伝達信号を, 近傍のエミッタ鎖の存在下で計算することによって, これを説明する。

When an emitter ensemble interacts with the electromagnetic field, dipole-dipole interactions are induced between the emitters. The magnitude and shape of these interactions are fully determined by the specific form of the electromagnetic field modes. If the emitters are placed in the vicinity of a nanophotonic waveguide, such as a cylindrical nanofiber, the complex functional form of these modes makes the analytical evaluation of the dipole-dipole interaction cumbersome and numerically costly. In this work, we provide a full detailed description of how to successfully calculate these interactions, outlining a method that can be easily extended to other environments and boundary conditions. Such exact evaluation is of importance as, due to the collective character of the interactions and dissipation in this kind of systems, any small modification of the interactions may lead to dramatic changes in experimental observables, particularly as the number of emitters increases. We illustrate this by calculating the transmission signal of the light guided by a cylindrical nanofiber in the presence of a nearby chain of emitters.
翻訳日:2023-08-22 01:06:29 公開日:2023-08-18
# 動的認知モデルのベイズ推定のための神経超統計学

Neural Superstatistics for Bayesian Estimation of Dynamic Cognitive Model ( http://arxiv.org/abs/2211.13165v3 )

ライセンス: Link先を確認
Lukas Schumacher, Paul-Christian B\"urkner, Andreas Voss, Ullrich K\"othe, Stefan T. Radev(参考訳) 認知の数学的モデルは、しばしば記憶がなく、パラメータの潜在的な揺らぎを無視する。 しかし、人間の認知は本質的に動的である。 そこで本稿では,時間次元の機械的認知モデルを拡張し,超統計学の観点から結果のダイナミクスを推定する。 このようなモデルには、低レベルの観測モデルと高レベルの遷移モデルの間の階層性が伴う。 観測モデルはシステムの局所挙動を記述し、遷移モデルは観察モデルのパラメータが時間とともにどのように進化するかを特定する。 超統計モデルの複雑さから生じる推定課題を克服するため、ベイズ推論のシミュレーションに基づくディープラーニング手法を開発し、検証し、時間変化パラメータと時間不変パラメータの両方を復元する。 まず,提案手法を時間変動パラメータを推定可能な2つの既存フレームワークに対してベンチマークした。 次に,拡散決定モデルの動的バージョンをヒトの応答時間の時系列データに適用する手法を提案する。 その結果、ディープラーニングアプローチはモデルの時間的ダイナミクスを捉えるのに非常に効率的であることがわかった。 さらに,静的パラメータや均質パラメータの誤った仮定が重要な時間情報を隠蔽することを示す。

Mathematical models of cognition are often memoryless and ignore potential fluctuations of their parameters. However, human cognition is inherently dynamic. Thus, we propose to augment mechanistic cognitive models with a temporal dimension and estimate the resulting dynamics from a superstatistics perspective. Such a model entails a hierarchy between a low-level observation model and a high-level transition model. The observation model describes the local behavior of a system, and the transition model specifies how the parameters of the observation model evolve over time. To overcome the estimation challenges resulting from the complexity of superstatistical models, we develop and validate a simulation-based deep learning method for Bayesian inference, which can recover both time-varying and time-invariant parameters. We first benchmark our method against two existing frameworks capable of estimating time-varying parameters. We then apply our method to fit a dynamic version of the diffusion decision model to long time series of human response times data. Our results show that the deep learning approach is very efficient in capturing the temporal dynamics of the model. Furthermore, we show that the erroneous assumption of static or homogeneous parameters will hide important temporal information.
翻訳日:2023-08-22 01:06:12 公開日:2023-08-18
# CroCo v2: ステレオマッチングとオプティカルフローのためのクロスビューコンプリート事前トレーニングの改善

CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow ( http://arxiv.org/abs/2211.10408v3 )

ライセンス: Link先を確認
Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Br\'egier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, J\'er\^ome Revaud(参考訳) 高レベル下流タスクの優れた性能にもかかわらず、自己教師付き事前訓練方法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクに対してまだ完全には提供されていない。 インスタンス識別やマスク画像モデリングといった自己監督的な概念を幾何学的タスクに適用することは、研究の活発な領域である。 本研究では,同一シーンからの2番目のビューを利用したマスク画像モデリングの変種である,最近のcross-view completion framework(クロスビュー補完フレームワーク)をベースとする。 この概念の適用性は、少なくとも2つの方法で制限されている。 (a)実世界のイメージペアの収集が困難で、実際には合成データのみが使用されていること、及び (b)絶対位置よりも相対位置の方が有意義な密集した下流タスクへのバニラ変圧器の一般化の欠如。 改善の3つの道を探る。 まず,適切な実世界の画像ペアを大規模に収集する手法を提案する。 第2に,相対的な位置埋め込みを実験し,視覚トランスフォーマーの性能が大幅に向上することを示す。 第3に、大量のデータを使用することで実現可能な、視覚トランスフォーマーベースのクロスコンプリートアーキテクチャをスケールアップする。 これらの改善により、相関ボリューム、反復推定、画像ウォーピング、マルチスケール推論といった従来のタスク特化手法を使わずに、ステレオマッチングとオプティカルフローに関する最先端の成果に到達できることが初めて示され、それによって普遍的なビジョンモデルへの道が開けた。

Despite impressive performance for high-level downstream tasks, self-supervised pre-training methods have not yet fully delivered on dense geometric vision tasks such as stereo matching or optical flow. The application of self-supervised concepts, such as instance discrimination or masked image modeling, to geometric tasks is an active area of research. In this work, we build on the recent cross-view completion framework, a variation of masked image modeling that leverages a second view from the same scene which makes it well suited for binocular downstream tasks. The applicability of this concept has so far been limited in at least two ways: (a) by the difficulty of collecting real-world image pairs -- in practice only synthetic data have been used -- and (b) by the lack of generalization of vanilla transformers to dense downstream tasks for which relative position is more meaningful than absolute position. We explore three avenues of improvement. First, we introduce a method to collect suitable real-world image pairs at large scale. Second, we experiment with relative positional embeddings and show that they enable vision transformers to perform substantially better. Third, we scale up vision transformer based cross-completion architectures, which is made possible by the use of large amounts of data. With these improvements, we show for the first time that state-of-the-art results on stereo matching and optical flow can be reached without using any classical task-specific techniques like correlation volume, iterative estimation, image warping or multi-scale reasoning, thus paving the way towards universal vision models.
翻訳日:2023-08-22 01:05:19 公開日:2023-08-18
# 閉塞予測を用いた多視点特徴マッチングによる無監督光深度推定

Unsupervised Light Field Depth Estimation via Multi-view Feature Matching with Occlusion Prediction ( http://arxiv.org/abs/2301.08433v2 )

ライセンス: Link先を確認
Shansi Zhang, Nan Meng and Edmund Y. Lam(参考訳) 光場(LF)画像からの深さ推定は、多くのアプリケーションにとって基本的なステップである。 近年,学習に基づく手法は従来の手法よりも精度と効率が向上している。 しかし、指導訓練に十分な深度ラベルを得ることはコストがかかる。 本稿では,LF画像から深度を推定するための教師なしフレームワークを提案する。 まず,異なるビューの組み合わせから異質なマップを予測するために,粗さから細かな構造を持つdisparity estimation network(dispnet)を設計する。 対応を効果的に学習するために、マルチビュー特徴マッチングを明示的に実行する。 咬合がフォトコンシステンシーに違反する可能性があるため、オクルージョン予測ネットワーク(occnet)を導入し、オクルージョンマップをオクルージョン損失の要素的な重み付けとして予測し、オクルージョン問題を解決し、異種学習を支援する。 そこで,複数の入力の組み合わせによって推定される不一致マップを用いて,推定誤差に基づく不一致融合戦略と効果的な咬合処理を行い,精度の高い最終不一致マップを得る。 実験により,本手法は高密度かつスパースなLF画像に対して優れた性能を示すとともに,実世界のLF画像に対して,他の手法と比較して高いロバスト性および一般化を示すことが示された。

Depth estimation from light field (LF) images is a fundamental step for numerous applications. Recently, learning-based methods have achieved higher accuracy and efficiency than the traditional methods. However, it is costly to obtain sufficient depth labels for supervised training. In this paper, we propose an unsupervised framework to estimate depth from LF images. First, we design a disparity estimation network (DispNet) with a coarse-to-fine structure to predict disparity maps from different view combinations. It explicitly performs multi-view feature matching to learn the correspondences effectively. As occlusions may cause the violation of photo-consistency, we introduce an occlusion prediction network (OccNet) to predict the occlusion maps, which are used as the element-wise weights of photometric loss to solve the occlusion issue and assist the disparity learning. With the disparity maps estimated by multiple input combinations, we then propose a disparity fusion strategy based on the estimated errors with effective occlusion handling to obtain the final disparity map with higher accuracy. Experimental results demonstrate that our method achieves superior performance on both the dense and sparse LF images, and also shows better robustness and generalization on the real-world LF images compared to the other methods.
翻訳日:2023-08-22 00:59:36 公開日:2023-08-18
# 微小重力下での2次元物質近傍の量子原子物質

Quantum Atomic Matter Near Two-Dimensional Materials in Microgravity ( http://arxiv.org/abs/2301.00494v2 )

ライセンス: Link先を確認
Adrian Del Maestro, Sang Wook Kim, Nicholas P. Bigelow, Robert J. Thompson, Valeri N. Kotov(参考訳) グラフェンや遷移金属ジアルコゲナイドのような新しい2次元(2次元)原子平らな材料は、非伝統的なディラック電子スペクトルを示す。 我々は、微小重力下での低温原子との相互作用を効果的に設計し、複雑な電子と原子集団の量子相と現象の相乗効果をもたらすことを提案する。 ディラック材料は、ひずみ、キャリアとのドーピング、誘電体環境の調整などによる電子特性の変化による操作や量子工学の影響を受けやすい。 したがって、原子とそのような物質との相互作用、すなわちファンデルワールス/カシミール・ポルダー相互作用は効果的に操作でき、原子的に薄い物質から量子反射やボース=アインシュタイン凝縮(BEC)周波数シフトなどの物理効果を観測することができる。

Novel two-dimensional (2D) atomically flat materials, such as graphene and transition-metal dichalcogenides, exhibit unconventional Dirac electronic spectra. We propose to effectively engineer their interactions with cold atoms in microgravity, leading to a synergy between complex electronic and atomic collective quantum phases and phenomena. Dirac materials are susceptible to manipulation and quantum engineering via changes in their electronic properties by application of strain, doping with carriers, adjustment of their dielectric environment, etc. Consequently the interaction of atoms with such materials, namely the van der Waals / Casimir-Polder interaction, can be effectively manipulated, leading to the potential observation of physical effects such as Quantum Reflection off atomically thin materials and confined Bose-Einstein Condensate (BEC) frequency shifts.
翻訳日:2023-08-22 00:57:40 公開日:2023-08-18
# 1自由度時間独立ハミルトニアンを用いた連続変数のダイナミクスに基づく量子性証明

Dynamics-based quantumness certification of continuous variables using time-independent Hamiltonians with one degree of freedom ( http://arxiv.org/abs/2212.06017v2 )

ライセンス: Link先を確認
Lin Htoo Zaw and Valerio Scarani(参考訳) 量子性のダイナミクスに基づく証明は、その力学が知られているという仮定の下で、連続変数状態の非古典的な性質を目撃するアプローチである。 単一系に対する非古典性の他のテストとは異なり、シーケンシャルな測定は不要である。 このプロトコルのファミリーは調和力学のために導入された。 本稿では、時間に依存しないハミルトニアンの下で進化する1つの自由度に対するダイナミクスベースの認証について論じる。 このような認定が可能である条件を特徴付ける。 いくつかは明示的に研究されており、いくつかは低エネルギーの限界(ケレル非線形性、振り子、モースポテンシャル)でほぼ調和しており、一つは(無限井戸の粒子)ではない。

Dynamics-based certification of quantumness is an approach to witnessing the nonclassical character of some continuous-variable states, under the assumption that their dynamics is known. Contrary to other tests of nonclassicality for single systems, it does not require sequential measurements. This family of protocols was introduced for harmonic dynamics. In this work we discuss dynamics-based certification for one degree of freedom evolving under a generic time-independent Hamiltonian. We characterize the conditions under which such a certification is possible. Several examples are explicitly studied, some that are approximately harmonic in the limits of low energy (Kerr nonlinearities, the pendulum, and the Morse potential) and one that is not (the particle in an infinite well).
翻訳日:2023-08-22 00:57:22 公開日:2023-08-18
# YoloCurvSeg: 容器型曲線構造セグメンテーションのためのノイズのみをラベル付けする

YoloCurvSeg: You Only Label One Noisy Skeleton for Vessel-style Curvilinear Structure Segmentation ( http://arxiv.org/abs/2212.05566v5 )

ライセンス: Link先を確認
Li Lin, Linkai Peng, Huaqing He, Pujin Cheng, Jiewei Wu, Kenneth K. Y. Wong, Xiaoying Tang(参考訳) 弱教師付き学習(weakly supervised learning,wsl)は、粗粒度(point-, box-, scribble-wise)の監督を用いてデータアノテーションコストとモデル性能の衝突を軽減するために提案され、特に画像分割の分野で有望な性能を示している。 しかし、限定的な監督のため、特に少数のラベル付きサンプルしか入手できないため、依然として非常に困難な作業である。 加えて、既存のWSLセグメンテーション手法のほとんど全ては、血管や神経などの曲線構造とは大きく異なる恒星凸構造のために設計されている。 本稿では, 線形構造のための, 疎アノテートなセグメンテーションフレームワーク yolocurvseg を提案する。 YoloCurvSegの重要な構成要素は画像合成である。 具体的には、背景生成器は、拡大した骨格を塗りつぶして実際の分布と密接に一致する画像背景を提供する。 抽出した背景は、Space Colonization Algorithmベースの前景生成器とマルチレイヤパッチワイドコントラスト学習シンセサイザによって生成されるランダムなエミュレーション曲線と結合される。 このようにして、画像と曲線セグメンテーションラベルの両方を持つ合成データセットが、1つまたは数個のノイズスケルトンアノテーションのコストで取得される。 最後に、セグメンタは生成されたデータセットとおそらくラベルのないデータセットでトレーニングされる。 提案したYoloCurvSegは4つの公開データセット(OCTA500, CORN, DRIVE, CHASEDB1)で評価され、その結果、YoloCurvSegは最先端のWSLセグメンテーション手法を大きなマージンで上回る結果となった。 1つのノイズのあるスケルトンアノテーション(参照: 0.14\%, 0.03\%, 1.40\%, 0.65\%)で、YoloCurvSegは各データセットの完全な教師付きパフォーマンスの97\%以上を達成する。 コードとデータセットはhttps://github.com/llmir/YoloCurvSegで公開される。

Weakly-supervised learning (WSL) has been proposed to alleviate the conflict between data annotation cost and model performance through employing sparsely-grained (i.e., point-, box-, scribble-wise) supervision and has shown promising performance, particularly in the image segmentation field. However, it is still a very challenging task due to the limited supervision, especially when only a small number of labeled samples are available. Additionally, almost all existing WSL segmentation methods are designed for star-convex structures which are very different from curvilinear structures such as vessels and nerves. In this paper, we propose a novel sparsely annotated segmentation framework for curvilinear structures, named YoloCurvSeg. A very essential component of YoloCurvSeg is image synthesis. Specifically, a background generator delivers image backgrounds that closely match the real distributions through inpainting dilated skeletons. The extracted backgrounds are then combined with randomly emulated curves generated by a Space Colonization Algorithm-based foreground generator and through a multilayer patch-wise contrastive learning synthesizer. In this way, a synthetic dataset with both images and curve segmentation labels is obtained, at the cost of only one or a few noisy skeleton annotations. Finally, a segmenter is trained with the generated dataset and possibly an unlabeled dataset. The proposed YoloCurvSeg is evaluated on four publicly available datasets (OCTA500, CORN, DRIVE and CHASEDB1) and the results show that YoloCurvSeg outperforms state-of-the-art WSL segmentation methods by large margins. With only one noisy skeleton annotation (respectively 0.14\%, 0.03\%, 1.40\%, and 0.65\% of the full annotation), YoloCurvSeg achieves more than 97\% of the fully-supervised performance on each dataset. Code and datasets will be released at https://github.com/llmir/YoloCurvSeg.
翻訳日:2023-08-22 00:56:44 公開日:2023-08-18
# ELITE: カスタマイズされたテキスト-画像生成のためのテキスト埋め込みに視覚概念をエンコードする

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation ( http://arxiv.org/abs/2302.13848v2 )

ライセンス: Link先を確認
Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng Zuo(参考訳) イメージ生成における前例のない能力に加えて、大きなテキスト・ツー・イメージモデルも画像生成においてカスタマイズされた概念を取り入れることが期待されている。 既存の作業は一般に最適化に基づいた方法でそのような概念を学習するが、過剰な計算やメモリ負荷をもたらす。 本稿では,高速かつ高精度なテキスト対画像生成を実現するために,グローバルおよびローカルマッピングネットワークからなる学習ベースのエンコーダを提案する。 具体的には、グローバルマッピングネットワークは、与えられた画像の階層的特徴をテキスト語埋め込み空間における複数の新しい単語、すなわち、不適切な乱れ(例えば背景)を除外するために、よく編集可能な概念のための1つの一次単語に投影する。 一方、ローカルマッピングネットワークは、エンコードされたパッチ機能をクロスアテンション層に注入し、プライマリコンセプトの編集性を犠牲にすることなく、詳細を省略する。 提案手法を,ユーザ定義のさまざまな概念に対する既存の最適化手法と比較し,より高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現することを示す。 私たちのコードはhttps://github.com/csyxwei/eliteで公開されています。

In addition to the unprecedented ability in imaginary creation, large text-to-image models are expected to take customized concepts in image generation. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder, which consists of a global and a local mapping networks for fast and accurate customized text-to-image generation. In specific, the global mapping network projects the hierarchical features of a given image into multiple new words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with existing optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables high-fidelity inversion and more robust editability with a significantly faster encoding process. Our code is publicly available at https://github.com/csyxwei/ELITE.
翻訳日:2023-08-22 00:46:23 公開日:2023-08-18
# マイクロ波光機械的キャビティにおける超強結合近傍の不安定性

Instabilities near ultrastrong coupling in microwave optomechanical cavity ( http://arxiv.org/abs/2302.00421v2 )

ライセンス: Link先を確認
Soumya Ranjan Das, Sourav Majumder, Sudhir Kumar Sahu, Ujjawal Singhal, Tanmoy Bera, and Vibhor Singh(参考訳) 人工的に構築されたシステムでは、超強結合(USC)として知られるモード周波数に匹敵するコヒーレント相互作用率を実現することができる。 超伝導導波路キャビティと機械共振器を用いたキャビティ・エレクトロメカニクス装置を実験的に実現した。 強いポンプの存在下では、機械偏光子分裂は機械周波数の81%に近づき、散逸速度を超過することができる。 USC限界に近づくと、定常応答は不安定になる。 ポンプパラメータを変化させながら不安定応答の境界を系統的に測定する。 不安定なダイナミクスは、自己誘起振動、周期双曲分岐、周期的トリップ振動などの豊富な位相を示し、最終的にカオス的な振る舞いをもたらす。 実験結果とその理論的モデリングは、弱い散逸状態における残留非線形相互作用項の重要性を示唆している。

With artificially engineered systems, it is now possible to realize the coherent interaction rate, which can become comparable to the mode frequencies, a regime known as ultrastrong coupling (USC). We experimentally realize a cavity-electromechanical device using a superconducting waveguide cavity and a mechanical resonator. In the presence of a strong pump, the mechanical-polaritons splitting can nearly reach 81% of the mechanical frequency, overwhelming all the dissipation rates. Approaching the USC limit, the steady-state response becomes unstable. We systematically measure the boundary of the unstable response while varying the pump parameters. The unstable dynamics display rich phases, such as self-induced oscillations, period-doubling bifurcation, period-tripling oscillations, and ultimately leading to the chaotic behavior. The experimental results and their theoretical modeling suggest the importance of residual nonlinear interaction terms in the weak-dissipative regime.
翻訳日:2023-08-22 00:45:23 公開日:2023-08-18
# 効率的な画像超解像のための反復的軟収縮学習

Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution ( http://arxiv.org/abs/2303.09650v2 )

ライセンス: Link先を確認
Jiamian Wang, Huan Wang, Yulun Zhang, Yun Fu, Zhiqiang Tao(参考訳) 画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。 しかし、一般的なsrモデルはメモリフットプリントの制限と集中的な計算に苦しむため、エッジデバイスへのさらなるデプロイは制限される。 本研究は,市販のネットワーク設計を活用し,計算オーバーヘッドを削減するスーパーレゾリューションのためのネットワークプルーニングの可能性を検討する。 2つの主要な課題は、SRにプルーニング法を適用することである。 第一に、広く使われているフィルタプルーニング技術は、様々なネットワーク構造に対する粒度と適応性の制限を反映している。 第二に、既存のプルーニング法は、通常、スパース構造決定のための事前訓練されたネットワーク上で動作し、従来のSRパラダイムにおける密集モデルトレーニングの除去が困難である。 これらの課題に対処するために、スクラッチから直接訓練されたスパースモデルによる非構造化プルーニングを採用する。 具体的には,各イテレーションにおけるランダム初期化ネットワークのスパース構造を最適化し,オンザフライ規模に比例する少ない量で重要でない重みを微調整することにより,新しい反復的ソフト・収縮・パーセンテージ(iss-p)法を提案する。 提案する iss-p は最適化プロセスに適応したスパース構造を動的に学習し,より規則化された勾配スループットを与えることでスパースモデルのトレーサビリティを保った。 ベンチマークデータセットに関する実験は、様々なネットワークアーキテクチャに対するiss-pの有効性を実証している。 コードはhttps://github.com/Jiamian-Wang/Iterative-Soft-Shrinkage-SRで公開されている。

Image super-resolution (SR) has witnessed extensive neural network designs from CNN to transformer architectures. However, prevailing SR models suffer from prohibitive memory footprint and intensive computations, which limits further deployment on edge devices. This work investigates the potential of network pruning for super-resolution to take advantage of off-the-shelf network designs and reduce the underlying computational overhead. Two main challenges remain in applying pruning methods for SR. First, the widely-used filter pruning technique reflects limited granularity and restricted adaptability to diverse network structures. Second, existing pruning methods generally operate upon a pre-trained network for the sparse structure determination, hard to get rid of dense model training in the traditional SR paradigm. To address these challenges, we adopt unstructured pruning with sparse models directly trained from scratch. Specifically, we propose a novel Iterative Soft Shrinkage-Percentage (ISS-P) method by optimizing the sparse structure of a randomly initialized network at each iteration and tweaking unimportant weights with a small amount proportional to the magnitude scale on-the-fly. We observe that the proposed ISS-P can dynamically learn sparse structures adapting to the optimization process and preserve the sparse model's trainability by yielding a more regularized gradient throughput. Experiments on benchmark datasets demonstrate the effectiveness of the proposed ISS-P over diverse network architectures. Code is available at https://github.com/Jiamian-Wang/Iterative-Soft-Shrinkage-SR
翻訳日:2023-08-22 00:39:06 公開日:2023-08-18
# コンセンサスによる敵対的ロバストな協調的認識

Among Us: Adversarially Robust Collaborative Perception by Consensus ( http://arxiv.org/abs/2303.09495v3 )

ライセンス: Link先を確認
Yiming Li and Qi Fang and Jiamu Bai and Siheng Chen and Felix Juefei-Xu and Chen Feng(参考訳) 複数のロボットは(例えば物体を検知するなど)シーンを個人よりも協調的に知覚できるが、深層学習では敵の攻撃に苦しむ。 これは敵の防御によって対処できるが、その訓練にはよく知られていない攻撃機構が必要である。 異なる方法として、未確認攻撃者に一般化可能なサンプリングベース防衛戦略であるROBOSACを提案する。 私たちのキーとなる考え方は、協調的な知覚は、個々の知覚よりも結果に不満を抱くよりも、コンセンサスにつながるべきだ、ということです。 知覚の結果は、チームメートのランダムなサブセットとのコラボレーションの有無に関わらず、コンセンサスに達するまで比較されます。 そのようなフレームワークでは、サンプリングされたサブセット内の多くのチームメイトは、しばしばより良い知覚性能を伴うが、潜在的な攻撃を拒否するには、より長いサンプリング時間を必要とする。 したがって、攻撃者フリーのサブセットの所望のサイズを保証するためにどれだけのサンプリング試行が必要か、または、そのサブセットの最大サイズが、所定の数回の試行でうまくサンプリングできるかを導出する。 自律走行シナリオにおける協調的3次元物体検出の課題について,提案手法を検証する。

Multiple robots could perceive a scene (e.g., detect objects) collaboratively better than individuals, although easily suffer from adversarial attacks when using deep learning. This could be addressed by the adversarial defense, but its training requires the often-unknown attacking mechanism. Differently, we propose ROBOSAC, a novel sampling-based defense strategy generalizable to unseen attackers. Our key idea is that collaborative perception should lead to consensus rather than dissensus in results compared to individual perception. This leads to our hypothesize-and-verify framework: perception results with and without collaboration from a random subset of teammates are compared until reaching a consensus. In such a framework, more teammates in the sampled subset often entail better perception performance but require longer sampling time to reject potential attackers. Thus, we derive how many sampling trials are needed to ensure the desired size of an attacker-free subset, or equivalently, the maximum size of such a subset that we can successfully sample within a given number of trials. We validate our method on the task of collaborative 3D object detection in autonomous driving scenarios.
翻訳日:2023-08-22 00:38:37 公開日:2023-08-18
# 拡散型逆境浄化のロバスト評価

Robust Evaluation of Diffusion-Based Adversarial Purification ( http://arxiv.org/abs/2303.09051v2 )

ライセンス: Link先を確認
Minjong Lee, Dongwoo Kim(参考訳) 拡散型浄化法における現状の評価実践に疑問を呈する。 拡散法に基づく浄化法は,テスト時に入力データポイントから逆効果を取り除くことを目的としている。 このアプローチは、トレーニングとテストの切り離しによる敵のトレーニングに代わるものとして、注目を集める。 良く知られたホワイトボックス攻撃は、浄化の堅牢性を測定するためにしばしば用いられる。 しかし,これらの攻撃が拡散による浄化に最も有効であるかどうかは不明である。 本稿は,現在の実践を分析し,敵の攻撃に対する浄化法のロバスト性を評価するための新しいガイドラインを提供する。 そこで本研究では, 従来の拡散法に比べてロバスト性を向上させる新しい浄化法を提案する。

We question the current evaluation practice on diffusion-based purification methods. Diffusion-based purification methods aim to remove adversarial effects from an input data point at test time. The approach gains increasing attention as an alternative to adversarial training due to the disentangling between training and testing. Well-known white-box attacks are often employed to measure the robustness of the purification. However, it is unknown whether these attacks are the most effective for the diffusion-based purification since the attacks are often tailored for adversarial training. We analyze the current practices and provide a new guideline for measuring the robustness of purification methods against adversarial attacks. Based on our analysis, we further propose a new purification strategy improving robustness compared to the current diffusion-based purification methods.
翻訳日:2023-08-22 00:38:15 公開日:2023-08-18
# 3次元マルチクラスセグメンテーションにおける拡散モデル評価のための調整訓練戦略の重要性

Importance of Aligning Training Strategy with Evaluation for Diffusion Models in 3D Multiclass Segmentation ( http://arxiv.org/abs/2303.06040v3 )

ライセンス: Link先を確認
Yunguan Fu and Yiwen Li and Shaheer U. Saeed and Matthew J. Clarkson and Yipeng Hu(参考訳) 近年,画像に条件づけられたセグメンテーションマスクを生成させることにより,画像セグメンテーションに分散拡散確率モデル(ddpm)が適用されている。 本研究では,2つの大規模マルチクラスデータセット(前立腺mr,腹部ct)上でのddpmを用いた3次元マルチクラスセグメンテーションモデルについて検討した。 その結果,既存のDDPM法では訓練方法と試験方法の違いが劣ることがわかった。 この不整合を緩和するため,本研究では,地中真実を使わずに,前段階のモデル予測に基づいて劣化マスクを生成するリサイクル手法を提案する。 提案手法は既存のDDPMと比較して,マスク予測やDice損失,トレーニング中の拡散時間ステップの削減など,列車試験の相違を解消するための多くの技術とは無関係に,統計的に有意に向上した。 拡散モデルの性能は競争力があり、同じ計算予算内では非拡散ベースのU-netと視覚的に類似していた。 JAXベースの拡散フレームワークがhttps://github.com/mathpluscode/ImgX-DiffSegでリリースされた。

Recently, denoising diffusion probabilistic models (DDPM) have been applied to image segmentation by generating segmentation masks conditioned on images, while the applications were mainly limited to 2D networks without exploiting potential benefits from the 3D formulation. In this work, we studied the DDPM-based segmentation model for 3D multiclass segmentation on two large multiclass data sets (prostate MR and abdominal CT). We observed that the difference between training and test methods led to inferior performance for existing DDPM methods. To mitigate the inconsistency, we proposed a recycling method which generated corrupted masks based on the model's prediction at a previous time step instead of using ground truth. The proposed method achieved statistically significantly improved performance compared to existing DDPMs, independent of a number of other techniques for reducing train-test discrepancy, including performing mask prediction, using Dice loss, and reducing the number of diffusion time steps during training. The performance of diffusion models was also competitive and visually similar to non-diffusion-based U-net, within the same compute budget. The JAX-based diffusion framework has been released at https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-08-22 00:37:12 公開日:2023-08-18
# デフォーマ:ロバストハンドポース推定のためのダイナミックフュージョン変換器

Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation ( http://arxiv.org/abs/2303.04991v2 )

ライセンス: Link先を確認
Qichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani(参考訳) 正確に3Dのポーズを推定することは、人間が世界とどのように相互作用するかを理解するのに不可欠だ。 目覚ましい進歩にもかかわらず、既存の方法では、手のこもりが強かったり、ぼやけたりする際に、手のポーズをよく作ろうとする。 ビデオでは、手の動きによって、手の各部分が1つのフレームでぼやけているか、ぼやけているのを観察できる。 強靭な手ポーズ推定の前後の視覚的手がかりを適応的に活用するために,同じ画像内の手の部分(空間次元)と異なる時間ステップ(時間次元)の関係を暗黙的に推論するフレームワークであるDeformerを提案する。 また,特定のフレームにおける動きのぼかしやオクルージョンが手の特徴をゆがめ,不正確なキーやクエリを生成する可能性があるため,トランスフォーマ自着機構のナイーブな適用では不十分であることを示す。 この課題に対処するために,動的融合モジュールをデフォーマに組み込み,手の変形を予測し,近傍のフレームからハンドメッシュ予測を逸脱し,現在のフレーム推定を明示的に支持する。 さらに,指先周辺の頂点は手のひら周辺のものよりも不均等に高い誤差を呈し,各部位に誤差が均一に分散していることが観察された。 我々は、各頂点の重みを自動的に調整し、重要な手の部分に集中するmaxMSEと呼ばれる新しい損失関数を導入することで、この問題を軽減する。 実験の結果,本手法は最先端の手法を10%以上上回り,閉塞性(14%以上)が高いことがわかった。

Accurately estimating 3D hand pose is crucial for understanding how humans interact with the world. Despite remarkable progress, existing methods often struggle to generate plausible hand poses when the hand is heavily occluded or blurred. In videos, the movements of the hand allow us to observe various parts of the hand that may be occluded or blurred in a single frame. To adaptively leverage the visual clue before and after the occlusion or blurring for robust hand pose estimation, we propose the Deformer: a framework that implicitly reasons about the relationship between hand parts within the same image (spatial dimension) and different timesteps (temporal dimension). We show that a naive application of the transformer self-attention mechanism is not sufficient because motion blur or occlusions in certain frames can lead to heavily distorted hand features and generate imprecise keys and queries. To address this challenge, we incorporate a Dynamic Fusion Module into Deformer, which predicts the deformation of the hand and warps the hand mesh predictions from nearby frames to explicitly support the current frame estimation. Furthermore, we have observed that errors are unevenly distributed across different hand parts, with vertices around fingertips having disproportionately higher errors than those around the palm. We mitigate this issue by introducing a new loss function called maxMSE that automatically adjusts the weight of every vertex to focus the model on critical hand parts. Extensive experiments show that our method significantly outperforms state-of-the-art methods by 10%, and is more robust to occlusions (over 14%).
翻訳日:2023-08-22 00:36:25 公開日:2023-08-18
# スケッチに基づく映像オブジェクトの定位

Sketch-based Video Object Localization ( http://arxiv.org/abs/2304.00450v2 )

ライセンス: Link先を確認
Sangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee, Changick Kim(参考訳) 入力スケッチで検索した映像に時空間オブジェクトボックスをローカライズすることを目的とした新しいタスクであるsketch-based video object localization (svol)を提案する。 まず、SVOLタスクの課題の概要を説明し、以下の設計原則でSketch-Video Attention Network(SVANet)を構築します。 (i)映像の時間的情報を考慮して,スケッチと映像のドメイン間ギャップを埋めること。 (ii)複数のオブジェクトを同時に正確に識別し、ローカライズすること (iii)様々な様式のスケッチを扱うこと。 (4)非分類である。 特に、SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、アテンション操作によるビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えており、グローバルなビデオコンテキストを利用してフレーム単位のマッチング戦略を学習する。 新たにキュレートされたSVOLデータセット上でSVANetを評価する。 設計により、svanetはクエリスケッチとビデオオブジェクトのマッピングをうまく学習し、svolベンチマークで最先端の結果を得た。 さらに、広範囲なアブレーション研究と可視化を通してSVANetの有効性を確認する。 最後に,未知のデータセットと新しいカテゴリでその転送能力を示し,実世界のアプリケーションで高いスケーラビリティを示唆する。

We introduce Sketch-based Video Object Localization (SVOL), a new task aimed at localizing spatio-temporal object boxes in video queried by the input sketch. We first outline the challenges in the SVOL task and build the Sketch-Video Attention Network (SVANet) with the following design principles: (i) to consider temporal information of video and bridge the domain gap between sketch and video; (ii) to accurately identify and localize multiple objects simultaneously; (iii) to handle various styles of sketches; (iv) to be classification-free. In particular, SVANet is equipped with a Cross-modal Transformer that models the interaction between learnable object tokens, query sketch, and video through attention operations, and learns upon a per-frame set matching strategy that enables frame-wise prediction while utilizing global video context. We evaluate SVANet on a newly curated SVOL dataset. By design, SVANet successfully learns the mapping between the query sketches and video objects, achieving state-of-the-art results on the SVOL benchmark. We further confirm the effectiveness of SVANet via extensive ablation studies and visualizations. Lastly, we demonstrate its transfer capability on unseen datasets and novel categories, suggesting its high scalability in real-world applications
翻訳日:2023-08-22 00:29:12 公開日:2023-08-18
# 相関位相に対する効率的な変分量子回路構造

Efficient variational quantum circuit structure for correlated topological phases ( http://arxiv.org/abs/2303.17187v2 )

ライセンス: Link先を確認
Rong-Yang Sun, Tomonori Shirakawa, Seiji Yunoki(参考訳) 本稿では,変分量子固有ソルバ(vqe)アルゴリズムに使用される変分量子回路 \textit{ans\"{a}tze} の効率的な回路構造を提案する。 効率的な回路 \textit{Ansatz} は初期化層と変分層という2つの層を含むべきである。 初期化層では、対象位相位相に適合する絡み合い構造を有する固定深さ回路状態が構築される。 その後、回路状態はさらに調整され、パラメータ化された変動層において、ハミルトニアンによって決定される局所相関の詳細をキャプチャする。 この戦略に基づいて, vqe計算により, 共役的位相ハルダン相を分解可能な交代スピン-1/2$ハイゼンベルク鎖で調べるための回路 \textit{ansatz} を設計した。 長い配列の弦の順序、開境界を持つ系の4つの異なる局部的なエッジモードパターンに関連する4つのほぼ退化基底状態、およびエンタングルメントスペクトルの2つの縮退は、数値シミュレーションと実量子コンピュータの両方において1つの深さ変化層しか持たない最適化された浅い回路状態に対して観察される。 さらに、この量子回路 \textit{ansatz} の計算能力(すなわち表現可能性)は、システムのサイズではなく、システムの固有相関長によって決定されるため、スケーラブルなvqe計算が可能であることを示す。

We propose an efficient circuit structure of variational quantum circuit \textit{Ans\"{a}tze} used for the variational quantum eigensolver (VQE) algorithm in calculating gapped topological phases on the currently feasible noisy intermediate-scale quantum computers. An efficient circuit \textit{Ansatz} should include two layers: the initialization layer and the variational layer. In the initialization layer, a fixed depth circuit state with a compatible entanglement structure to the target topological phase is constructed. The circuit state is further adjusted subsequently to capture the details of the local correlations, which is dictated with the Hamiltonian, in the parametrized variational layer. Based on this strategy, we design a circuit \textit{Ansatz} to investigate the symmetry-protected topological Haldane phase in a \textit{non-exactly} solvable alternating spin-$1/2$ Heisenberg chain by VQE calculations. Main characterizations of the Haldane phase, including the long-ranged string order, the four-fold nearly degenerate ground states associated with four different localized edge mode patterns for the system with open boundaries, and the two-fold degeneracy of the entanglement spectrum, are all observed for the optimized shallow circuit state with only one depth variational layer both in numerical simulations and on real quantum computers. We further demonstrate that the computational capacity (i.e., expressibility) of this quantum circuit \textit{Ansatz} is determined not by the system size but only by the intrinsic correlation length of the system, thus implying that the scalable VQE calculation is possible.
翻訳日:2023-08-22 00:28:53 公開日:2023-08-18
# GP-PCS:リーマン多様体上のガウス過程によるワンショット特徴保存点雲の単純化

GP-PCS: One-shot Feature-Preserving Point Cloud Simplification with Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2303.15225v2 )

ライセンス: Link先を確認
Stuti Pathak, Thomas M. McDonald, Rudi Penne(参考訳) 大規模ポイントクラウドの処理,ストレージ,送信は,自動運転や仮想現実,リモートセンシングといった現実環境への3dモデルの適用の進展を妨げる,コンピュータビジョンコミュニティの現在進行中の課題である。 本研究では,従来の表面再構成工程を使わずに,点雲の健全な構造特徴と全体形状の両方を保存できる新しい一発点雲簡略化法を提案する。 本手法では、リーマン多様体上で定義される関数に適したガウス過程を用い、任意の点クラウド上の曲面変動関数をモデル化する。 グリーディスパーシフィケーションスキームを用いて点を順次選択して元の雲の簡易版を得る。 このスキームで使用される選択基準は、単純化された雲が元の点雲の表面の変化を最もよく表すことを保証している。 本手法をいくつかのベンチマークおよび自己獲得ポイントクラウド上で評価し,既存の手法と比較し,登録および表面再構成の下流タスクにおける適用例を示し,経験的性能と計算効率の両面で競合することを示した。

The processing, storage and transmission of large-scale point clouds is an ongoing challenge in the computer vision community which hinders progress in the application of 3D models to real-world settings, such as autonomous driving, virtual reality and remote sensing. We propose a novel, one-shot point cloud simplification method which preserves both the salient structural features and the overall shape of a point cloud without any prior surface reconstruction step. Our method employs Gaussian processes suitable for functions defined on Riemannian manifolds, allowing us to model the surface variation function across any given point cloud. A simplified version of the original cloud is obtained by sequentially selecting points using a greedy sparsification scheme. The selection criterion used for this scheme ensures that the simplified cloud best represents the surface variation of the original point cloud. We evaluate our method on several benchmark and self-acquired point clouds, compare it to a range of existing methods, demonstrate its application in downstream tasks of registration and surface reconstruction, and show that our method is competitive both in terms of empirical performance and computational efficiency.
翻訳日:2023-08-22 00:26:36 公開日:2023-08-18
# ソフトウェア開発教育における生成AIアシスタント: 生成AIを本能的に防御するのではなく、教育実践に統合するためのビジョン

Generative AI Assistants in Software Development Education: A vision for integrating Generative AI into educational practice, not instinctively defending against it ( http://arxiv.org/abs/2303.13936v3 )

ライセンス: Link先を確認
Christopher Bull, Ahmed Kharrufa(参考訳) ソフトウェア開発業界は、別の破壊的なパラダイム変化の最中にある。プログラミングに生成型ai(gai)アシスタントを採用することだ。 AIはすでにソフトウェアエンジニアリングのさまざまな領域で使用されているが、GitHub CopilotやChatGPTといったGAIテクノロジは、人々の想像力(と恐怖)に火をつけている。 業界がどのように適応するかは不明だが、Microsoft(GitHub、Bing)やGoogle(Bard)といった大手ソフトウェア企業によってこれらの技術を統合する動きは、意図と方向性を明確に示している。 私たちは、現在の実践と課題を理解するために、業界専門家と探索的なインタビューを行い、ソフトウェア開発教育の将来というビジョンに組み込んで、教育的なレコメンデーションを実施しました。

The software development industry is amid another disruptive paradigm change - adopting the use of generative AI (GAI) assistants for programming. Whilst AI is already used in various areas of software engineering, GAI technologies, such as GitHub Copilot and ChatGPT, have ignited peoples' imaginations (and fears). It is unclear how the industry will adapt, but the move to integrate these technologies by large software companies, such as Microsoft (GitHub, Bing) and Google (Bard), is a clear indication of intent and direction. We performed exploratory interviews with industry professionals to understand current practice and challenges, which we incorporate into our vision of a future of software development education and make some pedagogical recommendations.
翻訳日:2023-08-22 00:25:42 公開日:2023-08-18
# 位相絶縁層成層球のdyadic greens関数

Dyadic Greens function for a topological insulator stratified sphere ( http://arxiv.org/abs/2304.04572v3 )

ライセンス: Link先を確認
Huai-Yi Xie(参考訳) 電磁気学の枠組みの中で, 位相絶縁体(TI)成層球に対してDGF(Dyadic Greens function)を構築する。 これらのDGFに対して、アキシオンカップリング効果を考慮した追加膨張係数を含む。 これらのDGFの適用により、TI成層球近傍の双極子からの光散乱の定式化が導かれる。 数値解析では, 金属被覆TI球, 金属被覆TI球, 金属被覆TI球, 交互金属めっきTI球) の3種類の構成を与え, TI球のトポロジカル磁力(TME) 応答が金属殻の多極プラズマ共鳴に与える影響について検討した。 これらのタイプについて、TME効果はTI成層球近傍の発光双極子に対する崩壊速度スペクトルのいくつかの変化を引き起こすことを示した。 金属シェルの多極性共鳴では,TMEにより誘導されるボンディングモードと低次アンチボンディングモードの赤方偏移がみられたが,高次アンチボンディングモードのものは重要でない。 また、金属被覆ti球面の場合、誘電関数がバルクまたは5つのクインタプル層(5ql)スラブの形に選択されたtiコアの損失の影響を考慮に入れ、tme誘起減衰率スペクトルのいくつかの修正が明らかに抑制される。 これらの現象学的特徴は、分子蛍光実験によるTME効果の探索に有用である。

We construct the dyadic Greens functions (DGFs) for a topological insulator (TI) stratified sphere within the framework of axion electrodynamics. For these DGFs, the additional expansion coefficients are included to account for the axion coupling effect. With the application of these DGFs, we derive the formulation of light scattering from a dipole near a TI stratified sphere. In our numerical studies, we give three types of configurations (a metal-coated TI sphere, a metal-TI-metal-coated TI sphere and an alternating metal-TI stratified sphere) to investigate how the topological magneto-electric (TME) response of the TI sphere (shells) influences on the multipolar plasmonic resonance of the metal shells. For these types, the results show that the TME effect causes some modifications of the decay rate spectrum for an emitting dipole near a TI stratified sphere. For the multipolar resonances of the metal shells, it is observed that the TME-induced red-shifts for the bonding and lower order antibonding modes are found but those for the higher order antibonding modes are insignificant. In addition, for a metal-coated TI sphere, we take into account the effects of losses in the TI core of which the dielectric function is chosen to be the form of the bulk or five quintuple layers (5QL) slab and then the some modifications of the TME-induced decay rate spectrum are obviously suppressed. These phenomenological characteristics provide useful guidance to probing the TME effect via molecular fluorescence experiments.
翻訳日:2023-08-22 00:19:10 公開日:2023-08-18
# 炭化ケイ素中の炭素クラスターエミッタ

Carbon cluster emitters in silicon carbide ( http://arxiv.org/abs/2304.04197v4 )

ライセンス: Link先を確認
Pei Li, P\'eter Udvarhelyi, Song Li, Bing Huang, and Adam Gali(参考訳) 4H-SiCの欠陥量子ビットは、急速に出現する量子技術分野における多くの応用の優れた候補である。 炭素クラスターは4h-sicの熱酸化後に発生する放出源として作用し、また照射中に炭素原子を放出する。 これらの蛍光性炭素クラスターは、すでに確立された空孔関連量子ビットに干渉する可能性がある。 本研究では, 密度汎関数理論計算を用いて, 4H-SiCで最大4つの炭素原子を含む炭素クラスターの電子構造, 生成エネルギー, 解離エネルギー, 振動特性, フル蛍光スペクトルを系統的に検討した。 これらの炭素クラスターの全ての局所的な構成は慎重に評価される。 炭素クラスターの電子的および振動的性質は4H-SiC格子の局所的な配置に強く依存している。 4H-SiCの炭素クラスターを4H-SiCの安定可視発光体として同定した。 一対の炭素間欠陥は、463nm三重項と456.6nmエミッタの源と同定される。 4H-SiCの471.8nmエミッタは三炭素系アンチサイトクラスターと関連している。 本研究は, 4H-SiCにおける可視光線の起源を解明し, 4H-SiCにおける量子情報処理の応用に役立つ炭素クラスターの構成を提案する。

Defect qubits in 4H-SiC are outstanding candidates for numerous applications in the rapidly emerging field of quantum technology. Carbon clusters can act as emission sources that may appear after thermal oxidation of 4H-SiC or during irradiation which kicks out carbon atoms from their sites. These fluorescent carbon clusters could interfere with the already established vacancy-related qubits that generated with irradiation techniques. In this study, we systematically investigate the electronic structure, formation energy, dissociation energy, vibrational properties, and the full fluorescence spectrum of carbon clusters involving up to four carbon atoms in 4H-SiC by means of density functional theory calculations. All the possible local configurations for these carbon clusters are carefully evaluated. We find the electronic and vibronic properties of the carbon clusters depend strongly on the local configuration of the 4H-SiC lattice. By comparing the calculated and previously observed fluorescence spectra in 4H-SiC, we identify several carbon clusters as stable visible emitters in 4H-SiC. The paired carbon interstitial defects are identified as the source of the 463-nm triplet and the 456.6-nm emitters. The 471.8-nm emitter in 4H-SiC is associated with tri-carbon antisite clusters. Our findings provide plausible explanation for the origin of visible emission lines in 4H-SiC and propose the possible configurations of carbon clusters which are helpful for the quantum information processing application through qubits in 4H-SiC.
翻訳日:2023-08-22 00:18:13 公開日:2023-08-18
# 音声バイオメトリックス研究におけるベンチマークデータセットのダイナミクスとバイアス,プライバシ問題

Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice Biometrics Research ( http://arxiv.org/abs/2304.03858v4 )

ライセンス: Link先を確認
Casandra Rusti, Anna Leschanowsky, Carolyn Quinlan, Michaela Pnacek, Lauriane Gorce, Wiebke Hutiri(参考訳) 話者認識は、銀行、教育、採用、移民、法執行、医療、健康など様々な産業で応用されている音声ベースの生体認証技術である。 しかし、データセットの評価と監査は、顔認識やその他のコンピュータビジョンタスクにおけるデータプラクティスを改善してきたが、話者認識におけるデータプラクティスは、ほとんど疑わしくなかった。 私たちの研究は、データセットの利用が時間とともにどのように進化してきたか、そしてこれが話者認識システムにおけるバイアス、公平性、プライバシーにどのような影響を及ぼすのかを探求することで、このギャップに対処することを目的としています。 これまでの研究では、一般的な話者認識ベンチマークにおける歴史的、表現的、測定バイアスの存在が示されている。 本稿では,2012年から2021年までの訓練と評価に用いる話者認識データセットの縦断的研究を行う。 我々は,話者認識アプローチが深層ニューラルネットワークの普及に移行した重要な期間における,データセットのコミュニティ導入と利用状況の変化を調査するため,700件近い論文を調査した。 本研究は,この分野で最も一般的に使用されるデータセットを特定し,その使用パターンを調査し,バイアス,公平性,その他の倫理的懸念に影響を与える属性を評価する。 以上より,話者認識技術の倫理と公平性に関するさらなる研究分野が示唆された。

Speaker recognition is a widely used voice-based biometric technology with applications in various industries, including banking, education, recruitment, immigration, law enforcement, healthcare, and well-being. However, while dataset evaluations and audits have improved data practices in face recognition and other computer vision tasks, the data practices in speaker recognition have gone largely unquestioned. Our research aims to address this gap by exploring how dataset usage has evolved over time and what implications this has on bias, fairness and privacy in speaker recognition systems. Previous studies have demonstrated the presence of historical, representation, and measurement biases in popular speaker recognition benchmarks. In this paper, we present a longitudinal study of speaker recognition datasets used for training and evaluation from 2012 to 2021. We survey close to 700 papers to investigate community adoption of datasets and changes in usage over a crucial time period where speaker recognition approaches transitioned to the widespread adoption of deep neural networks. Our study identifies the most commonly used datasets in the field, examines their usage patterns, and assesses their attributes that affect bias, fairness, and other ethical concerns. Our findings suggest areas for further research on the ethics and fairness of speaker recognition technology.
翻訳日:2023-08-22 00:17:52 公開日:2023-08-18
# DeepAccident: V2X自動運転の動作と事故予測ベンチマーク

DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving ( http://arxiv.org/abs/2304.01168v3 )

ライセンス: Link先を確認
Tianqi Wang, Sukmin Kim, Wenxuan Ji, Enze Xie, Chongjian Ge, Junsong Chen, Zhenguo Li, Ping Luo(参考訳) 安全は自動運転の優先事項である。 それでも、現在公表されているデータセットは、自律運転の直接的かつ説明可能な安全性評価をサポートしていない。 本研究では,実世界の運転時に頻繁に発生する多様な事故シナリオを含む現実的なシミュレータを用いて生成された大規模データセットであるdeepaccidentを提案する。 提案したDeepAccidentデータセットは,57Kの注釈付きフレームと285Kの注釈付きサンプルを含む。 さらに,異なる自律運転アルゴリズムの事故予測能力を直接評価するために,エンド・ツー・エンド動作と事故予測という新たなタスクを提案する。 さらに,各シナリオに対して,データ記録のための4台の車両と1台のインフラを設定し,事故シナリオの多様な視点を提供し,V2X(車間通信)による知覚と予測タスクの実現を可能にした。 最後に,V2XFormerと呼ばれるベースラインV2Xモデルを提案する。

Safety is the primary priority of autonomous driving. Nevertheless, no published dataset currently supports the direct and explainable safety evaluation for autonomous driving. In this work, we propose DeepAccident, a large-scale dataset generated via a realistic simulator containing diverse accident scenarios that frequently occur in real-world driving. The proposed DeepAccident dataset includes 57K annotated frames and 285K annotated samples, approximately 7 times more than the large-scale nuScenes dataset with 40k annotated samples. In addition, we propose a new task, end-to-end motion and accident prediction, which can be used to directly evaluate the accident prediction ability for different autonomous driving algorithms. Furthermore, for each scenario, we set four vehicles along with one infrastructure to record data, thus providing diverse viewpoints for accident scenarios and enabling V2X (vehicle-to-everything) research on perception and prediction tasks. Finally, we present a baseline V2X model named V2XFormer that demonstrates superior performance for motion and accident prediction and 3D object detection compared to the single-vehicle model.
翻訳日:2023-08-22 00:17:01 公開日:2023-08-18
# メソスコピックキャビティ-QEDシステムにおける深い光・物質相互作用の非摂動効果

Non-perturbative effects of deep-strong light-matter interaction in a mesoscopic cavity-QED system ( http://arxiv.org/abs/2304.00805v3 )

ライセンス: Link先を確認
Andrey Kudlis, Denis Novokreschenov, Ivan Iorsh, Ilya Tokatly(参考訳) 量子ダイマーの2つの群を共通の電磁空洞に配置し、その群のいずれかに静的外部電位を選択的に印加することにより制御するシステムを考える。 真空電磁ゆらぎへの強い結合の過程において、二量体間の創発的な光子アシスト相互作用は、第2群に適用されるポテンシャルに対する第1の偏りのない二量体群の強い非線形量子化クロスポーラライゼーション応答をもたらすことを示す。 全体分極は、数と位置が群内の二量体の数のパリティに依存するような、ほぼ理想的なステップの連続を示す。 この非摂動効果は、有限個のダイマーからなるメソスコピック系の特徴的な特徴であり、一般化されたディッケモデルの予測によく用いられる熱力学的極限で消失する。

We consider a system comprising two groups of quantum dimers placed in a common electromagnetic cavity, and controlled by selectively applying a static external potential to one of the groups. We show that in the regime of deep strong coupling to vacuum electromagnetic fluctuations, the emergent photon-assisted interaction between the dimers leads to a strongly non-linear quantized cross-polarization response of the first, unbiased group of dimers to the potential applied to the second group. The total polarization shows a series of almost ideal steps whose number and position depends on the parity of the numbers of dimers in the groups. This non-perturbative effect is a distinctive feature of mesoscopic systems comprising finite number of dimers and disappears in the thermodynamic limit which is commonly used in the desciption of the generalized Dicke models.
翻訳日:2023-08-22 00:16:43 公開日:2023-08-18
# 摂動散乱におけるエントロピー成長について

On Entropy Growth in Perturbative Scattering ( http://arxiv.org/abs/2304.13052v2 )

ライセンス: Link先を確認
Clifford Cheung, Temple He, Allic Sivaramakrishnan(参考訳) 熱力学の第2法則に触発されて,二成分系における生成状態の動的ユニタリ進化によって生じるサブシステムエントロピーの変化を考察する。 摂動相互作用における先行次数において、サブシステムの量子$n$-Tsallisエントロピーが決して減少しないことを証明し、サブシステムが等確率状態の統計的混合として初期化されることを条件として、$\Delta S_n \geq 0$ とする。 これは任意のインタラクションの選択と補完サブシステムの初期化に対して当てはまる。 初期状態のこの条件が破られるとき、常に「マクスウェルの悪魔」過程を明示的に構築し、サブシステムのエントロピーを下げる、$\Delta S_n < 0$ を明示的に構成することができる。 注目すべきは、粒子散乱の場合、$n$-Tsallisエントロピーに対応する回路図は、現代の散乱振幅プログラムで現れるオンシェル図と同じであり、$\Delta S_n \geq 0$ は断面の非負性と密接に関連していることである。

Inspired by the second law of thermodynamics, we study the change in subsystem entropy generated by dynamical unitary evolution of a product state in a bipartite system. Working at leading order in perturbative interactions, we prove that the quantum $n$-Tsallis entropy of a subsystem never decreases, $\Delta S_n \geq 0$, provided that subsystem is initialized as a statistical mixture of states of equal probability. This is true for any choice of interactions and any initialization of the complementary subsystem. When this condition on the initial state is violated, it is always possible to explicitly construct a "Maxwell's demon" process that decreases the subsystem entropy, $\Delta S_n < 0$. Remarkably, for the case of particle scattering, the circuit diagrams corresponding to $n$-Tsallis entropy are the same as the on-shell diagrams that have appeared in the modern scattering amplitudes program, and $\Delta S_n \geq 0$ is intimately related to the nonnegativity of cross-sections.
翻訳日:2023-08-22 00:07:10 公開日:2023-08-18
# 大規模経済派遣のためのエンドツーエンド実現可能な最適化プロキシ

End-to-End Feasible Optimization Proxies for Large-Scale Economic Dispatch ( http://arxiv.org/abs/2304.11726v2 )

ライセンス: Link先を確認
Wenbo Chen and Mathieu Tanneau and Pascal Van Hentenryck(参考訳) 本稿では、経済派遣問題に対する最適化プロキシを訓練するための新しいエンドツーエンド学習・修復(e2elr)アーキテクチャを提案する。 E2ELRは、ディープニューラルネットワークとクローズドフォームで微分可能な修復層を組み合わせることで、エンドツーエンドで学習と実現性を統合する。 E2ELRはまた、ラベル付きデータの必要性を排除し、多くの最適化問題をオフラインで解決する自己教師型学習で訓練されている。 e2elrは、エネルギーと貯蓄を共最適化する経済ディスパッチを使用して、数万のバスを持つ業界規模の電力網で評価される。 その結果、自己監督型E2ELRは、少なくとも1桁の精度で他のベースラインを上回る最適性ギャップを有する最先端性能を達成できることを示した。

The paper proposes a novel End-to-End Learning and Repair (E2ELR) architecture for training optimization proxies for economic dispatch problems. E2ELR combines deep neural networks with closed-form, differentiable repair layers, thereby integrating learning and feasibility in an end-to-end fashion. E2ELR is also trained with self-supervised learning, removing the need for labeled data and the solving of numerous optimization problems offline. E2ELR is evaluated on industry-size power grids with tens of thousands of buses using an economic dispatch that co-optimizes energy and reserves. The results demonstrate that the self-supervised E2ELR achieves state-of-the-art performance, with optimality gaps that outperform other baselines by at least an order of magnitude.
翻訳日:2023-08-22 00:06:09 公開日:2023-08-18
# darswin:歪みを考慮したラジアルスウィン変圧器

DarSwin: Distortion Aware Radial Swin Transformer ( http://arxiv.org/abs/2304.09691v2 )

ライセンス: Link先を確認
Akshaya Athwale, Arman Afrasiyabi, Justin Lague, Ichrak Shili, Ola Ahmad and Jean-Francois Lalonde(参考訳) 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。 残念ながら、これらのレンズは、広角画像に適応できない歪み効果を無視する従来のモデルに顕著な歪みをもたらす。 本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。 我々は、放射歪プロファイルによって解析的に定義されるようなレンズの物理的特性を利用して、歪みを意識した放射歪変換器(DarSwin)を開発する。 従来のトランスフォーマーベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニング、トークン埋め込みを作成するための歪みベースのサンプリング技術、ラジアルパッチマージのための角位置エンコーディングを備えている。 本研究では,合成歪画像ネットデータを用いて分類課題の検証を行い,darswin が異なる広角レンズの非知覚歪みに対してゼロショット適応できることを示す。 他のベースラインと比較すると、darswinは(top-1の正確さで)最高の結果を達成し、限定された歪(非常に低い、低い、中、高い)のレベルを訓練し、分散歪を含むすべてでテストした。 コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。

Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. We leverage the physical characteristics of such lenses, which are analytically defined by the radial distortion profile (assumed to be known), to develop a distortion aware radial swin transformer (DarSwin). In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. We validate our method on classification tasks using synthetically distorted ImageNet data and show through extensive experiments that DarSwin can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. Compared to other baselines, DarSwin achieves the best results (in terms of Top-1 accuracy) with significant gains when trained on bounded levels of distortions (very-low, low, medium, and high) and tested on all including out-of-distribution distortions. The code and models are publicly available at https://lvsn.github.io/darswin/
翻訳日:2023-08-22 00:05:48 公開日:2023-08-18
# covlr:視覚言語検索のためのクロスモーダル一貫性とイントラモーダル構造のコーディネート

CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval ( http://arxiv.org/abs/2304.07567v2 )

ライセンス: Link先を確認
Yang Yang, Zhongtian Fu, Xiangyu Wu, Wenjie Li(参考訳) 現在の視覚言語検索は、一貫した視覚言語表現を学習する中心となる概念であるクロスモーダルなインスタンス探索を行うことを目的としている。 深いモデルの開発によってクロスモーダル検索の性能は大幅に向上したが、残念ながら従来のハード一貫性はシングルモーダルインスタンス間の元の関係を破壊し、シングルモーダル検索のパフォーマンス低下につながる可能性がある。 To address this challenge, in this paper, we experimentally observe that the vision-language divergence may cause the existence of strong and weak modalities, and the hard cross-modal consistency cannot guarantee that strong modal instances' relationships are not affected by weak modality, resulting in the strong modal instances' relationships perturbed despite learned consistent representations.To this end, we propose a novel and directly Coordinated VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and alleviate the desynchrony problem between the cross-modal alignment and single-modal cluster-preserving tasks. CoVLRはこの課題に対処するため, クロスモーダル整合性目標とイントラモーダル関係保存目標をメタトレインおよびメタテストタスクとして動作させることにより, 両タスクを協調的に最適化する効果的なメタ最適化戦略を開発する。 その結果,クロスモーダル一貫性とイントラモーダル構造を同時に保証できる。 異なるデータセットの実験により、CoVLRはベースラインと比較してクロスモーダル検索能力を保ちながら、単一モーダル検索精度を向上させることができる。

Current vision-language retrieval aims to perform cross-modal instance search, in which the core idea is to learn the consistent visionlanguage representations. Although the performance of cross-modal retrieval has greatly improved with the development of deep models, we unfortunately find that traditional hard consistency may destroy the original relationships among single-modal instances, leading the performance degradation for single-modal retrieval. To address this challenge, in this paper, we experimentally observe that the vision-language divergence may cause the existence of strong and weak modalities, and the hard cross-modal consistency cannot guarantee that strong modal instances' relationships are not affected by weak modality, resulting in the strong modal instances' relationships perturbed despite learned consistent representations.To this end, we propose a novel and directly Coordinated VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and alleviate the desynchrony problem between the cross-modal alignment and single-modal cluster-preserving tasks. CoVLR addresses this challenge by developing an effective meta-optimization based strategy, in which the cross-modal consistency objective and the intra-modal relation preserving objective are acted as the meta-train and meta-test tasks, thereby CoVLR encourages both tasks to be optimized in a coordinated way. Consequently, we can simultaneously insure cross-modal consistency and intra-modal structure. Experiments on different datasets validate CoVLR can improve single-modal retrieval accuracy whilst preserving crossmodal retrieval capacity compared with the baselines.
翻訳日:2023-08-22 00:05:25 公開日:2023-08-18
# CLIPはレッドサークルについて何を知っていますか? VLMのためのビジュアルプロンプトエンジニアリング

What does CLIP know about a red circle? Visual prompt engineering for VLMs ( http://arxiv.org/abs/2304.06712v2 )

ライセンス: Link先を確認
Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi(参考訳) CLIPのような大規模ビジョンランゲージモデルは、ゼロショット分類からテキスト・ツー・イメージ生成に至るまで、多数のアプリケーションを発見した強力な画像テキスト表現を学習する。 それにもかかわらず、GPT-3のような大規模言語モデルに後れを取って、新しい差別的タスクを解く能力がある。 ここでは,テキストではなく画像空間で編集することにより,分類以外のコンピュータビジョンの課題を解決するビジュアルプロンプトエンジニアリングの考え方を検討する。 特に、CLIPの創発的な能力は、単にオブジェクトの周りに赤い円を描くことで、その領域にモデルの注意を向けると同時に、グローバルな情報を維持することができる。 ゼロショット参照表現の理解とキーポイントローカライゼーションタスクにおける強力なパフォーマンスを実現することにより,この単純なアプローチのパワーを示す。 最後に、大きな言語ビジョンモデルの潜在的な倫理的懸念に注意を向ける。

Large-scale Vision-Language Models, such as CLIP, learn powerful image-text representations that have found numerous applications, from zero-shot classification to text-to-image generation. Despite that, their capabilities for solving novel discriminative tasks via prompting fall behind those of large language models, such as GPT-3. Here we explore the idea of visual prompt engineering for solving computer vision tasks beyond classification by editing in image space instead of text. In particular, we discover an emergent ability of CLIP, where, by simply drawing a red circle around an object, we can direct the model's attention to that region, while also maintaining global information. We show the power of this simple approach by achieving state-of-the-art in zero-shot referring expressions comprehension and strong performance in keypoint localization tasks. Finally, we draw attention to some potential ethical concerns of large language-vision models.
翻訳日:2023-08-22 00:05:01 公開日:2023-08-18
# 不確かさ量子化モデルによるモデルステアリングの限界について

On the Limitations of Model Stealing with Uncertainty Quantification Models ( http://arxiv.org/abs/2305.05293v2 )

ライセンス: Link先を確認
David Pape, Sina D\"aubener, Thorsten Eisenhofer, Antonio Emanuele Cin\`a, Lea Sch\"onherr(参考訳) モデルステルスは、オリジナルのトレーニングコストのごく一部で犠牲者モデルの機能を推測することを目的としている。 目標は明確であるが、実際には、モデルのアーキテクチャ、重量寸法、元のトレーニングデータは正確には決定できないため、盗みの間に相互不確実性が生じる。 本研究では,複数の可能なネットワークを生成し,それらの予測を組み合わせることで,盗難モデルの品質を向上させることにより,この不確実性に明示的に対処する。 そこで本研究では,5つの不確実性定量化モデルをモデル盗みタスクで比較した。 驚くべきことに、これらのモデルが、盗まれたモデルに対するラベルの合意(すなわち忠実性)に関して限界的な改善をもたらすだけであることを示している。 この原因を明らかにするために,予測分散を訓練イテレーションの関数として捉え,モデル予測の多様性を検証した。 トレーニング中、モデルには同様の予測がある傾向があり、不確実性定量化モデルを使用したネットワークの多様性は、モデル盗難タスクを改善するのに十分ではない(高い)ことを示す。

Model stealing aims at inferring a victim model's functionality at a fraction of the original training cost. While the goal is clear, in practice the model's architecture, weight dimension, and original training data can not be determined exactly, leading to mutual uncertainty during stealing. In this work, we explicitly tackle this uncertainty by generating multiple possible networks and combining their predictions to improve the quality of the stolen model. For this, we compare five popular uncertainty quantification models in a model stealing task. Surprisingly, our results indicate that the considered models only lead to marginal improvements in terms of label agreement (i.e., fidelity) to the stolen model. To find the cause of this, we inspect the diversity of the model's prediction by looking at the prediction variance as a function of training iterations. We realize that during training, the models tend to have similar predictions, indicating that the network diversity we wanted to leverage using uncertainty quantification models is not (high) enough for improvements on the model stealing task.
翻訳日:2023-08-21 23:58:04 公開日:2023-08-18
# 符号なし原理からの量子クローニングの基本的限界

Fundamental limits on quantum cloning from the no-signalling principle ( http://arxiv.org/abs/2305.02002v2 )

ライセンス: Link先を確認
Yanglin Hu and Marco Tomamichel(参考訳) no-cloning定理は量子暗号の基盤である。 ここでは,確率的および決定論的クローニング機械の到達可能な最大忠実性について,より弱い仮定の下で一般化し,再帰的に評価する。 gisin [phys.~lett.~a, 1998] のアイデアに基づいて, 遠隔状態の準備が可能で, 非署名原理が成り立つ限り, 量子力学の法則に従わないクローンマシンにおいても結果が得られた。 一般定理を量子暗号に興味を持ついくつかの状態の部分集合に適用する。

The no-cloning theorem is a cornerstone of quantum cryptography. Here we generalize and rederive under weaker assumptions various upper bounds on the maximum achievable fidelity of probabilistic and deterministic cloning machines. Building on ideas by Gisin [Phys.~Lett.~A, 1998], our results hold even for cloning machines that do not obey the laws of quantum mechanics, as long as remote state preparation is possible and the non-signalling principle holds. We apply our general theorem to several subsets of states that are of interest in quantum cryptography.
翻訳日:2023-08-21 23:57:03 公開日:2023-08-18
# NASimEmu:新しいシナリオを一般化した訓練エージェントのためのネットワーク攻撃シミュレータとエミュレータ

NASimEmu: Network Attack Simulator & Emulator for Training Agents Generalizing to Novel Scenarios ( http://arxiv.org/abs/2305.17246v2 )

ライセンス: Link先を確認
Jarom\'ir Janisch, Tom\'a\v{s} Pevn\'y, Viliam Lis\'y(参考訳) 現在の攻撃的侵入テストエージェントを訓練するためのフレームワーク 深層強化学習は、シミュレーションベースのフレームワークの現実のギャップとエミュレーションベースのフレームワークのスケーラビリティの欠如により、現実世界のシナリオでうまく機能するエージェントを作成するのに苦労している。 さらに、既存のフレームワークは、トレーニングデータ上でエージェントのパフォーマンスを測定する非現実的なメトリクスを使用することが多い。 この論文で紹介された新しいフレームワークであるnasimemuは、シミュレータとエミュレータの両方に共有インターフェースを提供することで、これらの問題に対処している。 このアプローチでは、エージェントをシミュレーションでトレーニングし、エミュレータにデプロイすることで、使用済みの抽象化のリアリズムを検証することができる。 本フレームワークは,トレーニング中に見つからない新たなシナリオに移行可能な汎用エージェントの開発を促進する。 シミュレーション部では,既存のシミュレータnasimを採用し,その現実性を高める。 エミュレータは、Vagrant、VirtualBox、Metasploitといった業界レベルのツールで実装されている。 実験では,シミュレーション学習エージェントをエミュレーションにデプロイできることを示し,このフレームワークを用いて,新しい,構造的に異なるシナリオに移行する汎用エージェントをトレーニングする方法を示す。 NASimEmuはオープンソースとして利用可能である。

Current frameworks for training offensive penetration testing agents with deep reinforcement learning struggle to produce agents that perform well in real-world scenarios, due to the reality gap in simulation-based frameworks and the lack of scalability in emulation-based frameworks. Additionally, existing frameworks often use an unrealistic metric that measures the agents' performance on the training data. NASimEmu, a new framework introduced in this paper, addresses these issues by providing both a simulator and an emulator with a shared interface. This approach allows agents to be trained in simulation and deployed in the emulator, thus verifying the realism of the used abstraction. Our framework promotes the development of general agents that can transfer to novel scenarios unseen during their training. For the simulation part, we adopt an existing simulator NASim and enhance its realism. The emulator is implemented with industry-level tools, such as Vagrant, VirtualBox, and Metasploit. Experiments demonstrate that a simulation-trained agent can be deployed in emulation, and we show how to use the framework to train a general agent that transfers into novel, structurally different scenarios. NASimEmu is available as open-source.
翻訳日:2023-08-21 23:48:02 公開日:2023-08-18
# KeyPosS: GPSによるTrue-Range Multilaterationによるプラグアンドプレイ顔画像検出

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration ( http://arxiv.org/abs/2305.16437v2 )

ライセンス: Link先を確認
Xu Bao, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) 顔分析の分野では、顔認識や表情分析からアニメーションまで、さまざまな応用において正確なランドマーク検出が重要である。 しかし、従来のヒートマップや座標回帰に基づく手法は計算負荷や量子化誤差の点でしばしば問題に直面している。 これらの問題に対処するために、KeyPoint Positioning System (KeyPosS) という、既存の手法とは違い画期的な顔のランドマーク検出フレームワークを紹介します。 このフレームワークは完全畳み込みネットワークを利用して距離マップを予測し、poi(point of interest)と複数のアンカーポイントの間の距離を計算する。 これらのアンカーポイントは、True-range Multilaterationアルゴリズムを通じてPOIの位置を三角測量するために巧妙に活用される。 特に、KeyPosSのプラグ&プレイの性質は、任意のデコードステージへのシームレスな統合を可能にし、汎用的で適応可能なソリューションを保証する。 我々は、4つの異なるデータセットの最先端モデルと比較し、KeyPosSの性能を徹底的に評価した。 その結果、KeyPosSは低解像度設定でリードメソッドを著しく上回り、時間オーバーヘッドは最小限であることがわかった。 コードはhttps://github.com/zhiqic/keypossで入手できる。

In the realm of facial analysis, accurate landmark detection is crucial for various applications, ranging from face recognition and expression analysis to animation. Conventional heatmap or coordinate regression-based techniques, however, often face challenges in terms of computational burden and quantization errors. To address these issues, we present the KeyPoint Positioning System (KeyPosS) - a groundbreaking facial landmark detection framework that stands out from existing methods. The framework utilizes a fully convolutional network to predict a distance map, which computes the distance between a Point of Interest (POI) and multiple anchor points. These anchor points are ingeniously harnessed to triangulate the POI's position through the True-range Multilateration algorithm. Notably, the plug-and-play nature of KeyPosS enables seamless integration into any decoding stage, ensuring a versatile and adaptable solution. We conducted a thorough evaluation of KeyPosS's performance by benchmarking it against state-of-the-art models on four different datasets. The results show that KeyPosS substantially outperforms leading methods in low-resolution settings while requiring a minimal time overhead. The code is available at https://github.com/zhiqic/KeyPosS.
翻訳日:2023-08-21 23:47:26 公開日:2023-08-18
# オープンワールド環境における意味的シーン理解への公平連続学習アプローチ

Fairness Continual Learning Approach to Semantic Scene Understanding in Open-World Environments ( http://arxiv.org/abs/2305.15700v2 )

ライセンス: Link先を確認
Thanh-Dat Truong, Hoang-Quan Nguyen, Bhiksha Raj, Khoa Luu(参考訳) 連続的なセマンティックセグメンテーションは、以前のクラスからの情報を維持しながら新しいクラスを学ぶことを目的としている。 先行研究は近年顕著な進歩を見せているが、連続的なセマンティックセグメンテーションにおける公平性の懸念に対処する必要がある。 一方、フェアネスはディープラーニングモデルをデプロイする上で、特に人間や安全に関するアプリケーションにおいて、最も重要な要素の1つです。 本稿では,意味的セグメンテーション問題に対するフェアネス連続学習手法を提案する。 特に、フェアネス目標の下では、クラス分布に基づく新しいフェアネス連続学習フレームワークが提案されている。 次に,連続学習における重要な課題,すなわち破滅的な忘れ方と背景シフトに対処するために,新しい先駆的コントラストクラスタリング損失を提案する。 提案した損失は, 継続学習によく用いられる知識蒸留の新たな一般化学習パラダイムとして証明されている。 さらに,提案した条件構造整合性損失は,予測セグメンテーションの構造制約をさらに規則化した。 提案手法は,ADE20K,Cityscapes,Pascal VOCの3つの標準シーン理解ベンチマーク上での最先端性能を実現し,セグメンテーションモデルの公平性を向上した。

Continual semantic segmentation aims to learn new classes while maintaining the information from the previous classes. Although prior studies have shown impressive progress in recent years, the fairness concern in the continual semantic segmentation needs to be better addressed. Meanwhile, fairness is one of the most vital factors in deploying the deep learning model, especially in human-related or safety applications. In this paper, we present a novel Fairness Continual Learning approach to the semantic segmentation problem. In particular, under the fairness objective, a new fairness continual learning framework is proposed based on class distributions. Then, a novel Prototypical Contrastive Clustering loss is proposed to address the significant challenges in continual learning, i.e., catastrophic forgetting and background shift. Our proposed loss has also been proven as a novel, generalized learning paradigm of knowledge distillation commonly used in continual learning. Moreover, the proposed Conditional Structural Consistency loss further regularized the structural constraint of the predicted segmentation. Our proposed approach has achieved State-of-the-Art performance on three standard scene understanding benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC, and promoted the fairness of the segmentation model.
翻訳日:2023-08-21 23:47:04 公開日:2023-08-18
# 部分データからのカオス力学の再構成,予測,安定性

Reconstruction, forecasting, and stability of chaotic dynamics from partial data ( http://arxiv.org/abs/2305.15111v2 )

ライセンス: Link先を確認
Elise \"Ozalp and Georgios Margazoglou and Luca Magri(参考訳) 部分的観測によるカオスシステムの安定性の予測と計算は、従来の方程式に基づく方法が適さないタスクである。 本稿では,データ駆動方式を提案する。 (i)観測されていない(隠された)カオス変数のダイナミクスを推測する(フルステート再構成) 二 完全状態の進化を予知すること、及び (iii)全状態の安定性を推定する。 タスクは、長い短期記憶(LSTM)ネットワークで実行され、状態の一部に制限された観測(データ)で訓練される。 (i)低分解能LSTM(LH-LSTM)は、トレーニング入力として部分的な観察を行い、損失を計算する際にシステム全体の状態にアクセスする必要がある。 (II) 物理インフォームドLSTM (PI-LSTM) は、部分的な観測と力学系の進化方程式の積分的な定式化を組み合わせたものである。 まず、我々は lstms のヤコビアンを導出する。 第二に、カオス偏微分方程式、倉本-シヴァシンスキー(KS)およびローレンツ-96系を解析する。 提案するネットワークは,時間的および統計的に隠れた変数を予測できることを示す。 カオス的アトラクタの安定性を特徴づけるリアプノフ指数と共変リアプノフベクトルは、部分的観測から正しく推測される。 第3に、PI-LSTMは、入力次元が小さい場合や、アトラクターのKaplan-Yorke次元に類似する場合に隠れたカオス力学を再構築し、LH-LSTMより優れる。 この研究は、完全な状態を再構築し、隠れた変数を推論し、部分的なデータからカオスシステムの安定性を計算する新しい機会を開く。

The forecasting and computation of the stability of chaotic systems from partial observations are tasks for which traditional equation-based methods may not be suitable. In this computational paper, we propose data-driven methods to (i) infer the dynamics of unobserved (hidden) chaotic variables (full-state reconstruction); (ii) time forecast the evolution of the full state; and (iii) infer the stability properties of the full state. The tasks are performed with long short-term memory (LSTM) networks, which are trained with observations (data) limited to only part of the state: (i) the low-to-high resolution LSTM (LH-LSTM), which takes partial observations as training input, and requires access to the full system state when computing the loss; and (ii) the physics-informed LSTM (PI-LSTM), which is designed to combine partial observations with the integral formulation of the dynamical system's evolution equations. First, we derive the Jacobian of the LSTMs. Second, we analyse a chaotic partial differential equation, the Kuramoto-Sivashinsky (KS), and the Lorenz-96 system. We show that the proposed networks can forecast the hidden variables, both time-accurately and statistically. The Lyapunov exponents and covariant Lyapunov vectors, which characterize the stability of the chaotic attractors, are correctly inferred from partial observations. Third, the PI-LSTM outperforms the LH-LSTM by successfully reconstructing the hidden chaotic dynamics when the input dimension is smaller or similar to the Kaplan-Yorke dimension of the attractor. This work opens new opportunities for reconstructing the full state, inferring hidden variables, and computing the stability of chaotic systems from partial data.
翻訳日:2023-08-21 23:46:44 公開日:2023-08-18
# 量子電気力学の枠組みにおけるアハロノフ・ボーム相のゲージ依存性

Gauge dependence of the Aharonov-Bohm phase in a quantum electrodynamics framework ( http://arxiv.org/abs/2305.13995v3 )

ライセンス: Link先を確認
A. Hayashi(参考訳) Aharonov-Bohm (AB) 相は通常、ソレノイドのような外部電流源によって生成される電磁ベクトルポテンシャルの線積分と関連付けられる。 この解釈によれば、積分はベクトルポテンシャルのゲージ選択に依存するため、非閉経路のAB位相は観測できない。 荷電粒子と外部電流の相互作用によるAB効果を説明する最近の試みは、量子光子の交換によるものであり、AB相のシフトは荷電粒子と外部電流源との相互作用エネルギーの変化に比例すると仮定されている。 その結果、これらの試みは、経路に沿ったab相変化はゲージの選択に依存しず、非閉経路のab相シフトは原則的に測定可能であると主張する。 本稿では,この主張を批判的に検証し,この手法により得られた位相が実際にゲージ依存であり,非閉路の観測可能でないことを示す。 また,非閉鎖経路のAB位相シフトを観測するための提案実験について,簡単な批判的考察を行った。

The Aharonov-Bohm (AB) phase is usually associated with a line integral of the electromagnetic vector potential generated by an external current source, such as a solenoid. According to this interpretation, the AB phase of a nonclosed path cannot be observed, as the integral depends on the gauge choice of the vector potential. Recent attempts to explain the AB effect through the interaction between a charged particle and an external current, mediated by the exchange of quantum photons, have assumed that the AB phase shift is proportional to the change in interaction energy between the charged particle and the external current source. As a result, these attempts argue that the AB phase change along a path does not depend on the gauge choice, and that the AB phase shift for a nonclosed path is in principle measurable. In this paper, we critically examine this claim and demonstrate that the phase obtained through this approach is actually gauge-dependent and not an observable for a nonclosed path. We also provide a brief critical discussion of the proposed experiment for observing the AB phase shift of a nonclosed path.
翻訳日:2023-08-21 23:46:17 公開日:2023-08-18
# syncdiffusion:同期ジョイント拡散によるコヒーレントモンタージュ

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions ( http://arxiv.org/abs/2306.05178v2 )

ライセンス: Link先を確認
Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung(参考訳) 事前訓練された画像拡散モデルの顕著な機能は、固定サイズ画像の生成だけでなく、パノラマの作成にも利用されてきた。 しかし、複数の画像を縫い合わせると、しばしば目に見える縫い目が生じる。 近年,複数ウィンドウで共同拡散を行い,重なり合う領域で遅延特性を平均化する手法が提案されている。 しかし、シームレスなモンタージュ生成に焦点をあてたこれらのアプローチは、1つの画像に異なるシーンを混ぜることで、しばしば不整合出力をもたらす。 この制限を克服するため,我々は,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグアンドプレイモジュールであるsyncdiffusionを提案する。 具体的には,各音化ステップで予測された音化画像を用いて知覚損失の勾配を算出し,コヒーレントモンタージュを実現するための有意義なガイダンスを提供する。 実験結果から,提案手法は従来手法に比べて一貫性が向上し(ユーザ調査では66.35%対33.65%),忠実度(GIQAによる評価)と入力プロンプトとの整合性(CLIPスコアによる評価)は維持されていることがわかった。

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).
翻訳日:2023-08-21 23:40:18 公開日:2023-08-18
# ド・ノボの医薬品設計におけるバランシングと爆発:$\beta$-CVAE

Balancing Exploration and Exploitation: Disentangled $\beta$-CVAE in De Novo Drug Design ( http://arxiv.org/abs/2306.01683v2 )

ライセンス: Link先を確認
Guang Jun Nicholas Ang, De Tao Irwin Chin and Bingquan Shen(参考訳) 深層生成モデルは最近、有望なデ・ノボ薬物設計法として登場した。 CVAEモデル(Deep Generative Conditional Variational Autoencoder)は、薬物のような性質を持つ新規分子を生成するための強力なアプローチである。 しかし、乱れと多変量明示的な潜伏条件を持つ分子グラフに基づくモデルは完全に解明されていない。 これに対処するため,我々は分子グラフ $\beta$-cvae モデルを提案した。 ここでは, 乱れの値を実験的に調整し, 最適化された単変量または多変量の性質を持つ分子を生成する能力を評価した。 特に,オクタノール水分配係数 (clogp), モル屈折率 (cmr), 薬物類似度の定量的推定 (qed), 合成アクセシビリティスコア (sas) を最適化した。 その結果、より低い$\beta$値が生成分子の特異性(探索)を高めることが示唆された。 その結果,clogp = 41.07%$\pm$ 0.01%,cmr 66.76%$\pm$ 0.01%の分子特性平均が生成した。 多変量特性最適化の結果, 両特性とも平均30.07%$\pm$0.01%分子が得られた。 さらに,本モデルは生成分子のQEDおよびSAS(Exploitation)を改善した。 これらの結果は、$\beta$-CVAEが解離による探索と搾取のバランスをとることを示唆し、デ・ノボの薬物設計の有望なモデルであり、将来の研究の基礎となることを示唆している。

Deep generative models have recently emerged as a promising de novo drug design method. In this respect, deep generative conditional variational autoencoder (CVAE) models are a powerful approach for generating novel molecules with desired drug-like properties. However, molecular graph-based models with disentanglement and multivariate explicit latent conditioning have not been fully elucidated. To address this, we proposed a molecular-graph $\beta$-CVAE model for de novo drug design. Here, we empirically tuned the value of disentanglement and assessed its ability to generate molecules with optimised univariate- or-multivariate properties. In particular, we optimised the octanol-water partition coefficient (ClogP), molar refractivity (CMR), quantitative estimate of drug-likeness (QED), and synthetic accessibility score (SAS). Results suggest that a lower $\beta$ value increases the uniqueness of generated molecules (exploration). Univariate optimisation results showed our model generated molecular property averages of ClogP = 41.07% $\pm$ 0.01% and CMR 66.76% $\pm$ 0.01% by the Ghose filter. Multivariate property optimisation results showed that our model generated an average of 30.07% $\pm$ 0.01% molecules for both desired properties. Furthermore, our model improved the QED and SAS (exploitation) of molecules generated. Together, these results suggest that the $\beta$-CVAE could balance exploration and exploitation through disentanglement and is a promising model for de novo drug design, thus providing a basis for future studies.
翻訳日:2023-08-21 23:38:51 公開日:2023-08-18
# ビジョンランゲージ事前学習のためのデータ削減

Too Large; Data Reduction for Vision-Language Pre-Training ( http://arxiv.org/abs/2305.20087v3 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan Weixian Lei and Mike Zheng Shou(参考訳) 本稿では,vlpデータセットにおける重大画像テキスト不一致と高い冗長性の問題について検討する。 そこで本研究では,既存の大規模vlpデータを小型で高品質な集合に圧縮することを目的とした,効率的な視覚言語学習アルゴリズムtl;drを提案する。 我々のアプローチは2つの大きなステップからなる。 まず、代表サンプルを選択するコードブックベースのエンコーダ・デコーダキャプションを開発した。 第2に、選択されたサンプルの原字幕を補完する新たなキャプションを生成し、独特性を維持しつつ、テキスト画像の誤調整問題を緩和する。 その結果、TL;DRにより、大規模なデータセットを少数の高品質なデータセットに縮小することが可能となり、代替の事前学習データセットとして機能する。 このアルゴリズムは、時間を要する事前学習プロセスを著しく高速化する。 具体的には、TL;DRは主流のVLPデータセットを高い比率で圧縮することができる。例えば、よくクリーニングされたCC3Mデータセットを2.82Mから0.67M(\sim$24\%)に、ノイズの多いYFCC15Mを15Mから2.5M(\sim$16.7\%)に削減できる。 7つのダウンストリームタスクにまたがる3つの一般的なVLPモデルによる大規模な実験により、TL;DRによって提供される圧縮データセットでトレーニングされたVLPモデルは、フルスケールデータセットでのトレーニングと比較すると、同様の、あるいはそれ以上の結果が得られることが示された。 コードは \url{https://github.com/showlab/datacentric.vlp}で入手できる。

This paper examines the problems of severe image-text misalignment and high redundancy in the widely-used large-scale Vision-Language Pre-Training (VLP) datasets. To address these issues, we propose an efficient and straightforward Vision-Language learning algorithm called TL;DR, which aims to compress the existing large VLP data into a small, high-quality set. Our approach consists of two major steps. First, a codebook-based encoder-decoder captioner is developed to select representative samples. Second, a new caption is generated to complement the original captions for selected samples, mitigating the text-image misalignment problem while maintaining uniqueness. As the result, TL;DR enables us to reduce the large dataset into a small set of high-quality data, which can serve as an alternative pre-training dataset. This algorithm significantly speeds up the time-consuming pretraining process. Specifically, TL;DR can compress the mainstream VLP datasets at a high ratio, e.g., reduce well-cleaned CC3M dataset from 2.82M to 0.67M ($\sim$24\%) and noisy YFCC15M from 15M to 2.5M ($\sim$16.7\%). Extensive experiments with three popular VLP models over seven downstream tasks show that VLP model trained on the compressed dataset provided by TL;DR can perform similar or even better results compared with training on the full-scale dataset. The code will be made available at \url{https://github.com/showlab/datacentric.vlp}.
翻訳日:2023-08-21 23:37:53 公開日:2023-08-18
# 推薦のための大規模言語モデルに関する調査

A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v4 )

ライセンス: Link先を確認
Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen(参考訳) 自然言語処理(nlp)の分野では,大規模言語モデル(llm)が強力なツールとして登場し,最近はレコメンデーションシステム(rs)の分野で大きな注目を集めている。 これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍表現の学習において顕著な成功を示しており、微調整やプロンプトチューニングなどの効果的な転送技術によって、レコメンデーションシステムの様々な側面を強化する可能性を秘めている。 推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関を確立するための外部知識の広範なカバレッジである。 既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。 さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。 さらに、研究者や実践者にインスピレーションを与える上で、重要な課題といくつかの重要な発見を特定する。 また、レコメンデーションのためにLLMに関する関連書類をインデックスするGitHubリポジトリも作成しました。

Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. We have also created a GitHub repository to index relevant papers on LLMs for recommendation, https://github.com/WLiK/LLM4Rec.
翻訳日:2023-08-21 23:36:56 公開日:2023-08-18
# 統一スペクトル空間特徴集合によるハイパースペクトル像の物体検出

Object Detection in Hyperspectral Image via Unified Spectral-Spatial Feature Aggregation ( http://arxiv.org/abs/2306.08370v2 )

ライセンス: Link先を確認
Xiao He, Chang Tang, Xinwang Liu, Wei Zhang, Kun Sun, Jiangfeng Xu(参考訳) 深層学習に基づくハイパースペクトル画像(hsi)の分類と物体検出技術は,画像コンテンツ解析,解釈,より広いhsi応用において重要な役割を担っているため,注目されている。 しかし、現在のハイパースペクトルオブジェクト検出アプローチは、主にスペクトル情報または空間情報を強調し、これら2つの側面間の貴重な相補関係を見越す。 本研究では,高スペクトル画像に固有の豊富なスペクトル情報と空間補完情報を効果的に活用する,新しい \textbf{S}pectral-\textbf{S}patial \textbf{A}ggregation (S2ADet) オブジェクト検出器を提案する。 S2ADetは、ハイパースペクトル情報デカップリング(HID)モジュールと、2ストリーム特徴抽出ネットワークと1ステージ検出ヘッドとを備える。 HIDモジュールは、帯域選択と主成分分析によりスペクトルおよび空間情報を集約することによりハイパースペクトル画像を処理する。 得られた空間的およびスペクトル的集約情報に基づいて,スペクトル空間的特徴を相互作用する特徴集約2ストリームネットワークを提案する。 さらに、既存のデータベースの制限に対処するために、hod3kという、さまざまな実世界のシーンでキャプチャされた3,242のハイパースペクトルイメージを含む、広範なデータセットに注釈を付け、3つのオブジェクトクラスを包含する。 これらの画像は512x256ピクセルの解像度を持ち、470nmから620nmまでの16バンドをカバーしている。 2つのデータセットに関する総合的な実験は、S2ADetが既存の最先端の手法を超え、堅牢で信頼性の高い結果が得られることを示した。 この作業のデモコードとデータセットは、 \url{https://github.com/hexiao-cs/S2ADet}で公開されている。

Deep learning-based hyperspectral image (HSI) classification and object detection techniques have gained significant attention due to their vital role in image content analysis, interpretation, and wider HSI applications. However, current hyperspectral object detection approaches predominantly emphasize either spectral or spatial information, overlooking the valuable complementary relationship between these two aspects. In this study, we present a novel \textbf{S}pectral-\textbf{S}patial \textbf{A}ggregation (S2ADet) object detector that effectively harnesses the rich spectral and spatial complementary information inherent in hyperspectral images. S2ADet comprises a hyperspectral information decoupling (HID) module, a two-stream feature extraction network, and a one-stage detection head. The HID module processes hyperspectral images by aggregating spectral and spatial information via band selection and principal components analysis, consequently reducing redundancy. Based on the acquired spatial and spectral aggregation information, we propose a feature aggregation two-stream network for interacting spectral-spatial features. Furthermore, to address the limitations of existing databases, we annotate an extensive dataset, designated as HOD3K, containing 3,242 hyperspectral images captured across diverse real-world scenes and encompassing three object classes. These images possess a resolution of 512x256 pixels and cover 16 bands ranging from 470 nm to 620 nm. Comprehensive experiments on two datasets demonstrate that S2ADet surpasses existing state-of-the-art methods, achieving robust and reliable results. The demo code and dataset of this work are publicly available at \url{https://github.com/hexiao-cs/S2ADet}.
翻訳日:2023-08-21 23:25:18 公開日:2023-08-18
# trackformer:予測軌道仮説を用いた3次元物体追跡トランス

TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses ( http://arxiv.org/abs/2306.05888v2 )

ライセンス: Link先を確認
Xuesong Chen, Shaoshuai Shi, Chao Zhang, Benjin Zhu, Qiang Wang, Ka Chun Cheung, Simon See, Hongsheng Li(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、自動運転車やサービスロボットを含む多くのアプリケーションにとって不可欠である。 一般的に使われているトラッキング・バイ・検出パラダイムにより、3D MOTは近年重要な進歩を遂げている。 しかし、これらの手法は、現在のフレームの検知ボックスのみを使用してトラジェクトリボックス関連結果を得るため、検出器が見逃した物体の回収が不可能になる。 本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを提案する。 検出により欠落した物体を復元するために,時間的に予測された箱や現在フレーム検出箱を含む混成候補箱を用いた複数の軌道仮説を生成。 予測ボックスは、オブジェクトの履歴軌跡情報を現在のフレームに伝達し、追跡されたオブジェクトの短期的ミス検出を許容する。 本研究では,長期的物体運動特徴と短期的物体出現特徴を組み合わせることで,空間時間符号化の計算オーバーヘッドを低減する。 さらに,全仮説間の情報インタラクションを行い,それらの空間的関係をモデル化するグローバルローカルインタラクションモジュールを導入し,仮説を正確に推定する。 TrajectoryFormerはWaymo 3D MOTベンチマークで最先端のパフォーマンスを実現しています。 コードはhttps://github.com/poodarchu/EFG で公開されている。

3D multi-object tracking (MOT) is vital for many applications including autonomous driving vehicles and service robots. With the commonly used tracking-by-detection paradigm, 3D MOT has made important progress in recent years. However, these methods only use the detection boxes of the current frame to obtain trajectory-box association results, which makes it impossible for the tracker to recover objects missed by the detector. In this paper, we present TrajectoryFormer, a novel point-cloud-based 3D MOT framework. To recover the missed object by detector, we generates multiple trajectory hypotheses with hybrid candidate boxes, including temporally predicted boxes and current-frame detection boxes, for trajectory-box association. The predicted boxes can propagate object's history trajectory information to the current frame and thus the network can tolerate short-term miss detection of the tracked objects. We combine long-term object motion feature and short-term object appearance feature to create per-hypothesis feature embedding, which reduces the computational overhead for spatial-temporal encoding. Additionally, we introduce a Global-Local Interaction Module to conduct information interaction among all hypotheses and models their spatial relations, leading to accurate estimation of hypotheses. Our TrajectoryFormer achieves state-of-the-art performance on the Waymo 3D MOT benchmarks. Code is available at https://github.com/poodarchu/EFG .
翻訳日:2023-08-21 23:22:29 公開日:2023-08-18
# 協調濾過における硬質負試料の寸法独立混合

Dimension Independent Mixup for Hard Negative Sample in Collaborative Filtering ( http://arxiv.org/abs/2306.15905v2 )

ライセンス: Link先を確認
Xi Wu, Liangwei Yang, Jibing Gong, Chao Zhou, Tianyu Lin, Xiaolong Liu, Philip S. Yu(参考訳) 協調フィルタリング(CF)は,過去のインタラクションに基づいてユーザの好みを予測する手法として広く利用されている。 負のサンプリングは、暗黙のフィードバックでcfベースのモデルのトレーニングにおいて重要な役割を果たす。 本稿では,既存のサンプリング手法を再検討するためのサンプリング領域に基づく新しい視点を提案する。 現状のサンプリング手法は, 主にポイントワイズやラインワイズに焦点を合わせ, 柔軟性の欠如, ハードサンプリング領域の大部分を未検討のまま残している。 この制限に対処するため,CFモデルを用いた最初のエリアワイドサンプリング手法であるDINS(Dimension Independent Mixup for Hard Negative Smpling)を提案する。 DINSはハード境界定義、次元独立混合、マルチホッププールの3つのモジュールから構成されている。 行列分解モデルとグラフベースモデルの両方における実世界のデータセットを用いた実験により、DINSは他の負のサンプリング手法よりも優れ、その効果と優越性を確立した。 本研究は,新たな視点と領域的サンプリングの導入,負サンプリングの最先端性能を実現する新たなアプローチとしてdinsを提案する。 私たちの実装はPyTorchで利用可能です。

Collaborative filtering (CF) is a widely employed technique that predicts user preferences based on past interactions. Negative sampling plays a vital role in training CF-based models with implicit feedback. In this paper, we propose a novel perspective based on the sampling area to revisit existing sampling methods. We point out that current sampling methods mainly focus on Point-wise or Line-wise sampling, lacking flexibility and leaving a significant portion of the hard sampling area un-explored. To address this limitation, we propose Dimension Independent Mixup for Hard Negative Sampling (DINS), which is the first Area-wise sampling method for training CF-based models. DINS comprises three modules: Hard Boundary Definition, Dimension Independent Mixup, and Multi-hop Pooling. Experiments with real-world datasets on both matrix factorization and graph-based models demonstrate that DINS outperforms other negative sampling methods, establishing its effectiveness and superiority. Our work contributes a new perspective, introduces Area-wise sampling, and presents DINS as a novel approach that achieves state-of-the-art performance for negative sampling. Our implementations are available in PyTorch.
翻訳日:2023-08-21 23:16:44 公開日:2023-08-18
# 最大長量子力学におけるベル非局所性

Bell nonlocality in maximal-length quantum mechanics ( http://arxiv.org/abs/2306.13067v2 )

ライセンス: Link先を確認
Pasquale Bosso, Fabrizio Illuminati, Luciano Petruzziello, Fabian Wagner(参考訳) 本稿では,二部量子系の2つのパーティで共有される非局所相関に対する最大長と最小運動量スケールの影響について検討する。 この目的のために、宇宙スケールにおける非無視可能な時空曲率、すなわち拡張不確実性原理と関連づけられる一般的な現象論的スキームに依存する。 したがって、変形した量子力学的モデルが正の宇宙定数を模倣すると、量子相関は劣化する。 これにより、十分に大きな距離で古典性を取り戻す可能性が開ける。

In this paper, we investigate the consequences of maximal length as well as minimal momentum scales on nonlocal correlations shared by two parties of a bipartite quantum system. To this aim, we rely on a general phenomenological scheme which is usually associated with the non-negligible spacetime curvature at cosmological scales, namely the extended uncertainty principle. In so doing, we find that quantum correlations are degraded if the deformed quantum mechanical model mimics a positive cosmological constant. This opens up the possibility to recover classicality at sufficiently large distances.
翻訳日:2023-08-21 23:15:29 公開日:2023-08-18
# 生成型マルチモーダルエンティティリンク

Generative Multimodal Entity Linking ( http://arxiv.org/abs/2306.12725v2 )

ライセンス: Link先を確認
Senbao Shi, Zhenran Xu, Baotian Hu, Min Zhang(参考訳) MEL(Multimodal Entity Linking)は、知識ベース(ウィキペディアなど)からの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。 既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、全てのモデルパラメータを微調整する必要がある。 本稿では,目的とするエンティティ名を直接生成するllmsに基づく,単純かつ効果的な生成型多モーダルエンティティリンクフレームワークであるgemelを提案する。 ビジョンと言語モデルを凍結し、機能マッパーのみをトレーニングして、相互モダリティインタラクションを可能にします。 MELタスクにLLMを適用するために,マルチモーダルインスタンスを実演として検索することで,LLMの創発的なコンテキスト内学習能力を活用する。 GEMEL はモデルパラメータの 0.3% しか微調整されていないため、2つの確立された MEL データセット(WikiDiverse では 7.7% 、WikiMEL では 8.8% の精度)で最先端の結果が得られる。 性能向上は、LLM予測の人気バイアスを緩和し、あまり一般的でないエンティティを効果的に曖昧にすることに起因する。 さらなる解析は、GEMELの一般化と拡張性を検証する。 我々のアプローチは市販の言語モデルと互換性があり、MELタスクでLLMを利用するための効率的で汎用的なソリューションへの道を開く。

Multimodal Entity Linking (MEL) is the task of mapping mentions with multimodal contexts to the referent entities from a knowledge base (e.g. Wikipedia). Existing MEL methods mainly focus on designing complex multimodal interaction mechanisms and require fine-tuning all model parameters, which can be prohibitively costly and difficult to scale in the era of Large Language Models (LLMs). In this work, we propose GEMEL, a simple yet effective Generative Multimodal Entity Linking framework based on LLMs, which directly generates target entity names. We keep the vision and language model frozen and only train a feature mapper to enable cross-modality interactions. To adapt LLMs to the MEL task, we take advantage of the emergent in-context learning capability of LLMs by retrieving multimodal instances as demonstrations. Extensive experiments show that, with only ~0.3% of the model parameters fine-tuned, GEMEL achieves state-of-the-art results on two well-established MEL datasets (7.7% accuracy gains on WikiDiverse and 8.8% accuracy gains on WikiMEL). The performance gain stems from mitigating the popularity bias of LLM predictions and disambiguating less common entities effectively. Further analysis verifies the generality and scalability of GEMEL. Our approach is compatible with any off-the-shelf language model, paving the way towards an efficient and general solution for utilizing LLMs in the MEL task.
翻訳日:2023-08-21 23:15:14 公開日:2023-08-18
# 各種シミュレート運転における自動運転のための深層強化学習の総合的訓練と評価

Comprehensive Training and Evaluation on Deep Reinforcement Learning for Automated Driving in Various Simulated Driving Maneuvers ( http://arxiv.org/abs/2306.11466v2 )

ライセンス: Link先を確認
Yongqi Dong, Tobias Datema, Vincent Wassenaar, Joris van de Weg, Cahit Tolga Kopar, and Harim Suleman(参考訳) 自動運転車を現実世界で開発してテストすることは、難しいし、危険かもしれない。 深層強化学習(DRL)は、複雑な意思決定やタスクの制御に学習と環境との相互作用を通じて取り組む可能性があり、まだ詳細は明らかにされていないが、自動走行の開発に適している。 本研究では,高速道路環境シミュレーションプラットフォーム上での自動走行の訓練を行うために,DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装,評価,比較を行った。 有効でカスタマイズされた報酬関数が開発され、実装されたアルゴリズムはオンレーンの精度(車線内の道路の走行速度)、効率性(車の走行速度)、安全性(車が障害物に衝突する確率)、快適性(例えば、車が突然加速またはブレーキする速度)で評価された。 その結果,修正報酬機能を備えたtrpoモデルが最も優れた性能を得られた。 さらに,特定道路以外の運転操作に対処可能な一様運転モデルの訓練を行うため,道路環境を拡大し,複合道路,各種運転操作と複数の道路シナリオを一体化して,さらにカスタマイズした訓練環境を構築した。 設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。 最後に、この作業を実施するためにいくつかの機能が追加された。 コードはgithubのhttps://github.com/alaineman/drlcarsim-paperで公開されている。

Developing and testing automated driving models in the real world might be challenging and even dangerous, while simulation can help with this, especially for challenging maneuvers. Deep reinforcement learning (DRL) has the potential to tackle complex decision-making and controlling tasks through learning and interacting with the environment, thus it is suitable for developing automated driving while not being explored in detail yet. This study carried out a comprehensive study by implementing, evaluating, and comparing the two DRL algorithms, Deep Q-networks (DQN) and Trust Region Policy Optimization (TRPO), for training automated driving on the highway-env simulation platform. Effective and customized reward functions were developed and the implemented algorithms were evaluated in terms of onlane accuracy (how well the car drives on the road within the lane), efficiency (how fast the car drives), safety (how likely the car is to crash into obstacles), and comfort (how much the car makes jerks, e.g., suddenly accelerates or brakes). Results show that the TRPO-based models with modified reward functions delivered the best performance in most cases. Furthermore, to train a uniform driving model that can tackle various driving maneuvers besides the specific ones, this study expanded the highway-env and developed an extra customized training environment, namely, ComplexRoads, integrating various driving maneuvers and multiple road scenarios together. Models trained on the designed ComplexRoads environment can adapt well to other driving maneuvers with promising overall performance. Lastly, several functionalities were added to the highway-env to implement this work. The codes are open on GitHub at https://github.com/alaineman/drlcarsim-paper.
翻訳日:2023-08-21 23:13:48 公開日:2023-08-18
# ブロックチェーンによるフェデレーション学習 - リファレンスアーキテクチャ設計、実装、検証

Blockchain-Enabled Federated Learning: A Reference Architecture Design, Implementation, and Verification ( http://arxiv.org/abs/2306.10841v2 )

ライセンス: Link先を確認
Eunsu Goh, Daeyeol Kim, Kwangkee Lee, Do-Yup Kim(参考訳) 本稿では,ブロックチェーンを活用したフェデレーション学習(BCFL)の革新的な参照アーキテクチャを提案する。 この結果、データプライバシとユーザ制御IDを尊重する分散型で協調的な機械学習システムが実現される。 私たちのアーキテクチャは、戦略的に分散id(did)ベースの認証システムを採用しており、参加者はブロックチェーンに記録された自己主権idを使用して、フェデレーション学習プラットフォームにアクセスできます。 スマートコントラクトの実行を通じて堅牢なセキュリティと効率的な分散化を保証することが、私たちのアプローチの重要な側面です。 さらに、私たちのBCFL参照アーキテクチャは、様々な追加要素の統合を特定の要件やユースケースに応じて調整し、広範囲のBCFLアプリケーションに適用可能なソリューションにします。 参加者は、ブロックチェーンにセキュアに記録された自己主権idを使用して、認証し、フェデレーション学習プラットフォームにアクセスすることができる。 本研究の重要な貢献は、現実的なbcl参照アーキテクチャの実装と検証の成功であり、この分野における重要なマイルストーンである。 私たちは近いうちにソースコードを公開し、コミュニティ内のさらなる進歩と適応を促進するつもりです。 この研究は、現在の文学において重要なギャップを埋めるだけでなく、BCFLの領域における将来の探検の基盤となる。

This paper presents an innovative reference architecture for blockchain-enabled federated learning (BCFL), a state-of-the-art approach that amalgamates the strengths of federated learning and blockchain technology. This results in a decentralized, collaborative machine learning system that respects data privacy and user-controlled identity. Our architecture strategically employs a decentralized identifier (DID)-based authentication system, allowing participants to authenticate and then gain access to the federated learning platform securely using their self-sovereign DIDs, which are recorded on the blockchain. Ensuring robust security and efficient decentralization through the execution of smart contracts is a key aspect of our approach. Moreover, our BCFL reference architecture provides significant extensibility, accommodating the integration of various additional elements, as per specific requirements and use cases, thereby rendering it an adaptable solution for a wide range of BCFL applications. Participants can authenticate and then gain access to the federated learning platform securely using their self-sovereign DIDs, which are securely recorded on the blockchain. The pivotal contribution of this study is the successful implementation and validation of a realistic BCFL reference architecture, marking a significant milestone in the field. We intend to make the source code publicly accessible shortly, fostering further advancements and adaptations within the community. This research not only bridges a crucial gap in the current literature but also lays a solid foundation for future explorations in the realm of BCFL.
翻訳日:2023-08-21 23:13:19 公開日:2023-08-18
# LVLane: カオス条件下でのレーン検出と分類のためのディープラーニング

LVLane: Deep Learning for Lane Detection and Classification in Challenging Conditions ( http://arxiv.org/abs/2307.06853v2 )

ライセンス: Link先を確認
Zillur Rahman and Brendan Tran Morris(参考訳) 車線検出は、自動運転車や先進運転支援システム(ADAS)の分野において重要な役割を果たす。 画像処理からディープラーニングモデルへの進化にもかかわらず、アルゴリズムのパフォーマンスは、極端な照明条件、部分的に見えるレーンマーキング、ボッツドットのようなスパースレーンマーキングといった局所的な課題に対応するトレーニングデータに大きく依存している。 そこで本研究では,ディープラーニング手法に基づくエンドツーエンドの車線検出・分類システムを提案する。 本研究では,最新技術(SOTA)レーンローカライゼーションモデルにおいて重要な課題を提起するシナリオを網羅した独自のデータセットを提案する。 さらに,検出器とシームレスに統合されたCNNに基づく分類分岐を提案し,異なるレーンタイプの識別を容易にする。 このアーキテクチャは、情報レーン変更の決定を可能にし、よりレジリエントなADAS機能を実現する。 また,混合精度トレーニングとテストが異なるモデルとバッチサイズに与える影響についても検討した。 広く利用されているTuSimpleデータセット,Caltech Laneデータセット,およびLVLaneデータセットを用いて実施した実験により,挑戦的なシナリオの中でレーンを正確に検出・分類する上で,我々のモデルの有効性が示された。 提案手法はTuSimpleデータセットを用いて最先端の分類結果を得る。 作業のコードはwww.github.com/zillur-av/LVLaneで見ることができる。

Lane detection plays a pivotal role in the field of autonomous vehicles and advanced driving assistant systems (ADAS). Despite advances from image processing to deep learning based models, algorithm performance is highly dependent on training data matching the local challenges such as extreme lighting conditions, partially visible lane markings, and sparse lane markings like Botts' dots. To address this, we present an end-to-end lane detection and classification system based on deep learning methodologies. In our study, we introduce a unique dataset meticulously curated to encompass scenarios that pose significant challenges for state-of-the-art (SOTA) lane localization models. Moreover, we propose a CNN-based classification branch, seamlessly integrated with the detector, facilitating the identification of distinct lane types. This architecture enables informed lane-changing decisions and empowers more resilient ADAS capabilities. We also investigate the effect of using mixed precision training and testing on different models and batch sizes. Experimental evaluations conducted on the widely-used TuSimple dataset, Caltech Lane dataset, and our LVLane dataset demonstrate the effectiveness of our model in accurately detecting and classifying lanes amidst challenging scenarios. Our method achieves state-of-the-art classification results on the TuSimple dataset. The code of the work can be found on www.github.com/zillur-av/LVLane.
翻訳日:2023-08-21 23:06:09 公開日:2023-08-18
# PC-Droid:高速拡散と粒子雲生成の品質向上

PC-Droid: Faster diffusion and improved quality for particle cloud generation ( http://arxiv.org/abs/2307.06836v3 )

ライセンス: Link先を確認
Matthew Leigh, Debajyoti Sengupta, John Andrew Raine, Guillaume Qu\'etant, Tobias Golling(参考訳) PC-JeDiの成功に基づいて,ジェット粒子雲の生成のための拡散モデルであるPC-Droidを導入する。 新しい拡散定式化、より最近の積分解法の研究、および全てのジェット種を同時に訓練することにより、あらゆる評価指標のあらゆる種類のジェットに対して最先端の性能を達成することができる。 2つの注意に基づくアーキテクチャを比較して、生成速度と品質のトレードオフと、拡散ステップ数を減らすための一貫性蒸留の可能性について検討した。 高速なアーキテクチャモデルと一貫性モデルの両方が、多くの競合モデルを上回るパフォーマンスを示しており、生成時間はpc-jediより最大2桁、delphesより3桁速い。

Building on the success of PC-JeDi we introduce PC-Droid, a substantially improved diffusion model for the generation of jet particle clouds. By leveraging a new diffusion formulation, studying more recent integration solvers, and training on all jet types simultaneously, we are able to achieve state-of-the-art performance for all types of jets across all evaluation metrics. We study the trade-off between generation speed and quality by comparing two attention based architectures, as well as the potential of consistency distillation to reduce the number of diffusion steps. Both the faster architecture and consistency models demonstrate performance surpassing many competing models, with generation time up to two orders of magnitude faster than PC-JeDi and three orders of magnitude faster than Delphes.
翻訳日:2023-08-21 23:05:45 公開日:2023-08-18
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v2 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業には、基盤となるニューラルネットワークのアーキテクチャ革新、コンテキスト長の改善、モデルアライメント、トレーニングデータセット、ベンチマーク、効率性など、さまざまなトピックが含まれている。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿はその概要を研究コミュニティに提供します。 既存の文献の体系的な扱いをLLMに関する幅広い概念に焦点をあてるだけでなく、個々の既存モデル、データセット、および主要な洞察に関する広範な詳細を包括的な要約を提供することにも特に注意を払う。 また,本研究の今後の展望を概観する上でも,LLMのより広範な研究方向性のレビューを新たに実施することで,今後の展望を概観する。 llmの自己完結型包括的概要では,関連する背景概念と,この研究方向性のフロンティアにおける先進的トピックについて論じる。 本論文は, 体系的な調査を行うだけでなく, 研究者や実践者が, LLM研究の方向性を推し進めるために, 既存の研究の広範な情報的要約から洞察を引き出すための, 迅速な総合的な参照も意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations of the underlying neural networks, context length improvements, model alignment, training datasets, benchmarking, efficiency and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides that overview to the research community. It not only focuses on a systematic treatment of the existing literature on a broad range of LLM related concept, but also pays special attention to providing comprehensive summaries with extensive details about the individual existing models, datasets and major insights. We also pay heed to aligning our overview with the emerging outlook of this research direction by accounting for the other recently materializing reviews of the broader research direction of LLMs. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of this research direction. This review article is intended to not only provide a systematic survey, but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research direction.
翻訳日:2023-08-21 23:05:31 公開日:2023-08-18
# 量子相関に対する半定値プログラミング緩和

Semidefinite programming relaxations for quantum correlations ( http://arxiv.org/abs/2307.02551v2 )

ライセンス: Link先を確認
Armin Tavakoli, Alejandro Pozas-Kerstjens, Peter Brown, Mateus Ara\'ujo(参考訳) 半定義プログラムは線型目的関数と正の半定義行列の領域を含む凸最適化問題である。 過去20年にわたり、量子情報科学において必須のツールとなっている。 それ以外の多くの難解な基本問題や応用問題は、半定値プログラムへの緩和によってうまくアプローチできる。 本稿では,このような手法を量子相関の文脈で検討する。 非局所性、量子通信、量子ネットワーク、絡み合い、量子暗号など、量子相関の様々な研究トピックに半定緩和のコアアイデアをどのように適用できるかについて議論する。

Semidefinite programs are convex optimisation problems involving a linear objective function and a domain of positive semidefinite matrices. Over the last two decades, they have become an indispensable tool in quantum information science. Many otherwise intractable fundamental and applied problems can be successfully approached by means of relaxation to a semidefinite program. Here, we review such methodology in the context of quantum correlations. We discuss how the core idea of semidefinite relaxations can be adapted for a variety of research topics in quantum correlations, including nonlocality, quantum communication, quantum networks, entanglement, and quantum cryptography.
翻訳日:2023-08-21 23:05:02 公開日:2023-08-18
# 薬物・薬物相互作用予測のための相互比較学習を用いた関係対応グラフ構造

Relation-aware graph structure embedding with co-contrastive learning for drug-drug interaction prediction ( http://arxiv.org/abs/2307.01507v2 )

ライセンス: Link先を確認
Mengying Jiang and Guizhong Liu and Biao Zhao and Yuanchao Su and Weiqiang Jin(参考訳) リレーショナルグラフ構造埋め込みはマルチリレーショナルドラッグ・ドラッグ相互作用(DDI)の予測に有効である。 通常、既存のほとんどの手法はDDIグラフの構築から始まり、DDIグラフから薬物の関連性認識グラフ構造埋め込み(RaGSE)を学習する。 しかしながら、既存のほとんどのアプローチは、新しい薬物のRaGSEの学習に限られており、テストDDIがそのような薬物を含んでいる場合、深刻な過度な適合をもたらす。 この問題を軽減するために,関係認識型グラフ構造を併用した新しいDDI予測手法であるRaGSECoを提案する。 提案したRaGSECoは, マルチリレーショナルDDIグラフとマルチアトリビュートドラッグ・ドラッグ類似性(DDS)グラフの2つの異種薬物グラフを構築した。 2つのグラフはそれぞれ、薬物のRaGSEを学習し、伝播するために使用され、新しい薬物を含む全ての薬物が効果的なRaGSEを保有できるようにすることを目的としている。 さらに,薬物対表現(DP)を学習するための新しいコントラスト学習モジュールを提案する。 このメカニズムは2つの異なる視点(相互作用と類似性)からdp表現を学習し、これらのビューが相互に監督し、より識別的なdp表現を得るように促す。 2つの実データセットを用いて3つのタスクにおけるRaGSECoの有効性を評価する。 実験の結果,RaGSECoは既存の最先端予測手法よりも優れていた。

Relation-aware graph structure embedding is promising for predicting multi-relational drug-drug interactions (DDIs). Typically, most existing methods begin by constructing a multi-relational DDI graph and then learning relation-aware graph structure embeddings (RaGSEs) of drugs from the DDI graph. Nevertheless, most existing approaches are usually limited in learning RaGSEs of new drugs, leading to serious over-fitting when the test DDIs involve such drugs. To alleviate this issue, we propose a novel DDI prediction method based on relation-aware graph structure embedding with co-contrastive learning, RaGSECo. The proposed RaGSECo constructs two heterogeneous drug graphs: a multi-relational DDI graph and a multi-attribute drug-drug similarity (DDS) graph. The two graphs are used respectively for learning and propagating the RaGSEs of drugs, aiming to ensure all drugs, including new ones, can possess effective RaGSEs. Additionally, we present a novel co-contrastive learning module to learn drug-pairs (DPs) representations. This mechanism learns DP representations from two distinct views (interaction and similarity views) and encourages these views to supervise each other collaboratively to obtain more discriminative DP representations. We evaluate the effectiveness of our RaGSECo on three different tasks using two real datasets. The experimental results demonstrate that RaGSECo outperforms existing state-of-the-art prediction methods.
翻訳日:2023-08-21 23:04:52 公開日:2023-08-18
# アンサンブルネットワークを用いたマルチバンド画像におけるストリーニングレンズ付きクエーサー同定

Streamlined Lensed Quasar Identification in Multiband Images via Ensemble Networks ( http://arxiv.org/abs/2307.01090v2 )

ライセンス: Link先を確認
Irham Taufik Andika, Sherry H. Suyu, Raoul Ca\~nameras, Alejandra Melo, Stefan Schuldt, Yiping Shu, Anna-Christina Eilers, Anton Timur Jaelani, Minghao Yue(参考訳) 強いレンズを経験するクエーサーは、宇宙膨張速度、前景の偏向器内のダークマタープロファイル、およびクエーサーホスト銀河に関連する主題に独自の視点を提供する。 残念なことに、これらを天文学的な画像で識別することは困難である。 そこで我々は,近縁畳み込みネットワーク(CNN) - 例えばResNet, Inception, NASNet, MobileNet, EfficientNet, RegNet - と,Hyper Suprime-Cam (HSC) マルチバンド画像に基づくリアルな銀河・クエーサーレンズシミュレーションをトレーニングした視覚変換器(ViTs) を組み合わせた,新しいアプローチを開発した。 個々のモデルは、テストデータセットに対して評価した場合に顕著な性能を示し、受信側特性曲線の97.3%、中央値の偽陽性率3.6%の領域を達成するが、各分類器が選択した多数のスパイラルソースによって示される実際のデータの一般化に苦慮している。 これらのcnnとvitを平均することで大幅な改善を達成し、その結果、不純物は最大50まで減少する。 その後、HSC画像とUKIRT、VISTA、unWISEデータを組み合わせることで、約6000万のソースを親サンプルとして取得し、光測定プリセレクションを用いて、Einstein radii of $\theta_\mathrm{E}<5$ arcsec のレンズ付きクエーサーを発見し、これを 892,609 に削減する。 その後、アンサンブル分類器は、レンズとなる確率の高い3080のソースを示し、視認し、210の有力候補が分光学的確認を待つ。 これらの結果は、自動化されたディープラーニングパイプラインが、手動による視覚検査が最小限である巨大なデータセットにおいて、強力なレンズを効果的に検出する大きな可能性を示唆している。

Quasars experiencing strong lensing offer unique viewpoints on subjects related to the cosmic expansion rate, the dark matter profile within the foreground deflectors, and the quasar host galaxies. Unfortunately, identifying them in astronomical images is challenging since they are overwhelmed by the abundance of non-lenses. To address this, we have developed a novel approach by ensembling cutting-edge convolutional networks (CNNs) -- for instance, ResNet, Inception, NASNet, MobileNet, EfficientNet, and RegNet -- along with vision transformers (ViTs) trained on realistic galaxy-quasar lens simulations based on the Hyper Suprime-Cam (HSC) multiband images. While the individual model exhibits remarkable performance when evaluated against the test dataset, achieving an area under the receiver operating characteristic curve of $>$97.3% and a median false positive rate of 3.6%, it struggles to generalize in real data, indicated by numerous spurious sources picked by each classifier. A significant improvement is achieved by averaging these CNNs and ViTs, resulting in the impurities being downsized by factors up to 50. Subsequently, combining the HSC images with the UKIRT, VISTA, and unWISE data, we retrieve approximately 60 million sources as parent samples and reduce this to 892,609 after employing a photometry preselection to discover $z>1.5$ lensed quasars with Einstein radii of $\theta_\mathrm{E}<5$ arcsec. Afterward, the ensemble classifier indicates 3080 sources with a high probability of being lenses, for which we visually inspect, yielding 210 prevailing candidates awaiting spectroscopic confirmation. These outcomes suggest that automated deep learning pipelines hold great potential in effectively detecting strong lenses in vast datasets with minimal manual visual inspection involved.
翻訳日:2023-08-21 23:04:29 公開日:2023-08-18
# 指示追従の目標表現:制御のための半監督言語インタフェース

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control ( http://arxiv.org/abs/2307.00117v2 )

ライセンス: Link先を確認
Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine(参考訳) 私たちの目標は、ロボットが「電子レンジの横にタオルを置く」といった自然言語命令に従うことです。 しかし、大量のラベル付きデータ、すなわち言語命令でラベル付けされたタスクのデモを含むデータを得ることは禁じられている。 対照的に、イメージ目標に反応するポリシーの取得は、最終状態を目標として、自律的なトライアルやデモを後見でラベル付けできるため、はるかに容易である。 そこで本研究では,少量の言語データを用いて,画像と目標条件の共通ポリシーを言語で活用する手法を提案する。 先行研究は視覚言語モデルや共同で言語goal条件付きポリシーを訓練することでこれを進めてきたが、今のところどちらの手法も人間の注意を必要とせずに現実世界のロボットタスクに効果的にスケールしていない。 本手法は,目標画像に適合するラベル付きデータから,指示が対応する開始画像と目標画像の間の所望の変化を学習することで,実世界での堅牢な性能を実現する。 ポリシーはラベルのないすべてのデータから恩恵を受けますが、アライメントはポリシーを管理するための言語のためのインターフェースを提供します。 ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。 私たちのアプローチのビデオとコードは、私たちのWebサイトにある。

Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: https://rail-berkeley.github.io/grif/ .
翻訳日:2023-08-21 23:03:13 公開日:2023-08-18
# 信念伝播を伴うテンソルネットワークの計測

Gauging tensor networks with belief propagation ( http://arxiv.org/abs/2306.17837v2 )

ライセンス: Link先を確認
Joseph Tindall and Matt Fishman(参考訳) 効果的にテンソルネットワークを圧縮し最適化するには、ゲージとして知られるテンソルの潜在自由度を固定するための信頼できる方法が必要である。 本稿では,グラフィカルモデル上で統計的推論を行うための手法である信念伝搬を用いたテンソルネットワークのゲージ化アルゴリズムを提案し,最近テンソルネットワークアルゴリズムに応用を見出した。 本手法は既知のテンソルネットワーク計測手法と密接に関連していることを示す。 しかし、既存の信念伝搬実装をテンソルネットワークのゲージングに再利用することは現実的な利点であり、信念伝播は単にテンソルの収縮に基づく非常に単純なアルゴリズムであり、実装、最適化、一般化が容易である。 我々は,このアルゴリズムが既存のガウイングアルゴリズムよりも高速であることを示す数値的証拠とスケーリング論を提示し,構造化,非構造化,無限テンソルネットワーク上での利用を実証する。 さらに,この手法を,広く用いられている簡易更新ゲート進化アルゴリズムの精度向上に応用した。

Effectively compressing and optimizing tensor networks requires reliable methods for fixing the latent degrees of freedom of the tensors, known as the gauge. Here we introduce a new algorithm for gauging tensor networks using belief propagation, a method that was originally formulated for performing statistical inference on graphical models and has recently found applications in tensor network algorithms. We show that this method is closely related to known tensor network gauging methods. It has the practical advantage, however, that existing belief propagation implementations can be repurposed for tensor network gauging, and that belief propagation is a very simple algorithm based on just tensor contractions so it can be easier to implement, optimize, and generalize. We present numerical evidence and scaling arguments that this algorithm is faster than existing gauging algorithms, demonstrating its usage on structured, unstructured, and infinite tensor networks. Additionally, we apply this method to improve the accuracy of the widely used simple update gate evolution algorithm.
翻訳日:2023-08-21 23:02:48 公開日:2023-08-18
# 高速rcnnに基づく連続的二重チャネルライブラリ占有検知システム

A serial dual-channel library occupancy detection system based on Faster RCNN ( http://arxiv.org/abs/2306.16080v2 )

ライセンス: Link先を確認
Guoqiang Yang, Xiaowen Chang, Zitong Wang and Min Yang(参考訳) 大学図書館における座席占有現象が問題となっている。 しかし、ソフトウェアベースの座席予約やセンサーによる占有検知といった既存のソリューションは、この問題に効果的に対処するには不十分であることが証明されている。 本研究では,高速なrcnnに基づく連続2チャンネル物体検出モデルを提案する。 このモデルは,図書館内の座席の全てを識別し,座席占有状況に関するリアルタイム情報を継続的に更新するように設計されている。 ニューラルネットワークを訓練するために、unreal engine 5(ue5)で生成された仮想画像と実世界画像とをブレンドする、独特のデータセットを利用する。 特に,学習畳み込みニューラルネットワーク (cnns) における自己生成型仮想データセットの適用により,特に特殊なシナリオにおいて,性能向上が達成された。 さらに,移動学習に基づくオブジェクト分類アルゴリズムを用いて,高速なR-CNNに基づくオブジェクト検出フレームワークをシームレスに融合する先駆的検出モデルを提案する。 このアマルガメーションは、ニューラルネットワークトレーニングに必要な計算リソースと時間投資を著しく削減するだけでなく、単一フレーム検出率の効率を大幅に向上させる。 さらに,ユーザフレンドリーなWebインターフェースとモバイルアプリケーションの開発が盛んに行われ,図書館構内における座席占有を検出するコンピュータビジョン駆動型プラットフォームが構築されている。 注目すべきは、シート占有率の精度が大幅に向上し、ニューラルネットワークトレーニングに必要な計算リソースが削減され、総合的にライブラリーシート管理の全体的な効率が大幅に向上することである。

The phenomenon of seat occupancy in university libraries is a prevalent issue. However, existing solutions, such as software-based seat reservations and sensors-based occupancy detection, have proven to be inadequate in effectively addressing this problem. In this study, we propose a novel approach: a serial dual-channel object detection model based on Faster RCNN. This model is designed to discern all instances of occupied seats within the library and continuously update real-time information regarding seat occupancy status. To train the neural network, a distinctive dataset is utilized, which blends virtual images generated using Unreal Engine 5 (UE5) with real-world images. Notably, our test results underscore the remarkable performance uplift attained through the application of self-generated virtual datasets in training Convolutional Neural Networks (CNNs), particularly within specialized scenarios. Furthermore, this study introduces a pioneering detection model that seamlessly amalgamates the Faster R-CNN-based object detection framework with a transfer learning-based object classification algorithm. This amalgamation not only significantly curtails the computational resources and time investments needed for neural network training but also considerably heightens the efficiency of single-frame detection rates. Additionally, a user-friendly web interface and a mobile application have been meticulously developed, constituting a computer vision-driven platform for detecting seat occupancy within library premises. Noteworthy is the substantial enhancement in seat occupancy recognition accuracy, coupled with a reduction in computational resources required for neural network training, collectively contributing to a considerable amplification in the overall efficiency of library seat management.
翻訳日:2023-08-21 23:02:32 公開日:2023-08-18
# 言語モデルを用いたschr\"odinger方程式の解法

Solving Schr\"odinger Equation with a Language Model ( http://arxiv.org/abs/2307.09343v3 )

ライセンス: Link先を確認
Honghui Shang, Chu Guo, Yangjun Wu, Zhenyu Li, Jinlong Yang(参考訳) 複雑な系に対するシュリンガー方程式の正確な解法は、物理科学において依然として顕著な課題である。 この課題に対処するパラダイムシフトアプローチは、人工知能技術の適用を含む。 本研究では,言語モデルで使用されるトランスフォーマーアーキテクチャに基づいて,QiankunNetという機械学習モデルを提案する。 注意機構を組み込むことで、QiankunNetはその表現力を高める複雑な量子相関を取り込む。 qiankunnetの自己回帰特性は、全エネルギーを推定するために超効率的なサンプリング技術を採用することを可能にし、モデルのトレーニングプロセスを促進する。 さらに、QiankunNetのパフォーマンスは事前トレーニングプロセスによってさらに改善できる。 この研究は、量子力学における人工知能のパワーを実証するだけでなく、完全な構成と相互作用の精度で研究できるシステムの境界を拡張するための重要な進歩を示す。

Accurately solving the Schr\"odinger equation for intricate systems remains a prominent challenge in physical sciences. A paradigm-shifting approach to address this challenge involves the application of artificial intelligence techniques. In this study, we introduce a machine-learning model named QiankunNet, based on the transformer architecture employed in language models. By incorporating the attention mechanism, QiankunNet adeptly captures intricate quantum correlations, which enhances its expressive power. The autoregressive attribute of QiankunNet allows for the adoption of an exceedingly efficient sampling technique to estimate the total energy, facilitating the model training process. Additionally, performance of QiankunNet can be further improved via a pre-training process. This work not only demonstrates the power of artificial intelligence in quantum mechanics but also signifies a pivotal advancement in extending the boundary of systems which can be studied with a full-configuration-interaction accuracy.
翻訳日:2023-08-21 22:56:40 公開日:2023-08-18
# PatchCT:マルチラベル画像分類のための条件付きトランスポート付きパッチセットとラベルセットのアライメント

PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification ( http://arxiv.org/abs/2307.09066v2 )

ライセンス: Link先を確認
Miaoge Li, Dongsheng Wang, Xinyang Liu, Zequn Zeng, Ruiying Lu, Bo Chen, Mingyuan Zhou(参考訳) マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。 本稿では,視覚パッチと言語ラベルドメイン間の潜時空間のセマンティック一貫性について考察し,そのギャップを埋めるために条件伝達(CT)理論を導入する。 最近のクロスモーダルアテンションに基づく研究は、このような2つの表現の整列を試み、優れた性能を達成したが、注意計算には慎重に設計されたアライメントモジュールと追加の複雑な演算が必要であった。 我々は,複数ラベルの分類をCT問題として定式化することにより,画像とラベルの相互作用を効率よく利用し,双方向CTコストを最小化できることを見出した。 具体的には、イメージとテキストラベルをモダリティ固有のエンコーダに供給した後、各イメージをパッチ埋め込みとラベル埋め込みの混合物として捉え、それぞれ局所的な特徴とクラスプロトタイプをキャプチャする。 CTは、前方と後方のナビゲータを定義することによって、これらの2つのセマンティックセットを学習し、調整するために使用される。 重要なことに、CT距離で定義されたナビゲータはパッチとラベルの類似性をモデル化し、学習したプロトタイプを視覚化するための解釈可能なツールを提供する。 3つの公開画像ベンチマークによる大規模な実験により,提案手法が従来手法より一貫して優れていることが示された。

Multi-label image classification is a prediction task that aims to identify more than one label from a given image. This paper considers the semantic consistency of the latent space between the visual patch and linguistic label domains and introduces the conditional transport (CT) theory to bridge the acknowledged gap. While recent cross-modal attention-based studies have attempted to align such two representations and achieved impressive performance, they required carefully-designed alignment modules and extra complex operations in the attention computation. We find that by formulating the multi-label classification as a CT problem, we can exploit the interactions between the image and label efficiently by minimizing the bidirectional CT cost. Specifically, after feeding the images and textual labels into the modality-specific encoders, we view each image as a mixture of patch embeddings and a mixture of label embeddings, which capture the local region features and the class prototypes, respectively. CT is then employed to learn and align those two semantic sets by defining the forward and backward navigators. Importantly, the defined navigators in CT distance model the similarities between patches and labels, which provides an interpretable tool to visualize the learned prototypes. Extensive experiments on three public image benchmarks show that the proposed model consistently outperforms the previous methods.
翻訳日:2023-08-21 22:56:06 公開日:2023-08-18
# Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するテストスイート

Latent Jailbreak: A Test Suite for Evaluating Both Text Safety and Output Robustness of Large Language Models ( http://arxiv.org/abs/2307.08487v2 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan(参考訳) 大規模な言語モデル(LLM)が人間の価値と一致し、安全なテキストを生成することを保証するために、考慮すべき研究努力が注がれている。 しかしながら、特定のトピックに対する過度な関心は、次の命令でモデルの堅牢性を損なう可能性があるため、タスクの完了時の全体的なパフォーマンスに影響を及ぼす。 ジェイルブレイク LLM の以前のベンチマークは主に、堅牢性を考慮せずにモデルの安全性を評価することに重点を置いている。 本稿では,LLMの安全性とロバスト性を評価するベンチマークを提案し,バランスの取れたアプローチの必要性を強調した。 テキストの安全性と出力堅牢性を包括的に研究するために、悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを導入する。 具体的には、悪意のある命令を含むテキストを翻訳して、翻訳などの通常のタスクを完了するようモデルに指示する。 安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。 本稿では,明示的正規命令の位置,単語置換(明示的正規命令のバーブ,悪意のある命令のターゲットグループ,明示的正規命令のキューワード),命令置換(異なる明示的正規命令)に関するllmの安全性とロバスト性に関する系統的分析を行う。 以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。 コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。

Considerable research efforts have been devoted to ensuring that large language models (LLMs) align with human values and generate safe text. However, an excessive focus on sensitivity to certain topics can compromise the model's robustness in following instructions, thereby impacting its overall performance in completing tasks. Previous benchmarks for jailbreaking LLMs have primarily focused on evaluating the safety of the models without considering their robustness. In this paper, we propose a benchmark that assesses both the safety and robustness of LLMs, emphasizing the need for a balanced approach. To comprehensively study text safety and output robustness, we introduce a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, with the text to be translated containing malicious instructions. To further analyze safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs regarding the position of explicit normal instructions, word replacements (verbs in explicit normal instructions, target groups in malicious instructions, cue words for explicit normal instructions), and instruction replacements (different explicit normal instructions). Our results demonstrate that current LLMs not only prioritize certain instruction verbs but also exhibit varying jailbreak rates for different instruction verbs in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.
翻訳日:2023-08-21 22:55:41 公開日:2023-08-18
# 管状構造分割の位相幾何学的制約に基づく動的蛇畳み込み

Dynamic Snake Convolution based on Topological Geometric Constraints for Tubular Structure Segmentation ( http://arxiv.org/abs/2307.08388v2 )

ライセンス: Link先を確認
Yaolei Qi and Yuting He and Xiaoming Qi and Yuan Zhang and Guanyu Yang(参考訳) 血管や道路などのトポロジカルな管状構造の正確なセグメンテーションは様々な分野において重要であり、下流の作業において精度と効率を確保する。 しかし、細い局所構造や可変大域形態を含む多くの要因がこのタスクを複雑にしている。 本稿では、管状構造の特異性に注目し、この知識を用いてDSCNetを誘導し、特徴抽出、特徴融合、損失制約の3段階における認識を同時に増強する。 まず,細長い局所構造に適応的に焦点を合わせ,管状構造の特徴を正確に把握するダイナミックスネーク畳み込みを提案する。 次に,複数の視点から機能への注目を補完する多視点特徴融合戦略を提案し,異なるグローバル形態から重要な情報を保持できるようにする。 最後に、持続的ホモロジーに基づく連続性制約損失関数を提案し、セグメンテーションの位相的連続性をよりよく制約する。 2次元および3次元データセットを用いた実験により,dscnetは複数の手法と比較して管状構造分割タスクの精度と連続性が向上することを示した。 私たちのコードは公開されます。

Accurate segmentation of topological tubular structures, such as blood vessels and roads, is crucial in various fields, ensuring accuracy and efficiency in downstream tasks. However, many factors complicate the task, including thin local structures and variable global morphologies. In this work, we note the specificity of tubular structures and use this knowledge to guide our DSCNet to simultaneously enhance perception in three stages: feature extraction, feature fusion, and loss constraint. First, we propose a dynamic snake convolution to accurately capture the features of tubular structures by adaptively focusing on slender and tortuous local structures. Subsequently, we propose a multi-view feature fusion strategy to complement the attention to features from multiple perspectives during feature fusion, ensuring the retention of important information from different global morphologies. Finally, a continuity constraint loss function, based on persistent homology, is proposed to constrain the topological continuity of the segmentation better. Experiments on 2D and 3D datasets show that our DSCNet provides better accuracy and continuity on the tubular structure segmentation task compared with several methods. Our codes will be publicly available.
翻訳日:2023-08-21 22:55:12 公開日:2023-08-18
# 統一オープンボキャブラリー密集視覚予測

Unified Open-Vocabulary Dense Visual Prediction ( http://arxiv.org/abs/2307.08238v2 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) 近年、オープン語彙(OV)の高密度視覚予測(OVオブジェクトの検出、セマンティック、インスタンス、汎視的セグメンテーションなど)が研究の注目を集めている。 しかし、既存のアプローチのほとんどはタスク固有であり、個別に各タスクに取り組む。 本稿では,4つの共通密度予測課題に共同で対処する統一オープン語彙ネットワーク(UOVN)を提案する。 異なるモデルと比較して、統一されたネットワークは多様な産業用途に望ましい。 また、OV密度予測訓練データも比較的少ない。 個別のネットワークはタスク関連トレーニングデータしか利用できないが、統一されたアプローチでは多様なトレーニングデータを統合して個々のタスクを強化することができる。 統合型OV予測における2つの大きな課題に対処する。 第一に、固定セット予測の統一手法とは異なり、OVネットワークは通常マルチモーダルデータで訓練される。 そこで本稿では,マルチモーダルデータを活用するためのマルチモーダル,マルチスケール,マルチタスク(MMM)デコーディング機構を提案する。 第二に、UOVNは異なるタスクのデータをトレーニングに使っているため、大きなドメインとタスクのギャップがあります。 このようなギャップを減らすためのUOVNトレーニング機構を提案する。 4つのデータセットの実験では、UOVNの有効性が示されている。

In recent years, open-vocabulary (OV) dense visual prediction (such as OV object detection, semantic, instance and panoptic segmentations) has attracted increasing research attention. However, most of existing approaches are task-specific and individually tackle each task. In this paper, we propose a Unified Open-Vocabulary Network (UOVN) to jointly address four common dense prediction tasks. Compared with separate models, a unified network is more desirable for diverse industrial applications. Moreover, OV dense prediction training data is relatively less. Separate networks can only leverage task-relevant training data, while a unified approach can integrate diverse training data to boost individual tasks. We address two major challenges in unified OV prediction. Firstly, unlike unified methods for fixed-set predictions, OV networks are usually trained with multi-modal data. Therefore, we propose a multi-modal, multi-scale and multi-task (MMM) decoding mechanism to better leverage multi-modal data. Secondly, because UOVN uses data from different tasks for training, there are significant domain and task gaps. We present a UOVN training mechanism to reduce such gaps. Experiments on four datasets demonstrate the effectiveness of our UOVN.
翻訳日:2023-08-21 22:54:50 公開日:2023-08-18
# 拡散モデルにおけるマニフォールド駆動サンプリングによる不偏像合成

Unbiased Image Synthesis via Manifold-Driven Sampling in Diffusion Models ( http://arxiv.org/abs/2307.08199v2 )

ライセンス: Link先を確認
Xingzhe Su, Yi Ren, Wenwen Qiang, Zeen Song, Hang Gao, Fengge Wu, Changwen Zheng(参考訳) 拡散モデルは高品質な画像を生成することができる強力な生成モデルのクラスである。 しかし、データバイアスに関連する課題に直面し、特にトレーニングデータが真のデータ分布を正確に表現せず、歪んだパターンや不均衡パターンを示す場合、特定のデータモードを好む。 例えば、CelebAデータセットは男性画像よりも女性画像が多く含まれており、バイアスのある生成結果と下流アプリケーションに影響を与える。 そこで本研究では,拡散モデルにおけるデータバイアスを緩和するために多様体誘導を利用する新しい手法を提案する。 我々のキーとなる考え方は、教師なしアプローチを用いてトレーニングデータの多様体を推定し、拡散モデルのサンプリングプロセスを導くことである。 これにより生成されたイメージは、モデルアーキテクチャを変更したり、ラベルを変更したり、再トレーニングしたりすることなく、データ多様体上に均一に分散されるようになる。 理論的解析と実証的証拠は, 標準的な拡散モデルと比較して画像の画質と不偏性を改善する方法の有効性を示した。

Diffusion models are a potent class of generative models capable of producing high-quality images. However, they can face challenges related to data bias, favoring specific modes of data, especially when the training data does not accurately represent the true data distribution and exhibits skewed or imbalanced patterns. For instance, the CelebA dataset contains more female images than male images, leading to biased generation results and impacting downstream applications. To address this issue, we propose a novel method that leverages manifold guidance to mitigate data bias in diffusion models. Our key idea is to estimate the manifold of the training data using an unsupervised approach, and then use it to guide the sampling process of diffusion models. This encourages the generated images to be uniformly distributed on the data manifold without altering the model architecture or necessitating labels or retraining. Theoretical analysis and empirical evidence demonstrate the effectiveness of our method in improving the quality and unbiasedness of image generation compared to standard diffusion models.
翻訳日:2023-08-21 22:54:32 公開日:2023-08-18
# 古典データの分類のための相互作用層を有する量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks with Interaction Layers for Classification of Classical Data ( http://arxiv.org/abs/2307.11792v2 )

ライセンス: Link先を確認
Jishnu Mahmud, Raisa Mashtura, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 量子機械学習(quantum machine learning, qml)は、量子コンピュータの計算能力の異常さから生まれた。 量子ニューラルネットワークにおけるマルチキュービット相互作用の影響は, 近距離量子コンピュータの今後への期待から広く研究されることが重要である。 本稿では,ネットワークの表現可能性と絡み合い能力を高める3量子ビット相互作用を利用した新しい相互作用層を有する量子畳み込みネットワークを提案する。 提案手法は, mnist, fashion mnist, irisデータセットの3つの公開データセットを用いて, バイナリ分類とマルチクラス分類を行い, 既存の最先端手法の性能に取って代わるものと考えられる。

Quantum Machine Learning (QML) has come into the limelight due to the exceptional computational abilities of quantum computers. With the promises of near error-free quantum computers in the not-so-distant future, it is important that the effect of multi-qubit interactions on quantum neural networks is studied extensively. This paper introduces a Quantum Convolutional Network with novel Interaction layers exploiting three-qubit interactions increasing the network's expressibility and entangling capability, for classifying both image and one-dimensional data. The proposed approach is tested on three publicly available datasets namely MNIST, Fashion MNIST, and Iris datasets, to perform binary and multiclass classifications and is found to supersede the performance of the existing state-of-the-art methods.
翻訳日:2023-08-21 22:44:38 公開日:2023-08-18
# neural tuned tomography (nett) と masked neural radiance fields (mnerf) を用いたロバストな単視点コーンビームx線ポーズ推定

Robust Single-view Cone-beam X-ray Pose Estimation with Neural Tuned Tomography (NeTT) and Masked Neural Radiance Fields (mNeRF) ( http://arxiv.org/abs/2308.00214v2 )

ライセンス: Link先を確認
Chaochao Zhou, Syed Hasib Akhter Faruqui, Abhinav Patel, Ramez N. Abdalla, Michael C. Hurley, Ali Shaibani, Matthew B. Potts, Babak S. Jahromi, Leon Cho, Sameer A. Ansari, Donald R. Cantrell(参考訳) 画像誘導・ミニ侵襲的医療手順における多くのタスクは、X線投影を用いて3次元空間のターゲットに到達するポーズ推定問題としてキャストすることができる。 光反射材料の微分可能レンダリングの最近の進歩を踏まえ,X線プロジェクションを用いた放射能オブジェクトのポーズ推定手法を導入し,このタスクにおける最適なビュー合成の重要性を実証する。 まず、Digitally Reconstructed Radiographs(DRR)を効率的に計算し、TensorFlow内の自動微分を利用するアルゴリズム(DiffDRR)を開発する。 ランダム初期化ポーズから合成されたdrrとターゲットポーズでの真のフルオロスコープ画像との類似性を定量化する損失関数を用いて、反復勾配降下によりポーズ推定を行う。 我々は,高忠実度ビュー合成のための2つの新しい手法,NeTT(Neural Tuned Tomography)とマスク型Neural Radiance Fields(mNeRF)を提案する。 NeTTはCBCTの密度を直接最適化し、mNeRFの非ゼロ値はCBCTから区切られた解剖学的領域の3Dマスクによって制限される。 我々は、NeTTとmNeRFの両方が、我々のフレームワーク内でのポーズ推定を著しく改善することを示した。 3dg未満の3次元角度誤差でポーズ推定を成功させることで,NTTとmNeRFはいずれも93%以上の成功率で同様の結果が得られることがわかった。 しかし,NeTTの計算コストはトレーニングとポーズ推定の両方においてmNeRFよりも有意に低い。 さらに,1つの被験者に対してトレーニングしたNeTTは,高忠実度DRRを合成し,他の被験者に対してロバストなポーズ推定を行うことができることを示す。 したがって,NeTTは蛍光投射を用いたロバストポーズ推定の魅力的な選択肢である可能性が示唆された。

Many tasks performed in image-guided, mini-invasive, medical procedures can be cast as pose estimation problems, where an X-ray projection is utilized to reach a target in 3D space. Expanding on recent advances in the differentiable rendering of optically reflective materials, we introduce new methods for pose estimation of radiolucent objects using X-ray projections, and we demonstrate the critical role of optimal view synthesis in performing this task. We first develop an algorithm (DiffDRR) that efficiently computes Digitally Reconstructed Radiographs (DRRs) and leverages automatic differentiation within TensorFlow. Pose estimation is performed by iterative gradient descent using a loss function that quantifies the similarity of the DRR synthesized from a randomly initialized pose and the true fluoroscopic image at the target pose. We propose two novel methods for high-fidelity view synthesis, Neural Tuned Tomography (NeTT) and masked Neural Radiance Fields (mNeRF). Both methods rely on classic Cone-Beam Computerized Tomography (CBCT); NeTT directly optimizes the CBCT densities, while the non-zero values of mNeRF are constrained by a 3D mask of the anatomic region segmented from CBCT. We demonstrate that both NeTT and mNeRF distinctly improve pose estimation within our framework. By defining a successful pose estimate to be a 3D angle error of less than 3 deg, we find that NeTT and mNeRF can achieve similar results, both with overall success rates more than 93%. However, the computational cost of NeTT is significantly lower than mNeRF in both training and pose estimation. Furthermore, we show that a NeTT trained for a single subject can generalize to synthesize high-fidelity DRRs and ensure robust pose estimations for all other subjects. Therefore, we suggest that NeTT is an attractive option for robust pose estimation using fluoroscopic projections.
翻訳日:2023-08-21 22:37:25 公開日:2023-08-18
# UniVTG: 統合ビデオ言語時間グラウンドを目指して

UniVTG: Towards Unified Video-Language Temporal Grounding ( http://arxiv.org/abs/2307.16715v2 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou(参考訳) ビデオテンポラリ・グラウンド(vtg)は、ビデオのターゲットクリップ(連続間隔や不一致ショットなど)をカスタム言語クエリ(例えば文や単語)に従ってグラウンドすることを目的としたもので、ソーシャルメディアでの動画ブラウジングの鍵となる。 この方向のほとんどの手法は、モーメント検索 (time interval) やハイライト検出 (worthiness curve) のようなタイプ固有のラベルで訓練されたタスク固有モデルを開発し、様々なVTGタスクやラベルに一般化する能力を制限する。 本稿では,UniVTGと呼ばれる多様なVTGラベルとタスクを3つの方向に沿って統一することを提案する。 そこで我々は,スケーラブルな疑似監視を実現するためのデータアノテーションスキームを開発した。 第2に,各課題に対処し,各ラベルをフル活用できる効果的で柔軟な接地モデルを開発する。 最後に、unified frameworkのおかげで、大規模な多様なラベルから事前訓練された時間的接地を解き放ち、ゼロショット接地のようなより強力な接地能力を開発することができる。 7つのデータセット(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum、QFVS)にまたがる3つのタスク(モーメント検索、ハイライト検出、ビデオ要約)に関する大規模な実験は、提案フレームワークの有効性と柔軟性を示している。 コードはhttps://github.com/showlab/UniVTGで入手できる。

Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.
翻訳日:2023-08-21 22:36:47 公開日:2023-08-18
# ハミルトン形式における複合粒子スペクトルの計算と2-フラバー qed$_{1+1\text{d}}$での実証

Calculating composite-particle spectra in Hamiltonian formalism and demonstration in 2-flavor QED$_{1+1\text{d}}$ ( http://arxiv.org/abs/2307.16655v2 )

ライセンス: Link先を確認
Etsuko Itou, Akira Matsumoto, Yuya Tanizaki(参考訳) 我々は,(1)相関関数スキーム,(2)一点関数スキーム,(3)分散関係スキームという,ゲージ理論の質量スペクトルを計算するための3つの異なる方法を考える。 1つ目はモンテカルロシミュレーションにおける従来のユークリッド法に対応する。 第二に、境界効果を使って質量スペクトルを効率的に計算する。 第3のものは励起状態を構成し、量子数の選択と分散関係を用いてエネルギーに適合する。 密度行列再正規化群 (dmrg) を用いたm/g=0.1$ および $\theta=0$ の2-フレーバー質量シュウィンガー模型の質量スペクトルへの応用において, それぞれの手法は長所と短所を持ち, それらの特性を明らかにした。 小さい質量$m$のマルチフレーバーシュウィンガーモデルは、ボゾン化後も強結合場理論であり、従って第一原理の数値計算を行う必要があることに留意する。 これら全ての手法は、安定粒子、ピオン$\pi_a$$J^{PG}=1^{-+}$、シグマメソン$\sigma$(J^{PG}=0^{++}$)、eta meson$\eta$(J^{PG}=0^{-}$)にほぼ一致する。 特に、$\sigma$中間子の質量は2倍のパイオン質量より軽く、$\sigma$は崩壊過程に対して安定である、$\sigma \to \pi\pi$。 これは、WKB近似を用いた解析的予測と一致しており、我々の計算結果は、ピオンとシグマ中間体の間のWKB式、$M_\sigma/M_\pi=\sqrt{3}$に非常に近い。

We consider three distinct methods to compute the mass spectrum of gauge theories in the Hamiltonian formalism: (1) correlation-function scheme, (2) one-point-function scheme, and (3) dispersion-relation scheme. The first one corresponds to the conventional Euclidean method in the Monte Carlo simulations. The second one uses the boundary effect to efficiently compute the mass spectrum. The third one constructs the excited states and fits their energy using the dispersion relation with selecting quantum numbers. Each method has its pros and cons, and we clarify such properties in their applications to the mass spectrum for the 2-flavor massive Schwinger model at $m/g=0.1$ and $\theta=0$ using the density-matrix renormalization group (DMRG). We note that the multi-flavor Schwinger model at small mass $m$ is a strongly-coupled field theory even after the bosonizations, and thus it deserves to perform the first-principles numerical calculations. All these methods mostly agree and identify the stable particles, pions $\pi_a$ ($J^{PG}=1^{-+}$), sigma meson $\sigma$ ($J^{PG}=0^{++}$), and eta meson $\eta$ ($J^{PG}=0^{--}$). In particular, we find that the mass of $\sigma$ meson is lighter than twice the pion mass, and thus $\sigma$ is stable against the decay process, $\sigma \to \pi\pi$. This is consistent with the analytic prediction using the WKB approximation, and, remarkably, our numerical results are so close to the WKB-based formula between the pion and sigma-meson masses, $M_\sigma/M_\pi=\sqrt{3}$.
翻訳日:2023-08-21 22:36:18 公開日:2023-08-18
# G2L:ジオデシックとゲーム理論によるセマンティックアライメントと一様グラウンド

G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game Theory ( http://arxiv.org/abs/2307.14277v2 )

ライセンス: Link先を確認
Hongxiang Li, Meng Cao, Xuxin Cheng, Yaowei Li, Zhihong Zhu, Yuexian Zou(参考訳) 最近のビデオグラウンディングは、バニラコントラスト学習をビデオグラウンディングに導入しようと試みている。 しかし、このナイーブ解は準最適であると主張する。 対照的な学習には、(1)類似したサンプルの特徴のemph{alignment}と(2)超球上の正規化特徴の誘導分布のemph{uniformity}という2つの重要な特性が必要である。 ビデオグラウンディングにおける2つの厄介な問題として,(1) 真実と他の瞬間の両方に視覚的実体が存在すること,(2) ビデオ中のいくつかの瞬間だけが注釈付けされていること,(2) バニラ・コントラスト学習は時間的に離れたモーメントと非一貫性なビデオ表現の相関をモデル化できないこと,などがあげられる。 どちらの特徴も、バニラのコントラスト学習はビデオの接地には適さない。 本稿では,ジオデシックとゲーム理論を通した,意味的に整列した一様ビデオグラウンドフレームワークであるgeodesic and game localization (g2l)を提案する。 我々は、モデルが正しいクロスモーダル表現を学ぶのを導く測地距離を利用したモーメント間の相関を定量化する。 さらに,ゲーム理論の新たな視点から,測地線距離サンプリングに基づくセマンティック・シェープリー相互作用を提案し,類似した瞬間における微粒なセマンティックアライメントを学習する。 3つのベンチマーク実験により,本手法の有効性が示された。

The recent video grounding works attempt to introduce vanilla contrastive learning into video grounding. However, we claim that this naive solution is suboptimal. Contrastive learning requires two key properties: (1) \emph{alignment} of features of similar samples, and (2) \emph{uniformity} of the induced distribution of the normalized features on the hypersphere. Due to two annoying issues in video grounding: (1) the co-existence of some visual entities in both ground truth and other moments, \ie semantic overlapping; (2) only a few moments in the video are annotated, \ie sparse annotation dilemma, vanilla contrastive learning is unable to model the correlations between temporally distant moments and learned inconsistent video representations. Both characteristics lead to vanilla contrastive learning being unsuitable for video grounding. In this paper, we introduce Geodesic and Game Localization (G2L), a semantically aligned and uniform video grounding framework via geodesic and game theory. We quantify the correlations among moments leveraging the geodesic distance that guides the model to learn the correct cross-modal representations. Furthermore, from the novel perspective of game theory, we propose semantic Shapley interaction based on geodesic distance sampling to learn fine-grained semantic alignment in similar moments. Experiments on three benchmarks demonstrate the effectiveness of our method.
翻訳日:2023-08-21 22:34:30 公開日:2023-08-18
# sky to the ground - 大規模なベンチマークと雨の除去に向けたシンプルなベースライン

From Sky to the Ground: A Large-scale Benchmark and Simple Baseline Towards Real Rain Removal ( http://arxiv.org/abs/2308.03867v2 )

ライセンス: Link先を確認
Yun Guo, Xueyao Xiao, Yi Chang, Shumin Deng, Luxin Yan(参考訳) 学習に基づく画像デラウニング手法は大きな進歩を遂げた。 しかしながら、大規模な高品質なペアトレーニングサンプルが欠如していることは、実際のイメージレーディング(rid)を阻害する主なボトルネックである。 このジレンマと進行RIDに対処するため、100万の高解像度(1920*1080)フレーム対を持つ3000の動画シーケンスを含む大規模高品質ペアドリアルレインベンチマーク(LHP-Rain)を構築した。 提案するデータセットが既存のデータセットよりも優れているのは,3つある – 多様性が高く,大規模で,高解像度で高品質なイメージを持つ雨だ。 特に、LHP-Rainの本当の雨は、空に古典的な雨のストリーク/ヴェイリング/オクルージョンを含むだけでなく、デライニングコミュニティが見落としている「地上でのスプラッシュ」も含んでいる。 さらに, 動的雨からの静的背景の分離を改良したGTを生成するための, 頑健な低ランクテンソル復元モデルを提案する。 また,画像および雨層内の自己着脱と層間注意を同時に活用し,識別的特徴表現を備えた簡易な変圧器ベースラインを設計する。 大規模な実験により,提案したデータセットの優位性と,最先端技術に対するデラミニング手法の優位性を検証した。

Learning-based image deraining methods have made great progress. However, the lack of large-scale high-quality paired training samples is the main bottleneck to hamper the real image deraining (RID). To address this dilemma and advance RID, we construct a Large-scale High-quality Paired real rain benchmark (LHP-Rain), including 3000 video sequences with 1 million high-resolution (1920*1080) frame pairs. The advantages of the proposed dataset over the existing ones are three-fold: rain with higher-diversity and larger-scale, image with higher-resolution and higher-quality ground-truth. Specifically, the real rains in LHP-Rain not only contain the classical rain streak/veiling/occlusion in the sky, but also the \textbf{splashing on the ground} overlooked by deraining community. Moreover, we propose a novel robust low-rank tensor recovery model to generate the GT with better separating the static background from the dynamic rain. In addition, we design a simple transformer-based single image deraining baseline, which simultaneously utilize the self-attention and cross-layer attention within the image and rain layer with discriminative feature representation. Extensive experiments verify the superiority of the proposed dataset and deraining method over state-of-the-art.
翻訳日:2023-08-21 22:26:41 公開日:2023-08-18
# WIKITIDE:Wikipediaベースのタイムスタンプ定義ペアデータセット

WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset ( http://arxiv.org/abs/2308.03582v2 )

ライセンス: Link先を確認
Hsuvas Borkakoty and Luis Espinosa-Anke(参考訳) 言語モデルに支配される現在のNLPコンテキストにおける根本的な課題は、現在のアーキテクチャの柔軟性から、新しい情報を'学習'することにある。 連続学習やパラメータ効率のよい微調整のようなモデル中心のソリューションが利用可能であるが、言語や世界の変化を確実に識別する方法はまだ疑問である。 本稿では,ウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットであるWikiTiDeを提案する。 このようなリソースは、特に、概念、イベント、または名前付きエンティティに関するコア更新のための知識リソースをスキャンできるトレーニングモデルにおいて、ダイアクロニックNLPの加速に役立ちます。 提案手法は完全自動であり,ブートストラップアルゴリズムを用いて高品質なデータセットを徐々に作成する。 我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。 また、多くの下流タスクで微調整されたモデルを活用し、競合するベースラインに関して有望な結果を示す。

A fundamental challenge in the current NLP context, dominated by language models, comes from the inflexibility of current architectures to 'learn' new information. While model-centric solutions like continual learning or parameter-efficient fine tuning are available, the question still remains of how to reliably identify changes in language or in the world. In this paper, we propose WikiTiDe, a dataset derived from pairs of timestamped definitions extracted from Wikipedia. We argue that such resource can be helpful for accelerating diachronic NLP, specifically, for training models able to scan knowledge resources for core updates concerning a concept, an event, or a named entity. Our proposed end-to-end method is fully automatic, and leverages a bootstrapping algorithm for gradually creating a high-quality dataset. Our results suggest that bootstrapping the seed version of WikiTiDe leads to better fine-tuned models. We also leverage fine-tuned models in a number of downstream tasks, showing promising results with respect to competitive baselines.
翻訳日:2023-08-21 22:26:16 公開日:2023-08-18
# 不均一知識融合 : LLMによる個人化勧告の新しいアプローチ

Heterogeneous Knowledge Fusion: A Novel Approach for Personalized Recommendation via LLM ( http://arxiv.org/abs/2308.03333v2 )

ライセンス: Link先を確認
Bin Yin, Junjie Xie, Yu Qin, Zixiang Ding, Zhichao Feng, Xiang Li, Wei Lin(参考訳) ユーザの異種行動の分析とマイニングは,レコメンデーションシステムにおいて極めて重要である。 しかし、様々な異種行動をレコメンデーションモデルに組み込む従来の手法は、特徴の空間性と知識の断片化の問題を引き起こす。 この課題に対処するために,ユーザの異種行動情報から異種知識を抽出し,融合させることにより,Large Language Model (LLM) を用いたパーソナライズドレコメンデーションのための新しいアプローチを提案する。 さらに、異種知識とレコメンデーションタスクを組み合わせることで、パーソナライズされたレコメンデーションのためにLLM上で指導チューニングを行う。 実験の結果,提案手法はユーザの不均一な振る舞いを効果的に統合し,レコメンデーション性能を大幅に向上できることがわかった。

The analysis and mining of user heterogeneous behavior are of paramount importance in recommendation systems. However, the conventional approach of incorporating various types of heterogeneous behavior into recommendation models leads to feature sparsity and knowledge fragmentation issues. To address this challenge, we propose a novel approach for personalized recommendation via Large Language Model (LLM), by extracting and fusing heterogeneous knowledge from user heterogeneous behavior information. In addition, by combining heterogeneous knowledge and recommendation tasks, instruction tuning is performed on LLM for personalized recommendations. The experimental results demonstrate that our method can effectively integrate user heterogeneous behavior and significantly improve recommendation performance.
翻訳日:2023-08-21 22:25:57 公開日:2023-08-18
# 近代スカイサーベイデータにおけるL&Tブラウンドワーフ探索のための機械学習手法

Machine learning methods for the search for L&T brown dwarfs in the data of modern sky surveys ( http://arxiv.org/abs/2308.03045v3 )

ライセンス: Link先を確認
Aleksandra Avdeeva(参考訳) 様々な推定によれば、ブラウンドワーフ(bd)は銀河の全天体の最大25%を占めるはずである。 しかし、個体群と個体群の両方で発見・調査されているものは少ない。 ブラウンドワーフの均質で完全なサンプルは、この種の研究には必要である。 その弱さのため、ブラウン・ドワーフのスペクトル研究は比較的困難である。 そのため、分光観測で確認されたブラウン・ドワーフのかなりの信頼できるサンプルを作成することは、現時点では不可能である。 多数の調査データに適用された決定規則として、その色を用いて茶色の小星を探索し、生成する試みが数多くなされている。 本研究では,PanStarrs DR1,2MASS,WISEデータ上でのランダムフォレスト分類器,XGBoost,SVM分類器,TabNetなどの機械学習手法を用いて,LとTのブラウンドロームを他のスペクトルおよび光度クラスのオブジェクトと区別する。 モデルの説明について述べる。 また、我々のモデルを古典的な決定規則と比較し、その効率性と妥当性を証明する。

According to various estimates, brown dwarfs (BD) should account for up to 25 percent of all objects in the Galaxy. However, few of them are discovered and well-studied, both individually and as a population. Homogeneous and complete samples of brown dwarfs are needed for these kinds of studies. Due to their weakness, spectral studies of brown dwarfs are rather laborious. For this reason, creating a significant reliable sample of brown dwarfs, confirmed by spectroscopic observations, seems unattainable at the moment. Numerous attempts have been made to search for and create a set of brown dwarfs using their colours as a decision rule applied to a vast amount of survey data. In this work, we use machine learning methods such as Random Forest Classifier, XGBoost, SVM Classifier and TabNet on PanStarrs DR1, 2MASS and WISE data to distinguish L and T brown dwarfs from objects of other spectral and luminosity classes. The explanation of the models is discussed. We also compare our models with classical decision rules, proving their efficiency and relevance.
翻訳日:2023-08-21 22:25:41 公開日:2023-08-18
# 1ケルビン上のスピン量子ビットの高忠実度演算とアルゴリズム初期化

High-fidelity operation and algorithmic initialisation of spin qubits above one kelvin ( http://arxiv.org/abs/2308.02111v2 )

ライセンス: Link先を確認
Jonathan Y. Huang, Rocky Y. Su, Wee Han Lim, MengKe Feng, Barnaby van Straaten, Brandon Severin, Will Gilbert, Nard Dumoulin Stuyck, Tuomo Tanttu, Santiago Serrano, Jesus D. Cifuentes, Ingvild Hansen, Amanda E. Seedhouse, Ensar Vahapoglu, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Christopher C. Escott, Natalia Ares, Stephen D. Bartlett, Andrea Morello, Andre Saraiva, Arne Laucht, Andrew S. Dzurak, and Chih Hwan Yang(参考訳) 半導体スピンキャリアにおける量子ビットの符号化は、大規模にリソグラフィで生成・統合できる商用量子コンピュータへの有望なアプローチとして認識されている。 しかし、有利な量子応用に必要な多くの量子ビットの演算は、ミリケルビン温度で利用可能なクライオスタットの冷却能力を超える熱負荷を発生させる。 スケールアップが加速するにつれて、1ケルビン以上のフォールトトレラントな動作を確立することが必須となり、冷却電力は桁違いに高い。 ここでは、1ケルビン以上のシリコンでスピン量子ビットをチューニングし、その温度でフォールトトレラントな操作に必要な範囲のフィディリティを演算する。 熱エネルギーがキュービットエネルギーよりもかなり高い場合でも、純粋な2量子状態を作成するためのアルゴリズム初期化プロトコルを設計し、読み出しと初期化の両方で99.34パーセントの忠実性を達成するために高周波リードアウトを組み込む。 重要なことに、シングルキュービットのクリフォードゲート忠実度は99.85パーセント、2キュービットゲート忠実度は98.92パーセントである。 これらの進歩は、熱エネルギーが高忠実度演算が可能なクビットエネルギーのかなり下にある必要があるという根本的な制限を克服し、スケーラブルでフォールトトレラントな量子計算への経路において大きな障害を克服している。

The encoding of qubits in semiconductor spin carriers has been recognised as a promising approach to a commercial quantum computer that can be lithographically produced and integrated at scale. However, the operation of the large number of qubits required for advantageous quantum applications will produce a thermal load exceeding the available cooling power of cryostats at millikelvin temperatures. As the scale-up accelerates, it becomes imperative to establish fault-tolerant operation above 1 kelvin, where the cooling power is orders of magnitude higher. Here, we tune up and operate spin qubits in silicon above 1 kelvin, with fidelities in the range required for fault-tolerant operation at such temperatures. We design an algorithmic initialisation protocol to prepare a pure two-qubit state even when the thermal energy is substantially above the qubit energies, and incorporate radio-frequency readout to achieve fidelities up to 99.34 per cent for both readout and initialisation. Importantly, we demonstrate a single-qubit Clifford gate fidelity of 99.85 per cent, and a two-qubit gate fidelity of 98.92 per cent. These advances overcome the fundamental limitation that the thermal energy must be well below the qubit energies for high-fidelity operation to be possible, surmounting a major obstacle in the pathway to scalable and fault-tolerant quantum computation.
翻訳日:2023-08-21 22:23:52 公開日:2023-08-18
# 自動運転車の危険度評価における反事実的安全マージンの視点

A Counterfactual Safety Margin Perspective on the Scoring of Autonomous Vehicles' Riskiness ( http://arxiv.org/abs/2308.01050v3 )

ライセンス: Link先を確認
Alessandro Zanardi, Andrea Censi, Margherita Atzei, Luigi Di Lillo, Emilio Frazzoli(参考訳) 自動運転車(AV)は、道路事故の減少や全体の輸送効率の向上など、多くの社会的利益をもたらす可能性がある。 しかし、歴史データの欠如と急速に進化する技術のために、AVに関連するリスクの定量化は困難である。 本稿では,道路利用者の非現実的シミュレーションに基づいて,様々な運用設計ドメイン(odd)における異なるavs行動のリスクを比較するためのデータ駆動フレームワークを提案する。 本稿では,衝突につながる可能性のある通常の行動から最小限の偏差を示す,対物的安全マージンの概念を紹介する。 この概念は、最も重要なシナリオを見つけるだけでなく、avのリスクの頻度と深刻度を評価するのに役立つ。 提案手法は,AVの行動方針が不明な場合においても,最悪の場合や最良事例の分析を通じて適用可能であることを示し,外部の第三者のリスク評価にも有用であることを示す。 実験の結果, 安全マージン, 運転方針品質およびODDシーディングの相関が, 異なるAVプロバイダの相対リスクに与える影響を示唆した。 この研究は、この新興技術を取り巻く立法・保険問題に対処するためのAVの安全性評価と支援に貢献する。

Autonomous Vehicles (AVs) have the potential to provide numerous societal benefits, such as decreased road accidents and increased overall transportation efficiency. However, quantifying the risk associated with AVs is challenging due to the lack of historical data and the rapidly evolving technology. This paper presents a data-driven framework for comparing the risk of different AVs' behaviors in various operational design domains (ODDs), based on counterfactual simulations of "misbehaving" road users. We introduce the concept of counterfactual safety margin, which represents the minimum deviation from normal behavior that could lead to a collision. This concept helps to find the most critical scenarios but also to assess the frequency and severity of risk of AVs. We show that the proposed methodology is applicable even when the AV's behavioral policy is unknown -- through worst- and best-case analyses -- making the method useful also to external third-party risk assessors. Our experimental results demonstrate the correlation between the safety margin, the driving policy quality, and the ODD shedding light on the relative risk associated with different AV providers. This work contributes to AV safety assessment and aids in addressing legislative and insurance concerns surrounding this emerging technology.
翻訳日:2023-08-21 22:23:29 公開日:2023-08-18
# ディエンス予測のマルチタスク学習のためのゲーティング付き変形可能なミキサー変換器

Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2308.05721v3 )

ライセンス: Link先を確認
Yangyang Xu, Yibo Yang, Bernard Ghanemm, Lefei Zhang, Du Bo, Dacheng Tao(参考訳) CNNとTransformerには独自の利点があり、どちらもマルチタスク学習(MTL)における高密度な予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なcnnと問合せに基づくトランスフォーマーのメリットを共有ゲーティングと組み合わせることで,マルチタスク学習と密集型予測を組み合わせた新しいmtlモデルを提案する。 この組み合わせは、強力で柔軟なタスク固有の学習と、コストの低減、複雑さの低減、および従来のmtlメソッドよりも小さいパラメータの利点により、シンプルで効率的なソリューションを提供する。 変形可能なミキサートランス (deformable mixer Transformer with gating, DeMTG) は,MTL用統合ネットワークにコンボリューションとアテンション機構を組み込んだ,シンプルで効果的なエンコーダ・デコーダアーキテクチャである。 各ブロックの利点を巧みに利用し、ローカルおよびグローバルの観点から全てのタスクに対して変形可能で包括的な機能を提供する。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。 第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用してタスク固有の特徴の選定を行う。 さらに,提案するdemtgはgflops使用量が少なく,現行のトランスフォーマベースおよびcnnベースの競合モデルと比較して,3つの密集した予測データセット上での多種多様な指標において有意に性能が向上することを示した。 私たちのコードとモデルはhttps://github.com/yangyangxu0/demtgで利用可能です。

CNNs and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer with shared gating for multi-task learning of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and advantages of lower cost, less complexity and smaller parameters than the traditional MTL methods. We introduce deformable mixer Transformer with gating (DeMTG), a simple and effective encoder-decoder architecture up-to-date that incorporates the convolution and attention mechanism in a unified network for MTL. It is exquisitely designed to use advantages of each block, and provide deformable and comprehensive features for all tasks from local and global perspective. First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform the task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to select corresponding task-specific features. Further, the experiment results demonstrate that the proposed DeMTG uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.
翻訳日:2023-08-21 22:18:40 公開日:2023-08-18
# マルチビジュアル慣性システム:解析・校正・推定

Multi-Visual-Inertial System: Analysis, Calibration and Estimation ( http://arxiv.org/abs/2308.05303v2 )

ライセンス: Link先を確認
Yulin Yang and Patrick Geneva and Guoquan Huang(参考訳) 本稿では,マルチビジュアル慣性システム(mvis)の状態推定と,任意の数の非同期慣性測定ユニット(imus)やジャイロスコープ,グローバルおよび(または)ローリングシャッターカメラを最適に融合するセンサ融合アルゴリズムを開発した。 IMUやカメラの内在性、IMU-IMU(またはカメラ)時空間外在性、ローリングシャッターカメラ(使用)の画像読取時間など、関連する視覚慣性センサーの完全な校正に関心がある。 この目的のために,本研究では,ベースIMUとともに補助IMUと(または)ジャイロスコープの融合に利用した,内在性決定型ACI3-to preintegrate IMU測定と新たなIMU統合法を開発した。 我々は,IMU-IMUの剛体制約を利用して,補助的慣性ポーズの必要を排除し,複雑性を低減しつつ,必要慣性内在およびIMU-IMU時空間外因性パラメータをすべて含む多慣性測定をモデル化した。 MVISの可観測性解析により,慣性センサの数に関わらず,標準の4つの観測不可能な方向が残っていること,IMU-IMU時空間外在性運動と補助慣性内在性運動の退化を初めて確認した。 分析とアルゴリズムを検証する広範なシミュレーションに加えて、我々は独自のmvisセンサリグを構築し、25以上の実世界のデータセットを収集し、kalibrのような最先端のキャリブレーション手法に対するキャリブレーションを実験的に検証した。 提案するmvisキャリブレーションにより,コンバージェンスとリピート性が向上し,コミュニティのメリットを高めるためにオープンソースとして公開されている競合精度が達成できることを示す。

In this paper, we study state estimation of multi-visual-inertial systems (MVIS) and develop sensor fusion algorithms to optimally fuse an arbitrary number of asynchronous inertial measurement units (IMUs) or gyroscopes and global and(or) rolling shutter cameras. We are especially interested in the full calibration of the associated visual-inertial sensors, including the IMU or camera intrinsics and the IMU-IMU(or camera) spatiotemporal extrinsics as well as the image readout time of rolling-shutter cameras (if used). To this end, we develop a new analytic combined IMU integration with intrinsics-termed ACI3-to preintegrate IMU measurements, which is leveraged to fuse auxiliary IMUs and(or) gyroscopes alongside a base IMU. We model the multi-inertial measurements to include all the necessary inertial intrinsic and IMU-IMU spatiotemporal extrinsic parameters, while leveraging IMU-IMU rigid-body constraints to eliminate the necessity of auxiliary inertial poses and thus reducing computational complexity. By performing observability analysis of MVIS, we prove that the standard four unobservable directions remain - no matter how many inertial sensors are used, and also identify, for the first time, degenerate motions for IMU-IMU spatiotemporal extrinsics and auxiliary inertial intrinsics. In addition to the extensive simulations that validate our analysis and algorithms, we have built our own MVIS sensor rig and collected over 25 real-world datasets to experimentally verify the proposed calibration against the state-of-the-art calibration method such as Kalibr. We show that the proposed MVIS calibration is able to achieve competing accuracy with improved convergence and repeatability, which is open sourced to better benefit the community.
翻訳日:2023-08-21 22:18:04 公開日:2023-08-18
# PTransIPs:タンパク質事前学習言語モデルとトランスフォーマーに基づくリン酸化部位の同定

PTransIPs: Identification of phosphorylation sites based on protein pretrained language model and Transformer ( http://arxiv.org/abs/2308.05115v2 )

ライセンス: Link先を確認
Ziyang Xu and Haitian Zhong(参考訳) リン酸化は多くの基本的な細胞プロセスの中心であり、様々な疾患の発症と進行に影響を与える。 これらのリン酸化部位の正確な同定は、細胞内およびウイルス感染中の複雑な分子機構を解明することが非常に重要であり、新しい治療標的の発見につながる可能性がある。 本研究では,リン酸化部位の同定のための新しい深層学習モデルであるPTransIPを紹介する。 ptransipsはタンパク質配列内のアミノ酸を単語として扱い、そのタイプとシーケンシャルな位置に基づいてユニークなエンコーディングを抽出する。 このモデルには、大きな事前訓練されたタンパク質モデルの埋め込みも追加のデータ入力として組み込まれている。 ptransipsはさらに、残差接続を持つ畳み込みニューラルネットワークと、マルチヘッドアテンション機構を備えたトランスフォーマーモデルの組み合わせモデルに基づいて訓練される。 最後に、モデルは完全な連結層を通して分類結果を出力する。 独立試験の結果、PTransIPsは既存のSOTA法よりも優れており、リン化S/T部位とY部位をそれぞれ同定するためのAUROCは0.9232と0.9660であることがわかった。 さらに,プレトレーニングモデル埋め込みがPTransIPの性能に寄与することを示す。 さらに、PTransIPsは、解釈可能なアミノ酸嗜好、可視訓練プロセスを有し、他の生物活性分類タスクにおける一般化性を示す。 使用を容易にするため、コードとデータは \url{https://github.com/StatXzy7/PTransIPs} で公開されています。

Phosphorylation is central to numerous fundamental cellular processes, influencing the onset and progression of a variety of diseases. The correct identification of these phosphorylation sites is of great importance to unravel the intricate molecular mechanisms within cells and during viral infections, potentially leading to the discovery of new therapeutic targets. In this study, we introduce PTransIPs, a novel deep learning model for the identification of phosphorylation sites. PTransIPs treat amino acids within protein sequences as words, extracting unique encodings based on their type and sequential position. The model also incorporates embeddings from large pretrained protein models as additional data inputs. PTransIPS is further trained on a combination model of convolutional neural network with residual connections and Transformer model equipped with multi-head attention mechanisms. At last, the model outputs classification results through a fully connected layer. The results of independent testing reveal that PTransIPs outperforms existing state-of-the-art(SOTA) methods, achieving AUROCs of 0.9232 and 0.9660 for identifying phosphorylated S/T and Y sites respectively. In addition, ablation studies prove that pretrained model embeddings contribute to the performance of PTransIPs. Furthermore, PTransIPs has interpretable amino acid preference, visible training process and shows generalizability on other bioactivity classification tasks. To facilitate usage, our code and data are publicly accessible at \url{https://github.com/StatXzy7/PTransIPs}.
翻訳日:2023-08-21 22:17:26 公開日:2023-08-18
# 連続波レーザーの偏光パス相関のコヒーレンス操作によるマクロ量子相関

Macroscopic quantum correlation using coherence manipulations of polarization-path correlations of a continuous-wave laser ( http://arxiv.org/abs/2308.04078v2 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 量子重ね合わせは通常、ハイゼンベルクの不確かさ原理が支配する微視的な方法で持続する。 ペア粒子間の量子相関は、古典物理学によって支配される局所実在論の違反を意味する。 過去数十年間、量子機能は量子コンピューティング、通信、センシングなど様々な量子技術に実装されてきた。 このような量子的特徴は一般に古典的な手段では不可能であることが知られている。 ここでは、連続波レーザーの偏光-パス相関のコヒーレンス操作のためのマクロ量子相関を提示し、分離不能な積-基底形式の結合パラメータ関係を満たす。 偏光パス相関のコヒーレンス制御には、一対の電気光学変調器が干渉しないマッハ・ツェンダー干渉計において、対の偏光基底間の決定論的切替に使用され、従った一対の光変調器によって選択された積-基底選択の偏光積-基底重ねが生じる。 この前例のないマクロな量子特徴は、将来の古典光学互換量子情報のための顕微鏡的状態を超えた量子力学の新しい理解の扉を開く。

Quantum superposition is normally sustained in a microscopic regime governed by Heisenberg uncertainty principle applicable to a single particle. Quantum correlation between paired particles implies the violation of local realism governed by classical physics. Over the last decades, quantum features have been implemented in various quantum technologies including quantum computing, communications, and sensing. Such quantum features are generally known to be impossible by any classical means. Here, a macroscopic quantum correlation is presented for coherence manipulations of polarization-path correlations of a continuous wave laser, satisfying the joint-parameter relation in an inseparable product-basis form. For the coherence control of the polarization-path correlation, a pair of electro-optic modulators is used in a noninterfering Mach-Zehnder interferometer for deterministic switching between paired polarization bases, resulting in the polarization product-basis superposition in a selective product-basis choice manner by a followed pair of acousto-optic modulators. This unprecedented macroscopic quantum feature opens the door to a new understanding of quantum mechanics beyond the microscopic regime for future classical optics-compatible quantum information.
翻訳日:2023-08-21 22:14:52 公開日:2023-08-18
# 量子安定源の検証

Verification of Quantum Stable Sources ( http://arxiv.org/abs/2308.03875v3 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas and Gael Sent\'is(参考訳) 量子系における安定源の検証問題を紹介する。 この問題は、Pallisterらによって最初に提案された量子検証の問題と密接に関連している。 アル [1] しかし、それは元の問題の概念を拡張する。 我々は、マルコフ状態と呼ばれる非i.i.d.源に由来する状態の族を紹介する。 定理1では、これらの状態が変化源よりもテンソル積でよく説明されていないことが証明される。 定理2ではさらに、2つのマルコフ状態の間のトレース距離の低い境界を提供し、これは量子安定源の検証の問題を解く最も単純な方法である。

We introduce the problem of verification of stable sources in quantum systems. This problem is closely related to the problem of quantum verification first proposed by Pallister et. al. [1], however it extends the notion of the original problem. We introduce a family of states that come from a non-i.i.d. source which we call a Markov state. We prove in theorem 1 that these states are not well described with tensor products over a changing source. In theorem 2 we further provide a lower bound on the trace distance between two Markov states, which is the simplest way to solve the problem of verification of quantum stable sources.
翻訳日:2023-08-21 22:14:32 公開日:2023-08-18
# スマート農業の基礎モデル : 基礎, 機会, 課題

Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges ( http://arxiv.org/abs/2308.06668v2 )

ライセンス: Link先を確認
Jiajia Li, Mingle Xu, Lirong Xiang, Dong Chen, Weichao Zhuang, Xunyuan Yin and Zhaojian Li(参考訳) 過去10年間、農業システムにおけるMLとDLの方法論の急速な発展を目撃してきた。 しかし、これらの従来のML/DLモデルには、いくつかの制限がある: トレーニングには、大きくて費用がかかるラベル付きデータセットに強く依存し、開発とメンテナンスに特別な専門知識を必要とし、主に特定のタスクに適したため、一般化性に欠ける。 近年,基礎モデルは言語や視覚のタスクにおいて,様々な領域で顕著な成功を収めている。 これらのモデルは、複数のドメインとモダリティから大量のデータに基づいて訓練されている。 トレーニングをすれば、小さな微調整と最小限のタスク固有のラベル付きデータだけで、多用途なタスクを実現できる。 その実証された効果と大きな潜在能力にもかかわらず、農業分野にFMを適用するという調査はほとんど行われていない。 そこで本研究では,スマート農業分野におけるFMの可能性を探究する。 特に,問題空間の理解と新たな研究の方向性を明らかにするための概念的ツールと技術的背景について述べる。 この目的のために、コンピュータ科学分野における最近のFMをまずレビューし、言語FM、ビジョンFM、マルチモーダルFM、強化学習FMの4つのカテゴリに分類した。 続いて,農業fmsの展開過程を概説し,スマート農業におけるその可能性について論じる。 また,モデルトレーニングや検証,デプロイメントなど,afm開発に伴うユニークな課題についても論じる。 本研究は農業におけるAIの進歩に寄与し、AFMを広範なラベル付きデータセットへの依存を著しく軽減し、農業AIシステムの効率、有効性、一般化を向上する有望なパラダイムとして導入する。

The past decade has witnessed the rapid development of ML and DL methodologies in agricultural systems, showcased by great successes in variety of agricultural applications. However, these conventional ML/DL models have certain limitations: They heavily rely on large, costly-to-acquire labeled datasets for training, require specialized expertise for development and maintenance, and are mostly tailored for specific tasks, thus lacking generalizability. Recently, foundation models have demonstrated remarkable successes in language and vision tasks across various domains. These models are trained on a vast amount of data from multiple domains and modalities. Once trained, they can accomplish versatile tasks with just minor fine-tuning and minimal task-specific labeled data. Despite their proven effectiveness and huge potential, there has been little exploration of applying FMs to agriculture fields. Therefore, this study aims to explore the potential of FMs in the field of smart agriculture. In particular, we present conceptual tools and technical background to facilitate the understanding of the problem space and uncover new research directions in this field. To this end, we first review recent FMs in the general computer science domain and categorize them into four categories: language FMs, vision FMs, multimodal FMs, and reinforcement learning FMs. Subsequently, we outline the process of developing agriculture FMs and discuss their potential applications in smart agriculture. We also discuss the unique challenges associated with developing AFMs, including model training, validation, and deployment. Through this study, we contribute to the advancement of AI in agriculture by introducing AFMs as a promising paradigm that can significantly mitigate the reliance on extensive labeled datasets and enhance the efficiency, effectiveness, and generalization of agricultural AI systems.
翻訳日:2023-08-21 22:06:53 公開日:2023-08-18
# ミラー拡散モデル

Mirror Diffusion Models ( http://arxiv.org/abs/2308.06342v2 )

ライセンス: Link先を確認
Jaesung Tae(参考訳) 拡散モデルは様々な連続領域の生成タスクにうまく適用されている。 しかし、離散的分類データへの拡散を適用することは非自明な課題である。 さらに、連続ドメインの生成には実際にクリップングが必要であり、制限されたドメインに拡散を適用するための理論的枠組みが必要である。 制約サンプリング問題に対するミラーランゲヴィンアルゴリズムに着想を得たこの理論報告ではミラー拡散モデル(MDM)を提案する。 我々は,シンプルな拡散の文脈でMDMを実証し,画像やテキスト生成などの一般的な領域への自然な拡張を提案する。

Diffusion models have successfully been applied to generative tasks in various continuous domains. However, applying diffusion to discrete categorical data remains a non-trivial task. Moreover, generation in continuous domains often requires clipping in practice, which motivates the need for a theoretical framework for adapting diffusion to constrained domains. Inspired by the mirror Langevin algorithm for the constrained sampling problem, in this theoretical report we propose Mirror Diffusion Models (MDMs). We demonstrate MDMs in the context of simplex diffusion and propose natural extensions to popular domains such as image and text generation.
翻訳日:2023-08-21 22:05:54 公開日:2023-08-18
# ロバスト音源定位のための視聴覚空間統合と再帰的注意

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization ( http://arxiv.org/abs/2308.06087v2 )

ライセンス: Link先を確認
Sung Jin Um, Dongjin Kim, Jung Uk Kim(参考訳) 音源定位タスクの目的は、機械が視覚的シーン内の音質物体の位置を検知できるようにすることである。 オーディオモダリティは音源を見つけるための空間的手がかりを提供するが、既存のアプローチでは視覚モダリティの空間的領域を比較する補助的な役割としてのみ音声を使用する。 一方,人間は音声と視覚の両方を空間的手がかりとして利用し,音源の特定を行う。 本稿では,両モードからの空間的手がかりを統合し,音質オブジェクトを検出する際の人間の動作を模倣する空間空間統合ネットワークを提案する。 さらに,対象物に対する反復的焦点の人間の振る舞いを模倣する再帰的注意ネットワークを導入し,より正確な注意領域を実現する。 両モードから空間情報を効果的に符号化するために,音声-視覚対整合損失と空間領域アライメント損失を提案する。 本手法は,視聴覚モーダルの空間的手がかりと再帰的に焦点を合わせる物体を利用することにより,よりロバストな音源定位を行うことができる。 Flickr SoundNetおよびVGG-Sound Sourceデータセットの総合的な実験結果から,提案手法が既存手法よりも優れていることを示す。 私たちのコードは、https://github.com/VisualAIKHU/SIRA-SSLで利用可能です。

The objective of the sound source localization task is to enable machines to detect the location of sound-making objects within a visual scene. While the audio modality provides spatial cues to locate the sound source, existing approaches only use audio as an auxiliary role to compare spatial regions of the visual modality. Humans, on the other hand, utilize both audio and visual modalities as spatial cues to locate sound sources. In this paper, we propose an audio-visual spatial integration network that integrates spatial cues from both modalities to mimic human behavior when detecting sound-making objects. Additionally, we introduce a recursive attention network to mimic human behavior of iterative focusing on objects, resulting in more accurate attention regions. To effectively encode spatial information from both modalities, we propose audio-visual pair matching loss and spatial region alignment loss. By utilizing the spatial cues of audio-visual modalities and recursively focusing objects, our method can perform more robust sound source localization. Comprehensive experimental results on the Flickr SoundNet and VGG-Sound Source datasets demonstrate the superiority of our proposed method over existing approaches. Our code is available at: https://github.com/VisualAIKHU/SIRA-SSL
翻訳日:2023-08-21 22:05:46 公開日:2023-08-18
# マルチタスクレコメンデーションのためのDeep Task-specific Boottom Representation Network

Deep Task-specific Bottom Representation Network for Multi-Task Recommendation ( http://arxiv.org/abs/2308.05996v2 )

ライセンス: Link先を確認
Qi Liu, Zhilong Zhou, Gangwei Jiang, Tiezheng Ge, Defu Lian(参考訳) ニューラルベースマルチタスク学習(mtl)は大幅に改善され、レコメンデーションシステム(rs)にうまく適用されている。 近年のRSの深層MTL手法(例えばMMoE, PLE)は、各タスクの一般化表現を暗黙的に学習するソフトゲーティングベースのパラメータ共有ネットワークの設計に焦点を当てている。 しかし、MTL法はタスク共有ボトム表現に負の伝達効果が生じるため、競合するタスクを扱う際に性能劣化に悩まされる可能性がある。 これにより、MTLメソッドがタスク固有の特性をキャプチャする能力が低下し、最終的にその効率性が損なわれ、全てのタスクをうまく一般化する能力が妨げられる。 本稿では,RS における MTL のボトム表現学習に着目し,負の伝達問題を緩和するためのDeep Task-specific Bottom Representation Network (DTRN) を提案する。 DTRNは、各タスクにボトム表現モデリング段階で独自の表現学習ネットワークを持たせることで、タスク固有のボトム表現を明示的に取得する。 具体的には、パラメータ効率の高いハイパーネットワークを通して、各タスクの複数の動作シーケンスからユーザの興味を抽出する。 さらに、各タスクの専用表現を得るため、dtrnは各タスクにsenetライクなネットワークを使用することで、各特徴の表現を洗練する。 提案した2つのモジュールは、タスクの相互干渉を軽減するためにタスク固有のボトム表現を得る目的を達成することができる。 さらに、提案したDTRNは既存のMTLメソッドと組み合わせて柔軟である。 1つのパブリックデータセットと1つの産業データセットの実験は、提案されたDTRNの有効性を示している。

Neural-based multi-task learning (MTL) has gained significant improvement, and it has been successfully applied to recommendation system (RS). Recent deep MTL methods for RS (e.g. MMoE, PLE) focus on designing soft gating-based parameter-sharing networks that implicitly learn a generalized representation for each task. However, MTL methods may suffer from performance degeneration when dealing with conflicting tasks, as negative transfer effects can occur on the task-shared bottom representation. This can result in a reduced capacity for MTL methods to capture task-specific characteristics, ultimately impeding their effectiveness and hindering the ability to generalize well on all tasks. In this paper, we focus on the bottom representation learning of MTL in RS and propose the Deep Task-specific Bottom Representation Network (DTRN) to alleviate the negative transfer problem. DTRN obtains task-specific bottom representation explicitly by making each task have its own representation learning network in the bottom representation modeling stage. Specifically, it extracts the user's interests from multiple types of behavior sequences for each task through the parameter-efficient hypernetwork. To further obtain the dedicated representation for each task, DTRN refines the representation of each feature by employing a SENet-like network for each task. The two proposed modules can achieve the purpose of getting task-specific bottom representation to relieve tasks' mutual interference. Moreover, the proposed DTRN is flexible to combine with existing MTL methods. Experiments on one public dataset and one industrial dataset demonstrate the effectiveness of the proposed DTRN.
翻訳日:2023-08-21 22:04:16 公開日:2023-08-18
# DiLogics: 分散ロジックでWebオートメーションプログラムを作成する

DiLogics: Creating Web Automation Programs With Diverse Logics ( http://arxiv.org/abs/2308.05828v2 )

ライセンス: Link先を確認
Kevin Pu, Jim Yang, Angel Yuan, Minyi Ma, Rui Dong, Xinyu Wang, Yan Chen, Tovi Grossman(参考訳) 知識労働者はしばしば、レコードの更新や注文の配置など、反復的なWebデータ入力タスクに遭遇する。 Webオートメーションは生産性を向上させるが、タスクをWebアクションに正確に翻訳し、新しい仕様に拡張することは難しい。 既存のツールは、UIアクションの論理的トレース(例えば、順番に各フィールドの入力テキスト)を実行するタスクを自動化することができるが、様々な入力条件に基づいて異なる実行を必要とするタスクをサポートしない。 我々は,NLPを利用したプログラミング・バイ・デモレーションシステムであるDiLogicsを紹介し,多様な仕様を扱うWebオートメーションプログラムの作成を支援する。 DiLogicsはまず、入力データを構造化タスクステップにセグメンテーションする。 各ステップでユーザデモを記録することで、DiLogicsはWebマクロを新しいがセマンティックに類似したタスク要求に一般化する。 評価の結果,非専門家はDiLogicsを使って多様な入力命令を満たす自動化プログラムを作成できることがわかった。 DiLogicsは、様々な仕様を満たすWebオートメーションプログラムを開発するための効率的で直感的で表現力豊かな方法を提供する。

Knowledge workers frequently encounter repetitive web data entry tasks, like updating records or placing orders. Web automation increases productivity, but translating tasks to web actions accurately and extending to new specifications is challenging. Existing tools can automate tasks that perform the same logical trace of UI actions (e.g., input text in each field in order), but do not support tasks requiring different executions based on varied input conditions. We present DiLogics, a programming-by-demonstration system that utilizes NLP to assist users in creating web automation programs that handle diverse specifications. DiLogics first semantically segments input data to structured task steps. By recording user demonstrations for each step, DiLogics generalizes the web macros to novel but semantically similar task requirements. Our evaluation showed that non-experts can effectively use DiLogics to create automation programs that fulfill diverse input instructions. DiLogics provides an efficient, intuitive, and expressive method for developing web automation programs satisfying diverse specifications.
翻訳日:2023-08-21 22:03:49 公開日:2023-08-18
# 多項ロジット文脈バンディットのための扱いやすいオンライン学習アルゴリズム

A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit ( http://arxiv.org/abs/2011.14033v6 )

ライセンス: Link先を確認
Priyank Agrawal, Theja Tulabandhula and Vashist Avadhanula(参考訳) 本稿では,MNL-Bandit問題の文脈変化について考察する。 具体的には、意思決定者が消費者に製品のサブセット(ソートメント)を提供し、各ラウンドのレスポンスを観察する動的集合最適化問題を考える。 消費者は有用性を最大化するために製品を購入する。 属性の集合が製品を記述すると仮定し、製品の平均効用はこれらの属性の値において線形であると仮定する。 本稿では,広く使用されているMNLモデルを用いて消費者選択行動のモデル化を行い,モデルパラメータを動的に学習する上での意思決定問題について考察する。 この問題は近年注目されているが、既存の多くの手法では難解な非凸最適化問題を解くことがしばしばある。 彼らの理論的な性能保証は、禁止的に大きい問題依存パラメータに依存する。 特に、この問題に対する既存のアルゴリズムは、$o(\sqrt{\kappa d t})$で制限されていることを後悔している。 本稿では,楽観的なアルゴリズムを提案し,その後悔は$O(\sqrt{dT} + \kappa)$で束縛されていることを示す。 さらに,好ましくない後悔保証を保ちながら,扱いやすい意思決定を可能にする最適化ステップの凸緩和を提案する。

In this paper, we consider the contextual variant of the MNL-Bandit problem. More specifically, we consider a dynamic set optimization problem, where a decision-maker offers a subset (assortment) of products to a consumer and observes the response in every round. Consumers purchase products to maximize their utility. We assume that a set of attributes describe the products, and the mean utility of a product is linear in the values of these attributes. We model consumer choice behavior using the widely used Multinomial Logit (MNL) model and consider the decision maker problem of dynamically learning the model parameters while optimizing cumulative revenue over the selling horizon $T$. Though this problem has attracted considerable attention in recent times, many existing methods often involve solving an intractable non-convex optimization problem. Their theoretical performance guarantees depend on a problem-dependent parameter which could be prohibitively large. In particular, existing algorithms for this problem have regret bounded by $O(\sqrt{\kappa d T})$, where $\kappa$ is a problem-dependent constant that can have an exponential dependency on the number of attributes. In this paper, we propose an optimistic algorithm and show that the regret is bounded by $O(\sqrt{dT} + \kappa)$, significantly improving the performance over existing methods. Further, we propose a convex relaxation of the optimization step, which allows for tractable decision-making while retaining the favourable regret guarantee.
翻訳日:2023-08-21 20:10:44 公開日:2023-08-18
# REAP: 大規模で現実的な競合するパッチベンチマーク

REAP: A Large-Scale Realistic Adversarial Patch Benchmark ( http://arxiv.org/abs/2212.05680v2 )

ライセンス: Link先を確認
Nabeel Hingun, Chawin Sitawarin, Jerry Li, David Wagner(参考訳) 機械学習モデルは敵の摂動に影響を受けやすいことが知られている。 有名な攻撃のひとつがadversarial patchで、特にデザインされたパターンを持つステッカーで、モデルがオブジェクトを誤って予測します。 この攻撃は、自動運転車のようなカメラに依存するサイバー物理システムに重大な脅威をもたらす。 現実の世界における攻撃や防御の評価は、合成データが非現実的であるのに対して、非常にコストがかかる。 本研究では,実際の画像に対するパッチ攻撃や実環境下でのパッチ攻撃を評価するデジタルベンチマークであるREAP(Realistic Adversarial Patch)ベンチマークを提案する。 mapillary vistasデータセット上に構築されたベンチマークには、14,000以上のトラフィックサインが含まれています。 それぞれのサインは幾何変換と照明変換で拡張され、デジタル的に生成されたパッチをリアルにサインに応用することができる。 本ベンチマークを用いて,現実的な条件下での敵パッチ攻撃の大規模評価を行った。 実験の結果, 敵のパッチ攻撃は従来考えられていたよりも脅威が少なく, 単純なデジタルシミュレーションに対する攻撃の成功率は実際の効果を予測できないことが示唆された。 私たちはベンチマークをhttps://github.com/wagner-group/reap-benchmarkで公開しています。

Machine learning models are known to be susceptible to adversarial perturbation. One famous attack is the adversarial patch, a sticker with a particularly crafted pattern that makes the model incorrectly predict the object it is placed on. This attack presents a critical threat to cyber-physical systems that rely on cameras such as autonomous cars. Despite the significance of the problem, conducting research in this setting has been difficult; evaluating attacks and defenses in the real world is exceptionally costly while synthetic data are unrealistic. In this work, we propose the REAP (REalistic Adversarial Patch) benchmark, a digital benchmark that allows the user to evaluate patch attacks on real images, and under real-world conditions. Built on top of the Mapillary Vistas dataset, our benchmark contains over 14,000 traffic signs. Each sign is augmented with a pair of geometric and lighting transformations, which can be used to apply a digitally generated patch realistically onto the sign. Using our benchmark, we perform the first large-scale assessments of adversarial patch attacks under realistic conditions. Our experiments suggest that adversarial patch attacks may present a smaller threat than previously believed and that the success rate of an attack on simpler digital simulations is not predictive of its actual effectiveness in practice. We release our benchmark publicly at https://github.com/wagner-group/reap-benchmark.
翻訳日:2023-08-21 20:05:28 公開日:2023-08-18
# 糖尿病予測のためのエンド・ツー・エンド統合IoT-Edge-Artificial Intelligence-Blockchainモニタリングシステムへのセキュア・プライバシ保護機械学習操作

Secure and Privacy-Preserving Automated Machine Learning Operations into End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring System for Diabetes Mellitus Prediction ( http://arxiv.org/abs/2211.07643v2 )

ライセンス: Link先を確認
Alain Hennebelle, Leila Ismail, Huned Materwala, Juma Al Kaabi, Priya Ranjan, Rajiv Janardhanan(参考訳) 世界中の死因の1つである糖尿病は、現在までに治療法がなく、治療を受けていない場合、網膜症、手足切断、心血管疾患、神経疾患などの重篤な合併症を引き起こす可能性がある。 したがって、糖尿病の発生を回避・予測するための予防措置を講じることが不可欠となる。 糖尿病予測のための文献に機械学習アプローチが提案され,評価されている。 本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。 提案システムは, 異なる病院の患者から得られたリスク要因データと, ユーザのデータのセキュリティとプライバシを確保するため, ブロックチェーンが基盤としている。 さらに, 医療用センサ, デバイス, およびシステム内のリスク因子値を測定・収集する手法の比較分析を行った。 最も正確なランダムフォレスト(rf)モデルを用いた数値実験と,3つの実生活糖尿病データセットを用いた2つの最先端機械学習手法であるロジスティック回帰(lr)とサポートベクターマシン(svm)の比較分析を行った。 その結果,RFを用いたシステムは,LRやSVMと比較して平均4.57%の精度で糖尿病を予測し,実行時間が2.87倍であることがわかった。 機能選択のないデータバランシングでは、大きな改善はない。 PIMA Indian と Sylhet のデータセットの特徴選択後、パフォーマンスは 1.14% と 0.02% 改善され、MIMIC III では 0.89% 向上した。

Diabetes Mellitus, one of the leading causes of death worldwide, has no cure to date and can lead to severe health complications, such as retinopathy, limb amputation, cardiovascular diseases, and neuronal disease, if left untreated. Consequently, it becomes crucial to take precautionary measures to avoid/predict the occurrence of diabetes. Machine learning approaches have been proposed and evaluated in the literature for diabetes prediction. This paper proposes an IoT-edge-Artificial Intelligence (AI)-blockchain system for diabetes prediction based on risk factors. The proposed system is underpinned by the blockchain to obtain a cohesive view of the risk factors data from patients across different hospitals and to ensure security and privacy of the user's data. Furthermore, we provide a comparative analysis of different medical sensors, devices, and methods to measure and collect the risk factors values in the system. Numerical experiments and comparative analysis were carried out between our proposed system, using the most accurate random forest (RF) model, and the two most used state-of-the-art machine learning approaches, Logistic Regression (LR) and Support Vector Machine (SVM), using three real-life diabetes datasets. The results show that the proposed system using RF predicts diabetes with 4.57% more accuracy on average compared to LR and SVM, with 2.87 times more execution time. Data balancing without feature selection does not show significant improvement. The performance is improved by 1.14% and 0.02% after feature selection for PIMA Indian and Sylhet datasets respectively, while it reduces by 0.89% for MIMIC III.
翻訳日:2023-08-21 20:03:34 公開日:2023-08-18
# GHN-Q:グラフハイパーネットによる未確認量子化畳み込みアーキテクチャのパラメータ予測

GHN-Q: Parameter Prediction for Unseen Quantized Convolutional Architectures via Graph Hypernetworks ( http://arxiv.org/abs/2208.12489v2 )

ライセンス: Link先を確認
Stone Yun, Alexander Wong(参考訳) 反復最適化による深層畳み込みニューラルネットワーク(CNN)トレーニングは、最適なパラメータを見つけるのに驚くほど成功した。 しかし、現代のCNNアーキテクチャは数百万のパラメータを含むことが多い。 したがって、単一のアーキテクチャに対する任意のモデルは、巨大なパラメータ空間に存在する。 類似した損失を持つモデルは、逆ロバスト性、一般化性、量子化ロバスト性など、著しく異なる特性を持つ可能性がある。 エッジのディープラーニングでは、量子化の堅牢性が重要になることが多い。 量子化ロバストモデルを見つけるには、多大な労力を要することがある。 グラフハイパーネット(GHN)を用いた最近の研究は、様々なCNNアーキテクチャの高性能パラメータを予測する顕著な性能を示している。 これらの成功に触発されて、GHN-2のグラフ表現は、GHN-Qと呼ばれる量子化-ロバストパラメータの予測にも活用できるのだろうか。 量子化cnnアーキテクチャのパラメータ予測におけるグラフハイパーネットワークの利用を初めて検討した。 我々は、cnn探索空間の縮小に着目し、ghn-qが様々な8ビット量子化cnnの量子化-ロバストパラメータを実際に予測できることを見いだす。 ghn-qがトレーニングされていないにもかかわらず、4ビットの量子化でもまともな量子化アキュラシーが観察される。 低ビット幅でのGHN-Qの量子微調整はさらなる改善をもたらし、現在検討中である。

Deep convolutional neural network (CNN) training via iterative optimization has had incredible success in finding optimal parameters. However, modern CNN architectures often contain millions of parameters. Thus, any given model for a single architecture resides in a massive parameter space. Models with similar loss could have drastically different characteristics such as adversarial robustness, generalizability, and quantization robustness. For deep learning on the edge, quantization robustness is often crucial. Finding a model that is quantization-robust can sometimes require significant efforts. Recent works using Graph Hypernetworks (GHN) have shown remarkable performance predicting high-performant parameters of varying CNN architectures. Inspired by these successes, we wonder if the graph representations of GHN-2 can be leveraged to predict quantization-robust parameters as well, which we call GHN-Q. We conduct the first-ever study exploring the use of graph hypernetworks for predicting parameters of unseen quantized CNN architectures. We focus on a reduced CNN search space and find that GHN-Q can in fact predict quantization-robust parameters for various 8-bit quantized CNNs. Decent quantized accuracies are observed even with 4-bit quantization despite GHN-Q not being trained on it. Quantized finetuning of GHN-Q at lower bitwidths may bring further improvements and is currently being explored.
翻訳日:2023-08-21 20:02:47 公開日:2023-08-18
# 不確実性推定のためのウィンドウベース早期実行カスケード:深部アンサンブルが単一モデルよりも効率的である場合

Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep Ensembles are More Efficient than Single Models ( http://arxiv.org/abs/2303.08010v2 )

ライセンス: Link先を確認
Guoxuan Xia and Christos-Savvas Bouganis(参考訳) Deep Ensemblesは、ディープラーニングアプローチの予測性能と不確実性の両方を改善するための、シンプルで信頼性が高く効果的な方法である。 しかし、複数の独立したモデルをデプロイする必要があるため、計算コストが高いと広く批判されている。 最近の研究は、予測精度において、アンサンブルはアーキテクチャファミリ内の単一モデルをスケーリングするよりも、より計算効率(推論時)が高いことを示している。 これは初期のアプローチでアンサンブルメンバーをカスケードすることで達成される。 本研究では,これらの効率向上を不確実性推定に関連するタスクに拡張することを検討する。 このようなタスクの多く、例えば選択的分類はバイナリ分類であり、我々の重要な洞察は、バイナリ決定境界に近いウィンドウ内でのみサンプルを後続のカスケードステージに渡すことである。 複数のネットワークアーキテクチャと不確実性タスクにわたるimagenetスケールデータの実験により、提案するウィンドウベースのアーリーエクイットアプローチが、単一モデルのスケーリングよりも優れた不確実性-計算トレードオフを達成できることが示されている。 例えば、カスケードされたEfficientNet-B2アンサンブルは、MAC数の30%以下の単一のEfficientNet-B4と同様のカバレッジを5%のリスクで達成することができる。 また、カスケード/アンサンブルはOODデータに対して、スケールアップモデルよりも信頼性の高い改善を提供します。 この作業のコードは、https://github.com/guoxoug/window-early-exitで入手できる。

Deep Ensembles are a simple, reliable, and effective method of improving both the predictive performance and uncertainty estimates of deep learning approaches. However, they are widely criticised as being computationally expensive, due to the need to deploy multiple independent models. Recent work has challenged this view, showing that for predictive accuracy, ensembles can be more computationally efficient (at inference) than scaling single models within an architecture family. This is achieved by cascading ensemble members via an early-exit approach. In this work, we investigate extending these efficiency gains to tasks related to uncertainty estimation. As many such tasks, e.g. selective classification, are binary classification, our key novel insight is to only pass samples within a window close to the binary decision boundary to later cascade stages. Experiments on ImageNet-scale data across a number of network architectures and uncertainty tasks show that the proposed window-based early-exit approach is able to achieve a superior uncertainty-computation trade-off compared to scaling single models. For example, a cascaded EfficientNet-B2 ensemble is able to achieve similar coverage at 5% risk as a single EfficientNet-B4 with <30% the number of MACs. We also find that cascades/ensembles give more reliable improvements on OOD data vs scaling models up. Code for this work is available at: https://github.com/Guoxoug/window-early-exit.
翻訳日:2023-08-21 19:55:12 公開日:2023-08-18
# SUR-adapter: 大規模言語モデルを用いたテキスト・画像間の事前学習拡散モデルの実現

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.05189v3 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) 拡散モデルは、テキスト対画像生成モデルとして人気を博し、テキストプロンプトによって導かれる高品質でコンテンツに富んだ画像を生成することができる。 しかし、入力プロンプトが簡潔なナラティブである場合、既存のモデルでは意味理解と常識推論に制限があり、結果として低品質の画像を生成する。 物語のプロンプトのキャパシティを向上させるために,事前学習した拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる単純なパラメータ効率の良い微調整手法を提案する。 この目標を達成するために、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集、注釈付けします。 各サンプルには単純なナラティブプロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれている。 次に, 物語プロンプトの意味表現を複雑なプロンプトに整合させ, 大規模言語モデル(llm)の知識を知識蒸留により超適応者に伝達することで, テキストから画像への高品質な意味表現を構築するための強力な意味理解と推論能力を得る。 画像品質の劣化を伴わない簡潔な自然言語の理解と推論を可能にするために,複数のLLMと一般的な事前学習拡散モデルを統合する実験を行った。 提案手法は,ユーザフレンドリーなテキスト・ツー・イメージ生成モデルの開発を,単純な物語のプロンプトと複雑なキーワードベースのプロンプトのセマンティックギャップを埋めることによって促進する可能性を示した。 コードはhttps://github.com/qrange-group/sur-adapterでリリースされる。

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts. The code is released at https://github.com/Qrange-group/SUR-adapter.
翻訳日:2023-08-21 19:45:27 公開日:2023-08-18
# 人工知能による芸術的実践の変化

A Shift In Artistic Practices through Artificial Intelligence ( http://arxiv.org/abs/2306.10054v2 )

ライセンス: Link先を確認
K{\i}van\c{c} Tatar, Petter Ericson, Kelsey Cotton, Paola Torres N\'u\~nez del Prado, Roser Batlle-Roca, Beatriz Cabrero-Daniel, Sara Ljungblad, Georgios Diapoulis and Jabbar Hussain(参考訳) 人工知能モデルによって生成されたコンテンツの爆発は、役割が変化し、価値が変化し、慣習が挑戦される芸術、音楽、メディアの文化的な変化を引き起こしている。 簡単に利用できる膨大なインターネットデータセットは、Web上のあらゆるコンテンツでAIモデルをトレーニングするための環境を作成しました。 AIモデルはオープンに共有され、世界中の多くの人々が利用しているので、この新しいパラダイムシフトは芸術的実践における現状にどのように挑戦するのだろうか? ai技術は音楽、芸術、そして新しいメディアにどのような変化をもたらすのか?

The explosion of content generated by Artificial Intelligence models has initiated a cultural shift in arts, music, and media, where roles are changing, values are shifting, and conventions are challenged. The readily available, vast dataset of the internet has created an environment for AI models to be trained on any content on the web. With AI models shared openly, and used by many, globally, how does this new paradigm shift challenge the status quo in artistic practices? What kind of changes will AI technology bring into music, arts, and new media?
翻訳日:2023-08-21 19:35:02 公開日:2023-08-18
# テキスト対画像生成の知覚と現実

Perceptions and Realities of Text-to-Image Generation ( http://arxiv.org/abs/2306.08363v2 )

ライセンス: Link先を確認
Jonas Oppenlaender, Johanna Silvennoinen, Ville Paananen, Aku Visuri(参考訳) 生成人工知能(AI)は広く普及している技術であり、社会や個人に大きな影響を与える。 10年足らず前には、クリエイティブな作業が自動化される最後のものになるだろうと考えられていました。 本稿では,テキストから画像への生成に対する人々の知覚に関する調査の結果について述べる。 我々は,新興技術に対する参加者の技術的理解,その恐怖と懸念,および個人や社会に対するテキスト・ツー・イメージ・ジェネレーションのリスクと危険性について考察する。 参加者は、この技術に関連するリスクと危険性を認識していたが、技術が個人的リスクであると考える参加者はごくわずかである。 他人のリスクは参加者にとってより容易に認識できた。 芸術家は特に危険にさらされた。 興味深いことに、この技術を試した参加者は、試した人よりも将来の重要性を低く評価した。 この結果は、多くの人々が、生成的人工知能の潜在的な個人的リスクと、この技術に関連する差し迫った社会的変化をまだ知らないことを示している。

Generative artificial intelligence (AI) is a widely popular technology that will have a profound impact on society and individuals. Less than a decade ago, it was thought that creative work would be among the last to be automated - yet today, we see AI encroaching on many creative domains. In this paper, we present the findings of a survey study on people's perceptions of text-to-image generation. We touch on participants' technical understanding of the emerging technology, their fears and concerns, and thoughts about risks and dangers of text-to-image generation to the individual and society. We find that while participants were aware of the risks and dangers associated with the technology, only few participants considered the technology to be a personal risk. The risks for others were more easy to recognize for participants. Artists were particularly seen at risk. Interestingly, participants who had tried the technology rated its future importance lower than those who had not tried it. This result shows that many people are still oblivious of the potential personal risks of generative artificial intelligence and the impending societal changes associated with this technology.
翻訳日:2023-08-21 19:34:53 公開日:2023-08-18
# 言語モデルに現れる人間のような直感行動と推論バイアス--GPT-4で消失

Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models -- and Disappeared in GPT-4 ( http://arxiv.org/abs/2306.07622v2 )

ライセンス: Link先を確認
Thilo Hagendorff, Sarah Fabi(参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。 したがって、その新興能力を評価することは極めて重要である。 本研究では,LPM(特にGPT-3)が人間のような直感と著しく類似した行動を示し,それに伴う認知的誤りを示す。 しかし,高い認知能力を有するLSM,特にChatGPTとGPT-4は,これらの誤りを克服し,過度な方法で実行することを学習した。 我々の実験では,人間の直感的な意思決定を調査するために設計された,認知反射テスト(CRT)と意味錯覚を用いてLLMを探索した。 さらに,直観的意思決定の傾きがいかに頑丈かを検討する。 本研究は, LLMを心理学的手法で研究することは, 未知の創発形質を明らかにする可能性があることを示す。

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Therefore, it is of great importance to evaluate their emerging abilities. In this study, we show that LLMs, most notably GPT-3, exhibit behavior that strikingly resembles human-like intuition -- and the cognitive errors that come with it. However, LLMs with higher cognitive capabilities, in particular ChatGPT and GPT-4, learned to avoid succumbing to these errors and perform in a hyperrational manner. For our experiments, we probe LLMs with the Cognitive Reflection Test (CRT) as well as semantic illusions that were originally designed to investigate intuitive decision-making in humans. Moreover, we probe how sturdy the inclination for intuitive-like decision-making is. Our study demonstrates that investigating LLMs with methods from psychology has the potential to reveal otherwise unknown emergent traits.
翻訳日:2023-08-21 19:34:19 公開日:2023-08-18
# リモートバイオセンシング: rPPGの評価のためのオープンソースベンチマークフレームワーク

Remote Bio-Sensing: Open Source Benchmark Framework for Fair Evaluation of rPPG ( http://arxiv.org/abs/2307.12644v2 )

ライセンス: Link先を確認
Dae-Yeol Kim, Eunsu Goh, KwangKee Lee, JongEui Chae, JongHyeon Mun, Junyeong Na, Chae-bong Sohn, Do-Yup Kim(参考訳) rPPG(Remote photoplethysmography)は、カメラで捉えたヘモグロビンの光吸収特性を用いてBVP(Blood Volume Pulse)を測定し、分析する技術である。 測定されたBVPの分析は、心拍数、ストレスレベル、血圧などの様々な生理的シグナルを導き、遠隔医療、遠隔患者モニタリング、心血管疾患の早期予測などの様々な応用に適用することができる。 rPPGは急速に進化し、医療機器やウェアラブル機器を使わずにカメラを搭載したデバイスを使って生体信号を測定することができるため、学術と産業の両方から大きな注目を集めている。 この分野での広範な努力と進歩にもかかわらず、肌の色、カメラの特徴、周囲の照明、その他のノイズやアーティファクトに関する問題など、深刻な課題が残っている。 我々は,このような課題を克服し,学術的・商業的な両面から有意義な進展をもたらすためには,公平かつ回避可能なベンチマークが緊急に必要であると主張する。 既存のほとんどの作業では、モデルは限られたデータセットでのみトレーニング、テスト、検証される。 さらに悪いことに、利用可能なコードや再現性に欠ける研究もあるため、パフォーマンスを適切に評価し比較することは困難である。 そこで本研究では,従来の非ディープニューラルネットワーク (non-DNN) とディープニューラルネットワーク (deep Neural Network, DNN) の両手法を含む,幅広いデータセットを対象とした様々な rPPG 技術の評価を行うベンチマークフレームワークを提案する。 GitHub URL: https://github.com/remotebiosensing/rppg

rPPG (Remote photoplethysmography) is a technology that measures and analyzes BVP (Blood Volume Pulse) by using the light absorption characteristics of hemoglobin captured through a camera. Analyzing the measured BVP can derive various physiological signals such as heart rate, stress level, and blood pressure, which can be applied to various applications such as telemedicine, remote patient monitoring, and early prediction of cardiovascular disease. rPPG is rapidly evolving and attracting great attention from both academia and industry by providing great usability and convenience as it can measure biosignals using a camera-equipped device without medical or wearable devices. Despite extensive efforts and advances in this field, serious challenges remain, including issues related to skin color, camera characteristics, ambient lighting, and other sources of noise and artifacts, which degrade accuracy performance. We argue that fair and evaluable benchmarking is urgently required to overcome these challenges and make meaningful progress from both academic and commercial perspectives. In most existing work, models are trained, tested, and validated only on limited datasets. Even worse, some studies lack available code or reproducibility, making it difficult to fairly evaluate and compare performance. Therefore, the purpose of this study is to provide a benchmarking framework to evaluate various rPPG techniques across a wide range of datasets for fair evaluation and comparison, including both conventional non-deep neural network (non-DNN) and deep neural network (DNN) methods. GitHub URL: https://github.com/remotebiosensing/rppg
翻訳日:2023-08-21 19:26:30 公開日:2023-08-18
# 言語モデルにおける従属例生成のための勾配に基づく単語置換

Gradient-Based Word Substitution for Obstinate Adversarial Examples Generation in Language Models ( http://arxiv.org/abs/2307.12507v2 )

ライセンス: Link先を確認
Yimu Wang, Peng Shi, Hongyang Zhang(参考訳) 本論文では,入力テキストが有意に変化するが,モデルが予測するべきでない,NLPにおける単語置換による強直的(不安定な)逆例を生成する問題について検討する。 従来の単語置換アプローチは、強敵の例を生成するために手動で設計されたアントロニムベースの戦略に主に焦点を合わせてきたが、これは強敵の例のサブセットを見つけることができ、人間の努力を必要とするため、その適用を妨げている。 そこで本論文では,探索空間や手動設計の原則に制約を伴わずに,不規則な逆例を自動的に生成する勾配に基づくアプローチであるGradObstinateという単語置換手法を提案する。 筆者らはGradObstinateの有効性を実証的に評価するために,4つのNLPベンチマーク(SST-2, MRPC, SNLI, SQuAD)と言語グラウンドベンチマーク(MSCOCO)で微調整された5つの代表モデル(Electra, ALBERT, Roberta, DistillBERT, CLIP)の総合的な実験を行った。 広範な実験により,提案するgradobstinateは,対義語ベースの手法よりも攻撃成功率の高い,より強力な敵意的な例を生成することが示された。 さらに,GradObstinateが見いだした単語置換の伝達可能性を示すために,4つの代表的NLPベンチマークの単語を定式置換に置き換える。 特に、不安定な置換は、GPT-3やChatGPTなど、ブラックボックス設定で他のモデルに移行すると高い成功率を示す。 GradObstinateが見つけた強敵の例はhttps://huggingface.co/spaces/anonauthors/SecretLanguageにある。

In this paper, we study the problem of generating obstinate (over-stability) adversarial examples by word substitution in NLP, where input text is meaningfully changed but the model's prediction does not, even though it should. Previous word substitution approaches have predominantly focused on manually designed antonym-based strategies for generating obstinate adversarial examples, which hinders its application as these strategies can only find a subset of obstinate adversarial examples and require human efforts. To address this issue, in this paper, we introduce a novel word substitution method named GradObstinate, a gradient-based approach that automatically generates obstinate adversarial examples without any constraints on the search space or the need for manual design principles. To empirically evaluate the efficacy of GradObstinate, we conduct comprehensive experiments on five representative models (Electra, ALBERT, Roberta, DistillBERT, and CLIP) finetuned on four NLP benchmarks (SST-2, MRPC, SNLI, and SQuAD) and a language-grounding benchmark (MSCOCO). Extensive experiments show that our proposed GradObstinate generates more powerful obstinate adversarial examples, exhibiting a higher attack success rate compared to antonym-based methods. Furthermore, to show the transferability of obstinate word substitutions found by GradObstinate, we replace the words in four representative NLP benchmarks with their obstinate substitutions. Notably, obstinate substitutions exhibit a high success rate when transferred to other models in black-box settings, including even GPT-3 and ChatGPT. Examples of obstinate adversarial examples found by GradObstinate are available at https://huggingface.co/spaces/anonauthors/SecretLanguage.
翻訳日:2023-08-21 19:26:02 公開日:2023-08-18
# 音声ヘッドビデオ生成のための暗黙のアイデンティティ表現条件付きメモリ補償ネットワーク

Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head video Generation ( http://arxiv.org/abs/2307.09906v3 )

ライセンス: Link先を確認
Fa-Ting Hong and Dan Xu(参考訳) トーキングヘッドビデオ生成は、人物の身元を画像内に保持しつつ、ターゲット駆動ビデオから派生した動き情報を用いて、静止画像中の人間の顔に動的ポーズと表情をアニメーションすることを目的としている。 しかし、運転映像における劇的かつ複雑な動きは、隠蔽された領域や微妙な表現のバリエーションに対して十分な外観情報を提供できないため、不明瞭な生成を引き起こす。 この問題に対処するために,我々はグローバルな顔表現空間を学習し,MCNetと呼ばれる新しい暗黙のアイデンティティ表現条件付きメモリ補償ネットワークを設計することを提案する。 具体的には、ネットワークモジュールを考案し、すべてのトレーニングサンプルから、統一的な空間的顔メタメモリバンクを学習し、より豊かな顔構造と外観を前もって提供し、その生成のための歪んだ顔特徴を補うことができる。 さらに,ソース画像の離散的キーポイントから学習した暗黙的アイデンティティ表現に基づく効果的なクエリ機構を提案する。 これにより、メモリバンクからより相関性の高い情報を検索し、補償を行うことができる。 大規模な実験により、MCNetは代表的および補完的な顔記憶を学習でき、VoxCeleb1およびCelebVデータセットにおける従来の最先端の音声ヘッド生成方法よりも明らかに優れていることが示された。 https://github.com/harlanhong/iccv2023-mcnet}{project} を参照。

Talking head video generation aims to animate a human face in a still image with dynamic poses and expressions using motion information derived from a target-driving video, while maintaining the person's identity in the source image. However, dramatic and complex motions in the driving video cause ambiguous generation, because the still source image cannot provide sufficient appearance information for occluded regions or delicate expression variations, which produces severe artifacts and significantly degrades the generation quality. To tackle this problem, we propose to learn a global facial representation space, and design a novel implicit identity representation conditioned memory compensation network, coined as MCNet, for high-fidelity talking head generation.~Specifically, we devise a network module to learn a unified spatial facial meta-memory bank from all training samples, which can provide rich facial structure and appearance priors to compensate warped source facial features for the generation. Furthermore, we propose an effective query mechanism based on implicit identity representations learned from the discrete keypoints of the source image. It can greatly facilitate the retrieval of more correlated information from the memory bank for the compensation. Extensive experiments demonstrate that MCNet can learn representative and complementary facial memory, and can clearly outperform previous state-of-the-art talking head generation methods on VoxCeleb1 and CelebV datasets. Please check our \href{https://github.com/harlanhong/ICCV2023-MCNET}{Project}.
翻訳日:2023-08-21 19:25:12 公開日:2023-08-18
# Quantum Image Denoising: Boltzmann Machines、QUBO、Quantum Annealingによるフレームワーク

Quantum Image Denoising: A Framework via Boltzmann Machines, QUBO, and Quantum Annealing ( http://arxiv.org/abs/2307.06542v3 )

ライセンス: Link先を確認
Phillip Kerger and Ryoji Miyazaki(参考訳) 本稿では,二次的非拘束型二分最適化(qubo)形式におけるデノジング目標を導入する制限ボルツマンマシン(rbms)による二分画像デノジングの枠組みについて検討し,量子アニーリングによく適合する。 訓練されたRBMが学習した分布と、ノイズ画像から導出するペナルティ項とのバランスをとることにより、妄想目的を達成する。 対象分布が十分近似されていると仮定したペナルティパラメータの統計的最適選択を導出し、さらにその理想主義的な仮定にロバストな方法を実現するために経験的に支援された修正を提案する。 また,本手法により得られた復号化画像は,ノイズのない画像よりもノイズのない画像に近いことが期待される。 モデルをイメージ記述モデルとしてフレーム化するが、任意のバイナリデータに適用できる。 量子アニーラの実装にはQUBOの定式化が適しているため、D-Waveアドバンテージマシン上でモデルをテストし、古典的ヒューリスティックによりQUBOの解を近似することで、現在の量子アニーラには大きすぎるデータをテストする。

We investigate a framework for binary image denoising via restricted Boltzmann machines (RBMs) that introduces a denoising objective in quadratic unconstrained binary optimization (QUBO) form and is well-suited for quantum annealing. The denoising objective is attained by balancing the distribution learned by a trained RBM with a penalty term for derivations from the noisy image. We derive the statistically optimal choice of the penalty parameter assuming the target distribution has been well-approximated, and further suggest an empirically supported modification to make the method robust to that idealistic assumption. We also show under additional assumptions that the denoised images attained by our method are, in expectation, strictly closer to the noise-free images than the noisy images are. While we frame the model as an image denoising model, it can be applied to any binary data. As the QUBO formulation is well-suited for implementation on quantum annealers, we test the model on a D-Wave Advantage machine, and also test on data too large for current quantum annealers by approximating QUBO solutions through classical heuristics.
翻訳日:2023-08-21 19:24:08 公開日:2023-08-18
# InfLoR-SNN:スパイクニューラルネットワークの情報損失を減らす

InfLoR-SNN: Reducing Information Loss for Spiking Neural Networks ( http://arxiv.org/abs/2307.04356v2 )

ライセンス: Link先を確認
Yufei Guo, Yuanpei Chen, Liwen Zhang, Xiaode Liu, Xinyi Tong, Yuanyuan Ou, Xuhui Huang, Zhe Ma(参考訳) スパイキングニューラルネットワーク(SNN)は最近ますます注目を集めている。 情報伝達には二元スパイク信号を用いる。 SNNの情報伝達パラダイムにより、活性化と重みの乗算は、エネルギー効率のよい加算に置き換えられる。 しかし、発射活動のための「ハードリセット」機構は、膜電位が発射閾値を超えるときの膜電位の違いを無視し、情報損失を引き起こす。 一方、発射瞬間の0/1スパイクへの膜電位の定量化は、必然的に量子化誤差をもたらし、情報損失も引き起こす。 これらの問題に対処するために、教師付きトレーニングベースSNNにおいて、膜電位をその大きさに応じて動的リセット電位に駆動する「ソフトリセット」機構と、膜電位をスパイクに近い範囲に再分配することで量子化誤差を低減する膜電位整流器(MPR)を提案する。 その結果、"Soft Reset"メカニズムとMPRを備えたSNNは、静的データセットと動的データセットの両方でバニラよりも優れていた。

The Spiking Neural Network (SNN) has attracted more and more attention recently. It adopts binary spike signals to transmit information. Benefitting from the information passing paradigm of SNNs, the multiplications of activations and weights can be replaced by additions, which are more energy-efficient. However, its "Hard Reset" mechanism for the firing activity would ignore the difference among membrane potentials when the membrane potential is above the firing threshold, causing information loss. Meanwhile, quantifying the membrane potential to 0/1 spikes at the firing instants will inevitably introduce the quantization error thus bringing about information loss too. To address these problems, we propose to use the "Soft Reset" mechanism for the supervised training-based SNNs, which will drive the membrane potential to a dynamic reset potential according to its magnitude, and Membrane Potential Rectifier (MPR) to reduce the quantization error via redistributing the membrane potential to a range close to the spikes. Results show that the SNNs with the "Soft Reset" mechanism and MPR outperform their vanilla counterparts on both static and dynamic datasets.
翻訳日:2023-08-21 19:23:41 公開日:2023-08-18
# 非構造プルーニングはディープニューラルネットワークの深さを減少させるか?

Can Unstructured Pruning Reduce the Depth in Deep Neural Networks? ( http://arxiv.org/abs/2308.06619v2 )

ライセンス: Link先を確認
Zhu Liao, Victor Qu\'etu, Van-Tam Nguyen, Enzo Tartaglione(参考訳) プルーニングは、パフォーマンスを維持しながらディープニューラルネットワークのサイズを減らすために広く使われているテクニックである。 しかし、そのようなテクニックは、深いモデルを大規模に圧縮することができるにもかかわらず、(構造化された場合でも)モデルから層全体を取り除くことができない。 本研究では,深層ニューラルネットワークのサイズを減らし,その性能を保ちつつ,革新的なエントロピー誘導型プルーニングアルゴリズムであるEGPを紹介する。 EGPの主な焦点は、低いエントロピーを持つ層におけるプルーニング接続を優先することであり、最終的に完全な削除につながる。 ResNet-18やSwin-Tのような一般的なモデルで実施された広範な実験を通じて、EGPは、競争性能を維持しながら、ディープニューラルネットワークを効果的に圧縮することを示した。 その結果、非構造的刈り込みの利点の背後にあるメカニズムを解明するだけでなく、エントロピー、刈り込み技術、深層学習性能の複雑な関係に関するさらなる研究の道を開くことができた。 EGPアルゴリズムとその洞察は、ネットワーク圧縮と最適化の分野を前進させる大きな可能性を秘めている。 EGPのソースコードはオープンソースである。

Pruning is a widely used technique for reducing the size of deep neural networks while maintaining their performance. However, such a technique, despite being able to massively compress deep models, is hardly able to remove entire layers from a model (even when structured): is this an addressable task? In this study, we introduce EGP, an innovative Entropy Guided Pruning algorithm aimed at reducing the size of deep neural networks while preserving their performance. The key focus of EGP is to prioritize pruning connections in layers with low entropy, ultimately leading to their complete removal. Through extensive experiments conducted on popular models like ResNet-18 and Swin-T, our findings demonstrate that EGP effectively compresses deep neural networks while maintaining competitive performance levels. Our results not only shed light on the underlying mechanism behind the advantages of unstructured pruning, but also pave the way for further investigations into the intricate relationship between entropy, pruning techniques, and deep learning performance. The EGP algorithm and its insights hold great promise for advancing the field of network compression and optimization. The source code for EGP is released open-source.
翻訳日:2023-08-21 19:14:25 公開日:2023-08-18
# 骨格運動インフォームドグラディエントを用いた骨格に基づく人行動認識におけるハードノンボックス攻撃

Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient ( http://arxiv.org/abs/2308.05681v2 )

ライセンス: Link先を確認
Zhengzhi Lu, He Wang, Ziyi Chang, Guoan Yang and Hubert P. H. Shum(参考訳) 近年, 骨格に基づくヒトの行動認識法は, 敵の攻撃に対して脆弱であることが示されている。 しかしながら、これらの攻撃方法は、被害者の完全な知識(ホワイトボックス攻撃)、訓練データへのアクセス(転送ベースの攻撃)、または頻繁なモデルクエリ(ブラックボックス攻撃)を必要とする。 要件はすべて非常に限定的であり、脆弱性がどの程度有害かという疑問を提起する。 本稿では,脆弱性が存在することを実証する。 攻撃者は被害者モデルやトレーニングデータやラベルにアクセスできず、ハード・ノー・ボックス攻撃(hard no-box attack)という用語が使われる。 具体的には,まず,骨格運動インフォームド(SMI)勾配という,攻撃の新たな勾配を計算するために,対向損失を定義する運動多様体を学習する。 我々の勾配には、データの各次元が独立であると仮定して損失勾配を計算する既存の勾配に基づく攻撃方法とは異なる動きダイナミクスの情報が含まれている。 smi勾配は多くの勾配に基づく攻撃法を補強することができ、新しい非ボックス攻撃法に繋がる。 広範な評価と比較により,本手法は既存の分類器に真の脅威を与えることが示された。 彼らはまた、SMI勾配は、非ボックスおよび転送ベースのブラックボックス設定の両方において、反対サンプルの転送可能性と非受容性を向上することを示した。

Recently, methods for skeleton-based human activity recognition have been shown to be vulnerable to adversarial attacks. However, these attack methods require either the full knowledge of the victim (i.e. white-box attacks), access to training data (i.e. transfer-based attacks) or frequent model queries (i.e. black-box attacks). All their requirements are highly restrictive, raising the question of how detrimental the vulnerability is. In this paper, we show that the vulnerability indeed exists. To this end, we consider a new attack task: the attacker has no access to the victim model or the training data or labels, where we coin the term hard no-box attack. Specifically, we first learn a motion manifold where we define an adversarial loss to compute a new gradient for the attack, named skeleton-motion-informed (SMI) gradient. Our gradient contains information of the motion dynamics, which is different from existing gradient-based attack methods that compute the loss gradient assuming each dimension in the data is independent. The SMI gradient can augment many gradient-based attack methods, leading to a new family of no-box attack methods. Extensive evaluation and comparison show that our method imposes a real threat to existing classifiers. They also show that the SMI gradient improves the transferability and imperceptibility of adversarial samples in both no-box and transfer-based black-box settings.
翻訳日:2023-08-21 19:14:07 公開日:2023-08-18
# DOMINO:マルチセンサ時系列データのためのドメイン不変超次元分類

DOMINO: Domain-invariant Hyperdimensional Classification for Multi-Sensor Time Series Data ( http://arxiv.org/abs/2308.03295v2 )

ライセンス: Link先を確認
Junyao Wang, Luke Chen, Mohammad Abdullah Al Faruque(参考訳) モノのインターネットの急速な進化とともに、多くの現実世界のアプリケーションは不均一に接続されたセンサーを使って時系列情報を捉えている。 エッジベースの機械学習(ML)手法は、しばしばローカルに収集されたデータを分析するために使用される。 しかし、データ駆動MLアプローチにおける根本的な問題は、分散シフトである。 モデルがトレーニング対象と異なるデータ分散上にデプロイされた場合、モデルのパフォーマンスが著しく低下する可能性がある。 さらに、より高度なディープニューラルネットワーク(DNN)が提案され、マルチセンサー時系列データにおける空間的および時間的依存関係をキャプチャし、今日のエッジデバイスの容量を超える計算資源を必要とする。 脳にインスパイアされた超次元コンピューティング(HDC)はエッジベースの学習のための軽量なソリューションとして導入されているが、既存のHDCも分散シフトの課題に対して脆弱である。 本稿では,ノイズの多いマルチセンサ時系列データにおける分散シフト問題に対処する新しいHDC学習フレームワークであるDOMINOを提案する。 DOMINOは高次元空間上での効率的かつ並列な行列演算を利用して、領域不変次元を動的に識別しフィルタリングする。 幅広いマルチセンサ時系列分類タスクについて評価したところ、DOMINOは最先端(SOTA)のドメイン一般化技術よりも平均2.04%高い精度で達成でき、16.34倍高速トレーニングと2.89倍高速推論を実現している。 さらに重要なことは、DOMINOは部分的にラベル付けされ、高度に不均衡なデータから学習するときに、SOTA DNNよりも10.93倍高い堅牢性を提供する。

With the rapid evolution of the Internet of Things, many real-world applications utilize heterogeneously connected sensors to capture time-series information. Edge-based machine learning (ML) methodologies are often employed to analyze locally collected data. However, a fundamental issue across data-driven ML approaches is distribution shift. It occurs when a model is deployed on a data distribution different from what it was trained on, and can substantially degrade model performance. Additionally, increasingly sophisticated deep neural networks (DNNs) have been proposed to capture spatial and temporal dependencies in multi-sensor time series data, requiring intensive computational resources beyond the capacity of today's edge devices. While brain-inspired hyperdimensional computing (HDC) has been introduced as a lightweight solution for edge-based learning, existing HDCs are also vulnerable to the distribution shift challenge. In this paper, we propose DOMINO, a novel HDC learning framework addressing the distribution shift problem in noisy multi-sensor time-series data. DOMINO leverages efficient and parallel matrix operations on high-dimensional space to dynamically identify and filter out domain-variant dimensions. Our evaluation on a wide range of multi-sensor time series classification tasks shows that DOMINO achieves on average 2.04% higher accuracy than state-of-the-art (SOTA) DNN-based domain generalization techniques, and delivers 16.34x faster training and 2.89x faster inference. More importantly, DOMINO performs notably better when learning from partially labeled and highly imbalanced data, providing 10.93x higher robustness against hardware noises than SOTA DNNs.
翻訳日:2023-08-21 19:12:53 公開日:2023-08-18
# ロバストなセマンティックセグメンテーションのためのトレーニングデータセット生成の学習

Learning to Generate Training Datasets for Robust Semantic Segmentation ( http://arxiv.org/abs/2308.02535v2 )

ライセンス: Link先を確認
Marwane Hariat, Olivier Laurent, R\'emi Kazmierczak, Shihao Zhang, Andrei Bursuc, Angela Yao and Gianni Franchi(参考訳) セマンティックセグメンテーション技術は近年顕著な進歩を見せているが、訓練中に見られなかった現実世界の摂動やデータサンプルに対する頑健さは、特に安全クリティカルな応用において課題である。 本稿では,ラベル・ツー・イメージ・ジェネレータとイメージ・ツー・ラベル・セグメンテーションモデルとの相乗効果を利用して,意味セグメンテーション手法のロバスト性を向上させる新しい手法を提案する。 具体的には、信頼性のあるセグメンテーションモデルのトレーニングに使用可能な、現実的でプラウチブルな摂動画像を生成するために、ロバスタを設計し、訓練する。 提案した生成モデルの詳細な研究を行い、下流セグメンテーションネットワークの性能とロバスト性を評価し、実世界の摂動、分布シフト、分布外サンプルの面におけるセグメンテーション手法のロバスト性を大幅に向上させることができることを示した。 提案手法は, セマンティクスセグメンテーション手法の信頼性が最も重要であり, 計算予算が限定された, 安全性クリティカルなアプリケーションにおいて有用であることが示唆された。 近いうちにコードをリリースします。

Semantic segmentation techniques have shown significant progress in recent years, but their robustness to real-world perturbations and data samples not seen during training remains a challenge, particularly in safety-critical applications. In this paper, we propose a novel approach to improve the robustness of semantic segmentation techniques by leveraging the synergy between label-to-image generators and image-to-label segmentation models. Specifically, we design and train Robusta, a novel robust conditional generative adversarial network to generate realistic and plausible perturbed or outlier images that can be used to train reliable segmentation models. We conduct in-depth studies of the proposed generative model, assess the performance and robustness of the downstream segmentation network, and demonstrate that our approach can significantly enhance the robustness of semantic segmentation techniques in the face of real-world perturbations, distribution shifts, and out-of-distribution samples. Our results suggest that this approach could be valuable in safety-critical applications, where the reliability of semantic segmentation techniques is of utmost importance and comes with a limited computational budget in inference. We will release our code shortly.
翻訳日:2023-08-21 19:12:24 公開日:2023-08-18
# 地球観測画像のセマンティクスセグメンテーションのためのニューラルネットワーク設計における考慮すべき技術的要因の検討

A review of technical factors to consider when designing neural networks for semantic segmentation of Earth Observation imagery ( http://arxiv.org/abs/2308.09221v1 )

ライセンス: Link先を確認
Sam Khallaghi, J. Ronald Eastman, Lyndon D. Estes(参考訳) リモートセンシングでは,地球観測画像の意味セグメンテーション(分類)が重要な課題である。 本稿では,ニューラルネットワークの設計において考慮すべき技術的要因について概説する。 本レビューでは,畳み込みニューラルネットワーク(cnns),recurrent neural networks(rnns),generative adversarial networks(gans),transformerモデルに注目し,これらのannファミリーの設計パターンと意味セグメンテーションとの関連について論じた。 最適なデータ準備を確保するための一般的な前処理技術についても紹介する。 これには、画像の正規化とチッピングの方法、トレーニングサンプルにおけるデータの不均衡に対処する戦略、拡張技術、転送学習、ドメイン適応など制限されたデータを克服するテクニックが含まれる。 このレビューは、ニューラルネットワーク設計の技術的な側面とデータに関する考察の両方を包含することにより、地球観測画像のセマンティックセグメンテーションに有効なニューラルネットワークを設計する際の要因を包括的かつ最新の理解を提供する。

Semantic segmentation (classification) of Earth Observation imagery is a crucial task in remote sensing. This paper presents a comprehensive review of technical factors to consider when designing neural networks for this purpose. The review focuses on Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Generative Adversarial Networks (GANs), and transformer models, discussing prominent design patterns for these ANN families and their implications for semantic segmentation. Common pre-processing techniques for ensuring optimal data preparation are also covered. These include methods for image normalization and chipping, as well as strategies for addressing data imbalance in training samples, and techniques for overcoming limited data, including augmentation techniques, transfer learning, and domain adaptation. By encompassing both the technical aspects of neural network design and the data-related considerations, this review provides researchers and practitioners with a comprehensive and up-to-date understanding of the factors involved in designing effective neural networks for semantic segmentation of Earth Observation imagery.
翻訳日:2023-08-21 15:18:24 公開日:2023-08-18
# 認知モデルと機械モデルを用いた協調マルチエージェントシステムの学習

Learning in Cooperative Multiagent Systems Using Cognitive and Machine Models ( http://arxiv.org/abs/2308.09219v1 )

ライセンス: Link先を確認
Thuy Ngoc Nguyen and Duy Nhat Phan and Cleotilde Gonzalez(参考訳) 効果的なマルチエージェントシステム(mas)の開発は、人間とのコラボレーションと協調を必要とする多くのアプリケーションにとって重要である。 協調型MASにおけるマルチエージェント深層強化学習(MADRL)の急速な進歩にもかかわらず、確率的報酬の存在下での動的環境における独立エージェントの同時学習と相互作用が大きな課題である。 最先端のMADRLモデルは、協調型多エージェントオブジェクト輸送問題(CMOTP)において、エージェントが互いに協調し、確率的な報酬から学習する必要がある。 対照的に、人間は人間の協調を必要とする非定常環境に適応するために急速に学習することが多い。 本稿では,多くの動的意思決定タスクにおいて人間の意思決定を捉えるためのインスタンスベース学習理論(IBLT)に基づく認知モデルの実証的能力に動機付けられ,MAIBL(Multi-Agent IBL model)の3つの変種を提案する。 これらのMAIBLアルゴリズムの考え方は、IBLTの認知メカニズムとMADRLモデルの技法を組み合わせて、独立学習者の視点から確率的環境における協調MASを扱うことである。 MAIBLモデルは,従来のMADRLモデルと比較して,様々な確率的報酬設定による動的CMOTPタスクにおいて,学習の高速化と協調性の向上を実証する。 認知的洞察をMADRLモデルに組み込むことの利点について論じる。

Developing effective Multi-Agent Systems (MAS) is critical for many applications requiring collaboration and coordination with humans. Despite the rapid advance of Multi-Agent Deep Reinforcement Learning (MADRL) in cooperative MAS, one major challenge is the simultaneous learning and interaction of independent agents in dynamic environments in the presence of stochastic rewards. State-of-the-art MADRL models struggle to perform well in Coordinated Multi-agent Object Transportation Problems (CMOTPs), wherein agents must coordinate with each other and learn from stochastic rewards. In contrast, humans often learn rapidly to adapt to nonstationary environments that require coordination among people. In this paper, motivated by the demonstrated ability of cognitive models based on Instance-Based Learning Theory (IBLT) to capture human decisions in many dynamic decision making tasks, we propose three variants of Multi-Agent IBL models (MAIBL). The idea of these MAIBL algorithms is to combine the cognitive mechanisms of IBLT and the techniques of MADRL models to deal with coordination MAS in stochastic environments from the perspective of independent learners. We demonstrate that the MAIBL models exhibit faster learning and achieve better coordination in a dynamic CMOTP task with various settings of stochastic rewards compared to current MADRL models. We discuss the benefits of integrating cognitive insights into MADRL models.
翻訳日:2023-08-21 15:17:51 公開日:2023-08-18
# ChatGPTを用いた会話オントロジーアライメント

Conversational Ontology Alignment with ChatGPT ( http://arxiv.org/abs/2308.09217v1 )

ライセンス: Link先を確認
Sanaz Saki Norouzi, Mohammad Saeid Mahdavinejad, Pascal Hitzler(参考訳) 本研究は,naiveアプローチを用いたオントロジアライメントにおけるchatgptの適用可能性と効率を評価する。 ChatGPTの出力は、カンファレンストラックオントロジーを用いたオントロジーアライメント評価イニシアチブ2022のキャンペーンの結果と比較される。 この比較は, オントロジーマッチングにおいて, 対話型大規模言語モデルの能力に関する洞察を提供し, このアプローチの潜在的な利点と欠点について検討することを目的としている。

This study evaluates the applicability and efficiency of ChatGPT for ontology alignment using a naive approach. ChatGPT's output is compared to the results of the Ontology Alignment Evaluation Initiative 2022 campaign using conference track ontologies. This comparison is intended to provide insights into the capabilities of a conversational large language model when used in a naive way for ontology matching, and to investigate the potential advantages and disadvantages of this approach.
翻訳日:2023-08-21 15:17:10 公開日:2023-08-18
# 大きなグラフ上のマルコフ連鎖の経路収束

Path convergence of Markov chains on large graphs ( http://arxiv.org/abs/2308.09214v1 )

ライセンス: Link先を確認
Siva Athreya, Soumik Pal, Raghav Somani, Raghavendra Tripathi(参考訳) 有限非ラベルグラフ上の自然確率過程の2つのクラスを考える。 これらは重み付きグラフの隣接行列上のユークリッド確率最適化アルゴリズムと、重み付きグラフ上の確率ブロックモデル上のメトロポリスMCMCアルゴリズムの修正版である。 どちらの場合も、グラフのサイズが無限大になるにつれて、確率過程のランダムな軌跡が決定論的極限に収束することを示す。 これらの決定論的極限は測度値グラフの空間上の曲線である。 lov\'{a}sz と szegedy によって導入された測度値グラフは、同じグラフェン極限をもたらす2つの無限交換可能な配列を区別できるグラフェンの概念の洗練である。 我々はこの空間の新しいメトリクスを導入し、極限定理に対する収束の自然な概念を提供する。 この概念は無限交換可能配列の収束と同値である。 適切な時間スケーリングの下で、メトロポリス連鎖は、頂点の数が無限大になるにつれて拡散限界を認める。 次に、適切に定式化されたゼロノイズ極限において、この拡散の隣接行列の確率過程が、arXiv:2111.09459[math.PR]で導入されたグラフの空間上の決定論的勾配流曲線に収束することを示した。 適切な仮定の下では、ある極限状態におけるメトロポリス連鎖の指数収束率を推定することができる。 我々の知る限りでは、指数的ランダムグラフモデルでよく使われる自然のメトロポリス・チェーンとグラフェン上の勾配流の間の実際の速度と接続は、文献において新しいものである。

We consider two classes of natural stochastic processes on finite unlabeled graphs. These are Euclidean stochastic optimization algorithms on the adjacency matrix of weighted graphs and a modified version of the Metropolis MCMC algorithm on stochastic block models over unweighted graphs. In both cases we show that, as the size of the graph goes to infinity, the random trajectories of the stochastic processes converge to deterministic limits. These deterministic limits are curves on the space of measure-valued graphons. Measure-valued graphons, introduced by Lov\'{a}sz and Szegedy, are a refinement of the concept of graphons that can distinguish between two infinite exchangeable arrays that give rise to the same graphon limit. We introduce new metrics on this space which provide us with a natural notion of convergence for our limit theorems. This notion is equivalent to the convergence of infinite-exchangeable arrays. Under a suitable time-scaling, the Metropolis chain admits a diffusion limit as the number of vertices go to infinity. We then demonstrate that, in an appropriately formulated zero-noise limit, the stochastic process of adjacency matrices of this diffusion converge to a deterministic gradient flow curve on the space of graphons introduced in arXiv:2111.09459 [math.PR]. Under suitable assumptions, this allows us to estimate an exponential convergence rate for the Metropolis chain in a certain limiting regime. To the best of our knowledge, both the actual rate and the connection between a natural Metropolis chain commonly used in exponential random graph models and gradient flows on graphons are new in the literature.
翻訳日:2023-08-21 15:16:56 公開日:2023-08-18
# SparseBEV:マルチカメラ映像からの高性能スパース3次元物体検出

SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera Videos ( http://arxiv.org/abs/2308.09244v1 )

ライセンス: Link先を確認
Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang(参考訳) BEV(Bird's Eye View)空間におけるカメラによる3Dオブジェクト検出は、ここ数年で大きな注目を集めている。 デンス検出器は、まず高密度のBEV機能を構築し、次に複雑なビュー変換と高い計算コストに苦しむBEV空間で物体検出を行う。 一方、スパース検出器は、明示的な高密度BEV機能構築を伴わないクエリベースのパラダイムを踏襲するが、高密度BEVよりも性能が劣る。 本稿では,この性能ギャップを緩和する鍵として,BEVおよび画像空間における検出器の適応性について述べる。 この目的を達成するために,高密度の3Dオブジェクト検出器であるSparseBEVを提案する。 SparseBEV は,(1) BEV 空間における適応的受容場を持つ集合特徴に対するスケール適応型自己注意,(2) クエリの誘導によるサンプリング位置の生成のための適応時空間サンプリング,(3) クエリから動的重み付きサンプル特徴を復号する適応混合という3つの重要な設計を含む。 nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。 valスプリットでは、SparseBEVは55.8 NDSを達成し、リアルタイムの推論速度は23.5 FPSである。 コードはhttps://github.com/MCG-NJU/SparseBEVで入手できる。

Camera-based 3D object detection in BEV (Bird's Eye View) space has drawn great attention over the past few years. Dense detectors typically follow a two-stage pipeline by first constructing a dense BEV feature and then performing object detection in BEV space, which suffers from complex view transformations and high computation cost. On the other side, sparse detectors follow a query-based paradigm without explicit dense BEV feature construction, but achieve worse performance than the dense counterparts. In this paper, we find that the key to mitigate this performance gap is the adaptability of the detector in both BEV and image space. To achieve this goal, we propose SparseBEV, a fully sparse 3D object detector that outperforms the dense counterparts. SparseBEV contains three key designs, which are (1) scale-adaptive self attention to aggregate features with adaptive receptive field in BEV space, (2) adaptive spatio-temporal sampling to generate sampling locations under the guidance of queries, and (3) adaptive mixing to decode the sampled features with dynamic weights from the queries. On the test split of nuScenes, SparseBEV achieves the state-of-the-art performance of 67.5 NDS. On the val split, SparseBEV achieves 55.8 NDS while maintaining a real-time inference speed of 23.5 FPS. Code is available at https://github.com/MCG-NJU/SparseBEV.
翻訳日:2023-08-21 15:08:49 公開日:2023-08-18
# ASAG:Adaptive Sparse Anchor Generationによる強力な1デコーダ層スパース検出器の構築

ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive Sparse Anchor Generation ( http://arxiv.org/abs/2308.09242v1 )

ライセンス: Link先を確認
Shenghao Fu, Junkai Yan, Yipeng Gao, Xiaohua Xie, Wei-Shi Zheng(参考訳) 最近のスパース検出器では、例えば6層のようなデコーダ層が複雑なヘッドのため、期待できる性能を実現する。 従来、高密度の前駆体を初期化として使用し、1デコーダ層検出器を構築してきた。 著しく加速するが、性能はいまだに6層デコーダ層よりも大きなマージンで遅れている。 本研究は,この性能ギャップを高速に保ちながら橋渡しすることを目的とする。 密度検出器とスパース検出器のアーキテクチャの相違が特徴的矛盾を招き、1デコーダ層検出器の性能を損なうことが判明した。 そこで本稿では,アダプティブスパースアンカージェネレータ (ASAG) を提案する。 各画像に対して、ASAGはどの特徴マップとどの位置を予測するかを動的に選択し、画像固有のアンカーを生成するための完全に適応的な方法を形成する。 さらに、簡便で効果的なクエリ重み付け手法により、適応性からトレーニング不安定性が緩和される。 広範な実験により,本手法は高密度初期化手法よりも優れ,より優れた速度精度のトレードオフを実現することが示された。 コードは \url{https://github.com/iSEE-Laboratory/ASAG} で公開されている。

Recent sparse detectors with multiple, e.g. six, decoder layers achieve promising performance but much inference time due to complex heads. Previous works have explored using dense priors as initialization and built one-decoder-layer detectors. Although they gain remarkable acceleration, their performance still lags behind their six-decoder-layer counterparts by a large margin. In this work, we aim to bridge this performance gap while retaining fast speed. We find that the architecture discrepancy between dense and sparse detectors leads to feature conflict, hampering the performance of one-decoder-layer detectors. Thus we propose Adaptive Sparse Anchor Generator (ASAG) which predicts dynamic anchors on patches rather than grids in a sparse way so that it alleviates the feature conflict problem. For each image, ASAG dynamically selects which feature maps and which locations to predict, forming a fully adaptive way to generate image-specific anchors. Further, a simple and effective Query Weighting method eases the training instability from adaptiveness. Extensive experiments show that our method outperforms dense-initialized ones and achieves a better speed-accuracy trade-off. The code is available at \url{https://github.com/iSEE-Laboratory/ASAG}.
翻訳日:2023-08-21 15:08:21 公開日:2023-08-18
# マルチチップ可変結合器を用いたモジュラー超電導量子アーキテクチャ

Modular Superconducting Qubit Architecture with a Multi-chip Tunable Coupler ( http://arxiv.org/abs/2308.09240v1 )

ライセンス: Link先を確認
Mark Field, Angela Q. Chen, Ben Scharmann, Eyob A. Sete, Feyza Oruc, Kim Vu, Valentin Kosenko, Joshua Y. Mutus, Stefano Poletto, Andrew Bestwick(参考訳) キュービット間の相互作用を分離したチップ上で仲介し、モジュラーアーキテクチャを構築するために、フローティング・チューナブル・カプラを使用する。 真空ギャップコンデンサまたは超伝導インジウムバンプボンドを用いたマルチチップチューナブルカップラの3つの異なる設計を実証し、カプラを共通基板上のマイクロ波線に接続し、次に次のチップ上のキュービットに接続する。 分離したチップ上の量子ビット間のゼロカップリング条件は各設計で達成でき、カプラと量子ビットの緩和率は余分な回路素子によって顕著に影響を受けないことを示す。 最後に、1つのチップに調整可能なカプラを備えたqubitsと同じレベルの忠実度を持つ2量子ビットゲート操作を実演する。 1つ以上のインジウム結合を用いると、クビットコヒーレンスが低下したり、2量子ゲートの性能に影響を与えない。

We use a floating tunable coupler to mediate interactions between qubits on separate chips to build a modular architecture. We demonstrate three different designs of multi-chip tunable couplers using vacuum gap capacitors or superconducting indium bump bonds to connect the coupler to a microwave line on a common substrate and then connect to the qubit on the next chip. We show that the zero-coupling condition between qubits on separate chips can be achieved in each design and that the relaxation rates for the coupler and qubits are not noticeably affected by the extra circuit elements. Finally, we demonstrate two-qubit gate operations with fidelity at the same level as qubits with a tunable coupler on a single chip. Using one or more indium bonds does not degrade qubit coherence or impact the performance of two-qubit gates.
翻訳日:2023-08-21 15:08:01 公開日:2023-08-18
# ムッセルファーム自動化のためのディープトランスファー学習によるブイ検出の改善

Improving Buoy Detection with Deep Transfer Learning for Mussel Farm Automation ( http://arxiv.org/abs/2308.09238v1 )

ライセンス: Link先を確認
Carl McMillan, Junhong Zhao, Bing Xue, Ross Vennell, Mengjie Zhang(参考訳) ニュージーランドの養殖業は急速に拡大しており、特に貝類の輸出に重点を置いている。 ムッセル農作業の需要が拡大するにつれて、人工知能とインテリジェントオブジェクト検出などのコンピュータビジョン技術の統合が、運用効率を高める効果的なアプローチとして現れつつある。 本研究では,知的なムッセル農場のモニタリングと管理に深層学習手法を活用し,ブイ検出の高度化に資する。 主な目的は、実世界の様々なシナリオにおけるブイの検出における精度と堅牢性の向上である。 mussel farmsから派生したさまざまなデータセットをキャプチャし、トレーニング用にラベル付けし、フローティングプラットフォームと船を横断するカメラから撮影した画像を包み込み、さまざまな照明や気象条件をキャプチャする。 ラベル付きデータに制限のあるブイ検出のための効果的な深層学習モデルを確立するために,転送学習技術を用いる。 これには、事前訓練されたオブジェクト検出モデルを適用して、特殊なディープラーニングブイ検出モデルを作成する。 我々は、YOLOとその変種を含む様々な事前学習モデルとデータ多様性について検討し、モデル性能への影響について検討する。 本研究は, 深層学習によるブイ検出性能の顕著な向上を実証し, 各種気象条件の一般化を図り, 本手法の実用性を強調した。

The aquaculture sector in New Zealand is experiencing rapid expansion, with a particular emphasis on mussel exports. As the demands of mussel farming operations continue to evolve, the integration of artificial intelligence and computer vision techniques, such as intelligent object detection, is emerging as an effective approach to enhance operational efficiency. This study delves into advancing buoy detection by leveraging deep learning methodologies for intelligent mussel farm monitoring and management. The primary objective centers on improving accuracy and robustness in detecting buoys across a spectrum of real-world scenarios. A diverse dataset sourced from mussel farms is captured and labeled for training, encompassing imagery taken from cameras mounted on both floating platforms and traversing vessels, capturing various lighting and weather conditions. To establish an effective deep learning model for buoy detection with a limited number of labeled data, we employ transfer learning techniques. This involves adapting a pre-trained object detection model to create a specialized deep learning buoy detection model. We explore different pre-trained models, including YOLO and its variants, alongside data diversity to investigate their effects on model performance. Our investigation demonstrates a significant enhancement in buoy detection performance through deep learning, accompanied by improved generalization across diverse weather conditions, highlighting the practical effectiveness of our approach.
翻訳日:2023-08-21 15:07:44 公開日:2023-08-18
# サンプルレベル重み付けを用いたディープブースティングマルチモーダルアンサンブル顔認識

Deep Boosting Multi-Modal Ensemble Face Recognition with Sample-Level Weighting ( http://arxiv.org/abs/2308.09234v1 )

ライセンス: Link先を確認
Sahar Rahimi Malakshan, Mohammad Saeed Ebrahimi Saadabadi, Nima Najafzadeh, Nasser M. Nasrabadi(参考訳) 深層畳み込みニューラルネットワークは、豊富なデータ可用性のために、顔認識(fr)で目覚ましい成功を収めている。 しかし、現在のトレーニングベンチマークは不均衡な品質分布を示しており、ほとんどの画像は高品質である。 これはトレーニング中に過度に表現されるため、ハードサンプルの一般化に問題を引き起こす。 本研究では,この問題に対処するためにマルチモデルブースティング技術を用いる。 有名なadaboostに触発されて,異なるサンプルの重要性をfr損失に組み込むためのサンプルレベルの重み付け手法を提案する。 提案フレームワークの個々のモデルは、異なるレベルのサンプルハードネスの専門家である。 したがって、モデルの組み合わせは、簡単なサンプルの識別性を損なうことなく、堅牢な特徴抽出器をもたらす。 また,試料の硬さをトレーニング基準に組み込むため,試料採掘が現在の角縁損失関数,すなわちマージンとスケールの重要な側面に与える影響を解析的に示す。 提案手法は,CFP-FP,LFW,CPLFW,CALFW, AgeDB, TinyFace, IJB-B, IJB-C評価データセットにおいて,最先端のアルゴリズムと比較して優れた性能を示す。

Deep convolutional neural networks have achieved remarkable success in face recognition (FR), partly due to the abundant data availability. However, the current training benchmarks exhibit an imbalanced quality distribution; most images are of high quality. This poses issues for generalization on hard samples since they are underrepresented during training. In this work, we employ the multi-model boosting technique to deal with this issue. Inspired by the well-known AdaBoost, we propose a sample-level weighting approach to incorporate the importance of different samples into the FR loss. Individual models of the proposed framework are experts at distinct levels of sample hardness. Therefore, the combination of models leads to a robust feature extractor without losing the discriminability on the easy samples. Also, for incorporating the sample hardness into the training criterion, we analytically show the effect of sample mining on the important aspects of current angular margin loss functions, i.e., margin and scale. The proposed method shows superior performance in comparison with the state-of-the-art algorithms in extensive experiments on the CFP-FP, LFW, CPLFW, CALFW, AgeDB, TinyFace, IJB-B, and IJB-C evaluation datasets.
翻訳日:2023-08-21 15:07:21 公開日:2023-08-18
# 量子情報処理用ハイブリッド光キャビティトラップにおける2次元イオン結晶の研究

Investigations of 2D ion crystals in a hybrid optical cavity trap for quantum information processing ( http://arxiv.org/abs/2308.09231v1 )

ライセンス: Link先を確認
Zewen Sun, Yi Hong Teoh, Fereshteh Rajabi, Rajibul Islam(参考訳) 静止電極電圧と光学キャビティ場を用いた2次元イオン結晶のハイブリッドトラップアーキテクチャを, 平面内および平面外におけるそれぞれ検討した。 2次元結晶の2D-3次元構造相転移に対する安定性を調べることにより、イッテルビウムイオンのトラップパラメータを同定する。 2次元結晶の多重平衡配置が可能であり、それらの間におけるポテンシャル障壁を推定して安定性を解析する。 反トラッピング状態への散乱はトラッピング寿命を制限し、これは他の光トラッピングアーキテクチャを用いた最近の実験と一致している。 これらの2dイオン結晶は、その2d三角格子構造とフォノンによるスピンスピン相互作用の恩恵を受け、フラストレーションスピン系の量子シミュレーションに優れたプラットフォームを提供する。 数十個のイオンによる量子情報処理は、現在の技術で実現可能である。

We numerically investigate a hybrid trapping architecture for 2D ion crystals using static electrode voltages and optical cavity fields for in-plane and out-of-plane confinements, respectively. By studying the stability of 2D crystals against 2D-3D structural phase transitions, we identify the necessary trapping parameters for ytterbium ions. Multiple equilibrium configurations for 2D crystals are possible, and we analyze their stability by estimating potential barriers between them. We find that scattering to anti-trapping states limits the trapping lifetime, which is consistent with recent experiments employing other optical trapping architectures. These 2D ion crystals offer an excellent platform for quantum simulation of frustrated spin systems, benefiting from their 2D triangular lattice structure and phonon-mediated spin-spin interactions. Quantum information processing with tens of ions is feasible in this scheme with current technologies.
翻訳日:2023-08-21 15:07:01 公開日:2023-08-18
# CCFace: 低解像度顔認識のための分類一貫性

CCFace: Classification Consistency for Low-Resolution Face Recognition ( http://arxiv.org/abs/2308.09230v1 )

ライセンス: Link先を確認
Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Hossein Kashiani, Nasser M. Nasrabadi(参考訳) 近年、深層顔認証法は、現在地にあるデータセットに顕著な結果を示している。 しかし、これらの手法はTinyFaceやSCFaceのような現実世界の低解像度のベンチマークに適用した場合、性能が著しく低下している。 そこで本研究では,学習した分類器を高分解能モデルから低分解能ネットワークへ変換する新しい分類整合知識蒸留手法を提案する。 このアプローチは、低解像度インスタンスの識別表現を見つけるのに役立つ。 さらに性能を向上させるために,人気の角縁損失関数の成功に触発された適応角ペナルティを用いて,知識蒸留損失の設計を行った。 アダプティブペナルティは低解像度サンプルの過剰フィッティングを低減し、データ拡張に統合されたモデルの収束問題を緩和する。 さらに,最先端の半教師付き表現学習パラダイムに基づく非対称クロスレゾリューション学習手法を用いて,低レゾリューションインスタンスの識別性を改善し,クラスタ形成を防止する。 提案手法は,高分解能ベンチマークの性能を維持しつつ,tinyfaceを3%改善し,低分解能ベンチマークの最先端手法を上回っている。

In recent years, deep face recognition methods have demonstrated impressive results on in-the-wild datasets. However, these methods have shown a significant decline in performance when applied to real-world low-resolution benchmarks like TinyFace or SCFace. To address this challenge, we propose a novel classification consistency knowledge distillation approach that transfers the learned classifier from a high-resolution model to a low-resolution network. This approach helps in finding discriminative representations for low-resolution instances. To further improve the performance, we designed a knowledge distillation loss using the adaptive angular penalty inspired by the success of the popular angular margin loss function. The adaptive penalty reduces overfitting on low-resolution samples and alleviates the convergence issue of the model integrated with data augmentation. Additionally, we utilize an asymmetric cross-resolution learning approach based on the state-of-the-art semi-supervised representation learning paradigm to improve discriminability on low-resolution instances and prevent them from forming a cluster. Our proposed method outperforms state-of-the-art approaches on low-resolution benchmarks, with a three percent improvement on TinyFace while maintaining performance on high-resolution benchmarks.
翻訳日:2023-08-21 15:06:46 公開日:2023-08-18
# 知識集中型組織における知識漏洩リスクの軽減:モバイル端末の視点から

Mitigating the Risk of Knowledge Leakage in Knowledge Intensive Organizations: a Mobile Device Perspective ( http://arxiv.org/abs/2308.09229v1 )

ライセンス: Link先を確認
Carlos Andres Agudelo Serna(参考訳) 現在の知識経済では、知識は組織の戦略的に重要な資源である。 知識集約的な活動はイノベーションを促進し、経済的賃貸と競争上の優位性を生み出し維持する。 競争上の優位性を維持するために、組織は知識を第三者、特に競合相手への漏えいから守る必要がある。 しかし、ニュースメディアや業界ホワイトペーパーで報告されている漏洩事件の数と規模は、現代組織が機密データや組織知識の保護に苦慮していることを示している。 組織全体の知識労働者によるモバイルデバイスや技術の利用の増加は、組織の攻撃面とそれに対応するリスク暴露のレベルを劇的に高めている。 文献の多くは、情報漏洩につながる技術リスクに焦点を当てているが、知識漏洩につながる人的リスクは比較的低い。 さらに、モバイルデバイスを用いた知識漏洩のリスクを軽減する戦略、特に人間の側面を考慮すると、あまり知られていない。 特に,本研究では,知識集約型組織に対して,リスクレベルの変化に基づく具体的な戦略を提供する詳細な研究の欠如について検討した。 分析された研究の多くは、一般化された方法で提示され、異なる組織やリスクレベルの特定の戦略を特定することができない高度な戦略を提供する。 2) モバイルデバイスの文脈における知識管理に関する研究の欠如 3)知識の暗黙の次元に関する研究の欠如 文学の大多数は、明示的な(体系化された)知識を保護するための形式的かつ非公式な戦略に焦点を当てている。

In the current knowledge economy, knowledge represents the most strategically significant resource of organizations. Knowledge-intensive activities advance innovation and create and sustain economic rent and competitive advantage. In order to sustain competitive advantage, organizations must protect knowledge from leakage to third parties, particularly competitors. However, the number and scale of leakage incidents reported in news media as well as industry whitepapers suggests that modern organizations struggle with the protection of sensitive data and organizational knowledge. The increasing use of mobile devices and technologies by knowledge workers across the organizational perimeter has dramatically increased the attack surface of organizations, and the corresponding level of risk exposure. While much of the literature has focused on technology risks that lead to information leakage, human risks that lead to knowledge leakage are relatively understudied. Further, not much is known about strategies to mitigate the risk of knowledge leakage using mobile devices, especially considering the human aspect. Specifically, this research study identified three gaps in the current literature (1) lack of in-depth studies that provide specific strategies for knowledge-intensive organizations based on their varied risk levels. Most of the analysed studies provide high-level strategies that are presented in a generalised manner and fail to identify specific strategies for different organizations and risk levels. (2) lack of research into management of knowledge in the context of mobile devices. And (3) lack of research into the tacit dimension of knowledge as the majority of the literature focuses on formal and informal strategies to protect explicit (codified) knowledge.
翻訳日:2023-08-21 15:06:28 公開日:2023-08-18
# 計量学習のための一般化サムプーリング

Generalized Sum Pooling for Metric Learning ( http://arxiv.org/abs/2308.09228v1 )

ライセンス: Link先を確認
Yeti Z. Gurbuz, Ozan Sener and A. Ayd{\i}n Alatan(参考訳) ディープメトリック学習の一般的なアーキテクチャ選択は、畳み込みニューラルネットワークとグローバル平均プーリング(GAP)である。 簡単に言えば、GAPは情報を集約する非常に効果的な方法です。 GAPの有効性の1つの可能な説明は、各特徴ベクトルを異なる意味的実体を表すものとして、GAPを凸結合として考えることである。 この観点から、GAPを一般化し、学習可能な一般化和プーリング法(GSP)を提案する。 GSPは2つの異なる能力でGAPを改善します。 一 意味的実体のサブセットを選択し、迷惑情報を無視して効果的に学習する能力 二 各団体の重要度に対応する重みを学習すること。 形式的には、エントロピー・スムースド最適輸送問題(entropy-smoothed optimal transport problem)を提案し、それがギャップの厳密な一般化であることを示す。 この最適化問題は,GAPの直接学習可能な代替品として利用することができる解析的勾配を満足することを示す。 また,GSPの学習を容易にするため,ゼロショットロスを提案する。 提案手法の有効性を4つの一般的なメトリクス学習ベンチマークで評価した。 GSP-DML Frameworkのコードは以下の通り。

A common architectural choice for deep metric learning is a convolutional neural network followed by global average pooling (GAP). Albeit simple, GAP is a highly effective way to aggregate information. One possible explanation for the effectiveness of GAP is considering each feature vector as representing a different semantic entity and GAP as a convex combination of them. Following this perspective, we generalize GAP and propose a learnable generalized sum pooling method (GSP). GSP improves GAP with two distinct abilities: i) the ability to choose a subset of semantic entities, effectively learning to ignore nuisance information, and ii) learning the weights corresponding to the importance of each entity. Formally, we propose an entropy-smoothed optimal transport problem and show that it is a strict generalization of GAP, i.e., a specific realization of the problem gives back GAP. We show that this optimization problem enjoys analytical gradients enabling us to use it as a direct learnable replacement for GAP. We further propose a zero-shot loss to ease the learning of GSP. We show the effectiveness of our method with extensive evaluations on 4 popular metric learning benchmarks. Code is available at: GSP-DML Framework
翻訳日:2023-08-21 15:06:07 公開日:2023-08-18
# DMCVR : 3次元心容積再構成のための形態誘導拡散モデル

DMCVR: Morphology-Guided Diffusion Model for 3D Cardiac Volume Reconstruction ( http://arxiv.org/abs/2308.09223v1 )

ライセンス: Link先を確認
Xiaoxiao He, Chaowei Tan, Ligong Han, Bo Liu, Leon Axel, Kang Li, Dimitris N. Metaxas(参考訳) cine magnetic resonance imaging (cmri) による正確な3次元心臓再建は、心血管疾患の診断と心臓の動きの理解を改善する上で重要である。 しかし、現在の心臓mriに基づくリコンストラクション技術は、平面分解能が制限された2dであり、低品質のリコンストラクション心容積となる。 高解像度2次元画像とそれに対応する3次元再構成ボリュームを合成する3次元心容積再構成のための形態誘導拡散モデルDMCVRを提案する。 本手法は, 生成モデルに心臓形態を条件付け, 潜時符号の繰り返し最適化処理を省き, 生成品質を向上させることによって, 従来の手法よりも優れていた。 学習した潜伏空間は、大域的な意味論、局所的な心臓形態、および3次元心臓の形状を再構築するために高い解釈可能な値の2次元cMRIスライスの詳細を提供する。 実験の結果,DMCVRは2次元生成や3次元再構成性能など,いくつかの面で非常に有効であることがわかった。 dmcvrを使えば、現在の技術を超える高解像度3次元心臓mri再構成ができる。 提案フレームワークは, 心臓疾患の診断と治療計画の精度を向上させる大きな可能性を持っている。 コードはhttps://github.com/hexiaoxiao-cs/DMCVRでアクセスできる。

Accurate 3D cardiac reconstruction from cine magnetic resonance imaging (cMRI) is crucial for improved cardiovascular disease diagnosis and understanding of the heart's motion. However, current cardiac MRI-based reconstruction technology used in clinical settings is 2D with limited through-plane resolution, resulting in low-quality reconstructed cardiac volumes. To better reconstruct 3D cardiac volumes from sparse 2D image stacks, we propose a morphology-guided diffusion model for 3D cardiac volume reconstruction, DMCVR, that synthesizes high-resolution 2D images and corresponding 3D reconstructed volumes. Our method outperforms previous approaches by conditioning the cardiac morphology on the generative model, eliminating the time-consuming iterative optimization process of the latent code, and improving generation quality. The learned latent spaces provide global semantics, local cardiac morphology and details of each 2D cMRI slice with highly interpretable value to reconstruct 3D cardiac shape. Our experiments show that DMCVR is highly effective in several aspects, such as 2D generation and 3D reconstruction performance. With DMCVR, we can produce high-resolution 3D cardiac MRI reconstructions, surpassing current techniques. Our proposed framework has great potential for improving the accuracy of cardiac disease diagnosis and treatment planning. Code can be accessed at https://github.com/hexiaoxiao-cs/DMCVR.
翻訳日:2023-08-21 15:05:51 公開日:2023-08-18
# 非整合観測データのためのハイブリッドDecoder-DeepONet演算子回帰フレームワーク

A hybrid Decoder-DeepONet operator regression framework for unaligned observation data ( http://arxiv.org/abs/2308.09274v1 )

ライセンス: Link先を確認
Bo Chen, Chenyu Wang, Weipeng Li, Haiyang Fu(参考訳) ディープニューラル作用素 (DNO) は関数空間間の非線形写像の近似に利用されてきた。 しかし、DNOは非整合観測データに関連する次元性や計算コストの増大という課題に直面している。 本研究では,不整合データを効率的に処理するためのハイブリッドデコーダ-DeepONet演算子回帰フレームワークを提案する。 さらに,入力拡張としてトレーニングデータの平均フィールドを利用するマルチデコーダdeeponetを導入する。 演算子近似理論によるフレームワークの合成は、普遍近似定理に基づいて提供される。 提案手法の効率と精度を検証するために, ダーシー問題と翼まわりの流れ場という2つの数値実験を行った。 その結果,非整合観測データを扱う上でDecoder-DeepONetとMulti-Decoder-DeepONetの利点を示し,予測精度を向上する可能性を示した。

Deep neural operators (DNOs) have been utilized to approximate nonlinear mappings between function spaces. However, DNOs face the challenge of increased dimensionality and computational cost associated with unaligned observation data. In this study, we propose a hybrid Decoder-DeepONet operator regression framework to handle unaligned data effectively. Additionally, we introduce a Multi-Decoder-DeepONet, which utilizes an average field of training data as input augmentation. The consistencies of the frameworks with the operator approximation theory are provided, on the basis of the universal approximation theorem. Two numerical experiments, Darcy problem and flow-field around an airfoil, are conducted to validate the efficiency and accuracy of the proposed methods. Results illustrate the advantages of Decoder-DeepONet and Multi-Decoder-DeepONet in handling unaligned observation data and showcase their potentials in improving prediction accuracy.
翻訳日:2023-08-21 14:57:41 公開日:2023-08-18
# 多体スピンダイナミクスによるパルス動的核偏極抑制

Suppression of Pulsed Dynamic Nuclear Polarization by Many-Body Spin Dynamics ( http://arxiv.org/abs/2308.09272v1 )

ライセンス: Link先を確認
Kento Sasaki and Eisuke Abe(参考訳) マイクロ波パルス制御電子スピンからの偏光移動による核過分極が抑制される機構について検討する。 複数の核スピンのユニタリダイナミクスの解析的および数値計算から、コヒーレントな高次核スピンダイナミクスは、核スピン拡散や緩和のようなムンダン脱分極過程がない場合でも、核のクラスター内の暗黒状態の形成と組み合わせることで、偏光移動の効率に限界があることが分かる。 さらに, 暗黒状態の影響を部分的に軽減できることを示す。 J. RandallらによるScience 374, 1474 (2021) は, ダイヤモンド中の1つの窒素空孔中心と結合した$^{13}$C核で観測された核偏極に応用した。 我々の研究は、核スピンの集団工学とパルス動的核分極プロトコルの今後の設計に光を当てている。

We study a mechanism by which nuclear hyperpolarization due to the polarization transfer from a microwave-pulse-controlled electron spin is suppressed. From analytical and numerical calculations of the unitary dynamics of multiple nuclear spins, we uncover that, combined with the formation of the dark state within a cluster of nuclei, coherent higher-order nuclear spin dynamics impose limits on the efficiency of the polarization transfer even in the absence of mundane depolarization processes such as nuclear spin diffusion and relaxation. Furthermore, we show that the influence of the dark state can be partly mitigated by introducing a disentangling operation. Our analysis is applied to the nuclear polarizations observed in $^{13}$C nuclei coupled with a single nitrogen-vacancy center in diamond [Science 374, 1474 (2021) by J. Randall et al.]. Our work sheds light on collective engineering of nuclear spins as well as future designs of pulsed dynamic nuclear polarization protocols.
翻訳日:2023-08-21 14:57:26 公開日:2023-08-18
# 動画における進行誘導時効検出

Progression-Guided Temporal Action Detection in Videos ( http://arxiv.org/abs/2308.09268v1 )

ライセンス: Link先を確認
Chongkai Lu, Man-Wai Mak, Ruimin Li, Zheru Chi, Hong Fu(参考訳) 本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。 このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。 動作進化をエンコードするために、完全なアクションプロセスを101の順序付けされたステージ (0\%, 1\%, ..., 100\%) に定量化する。 次に、アクションの進行を認識するためにニューラルネットワークをトレーニングします。 このフレームワークは、ビデオ中の完全なアクションプロセスを検出することで、アクション境界を検出する。例えば、検出されたアクションの進行を伴うビデオセグメントは、シーケンス 0\%, 1\%, ..., 100\% に密接に従う。 The framework offers three major advantages: (1) Our neural networks are trained end-to-end, contrasting conventional methods that optimize modules separately; (2) The APN is trained using action frames exclusively, enabling models to be trained on action classification datasets and robust to videos with temporal background styles differing from those in training; (3) Our framework effectively avoids detecting incomplete actions and excels in detecting long-lasting actions due to the fine-grained and explicit encoding of the temporal structure of actions. これらの利点を生かして、APNは競争性能を達成し、長期にわたる行動の検出においてその性能を大幅に上回っている。 IoU閾値0.5のAPNは、THUMOS14データセットでは平均平均精度(mAP)が58.3\%、DFMAD70データセットでは98.9\%である。

We present a novel framework, Action Progression Network (APN), for temporal action detection (TAD) in videos. The framework locates actions in videos by detecting the action evolution process. To encode the action evolution, we quantify a complete action process into 101 ordered stages (0\%, 1\%, ..., 100\%), referred to as action progressions. We then train a neural network to recognize the action progressions. The framework detects action boundaries by detecting complete action processes in the videos, e.g., a video segment with detected action progressions closely follow the sequence 0\%, 1\%, ..., 100\%. The framework offers three major advantages: (1) Our neural networks are trained end-to-end, contrasting conventional methods that optimize modules separately; (2) The APN is trained using action frames exclusively, enabling models to be trained on action classification datasets and robust to videos with temporal background styles differing from those in training; (3) Our framework effectively avoids detecting incomplete actions and excels in detecting long-lasting actions due to the fine-grained and explicit encoding of the temporal structure of actions. Leveraging these advantages, the APN achieves competitive performance and significantly surpasses its counterparts in detecting long-lasting actions. With an IoU threshold of 0.5, the APN achieves a mean Average Precision (mAP) of 58.3\% on the THUMOS14 dataset and 98.9\% mAP on the DFMAD70 dataset.
翻訳日:2023-08-21 14:57:02 公開日:2023-08-18
# 大規模言語モデルの推論能力の向上:グラフベースの検証アプローチ

Enhancing Reasoning Capabilities of Large Language Models: A Graph-Based Verification Approach ( http://arxiv.org/abs/2308.09267v1 )

ライセンス: Link先を確認
Lang Cao(参考訳) 大きな言語モデル(LLM)は、特に数学の単語問題のような複雑な推論タスクにおいて、特別に設計されたプロンプトによってガイドされるときに、印象的な推論能力を示す。 これらのモデルは典型的にはチェーン・オブ・シント・アプローチを使ってタスクを解決し、推論能力を高めるだけでなく、問題解決プロセスに関する貴重な洞察を提供する。 しかし, LLMの推論能力を高める余地は依然として大きい。 いくつかの研究は、llm出力検証器の統合は、追加のモデルトレーニングを必要とせずに推論精度を高めることを示唆している。 本稿では,これらの研究に追従し,LLMの推論能力をさらに増強するグラフベースの新しい手法を提案する。 LLMによって生成される推論タスクに対する複数の解は、異なる推論経路からの中間ステップ間の論理的接続により、推論グラフとして表現できると仮定する。 そこで本研究では,LLMが生成した解を分析し,検証するReasoning Graph Verifier (RGV)を提案する。 実験結果から, LLMの推論能力の向上だけでなく, これらのモデルの推論性能の向上の観点からも, 既存の検証手法よりも優れていることがわかった。

Large Language Models (LLMs) have showcased impressive reasoning capabilities, particularly when guided by specifically designed prompts in complex reasoning tasks such as math word problems. These models typically solve tasks using a chain-of-thought approach, which not only bolsters their reasoning abilities but also provides valuable insights into their problem-solving process. However, there is still significant room for enhancing the reasoning abilities of LLMs. Some studies suggest that the integration of an LLM output verifier can boost reasoning accuracy without necessitating additional model training. In this paper, we follow these studies and introduce a novel graph-based method to further augment the reasoning capabilities of LLMs. We posit that multiple solutions to a reasoning task, generated by an LLM, can be represented as a reasoning graph due to the logical connections between intermediate steps from different reasoning paths. Therefore, we propose the Reasoning Graph Verifier (RGV) to analyze and verify the solutions generated by LLMs. By evaluating these graphs, models can yield more accurate and reliable results.Our experimental results show that our graph-based verification method not only significantly enhances the reasoning abilities of LLMs but also outperforms existing verifier methods in terms of improving these models' reasoning performance.
翻訳日:2023-08-21 14:56:37 公開日:2023-08-18
# 非インタラクティブ音声品質評価モデルのためのマルチタスク擬似ラベル学習

Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality Assessment Model ( http://arxiv.org/abs/2308.09262v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Bo-Ren Brian Bai, Chiou-Shann Fuh, Hsin-Min Wang and Yu Tsao(参考訳) 本研究では,非侵入的音声品質評価モデルに対するマルチタスク擬似ラベル学習を提案する。 MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つのステージから構成される。 3QUESTの指標として、音声MOS(S-MOS)、ノイズMOS(N-MOS)、ジェネラルMOS(G-MOS)が選定される。 さらに、事前訓練されたMOSA-Netモデルを用いて、音声品質の知覚評価(PESQ)、短時間客観的インテリジェンス(STOI)、音声歪み指標(SDI)の3つの擬似ラベルを推定する。 MPLのマルチタスク学習段階は、MTQ-Netモデル(マルチターゲット音声品質評価ネットワーク)の訓練に使用される。 このモデルは、損失監督(推定スコアと実際の接地ラベルの違いに由来する)と損失半スーパービジョン(推定スコアと擬似ラベルの違いに由来する)を組み込んで最適化され、フーバー損失を用いて損失関数を算出する。 実験結果はまず,モデルをスクラッチからトレーニングし,知識伝達機構を用いた場合と比較して,mplの利点を示す。 次に,mtq-netの予測モデル改善におけるフーバー損失の利点を検証する。 最後に、MTQ-Net with the MPLアプローチは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。

This study introduces multi-task pseudo-label (MPL) learning for a non-intrusive speech quality assessment model. MPL consists of two stages which are obtaining pseudo-label scores from a pretrained model and performing multi-task learning. The 3QUEST metrics, namely Speech-MOS (S-MOS), Noise-MOS (N-MOS), and General-MOS (G-MOS) are selected as the primary ground-truth labels. Additionally, the pretrained MOSA-Net model is utilized to estimate three pseudo-labels: perceptual evaluation of speech quality (PESQ), short-time objective intelligibility (STOI), and speech distortion index (SDI). Multi-task learning stage of MPL is then employed to train the MTQ-Net model (multi-target speech quality assessment network). The model is optimized by incorporating Loss supervision (derived from the difference between the estimated score and the real ground-truth labels) and Loss semi-supervision (derived from the difference between the estimated score and pseudo-labels), where Huber loss is employed to calculate the loss function. Experimental results first demonstrate the advantages of MPL compared to training the model from scratch and using knowledge transfer mechanisms. Secondly, the benefits of Huber Loss in improving the prediction model of MTQ-Net are verified. Finally, the MTQ-Net with the MPL approach exhibits higher overall prediction capabilities when compared to other SSL-based speech assessment models.
翻訳日:2023-08-21 14:56:19 公開日:2023-08-18
# 性能保証を伴うテスト時の分散シフト緩和

Distribution shift mitigation at test time with performance guarantees ( http://arxiv.org/abs/2308.09259v1 )

ライセンス: Link先を確認
Rui Ding, Jielong Yang, Feng Ji, Xionghu Zhong, Linbo Xie(参考訳) 不適切なサンプル選択と限られたトレーニングデータのため、トレーニングセットとテストセットの間に分布シフトがしばしば存在する。 このシフトは、グラフニューラルネットワーク(GNN)のテストパフォーマンスに悪影響を及ぼす可能性がある。 既存のアプローチは、分散シフトに対するGNNの堅牢性を高めるか、あるいはシフト自体を減らすことによって、この問題を軽減する。 しかし、どちらのアプローチもモデル構造とパラメータがアクセスできない場合には、モデルを再トレーニングする必要がある。 この課題に対処するため,機能再構築のための汎用フレームワークFR-GNNを提案する。 FRGNNは、よく訓練されたGNNの出力と入力の間のマッピング関係を構築し、クラス代表埋め込みを取得し、これらの埋め込みを使用してラベル付きノードの特徴を再構築する。 これらの再構成機能はGNNのメッセージパッシング機構に組み込まれ、テスト時の未ラベルノードの予測に影響を与える。 特に、再構成されたノード機能は、十分に訓練されたモデルをテストするために直接利用することができ、配布シフトを効果的に低減し、テストパフォーマンスが向上する。 この顕著な成果は、モデル構造やパラメータを変更することなく達成される。 我々は枠組みの有効性を理論的に保証する。 さらに,様々な公開データセットに関する包括的実験を行った。 実験の結果,FRGNNの性能は主流手法と比較して優れていた。

Due to inappropriate sample selection and limited training data, a distribution shift often exists between the training and test sets. This shift can adversely affect the test performance of Graph Neural Networks (GNNs). Existing approaches mitigate this issue by either enhancing the robustness of GNNs to distribution shift or reducing the shift itself. However, both approaches necessitate retraining the model, which becomes unfeasible when the model structure and parameters are inaccessible. To address this challenge, we propose FR-GNN, a general framework for GNNs to conduct feature reconstruction. FRGNN constructs a mapping relationship between the output and input of a well-trained GNN to obtain class representative embeddings and then uses these embeddings to reconstruct the features of labeled nodes. These reconstructed features are then incorporated into the message passing mechanism of GNNs to influence the predictions of unlabeled nodes at test time. Notably, the reconstructed node features can be directly utilized for testing the well-trained model, effectively reducing the distribution shift and leading to improved test performance. This remarkable achievement is attained without any modifications to the model structure or parameters. We provide theoretical guarantees for the effectiveness of our framework. Furthermore, we conduct comprehensive experiments on various public datasets. The experimental results demonstrate the superior performance of FRGNN in comparison to mainstream methods.
翻訳日:2023-08-21 14:55:52 公開日:2023-08-18
# 潜在木構造の双曲型ニューラルネットワーク表現における容量境界

Capacity Bounds for Hyperbolic Neural Network Representations of Latent Tree Structures ( http://arxiv.org/abs/2308.09250v1 )

ライセンス: Link先を確認
Anastasis Kratsios, Ruiyang Hong, Haitz S\'aez de Oc\'ariz Borde(参考訳) 本稿では,ReLUアクティベーション機能を持つHNN(Deep Hyperbolic Neural Network)の表現能力について検討する。 hnn が任意の有限重み付き木を次元の双曲空間に$\varepsilon$-isometric的に埋め込むことができるという最初の証明を定め、任意の $\varepsilon> 1$ ($\varepsilon=1$ が最適である) に対して、所定の断面曲率 $\kappa<0$ で少なくとも$$$ と等しい。 組込みを実装するhnn上で,ネットワーク複雑性の厳密な上限を確立する。 グラフ表現を実装するHNNのネットワーク複雑性は,表現の忠実さ/歪みとは無関係である。 この結果は、任意のReLU多層パーセプトロン(MLP)が$L>2^d$の木の葉を$d$次元ユークリッド空間に埋め込み、少なくとも$\Omega(L^{1/d})$; MLPを定義する深さ、幅、(おそらく不連続な)アクティベーション関数に独立して示すときの歪みに対する下界と対比する。

We study the representation capacity of deep hyperbolic neural networks (HNNs) with a ReLU activation function. We establish the first proof that HNNs can $\varepsilon$-isometrically embed any finite weighted tree into a hyperbolic space of dimension $d$ at least equal to $2$ with prescribed sectional curvature $\kappa<0$, for any $\varepsilon> 1$ (where $\varepsilon=1$ being optimal). We establish rigorous upper bounds for the network complexity on an HNN implementing the embedding. We find that the network complexity of HNN implementing the graph representation is independent of the representation fidelity/distortion. We contrast this result against our lower bounds on distortion which any ReLU multi-layer perceptron (MLP) must exert when embedding a tree with $L>2^d$ leaves into a $d$-dimensional Euclidean space, which we show at least $\Omega(L^{1/d})$; independently of the depth, width, and (possibly discontinuous) activation function defining the MLP.
翻訳日:2023-08-21 14:55:33 公開日:2023-08-18
# 能動的・受動的因果推論学習

Active and Passive Causal Inference Learning ( http://arxiv.org/abs/2308.09248v1 )

ライセンス: Link先を確認
Daniel Jiwoong Im, Kyunghyun Cho(参考訳) 本稿では,機械学習研究者,技術者,学生にとって,因果推論に関心があるがまだ知識がないための出発点となる。 まずは、交換可能性、肯定性、一貫性、干渉の欠如など、因果的識別に総じて必要とされる重要な仮定のセットを定めます。 これらの仮定から、我々は重要な因果推論手法のセットを構築し、それらを2つのバケット、アクティブとパッシブのアプローチに分類する。 本稿では,ランダム化制御試験とバンディットベースのアプローチについて,アクティブカテゴリから記述し,議論する。 次に、受動的カテゴリにおけるマッチングや逆確率重み付けといった古典的アプローチと、より最近のディープラーニングに基づくアルゴリズムについて述べる。 本論文は,衝突者バイアスなどの因果推論の欠如した側面を用いて論文を仕上げることで,因果推論と発見のさらなる読解と研究のための多様な出発点を読者に提供することを期待する。

This paper serves as a starting point for machine learning researchers, engineers and students who are interested in but not yet familiar with causal inference. We start by laying out an important set of assumptions that are collectively needed for causal identification, such as exchangeability, positivity, consistency and the absence of interference. From these assumptions, we build out a set of important causal inference techniques, which we do so by categorizing them into two buckets; active and passive approaches. We describe and discuss randomized controlled trials and bandit-based approaches from the active category. We then describe classical approaches, such as matching and inverse probability weighting, in the passive category, followed by more recent deep learning based algorithms. By finishing the paper with some of the missing aspects of causal inference from this paper, such as collider biases, we expect this paper to provide readers with a diverse set of starting points for further reading and research in causal inference and discovery.
翻訳日:2023-08-21 14:55:06 公開日:2023-08-18
# セマンティッククラスタリングによるポイントクラウドビデオの自己監督学習のためのポイントコントラスト予測

Point Contrastive Prediction with Semantic Clustering for Self-Supervised Learning on Point Cloud Videos ( http://arxiv.org/abs/2308.09247v1 )

ライセンス: Link先を確認
Xiaoxiao Sheng and Zhiqiang Shen and Gang Xiao and Longguang Wang and Yulan Guo and Hehe Fan(参考訳) 本稿では,オブジェクト中心およびシーン中心のデータのための統合ポイントクラウドビデオ自己教師付き学習フレームワークを提案する。 従来の手法では、通常、クリップやフレームレベルで表現学習を行い、きめ細かいセマンティクスをうまく捉えることができない。 本稿では,クリップやフレームの表現を対比する代わりに,コントラスト学習をポイントレベルで行うことで,統一的な自己教師型フレームワークを提案する。 さらに,スーパーポイントの意味的アライメントを実現することにより,複数のスケールで意味的手がかりをキャプチャする表現をさらに促進する,新しいプリテキストタスクを導入する。 さらに、動的点雲の時間次元における高い冗長性のため、点レベルで直接的に対照的な学習を行うと、大きめの望ましくない負と正の表現のモデリングが不十分になる。 そこで本研究では,適切な負を保ち,他のインスタンスからの類似度の高いサンプルを正のサプリメントとして利用する選択戦略を提案する。 広範囲にわたる実験により,提案手法は下流タスクにおいて教師付きタスクよりも優れており,学習した表現の転送性が優れていることが示された。

We propose a unified point cloud video self-supervised learning framework for object-centric and scene-centric data. Previous methods commonly conduct representation learning at the clip or frame level and cannot well capture fine-grained semantics. Instead of contrasting the representations of clips or frames, in this paper, we propose a unified self-supervised framework by conducting contrastive learning at the point level. Moreover, we introduce a new pretext task by achieving semantic alignment of superpoints, which further facilitates the representations to capture semantic cues at multiple scales. In addition, due to the high redundancy in the temporal dimension of dynamic point clouds, directly conducting contrastive learning at the point level usually leads to massive undesired negatives and insufficient modeling of positive representations. To remedy this, we propose a selection strategy to retain proper negatives and make use of high-similarity samples from other instances as positive supplements. Extensive experiments show that our method outperforms supervised counterparts on a wide range of downstream tasks and demonstrates the superior transferability of the learned representations.
翻訳日:2023-08-21 14:54:49 公開日:2023-08-18
# 点雲ビデオにおける自己教師あり学習のためのマスキング時空間構造予測

Masked Spatio-Temporal Structure Prediction for Self-supervised Learning on Point Cloud Videos ( http://arxiv.org/abs/2308.09245v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Xiaoxiao Sheng and Hehe Fan and Longguang Wang and Yulan Guo and Qiong Liu and Hao Wen and Xi Zhou(参考訳) 近年,大量のラベル付きデータから学習するポイントクラウドビデオ理解のための効果的な手法の開発に,コミュニティは大きな進歩を遂げている。 しかし、注釈付きクラウドビデオは通常高価である。 さらに、1つまたは少数の伝統的なタスク(例えば分類)によるトレーニングは、ポイントクラウドビデオに存在する時空間構造の微妙な詳細を学ぶには不十分である。 本稿では,人間のアノテーションを使わずにポイントクラウドビデオの構造をキャプチャするMasked Spatio-Temporal Structure Prediction (MaST-Pre)法を提案する。 MaST-Preは時空間のポイントチューブマスキングに基づいており、2つの自己教師型学習タスクで構成されている。 まず,マスクした点管を再構成することにより,点雲映像の出現情報を捉えることができる。 次に,動きを学習するために,点管内の点数の変化を推定する時間濃度差予測タスクを提案する。 このようにして、MaST-Preは点雲ビデオの空間構造と時間構造をモデル化せざるを得ない。 MSRAction-3D, NTU-RGBD, NvGesture, SHREC'17の大規模実験により提案手法の有効性が示された。

Recently, the community has made tremendous progress in developing effective methods for point cloud video understanding that learn from massive amounts of labeled data. However, annotating point cloud videos is usually notoriously expensive. Moreover, training via one or only a few traditional tasks (e.g., classification) may be insufficient to learn subtle details of the spatio-temporal structure existing in point cloud videos. In this paper, we propose a Masked Spatio-Temporal Structure Prediction (MaST-Pre) method to capture the structure of point cloud videos without human annotations. MaST-Pre is based on spatio-temporal point-tube masking and consists of two self-supervised learning tasks. First, by reconstructing masked point tubes, our method is able to capture the appearance information of point cloud videos. Second, to learn motion, we propose a temporal cardinality difference prediction task that estimates the change in the number of points within a point tube. In this way, MaST-Pre is forced to model the spatial and temporal structure in point cloud videos. Extensive experiments on MSRAction-3D, NTU-RGBD, NvGesture, and SHREC'17 demonstrate the effectiveness of the proposed method.
翻訳日:2023-08-21 14:54:27 公開日:2023-08-18
# CARLA:時系列異常検出のための自己教師付きコントラスト表現学習手法

CARLA: A Self-supervised Contrastive Representation Learning Approach for Time Series Anomaly Detection ( http://arxiv.org/abs/2308.09296v1 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Mahsa Salehi(参考訳) 本稿では,一変量時系列データと多変量時系列データの両方において異常パターンを識別する手法として,時間系列異常検出のための自己教師付きコントラスト表現学習アプローチ(CARLA)を提案する。 対照的な表現学習を生かして、一変量および多変量時系列データの異常パターンを特定するために、革新的なエンドツーエンドの自己教師型ディープラーニングフレームワークを慎重に開発する。 コントラスト表現学習を活用することで、CARLAは時系列ウィンドウのロバスト表現を効果的に生成する。 それはこれを達成する 1) 時間的に閉じた窓の類似表現と窓とそれに相当する異常な窓の異種表現を学習すること。 2) ウィンドウの正規/非正規表現を,その表現空間における最も近い/少ない隣人に基づいて分類する自己教師型アプローチを採用する。 既存のモデルのほとんどは、通常の振る舞いの学習に重点を置いている。 正規境界はしばしば厳密に定義され、わずかな偏差が異常として分類され、高い偽陽性率と正規パターンを一般化する能力が制限される。 カーラの対照的な学習手法は、高度に一貫性があり差別的な予測を生み出すことを促進し、時系列データにおける異常検出に関連する本質的な課題を適切に解決できるようにする。 CARLAは、7つの標準的な実世界の時系列異常検出ベンチマークデータセットの広範な実験を通じて、既存の最先端結果よりもF1とAU-PRが優れていることを示した。 本研究は,時系列異常検出の分野におけるコントラスト表現学習の膨大な可能性を浮き彫りにしている。

We introduce a Self-supervised Contrastive Representation Learning Approach for Time Series Anomaly Detection (CARLA), an innovative end-to-end self-supervised framework carefully developed to identify anomalous patterns in both univariate and multivariate time series data. By taking advantage of contrastive representation learning, We introduce an innovative end-to-end self-supervised deep learning framework carefully developed to identify anomalous patterns in both univariate and multivariate time series data. By taking advantage of contrastive representation learning, CARLA effectively generates robust representations for time series windows. It achieves this by 1) learning similar representations for temporally close windows and dissimilar representations for windows and their equivalent anomalous windows and 2) employing a self-supervised approach to classify normal/anomalous representations of windows based on their nearest/furthest neighbours in the representation space. Most of the existing models focus on learning normal behaviour. The normal boundary is often tightly defined, which can result in slight deviations being classified as anomalies, resulting in a high false positive rate and limited ability to generalise normal patterns. CARLA's contrastive learning methodology promotes the production of highly consistent and discriminative predictions, thereby empowering us to adeptly address the inherent challenges associated with anomaly detection in time series data. Through extensive experimentation on 7 standard real-world time series anomaly detection benchmark datasets, CARLA demonstrates F1 and AU-PR superior to existing state-of-the-art results. Our research highlights the immense potential of contrastive representation learning in advancing the field of time series anomaly detection, thus paving the way for novel applications and in-depth exploration in this domain.
翻訳日:2023-08-21 14:49:07 公開日:2023-08-18
# マイナショットセグメンテーションのための自己調整クロスアテンションネットワーク

Self-Calibrated Cross Attention Network for Few-Shot Segmentation ( http://arxiv.org/abs/2308.09294v1 )

ライセンス: Link先を確認
Qianxiong Xu, Wenting Zhao, Guosheng Lin, Cheng Long(参考訳) 少数ショットセグメンテーション(FSS)の成功の鍵は、効果的にサポートサンプルを利用する方法にある。 ほとんどのソリューションはforeground(fg)機能をプロトタイプに圧縮するが、空間的な詳細は失われる。 代わりに、非圧縮サポートFGのヒューズクエリ機能にクロスアテンションを使用する人もいる。 クエリ FG は FG のサポートと混同される可能性があるが、クエリバックグラウンド (BG) は FG のサポートにマッチした BG 機能を見つけることはできない。 さらに、クエリFGとBGの両方がサポートFGと結合されると、それらが絡み合って、非効率なセグメンテーションにつながる。 これらの問題に対処するために,我々は自己校正型クロスアテンション(SCCA)ブロックを設計する。 効率的なパッチベースの注目のために、クエリとサポート機能はまずパッチに分割される。 次に、各クエリパッチを最もよく似たサポートパッチと整合させるパッチアライメントモジュールを設計し、クロスアテンションを改善する。 具体的には、SCCAはクエリパッチをQとして、同じクエリイメージからパッチをグループ化し、サポートイメージからK&Vとしてアライメントパッチをグループ化する。 このようにして、クエリBG機能は(クエリパッチから)マッチしたBG機能と融合するので、上記の問題は軽減される。 さらに,SCCAの計算において,類似性計算のためのサポート機能をよりよく活用するスケールコサイン機構を設計する。 PASCAL-5^i と COCO-20^i で行った大規模な実験では,COCO-20^i の5ショット条件下でのmIoU スコアが従来の最先端よりも5.6%以上向上した。 コードはhttps://github.com/Sam1224/SCCANで公開されている。

The key to the success of few-shot segmentation (FSS) lies in how to effectively utilize support samples. Most solutions compress support foreground (FG) features into prototypes, but lose some spatial details. Instead, others use cross attention to fuse query features with uncompressed support FG. Query FG could be fused with support FG, however, query background (BG) cannot find matched BG features in support FG, yet inevitably integrates dissimilar features. Besides, as both query FG and BG are combined with support FG, they get entangled, thereby leading to ineffective segmentation. To cope with these issues, we design a self-calibrated cross attention (SCCA) block. For efficient patch-based attention, query and support features are firstly split into patches. Then, we design a patch alignment module to align each query patch with its most similar support patch for better cross attention. Specifically, SCCA takes a query patch as Q, and groups the patches from the same query image and the aligned patches from the support image as K&V. In this way, the query BG features are fused with matched BG features (from query patches), and thus the aforementioned issues will be mitigated. Moreover, when calculating SCCA, we design a scaled-cosine mechanism to better utilize the support features for similarity calculation. Extensive experiments conducted on PASCAL-5^i and COCO-20^i demonstrate the superiority of our model, e.g., the mIoU score under 5-shot setting on COCO-20^i is 5.6%+ better than previous state-of-the-arts. The code is available at https://github.com/Sam1224/SCCAN.
翻訳日:2023-08-21 14:48:39 公開日:2023-08-18
# ニューラル演算子の特殊変換はどの程度重要か?

How important are specialized transforms in Neural Operators? ( http://arxiv.org/abs/2308.09293v1 )

ライセンス: Link先を確認
Ritam Majumdar, Shirish Karande, Lovekesh Vig(参考訳) 偏微分方程式(PDE)を用いた物理系のシミュレーションは、現代の産業プロセス最適化において不可欠である。 伝統的に、数値解法は関連するPDEを解くために用いられてきたが、最近、フーリエニューラル演算子やウェーブレットニューラル演算子のような変換ベースのニューラル演算子は、PDEのシステムに高速な解を提供する可能性について多くの注目を集めている。 本研究は,変換型ニューラル演算子の報告された成功に対する変換層の重要性について検討する。 特に、すべての変換層が学習可能な線形層に置き換えられた場合、パフォーマンスの観点からコストを記録する。 驚いたことに、線形層は最もよく知られた変換ベースの層に匹敵する性能を提供するのに十分である。 この観察は、神経オペレーターの今後の作業に重大な影響を与える可能性があると信じており、これらのアーキテクチャの他の効率の源を指摘するかもしれない。

Simulating physical systems using Partial Differential Equations (PDEs) has become an indispensible part of modern industrial process optimization. Traditionally, numerical solvers have been used to solve the associated PDEs, however recently Transform-based Neural Operators such as the Fourier Neural Operator and Wavelet Neural Operator have received a lot of attention for their potential to provide fast solutions for systems of PDEs. In this work, we investigate the importance of the transform layers to the reported success of transform based neural operators. In particular, we record the cost in terms of performance, if all the transform layers are replaced by learnable linear layers. Surprisingly, we observe that linear layers suffice to provide performance comparable to the best-known transform-based layers and seem to do so with a compute time advantage as well. We believe that this observation can have significant implications for future work on Neural Operators, and might point to other sources of efficiencies for these architectures.
翻訳日:2023-08-21 14:48:10 公開日:2023-08-18
# 推薦のためのグラフに基づくアライメントと一様性

Graph-based Alignment and Uniformity for Recommendation ( http://arxiv.org/abs/2308.09292v1 )

ライセンス: Link先を確認
Liangwei Yang, Zhiwei Liu, Chen Wang, Mingdai Yang, Xiaolong Liu, Jing Ma, Philip S. Yu(参考訳) 協調フィルタリングに基づく推薦システム(RecSys)は、ユーザの好みを正確に予測するための学習表現に依存している。 超球面での表現学習は、アライメントや一様性といった望ましい性質のため、有望なアプローチである。 しかし、RecSysと出会うと、余分な問題が生じる。 この問題に対処するために,ユーザ・イテム二部グラフの高次連結性を明示的に考慮したグラフベースのアライメントと均一性(GraphAU)という新しいアプローチを提案する。 graphauは、近所のアグリゲータを使用して、高次の隣人の密集したベクトル表現にユーザー/テーマ埋め込みをアライメントし、個々の高次近所への負担の多いアライメントを計算する必要をなくす。 アライメント損失の相違に対処するため、GraphAUはアライメント損失を階層的に統合するレイヤワイドアライメントプーリングモジュールを含んでいる。 4つのデータセットの実験によると、GraphAUはスパーシリティの問題を大幅に軽減し、最先端のパフォーマンスを達成する。 GraphAUはhttps://github.com/YangLiangwei/GraphAUでオープンソース化しました。

Collaborative filtering-based recommender systems (RecSys) rely on learning representations for users and items to predict preferences accurately. Representation learning on the hypersphere is a promising approach due to its desirable properties, such as alignment and uniformity. However, the sparsity issue arises when it encounters RecSys. To address this issue, we propose a novel approach, graph-based alignment and uniformity (GraphAU), that explicitly considers high-order connectivities in the user-item bipartite graph. GraphAU aligns the user/item embedding to the dense vector representations of high-order neighbors using a neighborhood aggregator, eliminating the need to compute the burdensome alignment to high-order neighborhoods individually. To address the discrepancy in alignment losses, GraphAU includes a layer-wise alignment pooling module to integrate alignment losses layer-wise. Experiments on four datasets show that GraphAU significantly alleviates the sparsity issue and achieves state-of-the-art performance. We open-source GraphAU at https://github.com/YangLiangwei/GraphAU.
翻訳日:2023-08-21 14:47:51 公開日:2023-08-18
# PDEのためのHyperLoRA

HyperLoRA for PDEs ( http://arxiv.org/abs/2308.09290v1 )

ライセンス: Link先を確認
Ritam Majumdar, Vishal Jadhav, Anirudh Deodhar, Shirish Karande, Lovekesh Vig, Venkataramana Runkana(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式の解に対するニューラルネットワークの開発に広く用いられている。 PINNの欠点は、初期境界条件やPDE係数の変化に応じて再訓練する必要があることである。 モデルベースのメタ学習技術であるHypernetworkは、パラメータ化されたタスクを入力として埋め込み、PINNの重みを出力として予測する。 しかし、ニューラルネットワークの重み予測は高次元回帰問題であり、ハイパーネットは大きなベースネットワークのパラメータを予測しながら準最適に実行する。 この問題を回避するために、ベースネットワークの各層を低ランクテンソルに分解し、ハイパーネットワークを用いて低ランクテンソルを予測するために低ランク適応(lora)式を用いる。 結果として生じる重量減少問題の次元性の低下にもかかわらず、LoRAベースのHypernetworksは与えられたタスクの基礎となる物理に反する。 我々は,LoRAに基づくハイパーネットの一般化能力が,制御微分方程式を満たすために,追加の物理インフォームド損失成分(HyperPINN)をトレーニングすることで大幅に向上することが実証された。 loraベースのハイパーピントレーニングにより、バーガー方程式やnavier stokesのようなパラメータ化されたpdesの高速解を学習できる。 kovasznayフローは、他のすべてのベースラインと比較して精度を損なうことなく平均8倍の予測パラメータを削減できる。

Physics-informed neural networks (PINNs) have been widely used to develop neural surrogates for solutions of Partial Differential Equations. A drawback of PINNs is that they have to be retrained with every change in initial-boundary conditions and PDE coefficients. The Hypernetwork, a model-based meta learning technique, takes in a parameterized task embedding as input and predicts the weights of PINN as output. Predicting weights of a neural network however, is a high-dimensional regression problem, and hypernetworks perform sub-optimally while predicting parameters for large base networks. To circumvent this issue, we use a low ranked adaptation (LoRA) formulation to decompose every layer of the base network into low-ranked tensors and use hypernetworks to predict the low-ranked tensors. Despite the reduced dimensionality of the resulting weight-regression problem, LoRA-based Hypernetworks violate the underlying physics of the given task. We demonstrate that the generalization capabilities of LoRA-based hypernetworks drastically improve when trained with an additional physics-informed loss component (HyperPINN) to satisfy the governing differential equations. We observe that LoRA-based HyperPINN training allows us to learn fast solutions for parameterized PDEs like Burger's equation and Navier Stokes: Kovasznay flow, while having an 8x reduction in prediction parameters on average without compromising on accuracy when compared to all other baselines.
翻訳日:2023-08-21 14:47:29 公開日:2023-08-18
# ゲームテストのための選好条件付きピクセルベースaiエージェント

Preference-conditioned Pixel-based AI Agent For Game Testing ( http://arxiv.org/abs/2308.09289v1 )

ライセンス: Link先を確認
Sherif Abdelfattah, Adrian Brown, Pushi Zhang(参考訳) ゲーム産業は、リリースゲームの品質基準を許容しつつ、需要の増加とゲームの複雑さに対処することが課題となっている。 古典的なアプローチは、品質保証とゲームテストのための人間の努力にのみ依存し、時間とコストの面で効果的にスケールしない。 環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を時間とコストで優れたスケーラビリティ特性で軽減する可能性がある。 しかし、この方向の最近の作業は、異なるゲームシナリオの一般化を制限するエージェントの状態表現のためのゲーム状態情報に依存する。 さらに、ゲームテストエンジニアは通常、ゴールデンパスを探索するなど、特定のスタイルでゲームを探索することを好む。 しかし、現在のゲームテストAIエージェントは、そのような好みを満たす明確な方法を提供していない。 本稿では,実演軌跡によって規定されたユーザの嗜好に基づく環境を探索しながら,主に画素ベースの状態観察に依存するエージェント設計を提案する。 さらに,模倣行動の質を高めるために,自己指導的かつ指導的学習目標を結合する模倣学習手法を提案する。 本エージェントは,実際のaaaゲームに類似した複雑なオープンワールド環境において,探索カバレッジやテスト実行品質よりも,最先端のピクセルベースのゲームテストエージェントを著しく上回っている。

The game industry is challenged to cope with increasing growth in demand and game complexity while maintaining acceptable quality standards for released games. Classic approaches solely depending on human efforts for quality assurance and game testing do not scale effectively in terms of time and cost. Game-testing AI agents that learn by interaction with the environment have the potential to mitigate these challenges with good scalability properties on time and costs. However, most recent work in this direction depends on game state information for the agent's state representation, which limits generalization across different game scenarios. Moreover, game test engineers usually prefer exploring a game in a specific style, such as exploring the golden path. However, current game testing AI agents do not provide an explicit way to satisfy such a preference. This paper addresses these limitations by proposing an agent design that mainly depends on pixel-based state observations while exploring the environment conditioned on a user's preference specified by demonstration trajectories. In addition, we propose an imitation learning method that couples self-supervised and supervised learning objectives to enhance the quality of imitation behaviors. Our agent significantly outperforms state-of-the-art pixel-based game testing agents over exploration coverage and test execution quality when evaluated on a complex open-world environment resembling many aspects of real AAA games.
翻訳日:2023-08-21 14:47:04 公開日:2023-08-18
# RFDforFin:GAN生成指紋画像のロバスト深部偽造検出

RFDforFin: Robust Deep Forgery Detection for GAN-generated Fingerprint Images ( http://arxiv.org/abs/2308.09285v1 )

ライセンス: Link先を確認
Hui Miao, Yuanfang Guo and Yunhong Wang(参考訳) 画像生成技術の急速な発展に伴い、GAN生成指紋画像の悪用は、特定の状況において公衆の安全に重大な脅威をもたらす。 既存のユニバーサルディープ偽造検出手法は偽の指紋画像の検出に応用できるが、容易に攻撃され、堅牢性に乏しい。 一方,指紋画像の深部偽造検出法は特に設計されていない。 本稿では, 指紋のユニークなリッジ特徴とgan生成画像の生成成果物を組み合わせた, 指紋画像に対する最初の深い偽造検出手法を提案する。 具体的にはまず,尾根に沿った灰色変化を利用して特異な指紋特徴を抽出するリッジストリームを構築した。 次に、入力指紋画像のfftに基づくスペクトルを活用した生成アーチファクトストリームを構築し、より堅牢な生成アーチファクト特徴を抽出する。 最後に、ユニークなリッジ機能と生成アーティファクト機能はバイナリ分類のために融合される(\textit{i.e}, real or fake)。 包括的実験により,提案手法は低複雑性で有効かつ堅牢であることが示された。

With the rapid development of the image generation technologies, the malicious abuses of the GAN-generated fingerprint images poses a significant threat to the public safety in certain circumstances. Although the existing universal deep forgery detection approach can be applied to detect the fake fingerprint images, they are easily attacked and have poor robustness. Meanwhile, there is no specifically designed deep forgery detection method for fingerprint images. In this paper, we propose the first deep forgery detection approach for fingerprint images, which combines unique ridge features of fingerprint and generation artifacts of the GAN-generated images, to the best of our knowledge. Specifically, we firstly construct a ridge stream, which exploits the grayscale variations along the ridges to extract unique fingerprint-specific features. Then, we construct a generation artifact stream, in which the FFT-based spectrums of the input fingerprint images are exploited, to extract more robust generation artifact features. At last, the unique ridge features and generation artifact features are fused for binary classification (\textit{i.e.}, real or fake). Comprehensive experiments demonstrate that our proposed approach is effective and robust with low complexities.
翻訳日:2023-08-21 14:46:43 公開日:2023-08-18
# 半スーパービジョンの強いセグメンタを作るディバースコトレーニング

Diverse Cotraining Makes Strong Semi-Supervised Segmentor ( http://arxiv.org/abs/2308.09281v1 )

ライセンス: Link先を確認
Yijiang Li, Xinjiang Wang, Lihe Yang, Litong Feng, Wayne Zhang and Ying Gao(参考訳) 半教師付きセグメンテーションにディープコトレーニングが導入され、印象的な結果が得られたが、その背後にある作業メカニズムを探求した研究はほとんどない。 この作業では、コトレーニングをサポートするコア仮定を再検討する: 複数の互換性と条件付き独立したビュー。 理論上界を導出することにより、2つのモデルの予測類似性がモデルの一般化能力に悪影響を及ぼすことを示す。 しかし、現在のコトレーニングモデルのほとんどは密結合であり、この仮定に違反している。 このような結合はネットワークの均質化と確認バイアスをもたらし、結果として性能が制限される。 この目的のために,共学習の異なる次元を探索し,入力領域の側面から多様性を体系的に増やし,相同化を相殺するモデルアーキテクチャを提案する。 我々のDiverse Co-trainingは、PascalとCityscapesの異なる評価プロトコルにまたがって、最先端のSOTA(State-of-the-art)手法よりも優れています。 例えば。 我々はpascalにおいて76.2%,77.7%,80.2%のベストmiouを達成し,92,183,366のラベル付き画像しか得られなかった。

Deep co-training has been introduced to semi-supervised segmentation and achieves impressive results, yet few studies have explored the working mechanism behind it. In this work, we revisit the core assumption that supports co-training: multiple compatible and conditionally independent views. By theoretically deriving the generalization upper bound, we prove the prediction similarity between two models negatively impacts the model's generalization ability. However, most current co-training models are tightly coupled together and violate this assumption. Such coupling leads to the homogenization of networks and confirmation bias which consequently limits the performance. To this end, we explore different dimensions of co-training and systematically increase the diversity from the aspects of input domains, different augmentations and model architectures to counteract homogenization. Our Diverse Co-training outperforms the state-of-the-art (SOTA) methods by a large margin across different evaluation protocols on the Pascal and Cityscapes. For example. we achieve the best mIoU of 76.2%, 77.7% and 80.2% on Pascal with only 92, 183 and 366 labeled images, surpassing the previous best results by more than 5%.
翻訳日:2023-08-21 14:46:26 公開日:2023-08-18
# DiffLLE: 教師なし低照度画像強調のための拡散誘導領域校正

DiffLLE: Diffusion-guided Domain Calibration for Unsupervised Low-light Image Enhancement ( http://arxiv.org/abs/2308.09279v1 )

ライセンス: Link先を確認
Shuzhou Yang and Xuanyu Zhang and Yinhuai Wang and Jiwen Yu and Yuhan Wang and Jian Zhang(参考訳) 既存の教師なし低照度画像強調法は、実用上十分な有効性と一般化を欠いている。 これは明示的な監督の欠如と、現実世界のシナリオとトレーニングデータドメインとの間に固有のギャップがあるためだと思います。 本稿では,より堅牢で効果的で教師なしな低光度エンハンスメントを実現するために拡散型領域校正法(difflle)を開発した。 拡散モデルは印象的な復調能力を発揮し,大規模なクリーンイメージで訓練されているので,教師なしモデルに対して,実世界のコンテンツに対する効率的な事前情報を提供しながら,実光領域とトレーニング劣化領域のギャップを埋めるために採用する。 具体的には,事前復元を実現するため,非教師なし拡張アルゴリズムを適用し,拡散モデルに基づく2つのゼロショットプラグアンドプレイモジュールの設計を行い,一般化と有効性を向上させる。 Diffusion-Guided Degradation Calibration (DDC)モジュールは、拡散型ドメインキャリブレーションと光度向上曲線により、現実世界と低光度劣化の訓練のギャップを狭め、高度な荒野劣化においても堅牢に機能する。 教師なしモデルの強化効果が限定されているため、より視覚に優しい解空間を見つけるために、より微細なターゲットドメイン蒸留(FTD)モジュールを開発する。 事前訓練された拡散モデルの先行性を利用して擬似参照を生成し、粗い正規光領域からより高品質なクリーンフィールドへの予備的な復元結果を縮小し、教師なし手法に対する強い明示的な監督の欠如に対処する。 この手法は, 単純な教師なしベースラインのみを用いることで, 教師付き手法よりも優れる。 広範な実験により,提案手法の有効性が示された。

Existing unsupervised low-light image enhancement methods lack enough effectiveness and generalization in practical applications. We suppose this is because of the absence of explicit supervision and the inherent gap between real-world scenarios and the training data domain. In this paper, we develop Diffusion-based domain calibration to realize more robust and effective unsupervised Low-Light Enhancement, called DiffLLE. Since the diffusion model performs impressive denoising capability and has been trained on massive clean images, we adopt it to bridge the gap between the real low-light domain and training degradation domain, while providing efficient priors of real-world content for unsupervised models. Specifically, we adopt a naive unsupervised enhancement algorithm to realize preliminary restoration and design two zero-shot plug-and-play modules based on diffusion model to improve generalization and effectiveness. The Diffusion-guided Degradation Calibration (DDC) module narrows the gap between real-world and training low-light degradation through diffusion-based domain calibration and a lightness enhancement curve, which makes the enhancement model perform robustly even in sophisticated wild degradation. Due to the limited enhancement effect of the unsupervised model, we further develop the Fine-grained Target domain Distillation (FTD) module to find a more visual-friendly solution space. It exploits the priors of the pre-trained diffusion model to generate pseudo-references, which shrinks the preliminary restored results from a coarse normal-light domain to a finer high-quality clean field, addressing the lack of strong explicit supervision for unsupervised methods. Benefiting from these, our approach even outperforms some supervised methods by using only a simple unsupervised baseline. Extensive experiments demonstrate the superior effectiveness of the proposed DiffLLE.
翻訳日:2023-08-21 14:46:05 公開日:2023-08-18
# MATLABER: BRDFオートエンコーダによるテキストから3Dへの素材認識

MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR ( http://arxiv.org/abs/2308.09278v1 )

ライセンス: Link先を確認
Xudong Xu, Zhaoyang Lyu, Xingang Pan, Bo Dai(参考訳) 強力なテキストから画像への拡散モデルに基づいて、テキストから3d生成は説得力のある幾何学と外観を生み出す上で大きな進歩を遂げている。 しかし、既存の手法は、ランバート反射率のみを考慮するか、環境光からBRDF材料を遠ざけないか、高忠実度物体の回収に苦慮している。 本研究では,新しい潜在BRDFオートエンコーダを素材生成に活用した,LAtent BRDF auto-EncodeR (\textbf{MATLABER}) によるMaterial-Aware Text-to-3Dを提案する。 我々は,このオートエンコーダを大規模実世界のBRDFコレクションでトレーニングし,素材の自然な分布として暗黙的に作用する潜伏空間の滑らかさを確保する。 テキスト・ツー・3D生成における外観モデリングでは、BRDFパラメータではなく、潜在BRDF埋め込みが物質ネットワークを介して予測される。 徹底的な実験を通じて,本手法は,現実的かつコヒーレントな物体材料の生成において,既存のものよりも優れていることを示す。 さらに、高品質な材料は、自然にリライトや素材編集のような複数の下流タスクを可能にします。 コードとモデルは、 \url{https://sheldontsui.github.io/projects/Matlaber}で公開される。

Based on powerful text-to-image diffusion models, text-to-3D generation has made significant progress in generating compelling geometry and appearance. However, existing methods still struggle to recover high-fidelity object materials, either only considering Lambertian reflectance, or failing to disentangle BRDF materials from the environment lights. In this work, we propose Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR (\textbf{MATLABER}) that leverages a novel latent BRDF auto-encoder for material generation. We train this auto-encoder with large-scale real-world BRDF collections and ensure the smoothness of its latent space, which implicitly acts as a natural distribution of materials. During appearance modeling in text-to-3D generation, the latent BRDF embeddings, rather than BRDF parameters, are predicted via a material network. Through exhaustive experiments, our approach demonstrates the superiority over existing ones in generating realistic and coherent object materials. Moreover, high-quality materials naturally enable multiple downstream tasks such as relighting and material editing. Code and model will be publicly available at \url{https://sheldontsui.github.io/projects/Matlaber}.
翻訳日:2023-08-21 14:45:34 公開日:2023-08-18
# E-Commerce Query Intent 分類のための生成言語モデリングによる検索精度の向上

Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent Classification ( http://arxiv.org/abs/2308.09308v1 )

ライセンス: Link先を確認
Chenyu Zhao, Yunjiang Jiang, Yiming Qiu, Han Zhang, Wen-Yun Yang(参考訳) 知識検索と外部コーパスによる下流モデルを強化し,単にモデルパラメータの数を増大させるだけでなく,テキスト分類や質問応答など多くの自然言語処理(NLP)タスクにもうまく適用されている。 しかしながら、レトリバーと下流モデルを別々にあるいは非同期にトレーニングする既存の方法は、主に2つの部分間の非微分性のため、通常、エンドツーエンドのジョイントトレーニングと比較して性能が劣化する。

Retrieval augmentation, which enhances downstream models by a knowledge retriever and an external corpus instead of by merely increasing the number of model parameters, has been successfully applied to many natural language processing (NLP) tasks such as text classification, question answering and so on. However, existing methods that separately or asynchronously train the retriever and downstream model mainly due to the non-differentiability between the two parts, usually lead to degraded performance compared to end-to-end joint training.
翻訳日:2023-08-21 14:37:59 公開日:2023-08-18
# コントラスト学習と教師なしクラスタリングによる画像偽造検出の再考

Rethinking Image Forgery Detection via Contrastive Learning and Unsupervised Clustering ( http://arxiv.org/abs/2308.09307v1 )

ライセンス: Link先を確認
Haiwei Wu and Yiming Chen and Jiantao Zhou(参考訳) 画像偽造検出は、画像内の偽造領域の検出と検出を目的としている。 既存の偽造検出アルゴリズムの多くは、ピクセルを鍛造またはプリシンに分類する分類問題を定式化している。 しかし、鍛造画素とプリスティーヌ画素の定義は、1つの画像内でのみ相対的であり、例えば、画像aの鍛造領域はそのソース画像bのプリスティーヌ画素である(スプライシング偽造)。 このような相対的な定義は、異なる画像にまたがる(プリスティン)領域を同じカテゴリに不必要に混合する既存の方法によってひどく見過ごされている。 このジレンマを解決するために,画像偽造検出のためのコントラスト学習と教師なしクラスタリングに基づく,新しい,シンプルかつ極めて効果的なパラダイムであるFOCAL法を提案する。 具体的には 焦点は 1) 画素レベルのコントラスト学習を利用して,上述の相対的定義を明示的に反映した画像ごとの高レベルの法定特徴抽出を監督する。 2)オンザフライの非教師なしクラスタリングアルゴリズム(トレーニング対象ではなく)を使用して,学習した機能を鍛造/プライスチンカテゴリにクラスタリングし,トレーニングデータからのクロスイメージの影響をさらに抑制する。 3)再トレーニングを必要とせず,単純な機能レベルの結合によって検出性能をさらに向上させることができる。 6つの公開テストデータセットにおける広範な実験結果から,提案手法は,カバレッジが24.3%,コロンビアが+18.6%,ff++が+17.5%,misdが+14.2%,casiaが+13.5%,iouが+10.3%という,最先端のアルゴリズムを大幅に上回っています。 focalのパラダイムは新鮮な洞察をもたらし、画像偽造検出タスクの新しいベンチマークとなるかもしれない。 コードはhttps://github.com/HighwayWu/FOCALで公開されている。

Image forgery detection aims to detect and locate forged regions in an image. Most existing forgery detection algorithms formulate classification problems to classify pixels into forged or pristine. However, the definition of forged and pristine pixels is only relative within one single image, e.g., a forged region in image A is actually a pristine one in its source image B (splicing forgery). Such a relative definition has been severely overlooked by existing methods, which unnecessarily mix forged (pristine) regions across different images into the same category. To resolve this dilemma, we propose the FOrensic ContrAstive cLustering (FOCAL) method, a novel, simple yet very effective paradigm based on contrastive learning and unsupervised clustering for the image forgery detection. Specifically, FOCAL 1) utilizes pixel-level contrastive learning to supervise the high-level forensic feature extraction in an image-by-image manner, explicitly reflecting the above relative definition; 2) employs an on-the-fly unsupervised clustering algorithm (instead of a trained one) to cluster the learned features into forged/pristine categories, further suppressing the cross-image influence from training data; and 3) allows to further boost the detection performance via simple feature-level concatenation without the need of retraining. Extensive experimental results over six public testing datasets demonstrate that our proposed FOCAL significantly outperforms the state-of-the-art competing algorithms by big margins: +24.3% on Coverage, +18.6% on Columbia, +17.5% on FF++, +14.2% on MISD, +13.5% on CASIA and +10.3% on NIST in terms of IoU. The paradigm of FOCAL could bring fresh insights and serve as a novel benchmark for the image forgery detection task. The code is available at https://github.com/HighwayWu/FOCAL.
翻訳日:2023-08-21 14:37:50 公開日:2023-08-18
# DiffDis: クロスモーダル識別機能を備えた生成拡散モデル

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability ( http://arxiv.org/abs/2308.09306v1 )

ライセンス: Link先を確認
Runhui Huang, Jianhua Han, Guansong Lu, Xiaodan Liang, Yihan Zeng, Wei Zhang, Hang Xu(参考訳) 近年,安定拡散やdalle2などの大規模拡散モデルが画像合成において顕著な結果を示している。 一方、大規模クロスモーダル事前訓練モデル(CLIP、ALIGN、FILIPなど)は、視覚と言語埋め込みの整合を学習することで、様々な下流タスクに適している。 本稿では,生成と識別を共同でモデル化する可能性について検討する。 具体的には, 拡散過程下の1つのフレームワークに, クロスモーダル生成と判別前訓練を統合するdiffdisを提案する。 DiffDisはまず、画像上に条件付きテキストエンコーダから埋め込まれたテキストの生成拡散過程として画像テキスト識別問題を定式化する。 そこで本研究では,様々なスケールの潜在画像の知識と雑音の多いテキスト埋め込みを融合して画像識別学習を行う,新しいデュアルストリームネットワークアーキテクチャを提案する。 また、生成および判別タスクは、マルチモダリティモデルにおいて、画像分岐ネットワーク構造を効率的に共有することができる。 DiffDisは拡散ベースの統一トレーニングから恩恵を受け、一つのアーキテクチャでより良い生成能力と相互の意味的アライメントを達成する。 実験の結果、DiffDisは画像生成と画像テキスト識別の両タスクにおいて、ゼロショット分類の平均精度が1.65%向上し、ゼロショット画像合成のFIDが2.42改善された。

Recently, large-scale diffusion models, e.g., Stable diffusion and DallE2, have shown remarkable results on image synthesis. On the other hand, large-scale cross-modal pre-trained models (e.g., CLIP, ALIGN, and FILIP) are competent for various downstream tasks by learning to align vision and language embeddings. In this paper, we explore the possibility of jointly modeling generation and discrimination. Specifically, we propose DiffDis to unify the cross-modal generative and discriminative pretraining into one single framework under the diffusion process. DiffDis first formulates the image-text discriminative problem as a generative diffusion process of the text embedding from the text encoder conditioned on the image. Then, we propose a novel dual-stream network architecture, which fuses the noisy text embedding with the knowledge of latent images from different scales for image-text discriminative learning. Moreover, the generative and discriminative tasks can efficiently share the image-branch network structure in the multi-modality model. Benefiting from diffusion-based unified training, DiffDis achieves both better generation ability and cross-modal semantic alignment in one architecture. Experimental results show that DiffDis outperforms single-task models on both the image generation and the image-text discriminative tasks, e.g., 1.65% improvement on average accuracy of zero-shot classification over 12 datasets and 2.42 improvement on FID of zero-shot image synthesis.
翻訳日:2023-08-21 14:37:12 公開日:2023-08-18
# 手話認識のための部分的3次元動作文脈学習

Human Part-wise 3D Motion Context Learning for Sign Language Recognition ( http://arxiv.org/abs/2308.09305v1 )

ライセンス: Link先を確認
Taeryung Lee, Yeonguk Oh, Kyoung Mu Lee(参考訳) 本稿では,手話認識のための人間の部分的動作コンテキスト学習フレームワークp3dを提案する。 我々の主な貢献は、パートワイズ動作の文脈を学習し、ポーズアンサンブルを用いて2Dと3Dのポーズを併用することである。 まず,経験的観察から,部分的文脈エンコーディングは手話認識の性能に有益であることが示唆された。 従来の手話認識手法では、ポーズ全体のシーケンスから動きコンテキストを学習していたが、これらの手法は部分固有の動きコンテキストを活用できない。 パートワイズ動作コンテキストを利用するために,パートワイズ符号化トランスフォーマ(PET)と全ボディ符号化トランスフォーマ(WET)の交互組み合わせを提案する。 PETは部分シーケンスから動作コンテキストをエンコードし、WETはそれらを統合コンテキストにマージする。 パートワイズ動作コンテキストを学習することにより,従来の最先端手法と比較してWLASLの性能が向上する。 第二に、私たちのフレームワークは手話認識のための2Dと3Dのポーズを初めてアンサンブルする。 3Dのポーズは単語を区別するためにリッチな動きコンテキストと深度情報を保持するため、我々のP3Dはポーズアンサンブルを用いた従来の最先端手法よりも優れていた。

In this paper, we propose P3D, the human part-wise motion context learning framework for sign language recognition. Our main contributions lie in two dimensions: learning the part-wise motion context and employing the pose ensemble to utilize 2D and 3D pose jointly. First, our empirical observation implies that part-wise context encoding benefits the performance of sign language recognition. While previous methods of sign language recognition learned motion context from the sequence of the entire pose, we argue that such methods cannot exploit part-specific motion context. In order to utilize part-wise motion context, we propose the alternating combination of a part-wise encoding Transformer (PET) and a whole-body encoding Transformer (WET). PET encodes the motion contexts from a part sequence, while WET merges them into a unified context. By learning part-wise motion context, our P3D achieves superior performance on WLASL compared to previous state-of-the-art methods. Second, our framework is the first to ensemble 2D and 3D poses for sign language recognition. Since the 3D pose holds rich motion context and depth information to distinguish the words, our P3D outperformed the previous state-of-the-art methods employing a pose ensemble.
翻訳日:2023-08-21 14:36:47 公開日:2023-08-18
# Mask と Visual Prompt Tuning による確率的ブラリータスク境界のオンライン授業増分学習

Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt Tuning ( http://arxiv.org/abs/2308.09303v1 )

ライセンス: Link先を確認
Jun-Yeong Moon, Keon-Hee Park, Jung Uk Kim and Gyeong-Moon Park(参考訳) 継続的学習は、連続したデータストリームからモデルを学ぶことを目的としているが、主に、明確なタスク境界を持つ固定数のデータとタスクを想定している。 しかし、実際のシナリオでは、入力データとタスクの数は常に統計的に変化しており、静的な方法ではない。 最近、ぼやけたタスク境界を持つインクリメンタルな学習シナリオが導入されているが、不一致とぼやけたサンプルの比率が一定であるため、実世界の状況の統計的特性を完全に反映していない。 本稿では,実世界の確率的特性を反映した,Si-Blurryと呼ばれる確率的漸進的Blurryタスク境界シナリオを提案する。 si-blurryシナリオには,(1)タスク間およびタスク内リテクションと(2)クラス不均衡の問題という2つの大きな課題がある。 それらを緩和するために、MaskとVisual Prompt tuning (MVP)を紹介します。 mvpでは,タスク間およびタスク内忘れる問題に対処するため,新しいインスタンス間ロジットマスキングと対照的な視覚的プロンプトチューニング損失を提案する。 どちらも、モデルが現在のバッチで学習すべきクラスを識別するのに役立ちます。 その結果、以前の知識が統合される。 さらに,クラス不均衡の問題を軽減するため,新しい勾配類似性に基づく焦点損失と適応的特徴スケーリングを導入し,主要クラスへの過度な適合とマイナークラスへの過度な適合を容易にする。 大規模な実験の結果,提案したMVPは,既存の最先端手法よりも優れた性能を示すことがわかった。

Continual learning aims to learn a model from a continuous stream of data, but it mainly assumes a fixed number of data and tasks with clear task boundaries. However, in real-world scenarios, the number of input data and tasks is constantly changing in a statistical way, not a static way. Although recently introduced incremental learning scenarios having blurry task boundaries somewhat address the above issues, they still do not fully reflect the statistical properties of real-world situations because of the fixed ratio of disjoint and blurry samples. In this paper, we propose a new Stochastic incremental Blurry task boundary scenario, called Si-Blurry, which reflects the stochastic properties of the real-world. We find that there are two major challenges in the Si-Blurry scenario: (1) inter- and intra-task forgettings and (2) class imbalance problem. To alleviate them, we introduce Mask and Visual Prompt tuning (MVP). In MVP, to address the inter- and intra-task forgetting issues, we propose a novel instance-wise logit masking and contrastive visual prompt tuning loss. Both of them help our model discern the classes to be learned in the current batch. It results in consolidating the previous knowledge. In addition, to alleviate the class imbalance problem, we introduce a new gradient similarity-based focal loss and adaptive feature scaling to ease overfitting to the major classes and underfitting to the minor classes. Extensive experiments show that our proposed MVP significantly outperforms the existing state-of-the-art methods in our challenging Si-Blurry scenario.
翻訳日:2023-08-21 14:36:25 公開日:2023-08-18
# 多次元スペクトログラムを用いた融合再構成学習によるロバストなオーディオアンチスプーフィング

Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order Spectrograms ( http://arxiv.org/abs/2308.09302v1 )

ライセンス: Link先を確認
Penghui Wen, Kun Hu, Wenxi Yue, Sen Zhang, Wanlei Zhou, Zhiyong Wang(参考訳) 最近のディープフェイク技術の進歩により、ロバストなオーディオアンチスプーフィングはますます困難になっている。 スペクトログラムはアンチスプーフィングの能力を示しているが、マルチオーダーのスペクトルパターンで提示される補完的な情報は十分に研究されておらず、スプーフィング攻撃の効果を制限している。 そこで本研究では,スペクトル融合再構成戦略であるs2pecnetを用いた新しい深層学習法を提案する。 具体的には、2階までのスペクトルパターンを粗い方法で融合させ、スペクトルおよび時間文脈からの微細な融合のために2つの枝を設計する。 融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失をさらに低減する。 ASVspoof2019 LA Challengeでは,EERの0.77%で最先端の性能を達成した。

Robust audio anti-spoofing has been increasingly challenging due to the recent advancements on deepfake techniques. While spectrograms have demonstrated their capability for anti-spoofing, complementary information presented in multi-order spectral patterns have not been well explored, which limits their effectiveness for varying spoofing attacks. Therefore, we propose a novel deep learning method with a spectral fusion-reconstruction strategy, namely S2pecNet, to utilise multi-order spectral patterns for robust audio anti-spoofing representations. Specifically, spectral patterns up to second-order are fused in a coarse-to-fine manner and two branches are designed for the fine-level fusion from the spectral and temporal contexts. A reconstruction from the fused representation to the input spectrograms further reduces the potential fused information loss. Our method achieved the state-of-the-art performance with an EER of 0.77% on a widely used dataset: ASVspoof2019 LA Challenge.
翻訳日:2023-08-21 14:35:57 公開日:2023-08-18
# シーケンスによる推論クエリによるリワードマシンの学習

Learning Reward Machines through Preference Queries over Sequences ( http://arxiv.org/abs/2308.09301v1 )

ライセンス: Link先を確認
Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri(参考訳) 報酬マシンは、複雑なアクションシーケンシングを伴う学習タスクのための非マルコフ報酬関数を捉えることに大きな期待を示してきた。 しかし、現在、好みの形で現実的な弱いフィードバックを持つ報酬機を学習するアルゴリズムは存在しない。 報奨機を選好から学習するための新しいアルゴリズムであるremapを,正確性と終了保証とともに提供した。 REMAPは、L*アルゴリズムの会員クエリの代わりに好みクエリを導入し、一元化と制約解決とともにシンボル観測テーブルを活用し、仮説報酬マシン探索空間を狭める。 我々は,REMAPの正しさと終了の証明に加えて,結果の報奨機が一貫した教師の下でどの程度の頻度で同型であるか,基礎的真理と学習的報奨機との後悔を経験的証拠として提示する。

Reward machines have shown great promise at capturing non-Markovian reward functions for learning tasks that involve complex action sequencing. However, no algorithm currently exists for learning reward machines with realistic weak feedback in the form of preferences. We contribute REMAP, a novel algorithm for learning reward machines from preferences, with correctness and termination guarantees. REMAP introduces preference queries in place of membership queries in the L* algorithm, and leverages a symbolic observation table along with unification and constraint solving to narrow the hypothesis reward machine search space. In addition to the proofs of correctness and termination for REMAP, we present empirical evidence measuring correctness: how frequently the resulting reward machine is isomorphic under a consistent yet inexact teacher, and the regret between the ground truth and learned reward machines.
翻訳日:2023-08-21 14:35:41 公開日:2023-08-18
# v2a-mapper:基盤モデル接続による視覚-聴覚生成のための軽量ソリューション

V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models ( http://arxiv.org/abs/2308.09300v1 )

ライセンス: Link先を確認
Heng Wang, Jianbo Ma, Santiago Pascual, Richard Cartwright, Weidong Cai(参考訳) 基礎モデル(FM)の上に人工知能(AI)システムを構築することは、AI研究における新たなパラダイムになりつつある。 膨大なデータから学習した代表的および生成能力は、スクラッチから余分なトレーニングをすることなく、容易に適応し、幅広い下流タスクに移行することができる。 しかし、音声モダリティが関与する場合、クロスモーダル生成におけるFMの活用は未検討のままである。 一方,視覚入力から意味的関連音を自動生成することは,モーダル・ジェネレーション研究において重要な課題である。 このvision-to-audio(v2a)生成問題を解決するために、既存の手法では、小さなデータセットを使って複雑なシステムをスクラッチから設計し構築する傾向がある。 本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。 まず視覚的CLIPの潜在空間と聴覚的CLAPモデルとの領域ギャップについて検討する。 次に,CLIP と CLAP 空間間の視覚的入力を変換することで,領域ギャップを埋めるシンプルなマッパー機構 (V2A-Mapper) を提案する。 変換されたCLAP埋め込みを条件に、事前訓練された音声生成FM AudioLDMを採用し、高忠実で視覚的に整合した音を生成する。 従来の手法と比較して,本手法ではV2A-Mapperの迅速な訓練しか必要としない。 さらに、V2A-Mapperの選択に関する広範な実験を行い、生成マッパーが忠実度と可変性(FD)に優れ、レグレッションマッパーが相対性(CS)に若干優れていることを示す。 2つのV2Aデータセットの客観的評価と主観評価は、現在の最先端手法と比較して、提案手法の優位性を示し、パラメータは86%少なく、FDとCSは53%、CSは19%改善した。

Building artificial intelligence (AI) systems on top of a set of foundation models (FMs) is becoming a new paradigm in AI research. Their representative and generative abilities learnt from vast amounts of data can be easily adapted and transferred to a wide range of downstream tasks without extra training from scratch. However, leveraging FMs in cross-modal generation remains under-researched when audio modality is involved. On the other hand, automatically generating semantically-relevant sound from visual input is an important problem in cross-modal generation studies. To solve this vision-to-audio (V2A) generation problem, existing methods tend to design and build complex systems from scratch using modestly sized datasets. In this paper, we propose a lightweight solution to this problem by leveraging foundation models, specifically CLIP, CLAP, and AudioLDM. We first investigate the domain gap between the latent space of the visual CLIP and the auditory CLAP models. Then we propose a simple yet effective mapper mechanism (V2A-Mapper) to bridge the domain gap by translating the visual input between CLIP and CLAP spaces. Conditioned on the translated CLAP embedding, pretrained audio generative FM AudioLDM is adopted to produce high-fidelity and visually-aligned sound. Compared to previous approaches, our method only requires a quick training of the V2A-Mapper. We further analyze and conduct extensive experiments on the choice of the V2A-Mapper and show that a generative mapper is better at fidelity and variability (FD) while a regression mapper is slightly better at relevance (CS). Both objective and subjective evaluation on two V2A datasets demonstrate the superiority of our proposed method compared to current state-of-the-art approaches - trained with 86% fewer parameters but achieving 53% and 19% improvement in FD and CS, respectively.
翻訳日:2023-08-21 14:35:25 公開日:2023-08-18
# コネクティビティに基づく選択的再訓練によるcbct画像下歯槽神経節形成

Inferior Alveolar Nerve Segmentation in CBCT images using Connectivity-Based Selective Re-training ( http://arxiv.org/abs/2308.09298v1 )

ライセンス: Link先を確認
Yusheng Liu, Rui Xin, Tao Yang and Lisheng Wang(参考訳) Inferior Alveolar Nerve (IAN) canal detection in CBCT (Inferior Alveolar Nerve) is an important step for many Dental and Maxillofacial surgery application to prevent irreversible damage to the nerve during the procedure. the ToothFairy2023 Challengeは、すべてのスパースラベルと部分密度ラベルからなる3次元顎顔面データセットを構築し、自動IANセグメンテーションの能力を向上させることを目的としている。 本研究では,スパースラベリングによる負の影響を避けるため,混合教師付き問題を半教師付き問題に変換する。 擬似ラベリングによる自己学習に着想を得て,IAN接続に基づく選択的再学習フレームワークを提案する。 本手法は, 歯石検査症例において定量的に評価され, 0.7956 のサイス類似度係数 (dsc) と 4.4905 の 95\% ハウスドルフ距離 (hd95) を達成し, コンペティションでチャンピオンを獲得した。 コードはhttps://github.com/garynico517/ssl-ian-retrainingで入手できる。

Inferior Alveolar Nerve (IAN) canal detection in CBCT is an important step in many dental and maxillofacial surgery applications to prevent irreversible damage to the nerve during the procedure.The ToothFairy2023 Challenge aims to establish a 3D maxillofacial dataset consisting of all sparse labels and partial dense labels, and improve the ability of automatic IAN segmentation. In this work, in order to avoid the negative impact brought by sparse labeling, we transform the mixed supervised problem into a semi-supervised problem. Inspired by self-training via pseudo labeling, we propose a selective re-training framework based on IAN connectivity. Our method is quantitatively evaluated on the ToothFairy verification cases, achieving the dice similarity coefficient (DSC) of 0.7956, and 95\% hausdorff distance (HD95) of 4.4905, and wining the champion in the competition. Code is available at https://github.com/GaryNico517/SSL-IAN-Retraining.
翻訳日:2023-08-21 14:34:54 公開日:2023-08-18
# NAPA-VQ:連続学習のためのベクトル量子化による周辺環境対応型拡張

NAPA-VQ: Neighborhood Aware Prototype Augmentation with Vector Quantization for Continual Learning ( http://arxiv.org/abs/2308.09297v1 )

ライセンス: Link先を確認
Tamasha Malepathirana, Damith Senanayake, Saman Halgamuge(参考訳) 破滅的な忘れ; 新しい知識を得る際の古い知識の喪失は、現実世界のアプリケーションにおいてディープニューラルネットワークが直面する落とし穴である。 この問題に対する一般的なソリューションの多くは、メモリ制限やプライバシ制約のあるアプリケーションでは実現不可能な、前例(以前遭遇したデータ)の保存に依存している。 したがって、最近の焦点は、非例ベースのクラスインクリメンタルラーニング(necil)であり、モデルが過去の例を使わずに新しいクラスについてインクリメンタルに学習する。 しかし、古いデータがないため、necilメソッドは古いクラスと新しいクラスを区別するのに苦労し、その特徴表現が重複する。 NECILにおけるクラスオーバーラップを低減するフレームワークであるベクトル量子化による近隣のAware Prototype Augmentationを提案する。 ニューラルガスからインスピレーションを得て、特徴空間におけるトポロジ的関係を学習し、互いに混同される可能性が最も高い隣のクラスを特定する。 この近傍情報は、近隣クラス間の強固な分離を強制するとともに、旧クラスと新クラス間の判別的決定境界を得るのに役立つ旧クラス代表プロトタイプを生成するために利用される。 CIFAR-100, TinyImageNet, ImageNet-Subsetの総合的な実験により, NAPA-VQは平均5%, 2%, 4%の精度, 10%, 3%, 9%の精度でNAPA-VQよりも優れていた。 私たちのコードはhttps://github.com/TamashaM/NAPA-VQ.gitにある。

Catastrophic forgetting; the loss of old knowledge upon acquiring new knowledge, is a pitfall faced by deep neural networks in real-world applications. Many prevailing solutions to this problem rely on storing exemplars (previously encountered data), which may not be feasible in applications with memory limitations or privacy constraints. Therefore, the recent focus has been on Non-Exemplar based Class Incremental Learning (NECIL) where a model incrementally learns about new classes without using any past exemplars. However, due to the lack of old data, NECIL methods struggle to discriminate between old and new classes causing their feature representations to overlap. We propose NAPA-VQ: Neighborhood Aware Prototype Augmentation with Vector Quantization, a framework that reduces this class overlap in NECIL. We draw inspiration from Neural Gas to learn the topological relationships in the feature space, identifying the neighboring classes that are most likely to get confused with each other. This neighborhood information is utilized to enforce strong separation between the neighboring classes as well as to generate old class representative prototypes that can better aid in obtaining a discriminative decision boundary between old and new classes. Our comprehensive experiments on CIFAR-100, TinyImageNet, and ImageNet-Subset demonstrate that NAPA-VQ outperforms the State-of-the-art NECIL methods by an average improvement of 5%, 2%, and 4% in accuracy and 10%, 3%, and 9% in forgetting respectively. Our code can be found in https://github.com/TamashaM/NAPA-VQ.git.
翻訳日:2023-08-21 14:34:28 公開日:2023-08-18
# ダイヤモンド中の単一配向の窒素空隙中心による交流磁場のベクトル検出

Vector detection of AC magnetic fields by Nitrogen-Vacancy centers of single orientation in diamond ( http://arxiv.org/abs/2308.09325v1 )

ライセンス: Link先を確認
Pooja Lamba, Akshat Rana, Sougata Halder, Siddharth Dhomkar, Dieter Suter, and Rama K. Kamineni(参考訳) ダイヤモンド中の窒素空洞(NV)中心は、ナノスケールの解像度で高感度で交流磁場と直流磁場を検出するのに有用である。 3つの方向の異なるNV中心を用いて交流磁場のベクトル検出を行うことができる。 そこで本稿では, 単方向NV中心を用いてこれを実現する手法を提案する。 この方法では、静磁場はNV軸に垂直に印加され、$m_{s}=1$と1$の電子スピン状態の強い混合をもたらす。 その結果、三重項基底状態の3つの電子スピン遷移は全て非ゼロ双極子モーメントを持ち、それぞれの遷移は磁場の1つの成分に結合する。 これは印加された交流場の強さと向きの両方を測定するのに使うことができる。 本手法を検証するため, ダイヤモンド中のアンサンブルNV中心のサブセットを用いて, すべて同じ配向を持つ原理実験を行った。

Nitrogen-Vacancy (NV) centers in diamond have useful properties for detecting both AC and DC magnetic fields with high sensitivity at nano-scale resolution. Vector detection of AC magnetic fields can be achieved by using NV centers having three different orientations. Here, we propose a method to achieve this by using NV centers of single orientation. In this method, a static magnetic field is applied perpendicular to the NV axis, leading to strong mixing of the $m_{s}=-1$ and $1$ electron spin states. As a result, all three electron spin transitions of the triplet ground state have non-zero dipole moments, with each transition coupling to a single component of the magnetic field. This can be used to measure both strength and orientation of the applied AC field. To validate the technique, we perform a proof of principle experiment using a subset of ensemble NV centers in diamond, all having the same orientation.
翻訳日:2023-08-21 14:29:49 公開日:2023-08-18
# 効率的な映像認識のための視聴覚ネットワーク

Audio-Visual Glance Network for Efficient Video Recognition ( http://arxiv.org/abs/2308.09322v1 )

ライセンス: Link先を確認
Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Changick Kim(参考訳) 深層学習は、ビデオ理解タスクにおいて大きな進歩を遂げてきたが、クリップレベルのビデオ分類器を使って長大なビデオを分類するのに要する計算は、実用的でなく、違法に高価である。 この問題に対処するため,ビデオの時空間的に重要な部分の処理を効率的に行うために,一般に利用可能なオーディオと視覚のモダリティを活用するAudio-Visual Glance Network (AVGN)を提案する。 AVGNはまず、ビデオを画像とオーディオのクリップペアのスニペットに分割し、軽量なアンモダルエンコーダを使用してグローバルな視覚的特徴とオーディオ特徴を抽出する。 重要な時間セグメントを特定するために,各フレームの相性スコアを推定するAV-TeST(Audio-Visual Temporal Saliency Transformer)を用いる。 空間次元の効率をさらに高めるために、AVGNは画像全体ではなく重要なパッチのみを処理する。 我々はAESPA(Audio-Enhanced Spatial Patch Attention)モジュールを用いて、重要なパッチの座標を生成するポリシーネットワークに供給される粗い視覚的特徴の集合を生成する。 このアプローチにより、ビデオの最も重要な時空間部分のみに集中することができ、より効率的なビデオ認識を実現することができる。 さらに,AVGNの堅牢性と有効性を高めるため,様々なトレーニング手法とマルチモーダル特徴融合を取り入れた。 これらの戦略を組み合わせることで、avgnは高速処理を実現しながら、複数のビデオ認識ベンチマークで最先端のパフォーマンスを新たに設定する。

Deep learning has made significant strides in video understanding tasks, but the computation required to classify lengthy and massive videos using clip-level video classifiers remains impractical and prohibitively expensive. To address this issue, we propose Audio-Visual Glance Network (AVGN), which leverages the commonly available audio and visual modalities to efficiently process the spatio-temporally important parts of a video. AVGN firstly divides the video into snippets of image-audio clip pair and employs lightweight unimodal encoders to extract global visual features and audio features. To identify the important temporal segments, we use an Audio-Visual Temporal Saliency Transformer (AV-TeST) that estimates the saliency scores of each frame. To further increase efficiency in the spatial dimension, AVGN processes only the important patches instead of the whole images. We use an Audio-Enhanced Spatial Patch Attention (AESPA) module to produce a set of enhanced coarse visual features, which are fed to a policy network that produces the coordinates of the important patches. This approach enables us to focus only on the most important spatio-temporally parts of the video, leading to more efficient video recognition. Moreover, we incorporate various training techniques and multi-modal feature fusion to enhance the robustness and effectiveness of our AVGN. By combining these strategies, our AVGN sets new state-of-the-art performance in multiple video recognition benchmarks while achieving faster processing speed.
翻訳日:2023-08-21 14:29:32 公開日:2023-08-18
# 水中血管のコンセンサス形成追跡のための神経力学支援による分散ロバスト学習に基づくバックステッピング制御

Distributed Robust Learning-Based Backstepping Control Aided with Neurodynamics for Consensus Formation Tracking of Underwater Vessels ( http://arxiv.org/abs/2308.09320v1 )

ライセンス: Link先を確認
Tao Yan, Zhe Xu, Simon X. Yang(参考訳) 本論文は, 海洋船舶のシステムパラメータが完全に未知であり, モデリングミスマッチ, 海洋障害, 騒音を対象とする, 複数の水中船舶のコンセンサス形成追跡のためのロバスト学習に基づく分散制御について論じる。 この目的に向けて、グラフ理論は、安定保証で分散コントローラを合成することを可能にするために使われます。 パラメータの不確かさが容器の動的モデルにのみ生じるという事実から、バックステッピング制御技術が用いられる。 次に, 時変と未知のシステムの処理の難しさを克服するために, 分散フォーメーション制御プロトコルを用いてオンライン学習手順を開発した。 さらに, モデル誤差, 環境障害, 測定ノイズを制御設計に神経力学モデルを導入し, 頑健な解を求める。 次に,提案手法に基づく全閉ループ系の安定性解析を行い,理論レベルでのロバスト適応性能を保証する。 最後に, 分散制御プロトコルの有効性をさらに検証するために, 広範なシミュレーション実験を行った。

This paper addresses distributed robust learning-based control for consensus formation tracking of multiple underwater vessels, in which the system parameters of the marine vessels are assumed to be entirely unknown and subject to the modeling mismatch, oceanic disturbances, and noises. Towards this end, graph theory is used to allow us to synthesize the distributed controller with a stability guarantee. Due to the fact that the parameter uncertainties only arise in the vessels' dynamic model, the backstepping control technique is then employed. Subsequently, to overcome the difficulties in handling time-varying and unknown systems, an online learning procedure is developed in the proposed distributed formation control protocol. Moreover, modeling errors, environmental disturbances, and measurement noises are considered and tackled by introducing a neurodynamics model in the controller design to obtain a robust solution. Then, the stability analysis of the overall closed-loop system under the proposed scheme is provided to ensure the robust adaptive performance at the theoretical level. Finally, extensive simulation experiments are conducted to further verify the efficacy of the presented distributed control protocol.
翻訳日:2023-08-21 14:29:04 公開日:2023-08-18
# 臨界パラメータ解析による攻撃耐性フェデレーション学習に向けて

Towards Attack-tolerant Federated Learning via Critical Parameter Analysis ( http://arxiv.org/abs/2308.09318v1 )

ライセンス: Link先を確認
Sungwon Han, Sungwon Park, Fangzhao Wu, Sundong Kim, Bin Zhu, Xing Xie and Meeyoung Cha(参考訳) フェデレーション学習は、クライアントがプライベートデータを共有することなく、分散した方法で共有モデルをトレーニングするために使用される。 フェデレーション学習システムは、悪意のあるクライアントが中央サーバに誤った更新を送信すると、毒殺の恐れがある。 既存の防衛戦略は、非IIDデータ設定では効果がない。 本稿では,新たな防衛戦略であるFedCPA(Federated Learning with Critical Parameter Analysis)を提案する。 本手法は,有毒な局所モデルがそうでないのに対して,良性局所モデルではトップkおよびボトムkの臨界パラメータのセットが類似しているという観測に基づく。 複数のデータセット上で異なる攻撃シナリオを持つ実験によって、我々のモデルは、毒殺攻撃を防御する既存の防御戦略よりも優れています。

Federated learning is used to train a shared model in a decentralized way without clients sharing private data with each other. Federated learning systems are susceptible to poisoning attacks when malicious clients send false updates to the central server. Existing defense strategies are ineffective under non-IID data settings. This paper proposes a new defense strategy, FedCPA (Federated learning with Critical Parameter Analysis). Our attack-tolerant aggregation method is based on the observation that benign local models have similar sets of top-k and bottom-k critical parameters, whereas poisoned local models do not. Experiments with different attack scenarios on multiple datasets demonstrate that our model outperforms existing defense strategies in defending against poisoning attacks.
翻訳日:2023-08-21 14:28:44 公開日:2023-08-18
# トポロジカルおよび相互作用型電荷ポンプにおける非断熱効果

Non-Adiabatic Effect in Topological and Interacting Charge Pumping ( http://arxiv.org/abs/2308.09316v1 )

ライセンス: Link先を確認
Fan Yang, Xingyu Li, Hui Zhai(参考訳) 位相電荷ポンプは断熱限界で発生し、有限な傾斜速度による非断熱効果はポンプ効率を低下させ、量子化電荷ポンプから逸脱させる。 本研究では, 量子化電荷ポンプからのずれとポンプ円の後の絡み合い発生との関係について考察する。 この最も単純な設定では、半系還元密度行列の純度$\mathcal{p}$が$(1-\kappa)^2+\kappa^2$と定義される$\mathcal{r}$に等しいことが示される。 一般的な状況では、$\mathcal{p}<\mathcal{r}$ を議論し、ポンプの効率は純度に対する上限となり、したがって生成した絡み合いに対する下限となる。 この予想を支持するために, ブロック壁型量子回路モデルとして表現できる, 米-mele-hubbardモデルにおける解解ポンピングスキームを提案する。 この揚水方式により、電荷ポンプの数値計算は最大6箇所のみを含む必要があるため、正確な対角化計算において、相互作用と有限温度効果の両方を確実に含むことができる。 可溶性ポンプ円を用いた数値計算の結果、ポンプ効率が傾斜速度に敏感な2つの状態を特定し、相互作用と有限温度効果の両方が存在する場合の予想である$\mathcal{P}<\mathcal{R}$を支持する。

Topological charge pumping occurs in the adiabatic limit, and the non-adiabatic effect due to finite ramping velocity reduces the pumping efficiency and leads to deviation from quantized charge pumping. In this work, we discuss the relation between this deviation from quantized charge pumping and the entanglement generation after a pumping circle. In this simplest setting, we show that purity $\mathcal{P}$ of the half system reduced density matrix equals to $\mathcal{R}$ defined as $(1-\kappa)^2+\kappa^2$, where $\kappa$ denotes the pumping efficiency. In generic situations, we argue $\mathcal{P}<\mathcal{R}$ and the pumping efficiency can provide an upper bound for purity and, therefore, a lower bound for generated entanglement. To support this conjecture, we propose a solvable pumping scheme in the Rice--Mele--Hubbard model, which can be represented as brick-wall type quantum circuit model. With this pumping scheme, numerical calculation of charge pumping only needs to include at most six sites, and therefore, the interaction and the finite temperature effects can be both included reliably in the exact diagonalization calculation. The numerical results using the solvable pumping circle identify two regimes where the pumping efficiency is sensitive to ramping velocity and support the conjecture $\mathcal{P}<\mathcal{R}$ when both interaction and finite temperature effects are present.
翻訳日:2023-08-21 14:28:29 公開日:2023-08-18
# retro-fpn: ポイントクラウドセマンティクスセグメンテーションのための振り返り機能ピラミッドネットワーク

Retro-FPN: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2308.09314v1 )

ライセンス: Link先を確認
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han(参考訳) ポイントごとのセマンティックな特徴を階層的な特徴ピラミッドから学ぶことは、ポイントクラウドセマンティックセグメンテーションに不可欠である。 しかし、以前のほとんどの方法は曖昧な領域の特徴に苦しめられたり、ポイント単位の機能を効果的に洗練できなかったりするなど、情報の喪失と曖昧な意味の識別に繋がる。 この問題を解決するために,我々は,すべてのピラミッド層を通り抜けて各点の意味的特徴を明示的に抽出する明示的かつふりかえり的な改良プロセスとして,ポイント毎の機能予測をモデル化するレトロfpnを提案する。 その重要な斬新さは、前層から意味的コンテキストを要約し、現在の段階での機能を精細化するレトロトランスフォーマーである。 このように、各点の分類は局所的な意味パターンに基づいている。 具体的には、レトロトランスは、局所的なクロスアテンションブロックとセマンティックゲートユニットから構成される。 クロスアテンションは、前層から振り返ってセマンティックパターンを要約するのに役立ちます。 そしてゲートユニットは、要約されたコンテキストを注意深く取り入れ、現在の意味的特徴を洗練します。 Retro-FPNは階層型デコーダに適用可能なプラグイン可能なニューラルネットワークである。 Retro-FPNを3つの代表的なバックボーン(ポイントベースとボクセルベースの両方)と統合することにより、Retro-FPNは最先端のバックボーンよりも性能を大幅に向上させることができることを示す。 広く使われているベンチマークに関する包括的な実験は、設計の有効性を正当化します。 ソースはhttps://github.com/allenxiangx/retro-fpnで入手できる。

Learning per-point semantic features from the hierarchical feature pyramid is essential for point cloud semantic segmentation. However, most previous methods suffered from ambiguous region features or failed to refine per-point features effectively, which leads to information loss and ambiguous semantic identification. To resolve this, we propose Retro-FPN to model the per-point feature prediction as an explicit and retrospective refining process, which goes through all the pyramid layers to extract semantic features explicitly for each point. Its key novelty is a retro-transformer for summarizing semantic contexts from the previous layer and accordingly refining the features in the current stage. In this way, the categorization of each point is conditioned on its local semantic pattern. Specifically, the retro-transformer consists of a local cross-attention block and a semantic gate unit. The cross-attention serves to summarize the semantic pattern retrospectively from the previous layer. And the gate unit carefully incorporates the summarized contexts and refines the current semantic features. Retro-FPN is a pluggable neural network that applies to hierarchical decoders. By integrating Retro-FPN with three representative backbones, including both point-based and voxel-based methods, we show that Retro-FPN can significantly improve performance over state-of-the-art backbones. Comprehensive experiments on widely used benchmarks can justify the effectiveness of our design. The source is available at https://github.com/AllenXiangX/Retro-FPN
翻訳日:2023-08-21 14:27:51 公開日:2023-08-18
# 発作予測のためのパスシグネチャ

Path Signatures for Seizure Forecasting ( http://arxiv.org/abs/2308.09312v1 )

ライセンス: Link先を確認
Jonas F. Haderlein, Andre D. H. Peterson, Parvin Zarei Eskikand, Mark J. Cook, Anthony N. Burkitt, Iven M. Y. Mareels, David B. Grayden(参考訳) 観測された時系列からシステムの状態を予測することは、計算神経科学のような多くの分野の研究の対象である。 ここで、脳測定によるてんかん発作の予測は未解決の問題である。 基礎となる脳のダイナミクスを記述した完全なモデルも存在せず、個々の患者は単一の発作の発症パターンを示しない。 縦断した患者データセットに基づいて,患者固有の方法で発作を予測できる統計的特徴(バイオマーカー)の自動発見と定量化について述べる。 我々は,既存の特徴抽出アルゴリズム,特にパスシグネチャを用いて,時系列解析の最近の進歩を示す。 特に興味深いのは、このタスクの単純で線型な特徴と比較して、この複雑な非線形特徴集合がどのように機能するかである。 我々の推論は,少数の関連する特徴のみを選択しながら,時系列と差し迫った発作の有無を識別するために,組込みサブセット選択を用いた統計的分類アルゴリズムに基づく。 この研究は、より広い文脈での時系列に対する一般化可能なパターン認識パイプラインへのステップと見なすことができる。

Forecasting the state of a system from an observed time series is the subject of research in many domains, such as computational neuroscience. Here, the prediction of epileptic seizures from brain measurements is an unresolved problem. There are neither complete models describing underlying brain dynamics, nor do individual patients exhibit a single seizure onset pattern, which complicates the development of a `one-size-fits-all' solution. Based on a longitudinal patient data set, we address the automated discovery and quantification of statistical features (biomarkers) that can be used to forecast seizures in a patient-specific way. We use existing and novel feature extraction algorithms, in particular the path signature, a recent development in time series analysis. Of particular interest is how this set of complex, nonlinear features performs compared to simpler, linear features on this task. Our inference is based on statistical classification algorithms with in-built subset selection to discern time series with and without an impending seizure while selecting only a small number of relevant features. This study may be seen as a step towards a generalisable pattern recognition pipeline for time series in a broader context.
翻訳日:2023-08-21 14:27:10 公開日:2023-08-18
# 一般言語知識と言語特化知識の学習と組み合わせによる低リソース言語への読解

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge ( http://arxiv.org/abs/2308.09311v1 )

ライセンス: Link先を確認
Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, and Yong Man Ro(参考訳) 本稿では,特に,従来の文献ではうまく扱っていない低リソース言語を対象とした,新しい唇読解フレームワークを提案する。 低リソース言語は、唇の動きや言語をモデル化するのに十分なパワーを持つような十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。 課題を緩和するために,我々は,音声単位の予測を通じて,高リソース言語から一般音声知識,唇の動きをモデル化する能力などを学ぶことを試みる。 異なる言語が共通の音素を共有していることが知られているため、ある言語から学べる一般的な言語知識は、他の言語にも拡張することができる。 次に、言語固有のメモリ拡張デコーダ(LMDecoder)を提案することにより、言語固有の知識、言語をモデル化する能力を学ぶ。 LMDecoderは、言語固有のオーディオ機能をメモリバンクに保存し、ビデオテキストペアデータよりも容易にアクセス可能なオーディオテキストペアデータでトレーニングすることができる。 そこでLMDecoderでは,入力音声単位を言語固有の音声特徴に変換し,学習したリッチ言語知識を利用してテキストに変換する。 最後に,一般言語知識と言語固有の知識を組み合わせることで,低資源言語においても口唇読解モデルの開発を効率的に行うことができる。 英語,スペイン語,フランス語,イタリア語,ポルトガル語の5言語を用いた広範な実験を行い,提案手法の有効性を評価した。

This paper proposes a novel lip reading framework, especially for low-resource languages, which has not been well addressed in the previous literature. Since low-resource languages do not have enough video-text paired data to train the model to have sufficient power to model lip movements and language, it is regarded as challenging to develop lip reading models for low-resource languages. In order to mitigate the challenge, we try to learn general speech knowledge, the ability to model lip movements, from a high-resource language through the prediction of speech units. It is known that different languages partially share common phonemes, thus general speech knowledge learned from one language can be extended to other languages. Then, we try to learn language-specific knowledge, the ability to model language, by proposing Language-specific Memory-augmented Decoder (LMDecoder). LMDecoder saves language-specific audio features into memory banks and can be trained on audio-text paired data which is more easily accessible than video-text paired data. Therefore, with LMDecoder, we can transform the input speech units into language-specific audio features and translate them into texts by utilizing the learned rich language knowledge. Finally, by combining general speech knowledge and language-specific knowledge, we can efficiently develop lip reading models even for low-resource languages. Through extensive experiments using five languages, English, Spanish, French, Italian, and Portuguese, the effectiveness of the proposed method is evaluated.
翻訳日:2023-08-21 14:26:28 公開日:2023-08-18
# 確率的近位点アルゴリズムのばらつき低減手法

Variance reduction techniques for stochastic proximal point algorithms ( http://arxiv.org/abs/2308.09310v1 )

ライセンス: Link先を確認
Cheik Traor\'e, Vassilis Apidopoulos, Saverio Salzo, Silvia Villa(参考訳) 有限和最小化の文脈では、分散還元法は最先端確率勾配法の性能向上に広く用いられている。 実用的影響は明らかであり、理論的な性質もある。 確率的近点アルゴリズムは、ステップサイズの選択に関してより安定であるが、適切な分散還元バージョンが欠落しているため、確率的勾配アルゴリズムの代替として研究されている。 本研究では,確率的近点アルゴリズムにおける分散低減手法の最初の研究を提案する。 本稿では,SVRG,SAGAの確率的近位バージョンと,そのスムーズな凸関数に対する変形について紹介する。 反復と目的関数値に対して,いくつかの収束結果を提供する。 さらに, polyak-{\l}ojasiewicz (pl) 条件下では, イテレートの線形収束率と関数値を求める。 数値実験により, 勾配法よりも近似分散低減法の利点を実証し, 特にステップサイズの選択に対する安定性について検討した。

In the context of finite sums minimization, variance reduction techniques are widely used to improve the performance of state-of-the-art stochastic gradient methods. Their practical impact is clear, as well as their theoretical properties. Stochastic proximal point algorithms have been studied as an alternative to stochastic gradient algorithms since they are more stable with respect to the choice of the stepsize but a proper variance reduced version is missing. In this work, we propose the first study of variance reduction techniques for stochastic proximal point algorithms. We introduce a stochastic proximal version of SVRG, SAGA, and some of their variants for smooth and convex functions. We provide several convergence results for the iterates and the objective function values. In addition, under the Polyak-{\L}ojasiewicz (PL) condition, we obtain linear convergence rates for the iterates and the function values. Our numerical experiments demonstrate the advantages of the proximal variance reduction methods over their gradient counterparts, especially about the stability with respect to the choice of the step size.
翻訳日:2023-08-21 14:25:36 公開日:2023-08-18
# 補助都市からのチェックインを活用したメタラーニングによる次のPOI勧告

Meta-learning enhanced next POI recommendation by leveraging check-ins from auxiliary cities ( http://arxiv.org/abs/2308.09309v1 )

ライセンス: Link先を確認
Jinze Wang, Lu Zhang, Zhu Sun, Yew-Soon Ong(参考訳) 既存のPOI(point-of-interest)推奨者は,都市レベルのユーザ履歴チェックインを利用することで,ユーザの好みを捉えることを目的としている。 しかし、都市レベルのユーザチェックインの不足は、ユーザの好みの学習に重大な課題をもたらす。 従来の研究では、時空間情報などの様々な文脈情報を利用して、この課題を緩和しようとするが、他の関連する都市(補助都市)から知識(共通の行動パターン)を移すことは無視される。 本稿では,補助都市から抽出した知識の効果について検討し,メタラーニング強化次世代POI勧告フレームワーク(MERec)を提案する。 merecは、"より相関した知識にもっと注意を払う"という原則を定め、ターゲット都市におけるユーザの好みを推測するために、さまざまな都市間のチェックイン行動とメタラーニングパラダイムとの相関を利用しています。 特に、都市レベルの相関戦略は、より相関した都市からより関連する知識を伝達するために、都市間の共通パターンを注意深く捉えるために考案される。 広範な実験により、最先端アルゴリズムに対する提案merecの優位性が検証された。

Most existing point-of-interest (POI) recommenders aim to capture user preference by employing city-level user historical check-ins, thus facilitating users' exploration of the city. However, the scarcity of city-level user check-ins brings a significant challenge to user preference learning. Although prior studies attempt to mitigate this challenge by exploiting various context information, e.g., spatio-temporal information, they ignore to transfer the knowledge (i.e., common behavioral pattern) from other relevant cities (i.e., auxiliary cities). In this paper, we investigate the effect of knowledge distilled from auxiliary cities and thus propose a novel Meta-learning Enhanced next POI Recommendation framework (MERec). The MERec leverages the correlation of check-in behaviors among various cities into the meta-learning paradigm to help infer user preference in the target city, by holding the principle of "paying more attention to more correlated knowledge". Particularly, a city-level correlation strategy is devised to attentively capture common patterns among cities, so as to transfer more relevant knowledge from more correlated cities. Extensive experiments verify the superiority of the proposed MERec against state-of-the-art algorithms.
翻訳日:2023-08-21 14:25:21 公開日:2023-08-18
# RLIPv2:リレーショナル言語-画像事前学習の高速化

RLIPv2: Fast Scaling of Relational Language-Image Pre-training ( http://arxiv.org/abs/2308.09351v1 )

ライセンス: Link先を確認
Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao(参考訳) リレーショナル言語-画像事前学習(RLIP)は、コンピュータビジョンタスクにおけるリレーショナル推論能力を向上させることを目的としている。 しかし、RLIPv1アーキテクチャの緩やかな収束と既存のシーングラフデータの可用性の制限により、RLIPv1のスケーリングは困難である。 本稿では,大規模な擬似ラベル付きシーングラフデータへの関係事前学習のスケーリングを可能にする高速収束モデルRLIPv2を提案する。 高速なスケーリングを実現するため、RLIPv2は非対称言語画像融合(ALIF)を導入した。 ALIFは、事前トレーニングと微調整の時間のごく一部において、RLIPv1よりも同等または優れたパフォーマンスをもたらす。 大規模なシーングラフデータを得るため、キャプタ(例えば、blip)とデザインされたリレーションタグを導入することにより、自由形式のリレーションラベル付きオブジェクト検出データセットを拡張する。 関係タガーは、blipが生成した関係テキストを領域ペアに割り当てることにより、大規模なリレーショナル事前トレーニングを可能にする。 RLIPv2は、ヒューマンオブジェクトのインタラクション検出とシーングラフ生成に関する広範な実験を通じて、3つのベンチマークに対して、完全な微調整、少数ショット、ゼロショット設定下での最先端のパフォーマンスを示す。 特に、最大のRLIPv2は微調整なしでHICO-DET上で23.29mAPを獲得し、わずか1%のデータで32.22mAP、100%データで45.09mAPを得る。 コードとモデルはhttps://github.com/JacobYuan7/RLIPv2.comで公開されている。

Relational Language-Image Pre-training (RLIP) aims to align vision representations with relational texts, thereby advancing the capability of relational reasoning in computer vision tasks. However, hindered by the slow convergence of RLIPv1 architecture and the limited availability of existing scene graph data, scaling RLIPv1 is challenging. In this paper, we propose RLIPv2, a fast converging model that enables the scaling of relational pre-training to large-scale pseudo-labelled scene graph data. To enable fast scaling, RLIPv2 introduces Asymmetric Language-Image Fusion (ALIF), a mechanism that facilitates earlier and deeper gated cross-modal fusion with sparsified language encoding layers. ALIF leads to comparable or better performance than RLIPv1 in a fraction of the time for pre-training and fine-tuning. To obtain scene graph data at scale, we extend object detection datasets with free-form relation labels by introducing a captioner (e.g., BLIP) and a designed Relation Tagger. The Relation Tagger assigns BLIP-generated relation texts to region pairs, thus enabling larger-scale relational pre-training. Through extensive experiments conducted on Human-Object Interaction Detection and Scene Graph Generation, RLIPv2 shows state-of-the-art performance on three benchmarks under fully-finetuning, few-shot and zero-shot settings. Notably, the largest RLIPv2 achieves 23.29mAP on HICO-DET without any fine-tuning, yields 32.22mAP with just 1% data and yields 45.09mAP with 100% data. Code and models are publicly available at https://github.com/JacobYuan7/RLIPv2.
翻訳日:2023-08-21 14:17:15 公開日:2023-08-18
# グラフ誘導ハイブリッドマッチングによるファウショット動作認識

Boosting Few-shot Action Recognition with Graph-guided Hybrid Matching ( http://arxiv.org/abs/2308.09346v1 )

ライセンス: Link先を確認
Jiazheng Xing, Mengmeng Wang, Yudi Ruan, Bofan Chen, Yaowei Guo, Boyu Mu, Guang Dai, Jingdong Wang, Yong Liu(参考訳) クラスプロトタイプの構築とマッチングは、少数ショットのアクション認識の中核的側面である。 従来の手法は主に時空間関係モデリングモジュールや複雑な時空間アライメントアルゴリズムの設計に焦点を当てていた。 有望な結果にもかかわらず、彼らはクラスプロトタイプの構築とマッチングの価値を無視し、全てのタスクで同様のカテゴリを認識するのに不十分なパフォーマンスをもたらした。 本稿では,グラフ誘導ハイブリッドマッチングを用いた新しいフレームワークGgHMを提案する。 具体的には,クラスプロトタイプ構築中にグラフニューラルネットワークの指導によりタスク指向の特徴を学習し,クラス内およびクラス間の特徴相関を明示的に最適化する。 次に、フレームレベルとタプルレベルを組み合わせたハイブリッドマッチング戦略を設計し、動画を多変量スタイルで分類する。 さらに,映像特徴の時間表現を強化し,マッチングプロセスのより強固な基盤を構築するための学習可能な時間モデリングモジュールを提案する。 GgHMは、いくつかのショットデータセットにおいて、他の難易度ベースラインよりも一貫した改善を示し、本手法の有効性を示した。 コードはhttps://github.com/jiazheng-xing/gghmで公開される予定だ。

Class prototype construction and matching are core aspects of few-shot action recognition. Previous methods mainly focus on designing spatiotemporal relation modeling modules or complex temporal alignment algorithms. Despite the promising results, they ignored the value of class prototype construction and matching, leading to unsatisfactory performance in recognizing similar categories in every task. In this paper, we propose GgHM, a new framework with Graph-guided Hybrid Matching. Concretely, we learn task-oriented features by the guidance of a graph neural network during class prototype construction, optimizing the intra- and inter-class feature correlation explicitly. Next, we design a hybrid matching strategy, combining frame-level and tuple-level matching to classify videos with multivariate styles. We additionally propose a learnable dense temporal modeling module to enhance the video feature temporal representation to build a more solid foundation for the matching process. GgHM shows consistent improvements over other challenging baselines on several few-shot datasets, demonstrating the effectiveness of our method. The code will be publicly available at https://github.com/jiazheng-xing/GgHM.
翻訳日:2023-08-21 14:16:44 公開日:2023-08-18
# 拡散法MR-CT画像変換による2次元および3次元の脊柱椎間分節の経時的変化

Denoising diffusion-based MR to CT image translation enables whole spine vertebral segmentation in 2D and 3D without manual annotations ( http://arxiv.org/abs/2308.09345v1 )

ライセンス: Link先を確認
Robert Graf, Joachim Schmitt, Sarah Schlaeger, Hendrik Kristian M\"oller, Vasiliki Sideri-Lampretsa, Anjany Sekuboyina, Sandro Manuel Krieg, Benedikt Wiestler, Bjoern Menze, Daniel Rueckert, Jan Stefan Kirschke(参考訳) 背景: 脊髄mr画像の自動分割は, 科学的および臨床的に重要な役割を担っている。 しかし、後方脊柱構造を正確に整列することは困難である。 方法: 倫理委員会が承認した回顧調査では, T1wとT2wのMR画像系列をn=263対のCT/MR画像に翻訳した。 ランドマークベースの登録は画像ペアを調整するために行われた。 我々は,2Dペア画像(Pix2Pix, denoising diffusion implicit model (DDIM) Image mode, DDIM noise mode)と非ペア画像(コントラスト未ペア翻訳, SynDiff)画像から画像への変換を品質指標として比較した。 一般に利用可能なセグメンテーションネットワークは合成ctデータセットをセグメント化し、diceスコアは社内テストセットとmrspinesegチャレンジボリュームで評価された。 3D Pix2PixとDDIMに拡張した。 結果: 2d paired method と syndiff は類似の翻訳性能と dice score を示した。 ddim画像モードは最高画質を達成した。 SynDiff, Pix2Pix, DDIM画像モードも同様のDiceスコア(0.77)を示した。 頭蓋骨軸回転には、登録には少なくとも2つの椎骨のランドマークが必要である。 3D翻訳はDiceスコアの改善(0.80)と解剖学的に高精度なセグメンテーションを元のMR画像よりも高分解能で実現した。 結語: 椎骨登録1回あたりの2つのランドマークは、MRIからCTへの画像・画像の変換を可能にし、全ての未経験のアプローチより優れていた。 3D技術は解剖学的に正しいセグメンテーションを提供し、スピン状過程のような小さな構造の過小評価を避けた。

Background: Automated segmentation of spinal MR images plays a vital role both scientifically and clinically. However, accurately delineating posterior spine structures presents challenges. Methods: This retrospective study, approved by the ethical committee, involved translating T1w and T2w MR image series into CT images in a total of n=263 pairs of CT/MR series. Landmark-based registration was performed to align image pairs. We compared 2D paired (Pix2Pix, denoising diffusion implicit models (DDIM) image mode, DDIM noise mode) and unpaired (contrastive unpaired translation, SynDiff) image-to-image translation using "peak signal to noise ratio" (PSNR) as quality measure. A publicly available segmentation network segmented the synthesized CT datasets, and Dice scores were evaluated on in-house test sets and the "MRSpineSeg Challenge" volumes. The 2D findings were extended to 3D Pix2Pix and DDIM. Results: 2D paired methods and SynDiff exhibited similar translation performance and Dice scores on paired data. DDIM image mode achieved the highest image quality. SynDiff, Pix2Pix, and DDIM image mode demonstrated similar Dice scores (0.77). For craniocaudal axis rotations, at least two landmarks per vertebra were required for registration. The 3D translation outperformed the 2D approach, resulting in improved Dice scores (0.80) and anatomically accurate segmentations in a higher resolution than the original MR image. Conclusion: Two landmarks per vertebra registration enabled paired image-to-image translation from MR to CT and outperformed all unpaired approaches. The 3D techniques provided anatomically correct segmentations, avoiding underprediction of small structures like the spinous process.
翻訳日:2023-08-21 14:16:27 公開日:2023-08-18
# サプライズ・マシーンズ:ハーバード大学の美術館の画像コレクションを公開

Surprise machines: revealing Harvard Art Museums' image collection ( http://arxiv.org/abs/2308.09343v1 )

ライセンス: Link先を確認
Dario Rodighiero, Lins Derry, Douglas Duhaime, Jordan Kruguer, Maximilian C. Mueller, Christopher Pietsch, Jeffrey T. Schnapp, Jeff Steward(参考訳) サプライズ・マシーン(英語: surprise machines)は、ハーバード大学の美術館の画像コレクション全体を可視化する実験的なミューズロジーのプロジェクトであり、通常訪問者にはアクセスできない20万以上のオブジェクトの予期せぬビスタを開くことを目的としている。 MetaLAB (at) Harvardが主催する展示会「Curatorial A(i)gents」の一環として、このプロジェクトは人工知能の限界を探究し、大量の画像を表示し、訪問者に驚きを与える。 このような驚きを味わうために、コレオグラフィック・インタフェースは、観客の動きとコレクションのいくつかのユニークな視点を結びつけるように設計された。

Surprise Machines is a project of experimental museology that sets out to visualize the entire image collection of the Harvard Art Museums, intending to open up unexpected vistas on more than 200,000 objects usually inaccessible to visitors. Part of the exhibition Curatorial A(i)gents organized by metaLAB (at) Harvard, the project explores the limits of artificial intelligence to display a large set of images and create surprise among visitors. To achieve such a feeling of surprise, a choreographic interface was designed to connect the audience's movement with several unique views of the collection.
翻訳日:2023-08-21 14:15:49 公開日:2023-08-18
# ドキュメント自動化アーキテクチャ: 大きな言語モデルに照らして最新の調査

Document Automation Architectures: Updated Survey in Light of Large Language Models ( http://arxiv.org/abs/2308.09341v1 )

ライセンス: Link先を確認
Mohammad Ahmadi Achachlouei, Omkar Patil, Tarun Joshi, Vijayan N. Nair(参考訳) 本稿では,文書自動化技術(da)の現状について概説する。 DAの目的は、異なるソースからの入力を自動生成して統合し、定義されたテンプレートに従って文書を組み立てることにより、文書作成時の手作業を削減することである。 DAの商業的ソリューションのレビューは、特に法律分野において行われているが、これまでDAアーキテクチャと技術に関する学術研究の包括的なレビューは行われていない。 DAの現在の調査は学術文献をレビューし、DAとその特徴を明確に定義し、学術研究における最先端のDAアーキテクチャと技術を特定し、生成型AIや大規模言語モデルの最近の進歩を踏まえて、DA分野における新たな研究機会につながるアイデアを提供する。

This paper surveys the current state of the art in document automation (DA). The objective of DA is to reduce the manual effort during the generation of documents by automatically creating and integrating input from different sources and assembling documents conforming to defined templates. There have been reviews of commercial solutions of DA, particularly in the legal domain, but to date there has been no comprehensive review of the academic research on DA architectures and technologies. The current survey of DA reviews the academic literature and provides a clearer definition and characterization of DA and its features, identifies state-of-the-art DA architectures and technologies in academic research, and provides ideas that can lead to new research opportunities within the DA field in light of recent advances in generative AI and large language models.
翻訳日:2023-08-21 14:15:36 公開日:2023-08-18
# LSCD:ビデオ圧縮のための大規模画面コンテンツデータセット

LSCD: A Large-Scale Screen Content Dataset for Video Compression ( http://arxiv.org/abs/2308.09332v1 )

ライセンス: Link先を確認
Yuhao Cheng, Siru Zhang, Yiqiang Yan, Rong Chen, Yun Zhang(参考訳) マルチメディア圧縮により、ビデオを見たり、写真を見たり、限られた帯域内で音を聞いたりすることができます。 過去数十年間、マルチメディア圧縮はハンドクラフト機能とシステムを使って大きな成功を収めてきた。 人工知能とビデオ圧縮の開発により、複雑なシステムを除去するためにビデオ圧縮タスクにニューラルネットワークを使用することに関する多くの研究が生まれている。 高度なアルゴリズムを生成するだけでなく、研究者は圧縮をユーザ生成コンテンツ(UGC)など、さまざまなコンテンツに広めた。 モバイルデバイスの急速な発展に伴い、スクリーンコンテンツビデオはマルチメディアデータの重要な部分となった。 対照的に、コミュニティにはスクリーンコンテンツ圧縮のための大規模なデータセットが欠けているため、学習ベースのアルゴリズムの急速な開発を妨げている。 この空白を達成し、この特殊なタイプのビデオの研究を加速するために、714のソースシーケンスを含む大規模画面コンテンツデータセット(LSCD)を提案する。 一方で,提案するデータセットの分析により,画面コンテンツビデオの特徴を提示することで,新たなアルゴリズムの探索方法に関する研究者の理解を深める。 データセットを整理するためのデータ収集と後処理に加えて,従来のコーデックと学習ベースの両方のパフォーマンスを含むベンチマークも提供する。

Multimedia compression allows us to watch videos, see pictures and hear sounds within a limited bandwidth, which helps the flourish of the internet. During the past decades, multimedia compression has achieved great success using hand-craft features and systems. With the development of artificial intelligence and video compression, there emerges a lot of research work related to using the neural network on the video compression task to get rid of the complicated system. Not only producing the advanced algorithms, but researchers also spread the compression to different content, such as User Generated Content(UGC). With the rapid development of mobile devices, screen content videos become an important part of multimedia data. In contrast, we find community lacks a large-scale dataset for screen content video compression, which impedes the fast development of the corresponding learning-based algorithms. In order to fulfill this blank and accelerate the research of this special type of videos, we propose the Large-scale Screen Content Dataset(LSCD), which contains 714 source sequences. Meanwhile, we provide the analysis of the proposed dataset to show some features of screen content videos, which will help researchers have a better understanding of how to explore new algorithms. Besides collecting and post-processing the data to organize the dataset, we also provide a benchmark containing the performance of both traditional codec and learning-based methods.
翻訳日:2023-08-21 14:15:22 公開日:2023-08-18
# SAMedOCT:網膜OCTのためのセグメンテーションモデル(SAM)の適応

SAMedOCT: Adapting Segment Anything Model (SAM) for Retinal OCT ( http://arxiv.org/abs/2308.09331v1 )

ライセンス: Link先を確認
Botond Fazekas, Jos\'e Morano, Dmitrii Lachinov, Guilherme Aresta, Hrvoje Bogunovi\'c(参考訳) Segment Anything Model (SAM) はその印象的な機能とプロンプトベースのインターフェースにより、画像セグメンテーションの分野で大きな注目を集めている。 SAMはすでに様々な領域で広く評価されているが、網膜OCTスキャンへの適応は未発見である。 この研究ギャップを埋めるため,RETOUCHチャレンジによる大規模なOCTデータセット上でSAMとその適応を包括的に評価する。 評価は各種網膜疾患,流体コンパートメント,デバイスベンダーを対象とし,samを最先端の網膜液分画法と比較した。 網膜octスキャンにおける強力なセグメンテーションモデルとしてsamの有効性を検討したが,一部の状況では確立された方法に遅れをとっていた。 この知見はSAMの適応性と堅牢性を強調し、網膜CT画像解析における有用性を示し、この領域のさらなる進歩への道を開いた。

The Segment Anything Model (SAM) has gained significant attention in the field of image segmentation due to its impressive capabilities and prompt-based interface. While SAM has already been extensively evaluated in various domains, its adaptation to retinal OCT scans remains unexplored. To bridge this research gap, we conduct a comprehensive evaluation of SAM and its adaptations on a large-scale public dataset of OCTs from RETOUCH challenge. Our evaluation covers diverse retinal diseases, fluid compartments, and device vendors, comparing SAM against state-of-the-art retinal fluid segmentation methods. Through our analysis, we showcase adapted SAM's efficacy as a powerful segmentation model in retinal OCT scans, although still lagging behind established methods in some circumstances. The findings highlight SAM's adaptability and robustness, showcasing its utility as a valuable tool in retinal OCT image analysis and paving the way for further advancements in this domain.
翻訳日:2023-08-21 14:15:01 公開日:2023-08-18
# KESDT:副作用検出のための浅・深部変圧器の知識向上

KESDT: knowledge enhanced shallow and deep Transformer for detecting adverse drug reactions ( http://arxiv.org/abs/2308.09329v1 )

ライセンス: Link先を確認
Yunzhi Qiu, Xiaokun Zhang, Weiwei Wang, Tongxuan Zhang, Bo Xu, Hongfei Lin(参考訳) 逆薬物反応(ADR)検出は、ADRが患者の健康と医療システムに致命的な影響を及ぼすため、医療分野において重要な課題である。 ソーシャルメディアプラットフォーム上での情報共有が盛んであることから,効果的なadr検出を行うためのソーシャルメディアデータへの取り組みが増えている。 優れた性能を達成したにもかかわらず、既存のADR検出方法には3つの大きな課題がある。 まず、研究者はドメインキーワードと文中の他の単語との相互作用を一貫して無視している。 第2に、ソーシャルメディアのデータセットは、低注釈データの課題に苦しむ。 第3に、サンプル不均衡の問題はソーシャルメディアデータセットで一般的に見られる。 これらの課題を解決するために,ADR検出のための知識強調シャロー・ディープトランスフォーマー(KESDT)モデルを提案する。 具体的には,まず,ドメインキーワードと文中の他の単語との対話的関係を十分に活用できるように,ドメインキーワードを浅い融合方式でトランスフォーマモデルに組み込む。 低アノテートデータを克服するために, サンプルサイズを拡大するディープフュージョン方式で, 変圧器モデルに同義語セットを統合する。 サンプル不均衡の影響を軽減するため, 標準クロスエントロピー損失関数を焦点損失関数に置き換え, 効果的なモデルトレーニングを行う。 TwiMed、Twitter、CADECを含む3つの公開データセットについて広範な実験を行った。 提案したKESDTは,F1値に対する最先端のベースラインをそれぞれ4.87%,47.83%,および5.73%で上回り,提案したKESDTの有効性を示した。

Adverse drug reaction (ADR) detection is an essential task in the medical field, as ADRs have a gravely detrimental impact on patients' health and the healthcare system. Due to a large number of people sharing information on social media platforms, an increasing number of efforts focus on social media data to carry out effective ADR detection. Despite having achieved impressive performance, the existing methods of ADR detection still suffer from three main challenges. Firstly, researchers have consistently ignored the interaction between domain keywords and other words in the sentence. Secondly, social media datasets suffer from the challenges of low annotated data. Thirdly, the issue of sample imbalance is commonly observed in social media datasets. To solve these challenges, we propose the Knowledge Enhanced Shallow and Deep Transformer(KESDT) model for ADR detection. Specifically, to cope with the first issue, we incorporate the domain keywords into the Transformer model through a shallow fusion manner, which enables the model to fully exploit the interactive relationships between domain keywords and other words in the sentence. To overcome the low annotated data, we integrate the synonym sets into the Transformer model through a deep fusion manner, which expands the size of the samples. To mitigate the impact of sample imbalance, we replace the standard cross entropy loss function with the focal loss function for effective model training. We conduct extensive experiments on three public datasets including TwiMed, Twitter, and CADEC. The proposed KESDT outperforms state-of-the-art baselines on F1 values, with relative improvements of 4.87%, 47.83%, and 5.73% respectively, which demonstrates the effectiveness of our proposed KESDT.
翻訳日:2023-08-21 14:14:45 公開日:2023-08-18
# 闇における行動認識のための無限知識蒸留

Unlimited Knowledge Distillation for Action Recognition in the Dark ( http://arxiv.org/abs/2308.09327v1 )

ライセンス: Link先を確認
Ruibing Jin, Guosheng Lin, Min Wu, Jie Lin, Zhengguo Li, Xiaoli Li and Zhenghua Chen(参考訳) ダークビデオはしばしば重要な情報を失うため、ネットワークによって学習された知識はアクションを正確に認識するには不十分である。 既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。 アクション認識では、この欠点はビデオ処理に必要な計算量によって深刻になる。 限られた計算源によって制約を受けると、これらのアプローチは実現不可能である。 この問題に対処するため,本稿では,無制限の知識蒸留(UKD)を提案する。 既存の知識集合法と比較すると,我々のUKDは高いGPUメモリ消費を伴わずに,様々な知識を効果的に組み立てることができる。 したがって、蒸留の指導モデルの数は無制限である。 我々のUKDでは、ネットワークの学習知識は著しく豊かになる。 実験の結果,ukdで蒸留した単一ストリームネットワークが2ストリームネットワークを超えることさえわかった。 大規模な実験はARIDデータセット上で行われる。

Dark videos often lose essential information, which causes the knowledge learned by networks is not enough to accurately recognize actions. Existing knowledge assembling methods require massive GPU memory to distill the knowledge from multiple teacher models into a student model. In action recognition, this drawback becomes serious due to much computation required by video process. Constrained by limited computation source, these approaches are infeasible. To address this issue, we propose an unlimited knowledge distillation (UKD) in this paper. Compared with existing knowledge assembling methods, our UKD can effectively assemble different knowledge without introducing high GPU memory consumption. Thus, the number of teaching models for distillation is unlimited. With our UKD, the network's learned knowledge can be remarkably enriched. Our experiments show that the single stream network distilled with our UKD even surpasses a two-stream network. Extensive experiments are conducted on the ARID dataset.
翻訳日:2023-08-21 14:14:19 公開日:2023-08-18
# 未作動水中車両のロバスト拘束コンセンサスに対する分散神経力学に基づくバックステッピング最適制御

Distributed Neurodynamics-Based Backstepping Optimal Control for Robust Constrained Consensus of Underactuated Underwater Vehicles Fleet ( http://arxiv.org/abs/2308.09326v1 )

ライセンス: Link先を確認
Tao Yan, Zhe Xu, Simon X. Yang, S. Andrew Gadsden(参考訳) 不安定な水中車両(UUV)の3次元空間におけるロバスト拘束型構成追跡制御は難しいが実用的な問題である。 この問題に対処するために,階層型アーキテクチャを採用した新しいコンセンサスに基づく最適コーディネートプロトコルとロバストコントローラを開発した。 最上層では、非ホロノミック制約に取り組むために球面座標変換が導入され、次いで分散最適運動調整戦略が開発される。 その結果、UUV艦隊の最適構成追跡が可能となり、制約を満たすことができる。 生成した最適コマンドをより良く、かつ、その一方で、低レベルの制御ループにおいて、神経力学ベースのロバストなバックステッピングコントローラを設計し、特に、従来のバックステッピングベースのコントローラに現れる「用語の展開」の問題を避け、制御アクティビティを向上させる。 全体的なUUVの形成システムの安定性は、UUVの全ての状態が、未知の乱れの存在下で一様に拘束されることを保証するために確立される。 最後に, 最適形成追跡プロトコルの優位性と有効性を示すために, 広範囲なシミュレーション比較を行った。

Robust constrained formation tracking control of underactuated underwater vehicles (UUVs) fleet in three-dimensional space is a challenging but practical problem. To address this problem, this paper develops a novel consensus based optimal coordination protocol and a robust controller, which adopts a hierarchical architecture. On the top layer, the spherical coordinate transform is introduced to tackle the nonholonomic constraint, and then a distributed optimal motion coordination strategy is developed. As a result, the optimal formation tracking of UUVs fleet can be achieved, and the constraints are fulfilled. To realize the generated optimal commands better and, meanwhile, deal with the underactuation, at the lower-level control loop a neurodynamics based robust backstepping controller is designed, and in particular, the issue of "explosion of terms" appearing in conventional backstepping based controllers is avoided and control activities are improved. The stability of the overall UUVs formation system is established to ensure that all the states of the UUVs are uniformly ultimately bounded in the presence of unknown disturbances. Finally, extensive simulation comparisons are made to illustrate the superiority and effectiveness of the derived optimal formation tracking protocol.
翻訳日:2023-08-21 14:14:07 公開日:2023-08-18
# tromr:トランスフォーマーに基づくポリフォニック光音楽認識

TrOMR:Transformer-Based Polyphonic Optical Music Recognition ( http://arxiv.org/abs/2308.09370v1 )

ライセンス: Link先を確認
Yixuan Li, Huaping Liu, Qiang Jin, Miaomiao Cai, Peng Li(参考訳) 光音楽認識(OMR)は音楽において重要な技術であり、長い間研究されてきた。 OMRの従来のアプローチは通常、画像理解のためのCNNと、音楽記号分類のためのRNNに基づいている。 本稿では, TrOMRと呼ばれる, 終端ポリフォニックOMRのグローバル知覚能力に優れたトランスフォーマーベースアプローチを提案する。 また、複雑な楽譜の認識精度を向上させるために、新しい整合損失関数とデータアノテーションの合理的なアプローチを導入する。 広範な実験により、tromrは現在のomr法、特に現実のシナリオよりも優れていることが示されている。 また,TrOMRシステムを開発し,実世界のフルページ音楽スコアのためのカメラシーンデータセットを構築した。 コードとデータセットは再現性で利用可能になる。

Optical Music Recognition (OMR) is an important technology in music and has been researched for a long time. Previous approaches for OMR are usually based on CNN for image understanding and RNN for music symbol classification. In this paper, we propose a transformer-based approach with excellent global perceptual capability for end-to-end polyphonic OMR, called TrOMR. We also introduce a novel consistency loss function and a reasonable approach for data annotation to improve recognition accuracy for complex music scores. Extensive experiments demonstrate that TrOMR outperforms current OMR methods, especially in real-world scenarios. We also develop a TrOMR system and build a camera scene dataset for full-page music scores in real-world. The code and datasets will be made available for reproducibility.
翻訳日:2023-08-21 14:08:09 公開日:2023-08-18
# マルチモーダル球面画像を用いた単一フレーム意味セグメンテーション

Single Frame Semantic Segmentation Using Multi-Modal Spherical Images ( http://arxiv.org/abs/2308.09369v1 )

ライセンス: Link先を確認
Suresh Guttikonda and Jason Rambach(参考訳) 近年、研究コミュニティは360度方向の視点を提供するパノラマ画像に多くの関心を示している。 複数のデータモダリティを供給でき、その可能性を完全に実現するために、セマンティックセグメンテーションに基づくより堅牢で豊かなシーン解釈に補完的特性を利用することができる。 しかし、既存の研究は主にピンホールRGB-Xセマンティックセグメンテーションに集中している。 本研究では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。 我々は,等角表現から生じる極端な物体変形とパノラマ歪みに対処するために,歪み対応モジュールを用いる。 さらに,バイモーダルストリームとトリモーダルストリームの長距離コンテキストを通信するために,機能統合前に機能修正と情報交換のためのクロスモーダルインタラクションを行う。 3つの屋内パノラマビューデータセットにおける4つの異なるモードタイプの組み合わせによる徹底的な試験では、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。 近いうちにすべてのコードとトレーニングモデルをリリースする予定です。

In recent years, the research community has shown a lot of interest to panoramic images that offer a 360-degree directional perspective. Multiple data modalities can be fed, and complimentary characteristics can be utilized for more robust and rich scene interpretation based on semantic segmentation, to fully realize the potential. Existing research, however, mostly concentrated on pinhole RGB-X semantic segmentation. In this study, we propose a transformer-based cross-modal fusion architecture to bridge the gap between multi-modal fusion and omnidirectional scene perception. We employ distortion-aware modules to address extreme object deformations and panorama distortions that result from equirectangular representation. Additionally, we conduct cross-modal interactions for feature rectification and information exchange before merging the features in order to communicate long-range contexts for bi-modal and tri-modal feature streams. In thorough tests using combinations of four different modality types in three indoor panoramic-view datasets, our technique achieved state-of-the-art mIoU performance: 60.60% on Stanford2D3DS (RGB-HHA), 71.97% Structured3D (RGB-D-N), and 35.92% Matterport3D (RGB-D). We plan to release all codes and trained models soon.
翻訳日:2023-08-21 14:07:57 公開日:2023-08-18
# 中世ラテン語の手書き文字認識システム

A tailored Handwritten-Text-Recognition System for Medieval Latin ( http://arxiv.org/abs/2308.09368v1 )

ライセンス: Link先を確認
Philipp Koch and Gilary Vera Nu\~nez and Esteban Garces Arias and Christian Heumann and Matthias Sch\"offel and Alexander H\"aberlin and Matthias A{\ss}enmacher(参考訳) バイエルン科学人文科学アカデミーは中世ラテン語辞典のデジタル化を目指している。 この辞書は、低資源言語である中世ラテン語のレムマを指すレコードカードを含んでいる。 デジタル化プロセスの重要なステップは、これらのレコードカードにある手書きの補題の手書きテキスト認識(htr)である。 本研究では,中世ラテン語辞典に合わせたエンドツーエンドのパイプラインを導入し,補題の検索,抽出,書き起こしを行う。 我々は、HTRタスクの初期データセットを作成するために、2つの最先端(SOTA)イメージセグメンテーションモデルを用いる。 さらに,様々なトランスフォーマモデルを用いて実験を行い,gpt-2デコーダを用いた視覚エンコーダの異なる組み合わせの能力について検討する。 さらに、競争力の高いモデルをもたらす広範なデータ拡張も適用します。 最高のパフォーマンス設定は、商用のGoogle Cloud Visionモデルよりも優れ、より安定したパフォーマンスを示す0.015のキャラクタエラーレート(CER)を達成した。

The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval Latin Dictionary. This dictionary entails record cards referring to lemmas in medieval Latin, a low-resource language. A crucial step of the digitization process is the Handwritten Text Recognition (HTR) of the handwritten lemmas found on these record cards. In our work, we introduce an end-to-end pipeline, tailored to the medieval Latin dictionary, for locating, extracting, and transcribing the lemmas. We employ two state-of-the-art (SOTA) image segmentation models to prepare the initial data set for the HTR task. Furthermore, we experiment with different transformer-based models and conduct a set of experiments to explore the capabilities of different combinations of vision encoders with a GPT-2 decoder. Additionally, we also apply extensive data augmentation resulting in a highly competitive model. The best-performing setup achieved a Character Error Rate (CER) of 0.015, which is even superior to the commercial Google Cloud Vision model, and shows more stable performance.
翻訳日:2023-08-21 14:07:30 公開日:2023-08-18
# 可逆ニューラルネットワークによるBi-Lipschitzマップの近似について

On the Approximation of Bi-Lipschitz Maps by Invertible Neural Networks ( http://arxiv.org/abs/2308.09367v1 )

ライセンス: Link先を確認
Bangti Jin and Zehui Zhou and Jun Zou(参考訳) Invertible Neural Network(INN)は、いくつかのアプリケーションで広く使われているディープニューラルネットワークアーキテクチャの重要なクラスである。 INNの普遍近似特性も最近確立されている。 しかし、INNの近似速度はほとんど欠落している。 本研究では,コンパクト領域上でのバイリプシッツ連続写像を近似するために,結合型 INN のクラスが持つキャパシティの解析を行い,この結果から,前方および逆写像を同時に近似できることを示す。 さらに, モデル削減と主成分分析, INNを組み合わせることで, 無限次元空間上でのバイリプシッツ写像の近似を行い, その近似誤差を解析する手法を開発した。 予備的な数値計算の結果は、パラメータ化二階楕円問題に対する解演算子近似法の可能性を示している。

Invertible neural networks (INNs) represent an important class of deep neural network architectures that have been widely used in several applications. The universal approximation properties of INNs have also been established recently. However, the approximation rate of INNs is largely missing. In this work, we provide an analysis of the capacity of a class of coupling-based INNs to approximate bi-Lipschitz continuous mappings on a compact domain, and the result shows that it can well approximate both forward and inverse maps simultaneously. Furthermore, we develop an approach for approximating bi-Lipschitz maps on infinite-dimensional spaces that simultaneously approximate the forward and inverse maps, by combining model reduction with principal component analysis and INNs for approximating the reduced map, and we analyze the overall approximation error of the approach. Preliminary numerical results show the feasibility of the approach for approximating the solution operator for parameterized second-order elliptic problems.
翻訳日:2023-08-21 14:07:16 公開日:2023-08-18
# ポイントクラウド登録に必要なオーバーラップバイアスマッチング

Overlap Bias Matching is Necessary for Point Cloud Registration ( http://arxiv.org/abs/2308.09364v1 )

ライセンス: Link先を確認
Pengcheng Shi, Jie Zhang, Haozhe Cheng, Junyang Wang, Yiyang Zhou, Chenlin Zhao, Jihua Zhu(参考訳) ポイントクラウド登録は多くのドメインにおいて根本的な問題である。 実際には、登録すべきポイントクラウド間の重なりは比較的小さい可能性がある。 ほとんどの教師なし手法は、重複の効果的な初期評価を欠き、最適下登録精度が向上した。 この問題に対処するために、部分点クラウド登録のための教師なしネットワーク Overlap Bias Matching Network (OBMNet)を提案する。 具体的には,Overlap Bias Matching Module (OBMM) とOverlap Bias Matching Module (OBMM) の2つのコンポーネント,オーバーラップサンプリングモジュールとバイアス予測モジュールを提案する。 これら2つの成分は重なり合う領域の分布を捉え、それぞれ点雲共通構造のバイアス係数を予測するために利用される。 次に,obmmを隣接マップマッチングモジュールと統合し,単一点特徴の曖昧さに対処した近傍点のマッチングスコアを正確にマージすることにより,対応を頑健に識別する。 obmnetは、重複率の低いペア登録シナリオでも有効性を維持することができる。 広範なデータセットを用いた実験の結果,本手法の性能は,最先端の登録手法に比べて大幅に向上することが示された。

Point cloud registration is a fundamental problem in many domains. Practically, the overlap between point clouds to be registered may be relatively small. Most unsupervised methods lack effective initial evaluation of overlap, leading to suboptimal registration accuracy. To address this issue, we propose an unsupervised network Overlap Bias Matching Network (OBMNet) for partial point cloud registration. Specifically, we propose a plug-and-play Overlap Bias Matching Module (OBMM) comprising two integral components, overlap sampling module and bias prediction module. These two components are utilized to capture the distribution of overlapping regions and predict bias coefficients of point cloud common structures, respectively. Then, we integrate OBMM with the neighbor map matching module to robustly identify correspondences by precisely merging matching scores of points within the neighborhood, which addresses the ambiguities in single-point features. OBMNet can maintain efficacy even in pair-wise registration scenarios with low overlap ratios. Experimental results on extensive datasets demonstrate that our approach's performance achieves a significant improvement compared to the state-of-the-art registration approach.
翻訳日:2023-08-21 14:07:02 公開日:2023-08-18
# open-vocabulary video question answering: ビデオ質問応答モデルの一般化性評価のための新しいベンチマーク

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models ( http://arxiv.org/abs/2308.09363v1 )

ライセンス: Link先を確認
Dohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J. Kim(参考訳) video question answering (videoqa)は複雑なマルチモーダル推論を伴う困難なタスクである。 複数の選択肢が与えられた回答を予測することを目的としたマルチ選択ビデオQAとは対照的に、オープンエンドビデオQAの目標は、候補者の回答を制限することなく質問に答えることである。 しかし、以前のビデオQAモデルの大半は、ビデオ検索ペアを固定された回答セット、すなわち、頻繁な回答のみを含むクローズド語彙に分類するための分類タスクとして、オープンエンドビデオQAを定式化した。 これにより、モデルは頻繁な回答のみに偏り、語彙外回答の一般化に失敗する。 そこで,本研究では,ビデオQAモデルの一般化可能性を評価するために,希少かつ未確認の回答を考慮し,新しい評価基準であるOVQAを提案する。 また,モデルの一般化能力を向上させるために,類似した単語から情報を集約することで,稀で見当たらない回答の予測を向上する,新しいGNNベースのソフト弁解器を導入する。 評価のために,既存の(クローズド語彙の)オープンエンドビデオQAモデルを変更することで新たなベースラインを導入する。 我々のアブレーション研究と定性的分析により,gnnベースのソフト・バーナライザは,特に希少かつ未発見の回答において,モデル性能をさらに向上させることが示された。 我々は、我々のベンチマークOVQAが、ビデオQAモデルの一般化可能性を評価し、将来の研究を刺激するガイドになることを期待している。 コードはhttps://github.com/mlvlab/OVQA.comで入手できる。

Video Question Answering (VideoQA) is a challenging task that entails complex multi-modal reasoning. In contrast to multiple-choice VideoQA which aims to predict the answer given several options, the goal of open-ended VideoQA is to answer questions without restricting candidate answers. However, the majority of previous VideoQA models formulate open-ended VideoQA as a classification task to classify the video-question pairs into a fixed answer set, i.e., closed-vocabulary, which contains only frequent answers (e.g., top-1000 answers). This leads the model to be biased toward only frequent answers and fail to generalize on out-of-vocabulary answers. We hence propose a new benchmark, Open-vocabulary Video Question Answering (OVQA), to measure the generalizability of VideoQA models by considering rare and unseen answers. In addition, in order to improve the model's generalization power, we introduce a novel GNN-based soft verbalizer that enhances the prediction on rare and unseen answers by aggregating the information from their similar words. For evaluation, we introduce new baselines by modifying the existing (closed-vocabulary) open-ended VideoQA models and improve their performances by further taking into account rare and unseen answers. Our ablation studies and qualitative analyses demonstrate that our GNN-based soft verbalizer further improves the model performance, especially on rare and unseen answers. We hope that our benchmark OVQA can serve as a guide for evaluating the generalizability of VideoQA models and inspire future research. Code is available at https://github.com/mlvlab/OVQA.
翻訳日:2023-08-21 14:06:43 公開日:2023-08-18
# 多機能結合とマルチクラス化 : rsfmriを用いたmdd識別のための解釈可能・一般化型機械学習手法

Multi-feature concatenation and multi-classifier stacking: an interpretable and generalizable machine learning method for MDD discrimination with rsfMRI ( http://arxiv.org/abs/2308.09360v1 )

ライセンス: Link先を確認
Yunsong Luo, Wenyu Chen, Ling Zhan, Jiang Qiu, Tao Jia(参考訳) うつ病は重度で異質な精神疾患であり、正確な診断が必要である。 精神疾患の診断や病理研究において、脳の構造、機能、接続性に関する複数の視点を捉えた静止状態機能MRI (rsfMRI) がますます応用されている。 異なる機械学習アルゴリズムが開発され、RSfMRIの豊富な情報を活用し、MDD患者を正常なコントロールから識別する。 最近の進歩にもかかわらず、識別精度はさらなる改善の余地がある。 この手法の一般化可能性や解釈性も十分ではない。 本稿では、複数の特徴を連結し、複数の分類器を積み重ねることでMDD識別のための機械学習手法(MFMC)を提案する。 mfmcは25の異なるサイトから集められた2428の被験者を含むrest-meta-mddデータセット上でテストされる。 MFMCは96.9%のMDD識別精度を示し、既存の方法よりも大幅に改善されている。 さらに,MFMCの総合化性は,訓練対象と試験対象が独立したサイトである場合に,優れた性能で検証される。 メタ分類器としてXGBoostを使用することで、MFMCの決定過程を探索することができる。 本研究は, 後帯状回, 前頭回軌道上部, 角回を含む9つの脳領域に関連する13の特徴を同定し, 分類に最も寄与し, 群レベルでの有意な差異を示した。 これらの13の機能値だけで、すべての機能値を取る場合、MFMCの完全なパフォーマンスの87%に達することができる。 これらの特徴は、将来、精神疾患の診断および予後のバイオマーカーとして臨床的に有用である。

Major depressive disorder is a serious and heterogeneous psychiatric disorder that needs accurate diagnosis. Resting-state functional MRI (rsfMRI), which captures multiple perspectives on brain structure, function, and connectivity, is increasingly applied in the diagnosis and pathological research of mental diseases. Different machine learning algorithms are then developed to exploit the rich information in rsfMRI and discriminate MDD patients from normal controls. Despite recent advances reported, the discrimination accuracy has room for further improvement. The generalizability and interpretability of the method are not sufficiently addressed either. Here, we propose a machine learning method (MFMC) for MDD discrimination by concatenating multiple features and stacking multiple classifiers. MFMC is tested on the REST-meta-MDD data set that contains 2428 subjects collected from 25 different sites. MFMC yields 96.9% MDD discrimination accuracy, demonstrating a significant improvement over existing methods. In addition, the generalizability of MFMC is validated by the good performance when the training and testing subjects are from independent sites. The use of XGBoost as the meta classifier allows us to probe the decision process of MFMC. We identify 13 feature values related to 9 brain regions including the posterior cingulate gyrus, superior frontal gyrus orbital part, and angular gyrus, which contribute most to the classification and also demonstrate significant differences at the group level. The use of these 13 feature values alone can reach 87% of MFMC's full performance when taking all feature values. These features may serve as clinically useful diagnostic and prognostic biomarkers for mental disorders in the future.
翻訳日:2023-08-21 14:06:13 公開日:2023-08-18
# 複素平面における量子バックフローの設計

Design of quantum backflow in the complex plane ( http://arxiv.org/abs/2308.09358v1 )

ライセンス: Link先を確認
Ioannis Chremmos(参考訳) 厳密に正の運動量スペクトルを持つにもかかわらず、逆流、すなわち負の確率電流を示す量子波動関数の設計方法が提示される。 これらの波動関数は、上半平面で解析され、逆流挙動を制御する下半平面に零点を持つ有理複素関数に由来する。 アナログでは、逆流周期波動関数は、内部で解析され、単位円の外側に適切に零点または極を置く有理複素関数から導かれる。 この概念はPad\'e型の手法と組み合わせて、バックフローの間隔に沿って所望のプロファイルを近似するこのタイプの波動関数を設計する。

A way is presented to design quantum wave functions that exhibit backflow, namely negative probability current despite having a strictly positive spectrum of momentum. These wave functions are derived from rational complex functions which are analytic in the upper half-plane and have zeros in the lower half-plane through which the backflowing behavior is controlled. In analogy, backflowing periodic wave functions are derived from rational complex functions which are analytic in the interior and have appropriately placed zeros or poles in the exterior of the unit circle. The concept is combined with a Pad\'e-type procedure to design wave functions of this type that approximate a desired profile along the interval of backflow.
翻訳日:2023-08-21 14:05:49 公開日:2023-08-18
# 制約付き画像スプライシング検出と局所化のためのマルチスケールターゲットアウェアフレームワーク

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization ( http://arxiv.org/abs/2308.09357v1 )

ライセンス: Link先を確認
Yuxuan Tan, Yuanman Li, Limin Zeng, Jiaxiong Ye, Wei wang, Xia Li(参考訳) CISDL(Constrained Image Splicing Detection and Localization)は、2つの疑わしい画像間のスプライシング動作を検出し、両方の画像上にスプライシング領域をローカライズするマルチメディア法医学の基本課題である。 近年の研究では、深いマッチングの問題と見なされ、大きな進歩を遂げている。 しかし、既存のフレームワークは、通常、異なるプロセスとして特徴抽出と相関マッチングを実行するため、マッチングのための識別的特徴を学習する能力を妨げ、曖昧な背景画素からの干渉に影響を受けやすい。 本研究では,統合パイプラインにおける特徴抽出と相関マッチングを結合するマルチスケールなターゲット認識フレームワークを提案する。 従来の手法とは対照的に,特徴を学習し,プローブとドナー画像の相関マッチングを行う目標認識注意機構を設計する。 提案手法は,関連パッチの協調学習を効果的に促進し,特徴学習と相関マッチングの相互促進を行う。 さらに, スケール変換を扱うために, ターゲット認識フレームワークに容易に統合でき, 様々なスケールの情報を含むトークン間で, 注意プロセスを実行できるマルチスケール投影法を提案する。 我々の実験は、統一パイプラインを用いたモデルが、いくつかのベンチマークデータセット上で最先端の手法より優れており、スケール変換に対して堅牢であることを示した。

Constrained image splicing detection and localization (CISDL) is a fundamental task of multimedia forensics, which detects splicing operation between two suspected images and localizes the spliced region on both images. Recent works regard it as a deep matching problem and have made significant progress. However, existing frameworks typically perform feature extraction and correlation matching as separate processes, which may hinder the model's ability to learn discriminative features for matching and can be susceptible to interference from ambiguous background pixels. In this work, we propose a multi-scale target-aware framework to couple feature extraction and correlation matching in a unified pipeline. In contrast to previous methods, we design a target-aware attention mechanism that jointly learns features and performs correlation matching between the probe and donor images. Our approach can effectively promote the collaborative learning of related patches, and perform mutual promotion of feature learning and correlation matching. Additionally, in order to handle scale transformations, we introduce a multi-scale projection method, which can be readily integrated into our target-aware framework that enables the attention process to be conducted between tokens containing information of varying scales. Our experiments demonstrate that our model, which uses a unified pipeline, outperforms state-of-the-art methods on several benchmark datasets and is robust against scale transformations.
翻訳日:2023-08-21 14:05:37 公開日:2023-08-18
# GPTによる加速材料言語処理

Accelerated materials language processing enabled by GPT ( http://arxiv.org/abs/2308.09354v1 )

ライセンス: Link先を確認
Jaewoong Choi, Byungju Lee(参考訳) 材料言語処理 (mlp) は, 大量の材料科学文献から構造化情報の抽出を可能にするため, 材料科学研究の重要な推進要因の一つである。 先行研究は、テキスト分類のための高性能なMLPモデル、名前付きエンティティ認識(NER)、複雑なモデルアーキテクチャ、徹底的な微調整、多数の人間ラベル付きデータセットを必要とする抽出質問応答(QA)を提案する。 本研究では,従来のMLPモデルの複雑なアーキテクチャを,プロンプトエンジニアリングの戦略的設計に置き換えた生成事前学習型トランスフォーマ(GPT)対応パイプラインを開発する。 まず,関連する文書を識別するためのgpt対応文書分類法を開発し,従来モデルと同等の精度と信頼性を,少ないデータセットで達成する。 第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、3つのオープンデータセット内のほとんどのエンティティのパフォーマンスを改善した。 最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。 本研究は, GPT対応MPPモデルの可能性と信頼性, 実用性の観点から評価すると共に, 科学的手法と体系的アプローチは, 科学文献の情報抽出を促進するため, あらゆる材料分野に適用可能である。

Materials language processing (MLP) is one of the key facilitators of materials science research, as it enables the extraction of structured information from massive materials science literature. Prior works suggested high-performance MLP models for text classification, named entity recognition (NER), and extractive question answering (QA), which require complex model architecture, exhaustive fine-tuning and a large number of human-labelled datasets. In this study, we develop generative pretrained transformer (GPT)-enabled pipelines where the complex architectures of prior MLP models are replaced with strategic designs of prompt engineering. First, we develop a GPT-enabled document classification method for screening relevant documents, achieving comparable accuracy and reliability compared to prior models, with only small dataset. Secondly, for NER task, we design an entity-centric prompts, and learning few-shot of them improved the performance on most of entities in three open datasets. Finally, we develop an GPT-enabled extractive QA model, which provides improved performance and shows the possibility of automatically correcting annotations. While our findings confirm the potential of GPT-enabled MLP models as well as their value in terms of reliability and practicability, our scientific methods and systematic approach are applicable to any materials science domain to accelerate the information extraction of scientific literature.
翻訳日:2023-08-21 14:05:14 公開日:2023-08-18
# 対話型指導における多レベル合成推論

Multi-Level Compositional Reasoning for Interactive Instruction Following ( http://arxiv.org/abs/2308.09387v1 )

ライセンス: Link先を確認
Suvaansh Bhambri, Byeonghwi Kim, Jonghyun Choi(参考訳) 自然言語指示による家庭内雑用を行うロボットエージェントは、環境をナビゲートし、環境内の物体と対話する複雑な仕事をマスターする必要がある。 エージェントに与えられたタスクは複合的であるため、コーヒーのカップなど複数のサブタスクを推論する必要があるため、難しい。 この課題に対処するために,タスクを複数のサブゴールに分割し,より優れたナビゲーションとインタラクションのために個別にそれに参加することを提案する。 これをMCR-Agent(Multi-level compositional Reasoning Agent)と呼ぶ。 具体的には、3段階のアクションポリシーを学びます。 最上位レベルでは、高レベルポリシー構成制御器による言語命令に基づいて、人間の解釈可能なサブゴールのシーケンスを推測する。 中間レベルでは、ナビゲーションポリシーと様々な独立したインタラクションポリシーの交替により、エージェントのナビゲーションをマスターポリシーで識別的に制御する。 最後に、最も低いレベルでは、適切な相互作用ポリシーを用いて対応するオブジェクトマスクとの操作動作を推測する。 我々のアプローチは人間の解釈可能なサブゴールを生成するだけでなく、ルールベースの計画やセマンティック空間記憶を使わずに、効率測定(PLWSR)における同等の芸術状態に対して2.03%の絶対ゲインを達成する。

Robotic agents performing domestic chores by natural language directives are required to master the complex job of navigating environment and interacting with objects in the environments. The tasks given to the agents are often composite thus are challenging as completing them require to reason about multiple subtasks, e.g., bring a cup of coffee. To address the challenge, we propose to divide and conquer it by breaking the task into multiple subgoals and attend to them individually for better navigation and interaction. We call it Multi-level Compositional Reasoning Agent (MCR-Agent). Specifically, we learn a three-level action policy. At the highest level, we infer a sequence of human-interpretable subgoals to be executed based on language instructions by a high-level policy composition controller. At the middle level, we discriminatively control the agent's navigation by a master policy by alternating between a navigation policy and various independent interaction policies. Finally, at the lowest level, we infer manipulation actions with the corresponding object masks using the appropriate interaction policy. Our approach not only generates human interpretable subgoals but also achieves 2.03% absolute gain to comparable state of the arts in the efficiency metric (PLWSR in unseen set) without using rule-based planning or a semantic spatial memory.
翻訳日:2023-08-21 13:57:32 公開日:2023-08-18
# DReg-NeRF:ニューラルラジアンスフィールドの深部登録

DReg-NeRF: Deep Registration for Neural Radiance Fields ( http://arxiv.org/abs/2308.09386v1 )

ライセンス: Link先を確認
Yu Chen, Gim Hee Lee(参考訳) 最近、コンピュータビジョンコミュニティでNeRF(Neural Radiance Fields)が人気になっているが、複数のNeRFを登録することは、まだ大きな注目を集めていない。 従来の最適化手法をベースとして,人間のアノテートキーポイントを必要とするNeRF2NeRFとは異なり,人間の介入を伴わないオブジェクト中心シーンにおけるNeRF登録問題を解決するためにDReg-NeRFを提案する。 DReg-NeRFは、NeRFの占有格子から特徴を抽出する。 その後、DReg-NeRFは自己アテンション層とクロスアテンション層を持つトランスフォーマーアーキテクチャを用いて、対のNeRFブロックの関係を学習する。 sota(state-of-the-art)ポイントクラウド登録法とは対照的に、分離された対応はラベルを重複させることなく表面フィールドによって監督される。 我々は,objaverseから得られた1,700以上の3dオブジェクトを用いた新しいビュー合成データセットを構築し,ネットワークを訓練する。 テストセットで評価すると,提案手法は平均$\text{RPE}=9.67^{\circ}$,平均$\text{RTE}=0.038$でSOTAポイントクラウド登録手法を大きなマージンで打ち破る。 私たちのコードはhttps://github.com/aibluefisher/dreg-nerfで利用可能です。

Although Neural Radiance Fields (NeRF) is popular in the computer vision community recently, registering multiple NeRFs has yet to gain much attention. Unlike the existing work, NeRF2NeRF, which is based on traditional optimization methods and needs human annotated keypoints, we propose DReg-NeRF to solve the NeRF registration problem on object-centric scenes without human intervention. After training NeRF models, our DReg-NeRF first extracts features from the occupancy grid in NeRF. Subsequently, our DReg-NeRF utilizes a transformer architecture with self-attention and cross-attention layers to learn the relations between pairwise NeRF blocks. In contrast to state-of-the-art (SOTA) point cloud registration methods, the decoupled correspondences are supervised by surface fields without any ground truth overlapping labels. We construct a novel view synthesis dataset with 1,700+ 3D objects obtained from Objaverse to train our network. When evaluated on the test set, our proposed method beats the SOTA point cloud registration methods by a large margin, with a mean $\text{RPE}=9.67^{\circ}$ and a mean $\text{RTE}=0.038$. Our code is available at https://github.com/AIBluefisher/DReg-NeRF.
翻訳日:2023-08-21 13:57:09 公開日:2023-08-18
# イベントからの画像再構成を伴う共同学習によるラベルフリーイベントベース物体認識

Label-Free Event-based Object Recognition via Joint Learning with Image Reconstruction from Events ( http://arxiv.org/abs/2308.09383v1 )

ライセンス: Link先を確認
Hoonhee Cho, Hyeonseong Kim, Yujeong Chae, and Kuk-Jin Yoon(参考訳) ペア画像やカテゴリラベルが存在しない場合、スパースイベントやノイズイベントからオブジェクトを認識することは極めて困難になる。 本稿では,カテゴリラベルとペア画像が利用できないラベルのないイベントベースオブジェクト認識について検討する。 この目的のために,物体認識と画像再構成を相補的に共同で定式化することを提案する。 提案手法は,まずイベントからイメージを再構成し,コントラスト言語-画像事前学習(CLIP)によりオブジェクト認識を行う。 画像の復元にはカテゴリ情報が不可欠であるため,予測したカテゴリのテクスト特徴とクリップを用いた再構成画像の視覚特徴を橋渡しするために,カテゴリ誘導アトラクション損失とカテゴリ非依存反発損失を提案する。 さらに,信頼性の高いデータサンプリング戦略と局所的グローバルリコンストラクション一貫性を導入し,協調学習の促進を図る。 また, 予測精度と復元品質を向上させるため, 非ペア画像を用いたプロトタイプベース手法を提案する。 広汎な実験により,ゼロショット物体認識における手法の優位性と拡張性を示す。 プロジェクトコードは \url{https://github.com/Chohoonhee/Ev-LaFOR} で利用可能です。

Recognizing objects from sparse and noisy events becomes extremely difficult when paired images and category labels do not exist. In this paper, we study label-free event-based object recognition where category labels and paired images are not available. To this end, we propose a joint formulation of object recognition and image reconstruction in a complementary manner. Our method first reconstructs images from events and performs object recognition through Contrastive Language-Image Pre-training (CLIP), enabling better recognition through a rich context of images. Since the category information is essential in reconstructing images, we propose category-guided attraction loss and category-agnostic repulsion loss to bridge the textual features of predicted categories and the visual features of reconstructed images using CLIP. Moreover, we introduce a reliable data sampling strategy and local-global reconstruction consistency to boost joint learning of two tasks. To enhance the accuracy of prediction and quality of reconstruction, we also propose a prototype-based approach using unpaired images. Extensive experiments demonstrate the superiority of our method and its extensibility for zero-shot object recognition. Our project code is available at \url{https://github.com/Chohoonhee/Ev-LaFOR}.
翻訳日:2023-08-21 13:56:43 公開日:2023-08-18
# ブラックボックス設定時のグラディエント様説明について:ブラックボックス説明がホワイトボックスと同じくらい良い時

On Gradient-like Explanation under a Black-box Setting: When Black-box Explanations Become as Good as White-box ( http://arxiv.org/abs/2308.09381v1 )

ライセンス: Link先を確認
Yi Cai, Gerhard Wunder(参考訳) アトリビューションメソッドは、ディープラーニングモデルのようなデータ駆動アプローチの説明可能性に光を当て、意思決定に最も寄与する機能を明らかにした。 特徴属性を導出する広く受け入れられている方法は、入力特徴に関する対象関数の勾配を分析することである。 勾配の分析にはターゲットシステムへの完全なアクセスが必要であり、この種類のソリューションはターゲットシステムをホワイトボックスとして扱う。 しかし、セキュリティや安全性の懸念から、ホワイトボックスの仮定は不可能である可能性があるため、実用的応用は制限される。 制限された柔軟性に対する応答として,ブラックボックス設定下で勾配のような説明を提供するGEEX(gradient-estimation-based explanation)を提案する。 さらに,提案手法をパス法に統合する。 その結果、iGEEX (integrated GEEX) は属性法の4つの基本公理を満たす:感度、不感度、実装不変性、線形性。 画像データに焦点を合わせることで,提案手法が最先端のブラックボックス法より優れ,フルアクセスの手法と比較して競争性能が向上することを示す。

Attribution methods shed light on the explainability of data-driven approaches such as deep learning models by revealing the most contributing features to decisions that have been made. A widely accepted way of deriving feature attributions is to analyze the gradients of the target function with respect to input features. Analysis of gradients requires full access to the target system, meaning that solutions of this kind treat the target system as a white-box. However, the white-box assumption may be untenable due to security and safety concerns, thus limiting their practical applications. As an answer to the limited flexibility, this paper presents GEEX (gradient-estimation-based explanation), an explanation method that delivers gradient-like explanations under a black-box setting. Furthermore, we integrate the proposed method with a path method. The resulting approach iGEEX (integrated GEEX) satisfies the four fundamental axioms of attribution methods: sensitivity, insensitivity, implementation invariance, and linearity. With a focus on image data, the exhaustive experiments empirically show that the proposed methods outperform state-of-the-art black-box methods and achieve competitive performance compared to the ones with full access.
翻訳日:2023-08-21 13:56:23 公開日:2023-08-18
# 説明可能な人工知能を用いた変形性膝関節症の診断

Deciphering knee osteoarthritis diagnostic features with explainable artificial intelligence: A systematic review ( http://arxiv.org/abs/2308.09380v1 )

ライセンス: Link先を確認
Yun Xin Teoh, Alice Othmani, Siew Li Goh, Juliana Usman, Khin Wee Lai(参考訳) 人工膝関節症(OA)を診断するための既存の人工知能(AI)モデルは、医療専門家のようなパフォーマンスを達成しているにもかかわらず、透明性と解釈性の欠如を批判されている。 この不透明さは、臨床実践の信頼を損なう。 近年,説明可能な人工知能(xai)が,予測の導出方法を明らかにすることで,モデルの予測に自信を与える技術として登場し,医療におけるaiシステムの利用を促進する。 本報告では膝OA診断に用いるXAI技術について紹介する。 XAI技術はデータ解釈可能性とモデル解釈可能性という2つの観点から議論されている。 本研究の目的は,xaiのより信頼性の高い膝oa診断アプローチへの可能性に関する貴重な知見を提供し,臨床応用を促進することである。

Existing artificial intelligence (AI) models for diagnosing knee osteoarthritis (OA) have faced criticism for their lack of transparency and interpretability, despite achieving medical-expert-like performance. This opacity makes them challenging to trust in clinical practice. Recently, explainable artificial intelligence (XAI) has emerged as a specialized technique that can provide confidence in the model's prediction by revealing how the prediction is derived, thus promoting the use of AI systems in healthcare. This paper presents the first survey of XAI techniques used for knee OA diagnosis. The XAI techniques are discussed from two perspectives: data interpretability and model interpretability. The aim of this paper is to provide valuable insights into XAI's potential towards a more reliable knee OA diagnosis approach and encourage its adoption in clinical practice.
翻訳日:2023-08-21 13:56:02 公開日:2023-08-18
# 自由フェルミオン射影対状態に対する重なり木構築

Stacked tree construction for free-fermion projected entangled pair states ( http://arxiv.org/abs/2308.09377v1 )

ライセンス: Link先を確認
Yuman He, Kangle Li, Yanbai Zhang, Hoi Chun Po(参考訳) 高次元における状態のテンソルネットワーク表現、例えば射影エンタングルペア状態(PEPS)は、典型的には変分最適化または虚時ハミルトン進化によって間接的に得られる。 本稿では,指数的局所化ワニエ関数を満たすことで記述を許容する自由フェルミオン状態に対するpeps表現を直接構築する手法を提案する。 本手法は,まず局所部分領域の状態のツリーテンソルネットワーク記述を求める。 次に、局所木をPEPSに結合するために積み重ね手順が使用される。 最後に、局所テンソルを圧縮してより効率的な記述を得る。 四角格子上の閉塞原子絶縁体の基底状態を含む、一次元と二次元の状態に対する我々の構成を実証する。

The tensor network representation of a state in higher dimensions, say a projected entangled-pair state (PEPS), is typically obtained indirectly through variational optimization or imaginary-time Hamiltonian evolution. Here, we propose a divide-and-conquer approach to directly construct a PEPS representation for free-fermion states admitting descriptions in terms of filling exponentially localized Wannier functions. Our approach relies on first obtaining a tree tensor network description of the state in local subregions. Next, a stacking procedure is used to combine the local trees into a PEPS. Lastly, the local tensors are compressed to obtain a more efficient description. We demonstrate our construction for states in one and two dimensions, including the ground state of an obstructed atomic insulator on the square lattice.
翻訳日:2023-08-21 13:55:49 公開日:2023-08-18
# ゼロタッチネットワークにおけるDRLに基づくアンチジャミング戦略のための大規模言語モデルの活用

Leveraging Large Language Models for DRL-Based Anti-Jamming Strategies in Zero Touch Networks ( http://arxiv.org/abs/2308.09376v1 )

ライセンス: Link先を確認
Abubakar S. Ali, Dimitrios Michael Manias, Abdallah Shami, Sami Muhaidat(参考訳) 第6世代(6G)ネットワークの夜明けとして、コミュニケーションと自動化の先例のない進歩を約束する。 6Gの先進的な革新の1つはゼロタッチネットワーク(ZTN)の概念であり、人間の介入を最小限に抑えて完全に自動化され、自己最適化されたネットワークを実現することを目的としている。 ZTNの利点は効率性とスケーラビリティにあるが、透明性、適応性、および人間の信頼に関わる課題は依然として一般的である。 同時に、LLM(Large Language Models)の出現は、自動化されたプロセスと人間中心のインターフェースのギャップを埋めることで、ZTNフレームワークを高める機会を提供する。 本稿では,LLMをZTNに統合し,ネットワーク透過性を高め,ユーザインタラクションを改善する可能性を明らかにする。 深部強化学習(DRL)に基づくアンチジャミング技術に関する包括的ケーススタディを通じて,LLMが複雑なネットワーク操作を直感的で可読なレポートに蒸留する方法を実証した。 さらに,データプライバシ,透明性,バイアス低減に重点を置いて,llmとztnを融合する技術的および倫理的な複雑さにも対処する。 今後、LLMとZTNのネクサスにおける新たな研究ルートを特定し、自動化ネットワークの領域における持続的なイノベーションと学際的なシナジーを提唱する。

As the dawn of sixth-generation (6G) networking approaches, it promises unprecedented advancements in communication and automation. Among the leading innovations of 6G is the concept of Zero Touch Networks (ZTNs), aiming to achieve fully automated, self-optimizing networks with minimal human intervention. Despite the advantages ZTNs offer in terms of efficiency and scalability, challenges surrounding transparency, adaptability, and human trust remain prevalent. Concurrently, the advent of Large Language Models (LLMs) presents an opportunity to elevate the ZTN framework by bridging the gap between automated processes and human-centric interfaces. This paper explores the integration of LLMs into ZTNs, highlighting their potential to enhance network transparency and improve user interactions. Through a comprehensive case study on deep reinforcement learning (DRL)-based anti-jamming technique, we demonstrate how LLMs can distill intricate network operations into intuitive, human-readable reports. Additionally, we address the technical and ethical intricacies of melding LLMs with ZTNs, with an emphasis on data privacy, transparency, and bias reduction. Looking ahead, we identify emerging research avenues at the nexus of LLMs and ZTNs, advocating for sustained innovation and interdisciplinary synergy in the domain of automated networks.
翻訳日:2023-08-21 13:55:35 公開日:2023-08-18
# hyperspectral unmixingのための画像処理と機械学習:概要とhysupp pythonパッケージ

Image Processing and Machine Learning for Hyperspectral Unmixing: An Overview and the HySUPP Python Package ( http://arxiv.org/abs/2308.09375v1 )

ライセンス: Link先を確認
Behnood Rasti (HZDR), Alexandre Zouaoui (Thoth), Julien Mairal (Thoth), Jocelyn Chanussot (Thoth)(参考訳) スペクトルピクセルはしばしば、ハイパースペクトルセンサーの低空間分解能、二重散乱、シーン内の物質の密接な混合により、エンドメンバーと呼ばれる物質の純粋なスペクトルの混合物である。 unmixingはピクセル内のエンドメンバーの分数量を推定する。 エンドメンバーの事前の知識によって、線形アンミックスは、教師なし、半教師なし、非教師なし(blind)の3つの主要なグループに分けられる。 画像処理と機械学習の進歩は、unmixingに大きな影響を与えた。 本稿では,従来のアンミックス手法の概要を紹介する。 さらに,3つのカテゴリから,先進技術と従来技術の比較を行った。 3つの実データセットと2つの実データセットにおけるアンミキシング手法の性能を比較する。 実験の結果,異なる混合シナリオに対する異なる混合カテゴリの利点が明らかになった。 さらに、結果を再現するために、オープンソースのpythonベースのパッケージがhttps://github.com/behnoodrasti/hysuppで利用可能である。

Spectral pixels are often a mixture of the pure spectra of the materials, called endmembers, due to the low spatial resolution of hyperspectral sensors, double scattering, and intimate mixtures of materials in the scenes. Unmixing estimates the fractional abundances of the endmembers within the pixel. Depending on the prior knowledge of endmembers, linear unmixing can be divided into three main groups: supervised, semi-supervised, and unsupervised (blind) linear unmixing. Advances in Image processing and machine learning substantially affected unmixing. This paper provides an overview of advanced and conventional unmixing approaches. Additionally, we draw a critical comparison between advanced and conventional techniques from the three categories. We compare the performance of the unmixing techniques on three simulated and two real datasets. The experimental results reveal the advantages of different unmixing categories for different unmixing scenarios. Moreover, we provide an open-source Python-based package available at https://github.com/BehnoodRasti/HySUPP to reproduce the results.
翻訳日:2023-08-21 13:55:09 公開日:2023-08-18
# 二元分類のためのディープニューラルネットワークの雑音感度と安定性

Noise Sensitivity and Stability of Deep Neural Networks for Binary Classification ( http://arxiv.org/abs/2308.09374v1 )

ライセンス: Link先を確認
Johan Jonasson, Jeffrey E. Steif and Olof Zetterqvist(参考訳) 最初のステップは、ディープ・ニューラルネット(DNN)分類器のしばしば観測される非破壊現象を理解することである。 これはブール関数の観点から、一般的なDNNモデルで表されるブール関数の特定の列がノイズ感受性であるか、あるいはノイズ安定であるかを問うことで実現される。 DNNモデルの自然ランダム性のため、これらの概念は熱処理および焼成バージョンに拡張される。 ここでは、これらの定義間の関係を整理し、ガウス重みを始点とする2つの標準DNNアーキテクチャ(完全連結モデルと畳み込みモデル)の特性について検討する。

A first step is taken towards understanding often observed non-robustness phenomena of deep neural net (DNN) classifiers. This is done from the perspective of Boolean functions by asking if certain sequences of Boolean functions represented by common DNN models are noise sensitive or noise stable, concepts defined in the Boolean function literature. Due to the natural randomness in DNN models, these concepts are extended to annealed and quenched versions. Here we sort out the relation between these definitions and investigate the properties of two standard DNN architectures, the fully connected and convolutional models, when initiated with Gaussian weights.
翻訳日:2023-08-21 13:54:55 公開日:2023-08-18
# どの変圧器を好むか:視覚変換器の効率の比較分析

Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers ( http://arxiv.org/abs/2308.09372v1 )

ライセンス: Link先を確認
Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel(参考訳) 画像分類のゴートモデルとしてのビジョントランスフォーマーの人気が高まり、オリジナルのViTよりも効率的であると主張するアーキテクチャ変更が急増した。 しかし、実験条件の多様さは、報告された結果のみに基づいて、すべての条件間で公正な比較を妨げている。 このようなコンパラビリティのギャップに対処するため、様々な性能指標を考慮して、30モデル以上の総合的な分析を行い、視覚変換器と関連するアーキテクチャの効率を評価する。 私たちのベンチマークでは、効率志向のトランスフォーマーの風景に匹敵するベースラインを提供しています。 例えば、ViTは、より効率的であると主張するいくつかの代替アプローチが存在するにもかかわらず、複数の効率指標に対して依然としてパレートが最適であることがわかった。 また,低推論メモリやパラメータ数に関しては,ハイブリッドアテンションCNNモデルは特に良好であり,画像サイズよりもモデルサイズをスケールした方がよいことも示唆した。 さらに,FLOPS数とトレーニングメモリとの間には強い正の相関関係がみられ,理論的な測定だけで必要なVRAMを推定できることがわかった。 総合的な評価のおかげで,本研究は実践者や研究者に貴重な洞察を与え,特定のアプリケーションのためのモデルを選択する際の情報的意思決定を促進する。 コードとデータはhttps://github.com/tobna/WhatTransformerToFavorで公開しています。

The growing popularity of Vision Transformers as the go-to models for image classification has led to an explosion of architectural modifications claiming to be more efficient than the original ViT. However, a wide diversity of experimental conditions prevents a fair comparison between all of them, based solely on their reported results. To address this gap in comparability, we conduct a comprehensive analysis of more than 30 models to evaluate the efficiency of vision transformers and related architectures, considering various performance metrics. Our benchmark provides a comparable baseline across the landscape of efficiency-oriented transformers, unveiling a plethora of surprising insights. For example, we discover that ViT is still Pareto optimal across multiple efficiency metrics, despite the existence of several alternative approaches claiming to be more efficient. Results also indicate that hybrid attention-CNN models fare particularly well when it comes to low inference memory and number of parameters, and also that it is better to scale the model size, than the image size. Furthermore, we uncover a strong positive correlation between the number of FLOPS and the training memory, which enables the estimation of required VRAM from theoretical measurements alone. Thanks to our holistic evaluation, this study offers valuable insights for practitioners and researchers, facilitating informed decisions when selecting models for specific applications. We publicly release our code and data at https://github.com/tobna/WhatTransformerToFavor
翻訳日:2023-08-21 13:54:45 公開日:2023-08-18
# 皮質地図形成と人間の視覚行動モデルとしてのエンド・ツー・エンド地形ネットワーク--畳み込みを超えて

End-to-end topographic networks as models of cortical map formation and human visual behaviour: moving beyond convolutions ( http://arxiv.org/abs/2308.09431v1 )

ライセンス: Link先を確認
Zejin Lu, Adrien Doerig, Victoria Bosch, Bas Krahmer, Daniel Kaiser, Radoslaw M Cichy, Tim C Kietzmann(参考訳) 計算モデルは、霊長類の視覚系の地形組織の起源と機能を理解するための重要なツールである。 しかし、視覚は一般に畳み込みニューラルネットワークによってモデル化され、空間で同じ特徴を学習することで地形を無視している。 本稿では、この制限を全TNN(All-Topographic Neural Networks)によって克服する。 視覚的入力に基づいて訓練された霊長類地形の特徴は、第1層におけるスムーズな向きマップと皮質拡大、最終層におけるカテゴリー選択領域などである。 さらに,物体認識における人間の空間バイアスの新たなデータセットを導入し,モデルと行動を直接リンクできるようにする。 我々は,全tnnが従来の畳み込み畳み込みモデルよりも地形的性質から,人間の行動にかなりよく適合することを示す。 これにより、全TNNは視覚脳の空間的構造と、それが視覚行動をどのように仲介するかを理解するための重要な一歩となる。

Computational models are an essential tool for understanding the origin and functions of the topographic organisation of the primate visual system. Yet, vision is most commonly modelled by convolutional neural networks that ignore topography by learning identical features across space. Here, we overcome this limitation by developing All-Topographic Neural Networks (All-TNNs). Trained on visual input, several features of primate topography emerge in All-TNNs: smooth orientation maps and cortical magnification in their first layer, and category-selective areas in their final layer. In addition, we introduce a novel dataset of human spatial biases in object recognition, which enables us to directly link models to behaviour. We demonstrate that All-TNNs significantly better align with human behaviour than previous state-of-the-art convolutional models due to their topographic nature. All-TNNs thereby mark an important step forward in understanding the spatial organisation of the visual brain and how it mediates visual behaviour.
翻訳日:2023-08-21 13:48:45 公開日:2023-08-18
# 遅延確率勾配の一般化可能性の解明に向けて

Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent ( http://arxiv.org/abs/2308.09430v1 )

ライセンス: Link先を確認
Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li, and Dacheng Tao(参考訳) 非同期に実行される確率的勾配降下(sgd)は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。 しかし、機械学習アルゴリズムを評価するための重要な指標である非同期遅延SGDの一般化性能はめったに研究されていない。 既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。 本稿では、非同期遅延$\tau$でSGDのよりシャープな一般化誤差について検討する。 生成関数解析ツールを活用することで、まず遅延勾配アルゴリズムの平均安定性を確立する。 このアルゴリズムの安定性に基づき、それぞれ2次凸問題と強い凸問題に対して$\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$と$\tilde{\mathcal{O}}(\frac{1}{n})$の一般化誤差について上限を与える。 その結果,非同期遅延は遅延sgdアルゴリズムの一般化誤差を減少させることが示唆された。 類似解析はランダム遅延設定に一般化でき, 実験結果から理論的知見が得られた。

Stochastic gradient descent (SGD) performed in an asynchronous manner plays a crucial role in training large-scale machine learning models. However, the generalization performance of asynchronous delayed SGD, which is an essential metric for assessing machine learning algorithms, has rarely been explored. Existing generalization error bounds are rather pessimistic and cannot reveal the correlation between asynchronous delays and generalization. In this paper, we investigate sharper generalization error bound for SGD with asynchronous delay $\tau$. Leveraging the generating function analysis tool, we first establish the average stability of the delayed gradient algorithm. Based on this algorithmic stability, we provide upper bounds on the generalization error of $\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$ and $\tilde{\mathcal{O}}(\frac{1}{n})$ for quadratic convex and strongly convex problems, respectively, where $T$ refers to the iteration number and $n$ is the amount of training data. Our theoretical results indicate that asynchronous delays reduce the generalization error of the delayed SGD algorithm. Analogous analysis can be generalized to the random delay setting, and the experimental results validate our theoretical findings.
翻訳日:2023-08-21 13:48:28 公開日:2023-08-18
# シームズニューラルネットワークを用いた自己教師付き単一画像デコンボリューション

Self-Supervised Single-Image Deconvolution with Siamese Neural Networks ( http://arxiv.org/abs/2308.09426v1 )

ライセンス: Link先を確認
Mikhail Papkov, Kaupo Palo, Leopold Parts(参考訳) 画像再構成における逆問題は、未知のノイズ特性によって根本的に複雑である。 古典的な反復的デコンボリューションはノイズを増幅し、シャープネスと穀物の最適なトレードオフのために注意深いパラメータ選択を必要とする。 ディープラーニングの手法は、ノイズの柔軟なパラメトリゼーションを可能にし、データから直接その特性を学習する。 近年、画像のデコンボリューションには、エンドツーエンドのトレーニングに既知のポイントスプレッド機能を含め、自己監視型盲点ニューラルネットワークがうまく採用されている。 しかし、その実用的応用は生物医学領域の2d画像に限られている。 我々は3次元顕微鏡デコンボリューションタスクにおけるトレーニング速度アップを提供する高速フーリエ変換畳み込み問題に対処する。 さらに,デコンボリューションにシアム不分散損失を適用し,ブラインドスポット枝とフル画像枝間のニューラルネットワークにおけるその最適位置を実験的に同定する。 実験の結果,改良されたフレームワークは,既知の点展開関数を持つ従来の最先端のデコンボリューション手法よりも優れていた。

Inverse problems in image reconstruction are fundamentally complicated by unknown noise properties. Classical iterative deconvolution approaches amplify noise and require careful parameter selection for an optimal trade-off between sharpness and grain. Deep learning methods allow for flexible parametrization of the noise and learning its properties directly from the data. Recently, self-supervised blind-spot neural networks were successfully adopted for image deconvolution by including a known point-spread function in the end-to-end training. However, their practical application has been limited to 2D images in the biomedical domain because it implies large kernels that are poorly optimized. We tackle this problem with Fast Fourier Transform convolutions that provide training speed-up in 3D microscopy deconvolution tasks. Further, we propose to adopt a Siamese invariance loss for deconvolution and empirically identify its optimal position in the neural network between blind-spot and full image branches. The experimental results show that our improved framework outperforms the previous state-of-the-art deconvolution methods with a known point spread function.
翻訳日:2023-08-21 13:48:04 公開日:2023-08-18
# MonoNeRD:モノクロ3次元物体検出のためのNeRFライクな表現

MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection ( http://arxiv.org/abs/2308.09421v1 )

ライセンス: Link先を確認
Junkai Xu, Liang Peng, Haoran Cheng, Hao Li, Wei Qian, Ke Li, Wenxiao Wang, Deng Cai(参考訳) 単眼3次元検出の分野では,現場の幾何学的手がかりを用いて検出器の性能を向上させることが一般的である。 しかし、既存の多くの作品では、深度マップの推定や3d空間へのバックプロジェクションなど、これらの手がかりを明示的に採用している。 この明示的な手法は2次元から3次元への次元性の増大により3次元表現の空間性を誘導し、特に遠方および隠蔽物体において、かなりの情報損失をもたらす。 この問題を軽減するために,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。 具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。 我々はこれらの表現をNeRF(Neural Radiance Fields)として扱い、ボリュームレンダリングを用いてRGB画像と深度マップを復元する。 我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。 KITTI-3DベンチマークとWaymo Open Datasetで実施された大規模な実験は、MonoNeRDの有効性を示している。 コードはhttps://github.com/cskkxjk/mononerdで入手できる。

In the field of monocular 3D detection, it is common practice to utilize scene geometric clues to enhance the detector's performance. However, many existing works adopt these clues explicitly such as estimating a depth map and back-projecting it into 3D space. This explicit methodology induces sparsity in 3D representations due to the increased dimensionality from 2D to 3D, and leads to substantial information loss, especially for distant and occluded objects. To alleviate this issue, we propose MonoNeRD, a novel detection framework that can infer dense 3D geometry and occupancy. Specifically, we model scenes with Signed Distance Functions (SDF), facilitating the production of dense 3D representations. We treat these representations as Neural Radiance Fields (NeRF) and then employ volume rendering to recover RGB images and depth maps. To the best of our knowledge, this work is the first to introduce volume rendering for M3D, and demonstrates the potential of implicit reconstruction for image-based 3D perception. Extensive experiments conducted on the KITTI-3D benchmark and Waymo Open Dataset demonstrate the effectiveness of MonoNeRD. Codes are available at https://github.com/cskkxjk/MonoNeRD.
翻訳日:2023-08-21 13:47:47 公開日:2023-08-18
# 単粒子拡散軌道解析のための機械学習ソリューション

Machine-Learning Solutions for the Analysis of Single-Particle Diffusion Trajectories ( http://arxiv.org/abs/2308.09414v1 )

ライセンス: Link先を確認
Henrik Seckler, Janusz Szwabinski, and Ralf Metzler(参考訳) 分子、細胞、動物の拡散運動の単一粒子の痕跡は、株価や気象データの確率的な記録と同様に、現在定期的に測定されている。 記録された力学の背後にある確率的メカニズムの解読は、観測されたシステムを理解する上で不可欠である。 通常、タスクは拡散の正確なタイプを解読し、またはシステムパラメータを決定することである。 この取り組みで使われるツールは、現代の機械学習技術によって現在革新されている。 このパースペクティブでは、拡散時系列の機械学習における最近導入された手法の概要、特にAnomalous-Diffusion-Challenge における競合に成功しているものを概説する。 このような方法が解釈可能性の欠如によってしばしば批判されるため、我々は不確実性推定と特徴ベースアプローチを含む手段に焦点を合わせ、解釈可能性を改善し、機械の学習プロセスに具体的な洞察を与える。 我々は,異なる分布データに対する予測を調べることにより,議論を拡大する。 今後の展望についてもコメントする。

Single-particle traces of the diffusive motion of molecules, cells, or animals are by-now routinely measured, similar to stochastic records of stock prices or weather data. Deciphering the stochastic mechanism behind the recorded dynamics is vital in understanding the observed systems. Typically, the task is to decipher the exact type of diffusion and/or to determine system parameters. The tools used in this endeavor are currently revolutionized by modern machine-learning techniques. In this Perspective we provide an overview over recently introduced methods in machine-learning for diffusive time series, most notably, those successfully competing in the Anomalous-Diffusion-Challenge. As such methods are often criticized for their lack of interpretability, we focus on means to include uncertainty estimates and feature-based approaches, both improving interpretability and providing concrete insight into the learning process of the machine. We expand the discussion by examining predictions on different out-of-distribution data. We also comment on expected future developments.
翻訳日:2023-08-21 13:47:26 公開日:2023-08-18
# メタデータによるマルチタスクによるセグメンテーションの改善

Metadata Improves Segmentation Through Multitasking Elicitation ( http://arxiv.org/abs/2308.09411v1 )

ライセンス: Link先を確認
Iaroslav Plutenko, Mikhail Papkov, Kaupo Palo, Leopold Parts, Dmytro Fishman(参考訳) メタ情報(Metainformation)は、生体画像の共通部分である。 しかし、画像取得によるこの潜在的に強力な信号源は、特にセマンティックセグメンテーションにおいて、ディープラーニング手法に限られている。 本稿では,畳み込みネットワークにおけるチャネル変調機構を用いてメタデータを組み込み,セマンティックセグメンテーションタスクに与える影響について検討する。 畳み込みネットワークへの付加的な入力としてのメタデータは、一般的なモデルに対するピンブルアドオンとして実装が安価でありながらセグメンテーション結果を改善することができることを示す。 このメタデータの利点はマルチタスクの切り替えを容易にすることに起因すると仮定する。 メタデータ駆動システムのこの側面を詳細に検討し、議論する。

Metainformation is a common companion to biomedical images. However, this potentially powerful additional source of signal from image acquisition has had limited use in deep learning methods, for semantic segmentation in particular. Here, we incorporate metadata by employing a channel modulation mechanism in convolutional networks and study its effect on semantic segmentation tasks. We demonstrate that metadata as additional input to a convolutional network can improve segmentation results while being inexpensive in implementation as a nimble add-on to popular models. We hypothesize that this benefit of metadata can be attributed to facilitating multitask switching. This aspect of metadata-driven systems is explored and discussed in detail.
翻訳日:2023-08-21 13:47:10 公開日:2023-08-18
# ワニエ励起子を担持する半導体の電子-ホール交換に対するアブイニチオ量子アプローチ

Ab initio quantum approach to electron-hole exchange for semiconductors hosting Wannier excitons ( http://arxiv.org/abs/2308.09410v1 )

ライセンス: Link先を確認
Monique Combescot, Thierry Amand, Shiue-Yuan Shiau(参考訳) ブロッホ状態の電子作用素を用いて問題を記述するために、第2の量子化形式を用いた電子-ホール対交換法(electron-hole pair exchange)を提案する。 このアプローチは、そのような特異な効果がバンド間クーロンプロセスから生じるという事実を透明にする。 まず、価電子破壊演算子からホール生成演算子に切り替える際の符号変化により、バンド間クーロン相互作用は、バンド間電子-光子相互作用と同様にスピン-シンガレット電子-ホール対にのみ作用し、これらのスピン-シンガレット対を光学的に明るくすることを示した。 次に、逆格子ベクトル ${\bf g}_m$ を用いて書くと、小さな波-ベクトル転移極限におけるバンド間クーロン散乱の特異性は、${\bf g}_m = 0$項から完全に導かれることが示され、その特異な振る舞いを計算しやすくする。 すべての${\bf R}\not= 0$ 格子ベクトルに対する「長距離過程」の和を通して特異性が現れる通常の実空間の定式化と比較すると、周期系は、逆ベクトルの項で${\bf G}_m$ が、格子ベクトルの項で$\bf R$ よりも扱いやすいことが再び証明される。 励起子とポラリトンに対する電子-ホール交換の結果は、様々な理由で再検討され、反論される。

We propose a quantum approach to "electron-hole exchange", better named electron-hole pair exchange, that makes use of the second quantization formalism to describe the problem in terms of Bloch-state electron operators. This approach renders transparent the fact that such singular effect comes from interband Coulomb processes. We first show that, due to the sign change when turning from valence-electron destruction operator to hole creation operator, the interband Coulomb interaction only acts on spin-singlet electron-hole pairs, just like the interband electron-photon interaction, thereby making these spin-singlet pairs optically bright. We then show that when written in terms of reciprocal lattice vectors ${\bf G}_m$, the singularity of the interband Coulomb scattering in the small wave-vector transfer limit entirely comes from the ${\bf G}_m = 0$ term, which renders its singular behavior easy to calculate. Comparison with the usual real-space formulation in which the singularity appears through a sum of "long-range processes" over all ${\bf R}\not= 0$ lattice vectors once more proves that periodic systems are easier to handle in terms of reciprocal vectors ${\bf G}_m$ than in terms of lattice vectors $\bf R$. Well-accepted consequences of the electron-hole exchange on excitons and polaritons are reconsidered and refuted for different major reasons.
翻訳日:2023-08-21 13:46:59 公開日:2023-08-18
# 雑音データからmdl論理プログラムを学ぶ

Learning MDL logic programs from noisy data ( http://arxiv.org/abs/2308.09393v1 )

ライセンス: Link先を確認
C\'eline Hocquette, Andreas Niskanen, Matti J\"arvisalo, Andrew Cropper(参考訳) 多くの帰納論理プログラミングアプローチは、ノイズの多いデータからプログラムを学ぶのに苦労している。 この制限を克服するために,再帰的プログラムを含む雑音データから記述長最小プログラムを学習する手法を提案する。 薬物設計,ゲームプレイ,プログラム合成など,いくつかの分野での実験を行った結果,予測精度で既存手法を上回り,中程度の雑音にスケールできることが判明した。

Many inductive logic programming approaches struggle to learn programs from noisy data. To overcome this limitation, we introduce an approach that learns minimal description length programs from noisy data, including recursive programs. Our experiments on several domains, including drug design, game playing, and program synthesis, show that our approach can outperform existing approaches in terms of predictive accuracies and scale to moderate amounts of noise.
翻訳日:2023-08-21 13:46:30 公開日:2023-08-18
# 一般化可能な決定境界:開集合領域一般化のための双対メタラーニング

Generalizable Decision Boundaries: Dualistic Meta-Learning for Open Set Domain Generalization ( http://arxiv.org/abs/2308.09391v1 )

ライセンス: Link先を確認
Xiran Wang, Jian Zhang, Lei Qi, Yinghuan Shi(参考訳) ドメイン一般化(DG)は、ソースとターゲットドメイン間の統計的差異が存在する場合に発生するドメインシフトの問題に対処するために提案される。 しかし、現在のほとんどのメソッドは、ソースとターゲットドメインが異なるクラスを持つ一般的な現実的なシナリオを考慮していない。 この欠点を克服するために、開集合領域一般化(OSDG)は、目に見えない領域の未確認クラスを認識するためのより実践的な設定として現れる。 直感的なアプローチは、複数の one-vs-all 分類器を使用して各クラスの決定境界を定義し、外れ値を未知として拒否する。 しかし、正と負のサンプル間の有意なクラス不均衡は、しばしば正のサンプルに偏った境界を生じさせ、未知のターゲット領域における既知のサンプルの誤分類を引き起こす。 本稿では,ドメイン間およびクラス間分割に対する勾配マッチングを同時に検討し,すべてのタスクにバランスの取れた一般化可能な境界を求める,DomaIn-Class matching (MEDIC) を用いたメタラーニングに基づく新しいフレームワークを提案する。 実験の結果, オープンセットシナリオにおいて, medicは従来の手法よりも優れるだけでなく, 競合的クローズセット一般化能力も維持できることがわかった。 私たちのコードはhttps://github.com/zzwdx/MEDICで利用可能です。

Domain generalization (DG) is proposed to deal with the issue of domain shift, which occurs when statistical differences exist between source and target domains. However, most current methods do not account for a common realistic scenario where the source and target domains have different classes. To overcome this deficiency, open set domain generalization (OSDG) then emerges as a more practical setting to recognize unseen classes in unseen domains. An intuitive approach is to use multiple one-vs-all classifiers to define decision boundaries for each class and reject the outliers as unknown. However, the significant class imbalance between positive and negative samples often causes the boundaries biased towards positive ones, resulting in misclassification for known samples in the unseen target domain. In this paper, we propose a novel meta-learning-based framework called dualistic MEta-learning with joint DomaIn-Class matching (MEDIC), which considers gradient matching towards inter-domain and inter-class splits simultaneously to find a generalizable boundary balanced for all tasks. Experimental results demonstrate that MEDIC not only outperforms previous methods in open set scenarios, but also maintains competitive close set generalization ability at the same time. Our code is available at https://github.com/zzwdx/MEDIC.
翻訳日:2023-08-21 13:46:22 公開日:2023-08-18
# 画像復元・拡張のための拡散モデル -包括的調査-

Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey ( http://arxiv.org/abs/2308.09388v1 )

ライセンス: Link先を確認
Xin Li, Yulin Ren, Xin Jin, Cuiling Lan, Xingrui Wang, Wenjun Zeng, Xinchao Wang, and Zhibo Chen(参考訳) 画像復元(IR)は低レベルの視覚領域において必須かつ困難な課題であり、様々な形態の劣化によって歪んだ画像の主観的品質の向上を目指している。 近年,拡散モデルはAIGCの視覚的生成において顕著な進歩を遂げており,「拡散モデルが画像復元を促進することができるかどうか」という直感的な疑問が提起されている。 これに対応するために、いくつかの先駆的な研究は拡散モデルを画像復元タスクに統合しようと試み、その結果、従来のGAN法よりも優れた性能を得た。 それにもかかわらず、拡散モデルに基づく画像復元に関する包括的で啓蒙的な調査は少ない。 本稿では,画像復元に関する最近の拡散モデルに基づく手法について,学習パラダイム,条件戦略,フレームワーク設計,モデリング戦略,評価を包括的に検討する。 具体的には,まず拡散モデルの背景を簡潔に紹介し,次に拡散モデルを利用した画像復元を行う2つのワークフローを提示する。 その後、今後の発展を促すために、赤外線と視覚/現実世界の両方の拡散モデルを用いて革新的なデザインを分類し、強調する。 既存の手法を徹底的に評価するために,広く使用されているデータセット,実装の詳細,評価指標を要約する。 さらに,画像超解像,デブロアリング,インペイントを含む3つのタスクを対象としたオープンソース手法の客観的比較を行った。 最終的に,既存の研究の限界から,サンプリング効率,モデル圧縮,歪みシミュレーションと推定,歪み不変学習,フレームワーク設計など,将来の拡散モデルベースIR研究の潜在的かつ挑戦的な5つの方向性を提案する。

Image restoration (IR) has been an indispensable and challenging task in the low-level vision field, which strives to improve the subjective quality of images distorted by various forms of degradation. Recently, the diffusion model has achieved significant advancements in the visual generation of AIGC, thereby raising an intuitive question, "whether diffusion model can boost image restoration". To answer this, some pioneering studies attempt to integrate diffusion models into the image restoration task, resulting in superior performances than previous GAN-based methods. Despite that, a comprehensive and enlightening survey on diffusion model-based image restoration remains scarce. In this paper, we are the first to present a comprehensive review of recent diffusion model-based methods on image restoration, encompassing the learning paradigm, conditional strategy, framework design, modeling strategy, and evaluation. Concretely, we first introduce the background of the diffusion model briefly and then present two prevalent workflows that exploit diffusion models in image restoration. Subsequently, we classify and emphasize the innovative designs using diffusion models for both IR and blind/real-world IR, intending to inspire future development. To evaluate existing methods thoroughly, we summarize the commonly-used dataset, implementation details, and evaluation metrics. Additionally, we present the objective comparison for open-sourced methods across three tasks, including image super-resolution, deblurring, and inpainting. Ultimately, informed by the limitations in existing works, we propose five potential and challenging directions for the future research of diffusion model-based IR, including sampling efficiency, model compression, distortion simulation and estimation, distortion invariant learning, and framework design.
翻訳日:2023-08-21 13:45:57 公開日:2023-08-18
# 変圧器言語モデルを用いたメロディ生成のためのサンプリング手法の検討

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model ( http://arxiv.org/abs/2308.09454v1 )

ライセンス: Link先を確認
Mathias Rose Bjare, Stefan Lattner and Gerhard Widmer(参考訳) 自然言語処理の研究は、訓練された自己回帰言語モデルからの世代の品質が、使用済みサンプリング戦略に大きく影響していることを示してきた。 本研究では,異なるサンプリング手法が多様性や構造などの音楽的品質に与える影響について検討する。 そこで本研究では,アイルランド民謡の膨大なコレクション上に高容量トランスフォーマーモデルをトレーニングし,分散トランケーションサンプリング技術を用いて生成されたサンプルの音質を解析する。 具体的には、最近提案された「典型サンプリング」と従来の祖先サンプリングを用いる。 モデルモデルを用いた最適条件と、モデルの性能を体系的に劣化させる最適条件の2つのシナリオにおいて、これらのサンプリング戦略の効果を評価する。 対象および主観的評価を用いて生成したサンプルを評価する。 確率トランケーション手法は,最適条件下での多様性や構造パターンを制限できるが,最適条件下ではより音楽的なサンプルを生成できる可能性がある。

Research in natural language processing has demonstrated that the quality of generations from trained autoregressive language models is significantly influenced by the used sampling strategy. In this study, we investigate the impact of different sampling techniques on musical qualities such as diversity and structure. To accomplish this, we train a high-capacity transformer model on a vast collection of highly-structured Irish folk melodies and analyze the musical qualities of the samples generated using distribution truncation sampling techniques. Specifically, we use nucleus sampling, the recently proposed "typical sampling", and conventional ancestral sampling. We evaluate the effect of these sampling strategies in two scenarios: optimal circumstances with a well-calibrated model and suboptimal circumstances where we systematically degrade the model's performance. We assess the generated samples using objective and subjective evaluations. We discover that probability truncation techniques may restrict diversity and structural patterns in optimal circumstances, but may also produce more musical samples in suboptimal circumstances.
翻訳日:2023-08-21 13:38:42 公開日:2023-08-18
# 衛星画像処理における量子アドバンテージの爆発:量子資源推定

Exploiting the Quantum Advantage for Satellite Image Processing: Quantum Resource Estimation ( http://arxiv.org/abs/2308.09453v1 )

ライセンス: Link先を確認
Soronzonbold Otgonbaatar, Dieter Kranzlm\"uller(参考訳) まず,地球観測と衛星画像の量子コンピューティング技術の現状について概観する。 量子優位性から利益を得るための継続的な課題、高性能コンピューティング(HPC)と量子コンピューティング(QC)の最適な共有を見つけること、すなわち計算EO問題と人工知能(AI)アプローチに対するHPC+QCパラダイムがある。 次に、Clifford+Tの普遍ゲートセットに変換された量子モデルを評価し、Clifford+Tの量子ゲートセットは、HPCシステムまたは複数のQC上に量子モデルをデプロイするために必要な量子リソースに光を当てる。 クリフォード+T量子ゲート集合がHPCシステム上で効率的にシミュレートできない場合、従来のコンピュータに量子コンピュータとその計算能力を適用することができる。 得られた量子リソース推定は、多数のTゲートで構成されていない量子機械学習(QML)モデルが、トレーニングおよび検証プロセス中にHPCシステムにデプロイ可能であることを示し、そうでなければ、複数のQC上でそれらを実行することができる。 すなわち、十分な数のTゲートを持つQMLモデルが、従来のHPCシステムにデプロイされた従来のデータポイントよりもよく見えないデータポイントを一般化し、従来のディープニューラルネットワークのように学習イテレーション毎の重みの対称性を破っている場合に限り、量子的優位性を提供する。 最初の革新として、いくつかのQMLモデルに必要な量子リソースを推定する。 第2に,超スペクトル画像のためのqmlモデル(hsis)を実行するためのhpc+qcシステム間の最適な共有を定義する。hsisは,入力量子ビット数が限られているため,量子コンピュータにデプロイされるマルチスペクトル画像と比較して,特定のデータセットである。

We first review the current state of the art of quantum computing for Earth observation and satellite images. There are the persisting challenges of profiting from quantum advantage, and finding the optimal sharing between high-performance computing (HPC) and quantum computing (QC), i.e. the HPC+QC paradigm, for computational EO problems and Artificial Intelligence (AI) approaches. Secondly, we assess some quantum models transpiled into a Clifford+T universal gate set, where the Clifford+T quantum gate set sheds light on the quantum resources required for deploying quantum models either on an HPC system or several QCs. If the Clifford+T quantum gate set cannot be simulated efficiently on an HPC system then we can apply a quantum computer and its computational power over conventional computers. Our resulting quantum resource estimation demonstrates that Quantum Machine Learning (QML) models, which do not comprise a large number of T-gates, can be deployed on an HPC system during the training and validation process; otherwise, we can execute them on several QCs. Namely, QML models having a sufficient number of T-gates provide the quantum advantage if and only if they generalize on unseen data points better than their classical counterparts deployed on the HPC system, and they break the symmetry in their weights at each learning iteration like in conventional deep neural networks. As an initial innovation, we estimate the quantum resources required for some QML models. Secondly, we define the optimal sharing between an HPC+QC system for executing QML models for hyperspectral images (HSIs); HSIs are a specific dataset compared to multispectral images to be deployed on quantum computers due to the limited number of their input qubits, and the commonly used small number of labeled benchmark HSIs.
翻訳日:2023-08-21 13:38:26 公開日:2023-08-18
# 機械学習による$S$-matrixフェーズの再構築

Reconstructing $S$-matrix Phases with Machine Learning ( http://arxiv.org/abs/2308.09451v1 )

ライセンス: Link先を確認
Aur\'elien Dersy, Matthew D. Schwartz, Alexander Zhiboedov(参考訳) $s$-matrixブートストラッププログラムの重要な要素は、$s$-matrix要素のモジュラスとそのフェーズの関係である。 ユニタリ性はそれらを積分方程式で関連付ける。 最も単純な弾性散乱の場合でさえ、この積分方程式を解析的に解くことはできず、数値的なアプローチが必要となる。 現代の機械学習手法をユニタリティ制約の研究に適用する。 与えられたモジュラーに対して、位相が存在する場合、一般に機械学習によって精度良く再構成することができる。 さらに、再構成アルゴリズムの損失は、与えられたモジュラリティがユニタリティと全く整合可能であるかどうかのよいプロキシを提供する。 さらに,複数相が単一モジュラーと整合可能であるかという問題を考察し,新しい位相あいまいな解を求める。 特に、そのような解に対する既知の極限を以前の境界を超えるような新しい位相曖昧解が見つかる。

An important element of the $S$-matrix bootstrap program is the relationship between the modulus of an $S$-matrix element and its phase. Unitarity relates them by an integral equation. Even in the simplest case of elastic scattering, this integral equation cannot be solved analytically and numerical approaches are required. We apply modern machine learning techniques to studying the unitarity constraint. We find that for a given modulus, when a phase exists it can generally be reconstructed to good accuracy with machine learning. Moreover, the loss of the reconstruction algorithm provides a good proxy for whether a given modulus can be consistent with unitarity at all. In addition, we study the question of whether multiple phases can be consistent with a single modulus, finding novel phase-ambiguous solutions. In particular, we find a new phase-ambiguous solution which pushes the known limit on such solutions significantly beyond the previous bound.
翻訳日:2023-08-21 13:37:55 公開日:2023-08-18
# 回帰条件下での分割学習におけるラベル推論攻撃の防止

Defending Label Inference Attacks in Split Learning under Regression Setting ( http://arxiv.org/abs/2308.09448v1 )

ライセンス: Link先を確認
Haoze Qiu, Fei Zheng, Chaochao Chen, Xiaolin Zheng(参考訳) 垂直フェデレーション学習を実現するためのプライバシ保護手法として,スプリット学習が広く研究されている。 しかし、多くの研究により、分割学習のプライバシー保護能力が不十分であることが示されている。 本稿では,回帰条件下でのスプリット学習におけるラベル推論攻撃に着目し,主に勾配反転法を用いて実装する。 ラベル推論攻撃に対する防御として,ラベルを拡張して勾配に含まれるラベル情報を難読化するランダムラベル拡張(RLE)を提案する。 そこで本研究では,オリジナルラベルを拡張ラベルに保存し,トレーニングプロセスを支配するモデルベース適応ラベル拡張(mle)を提案する。 実験結果から,本提案手法は基本防御法と比較して,元のタスクの性能を保ちながら,攻撃モデルの性能を著しく低下させることができることがわかった。

As a privacy-preserving method for implementing Vertical Federated Learning, Split Learning has been extensively researched. However, numerous studies have indicated that the privacy-preserving capability of Split Learning is insufficient. In this paper, we primarily focus on label inference attacks in Split Learning under regression setting, which are mainly implemented through the gradient inversion method. To defend against label inference attacks, we propose Random Label Extension (RLE), where labels are extended to obfuscate the label information contained in the gradients, thereby preventing the attacker from utilizing gradients to train an attack model that can infer the original labels. To further minimize the impact on the original task, we propose Model-based adaptive Label Extension (MLE), where original labels are preserved in the extended labels and dominate the training process. The experimental results show that compared to the basic defense methods, our proposed defense methods can significantly reduce the attack model's performance while preserving the original task's performance.
翻訳日:2023-08-21 13:37:41 公開日:2023-08-18
# ニューラルネットワークを組み込んだガウス混合モデルとガウス混合モデルのための効率的な1反復学習アルゴリズム

An Efficient 1 Iteration Learning Algorithm for Gaussian Mixture Model And Gaussian Mixture Embedding For Neural Network ( http://arxiv.org/abs/2308.09444v1 )

ライセンス: Link先を確認
Weiguo Lu, Xuan Wu, Deng Ding, Gangnan Yuan(参考訳) ガウス混合モデル(GMM)学習アルゴリズムを提案する。 この新しいアルゴリズムは、従来の期待最大化(em)アルゴリズムよりも堅牢性とシンプルさをもたらす。 また、精度も向上し、学習に1回しかかからない。 我々は,パラメータの初期化にかかわらず,このアルゴリズムが収束することを理論的に証明する。 GMM拡張法とニューラルネットワークの古典的確率層を比較すると、データの不確実性や逆問題に対処する能力が明らかに向上する。 最後に,GMM ベースジェネレータを試作し,確率的変動と変分制御に分散ランダムサンプリングを有効活用できるアプリケーションを構築する可能性を示した。

We propose an Gaussian Mixture Model (GMM) learning algorithm, based on our previous work of GMM expansion idea. The new algorithm brings more robustness and simplicity than classic Expectation Maximization (EM) algorithm. It also improves the accuracy and only take 1 iteration for learning. We theoretically proof that this new algorithm is guarantee to converge regardless the parameters initialisation. We compare our GMM expansion method with classic probability layers in neural network leads to demonstrably better capability to overcome data uncertainty and inverse problem. Finally, we test GMM based generator which shows a potential to build further application that able to utilized distribution random sampling for stochastic variation as well as variation control.
翻訳日:2023-08-21 13:37:25 公開日:2023-08-18
# スコープは必要なもの:HPCコードにLLMを変換する

Scope is all you need: Transforming LLMs for HPC Code ( http://arxiv.org/abs/2308.09440v1 )

ライセンス: Link先を確認
Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, and Gal Oren(参考訳) 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIの分野において、さまざまなプログラミングタスクに対処する大規模で大規模な言語モデル(LLM)を開発する傾向が高まっている。 ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズ(数十億のパラメータなど)であり、トレーニングに高価な計算資源を必要とする。 HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされた大規模なLLMが必要なのでしょうか? この一連の研究において、我々は、特定のドメインに対してより小さなLLMを開発することで、既存のLLMの設計選択を問うことを目指しています。 具体的には、ドメインとしてのHPCから始まり、HPCのコード前処理とコンパイル中心のタスクに特化して設計された、Tokompilerという新しいトークン化ツールを提案する。 Tokompilerは言語プリミティブの知識を活用して言語指向のトークンを生成し、コード構造に対するコンテキスト対応の理解を提供する。 私たちはTokompilerを2つの最先端モデルであるSPT-CodeとPolycoderの事前トレーニングに使用しました。 これらのモデルの性能を従来のLLMと比較して評価する。 結果から,Tokompilerは正規化・複雑化テストにおける従来のトークン化ツールと比較して,コード補完精度と意味理解を約1パープレキシティスコアまで向上させることがわかった。 本研究は、HPCとコンパイルタスクのユニークな要求に対応するため、ドメイン固有のLLMのさらなる進歩の道を開く。

With easier access to powerful compute resources, there is a growing trend in the field of AI for software development to develop larger and larger language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size (e.g., billions of parameters) and demand expensive compute resources for training. We found this design choice confusing - why do we need large LLMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question design choices made by existing LLMs by developing smaller LLMs for specific domains - we call them domain-specific LLMs. Specifically, we start off with HPC as a domain and propose a novel tokenizer named Tokompiler, designed specifically for preprocessing code in HPC and compilation-centric tasks. Tokompiler leverages knowledge of language primitives to generate language-oriented tokens, providing a context-aware understanding of code structure while avoiding human semantics attributed to code structures completely. We applied Tokompiler to pre-train two state-of-the-art models, SPT-Code and Polycoder, for a Fortran code corpus mined from GitHub. We evaluate the performance of these models against the conventional LLMs. Results demonstrate that Tokompiler significantly enhances code completion accuracy and semantic understanding compared to traditional tokenizers in normalized-perplexity tests, down to ~1 perplexity score. This research opens avenues for further advancements in domain-specific LLMs, catering to the unique demands of HPC and compilation tasks.
翻訳日:2023-08-21 13:37:15 公開日:2023-08-18
# 希望から安全へ:潜在空間に適切な理由を課すことによる深層モデルの学習バイアス

From Hope to Safety: Unlearning Biases of Deep Models by Enforcing the Right Reasons in Latent Space ( http://arxiv.org/abs/2308.09437v1 )

ライセンス: Link先を確認
Maximilian Dreyer, Frederik Pahde, Christopher J. Anders, Wojciech Samek, Sebastian Lapuschkin(参考訳) ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。 これは、医療応用などの高い意思決定のためにこれらのモデルをデプロイする際のリスクを引き起こす。 ポストホックモデル修正の現在の方法は、空間的局所化バイアスに対してのみ可能である入力レベルのアノテーションを必要とするか、潜在特徴空間を増大させ、正しい理由を強制することを望んでいる。 グラデーションによるバイアスに対するモデルの感度を低下させることにより,概念レベルでの適切な理由を確保する新しい手法を提案する。 概念活性化ベクトルを介してバイアスをモデル化する場合、Support Vector Machinesのような従来の回帰ベースのアプローチでは方向が変化する傾向があるため、ロバストな方向を選択することの重要性を強調します。 VGG, ResNet, EfficientNetアーキテクチャを用いてISIC, Bone Age, ImageNet, CelebAデータセットの制御および実環境設定におけるバイアスを効果的に緩和する。

Deep Neural Networks are prone to learning spurious correlations embedded in the training data, leading to potentially biased predictions. This poses risks when deploying these models for high-stake decision-making, such as in medical applications. Current methods for post-hoc model correction either require input-level annotations, which are only possible for spatially localized biases, or augment the latent feature space, thereby hoping to enforce the right reasons. We present a novel method ensuring the right reasons on the concept level by reducing the model's sensitivity towards biases through the gradient. When modeling biases via Concept Activation Vectors, we highlight the importance of choosing robust directions, as traditional regression-based approaches such as Support Vector Machines tend to result in diverging directions. We effectively mitigate biases in controlled and real-world settings on the ISIC, Bone Age, ImageNet and CelebA datasets using VGG, ResNet and EfficientNet architectures.
翻訳日:2023-08-21 13:36:46 公開日:2023-08-18
# 変換器を用いた高分解能ペトリディッシュ画像の検出

Transformer-based Detection of Microorganismson High-Resolution Petri Dish Images ( http://arxiv.org/abs/2308.09436v1 )

ライセンス: Link先を確認
Nikolas Ebert, Didier Stricker, Oliver Wasenm\"uller(参考訳) 多くの医療や製薬のプロセスは、継続的な衛生モニタリングに関する厳格なガイドラインを持っている。 これはしばしば訓練された人員によってペトリ皿の微生物を手動で計数する労働集約的な作業である。 自動化の試みは、大きなスケーリングの違い、低い分離、低いコントラストなど、大きな課題によってしばしば苦労する。 これらの課題に対処するために,新しい変圧器変動を利用した高分解能検出パイプラインであるAttnPAFPNを導入する。 我々の合理化アプローチは、ほとんどのマルチスケールオブジェクト検出パイプラインに容易に統合できる。 公開されているAGARデータセットの包括的な評価では、現在の最先端技術よりもネットワークの精度が優れていることを示す。 提案手法のタスク非依存性能を示すため,COCOおよびLIVECellデータセットのさらなる実験を行った。

Many medical or pharmaceutical processes have strict guidelines regarding continuous hygiene monitoring. This often involves the labor-intensive task of manually counting microorganisms in Petri dishes by trained personnel. Automation attempts often struggle due to major challenges: significant scaling differences, low separation, low contrast, etc. To address these challenges, we introduce AttnPAFPN, a high-resolution detection pipeline that leverages a novel transformer variation, the efficient-global self-attention mechanism. Our streamlined approach can be easily integrated in almost any multi-scale object detection pipeline. In a comprehensive evaluation on the publicly available AGAR dataset, we demonstrate the superior accuracy of our network over the current state-of-the-art. In order to demonstrate the task-independent performance of our approach, we perform further experiments on COCO and LIVECell datasets.
翻訳日:2023-08-21 13:36:26 公開日:2023-08-18
# 複数のドメインや言語にまたがる自然なスペルエラーエミュレーションによるジェネレーションスペル補正の一手法

A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages ( http://arxiv.org/abs/2308.09435v1 )

ライセンス: Link先を確認
Nikita Martynov, Mark Baushenko, Anastasia Kozlova, Katerina Kolomeytseva, Aleksandr Abramov, Alena Fenogenova(参考訳) 現代の大きな言語モデルは、テキスト生成と一般化の素晴らしい能力を示している。 しかし、特にスペルミスやミスタイピングの修正に関しては、テキスト編集タスクの解決に苦労することが多い。 本稿では,英語とロシア語でテストされた生成的綴り補正 (generative spelling correction,sc) の手法について述べる。 本研究は,テキスト中の自然な綴り誤りやミスタイピングを探索し,その誤りを正しい文でエミュレートする方法を研究し,生成モデルの事前学習手順を効果的に強化する。 このようなエミュレーションの影響と異なるテキスト領域におけるモデルの能力について検討する。 本研究では,2つの綴り腐敗手法について検討する。 1)まず、特定のデータセットからエラーの統計を利用して、ミスをする際の人間の行動を模倣し、 2) 第二に、最も一般的なスペルエラー、キーボードミスクリック、そしてテキスト内のヒューリスティックが加わった。 我々は,事前学習および微調整段階における各種腐敗戦略,モデルアーキテクチャ,サイズを用いた実験を行い,単一ドメインおよび複数ドメインテストセットを用いたモデル評価を行った。 SAGE(Spell check via Augmentation and Generative Distribution Emulation)は,事前学習した生成モデル群と組込み拡張アルゴリズムを含む自動生成SCのためのライブラリである。

Modern large language models demonstrate impressive capabilities in text generation and generalization. However, they often struggle with solving text editing tasks, particularly when it comes to correcting spelling errors and mistypings. In this paper, we present a methodology for generative spelling correction (SC), which was tested on English and Russian languages and potentially can be extended to any language with minor changes. Our research mainly focuses on exploring natural spelling errors and mistypings in texts and studying the ways those errors can be emulated in correct sentences to effectively enrich generative models' pre-train procedure. We investigate the impact of such emulations and the models' abilities across different text domains. In this work, we investigate two spelling corruption techniques: 1) first one mimics human behavior when making a mistake through leveraging statistics of errors from particular dataset and 2) second adds the most common spelling errors, keyboard miss clicks, and some heuristics within the texts. We conducted experiments employing various corruption strategies, models' architectures and sizes on the pre-training and fine-tuning stages and evaluated the models using single-domain and multi-domain test sets. As a practical outcome of our work, we introduce SAGE (Spell checking via Augmentation and Generative distribution Emulation) is a library for automatic generative SC that includes a family of pre-trained generative models and built-in augmentation algorithms.
翻訳日:2023-08-21 13:36:04 公開日:2023-08-18
# 超音波信頼度マップは超音波撮影者のラベリング変動を予測できるか?

Can ultrasound confidence maps predict sonographers' labeling variability? ( http://arxiv.org/abs/2308.09433v1 )

ライセンス: Link先を確認
Vanessa Gonzalez Duque, Leonhard Zirus, Yordanka Velikova, Nassir Navab, and Diana Mateus(参考訳) 超音波画像における断面積の測定は、疾患の進行や治療反応を評価するための標準ツールである。 多くの場合、教師付きディープラーニングセグメンテーションアプローチで対処されるが、既存のソリューションは専門家のアノテーションの品質に大きく依存する。 しかし、超音波のアノテーションの品質は、減衰、影、境界の欠如など固有の物理画像原理により異方性と位置変化があり、一般的には深さが増す。 本研究は, 超音波セグメンテーションネットワークを誘導し, ソノグラフィーの不確かさを考慮し, 専門家に類似した変動性のある予測を生成する手法を提案する。 現実的な変動は、過信予測を減らし、深層学習断面積解の医師の受容を改善することができると主張している。 本手法は,画像から直接計算できるため,計算オーバーヘッドを最小限に抑えるため,各画素に対してcmの確実性を提供する。 信頼度マップの低値と専門家のラベルの不確実性との間に相関があることを示す。 そこで本稿では,ネットワークに付加的な情報として信頼性マップを提案する。 提案した超音波CMと4つの最先端ニューラルネットワークの組み合わせによる2つの構成(第2入力チャネルと損失の一部)の効果について検討した。 甲状腺および下肢筋の3次元超音波データを用いた検討を行った。 以上の結果から,超音波CMではDiceスコアが増加し,HusdorffおよびAverage Surface Distanceが向上し,孤立画素の予測回数が減少した。 さらに, 超音波CMは, 真理データ中の不確定領域のペナル化を改善し, 補間問題を改善することが示唆された。 私たちのコードとサンプルデータはhttps://github.com/ifl-camp/confidence-segmentationで公開されます。

Measuring cross-sectional areas in ultrasound images is a standard tool to evaluate disease progress or treatment response. Often addressed today with supervised deep-learning segmentation approaches, existing solutions highly depend upon the quality of experts' annotations. However, the annotation quality in ultrasound is anisotropic and position-variant due to the inherent physical imaging principles, including attenuation, shadows, and missing boundaries, commonly exacerbated with depth. This work proposes a novel approach that guides ultrasound segmentation networks to account for sonographers' uncertainties and generate predictions with variability similar to the experts. We claim that realistic variability can reduce overconfident predictions and improve physicians' acceptance of deep-learning cross-sectional segmentation solutions. Our method provides CM's certainty for each pixel for minimal computational overhead as it can be precalculated directly from the image. We show that there is a correlation between low values in the confidence maps and expert's label uncertainty. Therefore, we propose to give the confidence maps as additional information to the networks. We study the effect of the proposed use of ultrasound CMs in combination with four state-of-the-art neural networks and in two configurations: as a second input channel and as part of the loss. We evaluate our method on 3D ultrasound datasets of the thyroid and lower limb muscles. Our results show ultrasound CMs increase the Dice score, improve the Hausdorff and Average Surface Distances, and decrease the number of isolated pixel predictions. Furthermore, our findings suggest that ultrasound CMs improve the penalization of uncertain areas in the ground truth data, thereby improving problematic interpolations. Our code and example data will be made public at https://github.com/IFL-CAMP/Confidence-segmentation.
翻訳日:2023-08-21 13:35:20 公開日:2023-08-18
# Poison Dart Frog: トレーニングデータの存在下での低いポゾンレートと高い攻撃成功率を備えたクリーンラベル攻撃

Poison Dart Frog: A Clean-Label Attack with Low Poisoning Rate and High Attack Success Rate in the Absence of Training Data ( http://arxiv.org/abs/2308.09487v1 )

ライセンス: Link先を確認
Binhao Ma, Jiahui Wang, Dejun Wang, Bo Meng(参考訳) バックドア攻撃をうまく起動するには、インジェクトされたデータを正しくラベル付けする必要がある。 したがって、クリーンラベル攻撃の概念が導入され、注入されたデータのラベルを変更する必要がないため、より危険である。 私たちの知る限りでは、既存のクリーンレーベルのバックドア攻撃は、トレーニングセット全体またはその一部に対する理解に大きく依存しています。 しかし、実際には、複数の独立したソースからしばしば収集されるデータセットのトレーニングのため、攻撃者がそれを持つことは非常に難しい。 現在のすべてのクリーンラベル攻撃とは異なり、我々は'Poison Dart Frog'と呼ばれる新しいクリーンラベル手法を提案する。 Poison Dart Frogは、いかなるトレーニングデータへのアクセスも必要としない。 CIFAR10、Tiny-ImageNet、TSRDでは、トレーニングセットサイズが0.1\%、0.025\%、0.4\%であるのに対し、Poison Dart FrogはLC、HTBA、BadNets、Blendに比べて高い攻撃成功率を達成する。 さらに、最先端の攻撃であるNARCISSUSと比較して、Poison Dart Frogはトレーニングデータなしで同様の攻撃成功率を達成する。 最後に、4つの典型的なバックドア防御アルゴリズムがPoison Dart Frogに対抗するのに苦労していることを示す。

To successfully launch backdoor attacks, injected data needs to be correctly labeled; otherwise, they can be easily detected by even basic data filters. Hence, the concept of clean-label attacks was introduced, which is more dangerous as it doesn't require changing the labels of injected data. To the best of our knowledge, the existing clean-label backdoor attacks largely relies on an understanding of the entire training set or a portion of it. However, in practice, it is very difficult for attackers to have it because of training datasets often collected from multiple independent sources. Unlike all current clean-label attacks, we propose a novel clean label method called 'Poison Dart Frog'. Poison Dart Frog does not require access to any training data; it only necessitates knowledge of the target class for the attack, such as 'frog'. On CIFAR10, Tiny-ImageNet, and TSRD, with a mere 0.1\%, 0.025\%, and 0.4\% poisoning rate of the training set size, respectively, Poison Dart Frog achieves a high Attack Success Rate compared to LC, HTBA, BadNets, and Blend. Furthermore, compared to the state-of-the-art attack, NARCISSUS, Poison Dart Frog achieves similar attack success rates without any training data. Finally, we demonstrate that four typical backdoor defense algorithms struggle to counter Poison Dart Frog.
翻訳日:2023-08-21 13:29:57 公開日:2023-08-18
# ロボット手術におけるビデオ機器のセグメンテーション参照のためのビデオ機器のシナジスティックネットワーク

Video-Instrument Synergistic Network for Referring Video Instrument Segmentation in Robotic Surgery ( http://arxiv.org/abs/2308.09475v1 )

ライセンス: Link先を確認
Hongqiu Wang, Lei Zhu, Guang Yang, Yike Guo, Shichen Zhang, Bo Xu, Yueming Jin(参考訳) ロボット支援手術は大きな進歩を遂げており、機器のセグメンテーションは外科的介入の質にとって重要な要素である。 次世代のオペレーティングインテリジェンスのための手術ロボットナビゲーションと外科教育を促進するビルディングブロックとして機能している。 既存の手法は正確な計測器のセグメンテーションの結果を達成しているが、対象物を特定して対話的な体験を可能にする機能を持たずに、全ての機器のセグメンテーションマスクを同時に生成する。 本研究は,手術用ビデオ機器分類(RSVIS)の新たな課題を探求し,与えられた言語表現に基づいて対応する手術用機器を自動同定・分節することを目的とする。 そこで我々は,ビデオレベルと楽器レベルの両方の知識を学習し,パフォーマンスを向上させるために,ビデオレベル情報のみを使用する新しいVIS-Netを考案した。 一方,多形態情報(テキスト記述とビデオフレーム)間の相関をモデル化し,楽器レベルの情報の抽出を容易にするグラフベース関係認識モジュール(grm)を設計した。 私たちはまた、関連する研究を促進するために2つのrsvisデータセットを作成しました。 提案手法をこれらのデータセットで検証し, 実験結果から, VIS-Netは既存の最先端参照セグメンテーション手法よりも優れることが示された。 私たちのコードとデータセットは、この研究の公開時にリリースされます。

Robot-assisted surgery has made significant progress, with instrument segmentation being a critical factor in surgical intervention quality. It serves as the building block to facilitate surgical robot navigation and surgical education for the next generation of operating intelligence. Although existing methods have achieved accurate instrument segmentation results, they simultaneously generate segmentation masks for all instruments, without the capability to specify a target object and allow an interactive experience. This work explores a new task of Referring Surgical Video Instrument Segmentation (RSVIS), which aims to automatically identify and segment the corresponding surgical instruments based on the given language expression. To achieve this, we devise a novel Video-Instrument Synergistic Network (VIS-Net) to learn both video-level and instrument-level knowledge to boost performance, while previous work only used video-level information. Meanwhile, we design a Graph-based Relation-aware Module (GRM) to model the correlation between multi-modal information (i.e., textual description and video frame) to facilitate the extraction of instrument-level information. We are also the first to produce two RSVIS datasets to promote related research. Our method is verified on these datasets, and experimental results exhibit that the VIS-Net can significantly outperform existing state-of-the-art referring segmentation methods. Our code and our datasets will be released upon the publication of this work.
翻訳日:2023-08-21 13:29:12 公開日:2023-08-18