このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240310となっている論文です。

PDF登録状況(公開日: 20240310)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフ畳み込みニューラルネットワークの強化には注意が必要だ

Attention is all you need for boosting graph convolutional neural network ( http://arxiv.org/abs/2403.15419v1 )

ライセンス: Link先を確認
Yinwei Wu, (参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、非グリッドドメインでグラフデータを処理するための強力な能力を持っている。 グラフのトポロジ的論理構造とノードの特徴をキャプチャして、ノードの最終的な表現に統合することができる。 GCNはレコメンデーションシステム、ソーシャルネットワーク、タンパク質分子構造など様々な分野で広く研究されている。 グラフニューラルネットワークの応用が増加する中、研究はサイズを圧縮しながらパフォーマンスを改善することに注力してきた。 本研究では,GKEDM (Graph Knowledge Enhancement and Distillation Module) と呼ばれるプラグインモジュールを提案する。 GKEDMは,マルチヘッドアテンション機構を用いてグラフ情報を抽出・集約することで,ノード表現を強化し,GCNの性能を向上させることができる。 さらに、GKEDMは知識蒸留の補助トランスファーとしても機能する。 特別に設計された注意蒸留法により、GKEDMは大規模教師モデルの知識を高性能でコンパクトな学生モデルに蒸留することができる。 複数のデータセットの実験により、GKEDMはオーバーヘッドを最小限にして様々なGCNのパフォーマンスを大幅に改善できることが示された。 さらに, 大規模教員ネットワークから小学生ネットワークへ, 注意蒸留により, 蒸留知識を効率よく伝達することができる。

Graph Convolutional Neural Networks (GCNs) possess strong capabilities for processing graph data in non-grid domains. They can capture the topological logical structure and node features in graphs and integrate them into nodes' final representations. GCNs have been extensively studied in various fields, such as recommendation systems, social networks, and protein molecular structures. With the increasing application of graph neural networks, research has focused on improving their performance while compressing their size. In this work, a plug-in module named Graph Knowledge Enhancement and Distillation Module (GKEDM) is proposed. GKEDM can enhance node representations and improve the performance of GCNs by extracting and aggregating graph information via multi-head attention mechanism. Furthermore, GKEDM can serve as an auxiliary transferor for knowledge distillation. With a specially designed attention distillation method, GKEDM can distill the knowledge of large teacher models into high-performance and compact student models. Experiments on multiple datasets demonstrate that GKEDM can significantly improve the performance of various GCNs with minimal overhead. Furthermore, it can efficiently transfer distilled knowledge from large teacher networks to small student networks via attention distillation.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-10
# Sort & Slice: 拡張接続型フィンガープリントのためのハッシュベースのフォールディングの簡易かつ優れた代替品

Sort & Slice: A Simple and Superior Alternative to Hash-Based Folding for Extended-Connectivity Fingerprints ( http://arxiv.org/abs/2403.17954v1 )

ライセンス: Link先を確認
Markus Dablander, Thierry Hanser, Renaud Lambiotte, Garrett M. Morris, (参考訳) 拡張結合指紋(ECFPs)は、現在の化学情報学や分子機械学習においてユビキタスなツールであり、化学予測に用いられる最も一般的な分子の特徴抽出技術の1つである。 グラフニューラルネットワークによって学習されたAtom機能は、グラフプーリング手法の広いスペクトルを用いて複合レベル表現に集約することができる。 本稿では,ハッシュベースの折り畳み,アルゴリズムによるサブストラクチャ選択,その他の様々な潜在的手法を含む,構造指紋のベクトル化のための一般的な数学的枠組みについて紹介する。 続いて、ECFPサブ構造のプール化のためのハッシュベースの折り畳みに代わる、実装が容易でビットコリエーションのない代替品であるSort & Sliceについて説明する。 Sort & Sliceはまず、与えられたトレーニング化合物の集合における相対的な頻度に応じてECFPサブストラクチャをソートし、次に最も頻繁なサブストラクチャを除く全てのサブストラクチャをスライスする。 ECFPに基づく分子特性予測のためのハッシュベースの折り畳み、ソート&スライス、および2つの高度な教師付きサブ構造選択スキーム(フィルタリングと相互情報最大化)の性能を計算的に比較した。 我々の結果は、技術的単純さにもかかわらず、Srt & Sliceは従来のハッシュベースの折り畳みだけでなく、予測タスク、データ分割技術、機械学習モデル、ECFPハイパーパラメータといった他の調査手法よりも頑強に(時には実質的に)優れていることを示唆している。 そこで我々はSrt & Sliceをデフォルトのサブストラクチャプール技術として、ハッシュベースの折りたたみに置き換えてECFPをベクタライズし、分子機械学習に役立てることを推奨する。

Extended-connectivity fingerprints (ECFPs) are a ubiquitous tool in current cheminformatics and molecular machine learning, and one of the most prevalent molecular feature extraction techniques used for chemical prediction. Atom features learned by graph neural networks can be aggregated to compound-level representations using a large spectrum of graph pooling methods; in contrast, sets of detected ECFP substructures are by default transformed into bit vectors using only a simple hash-based folding procedure. We introduce a general mathematical framework for the vectorisation of structural fingerprints via a formal operation called substructure pooling that encompasses hash-based folding, algorithmic substructure-selection, and a wide variety of other potential techniques. We go on to describe Sort & Slice, an easy-to-implement and bit-collision-free alternative to hash-based folding for the pooling of ECFP substructures. Sort & Slice first sorts ECFP substructures according to their relative prevalence in a given set of training compounds and then slices away all but the $L$ most frequent substructures which are subsequently used to generate a binary fingerprint of desired length, $L$. We computationally compare the performance of hash-based folding, Sort & Slice, and two advanced supervised substructure-selection schemes (filtering and mutual-information maximisation) for ECFP-based molecular property prediction. Our results indicate that, despite its technical simplicity, Sort & Slice robustly (and at times substantially) outperforms traditional hash-based folding as well as the other investigated methods across prediction tasks, data splitting techniques, machine-learning models and ECFP hyperparameters. We thus recommend that Sort & Slice canonically replace hash-based folding as the default substructure-pooling technique to vectorise ECFPs for supervised molecular machine learning.
翻訳日:2024-04-01 02:34:48 公開日:2024-03-10
# 不均質グラフのわずかな学習 : 挑戦,進歩,展望

Few-shot Learning on Heterogeneous Graphs: Challenges, Progress, and Prospects ( http://arxiv.org/abs/2403.13834v1 )

ライセンス: Link先を確認
Pengfei Ding, Yan Wang, Guanfeng Liu, (参考訳) ヘテロジニアスグラフ(FLHG)の学習は、異種グラフの研究がしばしばラベルの空間性に悩まされるため、学術と産業の両方から注目が集まっている。 FLHGは、限られた注釈付きデータに直面した性能劣化に対処することを目的としており、近年では様々な方法や応用法が提案されている。 本稿では,既存のFLHG手法の総合的なレビューを行い,課題,研究の進展,今後の展望について述べる。 具体的には,まずFLHGを定式化し,その手法を単一異種FLHG,二重異種FLHG,多異種FLHGの3種類に分類する。 そして、各カテゴリにおける研究の進展を分析し、最新の研究成果と代表的研究成果を明らかにする。 最後に,FLHGにおける今後の研究の方向性を明らかにし,議論する。 我々の知る限り、本論文はFLHGの体系的かつ総合的なレビューとしては初めてのものである。

Few-shot learning on heterogeneous graphs (FLHG) is attracting more attention from both academia and industry because prevailing studies on heterogeneous graphs often suffer from label sparsity. FLHG aims to tackle the performance degradation in the face of limited annotated data and there have been numerous recent studies proposing various methods and applications. In this paper, we provide a comprehensive review of existing FLHG methods, covering challenges, research progress, and future prospects. Specifically, we first formalize FLHG and categorize its methods into three types: single-heterogeneity FLHG, dual-heterogeneity FLHG, and multi-heterogeneity FLHG. Then, we analyze the research progress within each category, highlighting the most recent and representative developments. Finally, we identify and discuss promising directions for future research in FLHG. To the best of our knowledge, this paper is the first systematic and comprehensive review of FLHG.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-10
# ACPATH測定値:C型言語における非循環経路の正確な推定

The ACPATH Metric: Precise Estimation of the Number of Acyclic Paths in C-like Languages ( http://arxiv.org/abs/1610.07914v4 )

ライセンス: Link先を確認
Roberto Bagnara, Abramo Bagnara, Alessandro Benedetti, Patricia M. Hill, (参考訳) NPATH は、Brian A. Nejmeh が[13]で導入した計量であり、マッケイブのシクロマティック複雑性の重要な制限を克服することを目的としている。 宣言されたNPATHの目的は関数を通して非循環的な実行パスの数を数えることであるにもかかわらず、[13]で与えられたC言語の定義は、非常に単純なプログラムでもそうはならない。 CFGにおける非循環経路の数を数えることは一般に不可能であることを示す。 次に、与えられた関数を通して非巡回実行経路の数を非常によく推定できるACPATHと呼ばれるC型言語のための新しい計量を定義する。 関数本体が後向きのgogoを含まず、ループ外からのループへのジャンプを含まない場合、そのような推定は実際に正確であることを示す。

NPATH is a metric introduced by Brian A. Nejmeh in [13] that is aimed at overcoming some important limitations of McCabe's cyclomatic complexity. Despite the fact that the declared NPATH objective is to count the number of acyclic execution paths through a function, the definition given for the C language in [13] fails to do so even for very simple programs. We show that counting the number of acyclic paths in CFG is unfeasible in general. Then we define a new metric for C-like languages, called ACPATH, that allows to quickly compute a very good estimation of the number of acyclic execution paths through the given function. We show that, if the function body does not contain backward gotos and does not contain jumps into a loop from outside the loop, then such estimation is actually exact.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-10
# ENCORE: 自動プログラム修復のための畳み込みニューラルネットワーク翻訳を用いたアンサンブル学習

ENCORE: Ensemble Learning using Convolution Neural Machine Translation for Automatic Program Repair ( http://arxiv.org/abs/1906.08691v2 )

ライセンス: Link先を確認
Thibaud Lutellier, Lawrence Pang, Viet Hung Pham, Moshi Wei, Lin Tan, (参考訳) 自動生成・検証(G&V)プログラム修復技術は通常、ハードコードされたルールに依存し、特定のパターンに従ってバグを修正するだけであり、異なるプログラミング言語に適応するのは難しい。 我々は、畳み込みニューラルネットワーク翻訳(NMT)モデルでアンサンブル学習を用いて、複数のプログラミング言語のバグを自動的に修正する新しいG&V技術であるENCOREを提案する。 ハイパーパラメータチューニングのランダム性を利用して、異なるバグを修正し、それらをアンサンブル学習を使って組み合わせる複数のモデルを構築します。 この新しい畳み込みNMTアプローチは、トークン間の局所的および長距離的接続をよりよくキャプチャするため、従来の作業で使用される標準長短メモリ(LSTM)アプローチよりも優れている。 Defects4JとQuixBugsという2つの人気のあるベンチマークに対する評価は、ENCOREが42のバグを修正したことを示している。 さらに、ENCOREは4つの人気のあるプログラミング言語(Java、C++、Python、JavaScript)に適用される最初のG&V修復技術であり、5つのベンチマークで合計67のバグを修正している。

Automated generate-and-validate (G&V) program repair techniques typically rely on hard-coded rules, only fix bugs following specific patterns, and are hard to adapt to different programming languages. We propose ENCORE, a new G&V technique, which uses ensemble learning on convolutional neural machine translation (NMT) models to automatically fix bugs in multiple programming languages. We take advantage of the randomness in hyper-parameter tuning to build multiple models that fix different bugs and combine them using ensemble learning. This new convolutional NMT approach outperforms the standard long short-term memory (LSTM) approach used in previous work, as it better captures both local and long-distance connections between tokens. Our evaluation on two popular benchmarks, Defects4J and QuixBugs, shows that ENCORE fixed 42 bugs, including 16 that have not been fixed by existing techniques. In addition, ENCORE is the first G&V repair technique to be applied to four popular programming languages (Java, C++, Python, and JavaScript), fixing a total of 67 bugs across five benchmarks.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-10
# XAIを用いた敵攻撃に対する行動ベース認証の改善

Improving behavior based authentication against adversarial attack using XAI ( http://arxiv.org/abs/2402.16430v2 )

ライセンス: Link先を確認
Dong Qin, George Amariucai, Daji Qiao, Yong Guan, (参考訳) 近年、機械学習モデル、特にディープニューラルネットワークは、セキュリティ領域の分類タスクに広く利用されている。 しかし、これらのモデルは敵の操作に弱いことが示されている: 敵の攻撃モデルによって学習された小さな変化は、入力に適用された場合、出力に大きな変化を引き起こす可能性がある。 敵の攻撃と対応する防御法に関する研究は、敵のサンプルが直接攻撃モデルによって生成されるシナリオにのみ焦点をあてる。 本研究では,攻撃者から敵のサンプルを収集する行動ベース認証において,より実践的なシナリオについて検討する。 モデルから生成された敵のサンプルは、ある程度の差がある攻撃者によって複製される。 本稿では,eXplainable AI(XAI)をベースとした,このようなシナリオにおける敵攻撃に対する防御戦略を提案する。 本手法で訓練した特徴セレクタは,元の認証器の前のフィルタとして使用することができる。 敵の攻撃に弱い機能や、認証に無関係な機能をフィルタリングすると同時に、より堅牢な機能を保持する。 総合的な実験を通じて、XAIベースの防衛戦略は敵攻撃に対して有効であり、敵の訓練や防衛蒸留など他の防衛戦略よりも優れていることを示す。

In recent years, machine learning models, especially deep neural networks, have been widely used for classification tasks in the security domain. However, these models have been shown to be vulnerable to adversarial manipulation: small changes learned by an adversarial attack model, when applied to the input, can cause significant changes in the output. Most research on adversarial attacks and corresponding defense methods focuses only on scenarios where adversarial samples are directly generated by the attack model. In this study, we explore a more practical scenario in behavior-based authentication, where adversarial samples are collected from the attacker. The generated adversarial samples from the model are replicated by attackers with a certain level of discrepancy. We propose an eXplainable AI (XAI) based defense strategy against adversarial attacks in such scenarios. A feature selector, trained with our method, can be used as a filter in front of the original authenticator. It filters out features that are more vulnerable to adversarial attacks or irrelevant to authentication, while retaining features that are more robust. Through comprehensive experiments, we demonstrate that our XAI based defense strategy is effective against adversarial attacks and outperforms other defense strategies, such as adversarial training and defensive distillation.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-10
# フェデレートラーニング - 攻撃、防衛、機会、課題

Federated Learning: Attacks, Defenses, Opportunities, and Challenges ( http://arxiv.org/abs/2403.06067v1 )

ライセンス: Link先を確認
Ghazaleh Shirvani, Saeid Ghasemshirazi, Behzad Beigzadeh, (参考訳) 分散データとトレーニングを使用することで、フェデレーション学習(FL)はAI機能をエッジデバイスに移行するか、ローカルにタスクを実行する。 FLがAIの新しい時代の始まりであると考える人も多いが、まだ未熟である。 FLは、セキュリティとプライバシーに関する議論があるので、コミュニティの信頼を損なうことはなかった。 FLのセキュリティとプライバシに関する懸念は、広く使われる前に発見され、分析され、記録されなければならない。 リスク変数のしっかりとした理解により、FL実践者は安全な環境を構築し、潜在的研究分野の明確な視点を研究者に提供することができ、セキュリティとプライバシが主要な問題である状況において、FLが最良の解決策となる。 この研究は、FLのセキュリティとプライバシ機能の完全な概要を提供し、現在のフェデレーションAIと将来の広範な採用とのギャップを埋めることを目的としている。 本稿では,FLの既存課題と防御対策を総合的に検討し,その堅牢性と信頼性を評価する。 われわれの研究によると、FLに関するセキュリティ上の懸念はプライバシーの問題よりも多い。 通信ボトルネック、中毒、バックドア攻撃は、FLのプライバシーの最も重要なセキュリティ上の脅威を表している。 最終部では、FLが現実世界の環境に適応するのを支援する将来の研究について詳述する。

Using dispersed data and training, federated learning (FL) moves AI capabilities to edge devices or does tasks locally. Many consider FL the start of a new era in AI, yet it is still immature. FL has not garnered the community's trust since its security and privacy implications are controversial. FL's security and privacy concerns must be discovered, analyzed, and recorded before widespread usage and adoption. A solid comprehension of risk variables allows an FL practitioner to construct a secure environment and provide researchers with a clear perspective of potential study fields, making FL the best solution in situations where security and privacy are primary issues. This research aims to deliver a complete overview of FL's security and privacy features to help bridge the gap between current federated AI and broad adoption in the future. In this paper, we present a comprehensive overview of the attack surface to investigate FL's existing challenges and defense measures to evaluate its robustness and reliability. According to our study, security concerns regarding FL are more frequent than privacy issues. Communication bottlenecks, poisoning, and backdoor attacks represent FL's privacy's most significant security threats. In the final part, we detail future research that will assist FL in adapting to real-world settings.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-10
# SecureRights:ロバスト保護とデジタル権利獲得のためのブロックチェーン駆動のDRMフレームワーク

SecureRights: A Blockchain-Powered Trusted DRM Framework for Robust Protection and Asserting Digital Rights ( http://arxiv.org/abs/2403.06094v1 )

ライセンス: Link先を確認
Tiroshan Madushanka, Dhammika S. Kumara, Atheesh A. Rathnaweera, (参考訳) デジタルコンテンツのダイナミックな領域では、知的財産権の保護が重要な課題となっている。 本稿では,革新的なブロックチェーンベースのTrusted Digital Rights Management(DRM)フレームワークであるSecureRightsを提案する。 不正使用に対する防衛を強化し、デジタル権利の主張を合理化する。 ブロックチェーン、デジタル透かし、知覚ハッシュ、QRコード、惑星間ファイルシステム(IPFS)を利用することで、SecureRightsはタイムスタンプ認証によってブロックチェーン上の透かし情報を安全に格納する。 知覚ハッシュを組み込むと、画像構造に基づいた堅牢なハッシュトークンが生成される。 QRコードの追加は透かしを強化し、回復力のある知的財産権保護のための包括的なソリューションを提供する。 厳格な評価は、SecureRightsの様々な攻撃に対する弾力性を確認し、デジタルコンテンツを保護し、正当な所有権主張を簡素化する効果を確立している。

In the dynamic realm of digital content, safeguarding intellectual property rights poses critical challenges. This paper presents "SecureRights," an innovative Blockchain-based Trusted Digital Rights Management (DRM) framework. It strengthens the defence against unauthorized use and streamlines the claim of digital rights. Utilizing blockchain, digital watermarking, perceptual hashing, Quick Response (QR) codes, and the Interplanetary File System (IPFS), SecureRights securely stores watermark information on the blockchain with timestamp authentication. Incorporating perceptual hashing generates robust hash tokens based on image structure. The addition of QR codes enhances the watermarking, offering a comprehensive solution for resilient intellectual property rights protection. Rigorous evaluations affirm SecureRights' resilience against various attacks, establishing its efficacy in safeguarding digital content and simplifying rightful ownership assertion.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-10
# ABC-Channel: 高度なブロックチェーンベースのCovertチャネル

ABC-Channel: An Advanced Blockchain-based Covert Channel ( http://arxiv.org/abs/2403.06261v1 )

ライセンス: Link先を確認
Xiaobo Ma, Pengyu Pan, Jianfeng Li, Wei Wang, Weizhi Meng, Xiaohong Guan, (参考訳) 安全でないネットワーク環境におけるセキュアな通信には,効率的で堅牢な隠蔽チャネルの確立が不可欠である。 分散化と匿名化の本来のメリットにより、ブロックチェーンは隠蔽チャネルの開発において大きな注目を集めている。 高度にセキュアな隠蔽チャネルを保証するためには、通信の前にチャンネル交渉は無関係でなければならない。通信中はキャリアトランザクションの特徴が通常のトランザクションと区別できず、通信後に通信IDが追跡不能でなければならない。 このようなフルライフサイクルの隠蔽チャネルは、2つの通信相手(例えば、オンチェーン、オフチェーン)を包括的にインターセプトする多角的敵に対して防御するには不可欠である。 残念なことに、本書では徹底的に調査されていない。 私たちは、ABC-Channelというブロックチェーンベースの新しい隠蔽チャネルである、フルライフサイクルの隠蔽チャネルを達成するための最初の努力をしています。 オフチェーンの接触依存性,トランザクションボリュームの増加に伴うマスクレーディング困難の増加,通信不能かつ追跡不能なIDの出現など,一連の課題に対処し,それぞれ非接触チャネル交渉,識別不能なトランザクション機能,追跡不能な通信IDを実現している。 ABC-Channelを検証するためのプロトタイプを開発し、Bitcoinテストネット上で広範囲なテストを行う。 実験の結果,ABC-Channelは極めて安全なカバート機能を実現することがわかった。 既存の方法と比較して、最先端の伝送効率も示す。

Establishing efficient and robust covert channels is crucial for secure communication within insecure network environments. With its inherent benefits of decentralization and anonymization, blockchain has gained considerable attention in developing covert channels. To guarantee a highly secure covert channel, channel negotiation should be contactless before the communication, carrier transaction features must be indistinguishable from normal transactions during the communication, and communication identities must be untraceable after the communication. Such a full-lifecycle covert channel is indispensable to defend against a versatile adversary who intercepts two communicating parties comprehensively (e.g., on-chain and off-chain). Unfortunately, it has not been thoroughly investigated in the literature. We make the first effort to achieve a full-lifecycle covert channel, a novel blockchain-based covert channel named ABC-Channel. We tackle a series of challenges, such as off-chain contact dependency, increased masquerading difficulties as growing transaction volume, and time-evolving, communicable yet untraceable identities, to achieve contactless channel negotiation, indistinguishable transaction features, and untraceable communication identities, respectively. We develop a working prototype to validate ABC-Channel and conduct extensive tests on the Bitcoin testnet. The experimental results demonstrate that ABC-Channel achieves substantially secure covert capabilities. In comparison to existing methods, it also exhibits state-of-the-art transmission efficiency.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-10
# ファームウェアファジリングのカバー改善のためのMMIOモデルの改良

Refinement of MMIO Models for Improving the Coverage of Firmware Fuzzing ( http://arxiv.org/abs/2403.06281v1 )

ライセンス: Link先を確認
Wei-Lun Huang, Kang G. Shin, (参考訳) 組み込みシステム(ES)がユビキタスになり、機密性の高いユーザデータを収集し、ユーザが安全クリティカルな決定を下すのを助ける。 これらの脆弱性は、何十億ものESユーザのセキュリティとプライバシに重大な脅威をもたらす可能性がある。 グレーボックスファジィはESファームウェアのテストに広く使われている。 通常、効率的なテストのために完全にエミュレートされた環境でファームウェアを実行する。 このような設定では、ファジィザは周辺ハードウェアにアクセスすることができないため、適切なコードカバレッジを達成するためにファームウェアと周辺機器とのインタラクションをモデル化する必要がある。 最先端(SOTA)ファームウェアファザは、周辺機器のメモリマップされたI/O(MMIO)をモデル化することに焦点を当てている。 ファームウェアファジリングのためのSOTA MMIOモデルでは,データチャンクを検索するためのMMIO読み出しがうまく記述されておらず,コードカバレッジ向上のための十分な余地が残されていることがわかった。 そこで本稿では,使用するMMIOモデルを精錬することにより,コードカバレッジを向上させるES-Fuzzを提案する。 ES-Fuzzは、所定のファームウェアファザーを使用して、ESファームウェアのテスト後にテストケース以外に、ステートレスで固定されたMMIOモデルを生成する。 ES-Fuzzは与えられたテストハーネスを計測し、最もカバレッジの高いテストケースで実行し、実行トレースを取得する。 トレースはES-Fuzzをガイドし、ステートフルで適応可能なMMIOモデルを構築する。 ファザーはその後、ファームウェアを新しく作られたモデルでテストする。 ファジィアとES-ファジィの交互化は、ファジィテストのカバレッジを反復的に向上させる。 我々は、ファズウェア上でES-Fuzzを実装し、21の人気のあるESファームウェアで評価した。 ES-Fuzzはファズウェアのカバー範囲を最大160 %まで増やします。

Embedded systems (ESes) are now ubiquitous, collecting sensitive user data and helping the users make safety-critical decisions. Their vulnerability may thus pose a grave threat to the security and privacy of billions of ES users. Grey-box fuzzing is widely used for testing ES firmware. It usually runs the firmware in a fully emulated environment for efficient testing. In such a setting, the fuzzer cannot access peripheral hardware and hence must model the firmware's interactions with peripherals to achieve decent code coverage. The state-of-the-art (SOTA) firmware fuzzers focus on modeling the memory-mapped I/O (MMIO) of peripherals. We find that SOTA MMIO models for firmware fuzzing do not describe the MMIO reads well for retrieving a data chunk, leaving ample room for improvement of code coverage. Thus, we propose ES-Fuzz that boosts the code coverage by refining the MMIO models in use. ES-Fuzz uses a given firmware fuzzer to generate stateless and fixed MMIO models besides test cases after testing an ES firmware. ES-Fuzz then instruments a given test harness, runs it with the highest-coverage test case, and gets the execution trace. The trace guides ES-Fuzz to build stateful and adaptable MMIO models. The given fuzzer thereafter tests the firmware with the newly-built models. The alternation between the fuzzer and ES-Fuzz iteratively enhances the coverage of fuzz-testing. We have implemented ES-Fuzz upon Fuzzware and evaluated it with 21 popular ES firmware. ES-Fuzz boosts Fuzzware's coverage by up to $160\%$ in some of these firmware without lowering the coverage in the others much.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-10
# オンライン展開に適した真理推論アルゴリズムの検証用データセット

A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment ( http://arxiv.org/abs/2403.08826v1 )

ライセンス: Link先を確認
Fei Wang, Haoyu Liu, Haoyang Bi, Xiangzhuang Shen, Renyu Zhu, Runze Wu, Minmin Lin, Tangjie Lv, Changjie Fan, Qi Liu, Zhenya Huang, Enhong Chen, (参考訳) 効率的で費用対効果の高い大規模データラベリングを目的として,クラウドソーシングがますます活用されている。 データラベリングの品質を保証するために、各データサンプルに対して複数のアノテーションを収集する必要がある。 これまでの研究は、真理推論アルゴリズムの有効性を評価するための公開データセットを公開していたが、それらは一般的に、単一のタイプのクラウドソーシングタスクに焦点を合わせ、労働者のアノテーション活動に関連する時間的情報を無視してきた。 これらの制限は、特に長期およびオンラインの真理推論の文脈において、これらのアルゴリズムの実践的適用性を著しく制限する。 本稿では,現実のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。 このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。 データは様々なタスクから約6ヶ月にわたって収集され、各アノテーションのタイムスタンプが保存された。 複数の視点からデータセットの特徴を分析し、このデータセット上でのいくつかの代表的真理推論アルゴリズムの有効性を評価する。 このデータセットは、様々な種類のタスクに関連する労働者の能力の時間的追跡と、オンラインの真理推論の強化を期待する。

For the purpose of efficient and cost-effective large-scale data labeling, crowdsourcing is increasingly being utilized. To guarantee the quality of data labeling, multiple annotations need to be collected for each data sample, and truth inference algorithms have been developed to accurately infer the true labels. Despite previous studies having released public datasets to evaluate the efficacy of truth inference algorithms, these have typically focused on a single type of crowdsourcing task and neglected the temporal information associated with workers' annotation activities. These limitations significantly restrict the practical applicability of these algorithms, particularly in the context of long-term and online truth inference. In this paper, we introduce a substantial crowdsourcing annotation dataset collected from a real-world crowdsourcing platform. This dataset comprises approximately two thousand workers, one million tasks, and six million annotations. The data was gathered over a period of approximately six months from various types of tasks, and the timestamps of each annotation were preserved. We analyze the characteristics of the dataset from multiple perspectives and evaluate the effectiveness of several representative truth inference algorithms on this dataset. We anticipate that this dataset will stimulate future research on tracking workers' abilities over time in relation to different types of tasks, as well as enhancing online truth inference.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-10
# WorldGPT:テキストからリッチワールドモデルとしてソラにインスパイアされたビデオAIエージェント 画像入力

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs ( http://arxiv.org/abs/2403.07944v1 )

ライセンス: Link先を確認
Deshun Yang, Luhui Hu, Yu Tian, Zihao Li, Chris Kelly, Bang Yang, Cindy Yang, Yuexian Zou(参考訳) いくつかのテキストからビデオへの拡散モデルでは、高品質な映像コンテンツを合成する能力が実証されている。 しかし、これは時間的一貫性を維持し、生成されたシーケンス全体を通してアクションのスムーズさを確保することに関連する、恐ろしい課題である。 本稿では,Soraにインスパイアされたマルチモーダル学習の力を利用して,テキストのプロンプトと付随画像に基づく熟練した世界モデルフレームワークを構築する,革新的なビデオ生成AIエージェントを提案する。 このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。 第1部では、ChatGPTの機能を精巧に蒸留し、その後のステップごとに正確なプロンプトを積極的に構築することにより、後続のモデル操作における通信と正確な実行の最も正確な精度を保証する。 第2部は、既存の高度な拡散技術と互換性があり、ビデオの終了時にキーフレームを拡張的に生成し、洗練する。 そして、キーフレームの先頭と後続のパワーを巧みに活用して、時間的一貫性とアクションのスムーズさを高めたビデオを作ることができます。 実験結果から,本手法は,テキストと画像の入力から世界モデルを構築する上で,優れた有効性と新規性を有することを確認した。

Several text-to-video diffusion models have demonstrated commendable capabilities in synthesizing high-quality video content. However, it remains a formidable challenge pertaining to maintaining temporal consistency and ensuring action smoothness throughout the generated sequences. In this paper, we present an innovative video generation AI agent that harnesses the power of Sora-inspired multimodal learning to build skilled world models framework based on textual prompts and accompanying images. The framework includes two parts: prompt enhancer and full video translation. The first part employs the capabilities of ChatGPT to meticulously distill and proactively construct precise prompts for each subsequent step, thereby guaranteeing the utmost accuracy in prompt communication and accurate execution in following model operations. The second part employ compatible with existing advanced diffusion techniques to expansively generate and refine the key frame at the conclusion of a video. Then we can expertly harness the power of leading and trailing key frames to craft videos with enhanced temporal consistency and action smoothness. The experimental results confirm that our method has strong effectiveness and novelty in constructing world models from text and image inputs over the other methods.
翻訳日:2024-03-14 17:27:51 公開日:2024-03-10
# グラフデータにおけるグラフニューラルネットワークのエッジ摂動の再検討 強化と攻撃

Revisiting Edge Perturbation for Graph Neural Network in Graph Data Augmentation and Attack ( http://arxiv.org/abs/2403.07943v1 )

ライセンス: Link先を確認
Xin Liu, Yuxiang Zhang, Meng Wu, Mingyu Yan, Kun He, Wei Yan, Shirui Pan, Xiaochun Ye, Dongrui Fan(参考訳) エッジ摂動はグラフ構造を変更するための基本的な方法である。 グラフニューラルネットワーク(GNN)の性能、すなわちグラフデータ拡張とアタックへの影響に基づいて、2つの静脈に分類することができる。 驚くべきことに、エッジ摂動法の両静脈は同じ操作を用いるが、GNNの精度には逆の効果が生じる。 エッジ摂動を用いた場合、これらの方法の明確な境界は明確に定義されていない。 その結果、不適切な摂動は望ましくない結果をもたらし、望ましい効果を達成するために正確な調整を必要とする。 したがって、「なぜ辺の摂動は2面効果があるのか」や「辺の摂動を柔軟かつ効果的にするか」といった疑問は未解決のままである。 本稿では、統一的な定式化を提案し、エッジ摂動法の2つのカテゴリ間の明確な境界を確立することにより、これらの質問に答える。 具体的には,これらの手法の違いと類似性を解明する実験を行い,これらの手法のワークフローを1つの最適化問題にキャストすることで理論的に統一する。 次に、エッジ優先度検出器(EPD)を設計し、新しい優先度基準を生成し、これらのメソッドをワークフローにブリッジする。 実験によると、EPDは拡張や攻撃を柔軟に行うことができ、時間的オーバーヘッドの少ない他のものと同等または優れたパフォーマンスを達成できる。

Edge perturbation is a basic method to modify graph structures. It can be categorized into two veins based on their effects on the performance of graph neural networks (GNNs), i.e., graph data augmentation and attack. Surprisingly, both veins of edge perturbation methods employ the same operations, yet yield opposite effects on GNNs' accuracy. A distinct boundary between these methods in using edge perturbation has never been clearly defined. Consequently, inappropriate perturbations may lead to undesirable outcomes, necessitating precise adjustments to achieve desired effects. Therefore, questions of ``why edge perturbation has a two-faced effect?'' and ``what makes edge perturbation flexible and effective?'' still remain unanswered. In this paper, we will answer these questions by proposing a unified formulation and establishing a clear boundary between two categories of edge perturbation methods. Specifically, we conduct experiments to elucidate the differences and similarities between these methods and theoretically unify the workflow of these methods by casting it to one optimization problem. Then, we devise Edge Priority Detector (EPD) to generate a novel priority metric, bridging these methods up in the workflow. Experiments show that EPD can make augmentation or attack flexibly and achieve comparable or superior performance to other counterparts with less time overhead.
翻訳日:2024-03-14 17:27:50 公開日:2024-03-10
# 可変反転摂動を用いた変圧器の攻撃

Attacking Transformers with Feature Diversity Adversarial Perturbation ( http://arxiv.org/abs/2403.07942v1 )

ライセンス: Link先を確認
Chenxing Gao, Hang Zhou, Junqing Yu, YuTeng Ye, Jiale Cai, Junle Wang, Wei Yang(参考訳) ViT(Vision Transformer)の裏にあるメカニズムを理解することは、特にその現実のアプリケーションにおける課題に対処するために不可欠である。 既存のViT攻撃者は、摂動の勾配を計算し、他の構造やタスクへの転送性が低いことをラ・ベルに頼っている。 本稿では,多くのVT変種,CNN,MPPなど,さまざまなブラックボックスモデルに対して強力な転送性を示すラベルフリーなホワイトボックス攻撃手法を提案する。 我々のインスピラは、ViTsにおける特徴崩壊現象から来ており、重要な注意機構は機能の低周波成分に過度に依存し、中端層の特徴はますます類似し、最終的に崩壊する。 本稿では,この過程を自然に加速し,優れた性能と伝達性を実現するために,特徴多様性攻撃を提案する。

Understanding the mechanisms behind Vision Transformer (ViT), particularly its vulnerability to adversarial perturba tions, is crucial for addressing challenges in its real-world applications. Existing ViT adversarial attackers rely on la bels to calculate the gradient for perturbation, and exhibit low transferability to other structures and tasks. In this paper, we present a label-free white-box attack approach for ViT-based models that exhibits strong transferability to various black box models, including most ViT variants, CNNs, and MLPs, even for models developed for other modalities. Our inspira tion comes from the feature collapse phenomenon in ViTs, where the critical attention mechanism overly depends on the low-frequency component of features, causing the features in middle-to-end layers to become increasingly similar and eventually collapse. We propose the feature diversity attacker to naturally accelerate this process and achieve remarkable performance and transferability.
翻訳日:2024-03-14 17:27:49 公開日:2024-03-10
# 独立公理、多世界理論、構成者理論

The Independence Postulate, the Many Worlds Theory, and Constructor Theory ( http://arxiv.org/abs/2302.07649v6 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 多くの世界理論と建設論は独立宣言と矛盾している。 多くの世界理論との衝突は、多数の電子のスピンを測定する有限の実験の存在によって示されている。 実験の後、独立性の仮定を破る禁止配列を含む正の確率の分岐が存在する。 コンストラクタ理論は反事実から成り、特定の過程が起こりうるか起こり得ないかを宣言する。 しかし、この二項分類は、禁止されたシーケンスを発見または生成できるかどうかを記述する際に課題を満たす。

The Many Worlds Theory and Constructor Theory are in conflict with the Independence Postulate. The conflict with the Many Worlds Theory is shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate. Constructor Theory consists of counterfactuals, decreeing certain processes can or cannot occur. However this binary classification meets challenges when describing whether a forbidden sequence can be found or created.
翻訳日:2024-03-14 02:24:02 公開日:2024-03-10
# 気候・海洋影響を考慮したデング予測のためのfwin変圧器

FWin transformer for dengue prediction under climate and ocean influence ( http://arxiv.org/abs/2403.07027v1 )

ライセンス: Link先を確認
Nhat Thanh Tran, Jack Xin, Guofa Zhou(参考訳) デング熱は最も致命的な蚊由来の熱帯感染症の1つである。 詳細な長距離予測モデルは、病気の拡散の制御と緩和の努力に不可欠である。 本研究では,長期予測のためのデング症例の予測法について検討した。 このデータセットは、2000年から2019年までのシンガポールの気候指標に加え、現地の気候と天候で構成されている。 新たに開発したディープニューラルネットワークを用いて,特徴間の複雑な関係を学習する。 本研究のベースラインモデルは,近年の長周期予測タスクにおける変圧器のクラスである。 その結果,FWinをベースとしたFourier Mixed window attention (FWin) 変換器は,長範囲デング予測における平均二乗誤差と最大絶対誤差の両方において,最大60週間の精度で最高の性能を示した。

Dengue fever is one of the most deadly mosquito-born tropical infectious diseases. Detailed long range forecast model is vital in controlling the spread of disease and making mitigation efforts. In this study, we examine methods used to forecast dengue cases for long range predictions. The dataset consists of local climate/weather in addition to global climate indicators of Singapore from 2000 to 2019. We utilize newly developed deep neural networks to learn the intricate relationship between the features. The baseline models in this study are in the class of recent transformers for long sequence forecasting tasks. We found that a Fourier mixed window attention (FWin) based transformer performed the best in terms of both the mean square error and the maximum absolute error on the long range dengue forecast up to 60 weeks.
翻訳日:2024-03-14 00:13:49 公開日:2024-03-10
# ホワイトネスに基づく画像の正規化パラメータのバイレベル学習

Whiteness-based bilevel learning of regularization parameters in imaging ( http://arxiv.org/abs/2403.07026v1 )

ライセンス: Link先を確認
Carlo Santambrogio, Monica Pragliola, Alessandro Lanza, Marco Donatelli, Luca Calatroni(参考訳) 画像逆問題における正規化パラメータの学習のための教師なし二段階最適化手法について,白色ガウス雑音の存在下での検討を行った。 Compared to supervised and semi-supervised metrics relying either on the prior knowledge of reference data and/or on some (partial) knowledge on the noise statistics, the proposed approach optimizes the whiteness of the residual between the observed data and the observation model with no need of ground-truth data.We validate the approach on standard Total Variation-regularized image deconvolution problems which show that the proposed quality metric provides estimates close to the mean-square error oracle and to discrepancy-based principles.

We consider an unsupervised bilevel optimization strategy for learning regularization parameters in the context of imaging inverse problems in the presence of additive white Gaussian noise. Compared to supervised and semi-supervised metrics relying either on the prior knowledge of reference data and/or on some (partial) knowledge on the noise statistics, the proposed approach optimizes the whiteness of the residual between the observed data and the observation model with no need of ground-truth data.We validate the approach on standard Total Variation-regularized image deconvolution problems which show that the proposed quality metric provides estimates close to the mean-square error oracle and to discrepancy-based principles.
翻訳日:2024-03-14 00:13:35 公開日:2024-03-10
# ニューラルネットワークによるゼロノイズ外挿による量子変分アルゴリズムの強化

Enhancing Quantum Variational Algorithms with Zero Noise Extrapolation via Neural Networks ( http://arxiv.org/abs/2403.07025v1 )

ライセンス: Link先を確認
Subhasree Bhattacharjee, Soumyadip Sarkar, Kunal Das, Bikramjit Sarkar(参考訳) 量子コンピューティングの創発的領域では、変分量子固有ソルバ(vqe)は、特にノイズの多い中間スケール量子(nisq)時代の複雑な量子問題を解くための有望なアルゴリズムである。 しかし、量子デバイスにおけるノイズの存在は、しばしばVQE結果の正確性と信頼性を制限する。 本研究は、VQE計算におけるゼロノイズ補間(ZNE)にニューラルネットワークを活用することにより、この課題を改善するための新しいアプローチを提案する。 Qiskit フレームワークを用いて RY-RZ アンサッツを用いてパラメータ化量子回路を構築し, 様々な非偏極雑音下での動作について検討した。 本研究は,z 作用素のテンソル積として定義されるハミルトニアンの期待値の決定から基底状態エネルギーの抽出まで,様々な雑音強度の下での考察を行った。 雑音下の観測結果を理想的なノイズフリーシナリオで橋渡しするために,誤り確率と関連する期待値に基づいてフィードフォワードニューラルネットワークを訓練した。 提案モデルでは,仮説的ノイズフリー条件下でのVQE結果の予測を行った。 実際の量子デバイスの実行とシミュレーション結果の重ね合わせを行い,ノイズによる不一致を明らかにし,ニューラルネットワークを用いたzne手法の有効性を示した。 この積分的アプローチは、NISQデバイス上でのVQE計算の精度向上の道を開くだけでなく、量子ノイズによって生じる課題を回避するためのハイブリッド量子古典パラダイムの潜在可能性も強調している。 この研究を通じて、量子アルゴリズムがノイズの多いデバイス上で確実に実行される未来を想定し、量子コンピューティングのポテンシャルの完全な実現に一歩近づいた。

In the emergent realm of quantum computing, the Variational Quantum Eigensolver (VQE) stands out as a promising algorithm for solving complex quantum problems, especially in the noisy intermediate-scale quantum (NISQ) era. However, the ubiquitous presence of noise in quantum devices often limits the accuracy and reliability of VQE outcomes. This research introduces a novel approach to ameliorate this challenge by utilizing neural networks for zero noise extrapolation (ZNE) in VQE computations. By employing the Qiskit framework, we crafted parameterized quantum circuits using the RY-RZ ansatz and examined their behavior under varying levels of depolarizing noise. Our investigations spanned from determining the expectation values of a Hamiltonian, defined as a tensor product of Z operators, under different noise intensities to extracting the ground state energy. To bridge the observed outcomes under noise with the ideal noise-free scenario, we trained a Feed Forward Neural Network on the error probabilities and their associated expectation values. Remarkably, our model proficiently predicted the VQE outcome under hypothetical noise-free conditions. By juxtaposing the simulation results with real quantum device executions, we unveiled the discrepancies induced by noise and showcased the efficacy of our neural network-based ZNE technique in rectifying them. This integrative approach not only paves the way for enhanced accuracy in VQE computations on NISQ devices but also underlines the immense potential of hybrid quantum-classical paradigms in circumventing the challenges posed by quantum noise. Through this research, we envision a future where quantum algorithms can be reliably executed on noisy devices, bringing us one step closer to realizing the full potential of quantum computing.
翻訳日:2024-03-14 00:13:26 公開日:2024-03-10
# 任意変更型実時間単位付き時空間予測クエリの統一モデル

A Unified Model for Spatio-Temporal Prediction Queries with Arbitrary Modifiable Areal Units ( http://arxiv.org/abs/2403.07022v1 )

ライセンス: Link先を確認
Liyue Chen, Jiangyi Fang, Tengfei Liu, Shaosheng Cao, Leye Wang(参考訳) 時空間(ST)予測は、ライドシェアリングのような都市における位置情報ベースのアプリケーションにおいて情報決定を行う上で不可欠である。 しかし、既存のSTモデルは、しばしば前提条件として領域分割を必要とするため、2つの主要な落とし穴が生じる。 まず、ロケーションベースのサービスは様々な目的のためにアドホック領域を必要とし、様々なスケールとゾーンを持つ複数のSTモデルを必要とする。 第2に、異なるSTモデルが矛盾する出力を生成し、混乱した予測をもたらす。 本論文では, 1 つのモデルのみを用いて任意の有界単位に対するst予測を行うフレームワークone4all-stを提案する。 マルチスケール予測のコストを削減するため,階層型空間モデリングと拡張正規化モジュールを用いたSTネットワークを設計し,マルチスケール表現を効率的に等しく学習する。 そこで本研究では, 最適組合せ問題を解くための動的計画法を提案し, 理論解析による予測誤差を最小化する。 さらに, オンラインシナリオにおいて, 最適な組み合わせをインデックス化するために拡張されたクワッドツリーを使うことを提案する。 2つの実世界のデータセットに対する大規模な実験は、任意の修飾可能なアラル単位に対するST予測におけるOne4All-STの有効性と有効性を検証する。 この作業のソースコードとデータはhttps://github.com/uctb/One4All-STで公開されている。

Spatio-Temporal (ST) prediction is crucial for making informed decisions in urban location-based applications like ride-sharing. However, existing ST models often require region partition as a prerequisite, resulting in two main pitfalls. Firstly, location-based services necessitate ad-hoc regions for various purposes, requiring multiple ST models with varying scales and zones, which can be costly to support. Secondly, different ST models may produce conflicting outputs, resulting in confusing predictions. In this paper, we propose One4All-ST, a framework that can conduct ST prediction for arbitrary modifiable areal units using only one model. To reduce the cost of getting multi-scale predictions, we design an ST network with hierarchical spatial modeling and scale normalization modules to efficiently and equally learn multi-scale representations. To address prediction inconsistencies across scales, we propose a dynamic programming scheme to solve the formulated optimal combination problem, minimizing predicted error through theoretical analysis. Besides, we suggest using an extended quad-tree to index the optimal combinations for quick response to arbitrary modifiable areal units in practical online scenarios. Extensive experiments on two real-world datasets verify the efficiency and effectiveness of One4All-ST in ST prediction for arbitrary modifiable areal units. The source codes and data of this work are available at https://github.com/uctb/One4All-ST.
翻訳日:2024-03-14 00:12:57 公開日:2024-03-10
# フーリエサンプリングまたはランダム回路サンプリングによる認定ランダム性について

On Certified Randomness from Fourier Sampling or Random Circuit Sampling ( http://arxiv.org/abs/2111.14846v2 )

ライセンス: Link先を確認
Roozbeh Bassirian, Adam Bouland, Bill Fefferman, Sam Gunn, Avishay Tal(参考訳) 認定ランダム性は量子情報において長い歴史を持ち、多くの応用が考えられる。 Aaronson (2018, 2020) は、既存のランダム回路サンプリング(RCS)実験に基づいて、新しい認証ランダム性プロトコルを提案した。 しかしながら、彼のプロトコルのセキュリティは、それまで文献で研究されていなかった非標準複雑性理論予想に依存している。 アーロンソンの研究に触発されて、量子ランダムオラクルモデル (qrom) における認定ランダム性の研究を行った。 量子フーリエサンプリングは、無条件ブラックボックスセキュリティを用いて、公に検証可能な認定乱数プロトコルを定義するために使用できる。 qromに認証されたランダム性プロトコルを与えるのに加えて、このプロトコルはaaronsonのプロトコルの"ブラックボックスバージョン"であるため、rcsベースのランダム性生成に対するaaronsonの予想をサポートするものと見なすこともできる。 さらにaaronsonの提案を支持するために,raz と tal による bqp 対 ph の分離を延長することでaaronson 予想のフーリエサンプリング版を証明した。 このプロトコルのセキュリティはAaronson-Ambainis予想に依存するが、我々のプロトコルは無条件で安全である。 我々のプロトコルは単純なヒューリスティックな実装も持っている。

Certified randomness has a long history in quantum information, with many potential applications. Recently Aaronson (2018, 2020) proposed a novel public certified randomness protocol based on existing random circuit sampling (RCS) experiments. The security of his protocol, however, relies on non-standard complexity-theoretic conjectures which were not previously studied in the literature. Inspired by Aaronson's work, we study certified randomness in the quantum random oracle model (QROM). We show that quantum Fourier Sampling can be used to define a publicly verifiable certified randomness protocol, with unconditional black-box security. In addition to giving a certified randomness protocol in the QROM, our work can also be seen as supporting Aaronson's conjectures for RCS-based randomness generation, as our protocol is in some sense the "black-box version" of Aaronson's protocol. In further support of Aaronson's proposal, we prove a Fourier Sampling version of Aaronson's conjecture by extending Raz and Tal's separation of BQP vs PH. Our work complements the subsequent certified randomness protocol of Yamakawa and Zhandry (2022) in the QROM. Whereas the security of that protocol relied on the Aaronson-Ambainis conjecture, our protocol is unconditionally secure - at the expense of requiring exponential-time classical verification. Our protocol also has a simple heuristic implementation.
翻訳日:2024-03-13 18:17:18 公開日:2024-03-10
# 分散グラフを用いたグラフニューラルネットワークの一般化

Generalizing Graph Neural Networks on Out-Of-Distribution Graphs ( http://arxiv.org/abs/2111.10657v4 )

ライセンス: Link先を確認
Shaohua Fan, Xiao Wang, Chuan Shi, Peng Cui and Bai Wang(参考訳) グラフニューラルネットワーク(GNN)は,トレーニンググラフとテストグラフの非依存的な分布変化を考慮せずに提案され,OF-Distribution(OOD)設定上でのGNNの一般化能力の低下を招く。 このような退化の根本的な理由は、ほとんどのGNNがI.I.D仮説に基づいて開発されているからである。 このような設定では、gnnはスプリアス相関であるにもかかわらず、トレーニングセットに存在する微妙な統計相関を予測のために利用する傾向がある。 しかし、このような急激な相関関係はテスト環境で変化し、GNNの失敗につながる可能性がある。 したがって、スプリアス相関の影響の排除は安定gnnにとって不可欠である。 そこで我々は,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。 主なアイデアは、まずグラフデータからハイレベルな表現を抽出し、モデルがスプリアス相関を取り除くのを助けるために因果推論の識別能力に頼ることである。 特に,グラフプーリング層を用いてグラフベース表現を高レベル表現として抽出する。 さらに,偏りのあるトレーニング分布を補正するための因果変数識別正規化器を提案する。 したがって、GNNはより安定した相関に集中する。 合成および実世界のoodグラフデータセットの広範な実験により、提案フレームワークの有効性、柔軟性、解釈性が検証された。

Graph Neural Networks (GNNs) are proposed without considering the agnostic distribution shifts between training and testing graphs, inducing the degeneration of the generalization ability of GNNs on Out-Of-Distribution (OOD) settings. The fundamental reason for such degeneration is that most GNNs are developed based on the I.I.D hypothesis. In such a setting, GNNs tend to exploit subtle statistical correlations existing in the training set for predictions, even though it is a spurious correlation. However, such spurious correlations may change in testing environments, leading to the failure of GNNs. Therefore, eliminating the impact of spurious correlations is crucial for stable GNNs. To this end, we propose a general causal representation framework, called StableGNN. The main idea is to extract high-level representations from graph data first and resort to the distinguishing ability of causal inference to help the model get rid of spurious correlations. Particularly, we exploit a graph pooling layer to extract subgraph-based representations as high-level representations. Furthermore, we propose a causal variable distinguishing regularizer to correct the biased training distribution. Hence, GNNs would concentrate more on the stable correlations. Extensive experiments on both synthetic and real-world OOD graph datasets well verify the effectiveness, flexibility and interpretability of the proposed framework.
翻訳日:2024-03-13 18:16:55 公開日:2024-03-10
# 古典的通信の有限個のラウンドによる局所演算による量子ネットワークの変換

Transformations in quantum networks via local operations assisted by finitely many rounds of classical communication ( http://arxiv.org/abs/2105.01090v3 )

ライセンス: Link先を確認
Cornelia Spee, Tristan Kraft(参考訳) 近年の進歩により量子ネットワークの最初のプロトタイプが開発され、エンタングルメントは2成分のエンタングル状態を生成するソースによって分配される。 これは、局所演算と古典的通信を用いて二成分源に基づく量子ネットワークにおいて、どの状態が生成されるかという問題を引き起こす。 本研究では,局所演算の有限ラウンドとネットワークの古典的通信(locc)の下での状態変換を最大に絡み合う2量子ビット状態に基づいて検討する。 まず、任意のネットワーク構造の対称性を導出し、どの変換が可能かを決定する。 そして、同じ絡み合いクラス内の任意の状態に到達できることが既に示されている木グラフとは対照的に、ネットワークがサイクルを含む場合、確率的に到達できるが決定的に到達できない状態が存在することを示す。 さらに、サイクルからなるネットワークでは到達できない状態を決定するための体系的な方法を提供する。 さらに,各ステップが決定論的に変換されるように,各ステップが1回しか計測されないプロトコルを用いて,サイクルネットワークで到達可能な状態の完全な特徴付けを行う。 最後に,このような単純なプロトコルでは到達できない例を示し,我々の知る限りでは,古典的コミュニケーションの3ラウンドを必要とする完全絡み合った状態における locc 変換の最初の例である。

Recent advances have led towards first prototypes of quantum networks in which entanglement is distributed by sources producing bipartite entangled states. This raises the question of which states can be generated in quantum networks based on bipartite sources using local operations and classical communication. In this work, we study state transformations under finite rounds of local operations and classical communication (LOCC) in networks based on maximally entangled two-qubit states. We first derive the symmetries for arbitrary network structures, as these determine which transformations are possible. Then, we show that contrary to tree graphs, for which it has already been shown that any state within the same entanglement class can be reached, there exist states which can be reached probabilistically but not deterministically if the network contains a cycle. Furthermore, we provide a systematic way to determine states which are not reachable in networks consisting of a cycle. Moreover, we provide a complete characterization of the states which can be reached in a cycle network with a protocol where each party measures only once, and each step of the protocol results in a deterministic transformation. Finally, we present an example which cannot be reached with such a simple protocol, and constitutes, up to our knowledge, the first example of a LOCC transformation among fully entangled states requiring three rounds of classical communication.
翻訳日:2024-03-13 18:15:24 公開日:2024-03-10
# SeMA: セキュアなAndroidアプリを開発するためのストーリーボードの拡張と分析

SeMA: Extending and Analyzing Storyboards to Develop Secure Android Apps ( http://arxiv.org/abs/2001.10052v4 )

ライセンス: Link先を確認
Joydeep Mitra, Venkatesh-Prasad Ranganath, Torben Amtoft, Mike Higgins(参考訳) モバイルアプリは銀行、コミュニケーション、医療など、さまざまな重要なサービスを提供する。 この目的のために、彼らは私たちの個人情報にアクセスでき、私たちの代理として行動する能力を持っている。 したがって、モバイルアプリのセキュリティは、ユーザのプライバシーと安全を確保する上で不可欠である。 最近の研究は、セキュアなモバイルエコシステム(アプリプラットフォーム、アプリ、アプリストア)、特にAndroidアプリの脆弱性を検出するコンテキストにおけるソリューションの開発に重点を置いている。 このような注意にもかかわらず、既知の脆弱性は、悪質なアプリによって悪用され、ユーザを傷つける可能性があるモバイルアプリでしばしば見られる。 さらに、アプリ開発後の脆弱性の修正には、時間、リソース、ユーザの不便、情報損失の面でマイナス面がある。 この問題に対処するため,我々は,ストーリーボードなどの既存のモバイルアプリデザイン成果物に基づくモバイルアプリ開発方法論であるSeMAを開発した。 SeMAでは、セキュリティはアプリの設計において第一級の市民である -- アプリ設計者と開発者は、実装レベルの詳細に気を散らすことなく、アプリケーションのセキュリティ特性を抽象レベルで特定し、推論するために協力することができる。 Android Studioツールを使用したSeMAの実現は、既存の設計および開発プラクティスを補完する方法論であることを実証しています。 SeMAの有効性を評価することで、Androidアプリで既知の49の脆弱性を検出し、防止することができる。 さらに、現実世界の10人の開発者を含む方法論に関するユーザビリティ調査は、この方法論が開発時間を短縮し、開発者がアプリの設計中に既知の脆弱性を発見して防止するのに役立つことを示している。

Mobile apps provide various critical services, such as banking, communication, and healthcare. To this end, they have access to our personal information and have the ability to perform actions on our behalf. Hence, securing mobile apps is crucial to ensuring the privacy and safety of its users. Recent research efforts have focused on developing solutions to secure mobile ecosystems (i.e., app platforms, apps, and app stores), specifically in the context of detecting vulnerabilities in Android apps. Despite this attention, known vulnerabilities are often found in mobile apps, which can be exploited by malicious apps to harm the user. Further, fixing vulnerabilities after developing an app has downsides in terms of time, resources, user inconvenience, and information loss. In an attempt to address this concern, we have developed SeMA, a mobile app development methodology that builds on existing mobile app design artifacts such as storyboards. With SeMA, security is a first-class citizen in an app's design -- app designers and developers can collaborate to specify and reason about the security properties of an app at an abstract level without being distracted by implementation level details. Our realization of SeMA using Android Studio tooling demonstrates the methodology is complementary to existing design and development practices. An evaluation of the effectiveness of SeMA shows the methodology can detect and help prevent 49 vulnerabilities known to occur in Android apps. Further, a usability study of the methodology involving ten real-world developers shows the methodology is likely to reduce the development time and help developers uncover and prevent known vulnerabilities while designing apps.
翻訳日:2024-03-13 18:14:07 公開日:2024-03-10
# バイリンガル語彙誘導のための識別潜在変数モデル

A Discriminative Latent-Variable Model for Bilingual Lexicon Induction ( http://arxiv.org/abs/1808.09334v3 )

ライセンス: Link先を確認
Sebastian Ruder, Ryan Cotterell, Yova Kementchedjhieva, Anders S{\o}gaard(参考訳) バイリンガル語彙誘導のための新しい識別潜在変数モデルを提案する。 本モデルは,haghighi et al. (2008) 以前の二部マッチング辞書と表現に基づくアプローチを組み合わせたものである(artetxe et al., 2017)。 モデルをトレーニングするために、効率的なビタビEMアルゴリズムを導出する。 2つの指標の下で6つの言語対について経験的な結果を示し,先行研究により2言語間語彙が改善することを示す。 また、以前の作業が同じような流行の潜在変数モデルと見なされる可能性も示しています。

We introduce a novel discriminative latent variable model for bilingual lexicon induction. Our model combines the bipartite matching dictionary prior of Haghighi et al. (2008) with a representation-based approach (Artetxe et al., 2017). To train the model, we derive an efficient Viterbi EM algorithm. We provide empirical results on six language pairs under two metrics and show that the prior improves the induced bilingual lexicons. We also demonstrate how previous work may be viewed as a similarly fashioned latent-variable model, albeit with a different prior.
翻訳日:2024-03-13 18:13:41 公開日:2024-03-10
# 信号処理におけるニューラルネットワーク応用の計算複雑性評価

Computational Complexity Evaluation of Neural Network Applications in Signal Processing ( http://arxiv.org/abs/2206.12191v2 )

ライセンス: Link先を確認
Pedro Freire, Sasipim Srivallapanondh, Antonio Napoli, Jaroslaw E. Prilepsky, Sergei K. Turitsyn(参考訳) 本稿では,デジタル信号処理におけるニューラルネットワーク層の計算複雑性を評価・比較するための体系的手法を提案する。 ソフトウェアからハードウエアまでの複雑性測定を4つ提供し、異なる複雑性メトリクスがレイヤのハイパーパラメータにどのように関係しているかを定義します。 本稿では、フィードフォワード層とリカレント層に対するこれらの4つのメトリクスの計算方法を説明し、よりソフトなアプリケーションかハードウェア指向のアプリケーションを特徴付けるかによって、特定のメトリクスを使用するべき場合を定義する。 加算数とビットシフト数(nabs)'と呼ばれる4つの指標のうちの1つが、異種量子化のために新しく導入された。 NABSは演算に使用されるビット幅だけでなく、演算に使用される量子化の種類にも影響する。 本研究は、リアルタイムディジタル信号処理におけるニューラルネットワークの応用に関連する複雑性推定のさまざまなレベル(目的)のベースラインとして機能し、計算複雑性推定を統一することを目的としている。

In this paper, we provide a systematic approach for assessing and comparing the computational complexity of neural network layers in digital signal processing. We provide and link four software-to-hardware complexity measures, defining how the different complexity metrics relate to the layers' hyper-parameters. This paper explains how to compute these four metrics for feed-forward and recurrent layers, and defines in which case we ought to use a particular metric depending on whether we characterize a more soft- or hardware-oriented application. One of the four metrics, called `the number of additions and bit shifts (NABS)', is newly introduced for heterogeneous quantization. NABS characterizes the impact of not only the bitwidth used in the operation but also the type of quantization used in the arithmetical operations. We intend this work to serve as a baseline for the different levels (purposes) of complexity estimation related to the neural networks' application in real-time digital signal processing, aiming at unifying the computational complexity estimation.
翻訳日:2024-03-13 18:10:28 公開日:2024-03-10
# あなたのモデルは過去を予測していますか。

Is your model predicting the past? ( http://arxiv.org/abs/2206.11673v2 )

ライセンス: Link先を確認
Moritz Hardt and Michael P. Kim(参考訳) 機械学習モデルはいつ、個人の将来を予測し、いつ、個人より前のパターンを引用するのか? 本研究では,この2つの予測経路を理論的,経験的,規範的の2つで区別する手法を提案する。 私たちの提案の中心には、バックワードベースラインと呼ばれる、単純で効率的な統計テストのファミリーがあり、モデルが過去のことを如何にして記録しているかを示しています。 我々の統計理論は、下位のベースラインを解釈し、異なるベースラインと慣れ親しんだ統計概念の間の等価性を確立するためのガイダンスを提供する。 具体的には、背景変数とシステムの予測のみを考慮し、ブラックボックスとして予測システムを監査するための意味のある後方ベースラインを導出する。 実験により,縦断パネル調査から得られた様々な予測タスクの枠組みを評価し,機械学習の実践に後方ベースラインを組み込むことの容易さと有効性を示した。

When does a machine learning model predict the future of individuals and when does it recite patterns that predate the individuals? In this work, we propose a distinction between these two pathways of prediction, supported by theoretical, empirical, and normative arguments. At the center of our proposal is a family of simple and efficient statistical tests, called backward baselines, that demonstrate if, and to what extent, a model recounts the past. Our statistical theory provides guidance for interpreting backward baselines, establishing equivalences between different baselines and familiar statistical concepts. Concretely, we derive a meaningful backward baseline for auditing a prediction system as a black box, given only background variables and the system's predictions. Empirically, we evaluate the framework on different prediction tasks derived from longitudinal panel surveys, demonstrating the ease and effectiveness of incorporating backward baselines into the practice of machine learning.
翻訳日:2024-03-13 18:10:09 公開日:2024-03-10
# ゆっくりと変化するadversarial banditアルゴリズムは割引mdpに効率的である

Slowly Changing Adversarial Bandit Algorithms are Efficient for Discounted MDPs ( http://arxiv.org/abs/2205.09056v3 )

ライセンス: Link先を確認
Ian A. Kash, Lev Reyzin and Zishun Yu(参考訳) 強化学習は、長い計画の地平線と未知のトランジションカーネルのさらなる困難を伴うマルチアームのバンディット問題を一般化する。 無限水平タブラ強化学習から多武装バンディットへのブラックボックスの削減について検討し、具体的には各州に独立したバンディット学習者が配置される。 エルゴード性および高速混合仮定の下では, 無限水平割引マルコフ決定過程において, 対向バンディット設定において最適後悔を達成し, ゆっくりと変化する任意の対向バンディットアルゴリズムが最適後悔を達成できることが示される。 さらに,指数重み付けアルゴリズムの具体例を用いて,削減について検討する。

Reinforcement learning generalizes multi-armed bandit problems with additional difficulties of a longer planning horizon and unknown transition kernel. We explore a black-box reduction from discounted infinite-horizon tabular reinforcement learning to multi-armed bandits, where, specifically, an independent bandit learner is placed in each state. We show that, under ergodicity and fast mixing assumptions, any slowly changing adversarial bandit algorithm achieving optimal regret in the adversarial bandit setting can also attain optimal expected regret in infinite-horizon discounted Markov decision processes, with respect to the number of rounds $T$. Furthermore, we examine our reduction using a specific instance of the exponential-weight algorithm.
翻訳日:2024-03-13 18:09:04 公開日:2024-03-10
# RescueNet: 自然災害評価のための高分解能UAVセマンティックセマンティックセグメンテーションベンチマークデータセット

RescueNet: A High Resolution UAV Semantic Segmentation Benchmark Dataset for Natural Disaster Damage Assessment ( http://arxiv.org/abs/2202.12361v3 )

ライセンス: Link先を確認
Maryam Rahnemoonfar, Tashnim Chowdhury, Robin Murphy(参考訳) 近年のコンピュータビジョンと深層学習技術の進歩は、現場理解の顕著な進歩を助長し、救助隊の正確な被害評価を支援する。 本稿では,詳細な分類と意味セグメンテーションアノテーションを含む,精巧にキュレートされた高分解能ポストディスタスターデータセットであるrescuenetを提案する。 このデータセットは、自然災害の余波を総合的に理解することを目的としている。 RescueNetは、複数の衝突地域から無人航空機(UAV)を用いて得られたハリケーン・マイケルの後に収集された災害後の画像を含んでいる。 rescuenetの独特さは、高解像度のポストディザスター画像を提供し、各画像に包括的な注釈を添えることにある。 建物などの特定のシーン要素に限定したアノテーションを提供する既存のデータセットとは異なり、rescuenetは建物、道路、プール、木などを含むすべてのクラスにピクセルレベルのアノテーションを提供する。 さらに,rescuenetに最先端のセグメンテーションモデルを実装し,既存の自然災害被害評価手法の強化にその価値を示すことにより,データセットの有用性を評価する。

Recent advancements in computer vision and deep learning techniques have facilitated notable progress in scene understanding, thereby assisting rescue teams in achieving precise damage assessment. In this paper, we present RescueNet, a meticulously curated high-resolution post-disaster dataset that includes detailed classification and semantic segmentation annotations. This dataset aims to facilitate comprehensive scene understanding in the aftermath of natural disasters. RescueNet comprises post-disaster images collected after Hurricane Michael, obtained using Unmanned Aerial Vehicles (UAVs) from multiple impacted regions. The uniqueness of RescueNet lies in its provision of high-resolution post-disaster imagery, accompanied by comprehensive annotations for each image. Unlike existing datasets that offer annotations limited to specific scene elements such as buildings, RescueNet provides pixel-level annotations for all classes, including buildings, roads, pools, trees, and more. Furthermore, we evaluate the utility of the dataset by implementing state-of-the-art segmentation models on RescueNet, demonstrating its value in enhancing existing methodologies for natural disaster damage assessment.
翻訳日:2024-03-13 18:08:48 公開日:2024-03-10
# 不確実性を考慮した正ラベル学習のための擬似ラベル選択

Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning ( http://arxiv.org/abs/2201.13192v3 )

ライセンス: Link先を確認
Emilio Dorigatti, Jann Goschenhofer, Benjamin Schubert, Mina Rezaei, Bernd Bischl(参考訳) PUL(Positive-Unlabeled Learning)は、正および未ラベルのトレーニングデータのみからバイナリ分類器を学習することを目的としている。 実世界のアプリケーションでは、ほとんどの例が1つのクラスに属する不均衡データセットを含むことが多いが、pulに対する現代のアプローチは、この設定でのパフォーマンスを調査していないため、実際の適用可能性が厳しく制限されている。 そこで本研究では,不確実性認識擬似ラベル処理(puupl)により,不均衡データセットとモデルキャリブレーションの問題に対処し,マイノリティクラスからの信号の増大によりラベル付きデータセットをラベルなし集合から新しいサンプルで拡張し,明示的な不確実性定量化により有害な確認バイアスの発生が防止され,予測性能が向上する。 PUUPLは一連の実験において、高度に不均衡な環境での大幅なパフォーマンス向上と、最近のベースラインにおけるバランスのとれたPUシナリオの強いパフォーマンスを示す。 さらに,puuplの各種成分に対するアブレーションおよび感度解析を行った。 最後に、不均衡データセットを持つ現実世界のアプリケーションは、このアプローチの利点を確認します。

Positive-unlabeled learning (PUL) aims at learning a binary classifier from only positive and unlabeled training data. Even though real-world applications often involve imbalanced datasets where the majority of examples belong to one class, most contemporary approaches to PUL do not investigate performance in this setting, thus severely limiting their applicability in practice. In this work, we thus propose to tackle the issues of imbalanced datasets and model calibration in a PUL setting through an uncertainty-aware pseudo-labeling procedure (PUUPL): by boosting the signal from the minority class, pseudo-labeling expands the labeled dataset with new samples from the unlabeled set, while explicit uncertainty quantification prevents the emergence of harmful confirmation bias leading to increased predictive performance. Within a series of experiments, PUUPL yields substantial performance gains in highly imbalanced settings while also showing strong performance in balanced PU scenarios across recent baselines. We furthermore provide ablations and sensitivity analyses to shed light on PUUPL's several ingredients. Finally, a real-world application with an imbalanced dataset confirms the advantage of our approach.
翻訳日:2024-03-13 18:07:54 公開日:2024-03-10
# スパイクQ学習による深層強化学習

Deep Reinforcement Learning with Spiking Q-learning ( http://arxiv.org/abs/2201.09754v2 )

ライセンス: Link先を確認
Ding Chen, Peixi Peng, Tiejun Huang, Yonghong Tian(参考訳) 特別なニューロモルフィックハードウェアの助けを借りて、スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。 SNNと深層強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。 現在、SNNベースのRLメソッドはわずかである。 その多くは、一般化能力がないか、トレーニングで値関数を推定するためにArtificial Neural Networks(ANN)を使用している。 前者はシナリオ毎に多数のハイパーパラメータを調整する必要があり、後者は異なるタイプのRLアルゴリズムの適用を制限し、トレーニングにおける大きなエネルギー消費を無視する。 そこで,本研究では,昆虫に見られる非スパイク型インターニューロンから着想を得て,非スパイク型ニューロンの膜電圧をq値の表現として用いるディープスパイキングq-network(dsqn)を提案し,エンドツーエンドのrlを用いて,高次元感覚入力からロバストなポリシーを直接学習する。 17のアタリゲームで行われた実験では、DSQNは有効であり、ほとんどのゲームにおいてANNベースのディープQネットワーク(DQN)よりも優れていた。 さらに,DSQNの攻撃に対する学習安定性と堅牢性も向上した。

With the help of special neuromorphic hardware, spiking neural networks (SNNs) are expected to realize artificial intelligence (AI) with less energy consumption. It provides a promising energy-efficient way for realistic control tasks by combining SNNs with deep reinforcement learning (RL). There are only a few existing SNN-based RL methods at present. Most of them either lack generalization ability or employ Artificial Neural Networks (ANNs) to estimate value function in training. The former needs to tune numerous hyper-parameters for each scenario, and the latter limits the application of different types of RL algorithm and ignores the large energy consumption in training. To develop a robust spike-based RL method, we draw inspiration from non-spiking interneurons found in insects and propose the deep spiking Q-network (DSQN), using the membrane voltage of non-spiking neurons as the representation of Q-value, which can directly learn robust policies from high-dimensional sensory inputs using end-to-end RL. Experiments conducted on 17 Atari games demonstrate the DSQN is effective and even outperforms the ANN-based deep Q-network (DQN) in most games. Moreover, the experiments show superior learning stability and robustness to adversarial attacks of DSQN.
翻訳日:2024-03-13 18:07:32 公開日:2024-03-10
# オプション価格設定のための量子インスパイアテンソルニューラルネットワーク

Quantum-Inspired Tensor Neural Networks for Option Pricing ( http://arxiv.org/abs/2212.14076v2 )

ライセンス: Link先を確認
Raj G. Patel, Chia-Wei Hsing, Serkan Sahin, Samuel Palmer, Saeed S. Jahromi, Shivam Sharma, Tomas Dominguez, Kris Tziritas, Christophe Michel, Vincent Porte, Mustafa Abid, Stephane Aubert, Pierre Castellani, Samuel Mugel, Roman Orus(参考訳) 近年の深層学習の進歩により,高次元の問題を解くことで,次元性の呪い(COD)に対処することが可能になった。 このようなCODに対処する手法のサブセットは、高次元PDEの解決に繋がった。 これにより、数学のファイナンスから産業応用の確率的制御まで、様々な現実世界の問題への扉が開いた。 実現可能ではあるが、これらの深層学習方法は、トレーニング時間と記憶によって制限されている。 これらの欠点に対処するため、TNN(Tensor Neural Networks)は、従来のDNN(Dense Neural Network)と同等の精度を達成しながら、重要なパラメータの節約を提供できることを示した。 さらに,同じ精度でTNNをDNNよりも高速に訓練できることを示す。 また、TNNの他に、等価パラメータ数に対してDNNと比較してより小さな分散でより高速な収束をもたらす重み初期化スキームであるTensor Network Initializer (TNN Init)を導入している。 金融価格理論において広く用いられているヘストンモデルに関連した放物型pdeの解法にtnnとtnn initを応用して,tnnとtnn initのベンチマークを行った。

Recent advances in deep learning have enabled us to address the curse of dimensionality (COD) by solving problems in higher dimensions. A subset of such approaches of addressing the COD has led us to solving high-dimensional PDEs. This has resulted in opening doors to solving a variety of real-world problems ranging from mathematical finance to stochastic control for industrial applications. Although feasible, these deep learning methods are still constrained by training time and memory. Tackling these shortcomings, Tensor Neural Networks (TNN) demonstrate that they can provide significant parameter savings while attaining the same accuracy as compared to the classical Dense Neural Network (DNN). In addition, we also show how TNN can be trained faster than DNN for the same accuracy. Besides TNN, we also introduce Tensor Network Initializer (TNN Init), a weight initialization scheme that leads to faster convergence with smaller variance for an equivalent parameter count as compared to a DNN. We benchmark TNN and TNN Init by applying them to solve the parabolic PDE associated with the Heston model, which is widely used in financial pricing theory.
翻訳日:2024-03-13 18:01:19 公開日:2024-03-10
# ASiT:イベント分類のためのローカルGlobal Audio Spectrogram vIsion Transformer

ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification ( http://arxiv.org/abs/2211.13189v2 )

ライセンス: Link先を確認
Sara Atito, Muhammad Awais, Wenwu Wang, Mark D Plumbley, Josef Kittler(参考訳) 自然言語処理用に開発されたトランスフォーマーは、近年、長距離関係の学習に柔軟性があることから、コンピュータビジョンとオーディオコミュニティに大きな関心を集めている。 トランスフォーマーのデータ空腹の性質とラベル付きデータの制限により、ほとんどのトランスフォーマーベースのオーディオタスクモデルは、自然画像とオーディオの領域の間に大きなギャップがあるにもかかわらず、ImageNet事前訓練されたモデルから微調整される。 これは、オーディオトランスフォーマの自己教師あり事前学習の研究の動機となり、大量のラベル付きデータへの依存を減らし、オーディオスペクトログラムの簡潔な表現の抽出に焦点を当てた。 本稿では,グループマスク付きモデル学習と自己蒸留を用いて局所的およびグローバルな文脈情報をキャプチャする,新たな自己教師型学習フレームワークであるASiTを提案する。 音声イベント分類,キーワードスポッティング,話者識別など,音声と音声の分類タスクにおいて,事前学習したモデルを評価する。 我々はさらに,様々な事前訓練戦略の評価を含む包括的アブレーション研究を行う。 提案したASiTフレームワークは、すべてのタスクのパフォーマンスを大幅に向上させ、5つのオーディオおよび音声分類タスクにおける最先端のパフォーマンスを新たに設定する。

Transformers, which were originally developed for natural language processing, have recently generated significant interest in the computer vision and audio communities due to their flexibility in learning long-range relationships. Constrained by the data hungry nature of transformers and the limited amount of labelled data, most transformer-based models for audio tasks are finetuned from ImageNet pretrained models, despite the huge gap between the domain of natural images and audio. This has motivated the research in self-supervised pretraining of audio transformers, which reduces the dependency on large amounts of labeled data and focuses on extracting concise representations of audio spectrograms. In this paper, we propose \textbf{L}ocal-\textbf{G}lobal \textbf{A}udio \textbf{S}pectrogram v\textbf{I}sion \textbf{T}ransformer, namely ASiT, a novel self-supervised learning framework that captures local and global contextual information by employing group masked model learning and self-distillation. We evaluate our pretrained models on both audio and speech classification tasks, including audio event classification, keyword spotting, and speaker identification. We further conduct comprehensive ablation studies, including evaluations of different pretraining strategies. The proposed ASiT framework significantly boosts the performance on all tasks and sets a new state-of-the-art performance in five audio and speech classification tasks, outperforming recent methods, including the approaches that use additional datasets for pretraining.
翻訳日:2024-03-13 18:00:58 公開日:2024-03-10
# 初期のフォールトトレラント量子コンピュータにおける位相推定のためのより短い量子回路とその地中エネルギー推定への応用

Even shorter quantum circuit for phase estimation on early fault-tolerant quantum computers with applications to ground-state energy estimation ( http://arxiv.org/abs/2211.11973v2 )

ライセンス: Link先を確認
Zhiyan Ding and Lin Lin(参考訳) 回路の深さを決定する)最大ランタイムは$\delta/\epsilon$であり、ここで$\epsilon$がターゲット精度であり、初期状態がターゲット固有状態に近づくと、$\delta$は任意に$0$に近いことができる。 アルゴリズムの総コストは、ハイゼンベルク制限のスケーリング $\widetilde{\mathcal{o}}(\epsilon^{-1})$を満たす。 その結果,初期のフォールトトレラント量子コンピュータにおいて位相推定タスクを行う際の回路深度を著しく低減することができる。 鍵となる手法は量子複素指数最小二乗(QCELS)と呼ばれる単純なサブルーチンである。 本アルゴリズムは,初期状態と基底状態の重なりが大きい場合,量子ハミルトニアンの基底状態エネルギーを推定するための回路深度を小さくするために容易に適用できる。 この最初の重なりが小さい場合には, [lin, tong, prx quantum 3, 010318, 2022] で開発されたフーリエフィルタ法と組み合わせることで,$\epsilon$ と比較して回路の深さを小さくすることができる。 相対重なり条件はスペクトルギャップの仮定と似ているが、初期状態の情報を認識しており、したがってスペクトルギャップが小さい特定のハミルトン系にも適用できる。 様々な条件下での数値実験において,回路の深さを約2桁低減できることを確認した。

We develop a phase estimation method with a distinct feature: its maximal runtime (which determines the circuit depth) is $\delta/\epsilon$, where $\epsilon$ is the target precision, and the preconstant $\delta$ can be arbitrarily close to $0$ as the initial state approaches the target eigenstate. The total cost of the algorithm satisfies the Heisenberg-limited scaling $\widetilde{\mathcal{O}}(\epsilon^{-1})$. As a result, our algorithm may significantly reduce the circuit depth for performing phase estimation tasks on early fault-tolerant quantum computers. The key technique is a simple subroutine called quantum complex exponential least squares (QCELS). Our algorithm can be readily applied to reduce the circuit depth for estimating the ground-state energy of a quantum Hamiltonian, when the overlap between the initial state and the ground state is large. If this initial overlap is small, we can combine our method with the Fourier filtering method developed in [Lin, Tong, PRX Quantum 3, 010318, 2022], and the resulting algorithm provably reduces the circuit depth in the presence of a large relative overlap compared to $\epsilon$. The relative overlap condition is similar to a spectral gap assumption, but it is aware of the information in the initial state and is therefore applicable to certain Hamiltonians with small spectral gaps. We observe that the circuit depth can be reduced by around two orders of magnitude in numerical experiments under various settings.
翻訳日:2024-03-13 18:00:09 公開日:2024-03-10
# 環境に埋め込まれた量子システムにおける演算子サイズ成長の動的遷移

Dynamical Transition of Operator Size Growth in Quantum Systems Embedded in an Environment ( http://arxiv.org/abs/2211.03535v2 )

ライセンス: Link先を確認
Pengfei Zhang and Zhenhua Yu(参考訳) 閉一般多体系では、ユニタリ進化は局所的な量子情報を高度に非局所的な物体に分散させ、熱化をもたらす。 このような過程は情報スクランブルと呼ばれ、その速さは演算子のサイズ成長によって定量化される。 しかし、環境に埋め込まれた量子システムでは、環境への結合が情報スクランブルのプロセスにどのように影響するかが啓示される。 ここでは、2つの相を分離する環境を伴う全対全相互作用を持つ量子系の動的遷移を予測する。 消散相では、演算子のサイズが時間とともに減衰するにつれて情報スクランブルが停止し、一方、スクランブル相では情報の分散が持続し、演算子のサイズは、系の自由度数が$N$である時間制限のO(N)$値に飽和する。 この遷移は、システムの本質と環境推進スクランブルと環境誘導散逸との競合によって引き起こされる。 本予測は疫学モデルに基づく一般論から導出され,可解ブラウンシックモデルを用いて解析的に証明した。 環境に結合した場合、量子カオスシステムへの遷移が一般的であることを示唆するさらなる証拠を提供する。 我々の研究は、環境の存在下での量子システムの基本的な挙動に光を当てている。

In closed generic many-body systems, unitary evolution disperses local quantum information into highly non-local objects, resulting in thermalization. Such a process is called information scrambling, whose swiftness is quantified by the operator size growth. However, for quantum systems embedded in an environment, how the couplings to the environment affect the process of information scrambling quests revelation. Here we predict a dynamical transition in quantum systems with all-to-all interactions accompanied by an environment, which separates two phases. In the dissipative phase, information scrambling halts as the operator size decays with time, while in the scrambling phase, dispersion of information persists and the operator size grows and saturates to an $O(N)$ value in the long-time limit with $N$ the number of degrees of freedom of the systems. The transition is driven by the competition between the system intrinsic and environment propelled scramblings and the environment induced dissipation. Our prediction is derived from a general argument based on epidemiological models and demonstrated analytically via solvable Brownian SYK models. We provide further evidence which suggests that the transition is generic to quantum chaotic systems when coupled to an environment. Our study sheds light on the fundamental behavior of quantum systems in the presence of an environment.
翻訳日:2024-03-13 17:59:20 公開日:2024-03-10
# veil: 弱教師付き物体検出のための字幕から抽出された画像ラベル

VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection ( http://arxiv.org/abs/2303.09608v3 )

ライセンス: Link先を確認
Arushi Rai, Adriana Kovashka(参考訳) 大規模視覚言語データセットの使用は、ラベルノイズがローカライゼーションに悪影響を及ぼすため、オブジェクト検出に限られる。 従来の手法では、このような大規模なデータセットが事前トレーニングにどのように使用できるかを示しており、ローカライゼーションのための初期信号を提供することができるが、少なくともいくつかのカテゴリにおいて境界データのクリーン化なしには不十分である。 ノイズキャプションから抽出されたラベルを「vet」し、境界ボックスを使わずに弱教師付き物体検出(wsod)を行う手法を提案する。 字幕ラベル雑音データセットの字幕中のラベルノイズの種類を分析して注釈付けし、抽出されたラベルが実際に画像に存在しているかどうかを予測する分類器を訓練する。 分類器はデータセット境界とカテゴリをまたいだ一般化を行う。 分類器を5つのデータセット上で9つのベースラインと比較し,PASCAL VOCで評価した場合,ラベルベッティングを30%(1.2~40.5mAP)減らすことなくWSODを改善することを示した。 dataset at: https://github.com/arushirai1/clandatasetを参照。

The use of large-scale vision-language datasets is limited for object detection due to the negative impact of label noise on localization. Prior methods have shown how such large-scale datasets can be used for pretraining, which can provide initial signal for localization, but is insufficient without clean bounding-box data for at least some categories. We propose a technique to "vet" labels extracted from noisy captions, and use them for weakly-supervised object detection (WSOD), without any bounding boxes. We analyze and annotate the types of label noise in captions in our Caption Label Noise dataset, and train a classifier that predicts if an extracted label is actually present in the image or not. Our classifier generalizes across dataset boundaries and across categories. We compare the classifier to nine baselines on five datasets, and demonstrate that it can improve WSOD without label vetting by 30% (31.2 to 40.5 mAP when evaluated on PASCAL VOC). See dataset at: https://github.com/arushirai1/CLaNDataset.
翻訳日:2024-03-13 17:50:25 公開日:2024-03-10
# 空洞量子力学系における単一空洞モードによる波長可変光多重性

Tunable optical multistability induced by a single cavity mode in cavity quantum electrodynamics system ( http://arxiv.org/abs/2302.08115v3 )

ライセンス: Link先を確認
Liyong Wang, Yinxue Zhao and Jiajia Du(参考訳) 原子空洞系における2つの原子遷移を結合した単一キャビティモードに基づく波長可変光多重性スキームの提案と実証を行った。 強結合状態下では、原子空洞系の複数の偏光子固有状態が生成される。 閾値および光多重性曲線は、広帯域のシステムパラメータによって自由に調整することができる。 さらに、システムのある種のビスタビリティ領域は、余剰弱い制御場によって引き起こされる破壊的量子干渉により、2つのビスタビリティ領域に分割される。 2つ以上の光場によって生成される従来の光多重性と比較すると、提案された光多重性スキームはコンパクト性を持ち、小型化が容易である。 提案手法は,多状態全光論理デバイスの統合的応用や全光通信ネットワークの基本要素の構築に有用である。

A tunable optical multistability scheme based on a single cavity mode coupled with two separate atomic transitions in an atom-cavity system is proposed and demonstrated. Under the collective strong coupling condition, multiple polariton eigenstates of the atom-cavity system are produced. The threshold and optical multistability curve can be tuned freely by system parameters in a broadband range. Moreover, a certain bistability region of the system is split to two bistability regions due to destructive quantum interference induced by an extra weak control field. Compared to traditional optical multistabilities created by two or more light fields, the proposed optical multistability scheme has compactness and is easy to be miniaturized. The proposed scheme is useful for manufacturing integrated application of multi-state all-optical logic devices and constructing basic elements of all-optical communication networks.
翻訳日:2024-03-13 17:49:11 公開日:2024-03-10
# 原子キャビティ系におけるコヒーレント完全吸収に基づくマルチチャネル全光スイッチング

Multi-channel all-optical switching based on coherent perfect absorption in atom-cavity system ( http://arxiv.org/abs/2302.05609v3 )

ライセンス: Link先を確認
Liyong Wang, Yinxue Zhao and Jiajia Du(参考訳) 空洞量子力学(CQED)系における線形及び非線形状態におけるブロードバンドコヒーレント完全吸収(CPA)に基づく超効率・ブロードバンド・マルチチャネル全光スイッチング方式を提案する。 2つの分離原子遷移は、集合的強結合条件下で光学キャビティの2つの端から結合された2つの信号場によって同時に励起される。 3つのポラリトン固有状態が生成され、様々なシステムパラメータによって自由に調整できる。 CPA基準を満たすと、複数のチャネルの出力フィールド強度がゼロとなる。 しかし、破壊的な量子干渉はマルチポーラリトン励起に調整された自由空間弱制御レーザーによって誘導される。 その結果、制御磁場が偏光子共鳴をオン/オフすると、CQED系はコヒーレント完全光吸収体/透過体として機能する。 特に, 非線形励振方式において広帯域全光スイッチを実現するために提案手法を用いることができる。 提案手法は、全光ルーティング、全光通信ネットワーク、および様々な量子論理要素を構築するのに有用である。

We propose an ultrahigh-efficiency, broadband and multi-channel all-optical switching scheme based on broadband coherent perfect absorption (CPA) in a linear and nonlinear regimes in a cavity quantum electrodynamics (CQED) system. Two separate atomic transitions are excited simultaneously by two signal fields coupled from two ends of an optical cavity under the collective strong coupling condition. Three polariton eigenstates are produced which can be tuned freely by varying system parameters. The output field intensities of multiple channels are zero when the CPA criterion is satisfied. However, destructive quantum interference can be induced by a free-space weak control laser tuned to the multi-polariton excitation. As a consequence, the CQED system acts as a coherent perfect light absorber/transmitter as the control field is turned on/off the polariton resonances. In particular, the proposed scheme may be used to realize broadband multi-throw all-optical switching in the nonlinear excitation regime. The proposed scheme is useful for constructing all-optical routing, all-optical communication networks and various quantum logic elements.
翻訳日:2024-03-13 17:48:40 公開日:2024-03-10
# DiffSTG:拡散モデルを用いた確率的時空間グラフ予測

DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models ( http://arxiv.org/abs/2301.13629v4 )

ライセンス: Link先を確認
Haomin Wen, Youfang Lin, Yutong Xia, Huaiyu Wan, Qingsong Wen, Roger Zimmermann, Yuxuan Liang(参考訳) 時空間グラフニューラルネットワーク(STGNN)が時空間グラフ(STG)予測の主流モデルとなっている。 成功にもかかわらず、STGデータ内の本質的な不確実性のモデル化には失敗し、意思決定の下流タスクにおける実用性を損なう。 本稿では,不確実性や複雑なST依存のモデル化が困難であることから,確率的STG予測に焦点をあてる。 本研究では,STGの拡散確率モデルを一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰的フレームワークと,STGのためのネットワークUGnetを提案する。 提案手法は,STGNNの時空間学習能力と拡散モデルの不確実性測定を組み合わせたものである。 広範な実験により、diffstgは連続ランク付き確率スコア(crps)を4%-14%削減し、ルート平均二乗誤差(rmse)を3つの実世界のデータセット上の既存の方法よりも2%-7%削減できることが確認された。

Spatio-temporal graph neural networks (STGNN) have emerged as the dominant model for spatio-temporal graph (STG) forecasting. Despite their success, they fail to model intrinsic uncertainties within STG data, which cripples their practicality in downstream tasks for decision-making. To this end, this paper focuses on probabilistic STG forecasting, which is challenging due to the difficulty in modeling uncertainties and complex ST dependencies. In this study, we present the first attempt to generalize the popular denoising diffusion probabilistic models to STGs, leading to a novel non-autoregressive framework called DiffSTG, along with the first denoising network UGnet for STG in the framework. Our approach combines the spatio-temporal learning capabilities of STGNNs with the uncertainty measurements of diffusion models. Extensive experiments validate that DiffSTG reduces the Continuous Ranked Probability Score (CRPS) by 4%-14%, and Root Mean Squared Error (RMSE) by 2%-7% over existing methods on three real-world datasets.
翻訳日:2024-03-13 17:47:31 公開日:2024-03-10
# ゼロショット逆ロバストネスのための言語駆動型アンカー

Language-Driven Anchors for Zero-Shot Adversarial Robustness ( http://arxiv.org/abs/2301.13096v3 )

ライセンス: Link先を確認
Xiao Li and Wei Zhang and Yining Liu and Zhanhao Hu and Bo Zhang and Xiaolin Hu(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃を受けやすいことが知られている。 従来の研究は主に、完全に教師された設定における敵の堅牢性を改善することに焦点を当てており、ゼロショットの敵の堅牢性の挑戦的な領域はオープンな疑問である。 本稿では,CLIPのような大規模視覚言語モデルにおける最近の進歩を活用して,DNNにゼロショット対逆ロバスト性を導入することにより,この領域を考察する。 我々は,言語駆動でアンカーベースの対向訓練戦略であるlaatを提案する。 LAATは各カテゴリのテキストエンコーダの特徴を各カテゴリの固定アンカー(正規化された特徴埋め込み)として利用し、敵の訓練に使用される。 LAATは,テキストエンコーダのセマンティック一貫性を活用することにより,新たなカテゴリにおける画像モデルの対角的堅牢性を高めることを目的とする。 しかし、テキストエンコーダを間接的に使用すると、結果が悪い。 解析の結果,テキストエンコーダ間のコサイン類似度が高いことが判明した。 次に,問題を軽減するために拡張アルゴリズムとアライメントエントロピー損失を設計する。 実験の結果,LAATは最先端手法に比べてゼロショット対向性を大幅に向上することがわかった。 LAATは、大規模マルチモーダルモデルにより、特にトレーニング中にラベル付きデータが利用できない場合に、敵の堅牢性を高める可能性がある。

Deep Neural Networks (DNNs) are known to be susceptible to adversarial attacks. Previous researches mainly focus on improving adversarial robustness in the fully supervised setting, leaving the challenging domain of zero-shot adversarial robustness an open question. In this work, we investigate this domain by leveraging the recent advances in large vision-language models, such as CLIP, to introduce zero-shot adversarial robustness to DNNs. We propose LAAT, a Language-driven, Anchor-based Adversarial Training strategy. LAAT utilizes the features of a text encoder for each category as fixed anchors (normalized feature embeddings) for each category, which are then employed for adversarial training. By leveraging the semantic consistency of the text encoders, LAAT aims to enhance the adversarial robustness of the image model on novel categories. However, naively using text encoders leads to poor results. Through analysis, we identified the issue to be the high cosine similarity between text encoders. We then design an expansion algorithm and an alignment cross-entropy loss to alleviate the problem. Our experimental results demonstrated that LAAT significantly improves zero-shot adversarial robustness over state-of-the-art methods. LAAT has the potential to enhance adversarial robustness by large-scale multimodal models, especially when labeled data is unavailable during training.
翻訳日:2024-03-13 17:47:12 公開日:2024-03-10
# 未来を予測するために過去を要約する: 自然言語記述によるマルチモーダルオブジェクト相互作用予測

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction Anticipation ( http://arxiv.org/abs/2301.09209v4 )

ライセンス: Link先を確認
Razvan-George Pasca, Alexey Gavryushin, Muhammad Hamza, Yen-Ling Kuo, Kaichun Mo, Luc Van Gool, Otmar Hilliges, Xi Wang(参考訳) エゴセントリックビデオにおけるオブジェクトインタラクションの予測について検討する。 このタスクは、過去のアクションがオブジェクトに生成した時空間的コンテキストの理解を必要とする。 マルチモーダルトランスアーキテクチャであるTransFusionを提案する。 アクションコンテキストを要約することで言語の表現力を利用する。 TransFusionは、トレーニング済みの画像キャプションとビジョン言語モデルを利用して、過去のビデオフレームからアクションコンテキストを抽出する。 このアクションコンテキストと次のビデオフレームは、マルチモーダル融合モジュールによって処理され、次のオブジェクトの相互作用を予測する。 我々のモデルはより効率的なエンドツーエンド学習を可能にします。 大きな事前訓練された言語モデルには、常識と一般化機能が追加されている。 Ego4D と EPIC-KITCHENS-100 の実験により, マルチモーダル核融合モデルの有効性が示された。 また、視覚が十分であると思われるタスクで言語ベースのコンテキスト要約を使用することの利点も強調している。 提案手法は,Ego4Dテストセット全体のmAPにおいて,相対的に40.4%向上する。 EPIC-KITCHENS-100実験によるTransFusionの有効性を検証した。 ビデオとコードはhttps://eth-ait.github.io/transfusion-proj/で入手できる。

We study object interaction anticipation in egocentric videos. This task requires an understanding of the spatio-temporal context formed by past actions on objects, coined action context. We propose TransFusion, a multimodal transformer-based architecture. It exploits the representational power of language by summarizing the action context. TransFusion leverages pre-trained image captioning and vision-language models to extract the action context from past video frames. This action context together with the next video frame is processed by the multimodal fusion module to forecast the next object interaction. Our model enables more efficient end-to-end learning. The large pre-trained language models add common sense and a generalisation capability. Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our multimodal fusion model. They also highlight the benefits of using language-based context summaries in a task where vision seems to suffice. Our method outperforms state-of-the-art approaches by 40.4% in relative terms in overall mAP on the Ego4D test set. We validate the effectiveness of TransFusion via experiments on EPIC-KITCHENS-100. Video and code are available at https://eth-ait.github.io/transfusion-proj/.
翻訳日:2024-03-13 17:46:36 公開日:2024-03-10
# テンソルニューラルネットワークのバームダン価格交換への応用

Application of Tensor Neural Networks to Pricing Bermudan Swaptions ( http://arxiv.org/abs/2304.09750v2 )

ライセンス: Link先を確認
Raj G. Patel, Tomas Dominguez, Mohammad Dib, Samuel Palmer, Andrea Cadarso, Fernando De Lope Contreras, Abdelkader Ratnani, Francisco Gomez Casanova, Senaida Hern\'andez-Santana, \'Alvaro D\'iaz-Fern\'andez, Eva Andr\'es, Jorge Luis-Hita, Escol\'astico S\'anchez-Mart\'inez, Samuel Mugel, Roman Orus(参考訳) シャイエットモデル(英: cheyette model)は、モンテカルロシミュレーションが業界標準となった欧州やベルムダンなどの価格デリバティブに広く用いられている準ゲージボラティリティ金利モデルである。 低次元では、これらのアプローチはヨーロッパのスワップオンに対して正確で堅牢な価格を提供するが、この計算学的に単純な設定であっても、状態変数を回帰器として使用する場合のベルムダンスワップオンの価値を過小評価することが知られている。 これは主に、回帰における有限個の所定の基底関数の使用によるものである。 さらに、高次元設定では、これらのアプローチは次元の曲線に結びつく。 これらの問題に対処するために、深層学習技術は、ヨーロッパやベルムダンのスワプションの価値プロセスに関連する後方確率微分方程式の解法として用いられてきたが、これらの手法はトレーニング時間と記憶によって制約されている。 これらの制限を克服するために,従来のDense Neural Networksと同じ精度でパラメータの大幅な削減を実現するために,Tensor Neural Networksを活用することを提案する。 本稿では, テンソルニューラルネットワークとデンスニューラルネットワークの性能を欧州とベルムダンのスワップ価格で厳格にベンチマークし, テンソルニューラルネットワークはデンスニューラルネットワークよりも高速にトレーニングでき, より正確で堅牢な価格を提供できることを示す。

The Cheyette model is a quasi-Gaussian volatility interest rate model widely used to price interest rate derivatives such as European and Bermudan Swaptions for which Monte Carlo simulation has become the industry standard. In low dimensions, these approaches provide accurate and robust prices for European Swaptions but, even in this computationally simple setting, they are known to underestimate the value of Bermudan Swaptions when using the state variables as regressors. This is mainly due to the use of a finite number of predetermined basis functions in the regression. Moreover, in high-dimensional settings, these approaches succumb to the Curse of Dimensionality. To address these issues, Deep-learning techniques have been used to solve the backward Stochastic Differential Equation associated with the value process for European and Bermudan Swaptions; however, these methods are constrained by training time and memory. To overcome these limitations, we propose leveraging Tensor Neural Networks as they can provide significant parameter savings while attaining the same accuracy as classical Dense Neural Networks. In this paper we rigorously benchmark the performance of Tensor Neural Networks and Dense Neural Networks for pricing European and Bermudan Swaptions, and we show that Tensor Neural Networks can be trained faster than Dense Neural Networks and provide more accurate and robust prices than their Dense counterparts.
翻訳日:2024-03-13 17:40:29 公開日:2024-03-10
# 反復微分によるニューラルフィールド畳み込み

Neural Field Convolutions by Repeated Differentiation ( http://arxiv.org/abs/2304.01834v3 )

ライセンス: Link先を確認
Ntumba Elie Nsampi, Adarsh Djeacoumar, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimk\"uhler(参考訳) ニューラルフィールドは、ビジュアルコンピューティングのための汎用的な連続表現へと進化している。 しかし、多くの魅力的な特性にもかかわらず、信号処理には適さない。 本研究では,ニューラルネットワークなどの一般連続信号を用いた一般連続畳み込みを行う手法を提案する。 分割多項式核は、繰り返し微分された後にディラックデルタのスパース集合に還元され、畳み込みアイデンティティを活用し、繰り返し積分場を訓練し、大規模畳み込みを効率的に行う。 我々は,様々なデータモダリティと空間変動するカーネルに対する我々のアプローチを実証する。

Neural fields are evolving towards a general-purpose continuous representation for visual computing. Yet, despite their numerous appealing properties, they are hardly amenable to signal processing. As a remedy, we present a method to perform general continuous convolutions with general continuous signals such as neural fields. Observing that piecewise polynomial kernels reduce to a sparse set of Dirac deltas after repeated differentiation, we leverage convolution identities and train a repeated integral field to efficiently execute large-scale convolutions. We demonstrate our approach on a variety of data modalities and spatially-varying kernels.
翻訳日:2024-03-13 17:39:05 公開日:2024-03-10
# m4:マルチジェネレータ、マルチドメイン、多言語ブラックボックスマシン生成テキスト検出

M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2305.14902v2 )

ライセンス: Link先を確認
Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Chenxi Whitehouse, Osama Mohammed Afzal, Tarek Mahmoud, Toru Sasaki, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov(参考訳) 大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。 しかし、このことはジャーナリズム、教育、アカデミアにおけるそのような文章の誤用の可能性にも懸念を抱いている。 本研究では,機械生成テキストを検知し,誤用の可能性を見極める自動システムの構築に取り組んでいる。 まず,機械生成テキスト検出のためのマルチジェネレータ,マルチドメイン,多言語コーパスである,大規模ベンチマーク \textbf{M4} を紹介する。 このデータセットの広範な実証研究を通して、検出器が見えないドメインやLLMのインスタンスでうまく一般化することは困難であることを示す。 このような場合、検出器は機械が生成したテキストを人間書きと誤分類する傾向がある。 これらの結果から,解決には程遠い問題であり,改善の余地がたくさんあることが示唆された。 我々のデータセットは、この押し付け社会問題に対するより堅牢なアプローチに向けた将来の研究を可能にすると信じている。 データセットはhttps://github.com/mbzuai-nlp/m4で利用可能である。

Large language models (LLMs) have demonstrated remarkable capability to generate fluent responses to a wide variety of user queries. However, this has also raised concerns about the potential misuse of such texts in journalism, education, and academia. In this study, we strive to create automated systems that can detect machine-generated texts and pinpoint potential misuse. We first introduce a large-scale benchmark \textbf{M4}, which is a multi-generator, multi-domain, and multi-lingual corpus for machine-generated text detection. Through an extensive empirical study of this dataset, we show that it is challenging for detectors to generalize well on instances from unseen domains or LLMs. In such cases, detectors tend to misclassify machine-generated text as human-written. These results show that the problem is far from solved and that there is a lot of room for improvement. We believe that our dataset will enable future research towards more robust approaches to this pressing societal problem. The dataset is available at https://github.com/mbzuai-nlp/M4.
翻訳日:2024-03-13 17:27:47 公開日:2024-03-10
# プロンプトエンジニアリングによるジェイルブレイクChatGPT:実証的研究

Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study ( http://arxiv.org/abs/2305.13860v2 )

ライセンス: Link先を確認
Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, Kailong Wang and Yang Liu(参考訳) ChatGPTのような大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。 本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。 まず,既存のプロンプトの分布を分析し,10種類のパターンと3種類のジェイルブレイクプロンプトを識別する分類モデルを開発した。 その後,チャットgptバージョン3.5と4.0のプロンプトによるジェイルブレイク能力を評価し,8つの禁止シナリオにまたがる3,120件のジェイルブレイク質問のデータセットを用いた。 最後に、チャットgptの脱獄プロンプトに対する耐性を評価し、40のユースケースシナリオにおいて、プロンプトが一貫して制限を回避できることを見出した。 本研究は, 脱獄型LDMの迅速な構造の重要性を浮き彫りにして, 堅牢な脱獄早期発生・予防の課題を論じるものである。

Large Language Models (LLMs), like ChatGPT, have demonstrated vast potential but also introduce challenges related to content constraints and potential misuse. Our study investigates three key research questions: (1) the number of different prompt types that can jailbreak LLMs, (2) the effectiveness of jailbreak prompts in circumventing LLM constraints, and (3) the resilience of ChatGPT against these jailbreak prompts. Initially, we develop a classification model to analyze the distribution of existing prompts, identifying ten distinct patterns and three categories of jailbreak prompts. Subsequently, we assess the jailbreak capability of prompts with ChatGPT versions 3.5 and 4.0, utilizing a dataset of 3,120 jailbreak questions across eight prohibited scenarios. Finally, we evaluate the resistance of ChatGPT against jailbreak prompts, finding that the prompts can consistently evade the restrictions in 40 use-case scenarios. The study underscores the importance of prompt structures in jailbreaking LLMs and discusses the challenges of robust jailbreak prompt generation and prevention.
翻訳日:2024-03-13 17:27:32 公開日:2024-03-10
# 潜在的な再正規化、ラムシフト、平均力ギブス状態 -- シフトするかシフトしないか?

Potential renormalisation, Lamb shift and mean-force Gibbs state -- to shift or not to shift? ( http://arxiv.org/abs/2305.08941v2 )

ライセンス: Link先を確認
Luis A. Correa and Jonas Glatthard(参考訳) しばしば、開量子系の顕微鏡的相互作用機構は、ハミルトニアン系を再正規化する「カウント項」を生じる。 このような用語は、環境への有限結合による系のポテンシャルの歪みを補償する。 カップリングが弱いとしても、カウンター項は一般に無視できない。 同様に、弱カップリングマスター方程式は、一般的な信念とは対照的に無視できないいくつかの「ラムシフト項」を特徴付ける。 しかし、マスター方程式を扱う場合、逆項とラムシフトの両方を消滅させるプラクティスはほぼ普遍的であり、驚くべきことに、より良い結果が得られる。 従来の知見を受け入れることで、より正確に、そして重要なことに、得られたマスター方程式は、高温限界における正しい定常状態と等しくすることが保証される。 本稿では、なぜこのようなのかを論じる。 具体的には、ポテンシャル歪みが小さい(しかし無視できない)場合、対数項は結合の2階への散逸過程に影響を与えないことを示す。 さらに, 大規模環境遮断において, ランブシフト項は, 対数項によるコヒーレントな効果をほぼ取り消し, 実際に関係のないコントリビューションの組み合わせが生じることを示した。 したがって、ラムシフトとカウンター項に関するオープンシステム伝承が厳格に正当化される正確な条件を提供する。

Often, the microscopic interaction mechanism of an open quantum system gives rise to a `counter term' which renormalises the system Hamiltonian. Such term compensates for the distortion of the system's potential due to the finite coupling to the environment. Even if the coupling is weak, the counter term is, in general, not negligible. Similarly, weak-coupling master equations feature a number of `Lamb-shift terms' which, contrary to popular belief, cannot be neglected. Yet, the practice of vanishing both counter term and Lamb shift when dealing with master equations is almost universal; and, surprisingly, it can yield better results. By accepting the conventional wisdom, one may approximate the dynamics more accurately and, importantly, the resulting master equation is guaranteed to equilibrate to the correct steady state in the high-temperature limit. In this paper we discuss why is this the case. Specifically, we show that, if the potential distortion is small -- but non-negligible -- the counter term does not influence any dissipative processes to second order in the coupling. Furthermore, we show that, for large environmental cutoff, the Lamb-shift terms approximately cancel any coherent effects due to the counter term -- this renders the combination of both contributions irrelevant in practice. We thus provide precise conditions under which the open-system folklore regarding Lamb shift and counter terms is rigorously justified.
翻訳日:2024-03-13 17:26:20 公開日:2024-03-10
# ハードサンプル活用によるビジュアル言語モデルの促進

Boosting Visual-Language Models by Exploiting Hard Samples ( http://arxiv.org/abs/2305.05208v2 )

ライセンス: Link先を確認
Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu, Tianyang Hu, Xiaodan Liang, Zhenguo Li, Hong Cheng, Kenji Kawaguchi(参考訳) コントラスト言語-画像事前学習(CLIP)は,画像とテキスト間のクロスモーダル表現学習の標準となっている。 機能を改善するためには通常、追加データの収集と新たな損失関数の再トレーニングが必要になる。 有効ではあるが、追加の要件はリソースと時間的投資の増大のために実用的利用を制限する。 本稿では,既存のクリップモデルの性能を向上させるために,スクラッチからモデルをトレーニングしたり,追加データを集めることなく,費用対効果の高い戦略であるhelipを提案する。 本手法は既存のモデルのトレーニングパイプラインとの無作為な統合を可能にし、元のトレーニングデータセットから選択したテキストと画像のペアをトレーニングすることで、即時に強化する。 HELIPは、各テキストイメージペアをジョイントビジョン言語空間の単一点として扱い、近接しているペアをハードペアとして識別する。 課題データを組み込むことで、従来のコントラスト損失と新たに導入されたハード負マージン損失の両方を用いて事前学習したCLIPモデルを洗練し、課題データを完全に活用する。 包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。 特に、CC3M、CC12M、YFCC15Mデータセットで事前トレーニングされたSLIPモデルのImageNetのゼロショット分類精度を改善している。 改善率は3.05%、4.47%、そして10.1%で、それぞれ2回の訓練で達成された。 さらに、細かな分類データセット全体で、helipはトレーニング済みクリップとスリップのゼロショット性能を平均8.4%と18.6%改善し、リニアプローブ性能を平均9.5%と3.0%改善した。

Contrastive Language-Image Pre-training (CLIP) has become the standard for learning cross-modal representations between images and text. Efforts to improve its capabilities typically demand the collection of additional data and retraining with new loss functions. While effective, the added requirements limit their practical use due to the increased resource and time investments needed. In this work, we present HELIP, a cost-effective strategy tailored to enhance the performance of existing CLIP models without the need for training a model from scratch or collecting additional data. Our method allows for effortless integration with existing models' training pipelines, providing an instant boost by training them with selected challenging text-image pairs from their original training datasets. HELIP treats each text-image pair as a single point in the joint vision-language space, identifying those in close proximity as hard pairs. By incorporating the challenging data, pre-trained CLIP models are refined using both the traditional contrastive loss and the newly introduced hard negative margin loss, ensuring the challenging data is fully utilized. On comprehensive benchmarks, HELIP consistently boosts existing models to achieve leading performance. In particular, it improves the zero-shot classification accuracy on ImageNet for SLIP models pre-trained on CC3M, CC12M and YFCC15M datasets. The improvements are 3.05%, 4.47%, and 10.1% respectively, achieved within two epochs of training. In addition, across fine-grained classification datasets, HELIP improves the zero-shot performance of pre-trained CLIP and SLIP by an average of 8.4% and 18.6%, and their linear probe performance by an average of 9.5% and 3.0%.
翻訳日:2024-03-13 17:25:07 公開日:2024-03-10
# RAPHAEL: 大きな拡散経路によるテキスト・画像生成

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths ( http://arxiv.org/abs/2305.18295v5 )

ライセンス: Link先を確認
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo(参考訳) テキストから画像への生成は、最近目覚ましい成果を上げている。 我々は,複数の名詞,形容詞,動詞を含む文のプロンプトを正確に表現し,高度に芸術的な画像を生成するために,RAPHAELと呼ばれるテキスト条件画像拡散モデルを導入する。 これは、ネットワーク入力から出力への数十億の拡散経路(ルート)を可能にする、空間-MoE層と時間-MoE層を積み重ねることによって達成される。 各パスは、拡散時間ステップで特定の画像領域に特定のテキスト概念を記述するための「ページ」として直感的に機能する。 総合的な実験により、RAPHAELは画像の品質と美的魅力の両方の観点から、最近の最先端モデル、例えばStable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2を上回っていることが明らかになった。 第一に、RAPHAELは日本の漫画、リアリズム、サイバーパンク、インクイラストのような様々なスタイルの画像を切り替える際の優れたパフォーマンスを示す。 第二に、30億のパラメータを持つ単一のモデルで、2ヶ月間1,000A100 GPUでトレーニングされ、COCOデータセットで最先端のゼロショットFIDスコア6.61を達成する。 さらに、RAPHAELはViLG-300ベンチマークの人間による評価において、その性能を大幅に上回っている。 我々は、ラファエルが学界と産業の両方における画像生成研究のフロンティアを促進する可能性を秘めており、この急速に発展する分野における将来のブレークスルーへの道を開くと信じている。 詳細はwebページにある。 https://raphael-painter.github.io/。

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://raphael-painter.github.io/.
翻訳日:2024-03-13 17:18:19 公開日:2024-03-10
# OpenVIS: オープン語彙ビデオインスタンスセグメンテーション

OpenVIS: Open-vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2305.16835v2 )

ライセンス: Link先を確認
Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu Chen, Wenqiang Zhang(参考訳) OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。 本研究では,制限付きラベル付きデータセットを軽量に微調整することで,強力なオープン語彙を実現するOpenVISフレームワークInstFormerを提案する。 特にInstFormerには3つのステップがある a)オープンワールドマスクの提案:全ての潜在的オブジェクトインスタンスの提案を推奨するクエリベースのトランスフォーマーを使用して、クラスに依存しないインスタンスマスクを取得する。 b) オープン語彙のインスタンス表現と分類: 事前学習したCLIPからインスタンス誘導を意図したInstCLIPを提案する。 InstCLIPは、各オープン語彙インスタンスを表現可能なインスタンストークンを生成する。 これらのインスタンストークンは、単一のCLIPフォワードパスを持つ複数のインスタンスのオープン語彙分類を可能にするだけでなく、その後のオープン語彙インスタンス追跡にも有効であることが証明されている。 c) ロールアウトアソシエーション: 従来のフレームのトラッキングトークンからロールアウトトークンを予測し,ビデオ内のフレーム間のオープン語彙インスタンスアソシエーションを可能にする,クラスに依存しないロールアウトトラッカーを導入する。 提案するinstformerは,包括的openvis評価ベンチマークで最先端性能を実現するとともに,visタスクにおける競合性能も達成する。

Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously detect, segment, and track arbitrary object categories in a video, without being constrained to categories seen during training. In this work, we propose an OpenVIS framework called InstFormer that achieves powerful open vocabulary capability through lightweight fine-tuning on a limited-category labeled dataset. Specifically, InstFormer comes in three steps a) Open-world Mask Proposal: we utilize a query-based transformer, which is encouraged to propose all potential object instances, to obtain class-agnostic instance masks; b) Open-vocabulary Instance Representation and Classification: we propose InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention. InstCLIP generates the instance token capable of representing each open-vocabulary instance. These instance tokens not only enable open-vocabulary classification for multiple instances with a single CLIP forward pass but have also been proven effective for subsequent open-vocabulary instance tracking. c) Rollout Association: we introduce a class-agnostic rollout tracker to predict rollout tokens from the tracking tokens of previous frames to enable open-vocabulary instance association across frames in the video. The experimental results demonstrate the proposed InstFormer achieve state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark, while also achieves competitive performance in fully supervised VIS task.
翻訳日:2024-03-13 17:15:11 公開日:2024-03-10
# 雲内におけるco-aware temporal and spatial workload shiftingの限界について

On the Limitations of Carbon-Aware Temporal and Spatial Workload Shifting in the Cloud ( http://arxiv.org/abs/2306.06502v2 )

ライセンス: Link先を確認
Thanathorn Sukprasert, Abel Souza, Noman Bashir, David Irwin, Prashant Shenoy(参考訳) クラウドプラットフォームは、ワークロードを時間とロケーションにシフトすることで、二酸化炭素排出量の削減に重点を置いてきた。 このアイデアが有力であるにも関わらず、以前の作業は、特定のリージョン内の特定のワークロードに対して、狭義の設定で時空間的なワークロードがシフトする可能性のみを定量化している。 特に、広範囲のクラウドワークロードにシフトするカーボンアウェアの時空間的ワークロードの理想的かつ実用的なメリットについて、上限を定量化する作業は限られている。 この問題に対処するため、我々は、クラウドワークロードに対する炭素対応時空間スケジューリングの利点と限界を理解するために、詳細なデータ駆動分析を行う。 主要なクラウドサイトを含む123リージョンの炭素強度データを使用して、バッチとインタラクティブという2つの幅広いワークロードのクラスと、ジョブ期間、期限、SLOなど、そのさまざまな特性を分析します。 その結果、時空間のワークロードシフトはワークロードの二酸化炭素排出量を削減できるが、これらの炭素削減の現実的な上限は現在限られており、理想とは程遠いことが判明した。 また、単純なスケジューリングポリシーがこれらの削減の大部分を生んでいることも示しています。 また, エネルギー供給が「緑化」するにつれて, 炭素非依存なスケジューリングと比較して, カーボンアウェアのワークロードスケジューリングの利点は減少することがわかった。

Cloud platforms have been focusing on reducing their carbon emissions by shifting workloads across time and locations to when and where low-carbon energy is available. Despite the prominence of this idea, prior work has only quantified the potential of spatiotemporal workload shifting in narrow settings, i.e., for specific workloads in select regions. In particular, there has been limited work on quantifying an upper bound on the ideal and practical benefits of carbon-aware spatiotemporal workload shifting for a wide range of cloud workloads. To address the problem, we conduct a detailed data-driven analysis to understand the benefits and limitations of carbon-aware spatiotemporal scheduling for cloud workloads. We utilize carbon intensity data from 123 regions, encompassing most major cloud sites, to analyze two broad classes of workloads -- batch and interactive -- and their various characteristics, e.g., job duration, deadlines, and SLOs. Our findings show that while spatiotemporal workload shifting can reduce workloads' carbon emissions, the practical upper bounds of these carbon reductions are currently limited and far from ideal. We also show that simple scheduling policies often yield most of these reductions, with more sophisticated techniques yielding little additional benefit. Notably, we also find that the benefit of carbon-aware workload scheduling relative to carbon-agnostic scheduling will decrease as the energy supply becomes "greener".
翻訳日:2024-03-13 17:07:59 公開日:2024-03-10
# グループベースロバストネス:実世界のロバストネスをカスタマイズするための汎用フレームワーク

Group-based Robustness: A General Framework for Customized Robustness in the Real World ( http://arxiv.org/abs/2306.16614v3 )

ライセンス: Link先を確認
Weiran Lin and Keane Lucas and Neo Eyal and Lujo Bauer and Michael K. Reiter and Mahmood Sharif(参考訳) 機械学習モデルは、誤分類を引き起こすためにパーターブモデル入力の回避攻撃に弱いことが知られている。 本研究では,既存の攻撃によって真の脅威を正確に評価できない実世界のシナリオを特定する。 具体的には、対象とするロバスト性を測定する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していない。 既存の手法の欠点に対処するため,既存の手法を補完し,特定の攻撃シナリオにおけるモデル性能を評価するのに適した,グループベースロバストネスと呼ばれる新しい指標を正式に定義する。 従来のロバスト性指標が適用されない状況において,特定の脅威モデルに対するモデルの脆弱性を区別できることが,グループベースのロバスト性を示す。 さらに,グループベースロバストネスを効率的に高精度に測定する。 1)損失関数を2つ提案し, 2)新たな攻撃戦略を3つ挙げる。 実験により,新たな損失関数を用いた回避サンプルの発見は,対象クラス数に匹敵する計算係数を削減し,新たな攻撃戦略を用いた回避サンプルの発見は,ブルートフォース探索法と比較して最大99%の時間を節約できることを示した。 最後に,最大 3.52$\times$ でグループベースロバスト性を向上させる防衛手法を提案する。

Machine-learning models are known to be vulnerable to evasion attacks that perturb model inputs to induce misclassifications. In this work, we identify real-world scenarios where the true threat cannot be assessed accurately by existing attacks. Specifically, we find that conventional metrics measuring targeted and untargeted robustness do not appropriately reflect a model's ability to withstand attacks from one set of source classes to another set of target classes. To address the shortcomings of existing methods, we formally define a new metric, termed group-based robustness, that complements existing metrics and is better-suited for evaluating model performance in certain attack scenarios. We show empirically that group-based robustness allows us to distinguish between models' vulnerability against specific threat models in situations where traditional robustness metrics do not apply. Moreover, to measure group-based robustness efficiently and accurately, we 1) propose two loss functions and 2) identify three new attack strategies. We show empirically that with comparable success rates, finding evasive samples using our new loss functions saves computation by a factor as large as the number of targeted classes, and finding evasive samples using our new attack strategies saves time by up to 99\% compared to brute-force search methods. Finally, we propose a defense method that increases group-based robustness by up to 3.52$\times$.
翻訳日:2024-03-13 16:56:21 公開日:2024-03-10
# 平均場レベルでの光学格子中のキラルスピン液体相

Chiral spin liquid phase in an optical lattice at mean-field level ( http://arxiv.org/abs/2306.16466v2 )

ライセンス: Link先を確認
Jian Yang and Xiong-Jun Liu(参考訳) 我々は,スレーブ・ローター理論とスピノン平均場理論に基づく低温原子のカイラルスピン液体(csl)相を示すために,{\mathrm{u}(1)$合成ゲージフラックスを持つ光学ラマン正方形格子について検討した。 ラマンポテンシャルによって生成される有効U($1$)ゲージ束は、CSL相の実現に重要な役割を果たしている。 スレーブロータ技術を用いることで、中間のFermi Hubbard相互作用レギュレーションでCSL位相を求める。 強い相互作用系では、4つのスピン相互作用を含む効果的なスピンモデルを導出する。 スピノン平均場解析により,強磁気フラストレーションの場合,CSL相は安定していることが示された。 2つの平均場近似法は、一貫した位相図を与え、CSL位相の定性的数値的な証拠を与える。

We study an optical Raman square lattice with $\mathrm{U}(1)$ synthetic gauge flux to show chiral spin liquid (CSL) phase for cold atoms based on slave-rotor theory and spinon mean-field theory, respectively. An effective U($1$) gauge flux generated by Raman potentials plays a major role in realizing the CSL phase. By using slave-rotor techniques we find CSL phase at intermediate on-site Fermi Hubbard interacting regime. For the strong interacting regime we derive an effective spin model including up to the four spin interactions. By spinon mean-field analysis it is shown that CSL phase is stabilized in the case of strong magnetic frustration. The two mean-field approximation methods give consistent phase diagrams and provide qualitative numerical evidence of the CSL phase.
翻訳日:2024-03-13 16:55:54 公開日:2024-03-10
# HIQL: オフラインのゴールコンディションRLと遅延状態のアクション

HIQL: Offline Goal-Conditioned RL with Latent States as Actions ( http://arxiv.org/abs/2307.11949v4 )

ライセンス: Link先を確認
Seohong Park, Dibya Ghosh, Benjamin Eysenbach, Sergey Levine(参考訳) 教師なし事前学習はコンピュータビジョンと自然言語処理の基盤となっている。 強化学習(RL)において、ゴール条件付きRLは、大量のラベルなし(リワードフリー)データを利用するための類似した自己教師付きアプローチを提供する可能性がある。 しかし, 多様なオフラインデータから直接学習できるゴール条件付きRLの効率的なアルゴリズムの構築は困難であり, 遠方目標の正確な値関数を正確に推定することは困難である。 それでも、目標達成問題は、遠くの目標に達するには、まず近いサブゴールを通過する必要がある構造を示す。 この構造は非常に有用であり、近くの目標に対する行動の質を評価することは、通常より遠い目標よりも容易である。 この考えに基づき、オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。 1つのアクションフリーバリュー関数を使用して、この構造を活用可能な2つのポリシーを学習する。 状態をアクションとして扱うハイレベルポリシと、このサブゴールに到達するためのアクションを予測する低レベルポリシ(潜在表現)です。 分析とディダクティックな例を通して,この階層的分解により,推定値関数の雑音に対して頑健になることを示す。 そこで,本手法をオフラインゴール取得ベンチマークに適用し,従来の手法を精査し,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に活用できることを示す。 私たちのコードはhttps://seohong.me/projects/hiql/で利用可能です。

Unsupervised pre-training has recently become the bedrock for computer vision and natural language processing. In reinforcement learning (RL), goal-conditioned RL can potentially provide an analogous self-supervised approach for making use of large quantities of unlabeled (reward-free) data. However, building effective algorithms for goal-conditioned RL that can learn directly from diverse offline data is challenging, because it is hard to accurately estimate the exact value function for faraway goals. Nonetheless, goal-reaching problems exhibit structure, such that reaching distant goals entails first passing through closer subgoals. This structure can be very useful, as assessing the quality of actions for nearby goals is typically easier than for more distant goals. Based on this idea, we propose a hierarchical algorithm for goal-conditioned RL from offline data. Using one action-free value function, we learn two policies that allow us to exploit this structure: a high-level policy that treats states as actions and predicts (a latent representation of) a subgoal and a low-level policy that predicts the action for reaching this subgoal. Through analysis and didactic examples, we show how this hierarchical decomposition makes our method robust to noise in the estimated value function. We then apply our method to offline goal-reaching benchmarks, showing that our method can solve long-horizon tasks that stymie prior methods, can scale to high-dimensional image observations, and can readily make use of action-free data. Our code is available at https://seohong.me/projects/hiql/
翻訳日:2024-03-13 16:50:25 公開日:2024-03-10
# 脱分極雑音下でのロバスト基底状態エネルギー推定

Robust ground-state energy estimation under depolarizing noise ( http://arxiv.org/abs/2307.11257v2 )

ライセンス: Link先を確認
Zhiyan Ding and Yulong Dong and Yu Tong and Lin Lin(参考訳) 我々は,大域的な分極誤差チャネルの下で頑健な基底状態エネルギー推定アルゴリズムを提案する。 最近開発されたQCELS(Quantum Exponential Least Squares)アルゴリズムをベースとした新しい手法では,多項式コストの精度を維持しつつ,ロバストな推定を実現する。 ハミルトンのスペクトルギャップを効果的に活用することにより、我々のアルゴリズムは量子位相推定(QPE)やロバスト位相推定(RPE)といった従来の手法で観測された限界を克服する。 グローバル非分極化誤りチャネルを超えて、量子ノイズを非分極化エラーチャネルに合わせるためにランダムコンパイル技術を活用することの重要性と実際的な利点を強調する。 本研究では,非分極ノイズの存在下での基底状態エネルギー推定の可能性を示し,誤差補正と量子アルゴリズムのアルゴリズムレベルの誤差緩和の可能性を示す。

We present a novel ground-state energy estimation algorithm that is robust under global depolarizing error channels. Building upon the recently developed Quantum Exponential Least Squares (QCELS) algorithm, our new approach incorporates significant advancements to ensure robust estimation while maintaining a polynomial cost in precision. By leveraging the spectral gap of the Hamiltonian effectively, our algorithm overcomes limitations observed in previous methods like quantum phase estimation (QPE) and robust phase estimation (RPE). Going beyond global depolarizing error channels, our work underscores the significance and practical advantages of utilizing randomized compiling techniques to tailor quantum noise towards depolarizing error channels. Our research demonstrates the feasibility of ground-state energy estimation in the presence of depolarizing noise, offering potential advancements in error correction and algorithmic-level error mitigation for quantum algorithms.
翻訳日:2024-03-13 16:49:34 公開日:2024-03-10
# シングルエージェントゲームにおける模倣学習のスケーリング法則

Scaling Laws for Imitation Learning in Single-Agent Games ( http://arxiv.org/abs/2307.09423v2 )

ライセンス: Link先を確認
Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik Narasimhan, Sham Kakade(参考訳) 模倣学習(il)は、機械学習で最も広く使われている方法の1つである。 しかし、多くの作品では、シングルエージェントゲームのような制約のある環境でも、基礎となる専門家の行動を完全に回復できないことが多い。 しかしながら、これらの研究はモデルとデータサイズをスケールアップする役割を深く調査するものではない。 近年の自然言語処理(NLP)において,"スケールアップ"によってLLMの能力が向上していることに着想を得て,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境が改善するかどうかを検討する。 われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。 すべてのゲームにおいて、IL損失と平均戻り値は計算予算(FLOP)とスムーズに一致し、強い相関関係にあり、計算最適化ILエージェントを訓練するための電力法則がもたらされる。 最後に、いくつかのNetHackエージェントをILで予測し、トレーニングし、すべての設定で1.5倍の性能を発揮する。 私たちの研究は、さまざまな単一エージェントゲームにおける模倣学習のスケーリング挙動と、現在のAIシステムにとって極めて難しいゲームであるNetHackにおける、ますます有能なエージェントに対する現在のアプローチのスケールアップの可能性を実証しています。

Imitation Learning (IL) is one of the most widely used methods in machine learning. Yet, many works find it is often unable to fully recover the underlying expert behavior, even in constrained environments like single-agent games. However, none of these works deeply investigate the role of scaling up the model and data size. Inspired by recent work in Natural Language Processing (NLP) where "scaling up" has resulted in increasingly more capable LLMs, we investigate whether carefully scaling up model and data size can bring similar improvements in the imitation learning setting for single-agent games. We first demonstrate our findings on a variety of Atari games, and thereafter focus on the extremely challenging game of NetHack. In all games, we find that IL loss and mean return scale smoothly with the compute budget (FLOPs) and are strongly correlated, resulting in power laws for training compute-optimal IL agents. Finally, we forecast and train several NetHack agents with IL and find they outperform prior state-of-the-art by 1.5x in all settings. Our work both demonstrates the scaling behavior of imitation learning in a variety of single-agent games, as well as the viability of scaling up current approaches for increasingly capable agents in NetHack, a game that remains elusively hard for current AI systems.
翻訳日:2024-03-13 16:48:34 公開日:2024-03-10
# DALL.Eを用いた農業環境における画像データセットの作成:AIによる生成型大規模言語モデル

Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model ( http://arxiv.org/abs/2307.08789v2 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Manoj Karkee(参考訳) 本研究では,農業におけるデータ生成・可視化技術の発展における人工知能(AI),特にOpenAIによるDALL.Eモデルの役割について検討した。 先進的なAI画像生成装置であるDALL.Eは、ChatGPTの言語処理と連携して、テキスト記述や画像ヒントをリアルな視覚表現に変換する。 この研究は、画像生成のアプローチとして、テキスト・ツー・イメージと画像・ツー・イメージ(変化)の両方を用いる。 果実の作物環境と作物対雑草環境を表す2種類のデータセットを作成した。 これらのAI生成画像は、実際の農業分野のセンサーが捉えた地上の真実画像と比較された。 比較はピーク信号対雑音比(psnr)と特徴類似度指標(fsim)に基づいて行った。 果実作物の場合、画像・画像生成はテキスト・画像法よりも平均PSNRが5.78%増加し、画像の明瞭度と品質が向上した。 しかし、この方法は平均fsimが10.23%減少し、元の画像と構造的およびテクスチャ的類似性が低下したことを示している。 逆に、作物と雑草のシナリオでは、画像・画像生成はPSNRが3.77%増加し、画像精度が向上したが、FSIMは0.76%減少し、特徴の類似性がわずかに低下した。 これらの手法と同様に、画像から画像までの手法で生成した画像は、テキストから画像へのアプローチで生成した画像よりもリアルであることを示した。 結果は、dall.eが現実的な農業イメージデータセットを作成し、精密農業ソリューションの開発と採用を加速する可能性を強調した。

This research investigated the role of artificial intelligence (AI), specifically the DALL.E model by OpenAI, in advancing data generation and visualization techniques in agriculture. DALL.E, an advanced AI image generator, works alongside ChatGPT's language processing to transform text descriptions and image clues into realistic visual representations of the content. The study uses both approaches of image generation: text-to-image and image-to-image (variation). Two types of datasets depicting fruit crops environments and crop vs weed environment were generated. These AI-generated images were then compared against ground truth images captured by sensors in real agricultural fields. The comparison was based on Peak Signal-to-Noise Ratio (PSNR) and Feature Similarity Index (FSIM) metrics. For fruit crops, image-to-image generation exhibited a 5.78% increase in average PSNR over text-to-image methods, signifying superior image clarity and quality. However, this method also resulted in a 10.23% decrease in average FSIM, indicating a diminished structural and textural similarity to the original images. Conversely, in crop vs weed scenarios, image-to-image generation showed a 3.77% increase in PSNR, demonstrating enhanced image precision, but experienced a slight 0.76% decrease in FSIM, suggesting a minor reduction in feature similarity. Similar to these measures, human evaluation also showed that images generated using image-to-image-based method were more realistic compared to those generated with text-to-image approach. The results highlighted DALL.E's potential in generating realistic agricultural image datasets and thus accelerating the development and adoption of precision agricultural solutions.
翻訳日:2024-03-13 16:48:09 公開日:2024-03-10
# リフシッツ型スカラー場理論におけるクリロフ複雑性

Krylov Complexity in Lifshitz-type Scalar Field Theories ( http://arxiv.org/abs/2307.08307v2 )

ライセンス: Link先を確認
M. J. Vasli, K. Babaei Velni, M. R. Mohammadi Mozaffar, A. Mollabashi, M. Alishahiha(参考訳) 有限温度における自由リフシッツスカラー理論におけるランチョス係数の様々な側面について検討した。 この非相対論的セットアップでは、Laczos係数の挙動に対する質量、有限紫外カットオフ、有限格子間隔の影響について検討する。 また, 動的指数がランツォ係数の漸近挙動に及ぼす影響について検討し, 普遍的なスケーリング挙動を示す。 我々は、これらの結果がクリロフ空間における様々な尺度にどのように影響するかを慎重に検討する。 また,本研究の結果は,従来の相対論的理論の文献と類似していることがわかった。

We investigate various aspects of the Lanczos coefficients in a family of free Lifshitz scalar theories, characterized by their integer dynamical exponent, at finite temperature. In this non-relativistic setup, we examine the effects of mass, finite ultraviolet cutoff, and finite lattice spacing on the behavior of the Lanczos coefficients. We also investigate the effect of the dynamical exponent on the asymptotic behavior of the Lanczos coefficients, which show a universal scaling behavior. We carefully examine how these results can affect different measures in Krylov space, including Krylov complexity and entropy. Remarkably, we find that our results are similar to those previously observed in the literature for relativistic theories.
翻訳日:2024-03-13 16:47:40 公開日:2024-03-10
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v5 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 最近の多くの出版物は様々なSEタスクに適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解はまだ初期段階にある。 このギャップを埋めるために,我々は LLM4SE の体系的な文献レビューを行い,プロセスと成果を最適化するために LLM をどのように活用できるかを理解することに焦点をあてた。 我々は2017年から2023年までの229の研究論文を収集し分析し、4つの重要な研究質問(RQ)に答える。 RQ1では、SEタスクに採用された異なるLLMを分類し、その特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使われる手法を分析し、SE 実装における LLM を成功させるために、よく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化し,評価するための戦略について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現状とトレンド、既存の研究のギャップの特定、今後の研究に期待できる領域のフラグ付けなどについて議論する。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review on LLM4SE, with a particular focus on understanding how LLMs can be exploited to optimize processes and outcomes. We collect and analyze 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize different LLMs that have been employed in SE tasks, characterizing their distinctive features and uses. In RQ2, we analyze the methods used in data collection, preprocessing, and application highlighting the role of well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2024-03-13 16:40:26 公開日:2024-03-10
# 戦略獲物は急性捕食者を作る:カモフラージュ物体を発生させることによるカモフラージュ物体検出装置の強化

Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects ( http://arxiv.org/abs/2308.03166v2 )

ライセンス: Link先を確認
Chunming He, Kai Li, Yachao Zhang, Yulun Zhang, Zhenhua Guo, Xiu Li, Martin Danelljan, Fisher Yu(参考訳) camouflaged object detection (cod)は、周囲に視覚的にブレンドされたcamouflaged objectを識別する困難なタスクである。 成功したとはいえ、既存のCOD検出器はいくつかの困難なケースで正確な結果を得るのに苦戦している。 この問題を解決するために,捕食者がより優れたカモフラージュと捕食者を開発し,捕食者側と捕食者側の両方からより鋭い視覚システムを取得し,アルゴリズムを開発するように誘導する捕食者ゲームから着想を得た。 獲物側では,cod法が検出しにくいより多くのカモフラージュオブジェクトを生成する補助生成器を導入する,敵対的訓練フレームワークであるcamouflageatorを提案する。 カモフラーゲターは、強化された補助発電機が強力な検出器を生成するのに役立つように、発電機と検出器を反対方向に訓練する。 捕食者側では,カモフラージュされた物体の内部コヒーレンスを掘削し,より完全なセグメンテーション結果を得るために,カモフラージュされた特徴コヒーレンスモジュールを導入する,内部コヒーレンス・エッジガイダンス(ICEG)と呼ばれる新しいCOD法を導入する。 さらに、ICEGは、曖昧な境界を得るのを避けるために誤った予測を取り除くために、エッジ誘導分離キャリブレーションモジュールを提案する。 大規模な実験では、ICEGは既存のCOD検出器より優れており、カモフラージュ器は、最先端のCOD性能をもたらすICEGを含む様々なCOD検出器を改善するために柔軟である。

Camouflaged object detection (COD) is the challenging task of identifying camouflaged objects visually blended into surroundings. Albeit achieving remarkable success, existing COD detectors still struggle to obtain precise results in some challenging cases. To handle this problem, we draw inspiration from the prey-vs-predator game that leads preys to develop better camouflage and predators to acquire more acute vision systems and develop algorithms from both the prey side and the predator side. On the prey side, we propose an adversarial training framework, Camouflageator, which introduces an auxiliary generator to generate more camouflaged objects that are harder for a COD method to detect. Camouflageator trains the generator and detector in an adversarial way such that the enhanced auxiliary generator helps produce a stronger detector. On the predator side, we introduce a novel COD method, called Internal Coherence and Edge Guidance (ICEG), which introduces a camouflaged feature coherence module to excavate the internal coherence of camouflaged objects, striving to obtain more complete segmentation results. Additionally, ICEG proposes a novel edge-guided separated calibration module to remove false predictions to avoid obtaining ambiguous boundaries. Extensive experiments show that ICEG outperforms existing COD detectors and Camouflageator is flexible to improve various COD detectors, including ICEG, which brings state-of-the-art COD performance.
翻訳日:2024-03-13 16:37:53 公開日:2024-03-10
# Relaxed Jacobian Determinant Constraints を用いた二変変分型画像登録モデル

A Bi-variant Variational Model for Diffeomorphic Image Registration with Relaxed Jacobian Determinant Constraints ( http://arxiv.org/abs/2308.02393v2 )

ライセンス: Link先を確認
Yanyan Li, Ke Chen, Chong Chen, Jianping Zhang(参考訳) diffeomorphic registrationは、テンプレートと参照画像を用いて測定される2つの座標系間の滑らかで可逆的な変換を見つけるために広く使われている技術である。 ポイントワイズ容積保存制約 $\det(\nabla\bm{\varphi}(\bm{x})) =1$ は、ある場合には有効であるが、特に局所的な変形が比較的大きい場合には、他のケースでは制限的すぎる。 これにより、大きな局所的な変形を強制する際のマッチングが不十分になる。 本稿では,ジャコビアン方程式 $\det(\nabla\bm{\varphi}(\bm{x})) = f(\bm{x}) > 0$ のソフト制約を導入する二変微分型画像登録モデルを提案する。 これにより、局所的な変形は、フレキシブルレンジ$0<\kappa_{m}<\det(\nabla\bm{\varphi}(\bm{x}))<\kappa_{M}$で縮小および成長することができる。 変換のヤコビ行列式は緩和関数 $f(\bm{x})$ を最適化することで明示的に制御される。 変形を防止し、変換の滑らかさを向上させるために、緩和関数 $f(\bm{x})$ の最適化に正の制約を課し、$f(\bm{x})$ の滑らかさを保証するために正規化器を用いる。 さらに、正の制約は、$f(\bm{x})$ が可能な限り 1 に近いことを保証し、平均的な体積保存変換を達成するのに役立つ。 また、変動モデルに対する最小化器の存在を分析し、このモデルを解くためのマルチレベル戦略を持つペナルティ分割アルゴリズムを提案する。 数値実験により,提案アルゴリズムの収束を実証し,登録精度を損なうことなく,相対体積の範囲を効果的に制御できることを示す。 さらに,提案モデルでは,大規模局所変形に対して二相写像を生成し,既存登録モデルよりも性能面で優れる。

Diffeomorphic registration is a widely used technique for finding a smooth and invertible transformation between two coordinate systems, which are measured using template and reference images. The point-wise volume-preserving constraint $\det(\nabla\bm{\varphi}(\bm{x})) =1$ is effective in some cases, but may be too restrictive in others, especially when local deformations are relatively large. This can result in poor matching when enforcing large local deformations. In this paper, we propose a new bi-variant diffeomorphic image registration model that introduces a soft constraint on the Jacobian equation $\det(\nabla\bm{\varphi}(\bm{x})) = f(\bm{x}) > 0$. This allows local deformations to shrink and grow within a flexible range $0<\kappa_{m}<\det(\nabla\bm{\varphi}(\bm{x}))<\kappa_{M}$. The Jacobian determinant of transformation is explicitly controlled by optimizing the relaxation function $f(\bm{x})$. To prevent deformation folding and improve the smoothness of the transformation, a positive constraint is imposed on the optimization of the relaxation function $f(\bm{x})$, and a regularizer is used to ensure the smoothness of $f(\bm{x})$. Furthermore, the positivity constraint ensures that $f(\bm{x})$ is as close to one as possible, which helps to achieve a volume-preserving transformation on average. We also analyze the existence of the minimizer for the variational model and propose a penalty-splitting algorithm with a multilevel strategy to solve this model. Numerical experiments demonstrate the convergence of the proposed algorithm and show that the positivity constraint can effectively control the range of relative volume without compromising the accuracy of the registration. Moreover, the proposed model generates diffeomorphic maps for large local deformations and outperforms several existing registration models in terms of performance.
翻訳日:2024-03-13 16:37:22 公開日:2024-03-10
# 完全分離型エンドツーエンド検索を目指して

Towards Fully Decoupled End-to-End Person Search ( http://arxiv.org/abs/2309.04967v3 )

ライセンス: Link先を確認
Pengcheng Zhang, Xiao Bai, Jin Zheng, Xin Ning(参考訳) エンド・ツー・エンドの人物探索は、原シーン画像中の対象者を統一モデルで共同で検出し、再同定することを目的としている。 検出タスクは、re-idタスクが異なるアイデンティティを識別している間に、すべての人を統一する。 このような対立を緩和するために、エンドツーエンドの検索を分離する既存の作業が提案されている。 しかし、これらの手法は部分的に分離されたモデルであるため、サブタスクの1つか2つの部分最適である。 本稿では,最適な人物探索に向けた人物探索を完全に分離することを提案する。 2つのサブタスクのモデルアーキテクチャを分離する、検出および再識別するサブタスクのエンドツーエンドモデルを構築するために、タスクインクリメンタルなパーソンサーチネットワークを提案する。 提案するtask-incremental networkは、2つの競合するタスクのtask-incrementalトレーニングを可能にする。 これにより、異なる目的に対して独立した学習が可能となり、それによって、人的階層のモデルを完全に分離する。 包括的実験評価により,完全分離モデルの有効性が実証された。

End-to-end person search aims to jointly detect and re-identify a target person in raw scene images with a unified model. The detection task unifies all persons while the re-id task discriminates different identities, resulting in conflict optimal objectives. Existing works proposed to decouple end-to-end person search to alleviate such conflict. Yet these methods are still sub-optimal on one or two of the sub-tasks due to their partially decoupled models, which limits the overall person search performance. In this paper, we propose to fully decouple person search towards optimal person search. A task-incremental person search network is proposed to incrementally construct an end-to-end model for the detection and re-id sub-task, which decouples the model architecture for the two sub-tasks. The proposed task-incremental network allows task-incremental training for the two conflicting tasks. This enables independent learning for different objectives thus fully decoupled the model for persons earch. Comprehensive experimental evaluations demonstrate the effectiveness of the proposed fully decoupled models for end-to-end person search.
翻訳日:2024-03-13 16:30:39 公開日:2024-03-10
# ランダム点場における波動散乱の共振分布に対する有効-メジウムアプローチ

Effective-medium approach to the resonance distribution of wave scattering in a random point field ( http://arxiv.org/abs/2309.00542v2 )

ライセンス: Link先を確認
David Gaspard and Jean-Marc Sparenberg(参考訳) 前回の論文[phys. rev. a 105, 042205 (2022)]において、ランダムな点における量子粒子の多重散乱に関連する波動数 $k$ の複素平面における共鳴極の分布を数値的に発見した。 この分布は2つの異なる構造を示しており、波長が散乱間距離よりも大きい場合のピークのセットと、実軸にほぼ平行なバンドのセットは、より大きい$k$である。 本稿では,これらの構造の起源を説明し,複素k$平面内の分布を予測するために,波動輸送理論に基づく詳細な理論的研究を提案する。 まず、この障害に対する平均波動関数に対する効果的な波動方程式を用いて、小さい$k$のピークを理解できることが示される。 すると、大きな$k$ のバンドは、図式法から導かれる波動関数の平方モジュラスに対するbethe-salpeter方程式によって記述できる。 本研究は数値シミュレーションとの比較により裏付けられる。 最大のシミュレーションでは、乱れた媒体のバルクにおける波動関数に対するフィラメントのような量子的傷の存在が明らかになった。

In a previous paper [Phys. Rev. A 105, 042205 (2022)], the distribution of resonance poles in the complex plane of the wavenumber $k$ associated to the multiple scattering of a quantum particle in a random point field was numerically discovered. This distribution presented two distinctive structures: a set of peaks at small $k$ when the wavelength is larger than the interscatterer distance, and a band almost parallel to the real axis at larger $k$. In this paper, a detailed theoretical study based on wave transport theory is proposed to explain the origin of these structures and to predict their distribution in the complex $k$ plane. First, it is shown that the peaks at small $k$ can be understood using an effective wave equation for the average wavefunction over the disorder. Then, that the band at large $k$ can be described by the Bethe-Salpeter equation for the square modulus of the wavefunction, which is derived from the diagrammatic method. This study is supported by careful comparisons with numerical simulations. The largest simulations revealed the presence of filaments alike quantum scars for the wavefunction in the bulk of the disordered medium.
翻訳日:2024-03-13 16:29:00 公開日:2024-03-10
# LMSYS-Chat-1M:大規模実世界のLLM会話データセット

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset ( http://arxiv.org/abs/2309.11998v4 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric P. Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang(参考訳) 大規模言語モデル(LLM)を現実のシナリオでどのように扱うかを研究することは、様々なアプリケーションで広く使われているため、ますます重要になっている。 本稿では,25の最先端llmと100万の会話を含む大規模データセットlmsys-chat-1mを紹介する。 このデータセットは、VicunaのデモとChatbot ArenaのWebサイトで、210KのユニークなIPアドレスから収集されています。 我々は、そのキュレーションプロセス、基礎統計、トピックの分布など、データセットの内容の概要を提供し、その多様性、独創性、スケールを強調します。 GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成である。 私たちは、このデータセットがLLMの機能を理解し、前進するための貴重なリソースになると信じています。 データセットはhttps://huggingface.co/datasets/lmsys/lmsys-chat-1mで公開されている。

Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
翻訳日:2024-03-13 16:19:05 公開日:2024-03-10
# 大規模言語モデルを用いた学習用マルチコース質問説明の改善のための反復的改善の検討

Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models ( http://arxiv.org/abs/2309.10444v4 )

ライセンス: Link先を確認
Qiming Bao, Juho Leinonen, Alex Yuxuan Peng, Wanjun Zhong, Ga\"el Gendron, Timothy Pistotti, Alice Huang, Paul Denny, Michael Witbrock and Jiamou Liu(参考訳) 大規模言語モデルは、言語処理と理解において優れた能力を示すが、教育的文脈におけるそれらの応用は未熟である。 学習のアウトソーシングは、学生が独自の教育コンテンツを作成することを促す。 学習者が複数の選択質問をソーシングする場合、質問の解法を説明することは重要なステップであり、他の学生が解法を理解し、関連する概念のより深い理解を促進するのに役立つ。 しかし, 被験者の理解が限られているため, 効果的な解法を説明することは困難であることが多い。 自動説明生成のタスクを足場として,大規模言語モデルを用いて与えられた質問に対する説明を反復的に強化する「ILearner-LLM」というフレームワークを提示し,評価する。 説明生成モデルと説明評価モデルとからなるフレームワークは、評価モデルから品質評価スコアを説明生成モデルの指示プロンプトに反復的に送り込むことにより、高品質な学生対応説明を生成する。 実験の結果,LLaMA2-13BとGPT-4に対するILearner-LLMの有効性が示され,PierWiseの5つのデータセットの学生に類似した高品質な説明が得られた。 本研究は,学生の学習者ソーシング経験を豊かにし,教育用大規模言語モデルの能力を高めるための有望な道筋を示す。

Large language models exhibit superior capabilities in processing and understanding language, yet their applications in educational contexts remain underexplored. Learnersourcing enhances learning by engaging students in creating their own educational content. When learnersourcing multiple-choice questions, creating explanations for the solution of a question is a crucial step; it helps other students understand the solution and promotes a deeper understanding of related concepts. However, it is often difficult for students to craft effective solution explanations, due to limited subject understanding. To help scaffold the task of automated explanation generation, we present and evaluate a framework called "ILearner-LLM", that iteratively enhances the generated explanations for the given questions with large language models. Comprising an explanation generation model and an explanation evaluation model, the framework generates high-quality student-aligned explanations by iteratively feeding the quality rating score from the evaluation model back into the instruction prompt of the explanation generation model. Experimental results demonstrate the effectiveness of our ILearner-LLM on LLaMA2-13B and GPT-4 to generate higher quality explanations that are closer to those written by students on five PeerWise datasets. Our findings represent a promising path to enrich the learnersourcing experience for students and to enhance the capabilities of large language models for educational applications.
翻訳日:2024-03-13 16:18:48 公開日:2024-03-10
# 実験データの同化によるspaart-allmarasモデルの一般化

Generalizable improvement of the Spalart-Allmaras model through assimilation of experimental data ( http://arxiv.org/abs/2309.06679v2 )

ライセンス: Link先を確認
Deepinder Jot Singh Aulakh, Xiang Yang and Romit Maulik(参考訳) 本研究では,Reynolds-a averageaged Navier-Stokes Solution of separated flowに対するSpalart-Allmaras(SA)クロージャモデルの改善のためのモデルとデータ融合の利用に焦点を当てた。 特に,計算モデルの性能を向上させるためにスパース実験データを同化するだけでなく,古典的sa動作を回復して未発見の事例に一般化するモデルの開発が目的である。 分離流れに対するsaモデルの係数を校正するために,データ同化,すなわちアンサンブルカルマンフィルタ(enkf)を用いて目標を達成する。 総論的なキャリブレーション戦略は, 生産, 拡散, 破壊条件のパラメータ化によって実現される。 このキャリブレーションは、速度プロファイル、皮膚摩擦、分離流れの圧力係数を収集した実験データの同化に依存する。 逆向きステップ (BFS) の周囲の単一流れ状態からの観測データを用いても、2Dバンプや修正BFSを含む他の分離流れへの一般化が示される。 テストした各流れに対する皮膚摩擦係数(C_f$)および圧力係数(C_p$)の量の重要な改善が観察される。 最後に,新たに提案するモデルでは,naca-0012翼まわりの流れなどの外部分離されていない流れに対して,外挿の危険を伴わずにsa熟練度を回復し,saモデルの個別に調整された用語は,再循環ゾーンを改善し,破壊が回復ゾーンを改善する特定のフロー物理量を対象としていることを実証する。

This study focuses on the use of model and data fusion for improving the Spalart-Allmaras (SA) closure model for Reynolds-averaged Navier-Stokes solutions of separated flows. In particular, our goal is to develop of models that not-only assimilate sparse experimental data to improve performance in computational models, but also generalize to unseen cases by recovering classical SA behavior. We achieve our goals using data assimilation, namely the Ensemble Kalman Filtering approach (EnKF), to calibrate the coefficients of the SA model for separated flows. A holistic calibration strategy is implemented via a parameterization of the production, diffusion, and destruction terms. This calibration relies on the assimilation of experimental data collected velocity profiles, skin friction, and pressure coefficients for separated flows. Despite using of observational data from a single flow condition around a backward-facing step (BFS), the recalibrated SA model demonstrates generalization to other separated flows, including cases such as the 2D-bump and modified BFS. Significant improvement is observed in the quantities of interest, i.e., skin friction coefficient ($C_f$) and pressure coefficient ($C_p$) for each flow tested. Finally, it is also demonstrated that the newly proposed model recovers SA proficiency for external, unseparated flows, such as flow around a NACA-0012 airfoil without any danger of extrapolation, and that the individually calibrated terms in the SA model are targeted towards specific flow-physics wherein the calibrated production term improves the re-circulation zone while destruction improves the recovery zone.
翻訳日:2024-03-13 16:16:58 公開日:2024-03-10
# ImagenHub:条件付き画像生成モデルの標準化

ImagenHub: Standardizing the evaluation of conditional image generation models ( http://arxiv.org/abs/2310.01596v4 )

ライセンス: Link先を確認
Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen(参考訳) 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。 しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。 本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。 まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。 次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。 第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。 提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。 評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。 1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。 2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。 (3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。 今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。

Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
翻訳日:2024-03-13 16:11:25 公開日:2024-03-10
# DiffAR:生音声波形生成のための拡散自己回帰モデル

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation ( http://arxiv.org/abs/2310.01381v3 )

ライセンス: Link先を確認
Roi Benita, Michael Elad, Joseph Keshet(参考訳) 拡散モデルは近年,高品質な音声生成に関係があることが示されている。 ほとんどの研究はスペクトログラムの生成に焦点が当てられており、それ故に、スペクトログラムを波形(ボコーダ)に変換するためのその後のモデルが必要である。 本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。 提案するモデルは自己回帰的であり、重複するフレームを順次生成し、各フレームが予め生成されたフレームの一部で条件付けされる。 これにより,高忠実度合成と時間的コヒーレンスを保ちながら,音声の持続時間の無制限化を効果的に行うことができる。 提案手法では,音素,振幅,ピッチ値の入力列によって音声を駆動できる非条件・条件付き音声生成モデルを実装した。 波形を直接扱うことには経験的な利点がある。 具体的には、発声フライのような局所的な音波の振る舞いを作成できるので、全体の波形がより自然に聞こえる。 さらに,提案した拡散モデルは確率的であり決定的ではないため,各推論はわずかに異なる波形変化を発生させ,有効な実現が可能となる。 実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して高品質な音声を生成することが示された。

Diffusion models have recently been shown to be relevant for high-quality speech generation. Most work has been focused on generating spectrograms, and as such, they further require a subsequent model to convert the spectrogram to a waveform (i.e., a vocoder). This work proposes a diffusion probabilistic end-to-end model for generating a raw speech waveform. The proposed model is autoregressive, generating overlapping frames sequentially, where each frame is conditioned on a portion of the previously generated one. Hence, our model can effectively synthesize an unlimited speech duration while preserving high-fidelity synthesis and temporal coherence. We implemented the proposed model for unconditional and conditional speech generation, where the latter can be driven by an input sequence of phonemes, amplitudes, and pitch values. Working on the waveform directly has some empirical advantages. Specifically, it allows the creation of local acoustic behaviors, like vocal fry, which makes the overall waveform sounds more natural. Furthermore, the proposed diffusion model is stochastic and not deterministic; therefore, each inference generates a slightly different waveform variation, enabling abundance of valid realizations. Experiments show that the proposed model generates speech with superior quality compared with other state-of-the-art neural speech generation systems.
翻訳日:2024-03-13 16:11:00 公開日:2024-03-10
# 深層学習を用いた分子系の軌道自由密度汎関数理論の障壁克服

Overcoming the Barrier of Orbital-Free Density Functional Theory for Molecular Systems Using Deep Learning ( http://arxiv.org/abs/2309.16578v2 )

ライセンス: Link先を確認
He Zhang, Siyuan Liu, Jiacheng You, Chang Liu, Shuxin Zheng, Ziheng Lu, Tong Wang, Nanning Zheng, Bin Shao(参考訳) 軌道自由密度汎関数理論(orbital-free density functional theory,ofdft)は、現代分子研究にますます望まれているコーン・シャムdftよりも低いコストスケールを持つ量子化学式である。 しかし、その精度は運動エネルギー密度関数によって制限されており、非周期分子系では近似が難しいことが知られている。 本稿では、深層学習関数モデルを用いて分子システムを解くことができるOFFTアプローチであるM-OFDFTを提案する。 このモデルに本質的な非局所性を構築し,原子基底下の拡張係数として簡潔な密度表現によって手頃な価格となる。 非伝統的な学習課題に対処する技術により、M-OFDFTは以前にOFDFTが触れなかった幅広い分子上でコーンシャムDFTと同等の精度を達成する。 より魅力的なことに、M-OFDFTは、トレーニングで見られるものよりもはるかに大きい分子を外挿し、量子化学における精度-効率のトレードオフフロンティアの進歩を表すタンパク質を含む大きな分子を研究するために、OFDFTの魅力あるスケーリングを解き放つ。

Orbital-free density functional theory (OFDFT) is a quantum chemistry formulation that has a lower cost scaling than the prevailing Kohn-Sham DFT, which is increasingly desired for contemporary molecular research. However, its accuracy is limited by the kinetic energy density functional, which is notoriously hard to approximate for non-periodic molecular systems. Here we propose M-OFDFT, an OFDFT approach capable of solving molecular systems using a deep learning functional model. We build the essential non-locality into the model, which is made affordable by the concise density representation as expansion coefficients under an atomic basis. With techniques to address unconventional learning challenges therein, M-OFDFT achieves a comparable accuracy with Kohn-Sham DFT on a wide range of molecules untouched by OFDFT before. More attractively, M-OFDFT extrapolates well to molecules much larger than those seen in training, which unleashes the appealing scaling of OFDFT for studying large molecules including proteins, representing an advancement of the accuracy-efficiency trade-off frontier in quantum chemistry.
翻訳日:2024-03-13 16:08:28 公開日:2024-03-10
# ModuLoRA: モジュラ量子化器の統合によるコンシューマGPU上の2ビットLLMの微細化

ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers ( http://arxiv.org/abs/2309.16119v2 )

ライセンス: Link先を確認
Junjie Yin, Jiahao Dong, Yingheng Wang, Christopher De Sa, Volodymyr Kuleshov(参考訳) 65Bパラメータを2/3/4ビットの精度で最大24GBのGPU上で微調整できる大規模言語モデル(LLM)のメモリ効率向上アルゴリズムを提案する。 モジュール型低ランク適応法 (ModuLoRA) は,低ランクアダプタ (LoRA) による微調整とユーザ特定量量量化器を統合している。 我々の手法は、ブラックボックス量子化モジュールからの低精度LCM重みを適応的に実現する単純な量子化に依存している。 このアプローチは、最先端の2ビットQuIP\#量子化と3ビットOPTQ量子化を利用する2ビットと3ビットのLLMを初めて微調整できる。 提案手法では,テキスト分類,自然言語推論,命令追従タスクにおいて,従来の手法に比べてはるかに少ないメモリで性能が向上し,一般的な要約タスクでは最先端のルージュスコアを上回った。 我々は,コンシューマGPU上でLLMを定量化し,実行し,微調整するユーザフレンドリーなライブラリである \llmtune の一部として,一連の低精度モデルで \lplora~together をリリースする。

We propose a memory-efficient finetuning algorithm for large language models (LLMs) that supports finetuning LLMs with 65B parameters in 2/3/4-bit precision on as little as one 24GB GPU. Our method, modular low-rank adaptation (ModuLoRA), integrates any user-specified weight quantizer with finetuning via low-rank adapters (LoRAs). Our approach relies on a simple quantization-agnostic backward pass that adaptively materializes low-precision LLM weights from a custom black-box quantization module. This approach enables finetuning 2-bit and 3-bit LLMs for the first time -- leveraging state-of-the-art 2-bit QuIP\# quantization and 3-bit OPTQ quantization -- outperforming finetuning that relies on less sophisticated 4-bit and 8-bit methods. In our experiments, \lplora~attains competitive performance on text classification, natural language inference, and instruction following tasks using significantly less memory than existing approaches, and we also surpass the state-of-the-art ROUGE score on a popular summarization task. We release \lplora~together with a series of low-precision models as part of \llmtune, a user-friendly library for quantizing, running, and finetuning LLMs on consumer GPUs.
翻訳日:2024-03-13 16:08:04 公開日:2024-03-10
# LLM4V: コンパイラ検証のためのLCM駆動テストスーツの開発

LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation ( http://arxiv.org/abs/2310.04963v3 )

ライセンス: Link先を確認
Christian Munley, Aaron Jarmusch and Sunita Chandrasekaran(参考訳) 大きな言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための新しく強力なツールであり、印象的なコード生成能力を示している。 この作業の目標は、テストを自動的に生成し、これらのテストを使用してディレクティブベースの並列プログラミングパラダイムであるopenaccのコンパイラ実装を検証および検証することである。 そこで本稿では,オープンソースのLLM – Meta Codellama, PhindによるCodellama, Deepseek Deepseek Coder, OpenAI GPT-3.5-Turbo, GPT-4-Turboなど,最先端のLLMの機能について検討する。 オープンソースLLMとGPT-3.5-Turboをさらに微調整し、OpenACC仕様を用いてテストスイートデータセットを作成しました。 また,これらのllmについて,コードテンプレート,検索型生成(rag),ワンショット例,ragによるワンショット,コードテンプレートによる表現型プロンプト,ragなど,さまざまなプロンプトエンジニアリング手法を用いて検討した。 本報告では, 上記の全手法を用いて5000以上の試験を行った結果について述べる。 私たちの貢献には (a)コード生成のための最新かつ関連するLLMの機能を探る。 (b)微調整・急進法の調査、及び (c)代表的なテストセットの手動分析を含むllms生成テストの結果を分析する。 LLM Deepseek-Coder-33b-Instruct が最も合格した試験は GPT-4-Turbo であった。

Large language models (LLMs) are a new and powerful tool for a wide span of applications involving natural language and demonstrate impressive code generation abilities. The goal of this work is to automatically generate tests and use these tests to validate and verify compiler implementations of a directive-based parallel programming paradigm, OpenACC. To do so, in this paper, we explore the capabilities of state-of-the-art LLMs, including open-source LLMs -- Meta Codellama, Phind fine-tuned version of Codellama, Deepseek Deepseek Coder and closed-source LLMs -- OpenAI GPT-3.5-Turbo and GPT-4-Turbo. We further fine-tuned the open-source LLMs and GPT-3.5-Turbo using our own testsuite dataset along with using the OpenACC specification. We also explored these LLMs using various prompt engineering techniques that include code template, template with retrieval-augmented generation (RAG), one-shot example, one-shot with RAG, expressive prompt with code template and RAG. This paper highlights our findings from over 5000 tests generated via all the above mentioned methods. Our contributions include: (a) exploring the capabilities of the latest and relevant LLMs for code generation, (b) investigating fine-tuning and prompt methods, and (c) analyzing the outcome of LLMs generated tests including manually analysis of representative set of tests. We found the LLM Deepseek-Coder-33b-Instruct produced the most passing tests followed by GPT-4-Turbo.
翻訳日:2024-03-13 16:02:14 公開日:2024-03-10
# 流れによる無訓練線形画像逆解析

Training-free Linear Image Inverses via Flows ( http://arxiv.org/abs/2310.04432v2 )

ライセンス: Link先を確認
Ashwini Pokle, Matthew J. Muckley, Ricky T. Q. Chen, Brian Karrer(参考訳) トレーニングなしで逆問題を解くには、事前訓練された生成モデルを使用し、生成モデルの微調整を避けるために生成プロセスに適切な修正を加えることが必要となる。 最近の手法では拡散モデルの利用が検討されているが、異なる逆問題に対して多くのハイパーパラメータを手動でチューニングする必要がある。 本研究では,事前学習したフローモデルを用いて線形逆問題の解法を提案し,フローマッチングモデルの単純さと効率を活かし,理論的に修正された重み付け方式を用いて,手動チューニングの量を大幅に削減する。 特に、フローレシエーションに事前勾配補正法を採用することと、条件付き最適輸送経路に基づく解法スキームの2つの主要な情報源からインスピレーションを得ている。 また, 事前学習した拡散モデルが広く利用できるため, 拡散モデルを効果的に適用する方法を示す。 本研究では,高次元データセットであるimagenet-64/128 と afhq-256 上でのノイズの多い線形逆問題に対して,問題固有のチューニングを必要とせず,逆問題を解くためのフローベース手法が,ほとんどの場面で拡散ベース手法により改善されることを検証した。

Solving inverse problems without any training involves using a pretrained generative model and making appropriate modifications to the generation process to avoid finetuning of the generative model. While recent methods have explored the use of diffusion models, they still require the manual tuning of many hyperparameters for different inverse problems. In this work, we propose a training-free method for solving linear inverse problems by using pretrained flow models, leveraging the simplicity and efficiency of Flow Matching models, using theoretically-justified weighting schemes, and thereby significantly reducing the amount of manual tuning. In particular, we draw inspiration from two main sources: adopting prior gradient correction methods to the flow regime, and a solver scheme based on conditional Optimal Transport paths. As pretrained diffusion models are widely accessible, we also show how to practically adapt diffusion models for our method. Empirically, our approach requires no problem-specific tuning across an extensive suite of noisy linear inverse problems on high-dimensional datasets, ImageNet-64/128 and AFHQ-256, and we observe that our flow-based method for solving inverse problems improves upon closely-related diffusion-based methods in most settings.
翻訳日:2024-03-13 16:01:24 公開日:2024-03-10
# テキストから自己へ:対人コミュニケーションと自己に対するAIの可能性に対する利用者の認識

From Text to Self: Users' Perceptions of Potential of AI on Interpersonal Communication and Self ( http://arxiv.org/abs/2310.03976v3 )

ライセンス: Link先を確認
Yue Fu, Sami Foell, Xuhai Xu, Alexis Hiniker(参考訳) ai-mediated communication(aimc)の急速な発展の中で、大規模言語モデル(llm)を活用したツールが対人コミュニケーションに不可欠なものになりつつある。 混合手法を用いて1週間の日記とインタビュー調査を行い,ツールの能力に対するユーザの認識について検討した。 1)対人コミュニケーションを短期的に支援すること、及び 2) 長期的影響の可能性を示唆する。 以上の結果から,aimcはコミュニケーションの信頼度の向上や,言語的・文化的障壁をナビゲートし,思考を表現するための正確な言語の発見など,aimcの支持を好意的に捉えていることが示唆された。 しかし、この研究はaimcツールの現在の限界を明らかにするもので、冗長性、不自然な反応、過度の感情的強度などが含まれている。 これらの欠点は、信頼性の欠如とこの技術への潜在的な依存に対するユーザの懸念によってさらに悪化する。 さらに,aimcツールに対するユーザの態度を別々に予測するコミュニケーションステークス(high or low)とリレーションシップダイナミクス(formal or informal)の4つの重要なコミュニケーション空間を同定した。 特に, 参加者は, フォーマルなコミュニケーションよりもフォーマルなコミュニケーションに適しており, ローテイクなコミュニケーションよりもハイテイクなコミュニケーションに有益であることがわかった。

In the rapidly evolving landscape of AI-mediated communication (AIMC), tools powered by Large Language Models (LLMs) are becoming integral to interpersonal communication. Employing a mixed-methods approach, we conducted a one-week diary and interview study to explore users' perceptions of these tools' ability to: 1) support interpersonal communication in the short-term, and 2) lead to potential long-term effects. Our findings indicate that participants view AIMC support favorably, citing benefits such as increased communication confidence, and finding precise language to express their thoughts, navigating linguistic and cultural barriers. However, the study also uncovers current limitations of AIMC tools, including verbosity, unnatural responses, and excessive emotional intensity. These shortcomings are further exacerbated by user concerns about inauthenticity and potential overreliance on the technology. Furthermore, we identified four key communication spaces delineated by communication stakes (high or low) and relationship dynamics (formal or informal) that differentially predict users' attitudes toward AIMC tools. Specifically, participants found the tool is more suitable for communicating in formal relationships than informal ones and more beneficial in high-stakes than low-stakes communication.
翻訳日:2024-03-13 16:00:59 公開日:2024-03-10
# 人気度に基づく合理化とカリキュラム加熱によるコールドスタートバンドルレコメンデーション

Cold-start Bundle Recommendation via Popularity-based Coalescence and Curriculum Heating ( http://arxiv.org/abs/2310.03813v3 )

ライセンス: Link先を確認
Hyunsik Jeon, Jong-eun Lee, Jeongin Yun, U Kang(参考訳) ユーザに対して、どのようにコールドスタートバンドルを推奨すればよいか? バンドルレコメンデーションのコールドスタート問題は、さまざまなマーケティング目的でweb上で新しいバンドルが継続的に作成されるため、重要である。 その重要性にもかかわらず、既存のコールドスタートアイテムレコメンデーションのメソッドはバンドルに簡単に適用できない。 それらは歴史的情報に過度に依存するが、あまり人気のないバンドルでさえ、バンドル相互作用の非常に歪んだ分布の第一の課題に対処できない。 本研究では,コールドスタートバンドルの推奨に対する正確なアプローチであるCoHeat (Popularity-based Coalescence and Curriculum Heating)を提案する。 CoHeatはまず、グラフベースのビューを通じてユーザとバンドルを表現し、協調情報を効果的にキャプチャする。 ユーザとバンドルの関係をより正確に推定するために、CoHeatは、バンドルの人気に基づく履歴情報とアフィリエイト情報を含む人気に基づく合理化アプローチを通じて、バンドル間の相互作用の高度に歪んだ分布に対処する。 さらに,カリキュラム学習やコントラスト学習を利用して,潜在表現を効果的に学習する。 CoHeatはコールドスタートバンドルレコメンデーションにおいて優れたパフォーマンスを示しており、最高の競合相手に比べて193%高いnDCG@20を実現している。

How can we recommend cold-start bundles to users? The cold-start problem in bundle recommendation is crucial because new bundles are continuously created on the Web for various marketing purposes. Despite its importance, existing methods for cold-start item recommendation are not readily applicable to bundles. They depend overly on historical information, even for less popular bundles, failing to address the primary challenge of the highly skewed distribution of bundle interactions. In this work, we propose CoHeat (Popularity-based Coalescence and Curriculum Heating), an accurate approach for cold-start bundle recommendation. CoHeat first represents users and bundles through graph-based views, capturing collaborative information effectively. To estimate the user-bundle relationship more accurately, CoHeat addresses the highly skewed distribution of bundle interactions through a popularity-based coalescence approach, which incorporates historical and affiliation information based on the bundle's popularity. Furthermore, it effectively learns latent representations by exploiting curriculum learning and contrastive learning. CoHeat demonstrates superior performance in cold-start bundle recommendation, achieving up to 193% higher nDCG@20 compared to the best competitor.
翻訳日:2024-03-13 16:00:35 公開日:2024-03-10
# デノジング拡散ステップアウェアモデル

Denoising Diffusion Step-aware Models ( http://arxiv.org/abs/2310.03337v4 )

ライセンス: Link先を確認
Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、さまざまな領域にわたるデータ生成で人気を集めている。 しかし、大きなボトルネックは、生成プロセスのステップ毎にネットワーク全体の計算が必要であり、計算オーバーヘッドが高くなることである。 本稿では,この課題に対処するための新しいフレームワークDDSM(Denoising Diffusion Step-Aware Models)を提案する。 従来のアプローチとは異なり、DDSMは進化探索によって決定されるように、各生成ステップの重要性に応じてサイズが適応されるニューラルネットワークのスペクトルを用いる。 このステップワイズネットワークのばらつきは、冗長な計算作業を、特に批判の少ないステップで効果的に回避し、拡散モデルの効率を向上する。 さらに、ステップアウェア設計はDDIMや潜時拡散といった他の効率ゲージ拡散モデルとシームレスに統合することができ、計算節約の範囲を広げることができる。 実験的な評価では、DDSMはCIFAR-10で49%、CelebA-HQで61%、LSUN-bedroomで59%、AFHQで71%、ImageNetで76%の計算節約を達成した。

Denoising Diffusion Probabilistic Models (DDPMs) have garnered popularity for data generation across various domains. However, a significant bottleneck is the necessity for whole-network computation during every step of the generative process, leading to high computational overheads. This paper presents a novel framework, Denoising Diffusion Step-aware Models (DDSM), to address this challenge. Unlike conventional approaches, DDSM employs a spectrum of neural networks whose sizes are adapted according to the importance of each generative step, as determined through evolutionary search. This step-wise network variation effectively circumvents redundant computational efforts, particularly in less critical steps, thereby enhancing the efficiency of the diffusion model. Furthermore, the step-aware design can be seamlessly integrated with other efficiency-geared diffusion models such as DDIMs and latent diffusion, thus broadening the scope of computational savings. Empirical evaluations demonstrate that DDSM achieves computational savings of 49% for CIFAR-10, 61% for CelebA-HQ, 59% for LSUN-bedroom, 71% for AFHQ, and 76% for ImageNet, all without compromising the generation quality.
翻訳日:2024-03-13 15:59:27 公開日:2024-03-10
# Reward Model Ensemblesは過度な最適化を支援する

Reward Model Ensembles Help Mitigate Overoptimization ( http://arxiv.org/abs/2310.02743v2 )

ライセンス: Link先を確認
Thomas Coste, Usman Anwar, Robert Kirk, David Krueger(参考訳) RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。 このプロセスの一環として、学習された報酬モデルを使用して、人間の好みをモデル化する。 しかし、「真の」報酬の完全な表現として、これらの学習された報酬モデルは過度に最適化される。 Gao et al. (2023)は、この現象を、(人間の代わりに)真の報酬として働くはるかに大きな「金」報酬モデルを用いて、合成人間のフィードバック設定で研究し、プロキシ報酬モデルのサイズや使用したトレーニングデータに関わらず、過最適化が永続的な問題であることを示した。 同様の設定を用いて,アンサンブルに基づく保守的最適化目標,特に最悪のケース最適化 (WCO) と不確実性重み付け最適化 (UWO) を用いて,2つの最適化手法を用いた報酬モデル過度最適化の緩和効果を評価する。 (a)ベスト・オブ・nサンプリング(BoN) (b)近位政策最適化(PPO) また、Gao et al. (2023) のセットアップを25%ラベルノイズを含むように拡張し、現実世界の状況をより良く反映する。 ラベルノイズを伴わずとも、保守的な最適化は過度な最適化を実質的に排除し、BoNサンプリングの性能を最大70%向上させる。 PPOの場合、アンサンブルに基づく保守的な最適化は常に過度な最適化を減らし、単一の報酬モデル最適化よりも優れる。 さらに、小さなKLペナルティと組み合わせることで、パフォーマンスコストを伴わずに過度な最適化を防げる。 全体として,アンサンブルに基づく保守的最適化は過剰最適化に効果的に対抗できることを示した。

Reinforcement learning from human feedback (RLHF) is a standard approach for fine-tuning large language models to follow instructions. As part of this process, learned reward models are used to approximately model human preferences. However, as imperfect representations of the "true" reward, these learned reward models are susceptible to overoptimization. Gao et al. (2023) studied this phenomenon in a synthetic human feedback setup with a significantly larger "gold" reward model acting as the true reward (instead of humans) and showed that overoptimization remains a persistent problem regardless of the size of the proxy reward model and training data used. Using a similar setup, we conduct a systematic study to evaluate the efficacy of using ensemble-based conservative optimization objectives, specifically worst-case optimization (WCO) and uncertainty-weighted optimization (UWO), for mitigating reward model overoptimization when using two optimization methods: (a) best-of-n sampling (BoN) (b) proximal policy optimization (PPO). We additionally extend the setup of Gao et al. (2023) to include 25% label noise to better mirror real-world conditions. Both with and without label noise, we find that conservative optimization practically eliminates overoptimization and improves performance by up to 70% for BoN sampling. For PPO, ensemble-based conservative optimization always reduces overoptimization and outperforms single reward model optimization. Moreover, combining it with a small KL penalty successfully prevents overoptimization at no performance cost. Overall, our results demonstrate that ensemble-based conservative optimization can effectively counter overoptimization.
翻訳日:2024-03-13 15:58:36 公開日:2024-03-10
# Sieve:イメージキャプションモデルを用いたマルチモーダルデータセットプルーニング

Sieve: Multimodal Dataset Pruning Using Image Captioning Models ( http://arxiv.org/abs/2310.02110v2 )

ライセンス: Link先を確認
Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani, Hugh Leather, Ari Morcos(参考訳) Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。 これは、これらのデータセットの品質がダウンストリームタスクにおけるvlmのパフォーマンスと強く関連しているため、データセットのプルーニングに対する重要なニーズを強調する。 事前訓練されたモデルからCLIPScoreを使用して、高度に整列したサンプルを使用したモデルのみをトレーニングすることが、プルーニングの最も成功した方法の1つである。 このアプローチには,CLIPがノイズラベルを事前学習しているため,偽陽性と否定の2つの制限がある。 本稿では,小型で多彩な画像テキストペアに事前学習した画像キャプチャモデルによって生成された合成キャプションを用いて,ノイズの多い画像テキストペアのアライメントを評価するプルーニング信号であるsieveを提案する。 生成した字幕の多様性と代替テキストの多様性(alt-text)とのギャップを埋めるため,ラベルなしテキストコーパスに事前学習した言語モデルの埋め込み空間における意味的テキスト類似度を推定する。 マルチモーダルデータセットフィルタリングベンチマークであるDataCompを用いて、38の下流タスクで評価する場合、プルーニングアプローチは、中規模および大規模でそれぞれCLIPScoreを2.6\%、1.7\%超える。 また,検索タスクでは,中規模と大規模において2.7%,4.5%の大幅な改善がみられた。

Vision-Language Models (VLMs) are pretrained on large, diverse, and noisy web-crawled datasets. This underscores the critical need for dataset pruning, as the quality of these datasets is strongly correlated with the performance of VLMs on downstream tasks. Using CLIPScore from a pretrained model to only train models using highly-aligned samples is one of the most successful methods for pruning. We argue that this approach suffers from multiple limitations including: false positives and negatives due to CLIP's pretraining on noisy labels. We propose a pruning signal, Sieve, that employs synthetic captions generated by image-captioning models pretrained on small, diverse, and well-aligned image-text pairs to evaluate the alignment of noisy image-text pairs. To bridge the gap between the limited diversity of generated captions and the high diversity of alternative text (alt-text), we estimate the semantic textual similarity in the embedding space of a language model pretrained on unlabeled text corpus. Using DataComp, a multimodal dataset filtering benchmark, when evaluating on 38 downstream tasks, our pruning approach, surpasses CLIPScore by 2.6\% and 1.7\% on medium and large scale respectively. In addition, on retrieval tasks, Sieve leads to a significant improvement of 2.7% and 4.5% on medium and large scale respectively.
翻訳日:2024-03-13 15:57:48 公開日:2024-03-10
# 過去から学ぶ:自己蒸留規則化によるプロキシガイド付き敵防衛フレームワーク

Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization ( http://arxiv.org/abs/2310.12713v2 )

ライセンス: Link先を確認
Yaohua Liu, Jiaxin Gao, Xianghao Jiao, Zhu Liu, Xin Fan, Risheng Liu(参考訳) 深層学習モデルの堅牢性を固める上で重要な相手訓練(AT)は,実践的応用において広く採用されている。 しかし、AT方式は、目標モデルの防御のために直接反復的な更新に依存し、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。 この文脈において、我々の研究は、ターゲットモデルの歴史的状態をプロキシとして活用し、効果的な初期化と防御を行う可能性を照らし、結果として一般的なプロキシガイド型防衛フレームワーク 'LAST' ({\bf L}earn from the P{\bf ast}) が生まれる。 具体的には、LASTはプロキシモデルの応答を動的に学習した高速ウェイトとして導き、ターゲットモデルの更新方向を継続的に修正する。 さらに,外部教師モデルに頼らずに,プロキシモデルの更新軌道を操り,破滅的なオーバーフィッティングがパフォーマンスに与える影響を改善するために,自己蒸留正規化防衛目標を導入する。 大規模な実験とアブレーション研究は、モデルロバスト性(例えば、CIFAR10データセットとCIFAR100データセットでそれぞれ9.2\%と20.3\%の堅牢性向上)とトレーニング安定性を著しく改善するフレームワークの有効性を示す。 これらの改善は、さまざまなモデルアーキテクチャ、より大きなデータセット、摂動サイズ、アタックモダリティで一貫して観察され、単一ステップと複数ステップのAT戦略を一貫して洗練するLASTの能力が確認されている。 コードは~\url{https://github.com/callous-youth/LAST}で入手できる。

Adversarial Training (AT), pivotal in fortifying the robustness of deep learning models, is extensively adopted in practical applications. However, prevailing AT methods, relying on direct iterative updates for target model's defense, frequently encounter obstacles such as unstable training and catastrophic overfitting. In this context, our work illuminates the potential of leveraging the target model's historical states as a proxy to provide effective initialization and defense prior, which results in a general proxy guided defense framework, `LAST' ({\bf L}earn from the P{\bf ast}). Specifically, LAST derives response of the proxy model as dynamically learned fast weights, which continuously corrects the update direction of the target model. Besides, we introduce a self-distillation regularized defense objective, ingeniously designed to steer the proxy model's update trajectory without resorting to external teacher models, thereby ameliorating the impact of catastrophic overfitting on performance. Extensive experiments and ablation studies showcase the framework's efficacy in markedly improving model robustness (e.g., up to 9.2\% and 20.3\% enhancement in robust accuracy on CIFAR10 and CIFAR100 datasets, respectively) and training stability. These improvements are consistently observed across various model architectures, larger datasets, perturbation sizes, and attack modalities, affirming LAST's ability to consistently refine both single-step and multi-step AT strategies. The code will be available at~\url{https://github.com/callous-youth/LAST}.
翻訳日:2024-03-13 15:54:02 公開日:2024-03-10
# METRA:Metric-Aware Abstractionを備えたスケーラブルな教師なしRL

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction ( http://arxiv.org/abs/2310.08887v2 )

ライセンス: Link先を確認
Seohong Park, Oleh Rybkin, Sergey Levine(参考訳) 教師なし事前学習戦略は自然言語処理やコンピュータビジョンにおいて非常に効果的であることが証明されている。 同様に、教師なし強化学習(RL)は、幅広い下流タスクの学習を加速できる様々な潜在的に有用な行動を発見するという約束を持っている。 従来の教師なしRLアプローチは主に純粋探索と相互情報スキル学習に重点を置いてきた。 しかし、以前の試みにもかかわらず、教師なしのrlを本当にスケーラブルにすることは、まだ大きな課題である。純粋な探索アプローチは、大きな状態空間を持つ複雑な環境では困難であり、すべての可能な移行をカバーすることは不可能であり、相互情報スキル学習アプローチは、インセンティブの欠如により、環境の探索に完全に失敗する可能性がある。 複雑な高次元環境に対して,教師なしRLをスケーラブルにするために,Metric-Aware Abstraction (METRA) と呼ばれる新しい教師なしRL目標を提案する。 私たちの主なアイデアは、状態空間全体を直接覆うのではなく、時間距離によって状態空間と計量的に接続されるコンパクトな潜在空間$z$だけをカバーすることです。 潜在空間のあらゆる方向に移動することを学ぶことで、metraは、状態空間をほぼカバーする、高次元環境にスケーラブルな様々な行動の扱いやすい集合を得る。 5つのロコモーションと操作環境で行った実験を通じて、metraは複雑なピクセルベースの環境でも様々な有用な振る舞いを発見できることを実証し、ピクセルベースの四足歩行とヒューマノイドにおいて、様々なロコモーション行動を検出する最初の教師なしrl法である。 私たちのコードとビデオはhttps://seohong.me/projects/metra/で閲覧できます。

Unsupervised pre-training strategies have proven to be highly effective in natural language processing and computer vision. Likewise, unsupervised reinforcement learning (RL) holds the promise of discovering a variety of potentially useful behaviors that can accelerate the learning of a wide array of downstream tasks. Previous unsupervised RL approaches have mainly focused on pure exploration and mutual information skill learning. However, despite the previous attempts, making unsupervised RL truly scalable still remains a major open challenge: pure exploration approaches might struggle in complex environments with large state spaces, where covering every possible transition is infeasible, and mutual information skill learning approaches might completely fail to explore the environment due to the lack of incentives. To make unsupervised RL scalable to complex, high-dimensional environments, we propose a novel unsupervised RL objective, which we call Metric-Aware Abstraction (METRA). Our main idea is, instead of directly covering the entire state space, to only cover a compact latent space $Z$ that is metrically connected to the state space $S$ by temporal distances. By learning to move in every direction in the latent space, METRA obtains a tractable set of diverse behaviors that approximately cover the state space, being scalable to high-dimensional environments. Through our experiments in five locomotion and manipulation environments, we demonstrate that METRA can discover a variety of useful behaviors even in complex, pixel-based environments, being the first unsupervised RL method that discovers diverse locomotion behaviors in pixel-based Quadruped and Humanoid. Our code and videos are available at https://seohong.me/projects/metra/
翻訳日:2024-03-13 15:51:01 公開日:2024-03-10
# AutoVP: 自動Visual Promptingフレームワークとベンチマーク

AutoVP: An Automated Visual Prompting Framework and Benchmark ( http://arxiv.org/abs/2310.08381v2 )

ライセンス: Link先を確認
Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho(参考訳) ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために事前訓練された視覚モデルを適用するための、パラメータ効率の良い微調整手法である。 しかし、VPの設計空間に関する体系的な研究はほとんどなく、その性能を評価するための明確なベンチマークも存在していない。 このギャップを埋めるため、我々はVP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと、全体的なVPパフォーマンスベンチマークとして機能する12の下流画像分類タスクを提案する。 私たちのデザインスペースは 1) プロンプトの合同最適化 2) 画像分類器及びテキスト画像エンコーダを含む事前訓練されたモデルの選定 3) 非パラメトリックおよびトレーニング可能なラベルマッピングを含むモデル出力マッピング戦略。 大規模な実験結果から,AutoVPは最大6.7%の精度向上を実現し,リニア・プロブリング(LP)ベースラインに比べて最大27.5%の性能向上を達成した。 AutoVPは、VP設計選択におけるハイパーパラメータチューニングの効率的なツールとして機能し、VPの開発を加速することが合理的に期待できる包括的なベンチマークとして機能する。 ソースコードはhttps://github.com/IBM/AutoVPで入手できる。

Visual prompting (VP) is an emerging parameter-efficient fine-tuning approach to adapting pre-trained vision models to solve various downstream image-classification tasks. However, there has hitherto been little systematic study of the design space of VP and no clear benchmark for evaluating its performance. To bridge this gap, we propose AutoVP, an end-to-end expandable framework for automating VP design choices, along with 12 downstream image-classification tasks that can serve as a holistic VP-performance benchmark. Our design space covers 1) the joint optimization of the prompts; 2) the selection of pre-trained models, including image classifiers and text-image encoders; and 3) model output mapping strategies, including nonparametric and trainable label mapping. Our extensive experimental results show that AutoVP outperforms the best-known current VP methods by a substantial margin, having up to 6.7% improvement in accuracy; and attains a maximum performance increase of 27.5% compared to linear-probing (LP) baseline. AutoVP thus makes a two-fold contribution: serving both as an efficient tool for hyperparameter tuning on VP design choices, and as a comprehensive benchmark that can reasonably be expected to accelerate VP's development. The source code is available at https://github.com/IBM/AutoVP.
翻訳日:2024-03-13 15:49:47 公開日:2024-03-10
# 合成ボリューム拡張によるデータ分析の促進

Boosting Data Analytics With Synthetic Volume Expansion ( http://arxiv.org/abs/2310.17848v3 )

ライセンス: Link先を確認
Xiaotong Shen, Yifei Liu, Rex Shen(参考訳) 生成人工知能の基盤である合成データ生成は、データ不足とプライバシに対処し、前例のないパフォーマンスを実現することによって、データサイエンスのパラダイムシフトを促進する。 合成データがより普及するにつれて、生データと対照的に合成データに適用した場合の統計手法の精度に関する懸念が浮かび上がる。 本稿では,合成データに対する統計手法の有効性と,合成データのプライバシーリスクについて検討する。 有効性については,分析用合成データ生成フレームワークを提案する。 このフレームワークは、表拡散モデルのような生成モデルによって生成された高品質な合成データに対して統計的アプローチを適用する。 この枠組みにおける鍵となる発見は世代効果であり、合成データに対する統計的手法の誤差率は、より多くの合成データの追加によって減少するが、最終的には上昇または安定化する可能性があることを明らかにする。 この現象は、生のデータ分布を正確に反映することの難しさから始まり、特定のエラーメトリクスで定義される合成データの理想的なボリュームである「反射点」を強調している。 感情分析,構造化データの予測モデリング,表データ推論という3つのケーススタディを通じて,従来の手法と比較して,このフレームワークの優れた性能を検証する。 プライバシーに関して、合成データは、差分プライバシー標準をサポートしながらリスクを低くする。 これらの研究は、データ科学のランドスケープを再定義する上で、合成データの未解決の可能性を強調している。

Synthetic data generation, a cornerstone of Generative Artificial Intelligence, promotes a paradigm shift in data science by addressing data scarcity and privacy while enabling unprecedented performance. As synthetic data becomes more prevalent, concerns emerge regarding the accuracy of statistical methods when applied to synthetic data in contrast to raw data. This article explores the effectiveness of statistical methods on synthetic data and the privacy risks of synthetic data. Regarding effectiveness, we present the Synthetic Data Generation for Analytics framework. This framework applies statistical approaches to high-quality synthetic data produced by generative models like tabular diffusion models, which, initially trained on raw data, benefit from insights from pertinent studies through transfer learning. A key finding within this framework is the generational effect, which reveals that the error rate of statistical methods on synthetic data decreases with the addition of more synthetic data but may eventually rise or stabilize. This phenomenon, stemming from the challenge of accurately mirroring raw data distributions, highlights a "reflection point"-an ideal volume of synthetic data defined by specific error metrics. Through three case studies, sentiment analysis, predictive modeling of structured data, and inference in tabular data, we validate the superior performance of this framework compared to conventional approaches. On privacy, synthetic data imposes lower risks while supporting the differential privacy standard. These studies underscore synthetic data's untapped potential in redefining data science's landscape.
翻訳日:2024-03-13 15:41:00 公開日:2024-03-10
# DeepFDR:ニューロイメージングデータのための深層学習に基づく偽発見率制御手法

DeepFDR: A Deep Learning-based False Discovery Rate Control Method for Neuroimaging Data ( http://arxiv.org/abs/2310.13349v3 )

ライセンス: Link先を確認
Taehyo Kim, Hai Shu, Qiran Jia, Mony J. de Leon(参考訳) ボクセルベースの多重テストは神経画像データ解析に広く用いられている。 従来の偽発見率(FDR)制御法は、しばしばボクセルベースのテストの空間的依存を無視し、テストパワーのかなりの損失を被る。 近年の空間的fdr制御法が出現しているが、脳の複雑な空間的依存性を扱う場合、その妥当性と最適性は疑わしいままである。 同時に、深層学習手法は、ボクセルベースの多重テストと密接に関連するタスクであるイメージセグメンテーションに革命をもたらした。 本稿では,教師なしの深層学習に基づく画像分割を利用した空間的FDR制御手法であるDeepFDRを提案する。 総合シミュレーションやアルツハイマー病のFDG-PET画像解析を含む数値的研究は、DeepFDRが既存の方法よりも優れていることを示している。 DeepFDRはFDR制御に優れ、偽の非発見率を効果的に低下させるだけでなく、大規模な神経画像データを扱うのに適した計算効率も高い。

Voxel-based multiple testing is widely used in neuroimaging data analysis. Traditional false discovery rate (FDR) control methods often ignore the spatial dependence among the voxel-based tests and thus suffer from substantial loss of testing power. While recent spatial FDR control methods have emerged, their validity and optimality remain questionable when handling the complex spatial dependencies of the brain. Concurrently, deep learning methods have revolutionized image segmentation, a task closely related to voxel-based multiple testing. In this paper, we propose DeepFDR, a novel spatial FDR control method that leverages unsupervised deep learning-based image segmentation to address the voxel-based multiple testing problem. Numerical studies, including comprehensive simulations and Alzheimer's disease FDG-PET image analysis, demonstrate DeepFDR's superiority over existing methods. DeepFDR not only excels in FDR control and effectively diminishes the false nondiscovery rate, but also boasts exceptional computational efficiency highly suited for tackling large-scale neuroimaging data.
翻訳日:2024-03-13 15:37:44 公開日:2024-03-10
# u-LLaVA:大規模言語モデルによるマルチモーダルタスクの統合

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model ( http://arxiv.org/abs/2311.05348v3 )

ライセンス: Link先を確認
Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Fanyi Wang, Yanchun Xie, Yi-Jie Huang, Yaqian Li(参考訳) 近年のMLLM(Multi-modal large language model)の進歩により、視覚的理解が大幅に改善され、主に高度なモダリティアライメント戦略が推進されている。 しかし、主要なアプローチは、細粒度でピクセルレベルのタスクよりも、グローバルまたは地域的な理解を優先する。 このギャップに対処するため,我々は,MLLMの知覚能力を改善するために,画素,地域,グローバル機能を統合する,革新的な統合マルチタスクフレームワークであるu-LLaVAを紹介した。 我々は、効率的なモダリティアライメントアプローチを活用し、画像とビデオの両方のデータセットを活用して、さまざまな視覚的コンテキストにおけるモデルの基本的な理解を促進する。 その後、タスク固有のプロジェクタとデコーダを併用して、エンドツーエンドのダウンストリームトレーニングを行う。 さらに,この研究は,MLLMの微粒化知覚能力に挑戦し,評価するための277Kサンプルからなる新しいマスクベースのマルチタスクデータセットを提供する。 全体的なフレームワークはシンプルで効果的で、複数のベンチマークで最先端のパフォーマンスを実現する。 また、モデル、データ、コードをhttps://github.com/OPPOMKLab/u-LLaVA.comで公開しています。

Recent advancements in multi-modal large language models (MLLMs) have led to substantial improvements in visual understanding, primarily driven by sophisticated modality alignment strategies. However, predominant approaches prioritize global or regional comprehension, with less focus on fine-grained, pixel-level tasks. To address this gap, we introduce u-LLaVA, an innovative unifying multi-task framework that integrates pixel, regional, and global features to refine the perceptual faculties of MLLMs. We commence by leveraging an efficient modality alignment approach, harnessing both image and video datasets to bolster the model's foundational understanding across diverse visual contexts. Subsequently, a joint instruction tuning method with task-specific projectors and decoders for end-to-end downstream training is presented. Furthermore, this work contributes a novel mask-based multi-task dataset comprising 277K samples, crafted to challenge and assess the fine-grained perception capabilities of MLLMs. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also make our model, data, and code publicly accessible at https://github.com/OPPOMKLab/u-LLaVA.
翻訳日:2024-03-13 15:31:22 公開日:2024-03-10
# 身体的AIの収束と一般化を改善する選択的視覚表現

Selective Visual Representations Improve Convergence and Generalization for Embodied AI ( http://arxiv.org/abs/2311.04193v2 )

ライセンス: Link先を確認
Ainaz Eftekhar, Kuo-Hao Zeng, Jiafei Duan, Ali Farhadi, Ani Kembhavi, Ranjay Krishna(参考訳) 身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。 このような汎用表現は、シーンに関する豊富な構文的および意味的情報をエンコードしているが、これらの情報の多くは、しばしば目の前の特定のタスクとは無関係である。 これは学習プロセスにノイズをもたらし、エージェントの焦点をタスクに関連する視覚的な手がかりから遠ざけます。 人間における選択的注意(その経験、知識、手作業に基づいてその知覚をフィルタリングするプロセス)に触発され、身体化されたaiの視覚刺激をフィルタリングするパラメーター効率の高いアプローチを導入する。 提案手法は,小さな学習可能なコードブックモジュールを用いてタスク条件付きボトルネックを誘導する。 このコードブックは、タスク報酬を最適化するために共同で訓練され、視覚的観察に対するタスク条件の選択フィルタとして機能する。 ProcTHor, ArchitecTHor, Robothor, AI2-iTHor, Manipulathor の5つのベンチマークにおいて, 目標ナビゲーションと物体変位の最先端性能を示す。 コードブックによって生成されたフィルタされた表現は、居住地のような他のシミュレーション環境に適応することで、より一般化し、より高速に収束することができる。 質的分析により,エージェントはより効果的に環境を探索でき,その表現は対象物体認識のようなタスク関連情報を保持しつつ,他の物体に対する過剰な情報を無視していることが示された。 コードと事前トレーニングされたモデルは、プロジェクトのWebサイトで利用可能です。

Embodied AI models often employ off the shelf vision backbones like CLIP to encode their visual observations. Although such general purpose representations encode rich syntactic and semantic information about the scene, much of this information is often irrelevant to the specific task at hand. This introduces noise within the learning process and distracts the agent's focus from task-relevant visual cues. Inspired by selective attention in humans-the process through which people filter their perception based on their experiences, knowledge, and the task at hand-we introduce a parameter-efficient approach to filter visual stimuli for embodied AI. Our approach induces a task-conditioned bottleneck using a small learnable codebook module. This codebook is trained jointly to optimize task reward and acts as a task-conditioned selective filter over the visual observation. Our experiments showcase state-of-the-art performance for object goal navigation and object displacement across 5 benchmarks, ProcTHOR, ArchitecTHOR, RoboTHOR, AI2-iTHOR, and ManipulaTHOR. The filtered representations produced by the codebook are also able generalize better and converge faster when adapted to other simulation environments such as Habitat. Our qualitative analyses show that agents explore their environments more effectively and their representations retain task-relevant information like target object recognition while ignoring superfluous information about other objects. Code and pretrained models are available at our project website: https://embodied-codebook.github.io.
翻訳日:2024-03-13 15:30:31 公開日:2024-03-10
# FairSeg: フェアエラー境界スケーリング付きセグメンテーションモデルを用いたフェアネス学習のための大規模医療画像セグメンテーションデータセット

FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling ( http://arxiv.org/abs/2311.02189v4 )

ライセンス: Link先を確認
Yu Tian and Min Shi and Yan Luo and Ava Kouhana and Tobias Elze and Mengyu Wang(参考訳) 人工知能モデルの公正さは、特に医学領域において、人々の幸福と生活にとって医療モデルの公正さが不可欠であるため、近年、注目されている。 フェアネス学習研究を促進するためには、高品質な医療フェアネスデータセットが必要である。 既存の医療用フェアネスデータセットはすべて分類作業のためであり、医療用セグメンテーションにはフェアネスデータセットは使用できないが、医療用セグメンテーションは分類として同等に重要な臨床課題であり、臨床医が評価できる臓器異常の詳細な空間情報を提供することができる。 本稿では,1万件の被験者を対象とする医学的セグメンテーションのためのフェアネスデータセットであるHarvard-FairSegを提案する。 さらに,segment anything model (sam) を用いて,各idグループにおける上位エラーバウンドによる損失関数の重み付けを行うための,公正なエラーバウンドスケーリング手法を提案する。 各アイデンティティグループで高いトレーニングエラーでハードケースに明示的に対処することで、セグメンテーション性能のエクイティを向上できると予想する。 公平な比較を容易にするために、新しいエクイティスケールのセグメンテーション性能指標を用いて、エクイティスケールのDice係数のようなフェアネスの文脈におけるセグメンテーション指標を比較する。 総合的な実験を通して、我々の公正なエラーバウンドスケーリングアプローチは、最先端の公正学習モデルよりも優れているか同等の公平性性能を持つことを示した。 データセットとコードはhttps://ophai.hms.harvard.edu/datasets/harvard-fairseg10kで公開されている。

Fairness in artificial intelligence models has gained significantly more attention in recent years, especially in the area of medicine, as fairness in medical models is critical to people's well-being and lives. High-quality medical fairness datasets are needed to promote fairness learning research. Existing medical fairness datasets are all for classification tasks, and no fairness datasets are available for medical segmentation, while medical segmentation is an equally important clinical task as classifications, which can provide detailed spatial information on organ abnormalities ready to be assessed by clinicians. In this paper, we propose the first fairness dataset for medical segmentation named Harvard-FairSeg with 10,000 subject samples. In addition, we propose a fair error-bound scaling approach to reweight the loss function with the upper error-bound in each identity group, using the segment anything model (SAM). We anticipate that the segmentation performance equity can be improved by explicitly tackling the hard cases with high training errors in each identity group. To facilitate fair comparisons, we utilize a novel equity-scaled segmentation performance metric to compare segmentation metrics in the context of fairness, such as the equity-scaled Dice coefficient. Through comprehensive experiments, we demonstrate that our fair error-bound scaling approach either has superior or comparable fairness performance to the state-of-the-art fairness learning models. The dataset and code are publicly accessible via https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k.
翻訳日:2024-03-13 15:29:10 公開日:2024-03-10
# パノプティカル・ナラティブ・グラウンディングのための連接画素と対象コンテキストによる句の充実

Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding ( http://arxiv.org/abs/2311.01091v2 )

ライセンス: Link先を確認
Tianrui Hui, Zihan Ding, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao Dai, Jizhong Han, Si Liu(参考訳) Panoptic narrative grounding (PNG) は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。 マルチモーダルタスクとして、PNGの重要な側面は、画像とキャプションの間の視覚言語的相互作用である。 前回の2段階のメソッドは、オフラインで生成されたマスク提案からフレーズ機能まで、視覚的なコンテキストを集約する。 最近のワンステージ手法では、画像特徴からフレーズ特徴までのピクセルコンテキストのみを集約する。 より包括的な視覚・言語的相互作用を実現するため,Phrase-Pixel-Object Transformer Decoder (PPO-TD) を設計することにより,画素とオブジェクトコンテキストを結合したフレーズを充実させることを提案する。 さらに,PhraseObject Contrastive Loss (POCL) を提案して,マッチしたフレーズオブジェクトペアを近づけ,マッチしないものを押し出して,フレーズ関連オブジェクトトークンからより正確なオブジェクトコンテキストを集約する。 PNGベンチマークの大規模な実験により,本手法は高いマージンを有する新しい最先端性能を実現することを示す。

Panoptic narrative grounding (PNG) aims to segment things and stuff objects in an image described by noun phrases of a narrative caption. As a multimodal task, an essential aspect of PNG is the visual-linguistic interaction between image and caption. The previous two-stage method aggregates visual contexts from offline-generated mask proposals to phrase features, which tend to be noisy and fragmentary. The recent one-stage method aggregates only pixel contexts from image features to phrase features, which may incur semantic misalignment due to lacking object priors. To realize more comprehensive visual-linguistic interaction, we propose to enrich phrases with coupled pixel and object contexts by designing a Phrase-Pixel-Object Transformer Decoder (PPO-TD), where both fine-grained part details and coarse-grained entity clues are aggregated to phrase features. In addition, we also propose a PhraseObject Contrastive Loss (POCL) to pull closer the matched phrase-object pairs and push away unmatched ones for aggregating more precise object contexts from more phrase-relevant object tokens. Extensive experiments on the PNG benchmark show our method achieves new state-of-the-art performance with large margins.
翻訳日:2024-03-13 15:28:42 公開日:2024-03-10
# 量子カルトポール:非線形強化学習のためのベンチマーク環境

The Quantum Cartpole: A benchmark environment for non-linear reinforcement learning ( http://arxiv.org/abs/2311.00756v2 )

ライセンス: Link先を確認
Kai Meinerz, Simon Trebst, Mark Rudner, Evert van Nieuwenburg(参考訳) フィードバックベースの制御は、古典的な確率システムやプロセスの制御に関してデファクトスタンダードである。 しかし、標準フィードバックに基づく制御法は、測定によるバックアクションと部分的可観測性のために量子システムによって挑戦される。 ここでは,弱量子計測とモデルフリー強化学習エージェントを用いて量子制御を行う。 制御アルゴリズムと状態推定器とを比較して、局所ポテンシャルエネルギー最大値付近の不安定な状態で量子粒子を安定化させることにより、状態推定と制御性の間のトレードオフが生じることを示す。 古典的アナログが非常に非線形なシナリオでは、強化学習された制御器は標準制御器よりも有利である。 さらに, 量子制御問題の古典的サロゲート上で強化学習により訓練された量子制御エージェントを開発するために, 転送学習を用いた場合の可能性を示す。 最後に,非線形シナリオにおいて,強化学習制御戦略が古典型コントローラとどのように異なるかを示す。

Feedback-based control is the de-facto standard when it comes to controlling classical stochastic systems and processes. However, standard feedback-based control methods are challenged by quantum systems due to measurement induced backaction and partial observability. Here we remedy this by using weak quantum measurements and model-free reinforcement learning agents to perform quantum control. By comparing control algorithms with and without state estimators to stabilize a quantum particle in an unstable state near a local potential energy maximum, we show how a trade-off between state estimation and controllability arises. For the scenario where the classical analogue is highly nonlinear, the reinforcement learned controller has an advantage over the standard controller. Additionally, we demonstrate the feasibility of using transfer learning to develop a quantum control agent trained via reinforcement learning on a classical surrogate of the quantum control problem. Finally, we present results showing how the reinforcement learning control strategy differs from the classical controller in the non-linear scenarios.
翻訳日:2024-03-13 15:28:18 公開日:2024-03-10
# ChatbotsからPhishBotsへ? --ChatGPT、Google Bard、Claudeを使ったフィッシング詐欺防止

From Chatbots to PhishBots? -- Preventing Phishing scams created using ChatGPT, Google Bard and Claude ( http://arxiv.org/abs/2310.19181v2 )

ライセンス: Link先を確認
Sayak Saha Roy, Poojitha Thota, Krishna Vamsi Naragam, Shirin Nilizadeh(参考訳) 大規模言語モデル(llm)の高度な機能により、会話エージェントやコンテンツの作成からデータ分析、研究、イノベーションに至るまで、さまざまなアプリケーションで評価できるようになりました。 しかし、その有効性とアクセシビリティは、フィッシング攻撃を含む悪意のあるコンテンツの生成に対する悪用の影響を受けやすい。 本研究は,ChatGPT(GPT 3.5 Turbo),GPT4,Claude,Bardの4種類の市販LCMを用いて,一連の悪意あるプロンプトを用いて機能的フィッシング攻撃を発生させる可能性を探る。 これらのLCMはフィッシングサイトとメールの両方を生成でき、有名ブランドを納得して模倣できるだけでなく、フィッシング防止システムで使用される検出メカニズムを回避できる様々な回避策を展開できる。 これらの攻撃は、ジェイルブレイクのような以前の敵の攻撃を必要とせずに、修正されていないバージョンや「バニラ」バージョンを使って生成することができる。 我々は、これらの攻撃を発生させるLLMの性能を評価し、悪質なプロンプトを生成するためにも利用でき、フィッシング詐欺を発生させるためにモデルにフィードバックすることができることを発見し、攻撃者がこれらの脅威をスケールするのに必要となるプロンプトエンジニアリングの労力を大幅に削減する。 この対策として,悪意のあるプロンプトを早期に検出できるBERTベースの自動検出ツールを構築し,LCMがフィッシングコンテンツを生成するのを防ぐ。 我々のモデルは4つの商用LCM間で転送可能であり、フィッシングサイトプロンプトの平均精度は96%、フィッシングメールプロンプトの平均精度は94%である。 また、関係するLSMに脆弱性を開示し、Googleは深刻な問題だと認めています。 私たちの検出モデルは、chatgpt actionsプラグインと同様に、ハグフェイスで使用できます。

The advanced capabilities of Large Language Models (LLMs) have made them invaluable across various applications, from conversational agents and content creation to data analysis, research, and innovation. However, their effectiveness and accessibility also render them susceptible to abuse for generating malicious content, including phishing attacks. This study explores the potential of using four popular commercially available LLMs, i.e., ChatGPT (GPT 3.5 Turbo), GPT 4, Claude, and Bard, to generate functional phishing attacks using a series of malicious prompts. We discover that these LLMs can generate both phishing websites and emails that can convincingly imitate well-known brands and also deploy a range of evasive tactics that are used to elude detection mechanisms employed by anti-phishing systems. These attacks can be generated using unmodified or "vanilla" versions of these LLMs without requiring any prior adversarial exploits such as jailbreaking. We evaluate the performance of the LLMs towards generating these attacks and find that they can also be utilized to create malicious prompts that, in turn, can be fed back to the model to generate phishing scams - thus massively reducing the prompt-engineering effort required by attackers to scale these threats. As a countermeasure, we build a BERT-based automated detection tool that can be used for the early detection of malicious prompts to prevent LLMs from generating phishing content. Our model is transferable across all four commercial LLMs, attaining an average accuracy of 96% for phishing website prompts and 94% for phishing email prompts. We also disclose the vulnerabilities to the concerned LLMs, with Google acknowledging it as a severe issue. Our detection model is available for use at Hugging Face, as well as a ChatGPT Actions plugin.
翻訳日:2024-03-13 15:26:54 公開日:2024-03-10
# エンドツーエンド関係抽出のためのパイプライン、シーケンス・ツー・シーケンス、GPTモデルの比較:稀な疾患症例を用いた実験

Comparison of pipeline, sequence-to-sequence, and GPT models for end-to-end relation extraction: experiments with the rare disease use-case ( http://arxiv.org/abs/2311.13729v2 )

ライセンス: Link先を確認
Shashank Gupta, Xuguang Ai, Ramakanth Kavuluru(参考訳) エンドツーエンド関係抽出(E2ERE)は,生物医学における自然言語処理(NLP)の重要かつ現実的な応用である。 本稿では、不連続性およびネスト性エンティティを含む稀な疾患に着目した複雑なデータセットを用いて、E2EREの一般的なパラダイムを3つ比較することを目的とする。 我々はRareDis情報抽出データセットを用いて3つの競合するアプローチ(E2ERE)を評価する。NER $\rightarrow$REパイプライン、シーケンスモデルとの結合シーケンス、生成事前学習トランスフォーマー(GPT)モデル。 これらのアプローチに比較可能な最先端モデルとベストプラクティスを使用し,エラー解析を行い,障害モードを評価する。 GPTモデルは、8倍のパラメータを持つGPTモデルは、シーケンス・ツー・シーケンスモデルよりも悪く、パイプラインモデルに10F1ポイント以上負けている。 部分一致と不連続な実体は、全体的なE2E性能の低下に寄与する多くのNERエラーを引き起こした。 また、化学タンパク質相互作用のための2番目のe2ereデータセットでこれらの発見を検証する。 ジェネレーティブ LM 法はゼロショット設定に適しているが,トレーニングデータが利用可能である場合には,E2ERE 向けに訓練・調整された従来のモデルで作業する方がよいことを示す。 より革新的な方法は、より小型のエンコーダ・デコーダパイプラインモデルと大型のGPTモデルにより、E2EREを改善するために両方の世界の長所を結婚させる必要がある。 現在、よく設計されたパイプラインモデルは、低コストで大幅なパフォーマンス向上とE2EREのカーボンフットプリントを提供する。 raredisデータセットのe2ereを実行するのは、私たちのコントリビューションが初めてです。

End-to-end relation extraction (E2ERE) is an important and realistic application of natural language processing (NLP) in biomedicine. In this paper, we aim to compare three prevailing paradigms for E2ERE using a complex dataset focused on rare diseases involving discontinuous and nested entities. We use the RareDis information extraction dataset to evaluate three competing approaches (for E2ERE): NER $\rightarrow$ RE pipelines, joint sequence to sequence models, and generative pre-trained transformer (GPT) models. We use comparable state-of-the-art models and best practices for each of these approaches and conduct error analyses to assess their failure modes. Our findings reveal that pipeline models are still the best, while sequence-to-sequence models are not far behind; GPT models with eight times as many parameters are worse than even sequence-to-sequence models and lose to pipeline models by over 10 F1 points. Partial matches and discontinuous entities caused many NER errors contributing to lower overall E2E performances. We also verify these findings on a second E2ERE dataset for chemical-protein interactions. Although generative LM-based methods are more suitable for zero-shot settings, when training data is available, our results show that it is better to work with more conventional models trained and tailored for E2ERE. More innovative methods are needed to marry the best of the both worlds from smaller encoder-decoder pipeline models and the larger GPT models to improve E2ERE. As of now, we see that well designed pipeline models offer substantial performance gains at a lower cost and carbon footprint for E2ERE. Our contribution is also the first to conduct E2ERE for the RareDis dataset.
翻訳日:2024-03-13 15:22:28 公開日:2024-03-10
# CMFDFormer:連続学習によるトランスフォーマーベースコピーモーブ偽造検出

CMFDFormer: Transformer-based Copy-Move Forgery Detection with Continual Learning ( http://arxiv.org/abs/2311.13263v2 )

ライセンス: Link先を確認
Yaqi Liu and Chao Xia and Song Xiao and Qingxiao Guan and Wenqian Dong and Yifan Zhang and Nenghai Yu(参考訳) コピーモーブ偽造検出は、疑似偽造画像における重複領域の検出を目標とし、ディープラーニングによるコピーモーブ偽造検出方法が上昇中である。 これらのディープラーニングベースの手法は、合成トレーニングデータに大きく依存しており、新しいタスクに直面するとパフォーマンスが低下する。 本稿では, CMFDFormer という名前のトランスフォーマー型複写フォージェリ検出ネットワークを提案し, CMFDFormer が新しいタスクをこなすための新しい PCSD (Pooled Cube and Strip Distillation) 連続学習フレームワークを提案する。 CMFDFormerはMiT(Mix Transformer)バックボーンネットワークとPHD(Pluggable Hybrid Decoder)マスク予測ネットワークで構成される。 MiT バックボーンネットワークは Transformer スタイルのネットワークであり、CNN スタイルと MLP スタイルのバックボーンによる包括的な解析に基づいている。 PHDネットワークは自己相関計算,階層的特徴統合,マルチスケールサイクル完全連結ブロック,マスク再構成ブロックに基づいて構築される。 PHDネットワークは、階層的なマルチスケール情報抽出のために異なるスタイルの特徴抽出器に適用でき、同等の性能を達成できる。 最後に,forgery検出性を改善し,新たなタスク処理時の破滅的な忘れを回避すべく,pcsd連続学習フレームワークを提案する。 我々の連続学習フレームワークは,PHDネットワークの中間機能を制限し,キューブプールとストリッププールの両方を活用する。 公開データセットに関する大規模な実験は、CMFDFormerの性能とPCSD連続学習フレームワークの有効性を示す。

Copy-move forgery detection aims at detecting duplicated regions in a suspected forged image, and deep learning based copy-move forgery detection methods are in the ascendant. These deep learning based methods heavily rely on synthetic training data, and the performance will degrade when facing new tasks. In this paper, we propose a Transformer-style copy-move forgery detection network named as CMFDFormer, and provide a novel PCSD (Pooled Cube and Strip Distillation) continual learning framework to help CMFDFormer handle new tasks. CMFDFormer consists of a MiT (Mix Transformer) backbone network and a PHD (Pluggable Hybrid Decoder) mask prediction network. The MiT backbone network is a Transformer-style network which is adopted on the basis of comprehensive analyses with CNN-style and MLP-style backbones. The PHD network is constructed based on self-correlation computation, hierarchical feature integration, a multi-scale cycle fully-connected block and a mask reconstruction block. The PHD network is applicable to feature extractors of different styles for hierarchical multi-scale information extraction, achieving comparable performance. Last but not least, we propose a PCSD continual learning framework to improve the forgery detectability and avoid catastrophic forgetting when handling new tasks. Our continual learning framework restricts intermediate features from the PHD network, and takes advantage of both cube pooling and strip pooling. Extensive experiments on publicly available datasets demonstrate the good performance of CMFDFormer and the effectiveness of the PCSD continual learning framework.
翻訳日:2024-03-13 15:21:57 公開日:2024-03-10
# 電力流動解析のための量子ニューラルネットワーク

Quantum Neural Networks for Power Flow Analysis ( http://arxiv.org/abs/2311.06293v2 )

ライセンス: Link先を確認
Zeynab Kaseb, Matthias Moller, Giorgio Tosti Balducci, Peter Palensky, Pedro P. Vergara(参考訳) 本稿では,量子ニューラルネットワークとハイブリッド量子古典ニューラルネットワークのパワーフロー解析への応用について検討する。 4-busと33-busのテストシステムに基づく2つのデータセットを用いて実験を行った。 また, 量子, ハイブリッド量子古典, 古典ニューラルネットワークの系統的性能比較を行った。 比較はそれに基づいています (i)一般化能力、 (ii)堅牢性 (iii)必要なデータセットのサイズを訓練すること。 (iv)訓練ミス、及び (v)訓練プロセスの安定性。 その結果、このハイブリッド量子古典ニューラルネットワークは、量子ニューラルネットワークと古典ニューラルネットワークの両方より優れており、ノイズ中規模量子(NISQ)および耐故障量子(FTQ)時代の深層学習に基づく電力フロー解析を改善することができることがわかった。

This paper explores the potential application of quantum and hybrid quantum-classical neural networks in power flow analysis. Experiments are conducted using two datasets based on 4-bus and 33-bus test systems. A systematic performance comparison is also conducted among quantum, hybrid quantum-classical, and classical neural networks. The comparison is based on (i) generalization ability, (ii) robustness, (iii) training dataset size needed, (iv) training error, and (v) training process stability. The results show that the developed hybrid quantum-classical neural network outperforms both quantum and classical neural networks, and hence can improve deep learning-based power flow analysis in the noisy-intermediate-scale quantum (NISQ) and fault-tolerant quantum (FTQ) era.
翻訳日:2024-03-13 15:16:57 公開日:2024-03-10
# 短波長シード自由電子レーザーによる絡み合いの発生

Generation of entanglement using a short-wavelength seeded free-electron laser ( http://arxiv.org/abs/2312.04442v2 )

ライセンス: Link先を確認
Saikat Nandi, Axel Stenquist, Asimina Papoulia, Edvin Olofsson, Laura Badano, Mattias Bertolino, David Busto, Carlo Callegari, Stefanos Carlstr\"om, Miltcho B. Danailov, Philipp V. Demekhin, Michele Di Fraia, Per Eng-Johnsson, Raimund Feifel, Guillaume Gallician, Luca Giannessi, Mathieu Gisselbrecht, Michele Manfredda, Michael Meyer, Catalin Miron, Jasper Peschel, Oksana Plekan, Kevin C. Prince, Richard J. Squibb, Marco Zangrando, Felipe Zapata, Shiyang Zhong, Jan Marcus Dahlstr\"om(参考訳) 古典世界で起こる自由度の間の量子の絡み合いは、周囲の環境のために観察するのが困難である。 この問題を解明するために,2つの大粒子からなる二部量子系において超高速な時間スケールで発生する絡み合いについて検討した。 光電子スペクトルは古典的に測定されるが、エンタングルメントによってイオンとフェムト秒極紫外パルスの共役状態のダイナミクスに関する情報が明らかにされる。 観察された絡み合いの生成は時間依存のフォン・ノイマンエントロピーを用いて解釈される。 自由電子レーザーによる短波長コヒーレント光パルスを用いた光電子・イオン系の絡み合いによる遠距離観察の可能性を示した。

Quantum entanglement between the degrees of freedom encountered in the classical world is challenging to observe due to the surrounding environment. To elucidate this issue, we investigate the entanglement generated over ultrafast timescales in a bipartite quantum system comprising two massive particles: a free-moving photoelectron, which expands to a mesoscopic length-scale, and a light-dressed atomic ion, which represents a hybrid state of light and matter. Although the photoelectron spectra are measured classically, the entanglement allows us to reveal information about the dressed-state dynamics of the ion and the femtosecond extreme ultraviolet pulses delivered by a seeded free-electron laser. The observed generation of entanglement is interpreted using the time-dependent von Neumann entropy. Our results unveil the potential for using short-wavelength coherent light pulses from free-electron lasers to generate entangled photoelectron and ion systems for studying spooky action at a distance.
翻訳日:2024-03-13 15:13:16 公開日:2024-03-10
# brain-id:脳イメージングのためのコントラスト非依存的解剖表現の学習

Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging ( http://arxiv.org/abs/2311.16914v2 )

ライセンス: Link先を確認
Peirong Liu and Oula Puonti and Xiaoling Hu and Daniel C. Alexander and Juan E. Iglesias(参考訳) 近年の学習ベースのアプローチは、CT(Computerized tomography)のような校正医療画像において驚くべき進歩を遂げている。しかし彼らは、MRIのコントラスト、解像度、方向の差に非常に敏感な、特に磁気共鳴(MR)イメージング(英語版)の非校正モダリティの一般化に苦慮している。 これにより、様々な現実世界の臨床プロトコルに適用できる。 脳画像のための解剖学的表現学習モデルであるBrain-IDを導入する。 提案された"mild-to-severe"のサブジェクト生成により、脳-idは獲得した画像(コントラスト、変形、分解、アーティファクトなど)の出現に関わらず、被験者固有の脳解剖学に頑健である。 完全に合成データに基づいてトレーニングされたBrain-IDは,ひとつのレイヤのみを通じて,さまざまな下流タスクに容易に適応する。 本稿では,脳-id特徴のサブジェクト内およびサブジェクト間ロバスト性を検証するための新しい指標を示し,コントラスト非依存(解剖学的再構成/コントラスト合成,脳分割)とコントラスト依存(超解像,バイアス場推定)の4つの下流アプリケーションでの性能を評価する。 6つの公開データセットに対する大規模な実験により、Brain-IDはさまざまなMRIモダリティとCT上のすべてのタスクにおいて最先端のパフォーマンスを達成し、さらに重要なのは、低解像度で小さなデータセットのパフォーマンスを維持できることが示されている。 コードはhttps://github.com/peirong26/Brain-IDで入手できる。

Recent learning-based approaches have made astonishing advances in calibrated medical imaging like computerized tomography (CT), yet they struggle to generalize in uncalibrated modalities -- notably magnetic resonance (MR) imaging, where performance is highly sensitive to the differences in MR contrast, resolution, and orientation. This prevents broad applicability to diverse real-world clinical protocols. We introduce Brain-ID, an anatomical representation learning model for brain imaging. With the proposed "mild-to-severe" intra-subject generation, Brain-ID is robust to the subject-specific brain anatomy regardless of the appearance of acquired images (e.g., contrast, deformation, resolution, artifacts). Trained entirely on synthetic data, Brain-ID readily adapts to various downstream tasks through only one layer. We present new metrics to validate the intra- and inter-subject robustness of Brain-ID features, and evaluate their performance on four downstream applications, covering contrast-independent (anatomy reconstruction/contrast synthesis, brain segmentation), and contrast-dependent (super-resolution, bias field estimation) tasks. Extensive experiments on six public datasets demonstrate that Brain-ID achieves state-of-the-art performance in all tasks on different MRI modalities and CT, and more importantly, preserves its performance on low-resolution and small datasets. Code is available at https://github.com/peirong26/Brain-ID.
翻訳日:2024-03-13 15:10:22 公開日:2024-03-10
# ハミルトンシミュレーションを用いた開量子系シミュレーション

Simulating Open Quantum Systems Using Hamiltonian Simulations ( http://arxiv.org/abs/2311.15533v2 )

ライセンス: Link先を確認
Zhiyan Ding and Xiantao Li and Lin Lin(参考訳) 本稿では,リンドブラッド方程式をシミュレートする新しい手法を提案し,リンドブラッド力学,確率微分方程式,ハミルトニアンシミュレーションとの関係について考察する。 我々は、リンドブラッド力学を任意の高階まで近似できる拡大ヒルベルト空間におけるユニタリダイナミクスの列を導出する。 このユニタリ表現は、ハミルトニアンシミュレーションとアンシラ量子ビットの追跡のみを含む量子回路を用いてシミュレートすることができる。 測定結果に追加のポストセレクションを必要とせず、各段階で1つの成功確率を確保する。 本手法は時間依存設定へ直接一般化することができる。 時間に依存しないリンドブラジアンダイナミクスと時間に依存しないリンドブラジアンダイナミクスの両方を3階までの精度でシミュレートする数値例を提供する。

We present a novel method to simulate the Lindblad equation, drawing on the relationship between Lindblad dynamics, stochastic differential equations, and Hamiltonian simulations. We derive a sequence of unitary dynamics in an enlarged Hilbert space that can approximate the Lindblad dynamics up to an arbitrarily high order. This unitary representation can then be simulated using a quantum circuit that involves only Hamiltonian simulation and tracing out the ancilla qubits. There is no need for additional post-selection in measurement outcomes, ensuring a success probability of one at each stage. Our method can be directly generalized to the time-dependent setting. We provide numerical examples that simulate both time-independent and time-dependent Lindbladian dynamics with accuracy up to the third order.
翻訳日:2024-03-13 15:07:59 公開日:2024-03-10
# FRAC-Q-Learning:社会ロボットのためのボレドム回避プロセスによる強化学習

FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots ( http://arxiv.org/abs/2311.15327v3 )

ライセンス: Link先を確認
Akinari Onishi(参考訳) 強化学習アルゴリズムはしばしば社会ロボットに適用されている。 しかし、ほとんどの強化学習アルゴリズムはソーシャルロボットの使用に最適化されておらず、従ってユーザを惹きつける可能性がある。 本研究では,ソーシャルロボットであるfrac-q-learningに特化した新しい強化学習手法を提案する。 提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 本研究では,従来のq-learningとの比較により,frac-q-learningへの関心と退屈度を評価した。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。 したがって、frac-q-learningはユーザーを退屈させないソーシャルロボットの開発に寄与することができる。 提案アルゴリズムは、Webベースのコミュニケーションや教育システムにも応用できる。 本稿では,frac-q-learningのプロセス全体,詳細な実装,詳細な評価方法について述べる。

The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not optimized for the use of social robots, and consequently they may bore users. We proposed a new reinforcement learning method specialized for the social robot, the FRAC-Q-learning, that can avoid user boredom. The proposed algorithm consists of a forgetting process in addition to randomizing and categorizing processes. This study evaluated interest and boredom hardness scores of the FRAC-Q-learning by a comparison with the traditional Q-learning. The FRAC-Q-learning showed significantly higher trend of interest score, and indicated significantly harder to bore users compared to the traditional Q-learning. Therefore, the FRAC-Q-learning can contribute to develop a social robot that will not bore users. The proposed algorithm can also find applications in Web-based communication and educational systems. This paper presents the entire process, detailed implementation and a detailed evaluation method of the of the FRAC-Q-learning for the first time.
翻訳日:2024-03-13 15:07:41 公開日:2024-03-10
# スコアを超えたDepicting:マルチモーダル言語モデルによる画像品質評価の改善

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models ( http://arxiv.org/abs/2312.08962v2 )

ライセンス: Link先を確認
Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao Dong(参考訳) 本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。 DepictQAは、MLLM(Multi-modal Large Language Models)を活用して、詳細な言語ベースの人間のような画像品質の評価を可能にする。 従来の画像品質評価法(IQA)とは異なり、DepictQAは画像の内容と歪みを記述的かつ相対的に解釈し、人間の推論プロセスと密接に一致させる。 DepictQAモデルを構築するために,階層型タスクフレームワークを構築し,マルチモーダルIQAトレーニングデータセットを収集する。 限られたトレーニングデータとマルチイメージ処理の課題に取り組むために,マルチソーストレーニングデータと専用イメージタグの利用を提案する。 これらの設計により、複数のベンチマークにおけるスコアベースのアプローチよりもDepictQAの性能が向上する。 さらに、一般的なMLLMと比較して、DepictQAはより正確な推論言語を生成することができる。 本研究は,非参照アプリケーションにおける全参照データセットの有用性を実証し,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。

We introduce a Depicted image Quality Assessment method (DepictQA), overcoming the constraints of traditional score-based methods. DepictQA allows for detailed, language-based, human-like evaluation of image quality by leveraging Multi-modal Large Language Models (MLLMs). Unlike conventional Image Quality Assessment (IQA) methods relying on scores, DepictQA interprets image content and distortions descriptively and comparatively, aligning closely with humans' reasoning process. To build the DepictQA model, we establish a hierarchical task framework, and collect a multi-modal IQA training dataset. To tackle the challenges of limited training data and multi-image processing, we propose to use multi-source training data and specialized image tags. These designs result in a better performance of DepictQA than score-based approaches on multiple benchmarks. Moreover, compared with general MLLMs, DepictQA can generate more accurate reasoning descriptive languages. Our work demonstrates the utility of our full-reference dataset in non-reference applications, and indicates that language-based IQA methods have the potential to be customized for individual preferences.
翻訳日:2024-03-13 15:02:04 公開日:2024-03-10
# デノイングにおけるロッキーチケット仮説:セマンティックな初期化に向けて

The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization ( http://arxiv.org/abs/2312.08872v2 )

ライセンス: Link先を確認
Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa(参考訳) テキストから画像への拡散モデルにより、ユーザーは生成された画像の内容を制御できる。 それでも、テキストから画像への生成は、ユーザーが満足のいく結果を得る前に、同じテキストプロンプトの下で数十もの画像を生成する必要がある場合があります。 ランダムに初期化されたガウスノイズ画像は、自然に特定のコンテンツに個別に区切られる傾向がある特別なピクセルブロック(勝利のチケット)を含む。 標準テキスト・画像合成における生成障害は、初期雑音画像における当選チケットの最適空間分布と実際の空間分布のギャップによって生じる。 この目的のために,プロンプトで言及される各概念について,既知の入賞チケットから初期ノイズを生成するセマンティック駆動の初期画像構築を実装した。 入賞券の特性を検証し,画像とプロンプト間の一般化性を示す一連の実験を行った。 この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。

Text-to-image diffusion models allow users control over the content of generated images. Still, text-to-image generation occasionally leads to generation failure requiring users to generate dozens of images under the same text prompt before they obtain a satisfying result. We formulate the lottery ticket hypothesis in denoising: randomly initialized Gaussian noise images contain special pixel blocks (winning tickets) that naturally tend to be denoised into specific content independently. The generation failure in standard text-to-image synthesis is caused by the gap between optimal and actual spatial distribution of winning tickets in initial noisy images. To this end, we implement semantic-driven initial image construction creating initial noise from known winning tickets for each concept mentioned in the prompt. We conduct a series of experiments that verify the properties of winning tickets and demonstrate their generalizability across images and prompts. Our results show that aggregating winning tickets into the initial noise image effectively induce the model to generate the specified object at the corresponding location.
翻訳日:2024-03-13 15:01:29 公開日:2024-03-10
# キャビティマグノニクスにおける結合相を通したエンジニアリング合成ゲージ場

Engineering synthetic gauge fields through the coupling phases in cavity magnonics ( http://arxiv.org/abs/2312.04915v3 )

ライセンス: Link先を確認
Alan Gardin and Guillaume Bourcin and Jeremy Bourhill and Vincent Vlaminck and Christian Person and Christophe Fumeaux and Giuseppe C. Tettamanzi and Vincent Castel(参考訳) キャビティ・マグノニクスは、光とキャビティ内の磁気システムとの相互作用を研究するもので、量子トランスデューサ、量子メモリ、非相互挙動を持つデバイスにとって有望なプラットフォームである。 マイクロ波周波数では、キャビティ光子とマグノンのカップリング(スピン波励起の準粒子)は、キャビティの磁場と磁石のマクロスピンとの間のゼーマン相互作用の結果である。 それぞれの光子/マグノン相互作用には結合相因子が存在するが、単純な系では無視されることが多い。 しかし、モードとして少なくとも多くのカップリングが存在する「ループ結合系」では、結合相は物理学に関係し、合成ゲージ場につながる。 イットリウム-鉄-ガーネットからなる2つの球体と2つの異なる再入射キャビティを考慮し、このようなカップリング相の存在を実験的に証明する。 我々は結合相の値を数値的に予測し、理論と実験データの間に良い一致を見出す。 これらの結果は、空洞磁気学において、空洞を介するカップリング、暗モード記憶、非相互デバイス構築に有用な合成ゲージ場を設計できることを示している。

Cavity magnonics, which studies the interaction of light with magnetic systems in a cavity, is a promising platform for quantum transducers, quantum memories, and devices with non-reciprocal behaviour. At microwave frequencies, the coupling between a cavity photon and a magnon, the quasi-particle of a spin wave excitation, is a consequence of the Zeeman interaction between the cavity's magnetic field and the magnet's macroscopic spin. For each photon/magnon interaction, a coupling phase factor exists, but is often neglected in simple systems. However, in "loop-coupled" systems, where there are at least as many couplings as modes, the coupling phases become relevant for the physics and lead to synthetic gauge fields. We present experimental evidence of the existence of such coupling phases by considering two spheres made of Yttrium-Iron-Garnet and two different re-entrant cavities. We predict numerically the values of the coupling phases, and we find good agreement between theory and the experimental data. Theses results show that in cavity magnonics, one can engineer synthetic gauge fields, which can be useful for cavity-mediated coupling, dark mode memories, and building nonreciprocal devices.
翻訳日:2024-03-13 14:58:00 公開日:2024-03-10
# SecureReg: 悪意のあるドメイン名登録を積極的に公開するための統合フレームワーク

SecureReg: A Combined Framework for Proactively Exposing Malicious Domain Name Registrations ( http://arxiv.org/abs/2401.03196v2 )

ライセンス: Link先を確認
Furkan \c{C}olhak, Mert \.Ilhan Ecevit, Hasan Da\u{g}, Reiner Creutzburg(参考訳) サイバー脅威の高まり、スパムやフィッシング、ドライブバイダウンロードといったインターネット規模の攻撃に対して、毎日何千もの新しいドメインを登録している誤解は、革新的な検出方法の必要性を強調している。 本稿では,登録プロセス開始時に疑わしいドメインを特定するための最先端アプローチを提案する。 付随するデータパイプラインは、新しいドメインを登録ドメインと比較することで重要な特徴を生成し、重要な類似度スコアを強調する。 訓練済みのイヌモデルや多層パーセプトロン(MLP)モデルなど,NLP(Natural Language Processing)技術の新たな組み合わせを活用して,本システムはセマンティック属性と数値属性を解析し,早期脅威検出のための堅牢なソリューションを提供する。 この統合アプローチは脆弱性の窓を著しく減らし、潜在的な脅威に対する防御を強化する。 本研究は, 統合的アプローチの有効性を実証し, 不審なドメイン登録の早期発見を通じて, 不正なオンライン活動に関連するリスクを軽減すべく, 積極的な戦略開発への継続的な取り組みに寄与する。

Rising cyber threats, with miscreants registering thousands of new domains daily for Internet-scale attacks like spam, phishing, and drive-by downloads, emphasize the need for innovative detection methods. This paper introduces a cutting-edge approach for identifying suspicious domains at the onset of the registration process. The accompanying data pipeline generates crucial features by comparing new domains to registered domains,emphasizing the crucial similarity score. Leveraging a novel combination of Natural Language Processing (NLP) techniques, including a pretrained Canine model, and Multilayer Perceptron (MLP) models, our system analyzes semantic and numerical attributes, providing a robust solution for early threat detection. This integrated approach significantly reduces the window of vulnerability, fortifying defenses against potential threats. The findings demonstrate the effectiveness of the integrated approach and contribute to the ongoing efforts in developing proactive strategies to mitigate the risks associated with illicit online activities through the early identification of suspicious domain registrations.
翻訳日:2024-03-13 14:53:05 公開日:2024-03-10
# 強化学習による熱アラート発行の最適化

Optimizing Heat Alert Issuance with Reinforcement Learning ( http://arxiv.org/abs/2312.14196v2 )

ライセンス: Link先を確認
Ellen M. Considine, Rachel C. Nethery, Gregory A. Wellenius, Francesca Dominici, Mauricio Tec(参考訳) 気候変動に対する社会適応の鍵となる戦略は、予防行動の促進によって極端な熱事象の健康への影響を減少させる警告システムを使用することである。 本研究では,これらのシステムの有効性を最適化するためのツールとして,強化学習(RL)について検討する。 私たちの貢献は3倍です。 まず,新しいRL環境を導入し,ヒートアラーム対策の有効性を評価し,熱関連入院を減らした。 報酬モデルは、歴史的気象、医療医療医療記録、社会経済的・地理的特徴の包括的なデータセットから訓練される。 低信号効果と空間的不均一性に対処するために,変分ベイズ法を用いる。 移行モデルは、気候領域の類似性に基づいたデータ拡張メカニズムによって強化された実際の歴史的気象パターンを組み込む。 第2に、この環境を用いて、ヒートアラート発行の文脈における標準RLアルゴリズムを評価する。 分析の結果,初期のRLの性能改善には政策制約が必要であることがわかった。 最後に、ポストホックのコントラスト分析は、我々の修正されたヒートアラート-RLポリシーが、米国の現在の国家気象サービスアラートポリシーに対して大きな利益/損失をもたらすシナリオに関する洞察を提供する。

A key strategy in societal adaptation to climate change is the use of alert systems to reduce the adverse health impacts of extreme heat events by prompting preventative action. In this work, we investigate reinforcement learning (RL) as a tool to optimize the effectiveness of such systems. Our contributions are threefold. First, we introduce a novel RL environment enabling the evaluation of the effectiveness of heat alert policies to reduce heat-related hospitalizations. The rewards model is trained from a comprehensive dataset of historical weather, Medicare health records, and socioeconomic/geographic features. We use variational Bayesian techniques to address low-signal effects and spatial heterogeneity, which are commonly encountered in climate & health settings. The transition model incorporates real historical weather patterns enriched by a data augmentation mechanism based on climate region similarity. Second, we use this environment to evaluate standard RL algorithms in the context of heat alert issuance. Our analysis shows that policy constraints are needed to improve the initially poor performance of RL. Lastly, a post hoc contrastive analysis provides insight into scenarios where our modified heat alert-RL policies yield significant gains/losses over the current National Weather Service alert policy in the United States.
翻訳日:2024-03-13 14:50:16 公開日:2024-03-10
# 3次元物体検出における大きな受容場戦略と重要な特徴抽出戦略

Large receptive field strategy and important feature extraction strategy in 3D object detection ( http://arxiv.org/abs/2401.11913v2 )

ライセンス: Link先を確認
Leichao Cui, Xiuxian Li, Min Meng and Guangyu Jia(参考訳) 3dオブジェクト検出の強化は、自動運転における正確な環境認識とタスク実行能力の改善にとって重要である。 正確な深度情報を提供するLiDARポイントクラウドは、この目的のために重要な情報となる。 本研究は,3次元ターゲット検出における重要な課題に焦点をあてた。 本研究では,3次元畳み込みカーネルの受容領域の拡大に取り組み,動的特徴融合モジュール(DFFM)を導入する。 このモジュールは、3D畳み込みカーネルの受容場を適応的に拡張し、拡張と許容される計算負荷のバランスをとる。 この革新は操作を減らし、受容場を拡張し、モデルが異なるオブジェクト要求に動的に適応できるようにする。 同時に、冗長な情報を3d機能で識別する。 特徴選択モジュール(fsm)を用いることで、重要でない特徴を定量的に評価、除去し、出力ボックスの嵌合と特徴抽出を分離する。 この革新により、検出器は重要な特徴に焦点を合わせ、モデル圧縮、計算負荷の低減、候補フレームの干渉を最小限に抑えることができる。 DFFMとFSMはいずれも、特に小さなターゲット検出において、現在のベンチマークを向上するだけでなく、ネットワーク性能も向上する。 重要なことに、これらのモジュールは効果的な相補性を示す。

The enhancement of 3D object detection is pivotal for precise environmental perception and improved task execution capabilities in autonomous driving. LiDAR point clouds, offering accurate depth information, serve as a crucial information for this purpose. Our study focuses on key challenges in 3D target detection. To tackle the challenge of expanding the receptive field of a 3D convolutional kernel, we introduce the Dynamic Feature Fusion Module (DFFM). This module achieves adaptive expansion of the 3D convolutional kernel's receptive field, balancing the expansion with acceptable computational loads. This innovation reduces operations, expands the receptive field, and allows the model to dynamically adjust to different object requirements. Simultaneously, we identify redundant information in 3D features. Employing the Feature Selection Module (FSM) quantitatively evaluates and eliminates non-important features, achieving the separation of output box fitting and feature extraction. This innovation enables the detector to focus on critical features, resulting in model compression, reduced computational burden, and minimized candidate frame interference. Extensive experiments confirm that both DFFM and FSM not only enhance current benchmarks, particularly in small target detection, but also accelerate network performance. Importantly, these modules exhibit effective complementarity.
翻訳日:2024-03-13 14:43:24 公開日:2024-03-10
# 深部空間文脈:注意に基づくモデルが空間回帰に適合する場合

Deep spatial context: when attention-based models meet spatial regression ( http://arxiv.org/abs/2401.10044v2 )

ライセンス: Link先を確認
Paulina Tomaszewska, El\.zbieta Sienkiewicz, Mai P. Hoang, Przemys{\l}aw Biecek(参考訳) 本研究では,空間コンテキストの概念を用いた注目型視覚モデルの研究を支援する「深部空間コンテキスト(DSCon)」手法を提案する。 病理学者にヒントを得たものであるが、様々な領域に応用できる。 dsconは、3つの空間的文脈尺度を用いて空間的文脈の役割を定量的に測定することができる: $scm_{features}$, $scm_{targets}$, $scm_{residuals}$ 空間的文脈が隣接する領域の特徴内で観測可能か、その目標値(アテンションスコア)か残差かを識別する。 パイプラインに空間回帰を統合することで実現される。 DSConは研究課題の検証を支援する。 実験の結果,正常組織よりも腫瘍病変の分類において空間的関係がはるかに大きいことが明らかとなった。 さらに,空間的回帰の中で考慮される近傍の大きさが大きいほど,価値の低い文脈情報が得られることが判明した。 さらに, 空間的文脈測度は, 対象や残差に対して, 特徴空間内で考える場合, 最大であることがわかった。

We propose 'Deep spatial context' (DSCon) method, which serves for investigation of the attention-based vision models using the concept of spatial context. It was inspired by histopathologists, however, the method can be applied to various domains. The DSCon allows for a quantitative measure of the spatial context's role using three Spatial Context Measures: $SCM_{features}$, $SCM_{targets}$, $SCM_{residuals}$ to distinguish whether the spatial context is observable within the features of neighboring regions, their target values (attention scores) or residuals, respectively. It is achieved by integrating spatial regression into the pipeline. The DSCon helps to verify research questions. The experiments reveal that spatial relationships are much bigger in the case of the classification of tumor lesions than normal tissues. Moreover, it turns out that the larger the size of the neighborhood taken into account within spatial regression, the less valuable contextual information is. Furthermore, it is observed that the spatial context measure is the largest when considered within the feature space as opposed to the targets and residuals.
翻訳日:2024-03-13 14:42:15 公開日:2024-03-10
# HTMLコンテンツのマルチモデル解析によるフィッシングサイトの検出

Phishing Website Detection through Multi-Model Analysis of HTML Content ( http://arxiv.org/abs/2401.04820v2 )

ライセンス: Link先を確認
Furkan \c{C}olhak, Mert \.Ilhan Ecevit, Bilal Emir U\c{c}ar, Reiner Creutzburg, Hasan Da\u{g}(参考訳) インターネットの普及に伴い、コミュニケーションや仕事の仕方は大きく変化した。 新たな機会が開かれた一方で、サイバー脅威の増加ももたらした。 この研究は、HTMLコンテンツに細心の注意を払ってフォーカスする高度な検出モデルを導入することで、フィッシングの急激な問題に対処する。 提案手法は,構造化表データのための特殊多層パーセプトロン(MLP)モデルと,ページタイトルやコンテンツなどのテキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。 これらのモデルからの埋め込みは、新しい融合プロセスによって調和的に結合される。 結果として生じる融合埋め込みは線形分類器に入力される。 包括的なフィッシング研究のための最近のデータセットの不足を認識して、コミュニティとオープンに共有する最新のデータセットの作成に貢献します。 データセットは、実生活のフィッシング条件を反映し、妥当性と適用性を保証するために慎重にキュレートされている。 CANINEはページタイトルの分析に優れた性能を示し,RoBERTaはページコンテンツの評価に優れていた。 2つのNLPと1つのMLPモデルの融合により、96.80 F1スコアと97.18精度スコアが得られた。 さらに,提案手法はCatchPhish HTMLデータセットの既存手法よりも優れており,有効性を示している。

The way we communicate and work has changed significantly with the rise of the Internet. While it has opened up new opportunities, it has also brought about an increase in cyber threats. One common and serious threat is phishing, where cybercriminals employ deceptive methods to steal sensitive information.This study addresses the pressing issue of phishing by introducing an advanced detection model that meticulously focuses on HTML content. Our proposed approach integrates a specialized Multi-Layer Perceptron (MLP) model for structured tabular data and two pretrained Natural Language Processing (NLP) models for analyzing textual features such as page titles and content. The embeddings from these models are harmoniously combined through a novel fusion process. The resulting fused embeddings are then input into a linear classifier. Recognizing the scarcity of recent datasets for comprehensive phishing research, our contribution extends to the creation of an up-to-date dataset, which we openly share with the community. The dataset is meticulously curated to reflect real-life phishing conditions, ensuring relevance and applicability. The research findings highlight the effectiveness of the proposed approach, with the CANINE demonstrating superior performance in analyzing page titles and the RoBERTa excelling in evaluating page content. The fusion of two NLP and one MLP model,termed MultiText-LP, achieves impressive results, yielding a 96.80 F1 score and a 97.18 accuracy score on our research dataset. Furthermore, our approach outperforms existing methods on the CatchPhish HTML dataset, showcasing its efficacies.
翻訳日:2024-03-13 14:38:33 公開日:2024-03-10
# 大規模言語モデルのための矢印時間

Arrows of Time for Large Language Models ( http://arxiv.org/abs/2401.17505v2 )

ライセンス: Link先を確認
Vassilis Papadopoulos, J\'er\'emie Wenger, Cl\'ement Hongler(参考訳) 自己回帰型大言語モデルによる確率論的モデリングを時間方向の角度から検討する。 このようなモデルが自然言語をモデル化する能力で示す時間非対称性は、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との違いである。 この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。 理論的には、これは驚くべきことだ:情報理論的な見地からすると、そのような違いはないはずである。 このような非対称性がスパルシリティや計算複雑性からどのように現れるのかを説明するための理論的枠組みを提供し、その結果によって開かれた多くの視点を概説する。

We study the probabilistic modeling performed by Autoregressive Large Language Models through the angle of time directionality. We empirically find a time asymmetry exhibited by such models in their ability to model natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, ...). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.
翻訳日:2024-03-13 14:32:13 公開日:2024-03-10
# 浄化教育(AToP:Adversarial Training on Purification) : ロバストネスと一般化の両立

Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization ( http://arxiv.org/abs/2401.16352v2 )

ライセンス: Link先を確認
Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao(参考訳) ディープニューラルネットワークは、よく設計された敵攻撃に弱いことが知られている。 対戦訓練(AT)に基づく最も成功した防御技術は、特定の攻撃に対して最適な堅牢性を達成することができるが、目に見えない攻撃に対してうまく一般化できない。 対向浄化(AP)に基づく他の効果的な防御技術は、一般化を高めることができるが、最適な堅牢性は達成できない。 一方、両手法は劣化した標準精度の1つの共通制限を共有している。 これらの問題を緩和するために、ランダムトランスフォーメーション(RT)による摂動破壊と、逆向き損失によるパーファイラモデル微調整(FT)の2成分からなる、Adversarial Training on Purification(AToP)と呼ばれる新しいパイプラインを提案する。 RTは、既知の攻撃に対する過度な学習を避けるために不可欠であり、その結果、目に見えない攻撃に対するロバストネスの一般化をもたらし、FTはロバストネスの改善に不可欠である。 そこで我々はCIFAR-10, CIFAR-100, ImageNetteに対して, 提案手法が最先端の結果を達成し, 目に見えない攻撃に対する一般化能力を示すことを実証するために, 広範囲にわたる実験を行った。

The deep neural networks are known to be vulnerable to well-designed adversarial attacks. The most successful defense technique based on adversarial training (AT) can achieve optimal robustness against particular attacks but cannot generalize well to unseen attacks. Another effective defense technique based on adversarial purification (AP) can enhance generalization but cannot achieve optimal robustness. Meanwhile, both methods share one common limitation on the degraded standard accuracy. To mitigate these issues, we propose a novel pipeline called Adversarial Training on Purification (AToP), which comprises two components: perturbation destruction by random transforms (RT) and purifier model fine-tuned (FT) by adversarial loss. RT is essential to avoid overlearning to known attacks resulting in the robustness generalization to unseen attacks and FT is essential for the improvement of robustness. To evaluate our method in an efficient and scalable way, we conduct extensive experiments on CIFAR-10, CIFAR-100, and ImageNette to demonstrate that our method achieves state-of-the-art results and exhibits generalization ability against unseen attacks.
翻訳日:2024-03-13 14:31:16 公開日:2024-03-10
# 誰を失くした? 人口不足を特徴付けるための原則的アプローチ

Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population ( http://arxiv.org/abs/2401.14512v3 )

ライセンス: Link先を確認
Harsh Parikh, Rachael Ross, Elizabeth Stuart, Kara Rudolph(参考訳) ランダム化制御試験(RCTs)は因果関係の理解の基盤となるが、対象人口への推論は不均一性や表現不足による課題を呈する。 本稿は,rctsにおける表現不足部分群を同定し特徴付けるという重要な問題に対処し,一般化可能性を改善するためにターゲット集団を洗練するための新しい枠組みを提案する。 我々は,低表現群を特徴付ける最適化ベースアプローチとして,最適木(ルート)のラショモン集合を提案する。 rootは、ターゲット平均処理効果推定の分散を最小化し、より正確な処理効果推定を保証し、ターゲットサブポピュレーション分布を最適化する。 特に、ROOTは人口不足の解釈可能な特性を生成し、研究者の効果的なコミュニケーションを支援する。 提案手法は, 合成データ実験で示すように, 精度と解釈性の向上を示す。 我々は,アゴニスト置換療法による開始療法(START)の臨床試験から,オピオイド使用障害の治療薬の有効性を調査する手法を,治療エピソードデータセット(TEDS-A)で表される現実世界の人口へ拡張する手法を適用した。 ROOTを用いて対象集団を精錬することにより,意思決定精度を高め,多様な集団における今後の試行を通知するための体系的なアプローチを提供する。

Randomized controlled trials (RCTs) serve as the cornerstone for understanding causal effects, yet extending inferences to target populations presents challenges due to effect heterogeneity and underrepresentation. Our paper addresses the critical issue of identifying and characterizing underrepresented subgroups in RCTs, proposing a novel framework for refining target populations to improve generalizability. We introduce an optimization-based approach, Rashomon Set of Optimal Trees (ROOT), to characterize underrepresented groups. ROOT optimizes the target subpopulation distribution by minimizing the variance of the target average treatment effect estimate, ensuring more precise treatment effect estimations. Notably, ROOT generates interpretable characteristics of the underrepresented population, aiding researchers in effective communication. Our approach demonstrates improved precision and interpretability compared to alternatives, as illustrated with synthetic data experiments. We apply our methodology to extend inferences from the Starting Treatment with Agonist Replacement Therapies (START) trial -- investigating the effectiveness of medication for opioid use disorder -- to the real-world population represented by the Treatment Episode Dataset: Admissions (TEDS-A). By refining target populations using ROOT, our framework offers a systematic approach to enhance decision-making accuracy and inform future trials in diverse populations.
翻訳日:2024-03-13 14:30:55 公開日:2024-03-10
# 大規模言語モデルによるきめ細かい視覚認識の民主化

Democratizing Fine-grained Visual Recognition with Large Language Models ( http://arxiv.org/abs/2401.13837v2 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Wenjing Li, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) 画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。 平均的な人間は、種によって微妙な違いがあるため、鳥類やキノコの種分化に精通していないため、現実世界の応用において極めて重要である。 FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性にある。 専門知識の必要性を回避するために,大言語モデル (LLM) の世界の知識をプロキシとして内部的に活用し,細粒度なカテゴリ名を推論する,細粒度セマンティックカテゴリー推論(FineR)を提案する。 詳細は,画像とLLMのモダリティギャップを埋めるために,画像から部分レベルの視覚的属性をテキストとして抽出し,その情報をLLMに供給する。 視覚属性とその内的世界知識に基づいて、llmの理由は下位レベルのカテゴリ名に関するものである。 トレーニングフリーのFinRは、最先端のFGVRおよび言語およびビジョンアシスタントモデルより優れており、専門家のアノテーションを集めることが困難な分野や新しい領域で働くことを約束している。

Identifying subordinate-level categories from images is a longstanding task in computer vision and is referred to as fine-grained visual recognition (FGVR). It has tremendous significance in real-world applications since an average layperson does not excel at differentiating species of birds or mushrooms due to subtle differences among the species. A major bottleneck in developing FGVR systems is caused by the need of high-quality paired expert annotations. To circumvent the need of expert knowledge we propose Fine-grained Semantic Category Reasoning (FineR) that internally leverages the world knowledge of large language models (LLMs) as a proxy in order to reason about fine-grained category names. In detail, to bridge the modality gap between images and LLM, we extract part-level visual attributes from images as text and feed that information to a LLM. Based on the visual attributes and its internal world knowledge the LLM reasons about the subordinate-level category names. Our training-free FineR outperforms several state-of-the-art FGVR and language and vision assistant models and shows promise in working in the wild and in new domains where gathering expert annotation is arduous.
翻訳日:2024-03-13 14:29:41 公開日:2024-03-10
# マルチパッチ予測:時系列表現学習のためのLLM適応

Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning ( http://arxiv.org/abs/2402.04852v2 )

ライセンス: Link先を確認
Yuxuan Bian, Xuan Ju, Jiangtong Li, Zhijian Xu, Dawei Cheng, Qiang Xu(参考訳) 本研究では,Large Language Models (LLMs) を時系列表現学習に適用する革新的なフレームワークである aLLM4TS を提案する。 私たちのアプローチの中心は、時系列予測を、従来のコントラスト学習やマスク・アンド・リコンストラクション法と比較して、パッチ表現の時間的ダイナミクスをより効果的に捉える自己教師付きマルチパッチ予測タスクとして捉えていることです。 私たちの戦略は2段階の訓練を含む。 (i)。 各種時系列データセットの因果継続事前トレーニングフェーズで、次のパッチ予測に固定され、LLM機能を時系列データの複雑さと効果的に同期する。 (ii) ターゲットとする時系列コンテキストにおけるマルチパッチ予測のための微調整。 当社のフレームワークの特徴的な要素はパッチワイドデコーディング層であり、シーケンスレベルのデコーディングに依存する従来のメソッドとは分離している。 このような設計は個々のパッチを直接時間的シーケンスに変換し、時間的パッチベースの表現を習得する際のモデルの習熟度を大幅に向上させる。 aLLM4TSは、複数の下流タスクにおいて優れた性能を示し、転送可能性の向上による時間的表現の導出の有効性を示し、時系列解析のためのLLMの適応における重要な進歩を示す。

In this study, we present aLLM4TS, an innovative framework that adapts Large Language Models (LLMs) for time-series representation learning. Central to our approach is that we reconceive time-series forecasting as a self-supervised, multi-patch prediction task, which, compared to traditional contrastive learning or mask-and-reconstruction methods, captures temporal dynamics in patch representations more effectively. Our strategy encompasses two-stage training: (i). a causal continual pre-training phase on various time-series datasets, anchored on next patch prediction, effectively syncing LLM capabilities with the intricacies of time-series data; (ii). fine-tuning for multi-patch prediction in the targeted time-series context. A distinctive element of our framework is the patch-wise decoding layer, which departs from previous methods reliant on sequence-level decoding. Such a design directly transposes individual patches into temporal sequences, thereby significantly bolstering the model's proficiency in mastering temporal patch-based representations. aLLM4TS demonstrates superior performance in several downstream tasks, proving its effectiveness in deriving temporal representations with enhanced transferability and marking a pivotal advancement in the adaptation of LLMs for time-series analysis.
翻訳日:2024-03-13 14:22:12 公開日:2024-03-10
# 大規模言語モデルエージェントは人間の信頼行動をシミュレートできるか?

Can Large Language Model Agents Simulate Human Trust Behaviors? ( http://arxiv.org/abs/2402.04559v2 )

ライセンス: Link先を確認
Chengxing Xie, Canyu Chen, Feiran Jia, Ziyu Ye, Kai Shu, Adel Bibi, Ziniu Hu, Philip Torr, Bernard Ghanem, Guohao Li(参考訳) 大規模言語モデル(llm)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとしてますます採用されている。 LLMエージェントは本当に人間の行動をシミュレートできるか? 本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。 まず, LLMエージェントは一般に, 行動経済学において広く認知されている信頼ゲーム(Trust Games)の枠組みの下で, エージェント信頼と呼ばれる信頼行動を示す。 そして, LLM エージェントは, 信頼行動, 特に GPT-4 に対して人間と高い行動整合性を持ち, LLM エージェントによる信頼行動のシミュレートの可能性を示す。 さらに,エージェント信頼のバイアスとエージェントと人間に対するエージェント信頼の差について検討した。 また,エージェント信頼の本質的性質を,高度な推論戦略や外部操作を含む条件下で検討する。 さらに、信頼が最優先されるさまざまなシナリオにおいて、発見の重要な意味を与えます。 本研究は, LLMエージェントの挙動とLLMとヒトの基本的な類似性に関する新たな知見を提供する。

Large Language Model (LLM) agents have been increasingly adopted as simulation tools to model humans in applications such as social science. However, one fundamental question remains: can LLM agents really simulate human behaviors? In this paper, we focus on one of the most critical behaviors in human interactions, trust, and aim to investigate whether or not LLM agents can simulate human trust behaviors. We first find that LLM agents generally exhibit trust behaviors, referred to as agent trust, under the framework of Trust Games, which are widely recognized in behavioral economics. Then, we discover that LLM agents can have high behavioral alignment with humans regarding trust behaviors, particularly for GPT-4, indicating the feasibility to simulate human trust behaviors with LLM agents. In addition, we probe into the biases in agent trust and the differences in agent trust towards agents and humans. We also explore the intrinsic properties of agent trust under conditions including advanced reasoning strategies and external manipulations. We further offer important implications of our discoveries for various scenarios where trust is paramount. Our study provides new insights into the behaviors of LLM agents and the fundamental analogy between LLMs and humans.
翻訳日:2024-03-13 14:21:15 公開日:2024-03-10
# nnmamba: 状態空間モデルを用いた3次元生体医用画像分割,分類,ランドマーク検出

nnMamba: 3D Biomedical Image Segmentation, Classification and Landmark Detection with State Space Model ( http://arxiv.org/abs/2402.03526v2 )

ライセンス: Link先を確認
Haifan Gong, Luoyao Kang, Yitao Wang, Xiang Wan, Haofeng Li(参考訳) バイオメディカル画像解析の分野では、特に3次元画像のセグメンテーション、分類、ランドマーク検出を扱う場合、長距離依存を効果的に把握できるアーキテクチャの探求が最重要である。 従来の畳み込みニューラルネットワーク(CNN)は各フィールドの局所性に悩まされており,高次元の医療画像に適用する場合,トランスフォーマーは計算負荷が大きい。この記事では,CNNの強みとステートスペースシーケンスモデル(SSM)の高度な長距離モデリング機能を統合する新しいアーキテクチャであるnnMambaを紹介する。 具体的には,Voxelの長距離関係をモデル化するために,Mamba-In-Convolution with Channel-Spatial Siamese Learning (MICCSS)ブロックを提案する。 密集した予測と分類タスクのために,チャネルスケーリング法とチャネル系列学習法も設計する。 6つのデータセットに関する広範囲な実験により、nnmambaは3d画像分割、分類、ランドマーク検出を含む一連の困難なタスクにおいて最先端の手法よりも優れていることが示されている。 nnmambaはロバストなソリューションとして登場し、cnnのローカル表現能力とssmsの効率的なグローバルコンテキスト処理を提供し、医療画像解析における長距離依存性モデリングの新しい標準を設定する。 コードはhttps://github.com/lhaof/nnMambaで入手できる。

In the field of biomedical image analysis, the quest for architectures capable of effectively capturing long-range dependencies is paramount, especially when dealing with 3D image segmentation, classification, and landmark detection. Traditional Convolutional Neural Networks (CNNs) struggle with locality respective field, and Transformers have a heavy computational load when applied to high-dimensional medical images.In this paper, we introduce nnMamba, a novel architecture that integrates the strengths of CNNs and the advanced long-range modeling capabilities of State Space Sequence Models (SSMs). Specifically, we propose the Mamba-In-Convolution with Channel-Spatial Siamese learning (MICCSS) block to model the long-range relationship of the voxels. For the dense prediction and classification tasks, we also design the channel-scaling and channel-sequential learning methods. Extensive experiments on 6 datasets demonstrate nnMamba's superiority over state-of-the-art methods in a suite of challenging tasks, including 3D image segmentation, classification, and landmark detection. nnMamba emerges as a robust solution, offering both the local representation ability of CNNs and the efficient global context processing of SSMs, setting a new standard for long-range dependency modeling in medical image analysis. Code is available at https://github.com/lhaof/nnMamba
翻訳日:2024-03-13 14:20:06 公開日:2024-03-10
# TEDDY:Degreeベースの差別戦略によるエッジのトリミング

TEDDY: Trimming Edges with Degree-based Discrimination strategY ( http://arxiv.org/abs/2402.01261v2 )

ライセンス: Link先を確認
Hyunjin Seo, Jihun Yun, Eunho Yang(参考訳) グラフニューラルネットワーク(GNN)の抽選チケット仮説(GNN)に関する先駆的な研究が2021年にChenらによって提案されて以来、グラフ抽選チケット(GLT)の発見に関する研究は、GNNコミュニティにおける重要な焦点の1つとなり、研究者たちは、元の高密度ネットワークに匹敵する性能を達成しつつ、スパーサーGLTを発見することを奨励している。 グラフ構造はGNNトレーニングの力学において重要な要素として注目されており、近年のいくつかの研究によって解明されている。 それにもかかわらず、GLTに関する現代の研究は一般的に、グラフ構造における固有の経路を完全に活用せず、反復的な方法でチケットを識別している。 このような制約に対処するために,我々は,エッジ度情報を取り込むことで構造情報を活用する,ワンショットのエッジスパーシフィケーションフレームワークであるteddyを紹介する。 エッジスペーシフィケーションの後に、$\ell_0$ボール上の単純な投影勾配降下により、トレーニング中のパラメータスペーシリティを奨励する。 我々のTEDDYは,グラフ構造とモデルパラメータの両方のターゲット空間レベルを考慮し,単一のトレーニングにおいてGLTの効率的かつ迅速な実現を促進する。 特色を考慮に入れずに,グラフ構造のみを利用するワンショットスペーシフィケーションを行う場合においても,TEDDYは従来の反復的手法をはるかに上回ることを示す実験結果が得られた。

Since the pioneering work on the lottery ticket hypothesis for graph neural networks (GNNs) was proposed in Chen et al. (2021), the study on finding graph lottery tickets (GLT) has become one of the pivotal focus in the GNN community, inspiring researchers to discover sparser GLT while achieving comparable performance to original dense networks. In parallel, the graph structure has gained substantial attention as a crucial factor in GNN training dynamics, also elucidated by several recent studies. Despite this, contemporary studies on GLT, in general, have not fully exploited inherent pathways in the graph structure and identified tickets in an iterative manner, which is time-consuming and inefficient. To address these limitations, we introduce TEDDY, a one-shot edge sparsification framework that leverages structural information by incorporating edge-degree information. Following edge sparsification, we encourage the parameter sparsity during training via simple projected gradient descent on the $\ell_0$ ball. Given the target sparsity levels for both the graph structure and the model parameters, our TEDDY facilitates efficient and rapid realization of GLT within a single training. Remarkably, our experimental results demonstrate that TEDDY significantly surpasses conventional iterative approaches in generalization, even when conducting one-shot sparsification that solely utilizes graph structures, without taking feature information into account.
翻訳日:2024-03-13 14:19:38 公開日:2024-03-10
# ブリッジまたはブレイク:集団間の相互作用が宗教分極に及ぼす影響

Bridging or Breaking: Impact of Intergroup Interactions on Religious Polarization ( http://arxiv.org/abs/2402.11895v3 )

ライセンス: Link先を確認
Rochana Chaturvedi, Sugat Chaturvedi and Elena Zheleva(参考訳) 多様な視点への露出は分極を減少させるが、議論が逆らうとバックファイア効果を生じさせ、分極を悪化させる可能性がある。 本稿では,重要な事象に関するグループ間相互作用が,ソーシャルネットワークにおける多数派と少数派間の分極に影響を及ぼすかどうかを考察する。 2020年中に、covid-19関連の談話に携わる70万人近いインド人のtwitterユーザーの宗教的アイデンティティに関するデータをまとめました。 ツイートテキストの文脈的埋め込みに基づく個人集団の適合性に関する新しい尺度を導入し,宗教集団間の分極性を評価する。 次に,メタラーニングの枠組みを用いて,集団間相互作用が集団的,政治的,社会経済的事象に照らし合わせて個人集団の適合性に及ぼす不均一な治療効果を検討する。 政治や社会の出来事において、集団間の相互作用は分極を減少させる。 この減少は、既にグループに高い適合性を示す極端にいる個人にとって弱い。 対照的に、集団間の相互作用は集団の適合性を高めることができる。 最後に,宗教集団間での感情や議論の話題の観点から異なる効果を分解する。 その結果,宗教分極のダイナミクスは文脈に敏感であり,グループ間相互作用の役割を理解する上で重要な意味を持つことがわかった。

While exposure to diverse viewpoints may reduce polarization, it can also have a backfire effect and exacerbate polarization when the discussion is adversarial. Here, we examine the question whether intergroup interactions around important events affect polarization between majority and minority groups in social networks. We compile data on the religious identity of nearly 700,000 Indian Twitter users engaging in COVID-19-related discourse during 2020. We introduce a new measure for an individual's group conformity based on contextualized embeddings of tweet text, which helps us assess polarization between religious groups. We then use a meta-learning framework to examine heterogeneous treatment effects of intergroup interactions on an individual's group conformity in the light of communal, political, and socio-economic events. We find that for political and social events, intergroup interactions reduce polarization. This decline is weaker for individuals at the extreme who already exhibit high conformity to their group. In contrast, during communal events, intergroup interactions can increase group conformity. Finally, we decompose the differential effects across religious groups in terms of emotions and topics of discussion. The results show that the dynamics of religious polarization are sensitive to the context and have important implications for understanding the role of intergroup interactions.
翻訳日:2024-03-13 14:12:14 公開日:2024-03-10
# 純微調整によるモデル編集

Model Editing by Pure Fine-Tuning ( http://arxiv.org/abs/2402.11078v2 )

ライセンス: Link先を確認
Govind Gangadhar, Karl Stratos(参考訳) 微調整は、より専門的な方法に比べて性能が悪いため、モデル編集に効果がないとして却下される。 しかし、微調整は単純で、編集されるモデルのアーキテクチャの詳細に無関係であり、標準の訓練方法(例えばPEFT)で進行中の進歩を活用することができ、モデルエディターにとって魅力的な選択である。 本稿では,純粋に微調整を行うことがモデル編集に有効な手法であることを示す。 2つの主成分を用いた微調整の微調整を提案する。 まず、条件付き確率を完全な確率よりも最適化する。 第2に,データの一般化と局所性を促進するために,ランダムなパラフレーズと事実によって拡張する。 ZsRE と CounterFact に関する実験により、この簡単な修正により、編集スコアの特別なエディタとマッチしたり、性能が良くなることが示された。

Fine-tuning is dismissed as not effective for model editing due to its poor performance compared to more specialized methods. However, fine-tuning is simple, agnostic to the architectural details of the model being edited, and able to leverage ongoing advances in standard training methods (e.g., PEFT), making it an appealing choice for a model editor. In this work, we show that pure fine-tuning can be a viable approach to model editing. We propose a slight modification of naive fine-tuning with two key ingredients. First, we optimize the conditional likelihood rather than the full likelihood. Second, we augment the data with random paraphrases and facts to encourage generalization and locality. Our experiments on ZsRE and CounterFact show that this simple modification allows fine-tuning to often match or outperform specialized editors in the edit score.
翻訳日:2024-03-13 14:11:17 公開日:2024-03-10
# 論文入札におけるレビュー者・著者共謀輪の検出について

On the Detection of Reviewer-Author Collusion Rings From Paper Bidding ( http://arxiv.org/abs/2402.07860v2 )

ライセンス: Link先を確認
Steven Jecmen, Nihar B. Shah, Fei Fang, Leman Akoglu(参考訳) コンピュータサイエンス会議におけるピアレビューシステムに対する大きな脅威は、レビュアー間の「衝突リング」の存在である。 このような共謀のリングでは、会議に自身の論文を提出したレビュアーが共同で会議の紙の割り当てを操作し、お互いの論文をレビューするために割り当てられる。 可解なレビュアーが紙の代入を操作できる最も簡単な方法は、戦略的な論文入札を通じて互いの論文に対する関心を示すことである。 この重要な問題を解決するための潜在的アプローチの1つは、調整された入札から衝突するレビュアーを検出することである。 以前の研究は、他の種類の不正を検知するための効果的な技術を開発したが、まだ結節環の検出が可能であるという研究は確立していない。 本研究では,紙入札から結束環を検出できるかどうかという問題に取り組む。 この質問に答えるために,既存の不正検出アルゴリズムの評価を含む,現実的な2つの会議入札データセットの実証分析を行う。 例えば、あるデータセットでは、検出されていないコリダは、他のコリダによって書かれた論文の最大30%に割り当てることができる。 さらに、10人のコラウダーがお互いの論文の全てに入札すると、検出アルゴリズムは真のコラウダーと31%以上のオーバーラップしたレビュアーのグループを出力しない。 これらの結果から,人気ツールを用いた入札では結束を効果的に検出することはできず,さらに複雑な検出アルゴリズムや追加のメタデータ(レビュアー・ペーパーのテキスト類似度スコアなど)を活用する必要性が示された。

A major threat to the peer-review systems of computer science conferences is the existence of "collusion rings" between reviewers. In such collusion rings, reviewers who have also submitted their own papers to the conference work together to manipulate the conference's paper assignment, with the aim of being assigned to review each other's papers. The most straightforward way that colluding reviewers can manipulate the paper assignment is by indicating their interest in each other's papers through strategic paper bidding. One potential approach to solve this important problem would be to detect the colluding reviewers from their manipulated bids, after which the conference can take appropriate action. While prior work has developed effective techniques to detect other kinds of fraud, no research has yet established that detecting collusion rings is even possible. In this work, we tackle the question of whether it is feasible to detect collusion rings from the paper bidding. To answer this question, we conduct empirical analysis of two realistic conference bidding datasets, including evaluations of existing algorithms for fraud detection in other applications. We find that collusion rings can achieve considerable success at manipulating the paper assignment while remaining hidden from detection: for example, in one dataset, undetected colluders are able to achieve assignment to up to 30% of the papers authored by other colluders. In addition, when 10 colluders bid on all of each other's papers, no detection algorithm outputs a group of reviewers with more than 31% overlap with the true colluders. These results suggest that collusion cannot be effectively detected from the bidding using popular existing tools, demonstrating the need to develop more complex detection algorithms as well as those that leverage additional metadata (e.g., reviewer-paper text-similarity scores).
翻訳日:2024-03-13 14:08:31 公開日:2024-03-10
# MIM-Reasoner:多重影響最大化のための理論的保証を用いた学習

MIM-Reasoner: Learning with Theoretical Guarantees for Multiplex Influence Maximization ( http://arxiv.org/abs/2402.16898v2 )

ライセンス: Link先を確認
Nguyen Do, Tanmoy Chowdhury, Chen Ling, Liang Zhao, My T. Thai(参考訳) multix influence maximization (mim) では,マルチプレックスネットワークで影響を受けるユーザ数を最大化するような,シードユーザの集合を特定するように求めています。 MIMは、特に、ユーザが複数のオンラインソーシャルネットワーク(OSN)に参加し、その影響が複数のOSN間で同時に伝播する、現代のソーシャルネットワーキングの分野において、中心的な研究の1つとなっている。 MIMへの組合せアルゴリズムはいくつか存在するが、異種ネットワークへの一般化能力と多様な伝搬特性から学習ベースのソリューションが望まれている。 本稿では,MIM-Reasoner,結合強化学習と確率的グラフィカルモデルを導入することで,多重化ネットワークの層内および層間における複雑な伝播過程を効果的に把握し,MIMにおける最も困難な問題に取り組む。 我々はMIM-Reasonerの理論的保証を確立し、MIM-Reasonerの性能を検証するために、合成データセットと実世界のデータセットの両方について広範な分析を行う。

Multiplex influence maximization (MIM) asks us to identify a set of seed users such as to maximize the expected number of influenced users in a multiplex network. MIM has been one of central research topics, especially in nowadays social networking landscape where users participate in multiple online social networks (OSNs) and their influences can propagate among several OSNs simultaneously. Although there exist a couple combinatorial algorithms to MIM, learning-based solutions have been desired due to its generalization ability to heterogeneous networks and their diversified propagation characteristics. In this paper, we introduce MIM-Reasoner, coupling reinforcement learning with probabilistic graphical model, which effectively captures the complex propagation process within and between layers of a given multiplex network, thereby tackling the most challenging problem in MIM. We establish a theoretical guarantee for MIM-Reasoner as well as conduct extensive analyses on both synthetic and real-world datasets to validate our MIM-Reasoner's performance.
翻訳日:2024-03-13 14:03:42 公開日:2024-03-10
# オントロジー推定のためのアノテーション埋め込みモデルを用いた自己整合学習法

A Self-matching Training Method with Annotation Embedding Models for Ontology Subsumption Prediction ( http://arxiv.org/abs/2402.16278v3 )

ライセンス: Link先を確認
Yukihiro Shiraishi, Ken Kaneiwa(参考訳) 近年、低次元空間における実体を表すオントロジー埋め込みがオントロジー完備化のために提案されている。 しかし、概念仮定予測のためのオントロジー埋め込みは類似し孤立した実体の難しさに対処せず、注釈公理の全体的情報をオントロジーから取り出すことに失敗している。 本稿では,InME(Inverted-index Matrix Embedding)とCoME(Co-occurrence Matrix Embedding)の2つのオントロジー埋め込みモデルの自己マッチング学習手法を提案する。 この2つの埋め込みは、各単語の公理における発生した位置と各公理における単語の共起によって、グローバルおよびローカル情報をアノテーション公理でキャプチャする。 自己マッチング訓練法は、予測されたスーパークラスがサブクラスに類似し、オントロジーにおいて他のエンティティに分離された場合に、概念推定のロバスト性を高める。 評価実験により,InMEを用いた自己マッチング学習法は,GOおよびFoodOnオントロジーの既存のオントロジー埋め込みよりも優れており,CoMEとOWL2Vec*の結合による手法の方がHeLiSオントロジーよりも優れていることが示された。

Recently, ontology embeddings representing entities in a low-dimensional space have been proposed for ontology completion. However, the ontology embeddings for concept subsumption prediction do not address the difficulties of similar and isolated entities and fail to extract the global information of annotation axioms from an ontology. In this paper, we propose a self-matching training method for the two ontology embedding models: Inverted-index Matrix Embedding (InME) and Co-occurrence Matrix Embedding (CoME). The two embeddings capture the global and local information in annotation axioms by means of the occurring locations of each word in a set of axioms and the co-occurrences of words in each axiom. The self-matching training method increases the robustness of the concept subsumption prediction when predicted superclasses are similar to subclasses and are isolated to other entities in an ontology. Our evaluation experiments show that the self-matching training method with InME outperforms the existing ontology embeddings for the GO and FoodOn ontologies and that the method with the concatenation of CoME and OWL2Vec* outperforms them for the HeLiS ontology.
翻訳日:2024-03-13 14:01:37 公開日:2024-03-10
# 深層学習手法を用いた短文の感情分類

Emotion Classification in Short English Texts using Deep Learning Techniques ( http://arxiv.org/abs/2402.16034v2 )

ライセンス: Link先を確認
Siddhanth Bhat(参考訳) リソース不足の言語から限られたテキストデータセット内の感情を検出することは、特別なフレームワークと計算戦略を要求する、恐ろしい障害となる。 本研究は,英語短文の感情を識別する深層学習手法の徹底的な検討を行う。 ディープラーニングアプローチでは、より優れた精度を達成するために、転送学習と単語埋め込み(特にBERT)を採用している。 これらの方法を評価するために,5つの主感情カテゴリを付記した,6372種類の短い英文テキストからなる「small englishemotions」データセットを紹介する。 実験の結果, 転送学習とBERTベースのテキスト埋め込みは, データセット中のテキストを正確に分類するための代替手法よりも優れていることがわかった。

Detecting emotions in limited text datasets from under-resourced languages presents a formidable obstacle, demanding specialized frameworks and computational strategies. This study conducts a thorough examination of deep learning techniques for discerning emotions in short English texts. Deep learning approaches employ transfer learning and word embedding, notably BERT, to attain superior accuracy. To evaluate these methods, we introduce the "SmallEnglishEmotions" dataset, comprising 6372 varied short English texts annotated with five primary emotion categories. Our experiments reveal that transfer learning and BERT-based text embedding outperform alternative methods in accurately categorizing the text in the dataset.
翻訳日:2024-03-13 14:00:54 公開日:2024-03-10
# 地平線を越えてさらに興奮する

More Excitement Across the Horizon ( http://arxiv.org/abs/2402.14908v2 )

ライセンス: Link先を確認
Mar\'ia R. Preciado-Rivas, Manar Naeem, Robert B. Mann, Jorma Louko(参考訳) unruh-dewitt (udw)検出器は、4次元シュワルツシルトブラックホールに放射状に落下し、ハートル・ホーキングまたはunruh状態で準備された質量のないスカラー場と直線的に結合し、ブラックホールの地平線付近で遷移確率の局所的な極値を示すことが最近示されている [k.k. ng et al., new j. phys. 24 (2022) 103018]。 我々は、UDW検出器がスピンレスBa\~nados-Teitelboim-Zanelli(BTZ)ブラックホールに放射状に落下する過程において、同様の現象が存在することを示した。 我々は、検出器のエネルギーギャップ、ブラックホールの質量、検出器の落下半径の関数として、広範な数値計算結果を与える。 この結果は、この効果が強固であり、他のブラックホールの時空における同様の効果の探索を動機付け、その効果の物理的起源の説明を求めることを示唆している。

An Unruh-DeWitt (UDW) detector falling radially into a four-dimensional Schwarzschild black hole, coupled linearly to a massless scalar field that has been prepared in the Hartle-Hawking or Unruh state, has recently been shown to exhibit a local extremum in its transition probability near the black hole horizon [K.K. Ng et al., New J. Phys. 24 (2022) 103018]. We show that a similar phenomenon is present in the transition rate of a UDW detector falling radially into a spinless Ba\~nados-Teitelboim-Zanelli (BTZ) black hole, with the scalar field prepared in the Hartle-Hawking state. We give extensive numerical results as a function of the detector's energy gap, the black hole's mass, and the detector's drop-off radius. Our results suggest that the effect is robust, motivating a search for a similar effect in other black hole spacetimes, and calling for an explanation of the physical origin of the effect.
翻訳日:2024-03-13 14:00:42 公開日:2024-03-10
# 新しい希望:モバイルアプリケーションのコンテキストプライバシーポリシーと自動生成へのアプローチ

{A New Hope}: Contextual Privacy Policies for Mobile Applications and An Approach Toward Automated Generation ( http://arxiv.org/abs/2402.14544v2 )

ライセンス: Link先を確認
Shidong Pan, Zhen Tao, Thong Hoang, Dawen Zhang, Tianshi Li, Zhenchang Xing, Sherry Xu, Mark Staples, Thierry Rakotoarivelo, David Lo(参考訳) プライバシーポリシーは、モバイルアプリケーションユーザーにプライバシー通知を伝えるための主要なアプローチとして現れてきた。 可読性とユーザエンゲージメントを両立させるために,コンテキストプライバシポリシ(CPP)の概念が研究者によって提案されている。 CPPの目的は、プライバシーポリシーを簡潔なスニペットに断片化し、アプリケーションのグラフィカルユーザインターフェイス(GUI)内の対応するコンテキスト内でのみ表示することである。 本稿では,モバイルアプリケーションシナリオでCPPを初めて定式化し,モバイルアプリケーション用のCPPを自動生成するSeePrivacyという新しいマルチモーダルフレームワークを提案する。 この方法は、視覚に基づくGUI理解とプライバシポリシ分析を一意に統合し、コンテキストを検出するために0.88の精度と0.90のリコール、対応するポリシーセグメントを抽出する0.98の精度と0.96のリコールを達成する。 人間による評価では、抽出されたプライバシーポリシーセグメントの77%が、検出されたコンテキストとよく一致していることがわかった。 これらの結果は、SeeePrivacyが、プライバシーポリシーとのユーザーインタラクションを強化し、理解するための重要なツールになり得ることを示唆している。 さらに、私たちのソリューションは、プライバシー通知をよりアクセスしやすく、包括的にする可能性を秘めています。 私たちの作業のデモはhttps://cpp4app.github.io/SeePrivacy/でアクセスできます。

Privacy policies have emerged as the predominant approach to conveying privacy notices to mobile application users. In an effort to enhance both readability and user engagement, the concept of contextual privacy policies (CPPs) has been proposed by researchers. The aim of CPPs is to fragment privacy policies into concise snippets, displaying them only within the corresponding contexts within the application's graphical user interfaces (GUIs). In this paper, we first formulate CPP in mobile application scenario, and then present a novel multimodal framework, named SeePrivacy, specifically designed to automatically generate CPPs for mobile applications. This method uniquely integrates vision-based GUI understanding with privacy policy analysis, achieving 0.88 precision and 0.90 recall to detect contexts, as well as 0.98 precision and 0.96 recall in extracting corresponding policy segments. A human evaluation shows that 77% of the extracted privacy policy segments were perceived as well-aligned with the detected contexts. These findings suggest that SeePrivacy could serve as a significant tool for bolstering user interaction with, and understanding of, privacy policies. Furthermore, our solution has the potential to make privacy notices more accessible and inclusive, thus appealing to a broader demographic. A demonstration of our work can be accessed at https://cpp4app.github.io/SeePrivacy/
翻訳日:2024-03-13 13:59:43 公開日:2024-03-10
# PIRB:ポーランドのディッセンスとハイブリッドテキスト検索手法の総合ベンチマーク

PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods ( http://arxiv.org/abs/2402.13350v2 )

ライセンス: Link先を確認
S{\l}awomir Dadas, Micha{\l} Pere{\l}kiewicz, Rafa{\l} Po\'swiata(参考訳) 本稿では,41のテキスト情報検索タスクを対象とする総合評価フレームワークであるポーランド情報検索ベンチマーク(pirb)を提案する。 このベンチマークには、既存のデータセットに加えて、医学、法律、ビジネス、物理学、言語学など、さまざまなトピックをカバーする10の新しい未公開データセットが含まれている。 我々は20以上の高密度でスパースな検索モデルを広範囲に評価し,usがトレーニングしたベースラインモデルや,ポーランド語や多言語で利用可能な手法について検討した。 最後に, 知識蒸留, 教師付き微調整, 軽度リスコリングモデルを用いたスパース・ディエンスハイブリッドレトリバーの構築による, 高効率言語特異的レトリバーの3段階の学習プロセスを紹介する。 提案手法の有効性を検証するため,ポーランド語のための新しいテキストエンコーダを訓練し,評価済みの手法と比較する。 当社の密集したモデルは,これまでで最高のソリューションを上回っており,ハイブリッド手法の利用によってパフォーマンスがさらに向上しています。

We present Polish Information Retrieval Benchmark (PIRB), a comprehensive evaluation framework encompassing 41 text information retrieval tasks for Polish. The benchmark incorporates existing datasets as well as 10 new, previously unpublished datasets covering diverse topics such as medicine, law, business, physics, and linguistics. We conduct an extensive evaluation of over 20 dense and sparse retrieval models, including the baseline models trained by us as well as other available Polish and multilingual methods. Finally, we introduce a three-step process for training highly effective language-specific retrievers, consisting of knowledge distillation, supervised fine-tuning, and building sparse-dense hybrid retrievers using a lightweight rescoring model. In order to validate our approach, we train new text encoders for Polish and compare their results with previously evaluated methods. Our dense models outperform the best solutions available to date, and the use of hybrid methods further improves their performance.
翻訳日:2024-03-13 13:58:50 公開日:2024-03-10
# 動的シーンにおける学習露光補正

Learning Exposure Correction in Dynamic Scenes ( http://arxiv.org/abs/2402.17296v2 )

ライセンス: Link先を確認
Jin Liu, Bo Wang, Chuanming Wang, Huiyuan Fu, Huadong Ma(参考訳) 露光を間違えたビデオの撮影は、通常は不満足な視覚効果をもたらす。 画像の露光補正は一般的な話題だが、ビデオは文献ではあまり研究されていない。 ビデオ入力に事前のイメージベース手法を直接適用すると、時間的不整合が生じ、視覚的品質が低下する。 この領域における既存の研究は、高品質なベンチマークデータセットの欠如によっても制限されている。 これらの問題に対処するために、私たちは、過度な露出と過度な露出の両方を含む、最初の実世界のペアビデオデータセットを構築します。 空間アライメントを実現するために,2台のデジタル一眼レフカメラとビームスプリッタを用いて不適切な露光映像と通常の露光映像を同時に撮影する。 また,2流照明学習機構を組み込んだretinex理論に基づく映像露光補正ネットワーク(vecnet)を提案する。 推定多重フレーム反射率とデュアルパス照明成分は特徴レベルと画像レベルの両方で融合し、視覚的に魅力的な結果をもたらす。 実験結果から,提案手法は既存の画像の露出補正やビデオ強調手法よりも優れていた。 コードとデータセットは近く提供される。

Capturing videos with wrong exposure usually produces unsatisfactory visual effects. While image exposure correction is a popular topic, the video counterpart is less explored in the literature. Directly applying prior image-based methods to input videos often results in temporal incoherence with low visual quality. Existing research in this area is also limited by the lack of high-quality benchmark datasets. To address these issues, we construct the first real-world paired video dataset, including both underexposure and overexposure dynamic scenes. To achieve spatial alignment, we utilize two DSLR cameras and a beam splitter to simultaneously capture improper and normal exposure videos. In addition, we propose a Video Exposure Correction Network (VECNet) based on Retinex theory, which incorporates a two-stream illumination learning mechanism to enhance the overexposure and underexposure factors, respectively. The estimated multi-frame reflectance and dual-path illumination components are fused at both feature and image levels, leading to visually appealing results. Experimental results demonstrate that the proposed method outperforms existing image exposure correction and underexposed video enhancement methods. The code and dataset will be available soon.
翻訳日:2024-03-13 13:48:28 公開日:2024-03-10
# 圧縮領域に対する強調バイアス緩和による圧縮画像の品質向上

Enhancing Quality of Compressed Images by Mitigating Enhancement Bias Towards Compression Domain ( http://arxiv.org/abs/2402.17200v2 )

ライセンス: Link先を確認
Qunliang Xing, Mai Xu, Shengxi Li, Xin Deng, Meisong Zheng, Huaida Liu and Ying Chen(参考訳) 既存の圧縮画像の品質向上手法では、強調領域を生領域と整合させることに重点を置いている。 しかし、これらの手法は圧縮領域に対して広範に拡張バイアスを示し、不注意に原領域よりも現実的であると見なす。 このバイアスにより、強調画像は圧縮された画像とよく似ているため、知覚品質は低下する。 本稿では,このバイアスを緩和し,圧縮画像の品質を高めるための,シンプルで効果的な方法を提案する。 本手法では,圧縮画像をキーとする条件付き判別器を用い,領域分割正規化を組み込んで圧縮領域から強調領域を積極的に距離づける。 この2つの戦略により,提案手法は圧縮領域に対する識別を可能にし,拡張領域を生領域に近づける。 総合的な品質評価は,提案手法が推論オーバーヘッドを発生させることなく,他の最先端手法よりも優れていることを示す。

Existing quality enhancement methods for compressed images focus on aligning the enhancement domain with the raw domain to yield realistic images. However, these methods exhibit a pervasive enhancement bias towards the compression domain, inadvertently regarding it as more realistic than the raw domain. This bias makes enhanced images closely resemble their compressed counterparts, thus degrading their perceptual quality. In this paper, we propose a simple yet effective method to mitigate this bias and enhance the quality of compressed images. Our method employs a conditional discriminator with the compressed image as a key condition, and then incorporates a domain-divergence regularization to actively distance the enhancement domain from the compression domain. Through this dual strategy, our method enables the discrimination against the compression domain, and brings the enhancement domain closer to the raw domain. Comprehensive quality evaluations confirm the superiority of our method over other state-of-the-art methods without incurring inference overheads.
翻訳日:2024-03-13 13:48:08 公開日:2024-03-10
# LDB: 実行時実行のステップバイステップ検証による大規模言語モデルデバッガ

LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step ( http://arxiv.org/abs/2402.16906v3 )

ライセンス: Link先を確認
Lily Zhong, Zilong Wang, Jingbo Shang(参考訳) 大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。 ワンパスコード生成以外にも、近年の作業では、ユニットテストとプログラム検証器をLCMに統合して、生成されたプログラムを反復的に洗練している。 しかし、これらの研究は生成されたプログラムを識別不可能な実体とみなし、特に複雑な論理フローやデータ操作を含む場合、プログラムのデバッグにおいてLLMでは不足している。 対照的に、ヒューマン開発者がプログラムをデバッグする場合、通常はブレークポイントを設定し、実行時情報を選択的に検査する。 実行フローと中間変数はデバッグプロセスにおいて重要な役割を果たすが、コード生成に関する既存の文献では使われていない。 本研究では,Large Language Model Debugger (LDB)を紹介し,LLMが実行時情報を用いて生成されたプログラムを洗練できる新しいデバッグフレームワークを提案する。 具体的には、LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。 これにより、LCMは実行フロー全体においてより単純なコードユニットに集中でき、ブロックによってタスク記述ブロックに対する正当性を検証でき、潜在的なエラーを効率的に特定できる。 実験によると、LDBはHumanEval、MBPP、TransCoderベンチマークで最大9.8%のベースライン性能を継続的に向上し、様々なLLM選択のためのコードデバッグにおける新しい最先端のパフォーマンスをアーカイブしている。

Large language models (LLMs) are leading significant progress in code generation. Beyond one-pass code generation, recent works further integrate unit tests and program verifiers into LLMs to iteratively refine the generated programs. However, these works consider the generated programs as an indivisible entity, which falls short for LLMs in debugging the programs, especially when the programs contain complex logic flows and data operations. In contrast, when human developers debug programs, they typically set breakpoints and selectively examine runtime execution information. The execution flow and the intermediate variables play a crucial role in the debugging process, yet they are underutilized in the existing literature on code generation. In this study, we introduce Large Language Model Debugger (LDB), a novel debugging framework that enables LLMs to refine their generated programs with the runtime execution information. Specifically, LDB segments the programs into basic blocks and tracks the values of intermediate variables after each block throughout the runtime execution. This allows LLMs to concentrate on simpler code units within the overall execution flow, verify their correctness against the task description block by block, and efficiently pinpoint any potential errors. Experiments demonstrate that LDB consistently enhances the baseline performance by up to 9.8% across the HumanEval, MBPP, and TransCoder benchmarks, archiving new state-of-the-art performance in code debugging for various LLM selections.
翻訳日:2024-03-13 13:47:54 公開日:2024-03-10
# 医用画像解析のためのAIにおけるドメイン適応・説明可能性・公正性:3次元胸部CTスキャンによるCOVID-19の診断

Domain adaptation, Explainability & Fairness in AI for Medical Image Analysis: Diagnosis of COVID-19 based on 3-D Chest CT-scans ( http://arxiv.org/abs/2403.02192v2 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Stefanos Kollias(参考訳) 本稿では,2024年のコンピュータビジョン・パターン認識会議(CVPR)のワークショップにおいて,DEF-AI-MIA COV19Dコンペティションについて述べる。 この大会は、iccv 2021、eccv 2022、icassp 2023の3つの国際会議の枠組みで開催される第4回大会である。 2つの課題がある。 i)covid-19 の検出及び検出 ii) Covid-19 Domain Adaptation コンペティションはCOV19-CT-DBデータベースのデータを用いており、このデータベースには大量の胸部CTスキャンシリーズが含まれている。 各胸部ctスキャンシリーズは2次元ctスライスのシーケンスで構成されており、その数は50から700である。 COV19-CT-DBからトレーニング、検証、テストデータセットが抽出され、両方のチャレンジの参加者に提供される。 本論文では, チャレンジで使用するベースラインモデルと, 得られた性能について述べる。

The paper presents the DEF-AI-MIA COV19D Competition, which is organized in the framework of the 'Domain adaptation, Explainability, Fairness in AI for Medical Image Analysis (DEF-AI-MIA)' Workshop of the 2024 Computer Vision and Pattern Recognition (CVPR) Conference. The Competition is the 4th in the series, following the first three Competitions held in the framework of ICCV 2021, ECCV 2022 and ICASSP 2023 International Conferences respectively. It includes two Challenges on: i) Covid-19 Detection and ii) Covid-19 Domain Adaptation. The Competition use data from COV19-CT-DB database, which is described in the paper and includes a large number of chest CT scan series. Each chest CT scan series consists of a sequence of 2-D CT slices, the number of which is between 50 and 700. Training, validation and test datasets have been extracted from COV19-CT-DB and provided to the participants in both Challenges. The paper presents the baseline models used in the Challenges and the performance which was obtained respectively.
翻訳日:2024-03-13 13:42:28 公開日:2024-03-10
# NASH:ハードウェア最適化機械学習モデルのためのニューラルネットワーク検索

NASH: Neural Architecture Search for Hardware-Optimized Machine Learning Models ( http://arxiv.org/abs/2403.01845v2 )

ライセンス: Link先を確認
Mengfei Ji, Yuchun Chang, Baolin Zhang and Zaid Al-Ars(参考訳) 機械学習(ML)アルゴリズムがますます増加するアプリケーションにデプロイされるにつれて、これらのアルゴリズムは高い正確性、高いスループット、低レイテンシの間のトレードオフをよりよいものにする必要がある。 本稿では、ニューラルネットワークを機械学習ハードウェアに適用する新しいアプローチであるnashを紹介する。 NASHを使うことで、ハードウェア設計は高いスループットと低レイテンシを実現するだけでなく、精度も向上する。 本稿では,nash戦略の4つのバージョンについて述べる。 この戦略は、様々な畳み込みニューラルネットワークに適用することができ、トレーニングプロセスをより高精度に導くために、多数のモデル操作を選択することができる。 実験の結果、ResNet18やResNet34にNASHを適用すると、ImageNetデータセットでテストすると、トップ1の精度が最大3.1%、トップ5の精度が最大2.2%向上することがわかった。 また、このアプローチをfinnハードウェアモデル合成ツールに統合し、このアプローチの適用とハードウェアモデルの生成を自動化する。 その結果,FINNの最大スループットは324.5fpsであることがわかった。 さらにnashモデルでは、精度とハードウェアリソース利用のトレードオフも改善される可能性がある。 精度ハードウェア(HW)パレート曲線は、4つのNASHバージョンを持つモデルが与えられたHW利用率で最高の精度を達成する最良のトレードオフであることを示している。 私たちの実装のコードはオープンソースで、GitHubでhttps://github.com/MFJI/NASHで公開されています。

As machine learning (ML) algorithms get deployed in an ever-increasing number of applications, these algorithms need to achieve better trade-offs between high accuracy, high throughput and low latency. This paper introduces NASH, a novel approach that applies neural architecture search to machine learning hardware. Using NASH, hardware designs can achieve not only high throughput and low latency but also superior accuracy performance. We present four versions of the NASH strategy in this paper, all of which show higher accuracy than the original models. The strategy can be applied to various convolutional neural networks, selecting specific model operations among many to guide the training process toward higher accuracy. Experimental results show that applying NASH on ResNet18 or ResNet34 achieves a top 1 accuracy increase of up to 3.1% and a top 5 accuracy increase of up to 2.2% compared to the non-NASH version when tested on the ImageNet data set. We also integrated this approach into the FINN hardware model synthesis tool to automate the application of our approach and the generation of the hardware model. Results show that using FINN can achieve a maximum throughput of 324.5 fps. In addition, NASH models can also result in a better trade-off between accuracy and hardware resource utilization. The accuracy-hardware (HW) Pareto curve shows that the models with the four NASH versions represent the best trade-offs achieving the highest accuracy for a given HW utilization. The code for our implementation is open-source and publicly available on GitHub at https://github.com/MFJI/NASH.
翻訳日:2024-03-13 13:41:51 公開日:2024-03-10
# TNF: マルチモーダル医療データ分類のためのトリブランチニューラルフュージョン

TNF: Tri-branch Neural Fusion for Multimodal Medical Data Classification ( http://arxiv.org/abs/2403.01802v3 )

ライセンス: Link先を確認
Tong Zheng, Shusaku Sone, Yoshitaka Ushiku, Yuki Oba, Jiaxin Ma(参考訳) 本稿では,マルチモーダル医療画像と表データの分類を目的としたTNF(Tri-branch Neural Fusion)アプローチを提案する。 また、マルチモーダル分類におけるラベルの不整合に対処する2つの解決策も導入している。 従来のマルチモダリティ医療データ分類の手法は、通常、2つの異なる入力モダリティから特徴をマージするシングルラベルアプローチに依存している。 これは、機能が相互に排他的であったり、ラベルが異なる場合に問題となり、精度が低下する。 これを克服するために、tnfアプローチでは、イメージモダリティ用と表モダリティ用、イメージと表データの両方を融合する第3のハイブリッドアウトプットという、3つの別々のアウトプットを管理するトリブランチフレームワークを実装しています。 最後の決定は、3つの枝の全ての可能性を統合するアンサンブル法によってなされる。 様々な畳み込みニューラルネットワークや複数のデータセットにわたるトランスフォーマーベースのアーキテクチャにおいて、従来の融合法やアンサンブル法よりも優れていることを示す広範な実験を通じて、tnfの有効性を検証する。

This paper presents a Tri-branch Neural Fusion (TNF) approach designed for classifying multimodal medical images and tabular data. It also introduces two solutions to address the challenge of label inconsistency in multimodal classification. Traditional methods in multi-modality medical data classification often rely on single-label approaches, typically merging features from two distinct input modalities. This becomes problematic when features are mutually exclusive or labels differ across modalities, leading to reduced accuracy. To overcome this, our TNF approach implements a tri-branch framework that manages three separate outputs: one for image modality, another for tabular modality, and a third hybrid output that fuses both image and tabular data. The final decision is made through an ensemble method that integrates likelihoods from all three branches. We validate the effectiveness of TNF through extensive experiments, which illustrate its superiority over traditional fusion and ensemble methods in various convolutional neural networks and transformer-based architectures across multiple datasets.
翻訳日:2024-03-13 13:41:27 公開日:2024-03-10
# GPTSee: 記述に基づく類似機能によるモーメント検索とハイライト検出の強化

GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features ( http://arxiv.org/abs/2403.01437v2 )

ライセンス: Link先を確認
Yunzhuo Sun, Yifang Xu, Zien Xie, Yukun Shu, and Sidan Du(参考訳) モーメント検索(MR)とハイライト検出(HD)は、対応する自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。 大型言語モデル (LLM) は様々なコンピュータビジョンタスクに習熟性を示す。 しかし、MR\&HDの既存の手法はまだLLMと統合されていない。 本稿では,llmsの出力を第2段トランスコーダ・デコーダへの入力とする,新しい2段モデルを提案する。 まず、MiniGPT-4を用いてビデオフレームの詳細な記述を生成し、エンコーダに入力されたクエリ文を新しい機能として書き直す。 そして、生成された記述と書き直されたクエリの間で意味的類似性が計算される。 最後に、連続的な高相似性映像フレームをスパンアンカーに変換し、デコーダの位置情報として機能させる。 また,スパンアンカーと類似度スコアのみを出力として用いることにより,モーメントデトルのような従来の手法よりも位置決め精度が優れていることを示す実験を行った。

Moment retrieval (MR) and highlight detection (HD) aim to identify relevant moments and highlights in video from corresponding natural language query. Large language models (LLMs) have demonstrated proficiency in various computer vision tasks. However, existing methods for MR\&HD have not yet been integrated with LLMs. In this letter, we propose a novel two-stage model that takes the output of LLMs as the input to the second-stage transformer encoder-decoder. First, MiniGPT-4 is employed to generate the detailed description of the video frame and rewrite the query statement, fed into the encoder as new features. Then, semantic similarity is computed between the generated description and the rewritten queries. Finally, continuous high-similarity video frames are converted into span anchors, serving as prior position information for the decoder. Experiments demonstrate that our approach achieves a state-of-the-art result, and by using only span anchors and similarity scores as outputs, positioning accuracy outperforms traditional methods, like Moment-DETR.
翻訳日:2024-03-13 13:40:47 公開日:2024-03-10
# マスク保存属性編集によるセグメンテーションモデルのベンチマーク

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing ( http://arxiv.org/abs/2403.01231v2 )

ライセンス: Link先を確認
Zijin Yin, Kongming Liang, Bing Li, Zhanyu Ma, Jun Guo(参考訳) セグメンテーションモデルを実際にデプロイする場合、様々な複雑なシーンで彼らの振る舞いを評価することが重要です。 従来の評価パラダイムとは異なり,グローバル属性の変動(例えば悪天候)を考慮した場合のみ,局所属性とグローバル属性の変動をロバスト性評価のために検討する。 そこで我々は,実際の画像の視覚的属性を正確な構造情報制御で編集するマスク保存属性編集パイプラインを構築した。 したがって、編集された画像に対して元のセグメンテーションラベルを再利用することができる。 パイプラインを使用して、オブジェクト属性とイメージ属性(色、材料、パターン、スタイルなど)の両方をカバーするベンチマークを構築します。 従来のクローズセットモデルから最近のオープン語彙大モデルにまたがる多種多様なセマンティックセマンティックセマンティクスモデルの評価を行った。 その結果,局所属性とグローバル属性の変動はセグメンテーション性能に影響を与え,モデルの感度は異なるタイプに分散することがわかった。 局所属性はグローバル属性と同じ重要性を持ち,セグメンテーションモデルのロバスト性評価において考慮すべきである。 コード:https://github.com/PRIS-CV/Pascal-EA

When deploying segmentation models in practice, it is critical to evaluate their behaviors in varied and complex scenes. Different from the previous evaluation paradigms only in consideration of global attribute variations (e.g. adverse weather), we investigate both local and global attribute variations for robustness evaluation. To achieve this, we construct a mask-preserved attribute editing pipeline to edit visual attributes of real images with precise control of structural information. Therefore, the original segmentation labels can be reused for the edited images. Using our pipeline, we construct a benchmark covering both object and image attributes (e.g. color, material, pattern, style). We evaluate a broad variety of semantic segmentation models, spanning from conventional close-set models to recent open-vocabulary large models on their robustness to different types of variations. We find that both local and global attribute variations affect segmentation performances, and the sensitivity of models diverges across different variation types. We argue that local attributes have the same importance as global attributes, and should be considered in the robustness evaluation of segmentation models. Code: https://github.com/PRIS-CV/Pascal-EA.
翻訳日:2024-03-13 13:40:27 公開日:2024-03-10
# PRIME:データ効率な模倣学習のための行動プリミティブを用いた操作タスクの共有

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning ( http://arxiv.org/abs/2403.00929v2 )

ライセンス: Link先を確認
Tian Gao, Soroush Nasiriany, Huihan Liu, Quantao Yang, Yuke Zhu(参考訳) 模倣学習は、ロボットが複雑な操作行動を得るための大きな可能性を示している。 しかし、これらのアルゴリズムは、タスクの水平線上に複合エラーが蓄積する長いホリゾンタスクにおいて、高いサンプル複雑性に苦しむ。 我々は、模倣学習のデータ効率を向上させるために設計された行動原始型フレームワークであるprime(primitive-based imitation with data efficiency)を提案する。 PRIMEは、タスクデモをプリミティブシーケンスに分解し、続いて模倣学習を通じてプリミティブをシーケンスするハイレベルな制御ポリシーを学ぶ。 実験の結果,PRIMEは多段階操作タスクにおいて,最先端ベースラインのシミュレーションにおいて10~34%,物理ハードウェアでは20~48%,大幅な性能向上を実現していることがわかった。

Imitation learning has shown great potential for enabling robots to acquire complex manipulation behaviors. However, these algorithms suffer from high sample complexity in long-horizon tasks, where compounding errors accumulate over the task horizons. We present PRIME (PRimitive-based IMitation with data Efficiency), a behavior primitive-based framework designed for improving the data efficiency of imitation learning. PRIME scaffolds robot tasks by decomposing task demonstrations into primitive sequences, followed by learning a high-level control policy to sequence primitives through imitation learning. Our experiments demonstrate that PRIME achieves a significant performance improvement in multi-stage manipulation tasks, with 10-34% higher success rates in simulation over state-of-the-art baselines and 20-48% on physical hardware.
翻訳日:2024-03-13 13:40:07 公開日:2024-03-10
# 追従型リーダの適応学習速度:競争分析とベスト・オブ・ボス・ワールド

Adaptive Learning Rate for Follow-the-Regularized-Leader: Competitive Analysis and Best-of-Both-Worlds ( http://arxiv.org/abs/2403.00715v2 )

ライセンス: Link先を確認
Shinji Ito, Taira Tsuchiya, Junya Honda(参考訳) FTRL(Follow-The-Regularized-Leader)は、オンライン学習において効果的で汎用的なアプローチとして知られている。 そこで我々は、FTRLの学習率を逐次決定問題として調整する問題を定式化し、競合分析の枠組みを導入する。 我々は,競争比率の下限を設定し,この下限の定数係数内で上限を達成する学習率の更新ルールを提案する。 具体的には、ペナルティ項の成分の(近似的な)単調性により最適競争比が特徴づけられ、ペナルティ項の成分が単調に非増加列を形成し、ペナルティ項が$\xi$-aqua monotone non-increasing であるときに厳密な競争比が導出される場合、一定の競争比が達成可能であることを示す。 提案した更新ルールは,確率的および対向的環境のためのBest-Of-Both-Worlds (BOBW)アルゴリズムの構築を容易にする。 これらの環境下では, より厳密な後悔と, マルチアームバンド, グラフバンド, 線形バンディット, コンテキストバンドディットなどの様々な設定に対するアルゴリズムの適用性の向上に寄与する。

Follow-The-Regularized-Leader (FTRL) is known as an effective and versatile approach in online learning, where appropriate choice of the learning rate is crucial for smaller regret. To this end, we formulate the problem of adjusting FTRL's learning rate as a sequential decision-making problem and introduce the framework of competitive analysis. We establish a lower bound for the competitive ratio and propose update rules for learning rate that achieves an upper bound within a constant factor of this lower bound. Specifically, we illustrate that the optimal competitive ratio is characterized by the (approximate) monotonicity of components of the penalty term, showing that a constant competitive ratio is achievable if the components of the penalty term form a monotonically non-increasing sequence, and derive a tight competitive ratio when penalty terms are $\xi$-approximately monotone non-increasing. Our proposed update rule, referred to as \textit{stability-penalty matching}, also facilitates constructing the Best-Of-Both-Worlds (BOBW) algorithms for stochastic and adversarial environments. In these environments our result contributes to achieve tighter regret bound and broaden the applicability of algorithms for various settings such as multi-armed bandits, graph bandits, linear bandits, and contextual bandits.
翻訳日:2024-03-13 13:39:52 公開日:2024-03-10
# シングルピストン量子エンジン

Single-piston quantum engine ( http://arxiv.org/abs/2403.06065v1 )

ライセンス: Link先を確認
Aleksandr Rodin(参考訳) 作動流体として作用する高調波発振器に基づく単一ピストン量子エンジンを提案する。 ピストンと発振器の相互作用が発振器の波動関数の範囲に依存するという事実を利用して、発振器温度を変化させることでこの相互作用を制御することができる。 相互作用が弱いとき(ホット発振器)にピストンを取り外し、結合が強いとき(コールド発振器)に元の位置に戻すことにより、相互作用が魅力的であると仮定して有用な作業を行うことができる。 エンジンのサイクルは、バスと測定の2つの異なるパワープロトコルを用いて数値シミュレーションされる。 浴槽の衝突モデルを用いて、エンジンは正の作業出力で安定した状態に達することを示した。

A single-piston quantum engine based on a harmonic oscillator acting as the working fluid is proposed. Using the fact that the interaction between the piston and the oscillator depends on the extent of the oscillator wavefunction, one can control this interaction by modifying the oscillator temperature. By retracting the piston when the interaction is weak (hot oscillator) and returning it to the original position when the coupling is strong (cold oscillator), useful work can be performed assuming the interaction is attractive. The cycle of the engine is simulated numerically using two different powering protocols: bath and measurement. Using the collision model for the baths, the engine is shown to reach a steady state with positive work output.
翻訳日:2024-03-13 09:04:44 公開日:2024-03-10
# L$^2$GC:ノード分類のためのローレンツ線形グラフ畳み込みネットワーク

L$^2$GC: Lorentzian Linear Graph Convolutional Networks For Node Classification ( http://arxiv.org/abs/2403.06064v1 )

ライセンス: Link先を確認
Qiuyu Liang, Weihua Wang, Feilong Bao, Guanglai Gao(参考訳) グラフデータのノードを分類するために、線形グラフ畳み込みネットワーク(GCN)が使用される。 しかし、既存のリニアGCNモデルはユークリッド空間でニューラルネットワーク操作を行うため、グラフとしてモデル化された実世界のデータセットで表される木のような階層構造を明示的に捉えない。 本稿では,線形GCNに双曲空間を導入し,ローレンツ線型GCNの新しい枠組みを提案する。 具体的には、グラフノードの学習した特徴を双曲空間にマッピングし、ロレンツ線形特徴変換を行い、基礎となる木のようなデータ構造を捉える。 半教師付き学習を用いた標準引用ネットワークデータセットの実験結果から,Citeseerでは74.7$\%,PubMedでは81.3$\%の新しい最先端結果が得られることがわかった。 さらに,本手法は,PubMedデータセット上の他の非線形GCNモデルよりも最大2桁高速にトレーニングすることができる。 私たちのコードはhttps://github.com/llqy123/llgc-masterで公開しています。

Linear Graph Convolutional Networks (GCNs) are used to classify the node in the graph data. However, we note that most existing linear GCN models perform neural network operations in Euclidean space, which do not explicitly capture the tree-like hierarchical structure exhibited in real-world datasets that modeled as graphs. In this paper, we attempt to introduce hyperbolic space into linear GCN and propose a novel framework for Lorentzian linear GCN. Specifically, we map the learned features of graph nodes into hyperbolic space, and then perform a Lorentzian linear feature transformation to capture the underlying tree-like structure of data. Experimental results on standard citation networks datasets with semi-supervised learning show that our approach yields new state-of-the-art results of accuracy 74.7$\%$ on Citeseer and 81.3$\%$ on PubMed datasets. Furthermore, we observe that our approach can be trained up to two orders of magnitude faster than other nonlinear GCN models on PubMed dataset. Our code is publicly available at https://github.com/llqy123/LLGC-master.
翻訳日:2024-03-13 09:04:14 公開日:2024-03-10
# 目標指向の対話生成のための目標制約付き双方向計画

Target-constrained Bidirectional Planning for Generation of Target-oriented Proactive Dialogue ( http://arxiv.org/abs/2403.06063v1 )

ライセンス: Link先を確認
Jian Wang, Dongding Lin, Wenjie Li(参考訳) ターゲット指向のプロアクティブ対話システムは、指定された項目の推薦や新しい特定のトピックの導入など、対話コンテキストから事前に決定されたターゲットへの会話を導くことを目的としている。 このような対話システムは,会話を積極的に進めるための合理的な行動を計画し,会話を対象の話題にスムーズに進めるための適切なトピックを計画することが重要である。 本研究では,ターゲット指向対話生成のための効果的な対話計画に焦点を当てた。 認知科学における意思決定理論に着想を得て,前向きに振り返って適切な対話経路を計画する,目標制約型双方向計画(TRIP)手法を提案する。 生成タスクとしてプランニングを定式化することにより,2つのトランスフォーマデコーダを用いた<action, topic>ペアからなる対話パスを双方向に生成する。 彼らは互いに監督し、意思決定のギャップを最小化し、目標の対比的な生成を行うことで、一貫した行動やトピックに収束することが期待される。 さらに, 計画過程をよりよく制御するために, 双方向合意を持つ目標制約復号アルゴリズムを提案する。 その後、パイプライン方式で対話生成を誘導するために計画された対話パスを採用し、プロンプトベース生成と計画制御生成の2つの変種を探索する。 ターゲット指向対話を探索するために再利用可能な2つの課題対話データセットについて,広範な実験を行った。 提案手法は,提案手法が様々なベースラインモデルを大きく上回ることを示す。

Target-oriented proactive dialogue systems aim to lead conversations from a dialogue context toward a pre-determined target, such as making recommendations on designated items or introducing new specific topics. To this end, it is critical for such dialogue systems to plan reasonable actions to drive the conversation proactively, and meanwhile, to plan appropriate topics to move the conversation forward to the target topic smoothly. In this work, we mainly focus on effective dialogue planning for target-oriented dialogue generation. Inspired by decision-making theories in cognitive science, we propose a novel target-constrained bidirectional planning (TRIP) approach, which plans an appropriate dialogue path by looking ahead and looking back. By formulating the planning as a generation task, our TRIP bidirectionally generates a dialogue path consisting of a sequence of <action, topic> pairs using two Transformer decoders. They are expected to supervise each other and converge on consistent actions and topics by minimizing the decision gap and contrastive generation of targets. Moreover, we propose a target-constrained decoding algorithm with a bidirectional agreement to better control the planning process. Subsequently, we adopt the planned dialogue paths to guide dialogue generation in a pipeline manner, where we explore two variants: prompt-based generation and plan-controlled generation. Extensive experiments are conducted on two challenging dialogue datasets, which are re-purposed for exploring target-oriented dialogue. Our automatic and human evaluations demonstrate that the proposed methods significantly outperform various baseline models.
翻訳日:2024-03-13 09:03:44 公開日:2024-03-10
# 擬似エルミート超伝導回路における高次例外面

Higher-order exceptional surface in a pseudo-Hermitian superconducting circuit ( http://arxiv.org/abs/2403.06062v1 )

ライセンス: Link先を確認
Guo-Qiang Zhang, Wei Feng, Yu Wang, and Chui-Ping Yang(参考訳) 過去数年間、様々な重要な物理現象と潜在的な応用により、例外曲面(ess)に多くの注意が払われてきた。 しかし、擬エルミート系の高次ESは今のところ報告されていない。 本稿では,擬エルミタン超伝導(SC)回路における高次ESについて検討する。 本提案では,SC回路を3つの円形結合したSC空洞から構成し,利得と損失のバランスをとる。 擬エルミートハミルトニアンの固有値の性質により、三元系 SC に対する一般擬エルミート条件を導出する。 パリティ時対称性を持つ特殊擬エルミートの場合、SC系の3階例外点(EP3s)は、パラメータ空間において3階例外点を形成する。 一般の擬エルミート条件下では、より多くのEP3が発見され、すべてのEP3が表面に位置し、すなわち3階の例外曲面が構築される。 さらに,EP3s周辺における擬エルミートSC回路の固有値についても検討した。 我々の研究は、擬エルミート系における高次ESと関連する応用を探求するための扉を開く。

In the last few years, much attention has been paid to exceptional surfaces (ESs) owing to various important physical phenomena and potential applications. However, high-order ESs in pseudo-Hermitian systems have not been reported until now. Here, we study the high-order ES in a pseudo-Hermitian superconducting (SC) circuit system. In our proposal, the SC circuit system is composed of three circularly coupled SC cavities, where the gain and loss are balanced. According to the eigenvalue properties of the pseudo-Hermitian Hamiltonian, we derive the general pseudo-Hermitian conditions for the ternary SC system. In the special pseudo-Hermitian case with parity-time symmetry, all third-order exceptional points (EP3s) of the SC system form a third-order exceptional line in the parameter space. Under the general pseudo-Hermitian conditions, more EP3s are found, and all EP3s are located on a surface, i.e., a third-order exceptional surface is constructed. Moreover, we also investigate the eigenvalues of the pseudo-Hermitian SC circuit around EP3s. Our work opens up a door for exploring high-order ESs and related applications in pseudo-Hermitian systems.
翻訳日:2024-03-13 09:03:18 公開日:2024-03-10
# 多言語感性分析のためのアンサンブル言語モデル

Ensemble Language Models for Multilingual Sentiment Analysis ( http://arxiv.org/abs/2403.06060v1 )

ライセンス: Link先を確認
Md Arid Hasan(参考訳) ソーシャルメディアの急速な進歩により、ユーザの意見を分析できるようになる。 近年、感情分析は、ソーシャルメディア上で共有されるコンテンツに基づく人間の感情を理解する上で、顕著な研究のギャップを示している。 一般的に話される言語に対する感情分析は著しく進歩しているが、アラビア語のような低リソース言語は資源制限のため研究がほとんど行われていない。 本研究では,SemEval-17 と Arabic Sentiment Tweet データセットのツイートテキストに対する感情分析を行った。 さらに、4つの事前学習言語モデルを調査し、2つのアンサンブル言語モデルを提案する。 その結果,単言語モデルの方が成績が優れ,アンサンブルモデルがベースラインを上回り,多数決のアンサンブルが英語を上回った。

The rapid advancement of social media enables us to analyze user opinions. In recent times, sentiment analysis has shown a prominent research gap in understanding human sentiment based on the content shared on social media. Although sentiment analysis for commonly spoken languages has advanced significantly, low-resource languages like Arabic continue to get little research due to resource limitations. In this study, we explore sentiment analysis on tweet texts from SemEval-17 and the Arabic Sentiment Tweet dataset. Moreover, We investigated four pretrained language models and proposed two ensemble language models. Our findings include monolingual models exhibiting superior performance and ensemble models outperforming the baseline while the majority voting ensemble outperforms the English language.
翻訳日:2024-03-13 09:02:59 公開日:2024-03-10
# クロスモーダル視覚推論のためのテスト時間分布学習アダプタ

Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning ( http://arxiv.org/abs/2403.06059v1 )

ライセンス: Link先を確認
Yi Zhang, Ce Zhang(参考訳) CLIPのようなビジョンランゲージ事前訓練(VLP)モデルは、一般的な視覚表現の学習において顕著な効果を示した。 いくつかのアプローチは、VLPモデルから取得した知識を活用することを目的として、限られた監督で下流タスクにVLPモデルを効率的に適応することを目的としている。 しかし、これらの手法は偏りのある表現を導入するか、高い計算複雑性を必要とするかのいずれかに悩まされており、CLIPモデルを微調整する上での有効性を妨げている。 さらに、モデルが特定のドメイン固有のデータに基づいて訓練されると、非チャートドメインに一般化する能力は低下する。 本研究では,テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。 具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。 視覚的アダプタの予測には、クエリ画像とサポート画像の特徴分布との間のコサイン類似性を用いる。 その後、ビジュアルアダプタの予測は、残留接続を介して元のクリップ予測と統合され、最終的な予測となる。 ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。

Vision-Language Pre-Trained (VLP) models, such as CLIP, have demonstrated remarkable effectiveness in learning generic visual representations. Several approaches aim to efficiently adapt VLP models to downstream tasks with limited supervision, aiming to leverage the acquired knowledge from VLP models. However, these methods suffer from either introducing biased representations or requiring high computational complexity, which hinders their effectiveness in fine-tuning the CLIP model. Moreover, when a model is trained on data specific to a particular domain, its ability to generalize to uncharted domains diminishes. In this work, we propose Test-Time Distribution LearNing Adapter (TT-DNA) which directly works during the testing period. Specifically, we estimate Gaussian distributions to model visual features of the few-shot support images to capture the knowledge from the support set. The cosine similarity between query image and the feature distribution of support images is used as the prediction of visual adapter. Subsequently, the visual adapter's prediction merges with the original CLIP prediction via a residual connection, resulting in the final prediction. Our extensive experimental results on visual reasoning for human object interaction demonstrate that our proposed TT-DNA outperforms existing state-of-the-art methods by large margins.
翻訳日:2024-03-13 09:02:49 公開日:2024-03-10
# 量子物理学における時間と位置の相互排他性と自由落下粒子の対応する不確かさ関係について

On the mutual exclusiveness of time and position in quantum physics and the corresponding uncertainty relation for free falling particles ( http://arxiv.org/abs/2403.06057v1 )

ライセンス: Link先を確認
Mathieu Beau, Lionel Martellini(参考訳) 不確実性原理は量子論の特徴的な性質の1つであり、2種類の測定値の不適合性を示す。 本稿では、x$ 位置における時間的値 $t_x$ と時間的位置 $x_t$ の測定は、量子系に対して相互に排他的であり、それぞれがその系の状態に関する補足的な情報を提供すると論じる。 均一な重力場に落下する質量$m$の量子粒子に対して、対応する不確実性関係は$\Delta T_x \Delta X_t \geq \frac{\hbar}{2mg}$と表現できる。 この不確実性関係は、測定された位置の不確実性を減らすためにシステムの初期状態を作成することによって、測定された時間的不確実性の増加につながるという意味で、疫学的不整合の存在の証拠とみなすことができる。 これらの発見は、自由落下する量子粒子の配置時間の測定に関する現在または今後の実験の文脈で実証的に検証することができる。

The uncertainty principle is one of the characteristic properties of quantum theory, where it signals the incompatibility of two types of measurements. In this paper, we argue that measurements of time-of-arrival $T_x$ at position $x$ and position $X_t$ at time $t$ are mutually exclusive for a quantum system, each providing complementary information about the state of that system. For a quantum particle of mass $m$ falling in a uniform gravitational field $g$, we show that the corresponding uncertainty relation can be expressed as $\Delta T_x \Delta X_t \geq \frac{\hbar}{2mg}$. This uncertainty relationship can be taken as evidence of the presence of a form of epistemic incompatibility in the sense that preparing the initial state of the system so as to decrease the measured position uncertainty will lead to an increase in the measured time-of-arrival uncertainty. These findings can be empirically tested in the context of ongoing or forthcoming experiments on measurements of time-of-arrival for free-falling quantum particles.
翻訳日:2024-03-13 09:02:29 公開日:2024-03-10
# 基底的真理から遠く離れたスプリアス解の欠如--高次損失を伴う低ランク解析

Absence of spurious solutions far from ground truth: A low-rank analysis with high-order losses ( http://arxiv.org/abs/2403.06056v1 )

ライセンス: Link先を確認
Ziye Ma, Ying Chen, Javad Lavaei, Somayeh Sojoudi(参考訳) マトリックスセンシング問題は広く非凸性を示し、最適でないスプリアス解の増殖を伴う緩和最適化を示す。 これらの臨界点への収束を避けることは大きな課題となる。 この研究は、非凸景観の複雑さを解き明かす新しい理論的な洞察を提供する。 本研究では,ある条件下では,基底真理行列から十分離れた臨界点が,局所的極小よりも厳密な鞍点であることから,良好な幾何性を示すことを証明した。 さらに, マトリクスセンシング問題に対する高次損失の概念を導入し, 目的関数にそのような損失を組み込むことで, それらの臨界点周辺の負の曲率を増幅することを示す。 これは、高次損失による目的関数の複雑性の増大は、そのような臨界点からの脱出を加速し、過剰パラメータ化による最適化問題の複雑さの増大に望ましい代替手段となることを意味する。 非凸最適化ランドスケープの重要な特徴を明らかにすることにより、この研究は非凸性に悩む広範な機械学習目標に取り組むための包括的フレームワークへと前進する。

Matrix sensing problems exhibit pervasive non-convexity, plaguing optimization with a proliferation of suboptimal spurious solutions. Avoiding convergence to these critical points poses a major challenge. This work provides new theoretical insights that help demystify the intricacies of the non-convex landscape. In this work, we prove that under certain conditions, critical points sufficiently distant from the ground truth matrix exhibit favorable geometry by being strict saddle points rather than troublesome local minima. Moreover, we introduce the notion of higher-order losses for the matrix sensing problem and show that the incorporation of such losses into the objective function amplifies the negative curvature around those distant critical points. This implies that increasing the complexity of the objective function via high-order losses accelerates the escape from such critical points and acts as a desirable alternative to increasing the complexity of the optimization problem via over-parametrization. By elucidating key characteristics of the non-convex optimization landscape, this work makes progress towards a comprehensive framework for tackling broader machine learning objectives plagued by non-convexity.
翻訳日:2024-03-13 09:02:07 公開日:2024-03-10
# 画像復元のための拡散浄化を伴うデカップリングデータ整合性

Decoupled Data Consistency with Diffusion Purification for Image Restoration ( http://arxiv.org/abs/2403.06054v1 )

ライセンス: Link先を確認
Xiang Li, Soo Min Kwon, Ismail R. Alkhouri, Saiprasad Ravishanka, Qing Qu(参考訳) 拡散モデルは最近、データ分布をモデル化する能力が極めて高いため、画像復元の幅広いタスクに優れ、強力な生成前駆体として注目を集めている。 画像復元問題を解決するために, 拡散モデルの逆サンプリングプロセスに重回帰勾配ステップを組み込むことにより, 既存の手法の多くがデータ一貫性を実現する。 しかし、追加の勾配ステップは、計算オーバーヘッドが大きくなり推論時間が増加するため、実世界の実用的なアプリケーションにとって課題となる。 また、データ一貫性ステップの数は、逆サンプリングステップの数によって制限されるため、加速拡散モデルサンプリング器を使用する際のさらなる困難が生じる。 本研究では,データ一貫性ステップから逆プロセスを切り離し,これらの問題に対処する新しい拡散型画像復元ソルバを提案する。 本手法では,データ一貫性を維持するために再構築相と拡散浄化によって先行を強制する改良相を交互に行う。 提案手法は汎用性を示し,潜在空間における効率的な問題解決に高度に適応する。 さらに、一貫性モデルを統合することで、多数のサンプリングステップの必要性を低減する。 本手法の有効性は,画像のデノイジング,デブラリング,インパインティング,スーパーレゾリューションなど,様々な画像復元タスクにわたる総合的な実験により検証される。

Diffusion models have recently gained traction as a powerful class of deep generative priors, excelling in a wide range of image restoration tasks due to their exceptional ability to model data distributions. To solve image restoration problems, many existing techniques achieve data consistency by incorporating additional likelihood gradient steps into the reverse sampling process of diffusion models. However, the additional gradient steps pose a challenge for real-world practical applications as they incur a large computational overhead, thereby increasing inference time. They also present additional difficulties when using accelerated diffusion model samplers, as the number of data consistency steps is limited by the number of reverse sampling steps. In this work, we propose a novel diffusion-based image restoration solver that addresses these issues by decoupling the reverse process from the data consistency steps. Our method involves alternating between a reconstruction phase to maintain data consistency and a refinement phase that enforces the prior via diffusion purification. Our approach demonstrates versatility, making it highly adaptable for efficient problem-solving in latent space. Additionally, it reduces the necessity for numerous sampling steps through the integration of consistency models. The efficacy of our approach is validated through comprehensive experiments across various image restoration tasks, including image denoising, deblurring, inpainting, and super-resolution.
翻訳日:2024-03-13 09:01:46 公開日:2024-03-10
# 非接触キャシミール摩擦の観察

Observation of non-contact Casimir friction ( http://arxiv.org/abs/2403.06051v1 )

ライセンス: Link先を確認
Zhujing Xu, Peng Ju, Kunhong Shen, Yuanbin Jin, Zubin Jacob, Tongcang Li(参考訳) 量子力学は真空中におけるランダムな電磁場変動(仮想光子)の発生を予測する。 相対運動における2つの物体間の仮想光子の交換は、非接触量子真空摩擦やカシミール摩擦につながる可能性がある。 その理論的意義にもかかわらず、非接触のカシミール摩擦力は観測されておらず、理論的な予測は様々である。 本研究では,2つの移動体間の非接触キャシミール摩擦力の測定を初めて行った。 誘電体中の電子のローレンツモデルよりもはるかに低い共鳴周波数を持つ2つの機械振動子を用いることで、カシミール摩擦力を数桁の相対速度で増幅した。 2つの発振器間の非接触カシミール摩擦力を直接測定し,その速度依存性を示し,カシミール摩擦の散逸性を証明する。 この進歩は、散逸量子電磁力学の分野における重要な貢献であり、ナノスケールにおける摩擦の理解を深める。

Quantum mechanics predicts the occurrence of random electromagnetic field fluctuations, or virtual photons, in vacuum. The exchange of virtual photons between two bodies in relative motion could lead to non-contact quantum vacuum friction or Casimir friction. Despite its theoretical significance, the non-contact Casimir frictional force has not been observed and its theoretical predictions have varied widely. In this work, we report the first measurement of the non-contact Casimir frictional force between two moving bodies. By employing two mechanical oscillators with resonant frequencies far lower than those in Lorentz models of electrons in dielectric materials, we have amplified the Casimir frictional force at low relative velocities by several orders of magnitude. We directly measure the non-contact Casimir frictional force between the two oscillators and show its linear dependence on velocity, proving the dissipative nature of Casimir friction. This advancement marks a pivotal contribution to the field of dissipative quantum electrodynamics and enhances our understanding of friction at the nanoscale.
翻訳日:2024-03-13 09:01:25 公開日:2024-03-10
# 目的を持ったコード記述: コード理解とプロンプトスキル開発のための統合的アプローチ

Explaining Code with a Purpose: An Integrated Approach for Developing Code Comprehension and Prompting Skills ( http://arxiv.org/abs/2403.06050v1 )

ライセンス: Link先を確認
Paul Denny and David H. Smith IV and Max Fowler and James Prather and Brett A. Becker and Juho Leinonen(参考訳) プログラミングを学ぶ初心者にとって、コードの読み書き、理解、説明は伝統的に重要なスキルだった。 大きな言語モデル(LLM)が普及するにつれて、モデル生成コードを理解して評価する必要性が高まっているため、これらの基礎的なスキルはこれまで以上に重要である。 LLMから意図したコードを引き出すことができる明確なプロンプトを定式化する機能など、新しいスキルも必要である。 したがって、従来のコーディング能力とLLMと対話するために必要な新しいスキルの両方を開発するための教育的アプローチの統合に大きな関心がある。 コード理解能力を開発し評価する効果的な方法の1つは、学生が簡潔にコードの断片の目的を説明する「'explain in plain english'」という質問である。 しかし,説明書を主観的に評価するという主観的な性質から,固有質問の採点は常に困難であり,その理解を阻害している。 本稿では,この制限を克服するために,EePE質問とコード生成LLMの自然な相乗効果について検討する。 我々は,学生のEePE質問に対する回答に基づいて,LLMを用いてコードを生成することを提案する。 我々は、このアイデアを入門プログラミングコースで検討し、EePEの課題を解決する効果的なプロンプトを作成する学生の成功を報告した。 また,この活動に対する学生の認識と,学習支援と評価のためのLLMの使用に対する学生の見解への影響についても検討した。

Reading, understanding and explaining code have traditionally been important skills for novices learning programming. As large language models (LLMs) become prevalent, these foundational skills are more important than ever given the increasing need to understand and evaluate model-generated code. Brand new skills are also needed, such as the ability to formulate clear prompts that can elicit intended code from an LLM. Thus, there is great interest in integrating pedagogical approaches for the development of both traditional coding competencies and the novel skills required to interact with LLMs. One effective way to develop and assess code comprehension ability is with ``Explain in plain English'' (EiPE) questions, where students succinctly explain the purpose of a fragment of code. However, grading EiPE questions has always been difficult given the subjective nature of evaluating written explanations and this has stifled their uptake. In this paper, we explore a natural synergy between EiPE questions and code-generating LLMs to overcome this limitation. We propose using an LLM to generate code based on students' responses to EiPE questions -- not only enabling EiPE responses to be assessed automatically, but helping students develop essential code comprehension and prompt crafting skills in parallel. We investigate this idea in an introductory programming course and report student success in creating effective prompts for solving EiPE questions. We also examine student perceptions of this activity and how it influences their views on the use of LLMs for aiding and assessing learning.
翻訳日:2024-03-13 09:01:10 公開日:2024-03-10
# 分類と輪郭に基づく特徴量を用いたテクスチャ画像検索

Texture image retrieval using a classification and contourlet-based features ( http://arxiv.org/abs/2403.06048v1 )

ライセンス: Link先を確認
Asal Rouhafzay, Nadia Baaziz and Mohand Said Allili(参考訳) 本稿では,テクスチャ画像に対するCBIR(Content Based Image Retrieval)を改善するための新しいフレームワークを提案する。 これは、画像中のよりリッチな方向情報を抽出する冗長コンターレット変換の新しい変種であるRCT-Plus変換に基づく新しい画像表現を使用することで実現される。 さらに、RCT-Plus変換の統計的モデリングに適応した類似度指標を用いてデータベースの画像を分類する学習ベースのアプローチにより、画像検索のプロセスを改善する。 次に、クエリを分類して最良テクスチャクラスを選択し、その後、保持されたクラスイメージを上位クラスにランク付けする。 これにより,従来のCBIR方式と比較して,検索率を大幅に改善した。

In this paper, we propose a new framework for improving Content Based Image Retrieval (CBIR) for texture images. This is achieved by using a new image representation based on the RCT-Plus transform which is a novel variant of the Redundant Contourlet transform that extracts a richer directional information in the image. Moreover, the process of image search is improved through a learning-based approach where the images of the database are classified using an adapted similarity metric to the statistical modeling of the RCT-Plus transform. A query is then first classified to select the best texture class after which the retained class images are ranked to select top ones. By this, we have achieved significant improvements in the retrieval rates compared to previous CBIR schemes.
翻訳日:2024-03-13 09:00:43 公開日:2024-03-10
# バニラmlpはニューラル・ラミアンス・フィールドに数ショット・ビュー合成に十分か?

Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View Synthesis? ( http://arxiv.org/abs/2403.06092v1 )

ライセンス: Link先を確認
Hanxin Zhu, Tianyu He, Xin Li, Bingchen Li, Zhibo Chen(参考訳) ニューラル・ラミアンス・フィールド(nerf)は、多層知覚(mlp)とボリュームレンダリング手順でシーンをモデル化することで、新規なビュー合成において優れた性能を達成している。 この問題に対処するため、これまでの取り組みは、学習済みの事前の活用や、追加の正規化の導入に向けられていた。 対照的に,本稿では,ネットワーク構造の観点から初めて直交法を提案する。 モデルパラメータの数を自明に減少させることでオーバーフィッティング問題を軽減できるが,詳細が不足しているため,バニラMLPの入力(位置と方向)を各層に組み込んだマルチインプットMLP(mi-MLP)を提案し,詳細な合成を損なうことなくオーバーフィッティング問題を防止する。 さらに,色と容積密度を別々にモデル化し,二つの正規化項を提示する。 複数のデータセットに関する広範囲な実験が示しています 提案されているmi-MLPは実装が容易だが、ベースラインのPSNRを14.73ドルから24.23ドルに上げると驚くほど効果的である。 2) 全般的なフレームワークは、幅広いベンチマークで最先端の結果を達成する。 コードを公開したらリリースします。

Neural Radiance Field (NeRF) has achieved superior performance for novel view synthesis by modeling the scene with a Multi-Layer Perception (MLP) and a volume rendering procedure, however, when fewer known views are given (i.e., few-shot view synthesis), the model is prone to overfit the given views. To handle this issue, previous efforts have been made towards leveraging learned priors or introducing additional regularizations. In contrast, in this paper, we for the first time provide an orthogonal method from the perspective of network structure. Given the observation that trivially reducing the number of model parameters alleviates the overfitting issue, but at the cost of missing details, we propose the multi-input MLP (mi-MLP) that incorporates the inputs (i.e., location and viewing direction) of the vanilla MLP into each layer to prevent the overfitting issue without harming detailed synthesis. To further reduce the artifacts, we propose to model colors and volume density separately and present two regularization terms. Extensive experiments on multiple datasets demonstrate that: 1) although the proposed mi-MLP is easy to implement, it is surprisingly effective as it boosts the PSNR of the baseline from $14.73$ to $24.23$. 2) the overall framework achieves state-of-the-art results on a wide range of benchmarks. We will release the code upon publication.
翻訳日:2024-03-13 08:54:47 公開日:2024-03-10
# 大容量データを用いた拡散モデルは伝達可能な視覚モデルである

Diffusion Models Trained with Large Data Are Transferable Visual Models ( http://arxiv.org/abs/2403.06090v1 )

ライセンス: Link先を確認
Guangkai Xu, Yongtao Ge, Mingyu Liu, Chengxiang Fan, Kangyang Xie, Zhiyue Zhao, Hao Chen, Chunhua Shen(参考訳) 拡散モデルの事前訓練されたUNet(または変換器)を用いて画像理解モデルの初期化を行うことで、モノクロ深度、表面正規化、画像分割、マッチング、人間のポーズ推定などを含む適度な量の目標データ(合成データのみ)を用いて、基本的な視覚知覚タスクにおいて顕著な伝達性能を達成することができることを示す。 従来の研究は、様々な知覚タスクに拡散モデルを適用しており、拡散プロセスに合わせてこれらのタスクを生成プロセスとして再構成することが多い。 対照的に,これらのモデルを最小限の調整で微調整することは,より効果的な代替手段になり得ることを実証する。 安定拡散モデルのバックボーンネットワークは、数十億の画像からなる巨大なデータセットに基づいて訓練されるため、拡散バックボーンの非常に堅牢な一般化能力が観察される。 実験結果は,多様なタスクと実世界のデータセットにわたる拡散モデルのバックボーンの顕著な転送可能性を示す。

We show that, simply initializing image understanding models using a pre-trained UNet (or transformer) of diffusion models, it is possible to achieve remarkable transferable performance on fundamental vision perception tasks using a moderate amount of target data (even synthetic data only), including monocular depth, surface normal, image segmentation, matting, human pose estimation, among virtually many others. Previous works have adapted diffusion models for various perception tasks, often reformulating these tasks as generation processes to align with the diffusion process. In sharp contrast, we demonstrate that fine-tuning these models with minimal adjustments can be a more effective alternative, offering the advantages of being embarrassingly simple and significantly faster. As the backbone network of Stable Diffusion models is trained on giant datasets comprising billions of images, we observe very robust generalization capabilities of the diffusion backbone. Experimental results showcase the remarkable transferability of the backbone of diffusion models across diverse tasks and real-world datasets.
翻訳日:2024-03-13 08:54:14 公開日:2024-03-10
# 決定木を用いた特徴写像変換による畳み込みニューラルネットワークの知識蒸留

Knowledge Distillation of Convolutional Neural Networks through Feature Map Transformation using Decision Trees ( http://arxiv.org/abs/2403.06089v1 )

ライセンス: Link先を確認
Maddimsetti Srinivas and Debdoot Sheet(参考訳) Deep Neural Networks (DNN)による推論の解釈は、ブラックボックスの性質が認識されているため、いまだに困難である。 したがって、DNNの実際のタスクへのデプロイは、これらのモデルの透明性の欠如によって制限される。 本稿では,畳み込みニューラルネットワーク(cnn)の最終層から特徴を抽出し,その推論への洞察に対処する蒸留手法を提案する。 cnnの最終層における特徴写像は、完全連結層を用いて1次元特徴ベクトルに変換される。 その後、抽出した特徴を用いて決定木をトレーニングし、深さとノードの制約の下で最高の精度を達成する。 我々は,本研究の成果を示すために,医療用MNISTデータセットのDermaMNIST,octMNIST,および肺炎MNISTの医用画像を用いた。 決定木の性能は、最小限の複雑さを持つCNNと同等であることがわかった。 その結果,決定木を用いたCNNによる意思決定の解釈が促進された。

The interpretation of reasoning by Deep Neural Networks (DNN) is still challenging due to their perceived black-box nature. Therefore, deploying DNNs in several real-world tasks is restricted by the lack of transparency of these models. We propose a distillation approach by extracting features from the final layer of the convolutional neural network (CNN) to address insights to its reasoning. The feature maps in the final layer of a CNN are transformed into a one-dimensional feature vector using a fully connected layer. Subsequently, the extracted features are used to train a decision tree to achieve the best accuracy under constraints of depth and nodes. We use the medical images of dermaMNIST, octMNIST, and pneumoniaMNIST from the medical MNIST datasets to demonstrate our proposed work. We observed that performance of the decision tree is as good as a CNN with minimum complexity. The results encourage interpreting decisions made by the CNNs using decision trees.
翻訳日:2024-03-13 08:53:54 公開日:2024-03-10
# 車載用マルチタスク顔属性認識に向けて : 合成データと視覚基盤モデルの検討

Towards In-Vehicle Multi-Task Facial Attribute Recognition: Investigating Synthetic Data and Vision Foundation Models ( http://arxiv.org/abs/2403.06088v1 )

ライセンス: Link先を確認
Esmaeil Seraj and Walter Talamonti(参考訳) 知的な交通システムの分野では、顔の表情、視線、年齢などの顔属性認識による車両とドライバーのインタラクションの強化が、安全性、パーソナライゼーション、ユーザーエクスペリエンス全体において最重要視されている。 しかしながら、大規模で実世界の総合的なデータセットの不足は、堅牢なマルチタスクモデルのトレーニングにおいて大きな課題となる。 既存の文献は、しばしば合成データセットの可能性と、そのような制約された環境での最先端のビジョン基盤モデルの比較効果を見落としている。 本稿では, 視線面, 年齢, 表情など, 車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための, 合成データセットの有用性について検討する。 vit(pre-trained vision transformer)とresnet(resnet)モデルの両方を用いたトランスファーラーニング技術を利用して、特にデータ可用性が制限された場合に、パフォーマンスを最適化するための様々なトレーニングと適応方法を検討する。 本研究では,分布データと分布外推定におけるモデル性能に及ぼす合成データ分布の影響について検討した。 本研究は,タスク複雑性に対するモデル複雑性のミスマッチに起因する,特定のマルチタスクコンテキストにおけるResNet over ViTsの優れた性能について,直感的な結果を示す。 本研究は,合成データと視覚基盤モデルを用いた実用的利用の課題と機会を浮き彫りにする。

In the burgeoning field of intelligent transportation systems, enhancing vehicle-driver interaction through facial attribute recognition, such as facial expression, eye gaze, age, etc., is of paramount importance for safety, personalization, and overall user experience. However, the scarcity of comprehensive large-scale, real-world datasets poses a significant challenge for training robust multi-task models. Existing literature often overlooks the potential of synthetic datasets and the comparative efficacy of state-of-the-art vision foundation models in such constrained settings. This paper addresses these gaps by investigating the utility of synthetic datasets for training complex multi-task models that recognize facial attributes of passengers of a vehicle, such as gaze plane, age, and facial expression. Utilizing transfer learning techniques with both pre-trained Vision Transformer (ViT) and Residual Network (ResNet) models, we explore various training and adaptation methods to optimize performance, particularly when data availability is limited. We provide extensive post-evaluation analysis, investigating the effects of synthetic data distributions on model performance in in-distribution data and out-of-distribution inference. Our study unveils counter-intuitive findings, notably the superior performance of ResNet over ViTs in our specific multi-task context, which is attributed to the mismatch in model complexity relative to task complexity. Our results highlight the challenges and opportunities for enhancing the use of synthetic data and vision foundation models in practical applications.
翻訳日:2024-03-13 08:53:38 公開日:2024-03-10
# アルツハイマー病の不可逆的進行経路を学ぶ

Learning the irreversible progression trajectory of Alzheimer's disease ( http://arxiv.org/abs/2403.06087v1 )

ライセンス: Link先を確認
Yipei Wang, Bing He, Shannon Risacher, Andrew Saykin, Jingwen Yan, Xiaoqian Wang(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、30年にわたって展開する進行性脳疾患である。 したがって、早期に症状の発症前に介入を適用できるように、疾患の進行を捉えることが重要である。 機械学習(ML)モデルは、ADの開始を予測するのに効果的であることが示されている。 しかし、フォローアップ訪問の被験者の場合、既存の広告分類のテクニックは正確なグループ割り当てのみを対象としており、フォローアップ訪問のリスクは単調に増加する。 訪問中に変動するリスクスコアはADの不可逆性に反し、モデルの信頼性を損なうとともに、疾患の進行を理解する上ではほとんど価値を与えない。 そこで本研究では,ADを縦に予測する新しい正規化手法を提案する。 本手法は,表現性を維持しつつ進行中の疾患リスクの増加を期待する単調性を維持することを目的としている。 具体的には、単調性制約を導入し、追跡訪問を通じて一貫した順序で疾患リスクを予測するモデルを提案する。 アルツハイマー病神経画像イニシアチブ(ADNI)の縦構造MRIとアミロイドPET画像データを用いて本手法の評価を行った。 本モデルは,疾患リスクの進行性を把握する既存の手法を上回り,予測精度を保っている。

Alzheimer's disease (AD) is a progressive and irreversible brain disorder that unfolds over the course of 30 years. Therefore, it is critical to capture the disease progression in an early stage such that intervention can be applied before the onset of symptoms. Machine learning (ML) models have been shown effective in predicting the onset of AD. Yet for subjects with follow-up visits, existing techniques for AD classification only aim for accurate group assignment, where the monotonically increasing risk across follow-up visits is usually ignored. Resulted fluctuating risk scores across visits violate the irreversibility of AD, hampering the trustworthiness of models and also providing little value to understanding the disease progression. To address this issue, we propose a novel regularization approach to predict AD longitudinally. Our technique aims to maintain the expected monotonicity of increasing disease risk during progression while preserving expressiveness. Specifically, we introduce a monotonicity constraint that encourages the model to predict disease risk in a consistent and ordered manner across follow-up visits. We evaluate our method using the longitudinal structural MRI and amyloid-PET imaging data from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Our model outperforms existing techniques in capturing the progressiveness of disease risk, and at the same time preserves prediction accuracy.
翻訳日:2024-03-13 08:53:12 公開日:2024-03-10
# 一般化・解釈可能な運動予測に向けて:深変動ベイズアプローチ

Towards Generalizable and Interpretable Motion Prediction: A Deep Variational Bayes Approach ( http://arxiv.org/abs/2403.06086v1 )

ライセンス: Link先を確認
Juanwu Lu, Wei Zhan, Masayoshi Tomizuka, Yeping Hu(参考訳) 混合交通流における自律走行車両の安全性には,周辺車両の潜在的挙動の推定が不可欠である。 最近の最先端技術はディープニューラルネットワークを用いて正確な予測を達成している。 しかし、これらのエンドツーエンドモデルは通常、弱い解釈性と一般化性を持つブラックボックスである。 本稿では,行動予測のための解釈可能な生成モデルであるgoal-based neural variational agent (gneva)を提案する。 このモデルでは,長期目的地の空間分布をガウスの変動混合で推定することにより,目標駆動動作予測を実現する。 地図とエージェントの履歴の因果構造を同定し, 一般化性を高めるために, 後部の変化を導出する。 動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であり、最先端の結果に匹敵する性能が得られることを検証している。

Estimating the potential behavior of the surrounding human-driven vehicles is crucial for the safety of autonomous vehicles in a mixed traffic flow. Recent state-of-the-art achieved accurate prediction using deep neural networks. However, these end-to-end models are usually black boxes with weak interpretability and generalizability. This paper proposes the Goal-based Neural Variational Agent (GNeVA), an interpretable generative model for motion prediction with robust generalizability to out-of-distribution cases. For interpretability, the model achieves target-driven motion prediction by estimating the spatial distribution of long-term destinations with a variational mixture of Gaussians. We identify a causal structure among maps and agents' histories and derive a variational posterior to enhance generalizability. Experiments on motion prediction datasets validate that the fitted model can be interpretable and generalizable and can achieve comparable performance to state-of-the-art results.
翻訳日:2024-03-13 08:52:53 公開日:2024-03-10
# FrameQuant:変換器のフレキシブル低ビット量子化

FrameQuant: Flexible Low-Bit Quantization for Transformers ( http://arxiv.org/abs/2403.06082v1 )

ライセンス: Link先を確認
Harshavardhan Adepu, Zhanpeng Zeng, Li Zhang, Vikas Singh(参考訳) トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。 しかし、計算とメモリ/ストレージのフットプリントは大きいため、そのようなモデルを提供するにはハイエンドのハードウェアを必要とすることが多い。 この難しさを軽減するために、Post-Training Quantizationは、事前訓練されたモデルを変更し、それを8ビット以下に量子化し、計算/メモリ/レイテンシ効率を大幅に向上させようとしている。 このようなモデルは4ビットに量子化され、性能が低下している。 本研究では,Transformerをベースとしたモデルを,わずかに精度を低下させるだけで,わずか2ビット(オーバーヘッドを含む)に定量化する簡単なスキームを概説する。 我々の定式化の鍵は、融合フレームと呼ばれる調和解析から借用された概念である。 我々の主な発見は、量子化は元の重み空間ではなく、融合フレーム表現において行われるべきであるということである。 量子化がノイズの追加と解釈される場合、我々のキャスティングは、既知の一貫性のある回復と雑音のロバスト性保証の広範なボディを呼び出すことを可能にする。 さらに、もし望めば、非雑音フィルタは閉形式で知られている。 様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。

Transformers are the backbone of powerful foundation models for many Vision and Natural Language Processing tasks. But their compute and memory/storage footprint is large, and so, serving such models is expensive often requiring high-end hardware. To mitigate this difficulty, Post-Training Quantization seeks to modify a pre-trained model and quantize it to eight bits or lower, significantly boosting compute/memory/latency efficiency. Such models have been successfully quantized to four bits with some performance loss. In this work, we outline a simple scheme to quantize Transformer-based models to just two bits (plus some overhead) with only a small drop in accuracy. Key to our formulation is a concept borrowed from Harmonic analysis called Fusion Frames. Our main finding is that the quantization must take place not in the original weight space, but instead in the Fusion Frame representations. If quantization is interpreted as the addition of noise, our casting of the problem allows invoking an extensive body of known consistent recovery and noise robustness guarantees. Further, if desired, de-noising filters are known in closed form. We show empirically, via a variety of experiments, that (almost) two-bit quantization for Transformer models promises sizable efficiency gains.
翻訳日:2024-03-13 08:52:38 公開日:2024-03-10
# 局所頂点色付きグラフニューラルネットワーク

Local Vertex Colouring Graph Neural Networks ( http://arxiv.org/abs/2403.06080v1 )

ライセンス: Link先を確認
Shouheng Li, Dongwoo Kim, Qing Wang(参考訳) 近年、Weisfeiler-Lehman (1-WL)フレームワーク以外のグラフニューラルネットワーク(GNN)の表現性の拡張に重点を置く研究が数多く行われている。 これらの研究の多くは表現性の進歩をもたらすが、効率の低下や特定の種類のグラフに制限されることがしばしばある。 本研究では,グラフ探索の観点からGNNの表現性について検討する。 具体的には,新しい頂点彩色スキームを提案し,古典探索アルゴリズムが1-wlを超えるグラフ表現を効率的に計算できることを実証する。 色付けスキームはグラフ検索から有用な特性を継承し、グラフバイコネクティビティのような問題を解決するのに役立つことを示す。 さらに,特定の条件下では,GNNの表現率が探索近傍の半径とともに階層的に増加することを示す。 提案手法をさらに検討するため,1-wl上にキャプチャ可能なグラフ特性を強調する,幅優先探索と深さ優先探索という2つの探索戦略に基づく新しいタイプのgnnを開発した。 私たちのコードはhttps://github.com/seanli3/lvcで利用可能です。

In recent years, there has been a significant amount of research focused on expanding the expressivity of Graph Neural Networks (GNNs) beyond the Weisfeiler-Lehman (1-WL) framework. While many of these studies have yielded advancements in expressivity, they have frequently come at the expense of decreased efficiency or have been restricted to specific types of graphs. In this study, we investigate the expressivity of GNNs from the perspective of graph search. Specifically, we propose a new vertex colouring scheme and demonstrate that classical search algorithms can efficiently compute graph representations that extend beyond the 1-WL. We show the colouring scheme inherits useful properties from graph search that can help solve problems like graph biconnectivity. Furthermore, we show that under certain conditions, the expressivity of GNNs increases hierarchically with the radius of the search neighbourhood. To further investigate the proposed scheme, we develop a new type of GNN based on two search strategies, breadth-first search and depth-first search, highlighting the graph properties they can capture on top of 1-WL. Our code is available at https://github.com/seanli3/lvc.
翻訳日:2024-03-13 08:52:17 公開日:2024-03-10
# 準同型レンズによるグラフニューラルネットワークの一般化

Generalization of Graph Neural Networks through the Lens of Homomorphism ( http://arxiv.org/abs/2403.06079v1 )

ライセンス: Link先を確認
Shouheng Li, Dongwoo Kim, Qing Wang(参考訳) グラフニューラルネットワーク(GNN)が多くのアプリケーションで広く普及しているにもかかわらず、GNNの一般化能力はいまだ検討されていない。 本稿では、グラフ準同型のエントロピー解析という新しい視点を通して、gnnの一般化を研究することを提案する。 グラフ準同型と情報理論測度を結びつけることにより、グラフ分類とノード分類の両方の一般化境界を導出する。 これらの境界は、パス、サイクル、傾きなど、様々なグラフ構造に固有の微妙さを捉えることができる。 これにより、堅牢な理論的保証を持つデータ依存の一般化分析が可能になる。 提案した境界の一般性に光を当てるために、グラフ準同型レンズを通してGNNモデルの広いスペクトルを特徴付ける統一フレームワークを提案する。 提案する境界と実世界と合成データセットの双方で経験的に観察された一般化ギャップの一致を示すことにより,理論的な知見の実用的適用性を検証する。

Despite the celebrated popularity of Graph Neural Networks (GNNs) across numerous applications, the ability of GNNs to generalize remains less explored. In this work, we propose to study the generalization of GNNs through a novel perspective - analyzing the entropy of graph homomorphism. By linking graph homomorphism with information-theoretic measures, we derive generalization bounds for both graph and node classifications. These bounds are capable of capturing subtleties inherent in various graph structures, including but not limited to paths, cycles and cliques. This enables a data-dependent generalization analysis with robust theoretical guarantees. To shed light on the generality of of our proposed bounds, we present a unifying framework that can characterize a broad spectrum of GNN models through the lens of graph homomorphism. We validate the practical applicability of our theoretical findings by showing the alignment between the proposed bounds and the empirically observed generalization gaps over both real-world and synthetic datasets.
翻訳日:2024-03-13 08:51:59 公開日:2024-03-10
# ウガンダにおけるナウラシオン・ド・サルド事件 : ウガンダにおけるテロ・フノノス・ム・オヴィレスの戦闘

Sistemas de informaci\'on de salud en contextos extremos: Uso de tel\'efonos m\'oviles para combatir el sida en Uganda ( http://arxiv.org/abs/2403.06076v1 )

ライセンス: Link先を確認
Livingstone Njuba (1 and 2), Juan E. G\'omez-Morantes (3), Andrea Herrera (4), Sonia Camacho (4) ((1) Kalangala Infrastructure Services Ltd., (2) University of Manchester, (3) Pontificia Universidad Javeriana, (4) Universidad de los Andes)(参考訳) HIV/AIDSのパンデミックは世界的な問題であり、いくつかの国に不平等に影響を与えている。 この状況の複雑さと人間のドラマは、最も影響を受けるものを表しているため、いくつかの分野がこの状況の解決または緩和に寄与し、情報システム(is)分野はこれらの取り組みから欠落していない。 抗レトロウイルス療法(art:antiretroviral therapy)の出発点としての重要性から、is分野におけるいくつかのイニシアチブは、この治療の定着と有効性を改善する方法に焦点を当てている。 しかし、これらのソリューションの多くは、このパンデミックの影響を最も受けているグローバル・サウスのいくつかの国で実施や展開が困難である。 本稿ではそのような事例を一つ提示する。 ウガンダのカラガラ地域におけるHIV患者に対するm-healthシステムについて,ケーススタディアプローチと極端な選択法を用いて検討した。 データ分析にheeksの設計と現実のギャップモデルを用いることで、このようなシステムの設計やデプロイにおいて、ソーシャルコンテキストとテクノロジの間のリッチなインタラクションが中心的な関心事であると考えられることを示しました。

The HIV/AIDS pandemic is a global issue that has unequally affected several countries. Due to the complexity of this condition and the human drama it represents to those most affected by it, several fields have contributed to solving or at least alleviating this situation, and the information systems (IS) field has not been absent from these efforts. With the importance of antiretroviral therapy (ART) as a starting point, several initiatives in the IS field have focused on ways to improve the adherence and effectiveness of this therapy: mobile phone reminders (for pill intake and appointments), and mobile interfaces between patients and health workers are popular contributions. However, many of these solutions have been difficult to implement or deploy in some countries in the Global South, which are among the most affected by this pandemic. This paper presents one such case. Using a case-study approach with an extreme-case selection technique, the paper studies an m-health system for HIV patients in the Kalangala region of Uganda. Using Heeks' design-reality gap model for data analysis, the paper shows that the rich interaction between social context and technology should be considered a central concern when designing or deploying such systems.
翻訳日:2024-03-13 08:51:43 公開日:2024-03-10
# マルチサイズデータセット凝縮

Multisize Dataset Condensation ( http://arxiv.org/abs/2403.06075v1 )

ライセンス: Link先を確認
Yang He, Lingao Xiao, Joey Tianyi Zhou, Ivor Tsang(参考訳) データセットの凝縮はトレーニング効率を効果的に向上させるが、デバイス上のシナリオにおけるその応用にはユニークな課題が伴う。 1) これらのデバイスの変動する計算資源のため、予め定義されたサイズから分岐する柔軟なデータセットサイズが要求される。 2) デバイス上の計算能力の制限は, 付加的な凝縮操作をしばしば防止する。 これらの2つの課題は、従来のデータセットの凝縮における「サブセット劣化問題」と結びついている。 本稿では,n個の凝縮過程を単一の凝縮過程に圧縮し,複数サイズのデータセットを得るマルチサイズデータセット凝縮(mdc)を提案する。 具体的には、「サブセット劣化問題」を軽減するため、基本凝縮損失の上に「適応部分集合損失」を導入する。 MDC法にはいくつかの利点がある。 1)追加の凝縮処理は不要である。 2) 凝縮画像の再使用によるストレージ要件の削減。 実験では、ConvNet、ResNet、DenseNet、SVHN、CIFAR-10、CIFAR-100、ImageNetなどのデータセットについて実験を行った。 例えば,CIFAR-10を10画像に縮合すると,平均精度が6.40%向上した。 コードはhttps://github.com/he-y/multisize-dataset-condensationで入手できる。

While dataset condensation effectively enhances training efficiency, its application in on-device scenarios brings unique challenges. 1) Due to the fluctuating computational resources of these devices, there's a demand for a flexible dataset size that diverges from a predefined size. 2) The limited computational power on devices often prevents additional condensation operations. These two challenges connect to the "subset degradation problem" in traditional dataset condensation: a subset from a larger condensed dataset is often unrepresentative compared to directly condensing the whole dataset to that smaller size. In this paper, we propose Multisize Dataset Condensation (MDC) by compressing N condensation processes into a single condensation process to obtain datasets with multiple sizes. Specifically, we introduce an "adaptive subset loss" on top of the basic condensation loss to mitigate the "subset degradation problem". Our MDC method offers several benefits: 1) No additional condensation process is required; 2) reduced storage requirement by reusing condensed images. Experiments validate our findings on networks including ConvNet, ResNet and DenseNet, and datasets including SVHN, CIFAR-10, CIFAR-100 and ImageNet. For example, we achieved 6.40% average accuracy gains on condensing CIFAR-10 to ten images per class. Code is available at: https://github.com/he-y/Multisize-Dataset-Condensation.
翻訳日:2024-03-13 08:51:19 公開日:2024-03-10
# 教師なしセマンティックハッシュのためのビットマスクロバストコントラスト知識蒸留

Bit-mask Robust Contrastive Knowledge Distillation for Unsupervised Semantic Hashing ( http://arxiv.org/abs/2403.06071v1 )

ライセンス: Link先を確認
Liyang He, Zhenya Huang, Jiayu Liu, Enhong Chen, Fei Wang, Jing Sha, Shijin Wang(参考訳) 教師なしのセマンティックハッシュは、ラベルに依存することなく、イメージをバイナリハッシュコードに変換することを目的とした、高速画像検索に欠かせないテクニックとして登場した。 この分野の最近の進歩は、教師なしのセマンティックハッシュモデルに大規模なバックボーン(vitなど)を使用することで大幅に改善できることを示している。 しかし、推測遅延は見落としがますます難しくなっている。 知識蒸留は、この遅延を軽減するための実用的なモデル圧縮の手段を提供する。 それでも、一般的な知識蒸留アプローチは、セマンティックハッシュのために明示的に設計されていない。 彼らは、セマンティックハッシュのユニークな検索パラダイム、蒸留プロセスの固有の必須性、ハッシュコードの特性を無視している。 本稿では, セマンティックハッシュモデルの蒸留のために考案された, 革新的なBit-mask Robust Contrastive Knowledge Distillation (BRCD)法を提案する。 意味ハッシュの文脈における2種類の探索パラダイムの有効性を確保するため,BRCDは教師と生徒のモデル間の意味空間を,対照的な知識蒸留の目的を通じて整列させる。 さらに,ノイズの増大を排除し,ロバストな最適化を確保するために,知識蒸留プロセス内のクラスタベースの手法を導入している。 さらに,ビットレベルの解析により,ビット独立性に起因する冗長性ビットの存在を明らかにする。 これらの効果を緩和するため,我々は知識蒸留目的にビットマスク機構を導入する。 最後に, BRCD法の性能を他の知識蒸留法と比較するだけでなく, 多様な意味ハッシュモデルやバックボーンにまたがる手法の汎用性を実証した。 BRCDのコードはhttps://github.com/hly1998/BRCDで公開されている。

Unsupervised semantic hashing has emerged as an indispensable technique for fast image search, which aims to convert images into binary hash codes without relying on labels. Recent advancements in the field demonstrate that employing large-scale backbones (e.g., ViT) in unsupervised semantic hashing models can yield substantial improvements. However, the inference delay has become increasingly difficult to overlook. Knowledge distillation provides a means for practical model compression to alleviate this delay. Nevertheless, the prevailing knowledge distillation approaches are not explicitly designed for semantic hashing. They ignore the unique search paradigm of semantic hashing, the inherent necessities of the distillation process, and the property of hash codes. In this paper, we propose an innovative Bit-mask Robust Contrastive knowledge Distillation (BRCD) method, specifically devised for the distillation of semantic hashing models. To ensure the effectiveness of two kinds of search paradigms in the context of semantic hashing, BRCD first aligns the semantic spaces between the teacher and student models through a contrastive knowledge distillation objective. Additionally, to eliminate noisy augmentations and ensure robust optimization, a cluster-based method within the knowledge distillation process is introduced. Furthermore, through a bit-level analysis, we uncover the presence of redundancy bits resulting from the bit independence property. To mitigate these effects, we introduce a bit mask mechanism in our knowledge distillation objective. Finally, extensive experiments not only showcase the noteworthy performance of our BRCD method in comparison to other knowledge distillation methods but also substantiate the generality of our methods across diverse semantic hashing models and backbones. The code for BRCD is available at https://github.com/hly1998/BRCD.
翻訳日:2024-03-13 08:50:57 公開日:2024-03-10
# Reframe Anything: LLM Agent for Open World Video Reframing

Reframe Anything: LLM Agent for Open World Video Reframing ( http://arxiv.org/abs/2403.06070v1 )

ライセンス: Link先を確認
Jiawang Cao, Yongliang Wu, Weiheng Chi, Wenbo Zhu, Ziyue Su, Jay Wu(参考訳) モバイルデバイスやソーシャルメディアの普及はコンテンツの拡散に革命をもたらし、短いビデオが普及している。 このシフトは、ビデオの最も魅力的な部分を強調するプロセスである、さまざまな画面アスペクト比に適合するビデオ再フレーミングの課題を導入した。 伝統的に、ビデオリフレーミングはプロの専門知識を必要とする手作業であり、生産コストが高い。 潜在的な解決策は、ビデオサルエントオブジェクト検出など、いくつかの機械学習モデルを採用してプロセスを自動化することだ。 しかし、これらの手法は、特定の訓練データに依存するため、しばしば一般化可能性に欠ける。 強力な大規模言語モデル(LLM)の出現は、AI機能のための新たな道を開く。 これに基づいて、視覚基盤モデルと人間の指示を利用して映像リフレーミングのための視覚コンテンツを再構成するLLMベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。 ravaは、ユーザの指示とビデオコンテンツを解釈する知覚、アスペクト比と再フレーミング戦略を決定する計画、最終的なビデオを生成するために編集ツールを呼び出す実行の3段階で動作する。 本実験は,ビデオサリエント物体検出と実世界のリフレーミングタスクにおけるravaの有効性を検証し,aiを活用した映像編集ツールとしての可能性を示す。

The proliferation of mobile devices and social media has revolutionized content dissemination, with short-form video becoming increasingly prevalent. This shift has introduced the challenge of video reframing to fit various screen aspect ratios, a process that highlights the most compelling parts of a video. Traditionally, video reframing is a manual, time-consuming task requiring professional expertise, which incurs high production costs. A potential solution is to adopt some machine learning models, such as video salient object detection, to automate the process. However, these methods often lack generalizability due to their reliance on specific training data. The advent of powerful large language models (LLMs) open new avenues for AI capabilities. Building on this, we introduce Reframe Any Video Agent (RAVA), a LLM-based agent that leverages visual foundation models and human instructions to restructure visual content for video reframing. RAVA operates in three stages: perception, where it interprets user instructions and video content; planning, where it determines aspect ratios and reframing strategies; and execution, where it invokes the editing tools to produce the final video. Our experiments validate the effectiveness of RAVA in video salient object detection and real-world reframing tasks, demonstrating its potential as a tool for AI-powered video editing.
翻訳日:2024-03-13 08:50:30 公開日:2024-03-10
# CT超解像・復調用インシシシットイメージ・トゥ・イメージ・シュロディンガーブリッジ

Implicit Image-to-Image Schrodinger Bridge for CT Super-Resolution and Denoising ( http://arxiv.org/abs/2403.06069v1 )

ライセンス: Link先を確認
Yuang Wang, Siyeop Yoon, Pengfei Jin, Matthew Tivnan, Zhennong Chen, Rui Hu, Li Zhang, Zhiqiang Chen, Quanzheng Li, and Dufan Wu(参考訳) 条件拡散モデルでは,画像復元作業の有効性が認識されているが,ガウス雑音を起点とする反復的除音処理では,推定速度が遅くなることが多い。 有望な代替手段として、画像から画像へのシュリンガーブリッジ(I2SB)は、破損した画像から生成過程を初期化し、条件付き拡散モデルからトレーニング技術を統合する。 本研究では,インプリシット画像から画像へのシュロディンガーブリッジ (I3SB) を導入してI2SB法を拡張し,その生成過程を,各生成工程に劣化画像を組み込むことで非マルコフ過程に移行する。 この強化により、I3SBは少数の生成ステップを使用して、より優れたテクスチャ復元の画像を生成することができる。 提案手法は,CT超解像および復調タスクにおいて,視覚的品質と定量的指標の両方において,条件付き復調拡散確率モデル(cDDPM)やI2SBなどの既存手法よりも優れていた。 これらの知見は、高速かつ正確な生成モデルを提供することで、医用画像修復におけるI3SBの可能性を示している。

Conditional diffusion models have gained recognition for their effectiveness in image restoration tasks, yet their iterative denoising process, starting from Gaussian noise, often leads to slow inference speeds. As a promising alternative, the Image-to-Image Schr\"odinger Bridge (I2SB) initializes the generative process from corrupted images and integrates training techniques from conditional diffusion models. In this study, we extended the I2SB method by introducing the Implicit Image-to-Image Schrodinger Bridge (I3SB), transitioning its generative process to a non-Markovian process by incorporating corrupted images in each generative step. This enhancement empowers I3SB to generate images with better texture restoration using a small number of generative steps. The proposed method was validated on CT super-resolution and denoising tasks and outperformed existing methods, including the conditional denoising diffusion probabilistic model (cDDPM) and I2SB, in both visual quality and quantitative metrics. These findings underscore the potential of I3SB in improving medical image restoration by providing fast and accurate generative modeling.
翻訳日:2024-03-13 08:50:09 公開日:2024-03-10
# 因果セルセグメンタ:病的画像分割のための多角化凝集畳み込みに触発された因果推論

CausalCellSegmenter: Causal Inference inspired Diversified Aggregation Convolution for Pathology Image Segmentation ( http://arxiv.org/abs/2403.06066v1 )

ライセンス: Link先を確認
Dawei Fan, Yifan Gao, Jiaming Yu, Yanping Chen, Wencheng Li, Chuancong Lin, Kaibin Li, Changcai Yang, Riqing Chen, Lifang Wei(参考訳) 深層学習モデルは病理画像解析の分野で細胞核の分節化に有望な性能を示している。 しかし、複数の領域から堅牢なモデルをトレーニングすることは、細胞核のセグメンテーションにとって大きな課題である。 さらに、バックグラウンドノイズの欠点、細胞核間の高い重なり合い、ぼやけたエッジは、しばしば性能を低下させる。 これらの課題に対処するために,causalcellsegmenterと呼ばれる新しいフレームワークを提案し,causal inference module(cim)とdac(diversified aggregation convolution)技術を組み合わせる。 DACモジュールは、単純なパラメータフリーアテンションモジュール(SimAM)を通じて多様なダウンサンプリング機能を組み込んで設計されており、偽陽性の識別とエッジのぼかしの問題を克服することを目的としている。 さらに, サンプル重み付けにCIMを導入し, 入力サンプル毎に特徴とラベルの相関関係を直接取り除き, 特徴とラベルの相関関係を集中させる。 MoNuSeg-2018データセットの大規模な実験は有望な結果をもたらし、mIoUとDSCのスコアが3.6%と2.65%上昇する他の最先端手法よりも優れている。

Deep learning models have shown promising performance for cell nucleus segmentation in the field of pathology image analysis. However, training a robust model from multiple domains remains a great challenge for cell nucleus segmentation. Additionally, the shortcomings of background noise, highly overlapping between cell nucleus, and blurred edges often lead to poor performance. To address these challenges, we propose a novel framework termed CausalCellSegmenter, which combines Causal Inference Module (CIM) with Diversified Aggregation Convolution (DAC) techniques. The DAC module is designed which incorporates diverse downsampling features through a simple, parameter-free attention module (SimAM), aiming to overcome the problems of false-positive identification and edge blurring. Furthermore, we introduce CIM to leverage sample weighting by directly removing the spurious correlations between features for every input sample and concentrating more on the correlation between features and labels. Extensive experiments on the MoNuSeg-2018 dataset achieves promising results, outperforming other state-of-the-art methods, where the mIoU and DSC scores growing by 3.6% and 2.65%.
翻訳日:2024-03-13 08:49:46 公開日:2024-03-10
# 凍結視覚言語モデルを用いたテスト時視覚認識のための文脈内プロンプト学習

In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model ( http://arxiv.org/abs/2403.06126v1 )

ライセンス: Link先を確認
Junhui Yin, Xinyu Zhang, Lin Wu, Xianghua Xie, Xiaojie Wang(参考訳) 既存の訓練済みの視覚言語モデル(例えばCLIP)は、様々な下流タスクでゼロショットの一般化機能を示す。 しかし、これらのモデルの性能は、テスト入力が異なる分布を示すと著しく低下する。 そこで本研究では,テストサンプルを含む教師なし目的に対する最適化を1ステップのみ行うことで,下流タスクにクリップモデルを適用することを可能にするttpt(test-time prompt tuning)の概念を検討する。 自然言語処理(nlp)の分野でのインコンテキスト学習に動機づけられ,テスト時視覚認識タスクのためのインコンテキストプロンプト学習(incpl)を提案する。 InCPLは、インコンテキストプロンプトとしてラベル付けされた1つの例で新しいテストサンプルを関連付ける。 これにより、テストサンプルのラベルを確実に推定することができ、モデル適応プロセスが容易になる。 InCPLは最初にトークンネットを使用して、言語記述をCLIPモデルのビジョンエンコーダが理解できる視覚的プロンプトとして表現する。 コンテキスト内例と組み合わせることで、テストサンプル対応の視覚的プロンプトを最適化する、コンテキスト対応非教師付き損失を提案する。 この最適化により、事前訓練された凍結クリップモデルは、学習した適応プロンプトを使用して、任意のタスクからテストサンプルに適応することができる。 提案手法は,様々なダウンストリームデータセットにおいて,優れた性能を示し,最先端の結果を得た。

Existing pre-trained vision-language models, e.g., CLIP, have demonstrated impressive zero-shot generalization capabilities in various downstream tasks. However, the performance of these models will degrade significantly when test inputs present different distributions. To this end, we explore the concept of test-time prompt tuning (TTPT), which enables the adaptation of the CLIP model to novel downstream tasks through only one step of optimization on an unsupervised objective that involves the test sample. Motivated by in-context learning within field of natural language processing (NLP), we propose In-Context Prompt Learning (InCPL) for test-time visual recognition task. InCPL involves associating a new test sample with very few or even just one labeled example as its in-context prompt. As a result, it can reliably estimate a label for the test sample, thereby facilitating the model adaptation process. InCPL first employs a token net to represent language descriptions as visual prompts that the vision encoder of a CLIP model can comprehend. Paired with in-context examples, we further propose a context-aware unsupervised loss to optimize test sample-aware visual prompts. This optimization allows a pre-trained, frozen CLIP model to be adapted to a test sample from any task using its learned adaptive prompt. Our method has demonstrated superior performance and achieved state-of-the-art results across various downstream datasets.
翻訳日:2024-03-13 08:33:54 公開日:2024-03-10
# PSS-BA: プログレッシブ空間平滑化によるLiDARバンドル調整

PSS-BA: LiDAR Bundle Adjustment with Progressive Spatial Smoothing ( http://arxiv.org/abs/2403.06124v1 )

ライセンス: Link先を確認
Jianping Li, Thien-Minh Nguyen, Shenghai Yuan, and Lihua Xie(参考訳) LiDARスキャンデータからの点雲の高精度で一貫した構築は、3Dモデリングアプリケーションに不可欠である。 マルチビューポイントクラウド登録やlidarバンドル調整のような現在のソリューションは、主に局所平面仮定に依存しており、平面ジオメトリや実質的な初期ポーズエラーがない複雑な環境では不十分である。 この問題を軽減するため,本論文では,複雑な環境に適した空間平滑化を伴うlidarバンドル調整を提案する。 提案手法は空間平滑化モジュールとポーズ調整モジュールから構成され,局所的な一貫性と大域的精度の利点を組み合わせた。 空間平滑化モジュールでは,様々なスケールにわたる平滑化カーネルを用いて,堅牢でリッチな表面制約を得ることができる。 そして、ポーズ調整モジュールは、新しい表面制約を利用してすべてのポーズを補正する。 最終的に,提案手法は,高品質な点雲再構成に直接使用できる微細なポーズとパラメトリック面を同時に達成する。 提案手法の有効性とロバスト性をシミュレーションと実世界のデータセットで検証した。 実験の結果,提案手法は既存の手法よりも優れており,平面構造の低い複雑な環境では精度が向上することがわかった。

Accurate and consistent construction of point clouds from LiDAR scanning data is fundamental for 3D modeling applications. Current solutions, such as multiview point cloud registration and LiDAR bundle adjustment, predominantly depend on the local plane assumption, which may be inadequate in complex environments lacking of planar geometries or substantial initial pose errors. To mitigate this problem, this paper presents a LiDAR bundle adjustment with progressive spatial smoothing, which is suitable for complex environments and exhibits improved convergence capabilities. The proposed method consists of a spatial smoothing module and a pose adjustment module, which combines the benefits of local consistency and global accuracy. With the spatial smoothing module, we can obtain robust and rich surface constraints employing smoothing kernels across various scales. Then the pose adjustment module corrects all poses utilizing the novel surface constraints. Ultimately, the proposed method simultaneously achieves fine poses and parametric surfaces that can be directly employed for high-quality point cloud reconstruction. The effectiveness and robustness of our proposed approach have been validated on both simulation and real-world datasets. The experimental results demonstrate that the proposed method outperforms the existing methods and achieves better accuracy in complex environments with low planar structures.
翻訳日:2024-03-13 08:33:28 公開日:2024-03-10
# 共分散アライメントと意味構成コントラスト学習によるスタイルブラインド領域一般化意味セグメンテーション

Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive Learning ( http://arxiv.org/abs/2403.06122v1 )

ライセンス: Link先を確認
Woo-Jin Ahn, Geun-Yeong Yang, Hyun-Duck Choi, and Myo-Taeg Lim(参考訳) セマンティックセグメンテーションのためのディープラーニングモデルは、トレーニングフェーズ中に未確認のターゲットドメインにデプロイされた場合、パフォーマンス劣化を経験することが多い。 これは主に異なるデータソースからのイメージテクスチャ(\ieスタイル)の変化によるものである。 この課題に対処するために、既存のドメイン一般化セマンティックセマンティックセマンティクス(DGSS)メソッドは、その機能からスタイルのバリエーションを取り除こうとする。 しかし、これらのアプローチはスタイルとコンテンツの絡み合いに苦しむため、重要なコンテンツ情報が意図せず削除され、パフォーマンスが低下する可能性がある。 本研究では,外部モジュールやデータセットを使わずにスタイルをブラインドする新しいdssアプローチであるblindnetを提案することで,この制限に対処する。 提案手法の背景にある主な考え方は、デコーダの堅牢なセグメンテーションを容易にしながら、エンコーダのスタイルの効果を緩和することである。 これを実現するためにBlindNetは,共分散アライメントとセマンティックコントラスト学習という,2つの重要なコンポーネントで構成されている。 具体的には、共分散アライメントはエンコーダに、スタイルに敏感な要素を取り除くのではなく、様々なスタイルを統一的に認識し、特徴の内容情報を保存するように訓練する。 一方、意味的一貫性の対比学習により、デコーダはクラス埋め込み空間を識別的に構築でき、誤分類に弱い特徴を分離することができる。 大規模な実験を通じて,本手法は既存のDGSS手法より優れており,未確認対象ドメインに対するセマンティックセグメンテーションの堅牢性と優れた性能を示す。

Deep learning models for semantic segmentation often experience performance degradation when deployed to unseen target domains unidentified during the training phase. This is mainly due to variations in image texture (\ie style) from different data sources. To tackle this challenge, existing domain generalized semantic segmentation (DGSS) methods attempt to remove style variations from the feature. However, these approaches struggle with the entanglement of style and content, which may lead to the unintentional removal of crucial content information, causing performance degradation. This study addresses this limitation by proposing BlindNet, a novel DGSS approach that blinds the style without external modules or datasets. The main idea behind our proposed approach is to alleviate the effect of style in the encoder whilst facilitating robust segmentation in the decoder. To achieve this, BlindNet comprises two key components: covariance alignment and semantic consistency contrastive learning. Specifically, the covariance alignment trains the encoder to uniformly recognize various styles and preserve the content information of the feature, rather than removing the style-sensitive factor. Meanwhile, semantic consistency contrastive learning enables the decoder to construct discriminative class embedding space and disentangles features that are vulnerable to misclassification. Through extensive experiments, our approach outperforms existing DGSS methods, exhibiting robustness and superior performance for semantic segmentation on unseen target domains.
翻訳日:2024-03-13 08:33:08 公開日:2024-03-10
# CLEAR: 事前訓練された言語モデルを持つクロストランスフォーマーは、個人属性認識と検索に必要なもの

CLEAR: Cross-Transformers with Pre-trained Language Model is All you need for Person Attribute Recognition and Retrieval ( http://arxiv.org/abs/2403.06119v1 )

ライセンス: Link先を確認
Doanh C. Bui, Thinh V. Le, Hung Ba Ngo, Tae Jong Choi(参考訳) 人的属性認識と属性に基づく検索は、人間中心の2つのタスクである。 認識タスクでは、人物の外観に応じて属性を指定するのが課題であり、検索タスクは属性クエリに基づいて人物のマッチングを検索する。 認識タスクと検索タスクの間には大きな関係がある。 本研究では,人的属性認識に十分頑健なネットワークが存在する場合,検索タスクの性能向上のために適応可能であることを示す。 検索タスクで対処する必要があるもう1つの問題は、属性クエリと人のイメージの間のモダリティギャップである。 そこで本稿では,両課題に対処する統合ネットワークであるCLEARを提案する。 個人属性認識のための頑健なクロストランスフォーマーネットワークを導入する。 さらに,事前学習された言語モデルを活用して属性クエリの擬似記述を構築し,アダプタのパラメータを数個だけトレーニングするための効果的なトレーニング戦略を導入し,検索タスクの処理を容易にする。 最後に、統一CLEARモデルをPETA、PA100K、Market-1501、RAPv2、UPAR-2024の5つのベンチマークで評価する。 ベルとホイッスルがなければ、CLEARは両タスクの最先端のパフォーマンスや競争成績を達成し、広く使われているMarket-1501データセット上での個人検索性能において、他の競合よりはるかに優れています。

Person attribute recognition and attribute-based retrieval are two core human-centric tasks. In the recognition task, the challenge is specifying attributes depending on a person's appearance, while the retrieval task involves searching for matching persons based on attribute queries. There is a significant relationship between recognition and retrieval tasks. In this study, we demonstrate that if there is a sufficiently robust network to solve person attribute recognition, it can be adapted to facilitate better performance for the retrieval task. Another issue that needs addressing in the retrieval task is the modality gap between attribute queries and persons' images. Therefore, in this paper, we present CLEAR, a unified network designed to address both tasks. We introduce a robust cross-transformers network to handle person attribute recognition. Additionally, leveraging a pre-trained language model, we construct pseudo-descriptions for attribute queries and introduce an effective training strategy to train only a few additional parameters for adapters, facilitating the handling of the retrieval task. Finally, the unified CLEAR model is evaluated on five benchmarks: PETA, PA100K, Market-1501, RAPv2, and UPAR-2024. Without bells and whistles, CLEAR achieves state-of-the-art performance or competitive results for both tasks, significantly outperforming other competitors in terms of person retrieval performance on the widely-used Market-1501 dataset.
翻訳日:2024-03-13 08:32:33 公開日:2024-03-10
# 独立量子系に対する決定論的制御誤差の効果の解析的評価

Analytical evaluation of the effect of deterministic control error on isolated quantum system ( http://arxiv.org/abs/2403.06116v1 )

ライセンス: Link先を確認
Kohei Kobayashi(参考訳) 分離量子力学におけるアナログ制御誤差の影響について検討する。 量子情報技術は、情報資源として使用される所望の量子状態を作成するために注意深い制御を必要とする。 しかし、現実的な実験システムでは、アナログ誤差なしで駆動するハミルトニアンを実装することは困難であり、量子制御の実際の性能は理想とは程遠い。 この問題に向けて、時間進化と決定論的制御誤差の存在に従う2つの孤立量子系間の重なり合いの低い境界を導出する。 我々はいくつかの例を通して境界の有効性を示す。 さらに、この境界を用いて、任意の制御誤差の下で目標状態を取得する確率を解析的に推定する。

We investigate the effect of analog control errors which deterministically occurs on isolated quantum dynamics. Quantum information technologies require careful control for preparing a desired quantum state used as an information resource. However, in realistic experiment systems, it is difficult to implement the driving Hamiltonian without analog errors and the actual performance of quantum control is far away from the ideal one. Towards this problem, we derive a lower bound of the overlap between two isolated quantum systems obeying time evolution in the absence and presence of deterministic control errors. We demonstrate the effectiveness of the bound through some examples. Furthermore, by using this bound, we give an analytical estimate on the probability of obtaining the target state under any control errors.
翻訳日:2024-03-13 08:32:10 公開日:2024-03-10
# FMPAF:FRB議長は金融市場にどのように影響するか 細粒度金融政策分析フレームワーク

FMPAF: How Do Fed Chairs Affect the Financial Market? A Fine-grained Monetary Policy Analysis Framework on Their Language ( http://arxiv.org/abs/2403.06115v1 )

ライセンス: Link先を確認
Yayue Deng, Mohan Xu, Yao Tang(参考訳) 中央銀行のコミュニケーションの有効性は金融政策伝達の重要な側面である。 最近の研究では、連邦準備制度理事会議長による政策コミュニケーションが様々な金融変数に与える影響を調査しているが、多くの文献は、議長の言語を解析するための規則ベースまたは辞書ベースの方法に依存しており、分析から非言語的感情に含まれる政策スタンスについての微妙な情報を残している。 本研究は,金融市場における連邦準備制度理事会(FRB)議長の広報コミュニケーションの影響を包括的に分析するために,大規模言語モデル(LLM)と回帰分析を統合したFMPAF(Fen-Grained Monetary Policy Analysis Framework)を提案する。 粒度,モダリティ,通信シナリオの異なるレベルにおいて,モデル性能の広範な比較を行う。 所望の仕様に基づき、センセーションスコアのワンユニット上昇は、S&P500交換トレーディングファンドの価格の約500ポイント上昇、政策金利の15ベーシックポイント低下と関連するが、為替レートの顕著な反応には至らない。

The effectiveness of central bank communication is a crucial aspect of monetary policy transmission. While recent research has examined the influence of policy communication by the chairs of the Federal Reserve on various financial variables, much of the literature relies on rule-based or dictionary-based methods in parsing the language of the chairs, leaving nuanced information about policy stance contained in nonverbal emotion out of the analysis. In the current study, we propose the Fine-Grained Monetary Policy Analysis Framework (FMPAF), a novel approach that integrates large language models (LLMs) with regression analysis to provide a comprehensive analysis of the impact of the press-conference communications of chairs of the Federal Reserve on financial markets. We conduct extensive comparisons of model performance under different levels of granularity, modalities, and communication scenarios. Based on our preferred specification, a one-unit increase in the sentiment score is associated with an increase of the price of S\&P 500 Exchange-Traded Fund by approximately 500 basis points, a 15-basis-point decrease in the policy interest rate, while not leading to a significant response in exchange rates.
翻訳日:2024-03-13 08:32:00 公開日:2024-03-10
# データ拡張と伝達学習による微粒な感情検出データセットの大規模言語モデル

Large Language Models on Fine-grained Emotion Detection Dataset with Data Augmentation and Transfer Learning ( http://arxiv.org/abs/2403.06108v1 )

ライセンス: Link先を確認
Kaipeng Wang, Zhi Jing, Yongye Su, Yikun Han(参考訳) 本稿では,テキスト中の感情検出のための大規模手動アノテートデータセットであるGoEmotionsデータセットの分類性能の向上を図る。 本論文の主な目的は,自然言語処理(NLP)の複雑な問題であるテキスト中の微妙な感情を検出することの課題に対処することである。 この発見は、テキストにおける感情検出の課題に対処するための貴重な洞察を与え、この領域の様々なデータセットにまたがってメソッドとパフォーマンスを合成する調査論文の可能性を含む将来の研究の方向性を提案する。

This paper delves into enhancing the classification performance on the GoEmotions dataset, a large, manually annotated dataset for emotion detection in text. The primary goal of this paper is to address the challenges of detecting subtle emotions in text, a complex issue in Natural Language Processing (NLP) with significant practical applications. The findings offer valuable insights into addressing the challenges of emotion detection in text and suggest directions for future research, including the potential for a survey paper that synthesizes methods and performances across various datasets in this domain.
翻訳日:2024-03-13 08:31:38 公開日:2024-03-10
# テクスチャレスオブジェクト認識:エッジベースアプローチ

Textureless Object Recognition: An Edge-based Approach ( http://arxiv.org/abs/2403.06107v1 )

ライセンス: Link先を確認
Frincy Clement, Kirtan Shah, Dhara Pancholi, Gabriel Lugo Bustillo and Dr. Irene Cheng(参考訳) テクスチャレス物体認識は、ロボティクスとその製造分野への応用によって、コンピュータビジョンにおいて重要なタスクとなっている。 特徴の判別や反射特性の欠如により、テクスチャレスオブジェクトに対するテクスチャ物体認識技術が不十分なため、リアルタイムに精度が向上することが課題となっている。 特にTLessや他のテクスチャレスデータセットが導入されてから5年が経つと、この20年間で多くの作業が行われています。 このプロジェクトでは、画像処理技術を適用することで、初期不均衡な小さなデータセットから堅牢な拡張データセットを作成しました。 エッジ機能,機能コンビネーション,rgbイメージを抽出して,機能/機能コンビネーションを拡張して15のデータセットを作成しました。 次に、これらの15のデータセットで4つの分類器をトレーニングし、どのデータセットが全体的なパフォーマンスが最も良く、エッジ機能がテクスチャのないオブジェクトにとって重要であるかという結論に達した。 実験と解析の結果から,RGB画像は3つのエッジ特徴を組み合わせて向上し,他の画像と比較した。 HEDエッジを持つデータセットのモデルパフォーマンスは、CannyやPrewittのような他のエッジ検出よりも比較的良好だった。

Textureless object recognition has become a significant task in Computer Vision with the advent of Robotics and its applications in manufacturing sector. It has been challenging to obtain good accuracy in real time because of its lack of discriminative features and reflectance properties which makes the techniques for textured object recognition insufficient for textureless objects. A lot of work has been done in the last 20 years, especially in the recent 5 years after the TLess and other textureless dataset were introduced. In this project, by applying image processing techniques we created a robust augmented dataset from initial imbalanced smaller dataset. We extracted edge features, feature combinations and RGB images enhanced with feature/feature combinations to create 15 datasets, each with a size of ~340,000. We then trained four classifiers on these 15 datasets to arrive at a conclusion as to which dataset performs the best overall and whether edge features are important for textureless objects. Based on our experiments and analysis, RGB images enhanced with combination of 3 edge features performed the best compared to all others. Model performance on dataset with HED edges performed comparatively better than other edge detectors like Canny or Prewitt.
翻訳日:2024-03-13 08:31:27 公開日:2024-03-10
# 医用画像分類のためのユニバーサルデバイアス編集

Universal Debiased Editing for Fair Medical Image Classification ( http://arxiv.org/abs/2403.06104v1 )

ライセンス: Link先を確認
Ruinan Jin, Wenlong Deng, Minghui Chen, Xiaoxiao Li(参考訳) ファンデーションモデル(FM)がAIで優位に立つ時代において,この研究では,FM APIを用いた医療画像のバイアスの問題,特に画素と感度属性の急激な相関について論じる。 従来のバイアス緩和手法は、WebホストされたFMへのアクセスが制限されていることと、FM APIで符号化された基盤となるバイアスに対処することの難しさにより、制限に直面している。 そこで本研究では,UDEノイズを発生させるU(niversal)D(ebiased)E(diting)戦略を提案する。 UDEはFM APIの埋め込みとイメージ自体のバイアスを軽減することができる。 さらに、UDEはホワイトボックスとブラックボックスのFM APIに適しており、ブラックボックスAPIでは勾配がアクセスできない場合にG(reedy) (Z)eroth-O(rder) (GeZO) の最適化を導入しました。 当社のパイプライン全体は、直接的なモデル操作や重要な計算リソースを必要とせずに、さまざまな医療状況に適用可能なフェアネス対応画像編集を可能にします。 実験の結果, 異なる患者群と疾患にまたがる公平性と有用性を維持するための方法の有効性が示された。 AI駆動医療の時代において、この研究は医療診断をより公平にし、事前訓練された画像FMにおけるバイアス軽減の実践的な解決策を示す。

In the era of Foundation Models' (FMs) rising prominence in AI, our study addresses the challenge of biases in medical images while using FM API, particularly spurious correlations between pixels and sensitive attributes. Traditional methods for bias mitigation face limitations due to the restricted access to web-hosted FMs and difficulties in addressing the underlying bias encoded within the FM API. We propose an U(niversal) D(ebiased) E(diting) strategy, termed UDE, which generates UDE noise to mask such spurious correlation. UDE is capable of mitigating bias both within the FM API embedding and the images themselves. Furthermore, UDE is suitable for both white-box and black-box FM APIs, where we introduced G(reedy) (Z)eroth-O(rder) (GeZO) optimization for it when the gradient is inaccessible in black-box APIs. Our whole pipeline enables fairness-aware image editing that can be applied across various medical contexts without requiring direct model manipulation or significant computational resources. Our empirical results demonstrate the method's effectiveness in maintaining fairness and utility across different patient groups and diseases. In the era of AI-driven medicine, this work contributes to making healthcare diagnostics more equitable, showcasing a practical solution for bias mitigation in pre-trained image FMs.
翻訳日:2024-03-13 08:31:08 公開日:2024-03-10
# インクリメンタルアクションセグメンテーションのためのコヒーレントな時間合成

Coherent Temporal Synthesis for Incremental Action Segmentation ( http://arxiv.org/abs/2403.06102v1 )

ライセンス: Link先を確認
Guodong Ding, Hans Golong and Angela Yao(参考訳) データ再生は画像の漸進的な学習技術として成功している。 モデルが新しい概念に適応しながら過去の知識を維持するために、以前のデータ、オリジナルまたは合成されたデータを保存することで破滅的な忘れを防止する。 しかし、ビデオ領域での応用は初歩的であり、アクション認識のためのフレーム例を単に格納するだけである。 本稿では,アクション時間モデルに着目したインクリメンタルアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。 本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現する,時間的コヒーレントアクション(TCA)モデルを提案する。 時間的コヒーレンスを捉える条件変数の統合により、我々のモデルは時間とともに行動特徴の進化を理解することができる。 したがって、再生用tcaによって生成される動作セグメントは多様で、時間的にコヒーレントである。 朝食データセット上の10タスクのインクリメンタルセットアップでは,ベースラインと比較して,最大22%の精度向上を実現している。

Data replay is a successful incremental learning technique for images. It prevents catastrophic forgetting by keeping a reservoir of previous data, original or synthesized, to ensure the model retains past knowledge while adapting to novel concepts. However, its application in the video domain is rudimentary, as it simply stores frame exemplars for action recognition. This paper presents the first exploration of video data replay techniques for incremental action segmentation, focusing on action temporal modeling. We propose a Temporally Coherent Action (TCA) model, which represents actions using a generative model instead of storing individual frames. The integration of a conditioning variable that captures temporal coherence allows our model to understand the evolution of action features over time. Therefore, action segments generated by TCA for replay are diverse and temporally coherent. In a 10-task incremental setup on the Breakfast dataset, our approach achieves significant increases in accuracy for up to 22% compared to the baselines.
翻訳日:2024-03-13 08:30:40 公開日:2024-03-10
# クラウドソーシング環境におけるオンライン学習による嗜好に基づく主観評価の自動最適化

Automatic design optimization of preference-based subjective evaluation with online learning in crowdsourcing environment ( http://arxiv.org/abs/2403.06100v1 )

ライセンス: Link先を確認
Yusuke Yasuda and Tomoki Toda(参考訳) 嗜好に基づく主観評価は、生成媒体を確実に評価するための重要な方法である。 しかし、その巨大な組み合わせは、クラウドソーシングによる大規模評価に適用できない。 本稿では,クラウドソーシング環境におけるオンライン学習による組み合わせ選択と評価ボリュームの割り当てという観点から,嗜好に基づく主観評価の自動最適化手法を提案する。 分類アルゴリズムに基づく選好ベースのオンライン学習手法を用いて,評価対象の合計順序を最小サンプル量で識別する。 クラウドソーシングに必要な固定予算条件下での並列および非同期実行をサポートする。 提案手法は, 合成音声の嗜好に基づく主観評価実験において, ペアの組み合わせを351から83に削減し, 評価精度を損なうことなく, 30から663までのペアに対して最適な評価量を割り当てることで, テストの最適化に成功した。

A preference-based subjective evaluation is a key method for evaluating generative media reliably. However, its huge combinations of pairs prohibit it from being applied to large-scale evaluation using crowdsourcing. To address this issue, we propose an automatic optimization method for preference-based subjective evaluation in terms of pair combination selections and allocation of evaluation volumes with online learning in a crowdsourcing environment. We use a preference-based online learning method based on a sorting algorithm to identify the total order of evaluation targets with minimum sample volumes. Our online learning algorithm supports parallel and asynchronous execution under fixed-budget conditions required for crowdsourcing. Our experiment on preference-based subjective evaluation of synthetic speech shows that our method successfully optimizes the test by reducing pair combinations from 351 to 83 and allocating optimal evaluation volumes for each pair ranging from 30 to 663 without compromising evaluation accuracies and wasting budget allocations.
翻訳日:2024-03-13 08:30:24 公開日:2024-03-10
# VidProM: テキストとビデオの拡散モデルのための数百万もの実測データ

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models ( http://arxiv.org/abs/2403.06098v1 )

ライセンス: Link先を確認
Wenhao Wang, Yi Yang(参考訳) Soraの登場は、テキストからビデオへの拡散モデルの新しい時代であり、ビデオ生成と潜在的な応用に大きな進歩をもたらした。 しかし、他のテキスト・ビデオ拡散モデルと同様に、Soraはプロンプトに大きく依存しており、テキスト・ビデオ・プロンプトを研究するためのデータセットは公開されていない。 本稿では,実ユーザからのテキストからビデオへのプロンプト136万個からなる,最初の大規模データセットであるvidpromを紹介する。 さらにデータセットには、4つの最先端拡散モデルと関連するデータから生成された6.69億本のビデオが含まれている。 私たちはまず、この大規模データセットのキュレーションを実演します。 次に、提案したVidProMが、画像生成のための大規模プロンプトガリーデータセットであるDiffusionDBとどのように異なるかを示す。 これらのプロンプトの分析から,テキスト・ビデオ生成に特化して設計された新しいプロンプト・データセットの必要性を特定し,ビデオ作成時の実際のユーザの嗜好に対する洞察を得る。 大規模で多様なデータセットは、多くのエキサイティングな新しい研究分野を刺激します。 例えば、より良く、より効率的で、より安全なテキスト間拡散モデルを開発するために、拡散モデルのためのテキスト間プロンプトエンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討することを提案する。 収集したデータセットVidProMをGitHubで公開し、CC-BY-NC 4.0ライセンスの下でHugging Faceを公開しています。

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, as well as other text-to-video diffusion models, highly relies on the prompts, and there is no publicly available dataset featuring a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 million unique text-to-video prompts from real users. Additionally, the dataset includes 6.69 million videos generated by four state-of-the-art diffusion models and some related data. We initially demonstrate the curation of this large-scale dataset, which is a time-consuming and costly process. Subsequently, we show how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Based on the analysis of these prompts, we identify the necessity for a new prompt dataset specifically designed for text-to-video generation and gain insights into the preferences of real users when creating videos. Our large-scale and diverse dataset also inspires many exciting new research areas. For instance, to develop better, more efficient, and safer text-to-video diffusion models, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models. We make the collected dataset VidProM publicly available at GitHub and Hugging Face under the CC-BY- NC 4.0 License.
翻訳日:2024-03-13 08:30:07 公開日:2024-03-10
# LLMは人間のラベルを代替できるのか? uav配送のための細粒度中国アドレスエンティティ認識データセットのケーススタディ

Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery ( http://arxiv.org/abs/2403.06097v1 )

ライセンス: Link先を確認
Yuxuan Yao, Sichun Luo, Haohan Zhao, Guanzhi Deng, Linqi Song(参考訳) 我々は、cner-uav というきめ細かい \textbf{c}hinese \textbf{n}ame \textbf{e}ntity \textbf{r}ecognition データセットを、 \textbf{u}nmanned \textbf{a}erial \textbf{v}ehicle 配送システムにおいてアドレス解決のために特別に設計された。 データセットには5つのカテゴリがあり、NERモデルの総合的なトレーニングと評価を可能にする。 このデータセットを構築するために、実際のUAV配信システムからデータをソースし、プライバシーとデータの整合性を確保するために厳密なデータクリーニングとデセンシタイズプロセスを実行した。 得られたデータセットは約12,000の注釈付きサンプルからなり、人間の専門家とtextbf{L}arge \textbf{L}anguage \textbf{M}odelアノテーションが与えられた。 従来のNERモデルをデータセット上で評価し,詳細な分析を行った。 データセットとモデルは、 \url{https://github.com/zhhvv/CNER-UAV}で公開されている。

We present CNER-UAV, a fine-grained \textbf{C}hinese \textbf{N}ame \textbf{E}ntity \textbf{R}ecognition dataset specifically designed for the task of address resolution in \textbf{U}nmanned \textbf{A}erial \textbf{V}ehicle delivery systems. The dataset encompasses a diverse range of five categories, enabling comprehensive training and evaluation of NER models. To construct this dataset, we sourced the data from a real-world UAV delivery system and conducted a rigorous data cleaning and desensitization process to ensure privacy and data integrity. The resulting dataset, consisting of around 12,000 annotated samples, underwent human experts and \textbf{L}arge \textbf{L}anguage \textbf{M}odel annotation. We evaluated classical NER models on our dataset and provided in-depth analysis. The dataset and models are publicly available at \url{https://github.com/zhhvvv/CNER-UAV}.
翻訳日:2024-03-13 08:29:40 公開日:2024-03-10
# RepoHyper: Repository-Levelコード補完に必要なコンテキスト検索の改善

RepoHyper: Better Context Retrieval Is All You Need for Repository-Level Code Completion ( http://arxiv.org/abs/2403.06095v1 )

ライセンス: Link先を確認
Huy N. Phan and Hoang N. Phan and Tien N. Nguyen and Nghi D. Q. Bui(参考訳) code large language model (codellm) は、コード補完タスクに優れた能力を示している。 しかしながら、関連するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に理解できない場合が少なく、完成度が低くなる可能性がある。 これらの制限を克服するために、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計された、多面的なフレームワークであるRepoHyperを紹介します。 repohyperの中心はrepo-level semantic graph (rsg)であり、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である。 さらに、RepoHyperは、グラフ拡張とRSGに適用されるリンク予測アルゴリズムを含むExpand and Refine検索手法を活用し、関連するコードスニペットの効率的な検索と優先順位付けを可能にする。 評価の結果,リポジトリレベルのコード補完では,repohyperが既存の手法を著しく上回っており,複数の強力なベースラインと比較して,さまざまなデータセットの精度が向上していることが示された。

Code Large Language Models (CodeLLMs) have demonstrated impressive proficiency in code completion tasks. However, they often fall short of fully understanding the extensive context of a project repository, such as the intricacies of relevant files and class hierarchies, which can result in less precise completions. To overcome these limitations, we present RepoHyper, a multifaceted framework designed to address the complex challenges associated with repository-level code completion. Central to RepoHyper is the Repo-level Semantic Graph (RSG), a novel semantic graph structure that encapsulates the vast context of code repositories. Furthermore, RepoHyper leverages Expand and Refine retrieval method, including a graph expansion and a link prediction algorithm applied to the RSG, enabling the effective retrieval and prioritization of relevant code snippets. Our evaluations show that RepoHyper markedly outperforms existing techniques in repository-level code completion, showcasing enhanced accuracy across various datasets when compared to several strong baselines.
翻訳日:2024-03-13 08:29:23 公開日:2024-03-10
# 2次元検出誘導クエリアンカーによる3次元オブジェクト検出の強化

Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors ( http://arxiv.org/abs/2403.06093v1 )

ライセンス: Link先を確認
Haoxuanye Ji, Pengpeng Liang, Erkang Cheng(参考訳) マルチカメラによる3次元物体検出はここ数年で顕著な進歩を遂げた。 しかし、一般的な2d物体検出器が最先端の3d検出器よりも信頼性が高いケース(例えば遠方領域)がある。 本稿では,クエリベースの3dオブジェクト検出器の性能を向上させるために,2d検出結果から3dクエリアンカーを推定する,qaf2dと呼ばれる新しいクエリ生成手法を提案する。 画像内の物体の2dバウンディングボックスは、ボックス内の各サンプル点を深さ、ヨー角、サイズ候補で関連付けることで、一連の3dアンカーにリフトされる。 そして、画像中の投影と対応する2dボックスを比較して各3dアンカーの有効性を確認し、有効なアンカーのみを保持してクエリの構築に用いる。 各クエリに関連付けられた2Dバウンディングボックスのクラス情報も、セットベースの損失に対して予測ボックスと基底真理とをマッチングするために利用される。 画像特徴抽出バックボーンは、少数のプロンプトパラメータを付加することにより、3D検出器と2D検出器の間で共有される。 我々は、QAF2Dを3つの一般的なクエリベースの3Dオブジェクト検出器に統合し、nuScenesデータセットの包括的な評価を行う。 QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3\%、mAPが2.7\%である。 コードはhttps://github.com/nullmax-vision/QAF2Dで入手できる。

Multi-camera-based 3D object detection has made notable progress in the past several years. However, we observe that there are cases (e.g. faraway regions) in which popular 2D object detectors are more reliable than state-of-the-art 3D detectors. In this paper, to improve the performance of query-based 3D object detectors, we present a novel query generating approach termed QAF2D, which infers 3D query anchors from 2D detection results. A 2D bounding box of an object in an image is lifted to a set of 3D anchors by associating each sampled point within the box with depth, yaw angle, and size candidates. Then, the validity of each 3D anchor is verified by comparing its projection in the image with its corresponding 2D box, and only valid anchors are kept and used to construct queries. The class information of the 2D bounding box associated with each query is also utilized to match the predicted boxes with ground truth for the set-based loss. The image feature extraction backbone is shared between the 3D detector and 2D detector by adding a small number of prompt parameters. We integrate QAF2D into three popular query-based 3D object detectors and carry out comprehensive evaluations on the nuScenes dataset. The largest improvement that QAF2D can bring about on the nuScenes validation subset is $2.3\%$ NDS and $2.7\%$ mAP. Code is available at https://github.com/nullmax-vision/QAF2D.
翻訳日:2024-03-13 08:29:07 公開日:2024-03-10
# 畳み込みニューラルネットワークにおける単語認識のためのニューラルネットワークの解読

Cracking the neural code for word recognition in convolutional neural networks ( http://arxiv.org/abs/2403.06159v1 )

ライセンス: Link先を確認
Aakash Agrawal, Stanislas Dehaene(参考訳) 読むことを学ぶことは、視覚システムに強い挑戦をする。 長年の専門知識は、非常に類似した文字を分離し、それらの相対的な位置を符号化し、様々な大きさと絶対的な位置で、formやfromのような単語を区別する、顕著な能力をもたらす。 ニューラル回路が不変な単語認識を実現する方法はまだ不明である。 ここでは、深層ニューラルネットワークモデルをトレーニングして、書き言葉を認識し、読み出し専用ユニットがどのように出現し、ネットワークの異なる層にわたって動作するかを解析する。 リテラシーでは、ユニットの小さなサブセットが学習したスクリプトの単語認識に特化しており、人間の脳の「視覚的な語形領域」に似ている。 これらの単位は、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示し、「スペースビッグラム」として機能する。 これらのユニットは、特に順序位置をエンコードし、ネットワークの初期層から低周波および高周波検出器ユニットをプールすることで動作します。 提案したニューラルネットワークは、文字の同一性や位置に関する情報を抽出し、不変な単語認識を可能にし、読み出し行動、エラーパターン、読み出しの神経生理学の予測につながるメカニズム的な知見を提供する。

Learning to read places a strong challenge on the visual system. Years of expertise lead to a remarkable capacity to separate highly similar letters and encode their relative positions, thus distinguishing words such as FORM and FROM, invariantly over a large range of sizes and absolute positions. How neural circuits achieve invariant word recognition remains unknown. Here, we address this issue by training deep neural network models to recognize written words and then analyzing how reading-specialized units emerge and operate across different layers of the network. With literacy, a small subset of units becomes specialized for word recognition in the learned script, similar to the "visual word form area" of the human brain. We show that these units are sensitive to specific letter identities and their distance from the blank space at the left or right of a word, thus acting as "space bigrams". These units specifically encode ordinal positions and operate by pooling across low and high-frequency detector units from early layers of the network. The proposed neural code provides a mechanistic insight into how information on letter identity and position is extracted and allow for invariant word recognition, and leads to predictions for reading behavior, error patterns, and the neurophysiology of reading.
翻訳日:2024-03-13 07:30:33 公開日:2024-03-10
# GlanceVAD: ラベル効率の良いビデオ異常検出のためのGlance Supervision

GlanceVAD: Exploring Glance Supervision for Label-efficient Video Anomaly Detection ( http://arxiv.org/abs/2403.06154v1 )

ライセンス: Link先を確認
Huaxin Zhang, Xiang Wang, Xiaohao Xu, Xiaonan Huang, Chuchu Han, Yuehuan Wang, Changxin Gao, Shanjun Zhang, Nong Sang(参考訳) 近年、ビデオ異常検出は、時間的ラベリングのコストを軽減するために、教師なしと弱教師付きの両方で広く研究されている。 著しい進歩にもかかわらず、これらの手法は、主に正確な時間的異常アノテーションがないために、多くの誤報のような不満足な結果に苦しむ。 本稿では,異常検出精度とアノテーションコストのバランスを改善するために,"glance annotations"と呼ばれる新しいラベリングパラダイムを提案する。 具体的には、視線アノテーションは、各異常事象のランダムフレームであり、容易にアクセスでき、費用対効果がある。 本手法の有効性を評価するため,UCF-Crime と XD-Violence の2つの標準ビデオ異常検出データセットに対して,視線アノテーションを手動でアノテートする。 さらに,gaussian kernelsを基本単位として時間的異常分布を合成し,視線アノテーションから多様でロバストな異常表現の学習を可能にする,カスタマイズされたswisvad法を提案する。 包括的な分析と実験により,提案手法がアノテーションコストとモデル性能のトレードオフを良好に達成できることを確認した。 また, GlanceVAD 法の有効性を実証し, 既存の高度無監督法と弱監督法を著しく上回る結果を得た。 コードとアノテーションはhttps://github.com/pipixin321/glancevadで公開されている。

In recent years, video anomaly detection has been extensively investigated in both unsupervised and weakly supervised settings to alleviate costly temporal labeling. Despite significant progress, these methods still suffer from unsatisfactory results such as numerous false alarms, primarily due to the absence of precise temporal anomaly annotation. In this paper, we present a novel labeling paradigm, termed "glance annotation", to achieve a better balance between anomaly detection accuracy and annotation cost. Specifically, glance annotation is a random frame within each abnormal event, which can be easily accessed and is cost-effective. To assess its effectiveness, we manually annotate the glance annotations for two standard video anomaly detection datasets: UCF-Crime and XD-Violence. Additionally, we propose a customized GlanceVAD method, that leverages gaussian kernels as the basic unit to compose the temporal anomaly distribution, enabling the learning of diverse and robust anomaly representations from the glance annotations. Through comprehensive analysis and experiments, we verify that the proposed labeling paradigm can achieve an excellent trade-off between annotation cost and model performance. Extensive experimental results also demonstrate the effectiveness of our GlanceVAD approach, which significantly outperforms existing advanced unsupervised and weakly supervised methods. Code and annotations will be publicly available at https://github.com/pipixin321/GlanceVAD.
翻訳日:2024-03-13 07:30:00 公開日:2024-03-10
# スパースカウントデータのためのALL0COREテンソル分解

The ALL0CORE Tensor Decomposition for Sparse Count Data ( http://arxiv.org/abs/2403.06153v1 )

ライセンス: Link先を確認
John Hood, Aaron Schein(参考訳) 本稿では,確率的非負テンソル分解の新しい形式であるALL0COREを紹介する。 ALL0COREはタッカー分解であり、コアテンソルの非零元(すなわちL0ノルム)の数は、コアのサイズよりもはるかに小さいプリセット値Qに制約される。 ユーザは総予算Qを規定するが、非ゼロ要素の位置と値は潜伏変数であり、推論中にコアテンソル全体に割り当てられる。 ALL0CORE(すなわち、L0制約コア)は、CP分解の計算的トラクタビリティとタッカーの質的に魅力的な潜在構造の両方を享受する。 実データの一連の実験において、ALL0COREは通常、完全なタッカー分解と同じ結果を得るためには、完全なコアのごく一部(例えば~1%)しか必要としないことを示した。

This paper introduces ALL0CORE, a new form of probabilistic non-negative tensor decomposition. ALL0CORE is a Tucker decomposition where the number of non-zero elements (i.e., the L0-norm) of the core tensor is constrained to a preset value Q much smaller than the size of the core. While the user dictates the total budget Q, the locations and values of the non-zero elements are latent variables and allocated across the core tensor during inference. ALL0CORE -- i.e., allocated L0-constrained core -- thus enjoys both the computational tractability of CP decomposition and the qualitatively appealing latent structure of Tucker. In a suite of real-data experiments, we demonstrate that ALL0CORE typically requires only tiny fractions (e.g.,~1%) of the full core to achieve the same results as full Tucker decomposition at only a correspondingly tiny fraction of the cost.
翻訳日:2024-03-13 07:29:36 公開日:2024-03-10
# 長文認識のための分離型コントラスト学習

Decoupled Contrastive Learning for Long-Tailed Recognition ( http://arxiv.org/abs/2403.06151v1 )

ライセンス: Link先を確認
Shiyu Xuan, Shiliang Zhang(参考訳) Supervised Contrastive Loss (SCL) は視覚表現学習で人気がある。 アンカーイメージが与えられると、sclは2種類の正のサンプル、すなわち、その拡張と他のイメージを同じクラスからプルし、負のイメージを分離して学習した埋め込みを最適化する。 各クラス内のサンプル数が不均衡なlong-tailed recognitionのシナリオでは、2種類の正のサンプルを等しく扱うと、カテゴリー間距離のバイアスド最適化が行われる。 さらに、SCLによって無視される負のサンプル間の類似性関係も意味的な意味的手がかりを示す。 本稿では,長期認識の性能向上のために,SCLの2つの課題に,学習目標を分離することで対処する。 具体的には、SCLの2種類の正を分離し、異なる目的に対するそれらの関係を最適化し、不均衡なデータセットの影響を軽減する。 さらに,末尾クラスの表現不足を緩和するために,末尾クラスから末尾クラスへ知識を移すパッチベースの自己蒸留法を提案する。 パッチベースの機能を使用して、異なるインスタンス間の共有ビジュアルパターンをマイニングし、そのような知識を転送するために自己蒸留手順を利用する。 異なる長尾分類ベンチマーク実験により,本手法の優位性を示した。 例えば、ImageNet-LTデータセットの57.7%のトップ1精度を実現している。 アンサンブルベースの手法と組み合わせることで、パフォーマンスをさらに59.7%に向上させることができる。 コードはhttps://github.com/SY-Xuan/DSCLで公開されている。

Supervised Contrastive Loss (SCL) is popular in visual representation learning. Given an anchor image, SCL pulls two types of positive samples, i.e., its augmentation and other images from the same class together, while pushes negative images apart to optimize the learned embedding. In the scenario of long-tailed recognition, where the number of samples in each class is imbalanced, treating two types of positive samples equally leads to the biased optimization for intra-category distance. In addition, similarity relationship among negative samples, that are ignored by SCL, also presents meaningful semantic cues. To improve the performance on long-tailed recognition, this paper addresses those two issues of SCL by decoupling the training objective. Specifically, it decouples two types of positives in SCL and optimizes their relations toward different objectives to alleviate the influence of the imbalanced dataset. We further propose a patch-based self distillation to transfer knowledge from head to tail classes to relieve the under-representation of tail classes. It uses patch-based features to mine shared visual patterns among different instances and leverages a self distillation procedure to transfer such knowledge. Experiments on different long-tailed classification benchmarks demonstrate the superiority of our method. For instance, it achieves the 57.7% top-1 accuracy on the ImageNet-LT dataset. Combined with the ensemble-based method, the performance can be further boosted to 59.7%, which substantially outperforms many recent works. The code is available at https://github.com/SY-Xuan/DSCL.
翻訳日:2024-03-13 07:29:19 公開日:2024-03-10
# 大規模言語モデルは筆記エッセイの精度を自動評価できるか?

Can Large Language Models Automatically Score Proficiency of Written Essays? ( http://arxiv.org/abs/2403.06149v1 )

ライセンス: Link先を確認
Watheq Mansour, Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed(参考訳) 過去50年間に自動エッセイスコアリング(AES)の問題に対処するためにいくつかの手法が提案されてきたが、効果の観点からはまだ多くの要望がある。 大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。 本稿では,その言語知識を活かし,文章のエッセイを分析し,効果的にスコア付けするllmの能力をテストする。 私たちはChatGPTとLlamaという2つの人気のあるLLMを実験した。 これらのモデルがこのタスクを実行できるかどうかを確認し、もしそうなら、それらのパフォーマンスが2段階にわたる最先端(SOTA)モデルの中でどのように位置づけられているのかを、全体的および個々の書き込み特性によって確認することを目指している。 4つの異なるプロンプトを設計するために,プロンプトエンジニアリングの手法を利用した。 ASAPデータセットを用いて行った実験では,いくつかの興味深い観察結果が得られた。 まず、正しいプロンプトを選択することは、タスクのモデルと性質に大きく依存します。 第二に、2つのLSMはAESで同等の平均性能を示し、ChatGPTにわずかに有利であった。 最後に,2つのLLMモデルとSOTAモデルのパフォーマンスの差にもかかわらず,エッセイの品質向上のためのフィードバックを提供し,教師と学生の両方に役立つ可能性がある。

Although several methods were proposed to address the problem of automated essay scoring (AES) in the last 50 years, there is still much to desire in terms of effectiveness. Large Language Models (LLMs) are transformer-based models that demonstrate extraordinary capabilities on various tasks. In this paper, we test the ability of LLMs, given their powerful linguistic knowledge, to analyze and effectively score written essays. We experimented with two popular LLMs, namely ChatGPT and Llama. We aim to check if these models can do this task and, if so, how their performance is positioned among the state-of-the-art (SOTA) models across two levels, holistically and per individual writing trait. We utilized prompt-engineering tactics in designing four different prompts to bring their maximum potential to this task. Our experiments conducted on the ASAP dataset revealed several interesting observations. First, choosing the right prompt depends highly on the model and nature of the task. Second, the two LLMs exhibited comparable average performance in AES, with a slight advantage for ChatGPT. Finally, despite the performance gap between the two LLMs and SOTA models in terms of predictions, they provide feedback to enhance the quality of the essays, which can potentially help both teachers and students.
翻訳日:2024-03-13 07:28:55 公開日:2024-03-10
# データ収集、選択、アノテーション、前処理を含む医療画像におけるAI R&Dのためのオールインワンプラットフォーム

All-in-one platform for AI R&D in medical imaging, encompassing data collection, selection, annotation, and pre-processing ( http://arxiv.org/abs/2403.06145v1 )

ライセンス: Link先を確認
Changhee Han, Kyohei Shibano, Wataru Ozaki, Keishiro Osaki, Takafumi Haraguchi, Daisuke Hirahara, Shumon Kimura, Yasuyuki Kobayashi, Gento Mogi(参考訳) Deep Learningは医療画像研究開発(R&D)を推進しており、AI/MLベースの医療機器の頻繁な臨床利用につながっている。 しかし、AI研究開発を進めるには、2つの課題が生じる。 1) 人口の60%を占めるにもかかわらず、ヨーロッパ/アメリカのデータの大半がアジアから10%以下である重要なデータ不均衡。 2)商用利用のためのプロプライエタリデータセットのキュレーションに必要な膨大な時間と投資。 そこで我々は,次のステップを含む最初の商用医療画像プラットフォームを構築した。 1)データ収集 2)データ選択 3)アノテーション,及び 4)前処理。 さらに, 超音波断層撮影, 磁気共鳴画像, 全スライディング画像スキャンなど, 日本および広域アジアにおける低表示データの活用に焦点をあてた。 収集したデータを用いて,医療用ai研究開発のためのデータセットの作成・提供を行う。 1)これらのデータセットをAI企業、バイオファーマ、医療機器メーカーに提供し、 2)これらをトレーニング/テストデータとして使用して,そのようなエンティティに適したAIソリューションを開発する。 データセキュリティのためにBlockchainをマージすることや、生成AIを通じて稀な疾患データを合成する計画も目指しています。 DataHub Webサイト: https://medical-datahub.ai/

Deep Learning is advancing medical imaging Research and Development (R&D), leading to the frequent clinical use of Artificial Intelligence/Machine Learning (AI/ML)-based medical devices. However, to advance AI R&D, two challenges arise: 1) significant data imbalance, with most data from Europe/America and under 10% from Asia, despite its 60% global population share; and 2) hefty time and investment needed to curate proprietary datasets for commercial use. In response, we established the first commercial medical imaging platform, encompassing steps like: 1) data collection, 2) data selection, 3) annotation, and 4) pre-processing. Moreover, we focus on harnessing under-represented data from Japan and broader Asia, including Computed Tomography, Magnetic Resonance Imaging, and Whole Slide Imaging scans. Using the collected data, we are preparing/providing ready-to-use datasets for medical AI R&D by 1) offering these datasets to AI firms, biopharma, and medical device makers and 2) using them as training/test data to develop tailored AI solutions for such entities. We also aim to merge Blockchain for data security and plan to synthesize rare disease data via generative AI. DataHub Website: https://medical-datahub.ai/
翻訳日:2024-03-13 07:28:32 公開日:2024-03-10
# LLMを用いた家族会話のシミュレーション:育児スタイルの実証

Simulating Family Conversations using LLMs: Demonstration of Parenting Styles ( http://arxiv.org/abs/2403.06144v1 )

ライセンス: Link先を確認
Frank Tian-fang Ye (1), Xiaozi Gao (2) ((1) Department of Applied Social Sciences, The Hong Kong Polytechnic University, Hong Kong SAR, (2) Department of Early Childhood Education, The Education University of Hong Kong, Hong Kong SAR)(参考訳) 本研究では,大規模言語モデル(llm)を用いた模擬会話による心理・言語研究の枠組みを提案する。 提案手法は,人間との伝統的な実験では不可能になる可能性のある非倫理的言語や行動を含む人間のインタラクションをシミュレートする上で,特に大きな利点を提供する。 実演として,4つの育児スタイル(権威主義,権威,寛容,無関係)の家族会話をシミュレートするためにLLMを用いた。 一般に,シミュレートされた会話では,4つの育児スタイルの特徴が描かれていた。 例えば、コンテキスト認識、数ショットプロンプトアプローチの採用、特定のシミュレーション要件に対応するための微調整モデルなどだ。 本研究は,会話の模擬を通して心理学的・言語的な研究を行うための有望な方法論を紹介し,現状の限界を認識し,今後の改善と改善に向けた潜在的解決策を提案する。

This study presents a framework for conducting psychological and linguistic research through simulated conversations using large language models (LLMs). The proposed methodology offers significant advantages, particularly for simulating human interactions involving potential unethical language or behaviors that would be impermissible in traditional experiments with human participants. As a demonstration, we employed LLMs to simulate family conversations across four parenting styles (authoritarian, authoritative, permissive, and uninvolved). In general, we observed that the characteristics of the four parenting styles were portrayed in the simulated conversations. Several strategies could be used to improve the simulation quality, such as including context awareness, employing a few-shot prompting approach or fine-tuning models to cater to specific simulation requirements. Overall, this study introduces a promising methodology for conducting psychological and linguistic research through simulated conversations, while acknowledging the current limitations and proposing potential solutions for future refinement and improvement.
翻訳日:2024-03-13 07:28:15 公開日:2024-03-10
# Fluent: プライベートフェデレーション学習のためのラウンド効率セキュアアグリゲーション

Fluent: Round-efficient Secure Aggregation for Private Federated Learning ( http://arxiv.org/abs/2403.06143v1 )

ライセンス: Link先を確認
Xincheng Li, Jianting Ning, Geong Sen Poh, Leo Yu Zhang, Xinchun Yin, Tianwei Zhang(参考訳) federated learning(fl)は、ローカルデータセットのプライバシを保護しながら、多数のクライアント間の機械学習モデルの協調トレーニングを促進する。 しかし、flは依然として、プライバシ推論や反転攻撃などの脆弱性に影響を受けやすい。 これらの脅威に対処するためにシングルサーバのセキュアアグリゲーションスキームが提案された。 それにもかかわらず、彼らはラウンドと通信の複雑さのために実用的な制約に遭遇する。 本稿では,プライベートflのためのラウンドかつ通信効率の高いセキュアアグリゲーションスキームであるfluentを紹介する。 Fluentは、Bell et al.(CCS 2020)やMa et al.(SP 2023)のような最先端のソリューションと比較して、いくつかの改善がある。 1) プライベート情報をリークすることなく、複数のトレーニングイテレーション間で共有を効率的に再利用することで、頻繁なハンドシェイクとシークレット共有操作を廃止する。 これらのイノベーションにより、fluentは悪意のあるサーバ設定において、少なくとも3つの既存のスキームのラウンドとは対照的に、最小の通信ラウンド(つまり、収集フェーズにおける2つのラウンド)を達成する。 これは地理的に分散したクライアントのレイテンシを著しく削減する。 (3) fluentは参加者選択アルゴリズムと別のシークレット共有スキームによるfluent-dynamicも導入している。 これによって動的クライアントの結合が容易になり、システムの柔軟性とスケーラビリティが向上します。 Fluentを実装し、既存のソリューションと比較しました。 実験の結果,fluentは計算コストを75%以上向上させ,通信オーバーヘッドを25%向上させることがわかった。 Fluentはまた、計算コストの限界増加を犠牲にして、サーバの通信オーバーヘッドを低減する。

Federated learning (FL) facilitates collaborative training of machine learning models among a large number of clients while safeguarding the privacy of their local datasets. However, FL remains susceptible to vulnerabilities such as privacy inference and inversion attacks. Single-server secure aggregation schemes were proposed to address these threats. Nonetheless, they encounter practical constraints due to their round and communication complexities. This work introduces Fluent, a round and communication-efficient secure aggregation scheme for private FL. Fluent has several improvements compared to state-of-the-art solutions like Bell et al. (CCS 2020) and Ma et al. (SP 2023): (1) it eliminates frequent handshakes and secret sharing operations by efficiently reusing the shares across multiple training iterations without leaking any private information; (2) it accomplishes both the consistency check and gradient unmasking in one logical step, thereby reducing another round of communication. With these innovations, Fluent achieves the fewest communication rounds (i.e., two in the collection phase) in the malicious server setting, in contrast to at least three rounds in existing schemes. This significantly minimizes the latency for geographically distributed clients; (3) Fluent also introduces Fluent-Dynamic with a participant selection algorithm and an alternative secret sharing scheme. This can facilitate dynamic client joining and enhance the system flexibility and scalability. We implemented Fluent and compared it with existing solutions. Experimental results show that Fluent improves the computational cost by at least 75% and communication overhead by at least 25% for normal clients. Fluent also reduces the communication overhead for the server at the expense of a marginal increase in computational cost.
翻訳日:2024-03-13 07:27:59 公開日:2024-03-10
# グラフ構造を考慮した大規模言語モデルに基づくデータの微粒化合成

Fine-grainedly Synthesize Streaming Data Based On Large Language Models With Graph Structure Understanding For Data Sparsity ( http://arxiv.org/abs/2403.06139v1 )

ライセンス: Link先を確認
Xin Zhang, Linhai Zhang, Deyu Zhou, Guoqiang Xu(参考訳) ユーザデータのスパースのため、eコマースプラットフォームにおけるユーザレビューに対する感情分析は、特に極めてスパースなユーザデータやロングテールラベルに直面した場合には、パフォーマンスの低下に苦しむことが多い。 近年,LLM の出現により,グラフ構造を利用して補足的なユーザプロファイルを生成する手法が導入された。 しかし,従来のアプローチでは LLM のグラフ理解能力は十分に活用されておらず,複雑なストリーミングデータ環境への適応に苦慮していた。 本研究では,スパースユーザをミドルテール,ロングテール,エクストリームの3つのカテゴリに分類する,詳細なストリーミングデータ合成フレームワークを提案する。 具体的には、ローカル・グロバルグラフ理解、第2次関係抽出、製品属性理解など、ストリーミングデータにおける3つの重要なグラフ要素を包括的に理解するLLMを設計し、高品質な合成データを生成することにより、異なるカテゴリ間の疎結合を効果的に解決する。 3つの実際のデータセットに対する実験結果は、それぞれ45.85%、3.16%、62.21%のMSE削減に寄与する合成データにより、大幅なパフォーマンス向上を示している。

Due to the sparsity of user data, sentiment analysis on user reviews in e-commerce platforms often suffers from poor performance, especially when faced with extremely sparse user data or long-tail labels. Recently, the emergence of LLMs has introduced new solutions to such problems by leveraging graph structures to generate supplementary user profiles. However, previous approaches have not fully utilized the graph understanding capabilities of LLMs and have struggled to adapt to complex streaming data environments. In this work, we propose a fine-grained streaming data synthesis framework that categorizes sparse users into three categories: Mid-tail, Long-tail, and Extreme. Specifically, we design LLMs to comprehensively understand three key graph elements in streaming data, including Local-global Graph Understanding, Second-Order Relationship Extraction, and Product Attribute Understanding, which enables the generation of high-quality synthetic data to effectively address sparsity across different categories. Experimental results on three real datasets demonstrate significant performance improvements, with synthesized data contributing to MSE reductions of 45.85%, 3.16%, and 62.21%, respectively.
翻訳日:2024-03-13 07:27:30 公開日:2024-03-10
# 医用画像分類のためのベイズランダム意味データ拡張

Bayesian Random Semantic Data Augmentation for Medical Image Classification ( http://arxiv.org/abs/2403.06138v1 )

ライセンス: Link先を確認
Yaoyao Zhu and Xiuding Cai and Xueyao Wang and Yu Yao(参考訳) データ拡張は深層ニューラルネットワーク、特に医用画像分類において重要な正規化手法である。 一般的なデータ拡張アプローチには、画像変換ベースの方法、生成データ拡張、自動データ拡張などがある。 画像変換に基づく自動データ拡張技術はセマンティックトランスフォーメーションを実装できないため、制約のある様々な拡張サンプルが得られ、生成データ拡張手法は計算コストがかかる。 これらの課題に対応するために,我々は,新規かつ効率的かつプラグ・アンド・プレイ意味データ拡張手法であるベイズランダム意味データ拡張 (brsda) を提案する。 BRSDAは、特定の方向に沿った特徴空間の単純な翻訳によって動機付けられ、意味的変換に影響を及ぼす。 特徴が与えられると、その拡張可能な意味の規模をランダム変数として定義し、変分ベイジアンを用いて分布を推定し、次にサンプル意味の規模を標本化し、ランダムに選択された意味の方向を加えて意味データの増大を達成する。 2次元および6次元の医用画像データセットにおけるbrsdaの有効性を実証した。 また、BRSDAを主流のニューラルネットワークアーキテクチャでテストし、その堅牢性を示しています。 さらに,BRSDAと他の先行データ拡張手法を組み合わせることにより,性能が向上する。 コードは \url{https://github.com/yaoyaozhu19/brsda} で入手できる。

Data augmentation is a critical regularization technique for deep neural networks, particularly in medical image classification. Popular data augmentation approaches include image transformation-based methods, generative data augmentation, and automatic data augmentation. However, these approaches encounter notable limitations: image transformation-based and automated data augmentation techniques cannot implement semantic transformations, leading to a constrained variety of augmented samples, and generative data augmentation methods are computationally expensive. In response to these challenges, we proposed Bayesian Random Semantic Data Augmentation (BRSDA), a novel, efficient, and plug-and-play semantic data augmentation method. BRSDA is motivated by a simple translation in the feature space along specific directions that can effectuate semantic transformations. When given a feature, we define its augmentable semantic magnitude as a random variable and estimate its distribution using variational Bayesian, then sample semantic magnitude and add to the randomly selected semantic direction to achieve semantic data augmentation. We demonstrate the effectiveness of BRSDA on five 2D and six 3D medical image datasets covering nine modalities. We also test BRSDA with mainstream neural network architectures, showcasing its robustness. Furthermore, combining BRSDA with other leading data augmentation methods achieves superior performance. Code is available online at \url{https://github.com/YaoyaoZhu19/BRSDA}.
翻訳日:2024-03-13 07:27:08 公開日:2024-03-10
# RESTORE: ビジョンランゲージのプロンプト学習のための機能シフトを目指す

RESTORE: Towards Feature Shift for Vision-Language Prompt Learning ( http://arxiv.org/abs/2403.06136v1 )

ライセンス: Link先を確認
Yuncheng Yang and Chuyan Zhang and Zuopeng Yang and Yuting Gao and Yulei Qin and Ke Li and Xing Sun and Jie Yang and Yun Gu(参考訳) プロンプト学習は、様々な下流タスクにおける一般化を改善するための微調整基盤モデルに有効である。 しかし、単一のモダリティパスに沿って独立に最適化されたプロンプトは、特定のタスクやクラスのパフォーマンスを改善するために、事前訓練されたモデルの視覚言語アライメントを犠牲にする可能性がある。 本稿では,まず,クリップの1つの分岐(例えば言語や視覚)のみに沿ったプロンプトチューニングが,不一致が生じる理由であることを示す。 異なるモダリティの学習可能なパラメータを適切に規則化することなく、プロンプトラーニングは、2towerアーキテクチャに固有の元の事前学習制約に違反する。 このような誤解に対処するために,我々はまず,学習プロンプトの導入後の埋め込みの変動として定義される特徴シフトを提案し,説明ツールとして機能する。 本稿では,その一般化可能性との関係を考察し,クロスモーダル一貫性に明示的な制約を課すマルチモーダルプロンプト学習法restoreを提案する。 より具体的には、特徴の不整合を防止するために、即時チューニング時の差の大きさを計測・規則化し、モーダル間特徴シフトを同期させる特徴シフト整合を導入する。 さらに,各モダリティの特徴的変化が同じ速度で大きく変化する場合,クロスモーダルなミスアライメントが依然として厳しい場合,ショートカット攻撃を回避するための"サージリー"ブロックを提案する。 両モードのフィードフォワードアダプタとして実装され、不一致問題を緩和する。 15個のデータセットに対する大規模な実験により,提案手法は特徴の整合性を損なうことなく,最先端のプロンプトチューニング手法よりも優れていることが示された。

Prompt learning is effective for fine-tuning foundation models to improve their generalization across a variety of downstream tasks. However, the prompts that are independently optimized along a single modality path, may sacrifice the vision-language alignment of pre-trained models in return for improved performance on specific tasks and classes, leading to poorer generalization. In this paper, we first demonstrate that prompt tuning along only one single branch of CLIP (e.g., language or vision) is the reason why the misalignment occurs. Without proper regularization across the learnable parameters in different modalities, prompt learning violates the original pre-training constraints inherent in the two-tower architecture. To address such misalignment, we first propose feature shift, which is defined as the variation of embeddings after introducing the learned prompts, to serve as an explanatory tool. We dive into its relation with generalizability and thereafter propose RESTORE, a multi-modal prompt learning method that exerts explicit constraints on cross-modal consistency. To be more specific, to prevent feature misalignment, a feature shift consistency is introduced to synchronize inter-modal feature shifts by measuring and regularizing the magnitude of discrepancy during prompt tuning. In addition, we propose a "surgery" block to avoid short-cut hacking, where cross-modal misalignment can still be severe if the feature shift of each modality varies drastically at the same rate. It is implemented as feed-forward adapters upon both modalities to alleviate the misalignment problem. Extensive experiments on 15 datasets demonstrate that our method outperforms the state-of-the-art prompt tuning methods without compromising feature alignment.
翻訳日:2024-03-13 07:26:46 公開日:2024-03-10
# MACE:拡散モデルにおける質量消去

MACE: Mass Concept Erasure in Diffusion Models ( http://arxiv.org/abs/2403.06135v1 )

ライセンス: Link先を確認
Shilin Lu, Zilan Wang, Leyang Li, Yanzhu Liu, Adams Wai-Kin Kong(参考訳) 大規模テキスト・画像拡散モデルの急速な拡大は、有害なコンテンツや誤解を招くコンテンツの作成における誤用の可能性に対する懸念が高まっている。 本稿では,マス概念消去作業のための微調整フレームワークであるMACEを紹介する。 このタスクは、モデルが望ましくない概念を具現化する画像を生成するのを防ぐことを目的としている。 既存の概念消去法は通常、5つ未満の概念を同時に扱うことに制限され、概念同義語(一般性)の消去と無関係な概念(特異性)のバランスを見つけるのに苦労する。 対照的に、MACEは消去範囲を100のコンセプトに拡大し、一般性と特異性の間に効果的なバランスをとることで、異なる。 これは、LoRAファインタニングとともに閉形式のクロスアテンション改善を活用し、望ましくない概念の情報をまとめて排除することで達成される。 さらに、MACEは相互干渉なしで複数のLoRAを統合する。 対象の消去,セレブの消去,明示的な内容の消去,芸術的スタイルの消去という4つの課題にまたがる先行手法に対するMISの広範な評価を行う。 その結果,MACEは従来の手法を超越していることがわかった。 コードはhttps://github.com/Shilin-LU/MACEで入手できる。

The rapid expansion of large-scale text-to-image diffusion models has raised growing concerns regarding their potential misuse in creating harmful or misleading content. In this paper, we introduce MACE, a finetuning framework for the task of mass concept erasure. This task aims to prevent models from generating images that embody unwanted concepts when prompted. Existing concept erasure methods are typically restricted to handling fewer than five concepts simultaneously and struggle to find a balance between erasing concept synonyms (generality) and maintaining unrelated concepts (specificity). In contrast, MACE differs by successfully scaling the erasure scope up to 100 concepts and by achieving an effective balance between generality and specificity. This is achieved by leveraging closed-form cross-attention refinement along with LoRA finetuning, collectively eliminating the information of undesirable concepts. Furthermore, MACE integrates multiple LoRAs without mutual interference. We conduct extensive evaluations of MACE against prior methods across four different tasks: object erasure, celebrity erasure, explicit content erasure, and artistic style erasure. Our results reveal that MACE surpasses prior methods in all evaluated tasks. Code is available at https://github.com/Shilin-LU/MACE.
翻訳日:2024-03-13 07:26:16 公開日:2024-03-10
# FedPIT:プライバシ保護とFederated Instruction Tuningへの取り組み

FedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning ( http://arxiv.org/abs/2403.06131v1 )

ライセンス: Link先を確認
Zhuo Zhang, Jingyuan Zhang, Jintao Huang, Lizhen Qu, Hongzhi Zhang, Zenglin Xu(参考訳) 大規模言語モデル(LLM)の性能向上には,インストラクションチューニングが不可欠であることが証明されている。 しかし、特にプライバシーに敏感なドメインにおいて、チューニングのための多様で高品質な命令データを集めることは課題となる。 フェデレーション命令チューニング(federated instruction tuning, fedit)は、プライバシを維持しながら、複数のデータ所有者からのフェデレーション学習を活用するソリューションとして登場した。 しかし、データ抽出攻撃のトレーニングに限られた命令データと脆弱性があるため、課題に直面している。 これらの課題に対処するために,LLMのインコンテキスト学習機能を利用してタスク固有の合成データを自律的に生成するフェデレーションアルゴリズムであるFedPITを提案する。 本手法では,データ抽出攻撃を効果的に抑えるため,パラメータ分離学習を用いて,合成データと拡張局所データで訓練された局所パラメータのグローバルパラメータを維持できる。 実世界の医療データに対する大規模な実験は、フェデレートされた数ショットのパフォーマンスを改善する上でFedPITの有効性を示し、プライバシーとデータ不均一性に対する堅牢性を保っている。

Instruction tuning has proven essential for enhancing the performance of large language models (LLMs) in generating human-aligned responses. However, collecting diverse, high-quality instruction data for tuning poses challenges, particularly in privacy-sensitive domains. Federated instruction tuning (FedIT) has emerged as a solution, leveraging federated learning from multiple data owners while preserving privacy. Yet, it faces challenges due to limited instruction data and vulnerabilities to training data extraction attacks. To address these issues, we propose a novel federated algorithm, FedPIT, which utilizes LLMs' in-context learning capability to self-generate task-specific synthetic data for training autonomously. Our method employs parameter-isolated training to maintain global parameters trained on synthetic data and local parameters trained on augmented local data, effectively thwarting data extraction attacks. Extensive experiments on real-world medical data demonstrate the effectiveness of FedPIT in improving federated few-shot performance while preserving privacy and robustness against data heterogeneity.
翻訳日:2024-03-13 07:25:56 公開日:2024-03-10
# clickvos: ビデオオブジェクトのセグメンテーションをクリックする

ClickVOS: Click Video Object Segmentation ( http://arxiv.org/abs/2403.06130v1 )

ライセンス: Link先を確認
Pinxue Guo, Lingyi Hong, Xinyu Zhou, Shuyong Gao, Wanyun Li, Jinglun Li, Zhaoyu Chen, Xiaoqiang Li, Wei Zhang, Wenqiang Zhang(参考訳) Video Object Segmentation (VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。 しかしながら、以前の設定では、推論中に最初のフレームでターゲットオブジェクトの時間を要する手動マスクが必要か、あるいは任意のオブジェクトを指定できる柔軟性が欠如している。 この制限に対処するために,第1フレームの1クリックごとに動画全体で興味のあるオブジェクトを分割するclickvos(clickvos)という設定を提案する。 そして、このタスクをサポートするポイントアノテーションを備えた拡張データセットDAVIS-PとYouTubeVOSPを提供します。 ClickVOSは、オブジェクトを示すのにわずか1-2秒のインタラクション時間しかなく、オブジェクトのマスクを注釈付けするのに数分を要するため、重要な実用的応用と研究上の意味を持つ。 しかし、ClickVOSはさらなる課題も提示している。 この課題に対処するために、人間の注意プロセスに動機づけられたABS(Attention Before Segmentation)と呼ばれるエンドツーエンドのベースラインアプローチを提案する。 ABSは、第1フレームの所定点を利用して、簡潔で効果的なセグメンテーション注意を通して対象対象を知覚する。 初期オブジェクトマスクはおそらく不正確であるが、ABSでは、ビデオが進行中であるように、初期不正確なオブジェクトマスクは、エラーの蓄積による劣化ではなく、自己修復が可能であり、これは、安定したグローバルなオブジェクトメモリを継続的に記録し、詳細な高密度メモリを更新する設計上の改善メモリに起因している。 さらに,関連する分野のオフ・ザ・シェルフアルゴリズムを用いた様々なベースライン探索を行い,clickvosのさらなる探索への洞察を提供する。 実験結果は,提案したABSアプローチの優位性を示した。 拡張データセットとコードはhttps://github.com/PinxueGuo/ClickVOSで利用可能になる。

Video Object Segmentation (VOS) task aims to segment objects in videos. However, previous settings either require time-consuming manual masks of target objects at the first frame during inference or lack the flexibility to specify arbitrary objects of interest. To address these limitations, we propose the setting named Click Video Object Segmentation (ClickVOS) which segments objects of interest across the whole video according to a single click per object in the first frame. And we provide the extended datasets DAVIS-P and YouTubeVOSP that with point annotations to support this task. ClickVOS is of significant practical applications and research implications due to its only 1-2 seconds interaction time for indicating an object, comparing annotating the mask of an object needs several minutes. However, ClickVOS also presents increased challenges. To address this task, we propose an end-to-end baseline approach named called Attention Before Segmentation (ABS), motivated by the attention process of humans. ABS utilizes the given point in the first frame to perceive the target object through a concise yet effective segmentation attention. Although the initial object mask is possibly inaccurate, in our ABS, as the video goes on, the initially imprecise object mask can self-heal instead of deteriorating due to error accumulation, which is attributed to our designed improvement memory that continuously records stable global object memory and updates detailed dense memory. In addition, we conduct various baseline explorations utilizing off-the-shelf algorithms from related fields, which could provide insights for the further exploration of ClickVOS. The experimental results demonstrate the superiority of the proposed ABS approach. Extended datasets and codes will be available at https://github.com/PinxueGuo/ClickVOS.
翻訳日:2024-03-13 07:25:38 公開日:2024-03-10
# 言語付きデュアルスペースアライメントを用いた低用量CT

Low-dose CT Denoising with Language-engaged Dual-space Alignment ( http://arxiv.org/abs/2403.06128v1 )

ライセンス: Link先を確認
Zhihao Chen, Tao Chen, Chenhui Wang, Chuang Niu, Ge Wang, Hongming Shan(参考訳) 低線量ct (low-dose computed tomography) では, 様々な深層学習法が提案されているが, 過剰なスムーシング, ぼやけ, 説明可能性の欠如に苦しむことが多い。 これらの問題を緩和するために,低用量CT復調モデルの最適化を目的としたLanguage-Engaged Dual-space Alignment Los (LEDA)を提案する。 我々の考えは,LLMをベースとした低用量CT復調方式として,大規模言語モデル(LLM)を用いて連続的な知覚空間と離散的な意味空間の両領域において,分解CTと正常線量CTの画像を整列させることである。 LEDAは、LCM誘導CTオートエンコーダを事前訓練することで、CT画像を連続した高レベルな特徴に符号化し、それをトークン空間に量子化し、LCMの語彙から派生したセマンティックトークンを生成する。 2つの公開ldctデノイジングデータセットの広範な実験結果から,ledaは定量的指標と質的評価の観点から既存のデノイジングモデルを強化し,言語レベルの画像理解による説明可能性を提供することができた。 ソースコードはhttps://github.com/hao1635/LEDAで入手できる。

While various deep learning methods were proposed for low-dose computed tomography (CT) denoising, they often suffer from over-smoothing, blurring, and lack of explainability. To alleviate these issues, we propose a plug-and-play Language-Engaged Dual-space Alignment loss (LEDA) to optimize low-dose CT denoising models. Our idea is to leverage large language models (LLMs) to align denoised CT and normal dose CT images in both the continuous perceptual space and discrete semantic space, which is the first LLM-based scheme for low-dose CT denoising. LEDA involves two steps: the first is to pretrain an LLM-guided CT autoencoder, which can encode a CT image into continuous high-level features and quantize them into a token space to produce semantic tokens derived from the LLM's vocabulary; and the second is to minimize the discrepancy between the denoised CT images and normal dose CT in terms of both encoded high-level features and quantized token embeddings derived by the LLM-guided CT autoencoder. Extensive experimental results on two public LDCT denoising datasets demonstrate that our LEDA can enhance existing denoising models in terms of quantitative metrics and qualitative evaluation, and also provide explainability through language-level image understanding. Source code is available at https://github.com/hao1635/LEDA.
翻訳日:2024-03-13 07:25:06 公開日:2024-03-10
# 最大ランダム置換集合エントロピーの極限

Limit of the Maximum Random Permutation Set Entropy ( http://arxiv.org/abs/2403.06206v1 )

ライセンス: Link先を確認
Jiefeng Zhou, Zhen Li, Kang Hao Cheong, Yong Deng(参考訳) ランダム置換集合(Random Permutation Set、RPS)は、最近提案された新しいタイプの集合であり、エビデンス理論の一般化と見なすことができる。 RPSの不確実性を測定するため、RSSのエントロピーとその対応する最大エントロピーが提案されている。 最大エントロピーを探索することで、RSSの物理的意味を理解することができる。 本稿では、エントロピー関数の包含という新しい概念を定義する。 さらに, RPSエントロピーのエンベロープの限界が導出され, 証明された。 既存の手法と比較して, RPSエントロピーのエンベロープを計算するための提案手法の計算複雑性は大幅に低下する。 その結果、$N \to \infty$ のとき RPS のエントロピーのエントロピーの極限形式は $e \times (N!)^2$ に収束し、これは定数 $e$ と係数に強く結びついている。 最後に、数値例は、提案するエンベロープの効率性と簡潔さを検証し、最大エントロピー関数に対する新たな洞察を与える。

The Random Permutation Set (RPS) is a new type of set proposed recently, which can be regarded as the generalization of evidence theory. To measure the uncertainty of RPS, the entropy of RPS and its corresponding maximum entropy have been proposed. Exploring the maximum entropy provides a possible way of understanding the physical meaning of RPS. In this paper, a new concept, the envelope of entropy function, is defined. In addition, the limit of the envelope of RPS entropy is derived and proved. Compared with the existing method, the computational complexity of the proposed method to calculate the envelope of RPS entropy decreases greatly. The result shows that when $N \to \infty$, the limit form of the envelope of the entropy of RPS converges to $e \times (N!)^2$, which is highly connected to the constant $e$ and factorial. Finally, numerical examples validate the efficiency and conciseness of the proposed envelope, which provides a new insight into the maximum entropy function.
翻訳日:2024-03-13 07:21:05 公開日:2024-03-10
# s-dyrf:動的シーンのための参照ベーススタイライゼーションラミアンスフィールド

S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2403.06205v1 )

ライセンス: Link先を確認
Xingyi Li, Zhiguo Cao, Yizheng Wu, Kewei Wang, Ke Xian, Zhe Wang, Guosheng Lin(参考訳) 現在の3Dスタイリング手法は、現実世界の動的な性質に反する静的なシーンを想定することが多い。 この制限に対処するため、S-DyRFは動的神経放射場のための参照型時空間スタイリング法である。 しかし、時間軸に沿ってスタイリングされた参照画像が限られているため、動的3Dシーンのスタイリングは本質的に困難である。 私たちの重要な洞察は、提供された参照に加えて、追加の時間的手がかりを導入することです。 この目的のために、与えられたスタイライズされた参照から時間的擬似参照を生成する。 これらの擬似参照は、動的3Dシーン全体の参照からスタイル情報の伝播を促進する。 粗いスタイルの転送には、特徴レベルでの擬似参照に現れるスタイルの詳細を模倣するために、新しいビューと時間を強制する。 高周波の詳細を保存するため、時間的擬似参照からスタイライズされた時間的擬似線の集合を作成する。 これらの擬似線は、微細なスタイル転移を達成するための詳細かつ明示的なスタイライゼーションガイダンスとして機能する。 合成, 実世界の両方のデータセットを用いた実験により, 動的3次元シーンにおける時空間ビュー合成の高機能なスタイリング結果が得られた。

Current 3D stylization methods often assume static scenes, which violates the dynamic nature of our real world. To address this limitation, we present S-DyRF, a reference-based spatio-temporal stylization method for dynamic neural radiance fields. However, stylizing dynamic 3D scenes is inherently challenging due to the limited availability of stylized reference images along the temporal axis. Our key insight lies in introducing additional temporal cues besides the provided reference. To this end, we generate temporal pseudo-references from the given stylized reference. These pseudo-references facilitate the propagation of style information from the reference to the entire dynamic 3D scene. For coarse style transfer, we enforce novel views and times to mimic the style details present in pseudo-references at the feature level. To preserve high-frequency details, we create a collection of stylized temporal pseudo-rays from temporal pseudo-references. These pseudo-rays serve as detailed and explicit stylization guidance for achieving fine style transfer. Experiments on both synthetic and real-world datasets demonstrate that our method yields plausible stylized results of space-time view synthesis on dynamic 3D scenes.
翻訳日:2024-03-13 07:20:44 公開日:2024-03-10
# 言語モデルを用いた非整合人間の概念表現の同定と解釈

Identifying and interpreting non-aligned human conceptual representations using language modeling ( http://arxiv.org/abs/2403.06204v1 )

ライセンス: Link先を確認
Wanqian Bao and Uri Hasson(参考訳) 世界の人々の経験が概念表現や語彙意味論を形作っているかどうかという問題は長く続いている。 単語連想、特徴リスト、類似度評価タスクは、この問題に対処しようとするが、潜在次元を主観的に解釈する必要がある。 本研究では,教師付き表現アライメント手法を提案する。 (i)あるカテゴリーの2つの集団が同一の基底を共有しているか否かを判断し (ii)それぞれがどう異なるかを説明する。 本手法の適用において, 先天盲目は, アモーダル語と知覚関連言語ドメインの両方において概念的再編成を誘導し, 関連する意味変化を同定する。 まず,言語モデル(GloVe)に対して,単語埋め込みによる人間の類似性判断の予測精度を最適化する。 プルーニングは、目撃者による判断の予測を最適化するGloVe機能の1つのサブセットと、盲人による判断を最適化する別のサブセットを識別する。 線形プローブ解析は、保持されたグローブ特徴から65の解釈可能な意味次元へのマッピングを学習することにより、これらの特徴集合の潜在意味論を解釈する。 本手法を7つの意味領域に適用し,動き,視覚,触覚,および知識獲得に関連するアモーダル動詞を含む。 視覚障害者は、より強く社会的・認知的な意味を、運動に関連する動詞や非音声発声者(例えば、whimper, moan)と結びつけている。 逆に、アモーダル動詞に対しては、多くのスパーザー情報を示す。 最後に、一部の動詞では、盲目と視覚の表現は極めて類似している。 本研究は,単語の意味の個人間差異を研究するための形式的アプローチと,視覚が日常動詞の概念的表現に与える影響を初めて示す。

The question of whether people's experience in the world shapes conceptual representation and lexical semantics is longstanding. Word-association, feature-listing and similarity rating tasks aim to address this question but require a subjective interpretation of the latent dimensions identified. In this study, we introduce a supervised representational-alignment method that (i) determines whether two groups of individuals share the same basis of a certain category, and (ii) explains in what respects they differ. In applying this method, we show that congenital blindness induces conceptual reorganization in both a-modal and sensory-related verbal domains, and we identify the associated semantic shifts. We first apply supervised feature-pruning to a language model (GloVe) to optimize prediction accuracy of human similarity judgments from word embeddings. Pruning identifies one subset of retained GloVe features that optimizes prediction of judgments made by sighted individuals and another subset that optimizes judgments made by blind. A linear probing analysis then interprets the latent semantics of these feature-subsets by learning a mapping from the retained GloVe features to 65 interpretable semantic dimensions. We applied this approach to seven semantic domains, including verbs related to motion, sight, touch, and amodal verbs related to knowledge acquisition. We find that blind individuals more strongly associate social and cognitive meanings to verbs related to motion or those communicating non-speech vocal utterances (e.g., whimper, moan). Conversely, for amodal verbs, they demonstrate much sparser information. Finally, for some verbs, representations of blind and sighted are highly similar. The study presents a formal approach for studying interindividual differences in word meaning, and the first demonstration of how blindness impacts conceptual representation of everyday verbs.
翻訳日:2024-03-13 07:20:25 公開日:2024-03-10
# 追跡されてるの? LLMによるゼロショット軌道追跡のパワーを発見!

Are You Being Tracked? Discover the Power of Zero-Shot Trajectory Tracing with LLMs! ( http://arxiv.org/abs/2403.06201v1 )

ライセンス: Link先を確認
Huanqi Yang, Sijie Ji, Rucheng Wu, Weitao Xu(参考訳) 複雑な軌跡を解釈するために、AIoT(Artificial Intelligence of Things)にシームレスに組み込むことのできる基本的なコンポーネントとして機能する、Large Language Models(LLMs)の能力に関する活発な議論がある。 LLMTrackは、ロールプレイとステップバイステップの方法論と、未処理の慣性計測ユニット(IMU)データを組み合わせた新しい単一プロンプト技術を用いて、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。 本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価する。 両方のテストシナリオにおいて、LLMTrackは、従来の機械学習アプローチと、現代の最先端のディープラーニングモデルによって設定されたパフォーマンスベンチマークに適合するだけでなく、すべて特別なデータセットでトレーニングする必要がない。 本研究の結果から,LSMは戦略的に設計したプロンプトにより,広範囲な知識ベースを活用でき,生のセンサデータを顕著な有効性で分析できる可能性が示唆された。

There is a burgeoning discussion around the capabilities of Large Language Models (LLMs) in acting as fundamental components that can be seamlessly incorporated into Artificial Intelligence of Things (AIoT) to interpret complex trajectories. This study introduces LLMTrack, a model that illustrates how LLMs can be leveraged for Zero-Shot Trajectory Recognition by employing a novel single-prompt technique that combines role-play and think step-by-step methodologies with unprocessed Inertial Measurement Unit (IMU) data. We evaluate the model using real-world datasets designed to challenge it with distinct trajectories characterized by indoor and outdoor scenarios. In both test scenarios, LLMTrack not only meets but exceeds the performance benchmarks set by traditional machine learning approaches and even contemporary state-of-the-art deep learning models, all without the requirement of training on specialized datasets. The results of our research suggest that, with strategically designed prompts, LLMs can tap into their extensive knowledge base and are well-equipped to analyze raw sensor data with remarkable effectiveness.
翻訳日:2024-03-13 07:19:51 公開日:2024-03-10
# supra : 術中計画のための手術段階認識と予測

SuPRA: Surgical Phase Recognition and Anticipation for Intra-Operative Planning ( http://arxiv.org/abs/2403.06200v1 )

ライセンス: Link先を確認
Maxence Boels, Yang Liu, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin(参考訳) 手術段階の術中認識は手術室におけるリアルタイムのコンテクスト意識を高める重要な可能性を持っている。 しかし, オンライン認識は, 有益ではあるが, 手術中の実際の手術判断や行動に直接的影響が限定されるため, 術後の映像分析に寄与すると考える。 対照的に,手術段階の予測と予測は術中支援に本質的に有益であり,今後の経過を見据え,外科医の即時・長期計画に有意義な影響を与える可能性がある。 そこで本研究では,このギャップに対処するために,現在進行中の外科手術と今後の手術の予測を同時に行う2つのアプローチを提案する。 術中位相認識・予測法 (SuPRA) は, 術中位相認識の精度向上に過去・現在情報を活用し, 将来セグメントを用いて位相予測を行う。 この統一アプローチは、これらの目的を別々に扱う従来のフレームワークに挑戦する。 我々は、cholec80とautolaparo21の2つのデータセットでsupraを検証し、それぞれ91.8%と79.3%の認識精度で最先端のパフォーマンスを示した。 さらに,セグメント分類をより時間的評価するために,新しいセグメントレベルの評価指標であるeditとf1のオーバーラップスコアを用いて,モデルを紹介し評価する。 結論としてsupraは,手術段階の認識と今後の出来事の予測を通じて術中支援を改善するための新しいマルチタスクアプローチを提案する。

Intra-operative recognition of surgical phases holds significant potential for enhancing real-time contextual awareness in the operating room. However, we argue that online recognition, while beneficial, primarily lends itself to post-operative video analysis due to its limited direct impact on the actual surgical decisions and actions during ongoing procedures. In contrast, we contend that the prediction and anticipation of surgical phases are inherently more valuable for intra-operative assistance, as they can meaningfully influence a surgeon's immediate and long-term planning by providing foresight into future steps. To address this gap, we propose a dual approach that simultaneously recognises the current surgical phase and predicts upcoming ones, thus offering comprehensive intra-operative assistance and guidance on the expected remaining workflow. Our novel method, Surgical Phase Recognition and Anticipation (SuPRA), leverages past and current information for accurate intra-operative phase recognition while using future segments for phase prediction. This unified approach challenges conventional frameworks that treat these objectives separately. We have validated SuPRA on two reputed datasets, Cholec80 and AutoLaparo21, where it demonstrated state-of-the-art performance with recognition accuracies of 91.8% and 79.3%, respectively. Additionally, we introduce and evaluate our model using new segment-level evaluation metrics, namely Edit and F1 Overlap scores, for a more temporal assessment of segment classification. In conclusion, SuPRA presents a new multi-task approach that paves the way for improved intra-operative assistance through surgical phase recognition and prediction of future events.
翻訳日:2024-03-13 07:19:33 公開日:2024-03-10
# 小型言語モデルを用いたマルチモーダルアシスタントの包括的オーバーホール

A Comprehensive Overhaul of Multimodal Assistant with Small Language Models ( http://arxiv.org/abs/2403.06199v1 )

ライセンス: Link先を確認
Minjie Zhu, Yichen Zhu, Xin Liu, Ning Liu, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Zhicai Ou, Feifei Feng, Jian Tang(参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論に関連するタスクにおいて優れたスキルを誇示している。 しかし、彼らの幅広い応用は、トレーニングと推論フェーズの両方において高い計算要求のために障害に直面しており、研究とユーザコミュニティ内の限られた利用者に限られている。 本稿では,Multimodal Small Language Models (MSLM) の設計側面について検討し,視覚表現,言語モデル,最適化戦略など,様々な側面の相乗効果を創出するために設計された,効率的なマルチモーダルアシスタント Mipha を提案する。 トレーニングデータの量を増やすことなく、我々のMipha-3Bは最先端の大規模MLLM(特にLLaVA-1.5-13B)を複数のベンチマークで上回ります。 詳細な議論を通じて,MLLMの能力に匹敵する強力なMSLMを開発するための洞察とガイドラインを提供する。 私たちのコードはhttps://github.com/zhuyiche/miphaで利用可能です。

Multimodal Large Language Models (MLLMs) have showcased impressive skills in tasks related to visual understanding and reasoning. Yet, their widespread application faces obstacles due to the high computational demands during both the training and inference phases, restricting their use to a limited audience within the research and user communities. In this paper, we investigate the design aspects of Multimodal Small Language Models (MSLMs) and propose an efficient multimodal assistant named Mipha, which is designed to create synergy among various aspects: visual representation, language models, and optimization strategies. We show that without increasing the volume of training data, our Mipha-3B outperforms the state-of-the-art large MLLMs, especially LLaVA-1.5-13B, on multiple benchmarks. Through detailed discussion, we provide insights and guidelines for developing strong MSLMs that rival the capabilities of MLLMs. Our code is available at https://github.com/zhuyiche/Mipha.
翻訳日:2024-03-13 07:19:09 公開日:2024-03-10
# DrFuse: モダリティの欠如とモダリティの不整合をともなう多モード核融合の学習

DrFuse: Learning Disentangled Representation for Clinical Multi-Modal Fusion with Missing Modality and Modal Inconsistency ( http://arxiv.org/abs/2403.06197v1 )

ライセンス: Link先を確認
Wenfang Yao, Kejing Yin, William K. Cheung, Jia Liu and Jing Qin(参考訳) 電子健康記録(ehr)と医療画像の組み合わせは臨床医にとって診断と予後予測に不可欠である。 これら2つのデータモダリティを戦略的に融合させることで、臨床予測タスクにおける機械学習モデルの精度を向上させることができる。 しかし, EHRと医用画像の非同期かつ補完的な性質は, 固有の課題を呈している。 臨床的および管理的要因による欠落のモダリティは、実際には避けられないものであり、各データモダリティの意義は、患者や予測対象によって異なり、矛盾した予測や準最適モデルの性能をもたらす。 これらの課題に対処するため,我々はDrFuseを効果的に多モード融合を実現するために提案する。 モダリティ間で共有される特徴と、各モダリティ内で固有の特徴を分離することで、モダリティの欠如に対処する。 さらに, 患者毎, 患者毎の重み付けを行い, 最終予測を行う疾患毎の注意層を通して, 形態的不整合の問題に対処する。 実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。 実験結果から,提案手法は最先端モデルよりも優れた性能を示した。 実装はhttps://github.com/dorothy-yao/drfuseで公開しています。

The combination of electronic health records (EHR) and medical images is crucial for clinicians in making diagnoses and forecasting prognosis. Strategically fusing these two data modalities has great potential to improve the accuracy of machine learning models in clinical prediction tasks. However, the asynchronous and complementary nature of EHR and medical images presents unique challenges. Missing modalities due to clinical and administrative factors are inevitable in practice, and the significance of each data modality varies depending on the patient and the prediction target, resulting in inconsistent predictions and suboptimal model performance. To address these challenges, we propose DrFuse to achieve effective clinical multi-modal fusion. It tackles the missing modality issue by disentangling the features shared across modalities and those unique within each modality. Furthermore, we address the modal inconsistency issue via a disease-wise attention layer that produces the patient- and disease-wise weighting for each modality to make the final prediction. We validate the proposed method using real-world large-scale datasets, MIMIC-IV and MIMIC-CXR. Experimental results show that the proposed method significantly outperforms the state-of-the-art models. Our implementation is publicly available at https://github.com/dorothy-yao/drfuse.
翻訳日:2024-03-13 07:18:50 公開日:2024-03-10
# 自己教師付き学習による自動運転の奥行き予測について

On depth prediction for autonomous driving using self-supervised learning ( http://arxiv.org/abs/2403.06194v1 )

ライセンス: Link先を確認
Houssem Boulahbal(参考訳) 環境の認識は、自律運転を可能にする重要な要素である。 車両に周囲の状況を把握し、情報に基づいて判断する能力を提供する。 深さ予測は、環境の幾何学と運動を理解するのに役立つため、このプロセスにおいて重要な役割を果たす。 本論文は,単眼自己教師付き学習手法を用いた深さ予測の課題に焦点を当てている。 この問題は、まずより広い視点からアプローチされ、より良い一般化を実現するための潜在的手法として条件付き生成対向ネットワーク(cGAN)を探索した。 そこで、条件付きGANの基本的な貢献として、アコントラリオcGANが提案された。 第2のコントリビューションは、動的オブジェクトごとにポーズを出力する新しいトランスフォーマーベースの手法を用いて、厳密な場面の仮定のためのソリューションを提案する、単一の画像から深度までを自己管理する手法である。 3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。 この手法は将来の深度を予測する自己教師技術の拡張として機能する。 これには、与えられたシーンの将来の深さを予測することができる新しいトランスフォーマーモデルの作成が含まれる。 また,上記の手法の様々な制限に対処し,ビデオから映像までの深度マップモデルを提案した。 このモデルは、入力および出力シーケンスの時空間的一貫性を利用して、より正確な深度シーケンス出力を予測する。 これらの手法は、自律運転(AD)と高度運転支援システム(ADAS)に重要な応用がある。

Perception of the environment is a critical component for enabling autonomous driving. It provides the vehicle with the ability to comprehend its surroundings and make informed decisions. Depth prediction plays a pivotal role in this process, as it helps the understanding of the geometry and motion of the environment. This thesis focuses on the challenge of depth prediction using monocular self-supervised learning techniques. The problem is approached from a broader perspective first, exploring conditional generative adversarial networks (cGANs) as a potential technique to achieve better generalization was performed. In doing so, a fundamental contribution to the conditional GANs, the acontrario cGAN was proposed. The second contribution entails a single image-to-depth self-supervised method, proposing a solution for the rigid-scene assumption using a novel transformer-based method that outputs a pose for each dynamic object. The third significant aspect involves the introduction of a video-to-depth map forecasting approach. This method serves as an extension of self-supervised techniques to predict future depths. This involves the creation of a novel transformer model capable of predicting the future depth of a given scene. Moreover, the various limitations of the aforementioned methods were addressed and a video-to-video depth maps model was proposed. This model leverages the spatio-temporal consistency of the input and output sequence to predict a more accurate depth sequence output. These methods have significant applications in autonomous driving (AD) and advanced driver assistance systems (ADAS).
翻訳日:2024-03-13 07:18:28 公開日:2024-03-10
# 軌道制御可能な拡散を伴う高調波群コレオグラフィ

Harmonious Group Choreography with Trajectory-Controllable Diffusion ( http://arxiv.org/abs/2403.06189v1 )

ライセンス: Link先を確認
Yuqin Dai, Wanlu Zhu, Ronghui Li, Zeping Ren, Xiangzheng Zhou, Xiu Li, Jun Li, Jian Yang(参考訳) 音楽からグループ振付を作成することは、視覚的に結束し多様なグループの動きを協調することを目的として、文化的エンターテイメントやバーチャルリアリティーにおいて注目を集めている。 興味の高まりにもかかわらず、近年の作品は、主にマルチダンサーの衝突とシングルダンサーのフットスライドという2つの主要な問題に対して、美学的に魅力的な振付の達成という課題に直面している。 これらの問題に対処するため,我々は,非重複軌道を用いたコヒーレントなダンス動作を容易にする新しい手法である軌道制御型拡散(tcdiff)を提案する。 具体的には、ダンサーの衝突に対処するために、音楽に基づいて複数のダンサーの軌跡を生成できるダンスビートナビゲータを導入し、距離一貫性の損失を補い、妥当な閾値内で軌道間の適切な間隔を維持する。 足の滑りを緩和するために,隣接するフレームからの軌跡変位を利用してフレキシブルなフットワークを実現するフットワーク適応器と,相対的なフォワード・キネマティックな損失を併用し,個々のダンサーのルートノードと関節の位置調整を行う。 広範な実験により,本手法が最先端の成果を得られることを実証した。

Creating group choreography from music has gained attention in cultural entertainment and virtual reality, aiming to coordinate visually cohesive and diverse group movements. Despite increasing interest, recent works face challenges in achieving aesthetically appealing choreography, primarily for two key issues: multi-dancer collision and single-dancer foot slide. To address these issues, we propose a Trajectory-Controllable Diffusion (TCDiff), a novel approach that harnesses non-overlapping trajectories to facilitate coherent dance movements. Specifically, to tackle dancer collisions, we introduce a Dance-Beat Navigator capable of generating trajectories for multiple dancers based on the music, complemented by a Distance-Consistency loss to maintain appropriate spacing among trajectories within a reasonable threshold. To mitigate foot sliding, we present a Footwork Adaptor that utilizes trajectory displacement from adjacent frames to enable flexible footwork, coupled with a Relative Forward-Kinematic loss to adjust the positioning of individual dancers' root nodes and joints. Extensive experiments demonstrate that our method achieves state-of-the-art results.
翻訳日:2024-03-13 07:18:04 公開日:2024-03-10
# 非対数サンプリングのための事前拡散を用いたLangevinアルゴリズムの改良

An Improved Analysis of Langevin Algorithms with Prior Diffusion for Non-Log-Concave Sampling ( http://arxiv.org/abs/2403.06183v1 )

ライセンス: Link先を確認
Xunpeng Huang, Hanze Dong, Difan Zou, Tong Zhang(参考訳) 高次元サンプリング問題における計算複雑性の次元依存性を理解することは、実用的・理論的観点からの根本的な問題である。 メトロポリス調整ランゲヴィンアルゴリズム(MALA)やバイアスサンプリング器(例えばアンダーダム化ランゲヴィンダイナミクス(ULD))など、バイアスのない定常分布を持つサンプル機と比較して、それらの複雑さの低次元依存性のため、低精度の場合の方が優れている。 この線に沿って、Freund et al. (2022) は、事前拡散を伴う修正ランゲヴィンアルゴリズムは、強い対数対数対象分布に対して独立に次元を収束させることができることを示唆している。 それでも、そのような性質がより一般的な場合に成立するかどうかは不明である。 本稿では,log-sobolev不等式(lsi)を満たす対象分布の事前拡散手法について検討する。 特に,修正したランゲヴィンアルゴリズムは,ステップサイズの異なるKL分散の次元非依存収束も得ることを示す。 本手法のコアは補間SDEの新規な構築であり, 過度に損傷したランゲヴィン力学の離散的更新のより正確な評価を行うのに有効である。 本理論解析は,より広い範囲のターゲット分布に対する事前拡散の利点を示し,より高速なサンプリングアルゴリズムの開発への新たな知見を提供する。

Understanding the dimension dependency of computational complexity in high-dimensional sampling problem is a fundamental problem, both from a practical and theoretical perspective. Compared with samplers with unbiased stationary distribution, e.g., Metropolis-adjusted Langevin algorithm (MALA), biased samplers, e.g., Underdamped Langevin Dynamics (ULD), perform better in low-accuracy cases just because a lower dimension dependency in their complexities. Along this line, Freund et al. (2022) suggest that the modified Langevin algorithm with prior diffusion is able to converge dimension independently for strongly log-concave target distributions. Nonetheless, it remains open whether such property establishes for more general cases. In this paper, we investigate the prior diffusion technique for the target distributions satisfying log-Sobolev inequality (LSI), which covers a much broader class of distributions compared to the strongly log-concave ones. In particular, we prove that the modified Langevin algorithm can also obtain the dimension-independent convergence of KL divergence with different step size schedules. The core of our proof technique is a novel construction of an interpolating SDE, which significantly helps to conduct a more accurate characterization of the discrete updates of the overdamped Langevin dynamics. Our theoretical analysis demonstrates the benefits of prior diffusion for a broader class of target distributions and provides new insights into developing faster sampling algorithms.
翻訳日:2024-03-13 07:17:43 公開日:2024-03-10
# ドメイン一般化分類のためのドメイン逆アクティブラーニング

Domain Adversarial Active Learning for Domain Generalization Classification ( http://arxiv.org/abs/2403.06174v1 )

ライセンス: Link先を確認
Jianting Chen, Ling Ding, Yunxiao Yang, Zaiyuan Di, and Yang Xiang(参考訳) ドメイン一般化モデルは、ソースドメインデータからクロスドメイン知識を学び、未知のターゲットドメインの性能を改善することを目的としている。 近年の研究では、多様でリッチなソースドメインサンプルがドメインの一般化能力を高めることが示されている。 本稿では,各サンプルがモデルの一般化能力に与える影響について論じる。 規模は小さいが、高品質なデータセットはある程度の一般化能力を得ることができる。 そこで本研究では,ドメイン一般化における分類タスクに対するDAAL(Domain-adversarial Active Learning)アルゴリズムを提案する。 まず,タスクの目的は同一ドメイン内のクラス間距離を最大化し,異なるドメイン間のクラス間距離を最小化することである。 この目的を達成するために,難解なサンプルを優先するドメイン敵選択法を設計する。 第二に、収束モデルにおいても、各領域に識別力を持たない特徴のサブセットが存在すると仮定する。 これらの機能サブセットを特定し、制約損失によって最適化しようとします。 daalアルゴリズムを複数のドメイン一般化データセット上で検証分析し,様々なドメイン一般化アルゴリズムやアクティブラーニングアルゴリズムと比較した。 その結果、daalアルゴリズムは少ないデータ資源で強力な一般化能力を達成でき、ドメイン一般化タスクにおけるデータアノテーションコストを低減できることがわかった。

Domain generalization models aim to learn cross-domain knowledge from source domain data, to improve performance on unknown target domains. Recent research has demonstrated that diverse and rich source domain samples can enhance domain generalization capability. This paper argues that the impact of each sample on the model's generalization ability varies. Despite its small scale, a high-quality dataset can still attain a certain level of generalization ability. Motivated by this, we propose a domain-adversarial active learning (DAAL) algorithm for classification tasks in domain generalization. First, we analyze that the objective of tasks is to maximize the inter-class distance within the same domain and minimize the intra-class distance across different domains. To achieve this objective, we design a domain adversarial selection method that prioritizes challenging samples. Second, we posit that even in a converged model, there are subsets of features that lack discriminatory power within each domain. We attempt to identify these feature subsets and optimize them by a constraint loss. We validate and analyze our DAAL algorithm on multiple domain generalization datasets, comparing it with various domain generalization algorithms and active learning algorithms. Our results demonstrate that the DAAL algorithm can achieve strong generalization ability with fewer data resources, thereby reducing data annotation costs in domain generalization tasks.
翻訳日:2024-03-13 07:17:04 公開日:2024-03-10
# 品質変化による6自由度把持サンプリングの高速化

Speeding up 6-DoF Grasp Sampling with Quality-Diversity ( http://arxiv.org/abs/2403.06173v1 )

ライセンス: Link先を確認
Johann Huber, Fran\c{c}ois H\'el\'enon, Mathilde Kappel, Elie Chelly, Mahdi Khoramshahi, Fa\"iz Ben Amar, St\'ephane Doncieux(参考訳) 近年のAIの進歩は、自然言語による計画や、生成モデルを用いたコントローラーの効率的な最適化など、ロボット学習に大きな成果をもたらした。 しかし、相互作用データは依然として一般化のボトルネックとなっている。 多数の操作タスクを完了させるには、このスキルが必要となるため、把握のためのデータを取得することは重要な課題である。 品質多様性(QD)アルゴリズムは、与えられた問題に対する多様な高性能なソリューションを得るために、一連のソリューションを最適化する。 本稿では,従来の6-DoFグリップサンプリング方式と比較して,従来のQDと組み合わせて,シミュレーションにおける多様なグリップポーズの生成を高速化する方法について検討する。 標準物体に2本から5本の指を持つ4本のグリップで行った実験では、QDは一般的な方法よりも大きなマージンで優れていた。 さらなる実験により、qd最適化は、通常ハードコーディングされる効率的なプリエントを自動的に発見することを示している。 2フィンガーグリッパーとアレグロハンドに生成した把持物が配置されたことにより、生成した多様性がsim-to-real転送性を維持することが示された。 これらの結果は、ロボットの把握ポリシーの堅牢化と一般化につながる大きなデータセットの生成に向けた重要なステップであると考えています。

Recent advances in AI have led to significant results in robotic learning, including natural language-conditioned planning and efficient optimization of controllers using generative models. However, the interaction data remains the bottleneck for generalization. Getting data for grasping is a critical challenge, as this skill is required to complete many manipulation tasks. Quality-Diversity (QD) algorithms optimize a set of solutions to get diverse, high-performing solutions to a given problem. This paper investigates how QD can be combined with priors to speed up the generation of diverse grasps poses in simulation compared to standard 6-DoF grasp sampling schemes. Experiments conducted on 4 grippers with 2-to-5 fingers on standard objects show that QD outperforms commonly used methods by a large margin. Further experiments show that QD optimization automatically finds some efficient priors that are usually hard coded. The deployment of generated grasps on a 2-finger gripper and an Allegro hand shows that the diversity produced maintains sim-to-real transferability. We believe these results to be a significant step toward the generation of large datasets that can lead to robust and generalizing robotic grasping policies.
翻訳日:2024-03-13 07:16:43 公開日:2024-03-10
# DiffuMatting: 任意のオブジェクトをマットレベルアノテーションで合成する

DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation ( http://arxiv.org/abs/2403.06168v1 )

ライセンス: Link先を確認
Xiaobin Hu and Xu Peng and Donghao Luo and Xiaozhong Ji and Jinlong Peng and Zhengkai Jiang and Jiangning Zhang and Taisong Jin and Chengjie Wang and Rongrong Ji(参考訳) 高度に正確なアノテーションを入手することの困難さと労力のかかる性質のため、一般に利用可能な高度に正確なラベルは限られている。 この課題に対処するため,拡散の強大な生成能力を継承し,「何でもできる」パワーを付与するDiffuMattingを提案する。 DiffuMatting can 1)。 高精度なアノテーションを備えた anything matting factory として機能する 2)。 コミュニティフレンドリーなアートデザインとコントロール可能な世代を実現するために、コミュニティのLoRAやさまざまな条件制御アプローチと相性がいい。 具体的には、グリーンスクリーンマッティングにインスパイアされ、固定されたグリーンスクリーンキャンバスに絵を描く拡散モデルを教えることを目的としている。 これにより、回折のためのトレーニングデータセットとして、大規模グリーンスクリーンデータセット(green100k)が収集される。 第二に、背景と背景を区別するために、絵板を純粋な緑色に保つために、背景制御損失が提案されている。 より複雑なエッジ構造を持つオブジェクトを生成するためのガイドラインとして、合成オブジェクトのエッジ詳細を確保するために、遷移境界損失の詳細な強化が提案されている。 オブジェクトとマットアノテーションを同時に生成することを目的として,VAEデコーダの潜時空間で緑色の色を除去するマッティングヘッドを構築した。 私たちのdiffumattingは、いくつかの潜在的なアプリケーション(例えば、matting-data generator、community-friendly art design、controllable generation)を示しています。 マットデータ生成器として、DiffuMattingは一般的なオブジェクトとポートレートのマッティングセットを合成し、一般オブジェクトのMSEエラーを15.4%、ポートレートのマッティングタスクを11.4%削減する。

Due to the difficulty and labor-consuming nature of getting highly accurate or matting annotations, there only exists a limited amount of highly accurate labels available to the public. To tackle this challenge, we propose a DiffuMatting which inherits the strong Everything generation ability of diffusion and endows the power of "matting anything". Our DiffuMatting can 1). act as an anything matting factory with high accurate annotations 2). be well-compatible with community LoRAs or various conditional control approaches to achieve the community-friendly art design and controllable generation. Specifically, inspired by green-screen-matting, we aim to teach the diffusion model to paint on a fixed green screen canvas. To this end, a large-scale greenscreen dataset (Green100K) is collected as a training dataset for DiffuMatting. Secondly, a green background control loss is proposed to keep the drawing board as a pure green color to distinguish the foreground and background. To ensure the synthesized object has more edge details, a detailed-enhancement of transition boundary loss is proposed as a guideline to generate objects with more complicated edge structures. Aiming to simultaneously generate the object and its matting annotation, we build a matting head to make a green color removal in the latent space of the VAE decoder. Our DiffuMatting shows several potential applications (e.g., matting-data generator, community-friendly art design and controllable generation). As a matting-data generator, DiffuMatting synthesizes general object and portrait matting sets, effectively reducing the relative MSE error by 15.4% in General Object Matting and 11.4% in Portrait Matting tasks.
翻訳日:2024-03-13 07:16:22 公開日:2024-03-10
# 自律走行における効率的な3次元物体検出のためのクロスクラスタシフト

Cross-Cluster Shifting for Efficient and Effective 3D Object Detection in Autonomous Driving ( http://arxiv.org/abs/2403.06166v1 )

ライセンス: Link先を確認
Zhili Chen, Kien T. Pham, Maosheng Ye, Zhiqiang Shen, and Qifeng Chen(参考訳) 自律運転における高精度3次元物体検出のための新しい3次元点検出モデルshift-ssdを提案する。 従来の3Dオブジェクト検出器では、ポイントの進行的なダウンサンプリングに依存するアーキテクチャを用いることが多い。 この手法は、計算要求を効果的に削減し、受容磁場を増加させるが、特に複雑な駆動シナリオにおいて、正確な3dオブジェクト検出のための重要な非局所情報の保存を損なう。 そこで本研究では,より長い距離の相互依存性を効率的にモデル化し,最小限のオーバーヘッドしか持たない点ベース検出器の表現能力を解き放つために,興味深いクロスクラスタシフト操作を導入する。 具体的には、クロスクラスタシフト操作は、近隣のクラスタから部分チャネルをシフトすることで従来の設計を強化し、非局所領域とのリッチな相互作用を可能にし、クラスタの受容領域を拡大する。 kitti,waymo,nuscenesデータセットについて広範な実験を行い,検出精度と実行効率の両方においてshift-ssdの最先端の性能を示す。

We present a new 3D point-based detector model, named Shift-SSD, for precise 3D object detection in autonomous driving. Traditional point-based 3D object detectors often employ architectures that rely on a progressive downsampling of points. While this method effectively reduces computational demands and increases receptive fields, it will compromise the preservation of crucial non-local information for accurate 3D object detection, especially in the complex driving scenarios. To address this, we introduce an intriguing Cross-Cluster Shifting operation to unleash the representation capacity of the point-based detector by efficiently modeling longer-range inter-dependency while including only a negligible overhead. Concretely, the Cross-Cluster Shifting operation enhances the conventional design by shifting partial channels from neighboring clusters, which enables richer interaction with non-local regions and thus enlarges the receptive field of clusters. We conduct extensive experiments on the KITTI, Waymo, and nuScenes datasets, and the results demonstrate the state-of-the-art performance of Shift-SSD in both detection accuracy and runtime efficiency.
翻訳日:2024-03-13 07:15:52 公開日:2024-03-10
# platypose:キャリブレーションされたゼロショットマルチハイポテーゼ3次元ヒューマンモーション推定

Platypose: Calibrated Zero-Shot Multi-Hypothesis 3D Human Motion Estimation ( http://arxiv.org/abs/2403.06164v1 )

ライセンス: Link先を確認
Pawe{\l} A. Pierzchlewicz, Caio da Silva, R. James Cotton, Fabian H. Sinz(参考訳) 単一カメラの3Dポーズ推定は、奥行き、隠蔽、キーポイントノイズによる固有の曖昧さによる不明確な問題である。 複数の3次元ポーズを2次元測定値と一致させることにより、この不確実性を推定する。 最近の研究は主に、単一フレーム静的ポーズ推定のための複数の仮説の生成に集中している。 本研究では,多仮説運動推定の新しい課題に焦点をあてる。 動き推定は単に複数のフレームに適用されたポーズ推定ではなく、フレーム間の時間的相関を無視する。 代わりに、時間的に一貫性のあるサンプルを生成することができるディストリビューションが必要となる。 この目的のために,ゼロショット3次元ポーズ推定のための3次元動作系列に事前学習した拡散モデルを用いたフレームワーク platypose を提案する。 platypose は動作推定のための複数の仮説のベースライン法を上回る。 さらにPlatyposeは、Human3.6M、MPI-INF-3DHP、および3DPWの静的ポーズでテストした場合、最先端のキャリブレーションと競合するジョイントエラーも達成している。 最後に,ゼロショットであるため,マルチカメラ推定などの異なる設定に対して柔軟に一般化する。

Single camera 3D pose estimation is an ill-defined problem due to inherent ambiguities from depth, occlusion or keypoint noise. Multi-hypothesis pose estimation accounts for this uncertainty by providing multiple 3D poses consistent with the 2D measurements. Current research has predominantly concentrated on generating multiple hypotheses for single frame static pose estimation. In this study we focus on the new task of multi-hypothesis motion estimation. Motion estimation is not simply pose estimation applied to multiple frames, which would ignore temporal correlation across frames. Instead, it requires distributions which are capable of generating temporally consistent samples, which is significantly more challenging. To this end, we introduce Platypose, a framework that uses a diffusion model pretrained on 3D human motion sequences for zero-shot 3D pose sequence estimation. Platypose outperforms baseline methods on multiple hypotheses for motion estimation. Additionally, Platypose also achieves state-of-the-art calibration and competitive joint error when tested on static poses from Human3.6M, MPI-INF-3DHP and 3DPW. Finally, because it is zero-shot, our method generalizes flexibly to different settings such as multi-camera inference.
翻訳日:2024-03-13 07:15:33 公開日:2024-03-10
# ai支援ct画像解析によるcovid-19診断 : 医療aiシステムの展開

COVID-19 Computer-aided Diagnosis through AI-assisted CT Imaging Analysis: Deploying a Medical AI System ( http://arxiv.org/abs/2403.06242v1 )

ライセンス: Link先を確認
Demetris Gerogiannis and Anastasios Arsenos and Dimitrios Kollias and Dimitris Nikitopoulos and Stefanos Kollias(参考訳) コンピュータ支援診断システム(CAD)は、医療画像による新しいコロナウイルス病2019(COVID-19)の特定において、医師にとって強力な支援となる。 本稿では、ct画像を自動的に分析し、新型コロナウイルスの迅速検出に感染の可能性を提供する最先端のaiシステムの統合と、信頼性と迅速な展開について紹介する。 このシステムは, 分類と分節化の両方からなるシステムであり, 医師の検出時間を短縮し, 新型コロナウイルス検出の総合的効率を高めることが期待されている。 データ格差や匿名化、モデルの時間効率性のテスト、データセキュリティなど、さまざまな課題を克服し、クラウドとエッジ環境の両方でシステムの信頼性とスケーラブルなデプロイを可能にしました。 さらに,我々のAIシステムは,各3次元CTスキャンに感染確率を割り当て,アンカーセットの類似性を通じて説明可能性を高め,医師による感染患者のタイムリーな確認と分離を容易にする。

Computer-aided diagnosis (CAD) systems stand out as potent aids for physicians in identifying the novel Coronavirus Disease 2019 (COVID-19) through medical imaging modalities. In this paper, we showcase the integration and reliable and fast deployment of a state-of-the-art AI system designed to automatically analyze CT images, offering infection probability for the swift detection of COVID-19. The suggested system, comprising both classification and segmentation components, is anticipated to reduce physicians' detection time and enhance the overall efficiency of COVID-19 detection. We successfully surmounted various challenges, such as data discrepancy and anonymisation, testing the time-effectiveness of the model, and data security, enabling reliable and scalable deployment of the system on both cloud and edge environments. Additionally, our AI system assigns a probability of infection to each 3D CT scan and enhances explainability through anchor set similarity, facilitating timely confirmation and segregation of infected patients by physicians.
翻訳日:2024-03-13 07:10:40 公開日:2024-03-10
# グラフ一般化のための協調分類と合理化

Cooperative Classification and Rationalization for Graph Generalization ( http://arxiv.org/abs/2403.06239v1 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Ye Liu, Weibo Gao, Fangzhou Yao, Wenfeng Li(参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類タスクにおいて印象的な結果を得たが、アウト・オブ・ディストリビューション(OOD)データに直面すると、効果的な一般化に苦慮している。 この問題に対処するいくつかのアプローチが提案されている。 その1つの解決策は、データ環境を変更してバニラ分類のトレーニング分布を多様化するが、環境情報へのアクセスは複雑である。 さらに、別の有望なアプローチは有理化を伴い、予測のための不変な有理を抽出する。 しかし、学習信号が限られているため、合理性抽出は困難であり、精度の低い合理性や予測の低下をもたらす。 本稿では,これらの課題に対処するために,分類と合理化モジュールからなる協調的分類・合理化(c2r)手法を提案する。 具体的には、まず、分類モジュールで複数の環境が利用できると仮定する。 次に,環境条件生成ネットワークを用いた多様な学習分布を導入し,頑健なグラフ表現を実現する。 一方、有理化モジュールは関連する有理化部分グラフを識別するために分離器を使用し、残りの非有理化部分グラフはラベルと非関連である。 次に,分類モジュールからのグラフ表現を知識蒸留法を用いて合理化サブグラフ表現と整合させ,合理化のための学習信号を強化した。 最後に,非合理表現を収集し,協調学習のための分類モジュールに組み込むことにより,複数の環境を推定する。 ベンチマークと合成データセットの両方の広範な実験結果がc2rの有効性を示している。 コードはhttps://github.com/yuelinan/Codes-of-C2Rで入手できる。

Graph Neural Networks (GNNs) have achieved impressive results in graph classification tasks, but they struggle to generalize effectively when faced with out-of-distribution (OOD) data. Several approaches have been proposed to address this problem. Among them, one solution is to diversify training distributions in vanilla classification by modifying the data environment, yet accessing the environment information is complex. Besides, another promising approach involves rationalization, extracting invariant rationales for predictions. However, extracting rationales is difficult due to limited learning signals, resulting in less accurate rationales and diminished predictions. To address these challenges, in this paper, we propose a Cooperative Classification and Rationalization (C2R) method, consisting of the classification and the rationalization module. Specifically, we first assume that multiple environments are available in the classification module. Then, we introduce diverse training distributions using an environment-conditional generative network, enabling robust graph representations. Meanwhile, the rationalization module employs a separator to identify relevant rationale subgraphs while the remaining non-rationale subgraphs are de-correlated with labels. Next, we align graph representations from the classification module with rationale subgraph representations using the knowledge distillation methods, enhancing the learning signal for rationales. Finally, we infer multiple environments by gathering non-rationale representations and incorporate them into the classification module for cooperative learning. Extensive experimental results on both benchmarks and synthetic datasets demonstrate the effectiveness of C2R. Code is available at https://github.com/yuelinan/Codes-of-C2R.
翻訳日:2024-03-13 07:10:23 公開日:2024-03-10
# 確率的神経回路

Probabilistic Neural Circuits ( http://arxiv.org/abs/2403.06235v1 )

ライセンス: Link先を確認
Pedro Zuidberg Dos Martires(参考訳) 近年、確率回路(PC)は、トラクタブルクエリをサポートし、複雑な確率分布をモデル化するのに十分な表現力を持つ確率モデルについて議論するための汎用的なフレームワークとして注目されている。 それでも、移植性はコストがかかる。pcはニューラルネットワークよりも表現力が低い。 本稿では,PCとニューラルネットのトラクタビリティと表現力のバランスをとる確率的ニューラルネットワーク(PNC)を提案する。 理論的には、pncはベイズネットワークの深い混合物として解釈できる。 実験では, pncが強力な関数近似器であることを示す。

Probabilistic circuits (PCs) have gained prominence in recent years as a versatile framework for discussing probabilistic models that support tractable queries and are yet expressive enough to model complex probability distributions. Nevertheless, tractability comes at a cost: PCs are less expressive than neural networks. In this paper we introduce probabilistic neural circuits (PNCs), which strike a balance between PCs and neural nets in terms of tractability and expressive power. Theoretically, we show that PNCs can be interpreted as deep mixtures of Bayesian networks. Experimentally, we demonstrate that PNCs constitute powerful function approximators.
翻訳日:2024-03-13 07:09:41 公開日:2024-03-10
# 連続スパイクストリームにおける視覚的サリエンシーの探索

Finding Visual Saliency in Continuous Spike Stream ( http://arxiv.org/abs/2403.06233v1 )

ライセンス: Link先を確認
Lin Zhu, Xianzhang Chen, Xiao Wang, Hua Huang(参考訳) バイオインスパイアされた視覚センサとして、スパイクカメラは、スパイク放電を用いて画素当たりの輝度強度の蓄積を符号化することにより、小型の網膜領域である葉の動作原理をエミュレートする。 高時間分解能とバイオインスパイアされたニューロモルフィックデザインを活用することで、スパイクカメラはコンピュータビジョンの応用を前進させる大きな可能性を秘めている。 塩分検出は人間の行動を模倣し、シーンから最も静かな領域を捉えます。 本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。 バイナリスパイクストリームを効果的に処理するために,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformer (RST) フレームワークを提案する。 本フレームワークは,低消費電力を維持しつつ,連続時空間スパイクストリームから時空間的特徴の抽出を可能にする。 提案モデルのトレーニングと検証を容易にするため,多数の光条件に富んだ実世界のスパイクに基づくビジュアル・サリエンシ・データセットを構築した。 大規模な実験は、他のスパイクニューラルネットワークベースの手法と比較して、Recurrent Spiking Transformerフレームワークの優れた性能を示す。 私たちのフレームワークはスパイクストリームの視覚的なサリエンシーをキャプチャして強調する面で大きな改善点を示しており、スパイクベースのサリエンシーセグメンテーションの新しい視点を提供するだけでなく、フルsnベースのトランスフォーマーモデルのための新しいパラダイムも示しています。 コードとデータセットは \url{https://github.com/BIT-Vision/SVS} で公開されている。

As a bio-inspired vision sensor, the spike camera emulates the operational principles of the fovea, a compact retinal region, by employing spike discharges to encode the accumulation of per-pixel luminance intensity. Leveraging its high temporal resolution and bio-inspired neuromorphic design, the spike camera holds significant promise for advancing computer vision applications. Saliency detection mimics the behavior of human beings and captures the most salient region from the scenes. In this paper, we investigate the visual saliency in the continuous spike stream for the first time. To effectively process the binary spike stream, we propose a Recurrent Spiking Transformer (RST) framework, which is based on a full spiking neural network. Our framework enables the extraction of spatio-temporal features from the continuous spatio-temporal spike stream while maintaining low power consumption. To facilitate the training and validation of our proposed model, we build a comprehensive real-world spike-based visual saliency dataset, enriched with numerous light conditions. Extensive experiments demonstrate the superior performance of our Recurrent Spiking Transformer framework in comparison to other spike neural network-based methods. Our framework exhibits a substantial margin of improvement in capturing and highlighting visual saliency in the spike stream, which not only provides a new perspective for spike-based saliency segmentation but also shows a new paradigm for full SNN-based transformer models. The code and dataset are available at \url{https://github.com/BIT-Vision/SVS}.
翻訳日:2024-03-13 07:09:28 公開日:2024-03-10
# LinearAPT: 固定予算閾値の線形帯域問題に対する適応アルゴリズム

LinearAPT: An Adaptive Algorithm for the Fixed-Budget Thresholding Linear Bandit Problem ( http://arxiv.org/abs/2403.06230v1 )

ライセンス: Link先を確認
Yun-Ang Wu, Yun-Da Tsai, Shou-De Lin(参考訳) 本研究では,資源制約下での線形定義しきい値に対する決定精度の最大化に焦点をあて,確率的マルチアーメッドバンドイット(MAB)問題内のニュアンス領域であるTLB問題について検討する。 本稿では,tlbの固定予算設定のために設計された新しいアルゴリズムである線形aptを提案する。 このアルゴリズムは、推定損失に対する理論的上限を提供するだけでなく、合成データと実世界のデータセットの両方で頑健なパフォーマンスを示す。 当社のコントリビューションでは,線形aptの適応性,単純性,計算効率が強調されており,複雑なシーケンシャルな意思決定課題に対処するためのツールキットとして貴重なものになっています。

In this study, we delve into the Thresholding Linear Bandit (TLB) problem, a nuanced domain within stochastic Multi-Armed Bandit (MAB) problems, focusing on maximizing decision accuracy against a linearly defined threshold under resource constraints. We present LinearAPT, a novel algorithm designed for the fixed budget setting of TLB, providing an efficient solution to optimize sequential decision-making. This algorithm not only offers a theoretical upper bound for estimated loss but also showcases robust performance on both synthetic and real-world datasets. Our contributions highlight the adaptability, simplicity, and computational efficiency of LinearAPT, making it a valuable addition to the toolkit for addressing complex sequential decision-making challenges.
翻訳日:2024-03-13 07:08:46 公開日:2024-03-10
# 低オーバーヘッド量マジックステート蒸留

Low Overhead Qutrit Magic State Distillation ( http://arxiv.org/abs/2403.06228v1 )

ライセンス: Link先を確認
Shiroman Prakash and Tanay Saha(参考訳) 9m-k, k, 2]_3$ triorthogonal codes を $k\leq 3m-2$ で構成した。 マジック状態蒸留ルーチンのオーバーヘッドコストは、収率パラメータ $\gamma = \log_d \left( \frac{n}{k} \right)$ によって特徴づけられる。 k=3m-2$の場合、コードは$\gamma = \log_2 (2+\frac{6}{3 m-2})$となり、$m \to \infty$となる。 さらに、$[20,7,2]_3$ qutrit codeは、$m=3$が既に1.51$の収率パラメータを持つときに生じるもので、既知のクォービットの三角符号が数百キュービット以下である。 また、[17,1,2]_3$のコードは、既知の四角形符号よりも高い雑音閾値のマジック状態を蒸留する。

We construct a family of $[9m-k, k, 2]_3$ triorthogonal codes, for $k\leq 3m-2$, for qutrit magic state distillation with low overhead. The overhead cost of a magic state distillation routine is characterized by the yield parameter $\gamma = \log_d \left( \frac{n}{k} \right)$. When $k=3m-2$, the codes have yield parameter $\gamma = \log_2 (2+\frac{6}{3 m-2})$, which tends to $1$ as $m \to \infty$. Moreover, the $[20,7,2]_3$ qutrit code that arises when $m=3$ already has a yield parameter of $1.51$ which outperforms all known qubit triorthogonal codes of size less than a few hundred qubits. We also find that the $[17,1,2]_3$ code distills magic states with a higher noise threshold than previously known qutrit triorthogonal codes.
翻訳日:2024-03-13 07:08:21 公開日:2024-03-10
# 脳MRIにおけるPEPSIの有用性

PEPSI: Pathology-Enhanced Pulse-Sequence-Invariant Representations for Brain MRI ( http://arxiv.org/abs/2403.06227v1 )

ライセンス: Link先を確認
Peirong Liu and Oula Puonti and Annabel Sorby-Adams and William T. Kimberly and Juan E. Iglesias(参考訳) MRIスキャン解析におけるデータ駆動型機械学習法により,顕著な進歩が得られた。 しかし、既存のMRI分析手法のほとんどは特定のMRパルスシーケンス(MRコントラスト)のために作られており、通常はほぼ等方的な取得を必要とする。 これは、様々なシーケンスパラメータ、解像度、配向を持つスキャンが、特に病的存在下で得られることによる外観の変化が一般的である、さまざまな実世界の臨床データに適用性を制限する。 本稿では,脳mriのための最初の病理強調・パルス系列不変特徴表現学習モデルであるペプシを提案する。 PEPSIは、新しい病理エンコーディング戦略を備えた合成画像に完全に訓練されており、多様な病理と欠落したモダリティを持つデータセット間のコトレーニングを可能にする。 異なるMRパルスシーケンスや取得した画像(解像度、方向、アーティファクトなど)の画質の変化にもかかわらず、PEPSIは解剖学を捉えた高解像度の基準コントラスト画像(MP-RAGE)を作成する。 本実験は,病理組織と正常組織を鑑別しながら解剖学的構造を正確に再構築し,PEPSIの画像合成能力について,最先端のコントラスト非依存合成モデルと比較した。 さらに,白質高強度と脳卒中病変をカバーする5つのパブリックデータセットにおいて,下流病理領域におけるPEPSI機能の有効性と有効性について述べる。 コードはhttps://github.com/peirong26/PEPSIで入手できる。

Remarkable progress has been made by data-driven machine-learning methods in the analysis of MRI scans. However, most existing MRI analysis approaches are crafted for specific MR pulse sequences (MR contrasts) and usually require nearly isotropic acquisitions. This limits their applicability to diverse real-world clinical data, where scans commonly exhibit variations in appearances due to being obtained with varying sequence parameters, resolutions, and orientations -- especially in the presence of pathology. In this paper, we propose PEPSI, the first pathology-enhanced, and pulse-sequence-invariant feature representation learning model for brain MRI. PEPSI is trained entirely on synthetic images with a novel pathology encoding strategy, and enables co-training across datasets with diverse pathologies and missing modalities. Despite variations in pathology appearances across different MR pulse sequences or the quality of acquired images (e.g., resolution, orientation, artifacts, etc), PEPSI produces a high-resolution image of reference contrast (MP-RAGE) that captures anatomy, along with an image specifically highlighting the pathology. Our experiments demonstrate PEPSI's remarkable capability for image synthesis compared with the state-of-the-art, contrast-agnostic synthesis models, as it accurately reconstructs anatomical structures while differentiating between pathology and normal tissue. We further illustrate the efficiency and effectiveness of PEPSI features for downstream pathology segmentations on five public datasets covering white matter hyperintensities and stroke lesions. Code is available at https://github.com/peirong26/PEPSI.
翻訳日:2024-03-13 07:07:54 公開日:2024-03-10
# MoST: 各種アクションコンテンツ間のモーションスタイル変換器

MoST: Motion Style Transformer between Diverse Action Contents ( http://arxiv.org/abs/2403.06225v1 )

ライセンス: Link先を確認
Boeun Kim, Jungho Kim, Hyung Jin Chang, Jin Young Choi(参考訳) 既存の動作スタイルの転送手法は同一内容の2つの動作間で有効であるが、異なる内容の動作間での動作スタイルの転送では性能が著しく低下する。 この課題は、動作の内容とスタイルを明確に分離することの欠如にある。 そこで本研究では,コンテンツからスタイルを効果的に切り離し,ソース動作から転送されたスタイルで再現可能な動作を生成する,新しいモーションスタイルトランスを提案する。 対角化目標を達成するための特異なアプローチとして,(1)「身体部位にまたがる部分対応型変調器」と「スタイルとコンテンツ特徴を別々にエンコードするシアンエンコーダ」を備えたモーションスタイルトランスの新たなアーキテクチャ,(2)対角化損失の2つがある。 提案手法は, ヒューリスティックなポストプロセッシングを必要とせず, 既存の手法を上回り, 特に異なる内容の動作ペアにおいて, 極めて高い品質を示す。 コードはhttps://github.com/Boeun-Kim/MoSTで入手できる。

While existing motion style transfer methods are effective between two motions with identical content, their performance significantly diminishes when transferring style between motions with different contents. This challenge lies in the lack of clear separation between content and style of a motion. To tackle this challenge, we propose a novel motion style transformer that effectively disentangles style from content and generates a plausible motion with transferred style from a source motion. Our distinctive approach to achieving the goal of disentanglement is twofold: (1) a new architecture for motion style transformer with 'part-attentive style modulator across body parts' and 'Siamese encoders that encode style and content features separately'; (2) style disentanglement loss. Our method outperforms existing methods and demonstrates exceptionally high quality, particularly in motion pairs with different contents, without the need for heuristic post-processing. Codes are available at https://github.com/Boeun-Kim/MoST.
翻訳日:2024-03-13 07:07:19 公開日:2024-03-10
# 散逸系のクラスにおける虚ギャップ閉点と非エルミート力学

Imaginary gap-closed points and non-Hermitian dynamics in a class of dissipative systems ( http://arxiv.org/abs/2403.06224v1 )

ライセンス: Link先を確認
Shicheng Ma, Heng Lin, and Jinghui Pi(参考訳) 本稿では,消散系におけるIGC点とその関連力学について検討する。 一般の非エルミートモデルでは、エネルギースペクトルのigc点を管理する方程式を導出し、これらの点はハミルトニアンのエルミート部分によってのみ決定される。 一次元散逸性連鎖のクラスに注目して,様々なシナリオとパラメータを横断する量子ウォークを探索し,icc点がバルク損失確率のパワーロー減衰を誘導し,境界現象を「エッジバースト」と呼ぶ。 この観測は、周期的境界条件(PBC)の下でのIGC点の量子ウォークダイナミクス形成における重要な役割を裏付けるものである。 最後に、pbcs の下での散逸鎖の減衰行列はリウビリアンギャップのない点を持ち、長期ダイナミクスにおける定常状態への代数収束を示唆する。

We investigate imaginary gap-closed (IGC) points and their associated dynamics in dissipative systems. In a general non-Hermitian model, we derive the equation governing the IGC points of the energy spectrum, establishing that these points are only determined by the Hermitian part of the Hamiltonian. Focusing on a class of one-dimensional dissipative chains, we explore quantum walks across different scenarios and various parameters, showing that IGC points induce a power-law decay scaling in bulk loss probability and trigger a boundary phenomenon referred to as "edge burst". This observation underscores the crucial role of IGC points under periodic boundary conditions (PBCs) in shaping quantum walk dynamics. Finally, we demonstrate that the damping matrices of these dissipative chains under PBCs possess Liouvillian gapless points, implying an algebraic convergence towards the steady state in long-time dynamics.
翻訳日:2024-03-13 07:07:00 公開日:2024-03-10
# TRAD:ステップワイズ思考検索と適応決定によるLDMエージェントの強化

TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision ( http://arxiv.org/abs/2403.06221v1 )

ライセンス: Link先を確認
Ruiwen Zhou, Yingxuan Yang, Muning Wen, Ying Wen, Wenhao Wang, Chunling Xi, Guoqiang Xu, Yong Yu, Weinan Zhang(参考訳) 多くの大規模言語モデル(LLM)エージェントが、LLMの幅広い知識とテキスト理解能力のために、Webナビゲーションやオンラインショッピングといった様々なタスクのために構築されている。 これらの研究のうち、多くは文脈内例を用いて微調整を必要とせず一般化を実現しているが、これらの例を選択・有効活用する方法の問題を考える者は少ない。 近年,タスクのメタデータを用いた軌道レベルの検索や,インコンテキストの具体例としてトラジェクタを使用する手法が提案され,シーケンシャルな意思決定タスクにおけるエージェントの全体的な性能向上が図られている。 しかし、これらの手法はタスク固有の状態遷移ダイナミクスや、多くの無関係なコンテキストを持つ長い入力を伴わずに検索可能な例によって問題となる可能性がある。 本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。 TRADはまずThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現し、より有用なデモと、無関係な入力ノイズを発生させる。 次に、TRADはAligned Decisionを導入し、検索したデモステップを前または後のステップと補完し、不完全な思考に対する寛容を可能にし、より多くのコンテキストと少ないノイズのバランスをとる選択を提供する。 ALFWorldとMind2Webベンチマークの大規模な実験によると、TRADは最先端モデルを上回るだけでなく、ノイズの低減や一般化の促進にも有効である。 さらに、TRADはグローバルビジネス保険会社の現実シナリオに展開され、ロボットプロセスの自動化の成功率を改善している。

Numerous large language model (LLM) agents have been built for different tasks like web navigation and online shopping due to LLM's wide knowledge and text-understanding ability. Among these works, many of them utilize in-context examples to achieve generalization without the need for fine-tuning, while few of them have considered the problem of how to select and effectively utilize these examples. Recently, methods based on trajectory-level retrieval with task meta-data and using trajectories as in-context examples have been proposed to improve the agent's overall performance in some sequential decision making tasks. However, these methods can be problematic due to plausible examples retrieved without task-specific state transition dynamics and long input with plenty of irrelevant context. In this paper, we propose a novel framework (TRAD) to address these issues. TRAD first conducts Thought Retrieval, achieving step-level demonstration selection via thought matching, leading to more helpful demonstrations and less irrelevant input noise. Then, TRAD introduces Aligned Decision, complementing retrieved demonstration steps with their previous or subsequent steps, which enables tolerance for imperfect thought and provides a choice for balance between more context and less noise. Extensive experiments on ALFWorld and Mind2Web benchmarks show that TRAD not only outperforms state-of-the-art models but also effectively helps in reducing noise and promoting generalization. Furthermore, TRAD has been deployed in real-world scenarios of a global business insurance company and improves the success rate of robotic process automation.
翻訳日:2024-03-13 07:06:44 公開日:2024-03-10
# 分散量子アーキテクチャ探索

Distributed quantum architecture search ( http://arxiv.org/abs/2403.06214v1 )

ライセンス: Link先を確認
Haozhen Situ, Zhimin He, Shenggen Zheng, Lvzhou Li(参考訳) ニューラルネットワークに触発された変分量子アルゴリズムは、量子コンピューティングにおける新しいアプローチとなっている。 しかし、効率的なパラメータ化量子回路の設計は依然として課題である。 量子アーキテクチャ探索は、ゲートパラメータとともに回路構造を調整することでこの問題に対処し、高性能回路構造を自動的に発見する。 本研究では,特定の量子ビット接続を伴う相互接続量子処理ユニットのための分散量子回路構造の自動設計を目的とした,エンドツーエンドの分散量子アーキテクチャ探索フレームワークを提案する。 我々は,TeleGateとTeleDataを組み込んだ回路生成アルゴリズムを考案し,量子処理ユニット間の非局所ゲート実装を実現する。 QASフレームワークには、qubit接続を考慮しつつ、論理から物理へのqubit割り当ても組み込んでいます。 2段階のプログレッシブトレーニングフリー戦略を用いて、回路トレーニングコストなしで広範囲な回路構造を評価する。 3つのVQEタスクに関する数値実験により,提案手法の有効性と効率を実証した。

Variational quantum algorithms, inspired by neural networks, have become a novel approach in quantum computing. However, designing efficient parameterized quantum circuits remains a challenge. Quantum architecture search tackles this by adjusting circuit structures along with gate parameters to automatically discover high-performance circuit structures. In this study, we propose an end-to-end distributed quantum architecture search framework, where we aim to automatically design distributed quantum circuit structures for interconnected quantum processing units with specific qubit connectivity. We devise a circuit generation algorithm which incorporates TeleGate and TeleData methods to enable nonlocal gate implementation across quantum processing units. While taking into account qubit connectivity, we also incorporate qubit assignment from logical to physical qubits within our QAS framework. A two-stage progressive training-free strategy is employed to evaluate extensive circuit structures without circuit training costs. Through numerical experiments on three VQE tasks, the efficacy and efficiency of our scheme is demonstrated.
翻訳日:2024-03-13 07:06:18 公開日:2024-03-10
# $v_kd:$直交射影を用いた知識蒸留の改善

$V_kD:$ Improving Knowledge Distillation using Orthogonal Projections ( http://arxiv.org/abs/2403.06213v1 )

ライセンス: Link先を確認
Roy Miles, Ismail Elezi, Jiankang Deng(参考訳) 知識蒸留は、小規模かつ効率的なディープラーニングモデルの訓練に有効な方法である。 しかし、単一のメソッドの有効性は、他のタスクやモダリティ、さらには他のアーキテクチャへの転送時に退化することができる。 この制限に対処するために,新しい制約付き特徴蒸留法を提案する。 この手法は、直交射影とタスク固有の正規化という2つの新しい要素をもたらす、小さな基本原理の集合から導かれる。 これら2つのコンポーネントを組み込んだトランスフォーマーモデルは、ImageNetのすべての従来のメソッドを上回り、従来の最先端メソッドよりも4.4%の相対的な改善を達成できます。 さらに,提案手法の汎用性を示すために,オブジェクト検出と画像生成に適用し,最先端よりも一貫性と大幅な性能向上を実現する。 コードとモデルが公開されている。 https://github.com/roymiles/vkd

Knowledge distillation is an effective method for training small and efficient deep learning models. However, the efficacy of a single method can degenerate when transferring to other tasks, modalities, or even other architectures. To address this limitation, we propose a novel constrained feature distillation method. This method is derived from a small set of core principles, which results in two emerging components: an orthogonal projection and a task-specific normalisation. Equipped with both of these components, our transformer models can outperform all previous methods on ImageNet and reach up to a 4.4% relative improvement over the previous state-of-the-art methods. To further demonstrate the generality of our method, we apply it to object detection and image generation, whereby we obtain consistent and substantial performance improvements over state-of-the-art. Code and models are publicly available: https://github.com/roymiles/vkd
翻訳日:2024-03-13 07:06:03 公開日:2024-03-10
# 古典位相空間混合系におけるハイブリッド量子固有状態のキャラクタリゼーション

Characterization of hybrid quantum eigenstates in systems with mixed classical phasespace ( http://arxiv.org/abs/2403.06212v1 )

ライセンス: Link先を確認
Anant Vijay Varma, Amichay Vardi, Doron Cohen(参考訳) 一般の低次元ハミルトニアン系は構造化され、古典位相空間を混合する。 準可積分領域と準カオス領域が支持する不規則状態によって支持される正則状態への量子スペクトルの伝統的なパーシバル分類は、ヒルベルト空間の豊かさを捉えるには不十分であることが判明した。 ベリー予想や固有状態熱化仮説は適用されず、トンネル、スカーリング、局所化といった量子効果は標準パラダイムに従わない。 本稿では,Bose-Hubbardモデルのプロトタイプについて述べる。 エルゴディシティとローカライゼーションの観点から,カオス領域と正規領域のハイブリダイゼーションを強調する。

Generic low-dimensional Hamiltonian systems feature a structured, mixed classical phase-space. The traditional Percival classification of quantum spectra into regular states supported by quasi-integrable regions and irregular states supported by quasi-chaotic regions turns out to be insufficient to capture the richness of the Hilbert space. Berry's conjecture and the eigenstate thermalization hypothesis are not applicable and quantum effects such as tunneling, scarring, and localization, do not obey the standard paradigms. We demonstrate these statements for a prototype Bose-Hubbard model. We highlight the hybridization of chaotic and regular regions from opposing perspectives of ergodicity and localization.
翻訳日:2024-03-13 07:05:47 公開日:2024-03-10
# 人間中心テキスト理解のためのパーソナライズドローラ

Personalized LoRA for Human-Centered Text Understanding ( http://arxiv.org/abs/2403.06208v1 )

ライセンス: Link先を確認
You Zhang, Jin Wang, Liang-Chih Yu, Dan Xu, Xuejie Zhang(参考訳) ユーザトークンは、ほとんどのパーソナライズされたアプリケーションにおいて百万レベルであり、具体的な意味論を持たないため、人間中心のテキスト理解(HCTU)に事前訓練された言語モデル(PLM)を効果的かつ効率的に適用することは困難である。 標準およびパラメータ効率のアプローチ(例えばLoRA)では、ユーザ毎に多数のアダプタのスーツを記憶する必要がある。 本研究では,HCTUタスクのためのプラグイン・アンド・プレイ(PnP)フレームワークを備えたパーソナライズされたLoRA(PLoRA)を提案する。 ploraは効果的でパラメータ効率が高く、plmに動的にデプロイできる。 さらに、パーソナライズされたドロップアウトと相互情報の最大化戦略を採用し、提案したPLoRAは、コールドスタート問題に対する少数/ゼロショットの学習シナリオに適応することができる。 4つのベンチマークデータセットで行った実験では、トレーニング可能なパラメータが少ないにもかかわらず、提案手法はHCTUタスクのフル/フェー/ゼロショット学習シナリオにおいて、既存の手法よりも優れていた。 再現性のため、この論文のコードはhttps://github.com/yoyo-yun/plora.com/で入手できる。

Effectively and efficiently adapting a pre-trained language model (PLM) for human-centered text understanding (HCTU) is challenging since user tokens are million-level in most personalized applications and do not have concrete explicit semantics. A standard and parameter-efficient approach (e.g., LoRA) necessitates memorizing numerous suits of adapters for each user. In this work, we introduce a personalized LoRA (PLoRA) with a plug-and-play (PnP) framework for the HCTU task. PLoRA is effective, parameter-efficient, and dynamically deploying in PLMs. Moreover, a personalized dropout and a mutual information maximizing strategies are adopted and hence the proposed PLoRA can be well adapted to few/zero-shot learning scenarios for the cold-start issue. Experiments conducted on four benchmark datasets show that the proposed method outperforms existing methods in full/few/zero-shot learning scenarios for the HCTU task, even though it has fewer trainable parameters. For reproducibility, the code for this paper is available at: https://github.com/yoyo-yun/PLoRA.
翻訳日:2024-03-13 07:05:35 公開日:2024-03-10
# 多目的共同遠隔実験プラットフォームの設計と開発

Design and Development of a Multi-Purpose Collaborative Remote Laboratory Platform ( http://arxiv.org/abs/2403.06207v1 )

ライセンス: Link先を確認
Sven Jacobs, Timo Hardebusch, Esther Franke, Henning Peters, Rashed Al Amin, Veit Wiese and Steffen Jaschke(参考訳) 本稿では,新しい共同遠隔実験プラットフォームの開発について述べる。 研究成果は,遠隔実験室における今後の共同研究の基盤となることを目的としている。 当社のプラットフォームは、適応的で協調的な機能を持ち、多様な遠隔教育環境における管理とエンゲージメントを合理化する分散webアプリケーションに統合しています。

This work-in-progress paper presents the current development of a new collaborative remote laboratory platform. The results are intended to serve as a foundation for future research on collaborative work in remote laboratories. Our platform, standing out with its adaptive and collaborative capabilities, integrates a distributed web-application for streamlined management and engagement in diverse remote educational environments.
翻訳日:2024-03-13 07:05:15 公開日:2024-03-10
# 確率制御による拡散モデルの微調整:エントロピー正則化以降

Fine-tuning of diffusion models via stochastic control: entropy regularization and beyond ( http://arxiv.org/abs/2403.06279v1 )

ライセンス: Link先を確認
Wenpin Tang(参考訳) 本稿では, 上原らにより最近提案された連続時間拡散モデル(arXiv:2402.15194, 2024)を用いて, エントロピー規則化微調整問題に対する厳密な対処法を開発し, 提供することを目的とする。 また、一般的な$f$-divergence正規化子を含む微調整まで分析を拡張できることを示す。

This paper aims to develop and provide a rigorous treatment to the problem of entropy regularized fine-tuning in the context of continuous-time diffusion models, which was recently proposed by Uehara et al. ( arXiv:2402.15194, 2024). We also show how the analysis can be extended to fine-tuning involving a general $f$-divergence regularizer.
翻訳日:2024-03-13 06:49:47 公開日:2024-03-10
# UNICORN: スコアマッチングと適応による超音波中上イメージング

UNICORN: Ultrasound Nakagami Imaging via Score Matching and Adaptation ( http://arxiv.org/abs/2403.06275v1 )

ライセンス: Link先を確認
Kwanyoung Kim, Jaa-Yeon Lee, Jong Chul Ye(参考訳) 超音波における組織散乱の可視化と定量化は, 従来の超音波Bモード画像では識別が困難であった腫瘍診断と脂肪分率推定に応用できる可能性がある。 既存の手法では、最適なウィンドウサイズの選択に苦労し、推定の不安定性に苦しめられ、解像度が低下する。 そこで,本稿では,超音波エンベロープのスコア関数の観点から,中上パラメータ推定のための高精度な閉型推定器であるunicorn(ultrasound nakagami imaging via score matching and adapt)を提案する。 シミュレーションと実際の超音波RFデータを用いた大規模な実験は、UNICORNが従来の精度と分解能品質のアプローチよりも優れていることを示した。

Nakagami imaging holds promise for visualizing and quantifying tissue scattering in ultrasound waves, with potential applications in tumor diagnosis and fat fraction estimation which are challenging to discern by conventional ultrasound B-mode images. Existing methods struggle with optimal window size selection and suffer from estimator instability, leading to degraded resolution images. To address this, here we propose a novel method called UNICORN (Ultrasound Nakagami Imaging via Score Matching and Adaptation), that offers an accurate, closed-form estimator for Nakagami parameter estimation in terms of the score function of ultrasonic envelope. Extensive experiments using simulation and real ultrasound RF data demonstrate UNICORN's superiority over conventional approaches in accuracy and resolution quality.
翻訳日:2024-03-13 06:49:38 公開日:2024-03-10
# fastvideoedit: 効率的なテキストからビデオへの編集に一貫性モデルを活用する

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing ( http://arxiv.org/abs/2403.06269v1 )

ライセンス: Link先を確認
Youyuan Zhang and Xuan Ju and James J. Clark(参考訳) 拡散モデルは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において顕著な機能を示し、テキスト入力に基づくビデオ編集の可能性を開く。 しかし,拡散モデルの逐次サンプリングに伴う計算コストは,効率的な映像編集の課題となっている。 ビデオ編集のための画像生成モデルに依存する既存のアプローチは、時間を要するワンショットの微調整、追加の条件抽出、ddimの反転に苦しむ。 本研究では,一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。 CMの自己整合性を利用して、時間を要する逆転や追加条件抽出の必要性を排除し、編集時間を短縮する。 本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。 これにより、同じ生成品質を維持しながらサンプリングステップを減らし、速度の優位性が向上する。 実験結果は,編集速度,時間的一貫性,テキスト・ビデオアライメントを含む評価指標を通して,fastvideoeditの最先端の性能と高速化の利点を検証した。

Diffusion models have demonstrated remarkable capabilities in text-to-image and text-to-video generation, opening up possibilities for video editing based on textual input. However, the computational cost associated with sequential sampling in diffusion models poses challenges for efficient video editing. Existing approaches relying on image generation models for video editing suffer from time-consuming one-shot fine-tuning, additional condition extraction, or DDIM inversion, making real-time applications impractical. In this work, we propose FastVideoEdit, an efficient zero-shot video editing approach inspired by Consistency Models (CMs). By leveraging the self-consistency property of CMs, we eliminate the need for time-consuming inversion or additional condition extraction, reducing editing time. Our method enables direct mapping from source video to target video with strong preservation ability utilizing a special variance schedule. This results in improved speed advantages, as fewer sampling steps can be used while maintaining comparable generation quality. Experimental results validate the state-of-the-art performance and speed advantages of FastVideoEdit across evaluation metrics encompassing editing speed, temporal consistency, and text-video alignment.
翻訳日:2024-03-13 06:49:24 公開日:2024-03-10
# 物理誘導異常軌道ギャップ検出

Physics-Guided Abnormal Trajectory Gap Detection ( http://arxiv.org/abs/2403.06268v1 )

ライセンス: Link先を確認
Arun Sharma, Shashi Shekhar(参考訳) ギャップのある軌道(すなわちデータ欠落)が与えられたとき、ある移動物体がその位置を報告しなかったときに発生する軌道の異常なギャップを識別するアルゴリズムを探索し、同じ地理的領域の他の移動物体が定期的に行った。 この問題は、違法な漁業、違法な石油輸送、トランスシップといったグローバルな安全保障上の問題に対する海上安全と規制の強化など、社会的な応用によって重要である。 この問題は、軌道間隙中に移動物体の可能な位置を境界付けることが困難であることと、そのような大量の位置データのギャップを検出する計算コストが非常に高いことに起因する。 異常軌道検出に関する現在の文献では、ギャップ内の線形補間を仮定しており、特定の領域内の物体が最短経路から遠ざかる可能性があるため、異常ギャップを検出できない可能性がある。 予備研究では,軌道間隙中に物体の移動可能な動きを束縛する古典的な時空プリズムモデルを用いた異常間隙計測法を導入し,スケーラブルなメモ間隙検出アルゴリズム(memo-agd)を提供する。 本稿では,空間時間を考慮したギャップ検出(STAGD)手法を提案する。 また,動的領域マージベース(drm)アプローチを取り入れ,ギャップ異常スコアを効率的に計算する。 両アルゴリズムが正確かつ完全であることの理論的証明と漸近的時間複雑性の解析を提供する。 合成および実世界の海上軌道データを用いた実験の結果,提案手法はベースライン手法よりも計算時間を大幅に改善することがわかった。

Given trajectories with gaps (i.e., missing data), we investigate algorithms to identify abnormal gaps in trajectories which occur when a given moving object did not report its location, but other moving objects in the same geographic region periodically did. The problem is important due to its societal applications, such as improving maritime safety and regulatory enforcement for global security concerns such as illegal fishing, illegal oil transfers, and trans-shipments. The problem is challenging due to the difficulty of bounding the possible locations of the moving object during a trajectory gap, and the very high computational cost of detecting gaps in such a large volume of location data. The current literature on anomalous trajectory detection assumes linear interpolation within gaps, which may not be able to detect abnormal gaps since objects within a given region may have traveled away from their shortest path. In preliminary work, we introduced an abnormal gap measure that uses a classical space-time prism model to bound an object's possible movement during the trajectory gap and provided a scalable memoized gap detection algorithm (Memo-AGD). In this paper, we propose a Space Time-Aware Gap Detection (STAGD) approach to leverage space-time indexing and merging of trajectory gaps. We also incorporate a Dynamic Region Merge-based (DRM) approach to efficiently compute gap abnormality scores. We provide theoretical proofs that both algorithms are correct and complete and also provide analysis of asymptotic time complexity. Experimental results on synthetic and real-world maritime trajectory data show that the proposed approach substantially improves computation time over the baseline technique.
翻訳日:2024-03-13 06:49:02 公開日:2024-03-10
# FARPLS:人間ラベル作成者の選好評価を支援する機能強化型ロボット軌道選好ラベルシステム

FARPLS: A Feature-Augmented Robot Trajectory Preference Labeling System to Assist Human Labelers' Preference Elicitation ( http://arxiv.org/abs/2403.06267v1 )

ライセンス: Link先を確認
Hanfang Lyu, Yuanchen Bai, Xin Liang, Ujaan Das, Chuhan Shi, Leiliang Gong, Yingchi Li, Mingfei Sun, Ming Ge, Xiaojuan Ma(参考訳) 好みに基づく学習は、ロボットのタスクの目的を人間の価値観に合わせることを目的としている。 人間の嗜好を推測する最も一般的な方法の1つは、ロボットタスク軌跡のペアワイズ比較である。 従来の比較に基づく選好ラベリングシステムは、ビデオに記録された複雑な軌跡間の重要な違いをダイジェストし識別するためのラベルをほとんどサポートしない。 定式化研究 (N = 12) は, 個人が非塩分性タスクの特徴を軽視し, 偏りのある選好基準を確立することを示唆している。 さらに、多くのペアを比較すると精神的な疲労を経験し、ラベルの品質が悪化する。 そこで本研究では,ロボットの軌跡選択ラベリングシステムであるfarplsを提案する。 FARPLSは、人間にとって重要な様々なタスク機能における潜在的なアウトリーチを強調し、容易にレビューと比較のために対応するビデオキーフレームを抽出する。 また、ユーザの親しみ、軌道ペアの難しさ、不一致のレベルに応じて、ラベリング順序を動的に調整する。 同時に、システムはラベルの一貫性を監視し、ラベルの進行状況に関するフィードバックを提供する。 between-subjects study (n = 42, 105 pairs of robot pick-and-place trajectories per person) によれば、farplsはユーザーがより簡単に好みの基準を定め、提示された軌道の詳細を従来のインタフェースよりも分かりやすくすることができる。 FARPLSはまたラベルの一貫性とエンゲージメントを改善し、認知負荷を著しく増加させることなく、嗜好誘発における課題を軽減する

Preference-based learning aims to align robot task objectives with human values. One of the most common methods to infer human preferences is by pairwise comparisons of robot task trajectories. Traditional comparison-based preference labeling systems seldom support labelers to digest and identify critical differences between complex trajectories recorded in videos. Our formative study (N = 12) suggests that individuals may overlook non-salient task features and establish biased preference criteria during their preference elicitation process because of partial observations. In addition, they may experience mental fatigue when given many pairs to compare, causing their label quality to deteriorate. To mitigate these issues, we propose FARPLS, a Feature-Augmented Robot trajectory Preference Labeling System. FARPLS highlights potential outliers in a wide variety of task features that matter to humans and extracts the corresponding video keyframes for easy review and comparison. It also dynamically adjusts the labeling order according to users' familiarities, difficulties of the trajectory pair, and level of disagreements. At the same time, the system monitors labelers' consistency and provides feedback on labeling progress to keep labelers engaged. A between-subjects study (N = 42, 105 pairs of robot pick-and-place trajectories per person) shows that FARPLS can help users establish preference criteria more easily and notice more relevant details in the presented trajectories than the conventional interface. FARPLS also improves labeling consistency and engagement, mitigating challenges in preference elicitation without raising cognitive loads significantly
翻訳日:2024-03-13 06:48:35 公開日:2024-03-10
# unpacking tokenization:テキスト圧縮の評価とモデル性能との関連性

Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance ( http://arxiv.org/abs/2403.06265v1 )

ライセンス: Link先を確認
Omer Goldman, Avi Caciularu, Matan Eyal, Kris Cao, Idan Szpektor, Reut Tsarfaty(参考訳) 最も一般的なトークン化アルゴリズムであるBPEの基盤であるにもかかわらず、トークン化プロセスにおける圧縮の重要性はまだ不明である。 本稿では,すべてのトークンに等しい確率が割り当てられた0-gram言語モデルと見なすことができる圧縮の理論的重要性について論じる。 また,事前学習した言語モデルの下流における圧縮の重要性を実証的に示す。 トレーニング中に利用可能な文書の量を100万文書から、トレーニングデータに匹敵する文字ベースのトークン化器まで変更することにより、複数のBPEトークン化器の圧縮能力を制御する。 次に、これらのトークン化子に基づいて英語モデルを事前学習し、いくつかのタスクで微調整します。 本稿では,トークン化器の圧縮性能とモデル下流性能との間に相関関係があることを示し,圧縮がトークン化品質の信頼性の高い本質的な指標であることを示唆する。 これらの相関は、生成タスク(分類以上)やより小さなモデル(大きなもの)に対してより顕著である。 トルコ語実験の代表的な部分を再現し、同様の結果を得た結果、タイポロジー的特徴を持つ言語が英語と類似していることを確認した。 より優れた圧縮トークン化器の構築は、さらなる研究とモデル全体のパフォーマンスを改善するための実りある道である、と結論づける。

Despite it being the cornerstone of BPE, the most common tokenization algorithm, the importance of compression in the tokenization process is still unclear. In this paper, we argue for the theoretical importance of compression, that can be viewed as 0-gram language modeling where equal probability is assigned to all tokens. We also demonstrate the empirical importance of compression for downstream success of pre-trained language models. We control the compression ability of several BPE tokenizers by varying the amount of documents available during their training: from 1 million documents to a character-based tokenizer equivalent to no training data at all. We then pre-train English language models based on those tokenizers and fine-tune them over several tasks. We show that there is a correlation between tokenizers' compression and models' downstream performance, suggesting that compression is a reliable intrinsic indicator of tokenization quality. These correlations are more pronounced for generation tasks (over classification) or for smaller models (over large ones). We replicated a representative part of our experiments on Turkish and found similar results, confirming that our results hold for languages with typological characteristics dissimilar to English. We conclude that building better compressing tokenizers is a fruitful avenue for further research and for improving overall model performance.
翻訳日:2024-03-13 06:48:05 公開日:2024-03-10
# 規範的制度下における分極のダイナミクスと意見表現スチュワード

Dynamics of Polarization Under Normative Institutions and Opinion Expression Stewarding ( http://arxiv.org/abs/2403.06264v1 )

ライセンス: Link先を確認
Atrisha Sarkar, Gillian K. Hadfield(参考訳) 情動分極の増加に関する実証的な証拠はいくつかあるが、その出現を人口レベルで説明できる機械モデルはほとんどない。 このような現象が、イデオロギーの問題に関する集団の意見の相違からどのように生じるのかという問題は、まだ未解決の問題である。 本稿では,人的規範性,すなわち,人口に関する信念に基づく規範的意見の個人的表現が,イデオロギー機関が,表現的意見の極端への移動という目的に応じて信念を歪めてしまうと,人口レベルの分極につながることを実証する。 ゲーム理論モデルを用いて,より極端な意見を持つ個人が,グループ外のメンバーに対して,より極端な修辞的,より高い誤解を抱くことを確立する。 また,社会レコメンデーション制度が制度的シグナルを媒介する場合には,異なる制度的コミュニティの形成をそれぞれ独自のコミュニティ構造と特性で観察できることを示す。 このモデルを用いて、イデオロギー機関からの信号への露出を減らすことや、コンテンツモデレーションに対する調整されたアプローチといった、感情的な偏光問題をそのパービュー内で修正できる実践的な戦略プラットフォームを同定する。

Although there is mounting empirical evidence for the increase in affective polarization, few mechanistic models can explain its emergence at the population level. The question of how such a phenomenon can emerge from divergent opinions of a population on an ideological issue is still an open issue. In this paper, we establish that human normativity, that is, individual expression of normative opinions based on beliefs about the population, can lead to population-level polarization when ideological institutions distort beliefs in accordance with their objective of moving expressed opinion to one extreme. Using a game-theoretic model, we establish that individuals with more extreme opinions will have more extreme rhetoric and higher misperceptions about their outgroup members. Our model also shows that when social recommendation systems mediate institutional signals, we can observe the formation of different institutional communities, each with its unique community structure and characteristics. Using the model, we identify practical strategies platforms can implement, such as reducing exposure to signals from ideological institutions and a tailored approach to content moderation, both of which can rectify the affective polarization problem within its purview.
翻訳日:2024-03-13 06:47:45 公開日:2024-03-10
# SCORE:コンテンツ表現改善のための自己教師型対応微調整

SCORE: Self-supervised Correspondence Fine-tuning for Improved Content Representations ( http://arxiv.org/abs/2403.06260v1 )

ライセンス: Link先を確認
Amit Meghanani and Thomas Hain(参考訳) タスク固有の表現を得るために,自己教師付き学習(SSL)に基づく音声モデルによる費用対効果の高い自己教師型微調整(SSFT)への関心が高まっている。 これらのタスク固有の表現は、ラベル付きデータを微調整することで、様々な下流タスクの堅牢なパフォーマンスに使用される。 本研究は,SSL音声表現をコンテンツ関連タスクに適用するために,自己教師付き対応(SCORE)ファインタニングというコスト効率の高いSSFT手法を提案する。 提案手法は,摂動音声とオリジナル音声から類似表現を学習することを目的とした対応訓練戦略を用いる。 コンテント関連タスク(ASR)のための一般的なデータ拡張手法を適用し,摂動音声を得る。 SCORE 微調整 HuBERT は SUPERB ベンチマークでバニラ HuBERT をわずか数時間 (5 hrs) で上回り、音声認識、音素認識、クエリ・バイ・アンプタスクの1つのGPUでそれぞれ1.09%、3.58%、12.65% 改善した。 SCOREは、最近提案されたSSFT法SPINと競合する結果を提供し、SPINと比較して、処理された音声の1/3しか利用していない。

There is a growing interest in cost-effective self-supervised fine-tuning (SSFT) of self-supervised learning (SSL)-based speech models to obtain task-specific representations. These task-specific representations are used for robust performance on various downstream tasks by fine-tuning on the labelled data. This work presents a cost-effective SSFT method named Self-supervised Correspondence (SCORE) fine-tuning to adapt the SSL speech representations for content-related tasks. The proposed method uses a correspondence training strategy, aiming to learn similar representations from perturbed speech and original speech. Commonly used data augmentation techniques for content-related tasks (ASR) are applied to obtain perturbed speech. SCORE fine-tuned HuBERT outperforms the vanilla HuBERT on SUPERB benchmark with only a few hours of fine-tuning (< 5 hrs) on a single GPU for automatic speech recognition, phoneme recognition, and query-by-example tasks, with relative improvements of 1.09%, 3.58%, and 12.65%, respectively. SCORE provides competitive results with the recently proposed SSFT method SPIN, using only 1/3 of the processed speech compared to SPIN.
翻訳日:2024-03-13 06:47:21 公開日:2024-03-10
# 大規模言語モデルのための概念知識の編集

Editing Conceptual Knowledge for Large Language Models ( http://arxiv.org/abs/2403.06259v1 )

ライセンス: Link先を確認
Xiaohan Wang, Shengyu Mao, Ningyu Zhang, Shumin Deng, Yunzhi Yao, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen(参考訳) 近年,Large Language Models (LLM) の知識編集への関心が高まっている。 現在のアプローチと評価は単にインスタンスレベルの編集を探索するだけであるが、LLMが概念を変更できるかどうかは不明だ。 本稿では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立することにより,LLMの概念知識の編集を先導する。 実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,LLMにおける関連する瞬間的知識を歪曲する可能性もあり,性能が低下することがわかった。 LLMの理解を深めるためのさらなる進歩を期待する。 プロジェクトのホームページはhttps://zjunlp.github.io/project/concepteditで閲覧できます。

Recently, there has been a growing interest in knowledge editing for Large Language Models (LLMs). Current approaches and evaluations merely explore the instance-level editing, while whether LLMs possess the capability to modify concepts remains unclear. This paper pioneers the investigation of editing conceptual knowledge for LLMs, by constructing a novel benchmark dataset ConceptEdit and establishing a suite of new metrics for evaluation. The experimental results reveal that, although existing editing methods can efficiently modify concept-level definition to some extent, they also have the potential to distort the related instantial knowledge in LLMs, leading to poor performance. We anticipate this can inspire further progress in better understanding LLMs. Our project homepage is available at https://zjunlp.github.io/project/ConceptEdit.
翻訳日:2024-03-13 06:46:56 公開日:2024-03-10
# リモートセンシング検出のためのpoly Kernel Inception Network

Poly Kernel Inception Network for Remote Sensing Detection ( http://arxiv.org/abs/2403.06258v1 )

ライセンス: Link先を確認
Xinhao Cai, Qiuxia Lai, Yuwei Wang, Wenguan Wang, Zeren Sun, Yazhou Yao(参考訳) リモートセンシング画像(rsis)における物体検出は、オブジェクトスケールのばらつきや多様なコンテキストなど、しばしば増大する課題に苦しむ。 以前の方法は、大きなカーネルの畳み込みまたは拡張された畳み込みによって、バックボーンの空間受容領域を拡張することでこれらの課題に対処しようとした。 しかし、通常、前者はかなりのバックグラウンドノイズを発生させ、後者は過度にスパースな特徴表現を発生させるリスクを負う。 本稿では、上記の課題に対処するPoly Kernel Inception Network(PKINet)を紹介する。 PKINetはディレーションなしでマルチスケールの畳み込みカーネルを使用し、様々なスケールのオブジェクトの特徴を抽出し、ローカルコンテキストをキャプチャする。 さらに、コンテキストアンカーアテンション(caa)モジュールが並列に導入され、長距離のコンテキスト情報をキャプチャする。 これら2つのコンポーネントは、DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-Rという4つの挑戦的なリモートセンシング検出ベンチマークでPKINetの性能を向上させるために共同で動作する。

Object detection in remote sensing images (RSIs) often suffers from several increasing challenges, including the large variation in object scales and the diverse-ranging context. Prior methods tried to address these challenges by expanding the spatial receptive field of the backbone, either through large-kernel convolution or dilated convolution. However, the former typically introduces considerable background noise, while the latter risks generating overly sparse feature representations. In this paper, we introduce the Poly Kernel Inception Network (PKINet) to handle the above challenges. PKINet employs multi-scale convolution kernels without dilation to extract object features of varying scales and capture local context. In addition, a Context Anchor Attention (CAA) module is introduced in parallel to capture long-range contextual information. These two components work jointly to advance the performance of PKINet on four challenging remote sensing detection benchmarks, namely DOTA-v1.0, DOTA-v1.5, HRSC2016, and DIOR-R.
翻訳日:2024-03-13 06:46:44 公開日:2024-03-10
# LLMはまだインスタンスを回避できない - GPT-3.5, GPT-4, Bardのオブジェクト指向プログラミング割り当て処理能力の調査

LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4 and Bard's Capacity to Handle Object-Oriented Programming Assignments ( http://arxiv.org/abs/2403.06254v1 )

ライセンス: Link先を確認
Bruno Pereira Cipriano, Pedro Alves(参考訳) 大規模言語モデル(llm)は、プログラミング課題を解決しながら学生を支援する有望なツールとして登場した。 しかしながら、オブジェクト指向プログラミング(OOP)は、エンティティ、リレーションシップ、責任の識別を含む固有の複雑さを持ち、これらのツールによってまだマスターされていない。 プログラミングの入門とは対照的に、OOPの文脈におけるLLMの振る舞いに関する研究のギャップがある。 本研究では,3つの著名なLCM (GPT-3.5, GPT-4, Bard) を用いて,実世界のOOP演習を学習環境に応用し,その解法を自動評価ツール (AAT) を用いて検証した。 この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。 GPT-4は最も熟練しており、続いてGPT-3.5が続き、バードは後を追った。 我々は、これらのモデルを採用する際にコード品質を新たに重視し、段階的な設定でLLMとAATをペアリングする可能性を探求する。 結論として、GPT-4は約束を示すが、OOP教育におけるこれらのモデルの展開は依然として監督を義務付けている。

Large Language Models (LLMs) have emerged as promising tools to assist students while solving programming assignments. However, object-oriented programming (OOP), with its inherent complexity involving the identification of entities, relationships, and responsibilities, is not yet mastered by these tools. Contrary to introductory programming exercises, there exists a research gap with regard to the behavior of LLMs in OOP contexts. In this study, we experimented with three prominent LLMs - GPT-3.5, GPT-4, and Bard - to solve real-world OOP exercises used in educational settings, subsequently validating their solutions using an Automatic Assessment Tool (AAT). The findings revealed that while the models frequently achieved mostly working solutions to the exercises, they often overlooked the best practices of OOP. GPT-4 stood out as the most proficient, followed by GPT-3.5, with Bard trailing last. We advocate for a renewed emphasis on code quality when employing these models and explore the potential of pairing LLMs with AATs in pedagogical settings. In conclusion, while GPT-4 showcases promise, the deployment of these models in OOP education still mandates supervision.
翻訳日:2024-03-13 06:46:26 公開日:2024-03-10
# オンラインマルチスペクトルニューロン追跡

Online Multi-spectral Neuron Tracing ( http://arxiv.org/abs/2403.06251v1 )

ライセンス: Link先を確認
Bin Duan, Yuzhang Shang, Dawen Cai, and Yan Yan(参考訳) 本稿では,オフライントレーニングを必要とせず,一意に設計されたモジュールを用いたオンラインマルチスペクトルニューロン追跡手法を提案する。 本手法は,オンライン上で識別相関フィルタの更新を行い,追跡プロセスを集約する。 この独特のオフライントレーニングフリースキーマは、我々の方法にアノテーションは必要ないため、ディープラーニングメソッドのようなトレーニング依存のトレースアプローチと私たちを区別します。 さらに,クラスタリングやグラフマルチカットといった複雑な設定を必要とする他のトレース手法と比較して,新しい画像に適用するのがずっと容易である。 実際には、トレースニューロンの開始バウンディングボックスだけが必要で、ユーザの設定作業を大幅に削減します。 我々の広範な実験により、トレーニングフリーで構成が容易な手法により、マルチスペクトル画像におけるニューロンの高速かつ正確な再構成が可能となった。

In this paper, we propose an online multi-spectral neuron tracing method with uniquely designed modules, where no offline training are required. Our method is trained online to update our enhanced discriminative correlation filter to conglutinate the tracing process. This distinctive offline-training-free schema differentiates us from other training-dependent tracing approaches like deep learning methods since no annotation is needed for our method. Besides, compared to other tracing methods requiring complicated set-up such as for clustering and graph multi-cut, our approach is much easier to be applied to new images. In fact, it only needs a starting bounding box of the tracing neuron, significantly reducing users' configuration effort. Our extensive experiments show that our training-free and easy-configured methodology allows fast and accurate neuron reconstructions in multi-spectral images.
翻訳日:2024-03-13 06:46:05 公開日:2024-03-10
# no language is an island: 財務的な大きな言語モデル、指示データ、ベンチマークで中国語と英語を統一する

No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks ( http://arxiv.org/abs/2403.06249v1 )

ライセンス: Link先を確認
Gang Hu, Ke Qin, Chenhan Yuan, Min Peng, Alejandro Lopez-Lira, Benyou Wang, Sophia Ananiadou, Wanlong Yu, Jimin Huang, and Qianqian Xie(参考訳) 大規模言語モデル(llm)の進展は金融分析の推進に大きく寄与したが、その応用は主に単数言語領域に限られており、中国語と中国語の2言語能力の可能性は未解決である。 このシャームを橋渡しするために,ICE-INTENTモデルとICE-FLAREベンチマークをシームレスに融合したICE-PIXIUを導入する。 ICE-PIXIUは、翻訳および原文の英語データセットとともに、中国語タスクのスペクトルを統合し、バイリンガル・ファイナンシャル・モデリングの幅と深さを豊かにする。 多様なモデルバリアントへの無制限アクセス、多言語およびマルチモーダルの命令データの実質的なコンパイル、および10のNLPタスク、20のバイリンガル固有のタスク、合計1,185万のデータセットを含む専門家アノテーションによる評価ベンチマークを提供する。 徹底的な評価は,これらのバイリンガルデータセット,特に翻訳課題とオリジナルの英語データの利用の利点を強調し,金融状況における言語の柔軟性と分析能力の両立を強調する。 特にICE-INTENT は,従来の LLM と既存の LLM の両言語ミリースにおける大幅な機能強化を図り,ロバストなバイリンガルデータによる財務NLP の精度と有効性への影響を浮き彫りにした。

While the progression of Large Language Models (LLMs) has notably propelled financial analysis, their application has largely been confined to singular language realms, leaving untapped the potential of bilingual Chinese-English capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis. ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated and original English datasets, enriching the breadth and depth of bilingual financial modeling. It provides unrestricted access to diverse model variants, a substantial compilation of diverse cross-lingual and multi-modal instruction data, and an evaluation benchmark with expert annotations, comprising 10 NLP tasks, 20 bilingual specific tasks, totaling 1,185k datasets. Our thorough evaluation emphasizes the advantages of incorporating these bilingual datasets, especially in translation tasks and utilizing original English data, enhancing both linguistic flexibility and analytical acuity in financial contexts. Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements over conventional LLMs and existing financial LLMs in bilingual milieus, underscoring the profound impact of robust bilingual data on the accuracy and efficacy of financial NLP.
翻訳日:2024-03-13 06:45:53 公開日:2024-03-10
# 産業異常検出・セグメンテーションのためのテキスト誘導変分画像生成

Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation ( http://arxiv.org/abs/2403.06247v1 )

ライセンス: Link先を確認
Mingyu Lee, Jongwon Choi(参考訳) 工業生産における異常検出のためのクリーンデータ取得の課題に対して,テキスト誘導型変分画像生成手法を提案する。 本手法では,対象対象物に関するテキスト情報を用いて,入力画像に類似した非欠陥データ画像を生成する。 提案フレームワークは、生成した非欠陥画像が、テキストおよび画像に基づく知識から導出される予測分布と整合し、安定性と汎用性を確保する。 実験の結果,非欠陥データに限り,従来の手法を超越したアプローチの有効性が示された。 提案手法は4つのベースラインモデルと3つの異なるデータセットの一般化テストによって検証される。 生成した画像を利用して異常検出モデルの有効性を高めるための追加分析を行う。

We propose a text-guided variational image generation method to address the challenge of getting clean data for anomaly detection in industrial manufacturing. Our method utilizes text information about the target object, learned from extensive text library documents, to generate non-defective data images resembling the input image. The proposed framework ensures that the generated non-defective images align with anticipated distributions derived from textual and image-based knowledge, ensuring stability and generality. Experimental results demonstrate the effectiveness of our approach, surpassing previous methods even with limited non-defective data. Our approach is validated through generalization tests across four baseline models and three distinct datasets. We present an additional analysis to enhance the effectiveness of anomaly detection models by utilizing the generated images.
翻訳日:2024-03-13 06:45:24 公開日:2024-03-10
# BlazeBVD: ブラインドビデオのデクリッカリングでスケールタイムの等化を再び行う

BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video Deflickering ( http://arxiv.org/abs/2403.06243v1 )

ライセンス: Link先を確認
Xinmin Qiu, Congying Han, Zicheng Zhang, Bonan Li, Tiande Guo, Pingyu Wang, Xuecheng Nie(参考訳) 映像処理や映像生成が盛んである中,映像時間整合性を高めるブラインドビデオデクリッケリング(bvd)アルゴリズムの開発が重要になっている。 しかし、ビデオデータの複雑な性質は、深層学習法の訓練を複雑にし、特に厳しい照明フリックの下で、高いリソース消費と不安定性をもたらす。 これはbvd研究と応用を進めるためにピクセル値を超えたコンパクト表現の必要性を強調する。 古典的スケールタイム等化(STE)にインスパイアされた本研究では,高忠実かつ迅速なBVDのためのヒストグラム支援ソリューションBlazeBVDを紹介した。 色ヒストグラムを時間的に滑らかにすることでピクセル値を直接補正するSTEと比較して、BlazeBVDはSTEフィルタ内のスムーズな照明ヒストグラムを利用して、ニューラルネットワークを用いて時間データを学習することの難しさを緩和する。 blazebvdはまずピクセル値を照明ヒストグラムに凝縮し、フリックや局所露出の変動を正確に捉える。 これらのヒストグラムは、特異なフレームセット、フィルター付き照明マップ、露出マップを生成するために平滑化される。 BlazeBVDは2Dネットワークを利用して、照明の変化や局所的な露光問題の影響を受け、忠実で一貫したテクスチャを復元する。 BlazeBVDには軽量な3Dネットワークも組み込まれており、時間的不整合をわずかに修正し、リソース消費の問題を回避する。 合成、現実世界、生成されたビデオに関する総合的な実験では、BlazeBVDの質的かつ定量的な結果が示され、推論速度は最先端の10倍速い。

Developing blind video deflickering (BVD) algorithms to enhance video temporal consistency, is gaining importance amid the flourish of image processing and video generation. However, the intricate nature of video data complicates the training of deep learning methods, leading to high resource consumption and instability, notably under severe lighting flicker. This underscores the critical need for a compact representation beyond pixel values to advance BVD research and applications. Inspired by the classic scale-time equalization (STE), our work introduces the histogram-assisted solution, called BlazeBVD, for high-fidelity and rapid BVD. Compared with STE, which directly corrects pixel values by temporally smoothing color histograms, BlazeBVD leverages smoothed illumination histograms within STE filtering to ease the challenge of learning temporal data using neural networks. In technique, BlazeBVD begins by condensing pixel values into illumination histograms that precisely capture flickering and local exposure variations. These histograms are then smoothed to produce singular frames set, filtered illumination maps, and exposure maps. Resorting to these deflickering priors, BlazeBVD utilizes a 2D network to restore faithful and consistent texture impacted by lighting changes or localized exposure issues. BlazeBVD also incorporates a lightweight 3D network to amend slight temporal inconsistencies, avoiding the resource consumption issue. Comprehensive experiments on synthetic, real-world and generated videos, showcase the superior qualitative and quantitative results of BlazeBVD, achieving inference speeds up to 10x faster than state-of-the-arts.
翻訳日:2024-03-13 06:45:10 公開日:2024-03-10
# どのくらいのデータが必要ですか? パート2:DLクラス固有のトレーニングデータセットサイズ予測

How much data do you need? Part 2: Predicting DL class specific training dataset sizes ( http://arxiv.org/abs/2403.06311v1 )

ライセンス: Link先を確認
Thomas M\"uhlenst\"adt, Jelena Frtunikj(参考訳) 本稿では、クラスごとのトレーニングサンプル数を考慮し、トレーニングサンプルの全体数だけでなく、機械学習の分類モデルのパフォーマンスを予測する問題を対象としている。 これは、トレーニングデータセットのサイズが固定された場合、クラス毎のトレーニング例の数の組み合わせを考慮すべきである、という組み合わせの問題に繋がる。 この問題を解決するために,実験の空間充填設計の特別な場合を動機とするアルゴリズムを提案する。 結果として得られたデータは、一般的な線形モデルのように拡張されたpowerlaw曲線などのモデル、すなわちラベルクラス毎のトレーニングサンプル数をパラメータ化された線形結合に置き換えることでモデル化される。 提案アルゴリズムはCIFAR10とEMNISTデータセットに適用されている。

This paper targets the question of predicting machine learning classification model performance, when taking into account the number of training examples per class and not just the overall number of training examples. This leads to the a combinatorial question, which combinations of number of training examples per class should be considered, given a fixed overall training dataset size. In order to solve this question, an algorithm is suggested which is motivated from special cases of space filling design of experiments. The resulting data are modeled using models like powerlaw curves and similar models, extended like generalized linear models i.e. by replacing the overall training dataset size by a parametrized linear combination of the number of training examples per label class. The proposed algorithm has been applied on the CIFAR10 and the EMNIST datasets.
翻訳日:2024-03-12 21:02:53 公開日:2024-03-10
# 量子ビット誤り率に基づくゲーム理論的ロバストセキュリティの発見におけるナッシュ均衡の利用

Use of Nash equilibrium in finding game theoretic robust security bound on quantum bit error rate ( http://arxiv.org/abs/2403.06309v1 )

ライセンス: Link先を確認
Arindam Dutta and Anirban Pathak(参考訳) ナッシュ均衡は、最近実験的に実現された量子セキュアな直接通信のスキームであるdl04プロトコルの量子ビット誤り率(qber)に拘束されたゲーム理論的ロバストなセキュリティを見つけるために用いられる。 受信機、送信機、盗聴機(Eve)は量子プレイヤー(量子演算を行う能力を持つプレイヤー)であると考えられている。 具体的には、イヴは量子攻撃(例えば、W'ojcikの元々の攻撃、W'ojcikの対称性攻撃、Pavi\v{c}i\'c attack)と古典的なインターセプトと再送攻撃を行う能力を持つと考えられている。 以上のシナリオにおけるDL04プロトコルのセキュリティのゲーム理論解析は、いくつかのサブゲームシナリオを考慮して行われる。 解析の結果、paretoの最適nash平衡点が存在しないことが明らかとなった。 その結果、混合戦略ナッシュ平衡点を同定し、QBERの上下境界を確立する。 さらに、メッセージモードにおけるPavi\v{c}i\'c攻撃に対するDL04プロトコルの脆弱性を確立する。 さらに、古典攻撃よりもイヴによる量子攻撃の方が強力なことが観察され、古典攻撃に比べてQBER値とイヴの存在を検出する確率が低いことが判明した。

Nash equilibrium is employed to find a game theoretic robust security bound on quantum bit error rate (QBER) for DL04 protocol which is a scheme for quantum secure direct communication that has been experimentally realized recently. The receiver, sender, and eavesdropper (Eve) are considered to be quantum players (players having the capability to perform quantum operations). Specifically, Eve is considered to have the capability of performing quantum attacks (e.g., W\'ojcik's original attack, W\'ojcik's symmetrized attack, and Pavi\v{c}i\'c attack) and classical intercept and resend attack. Game theoretic analysis of the security of DL04 protocol in the above scenario is performed by considering several sub-game scenarios. The analysis revealed the absence of a Pareto optimal Nash equilibrium point within these sub-games. Consequently, mixed strategy Nash equilibrium points are identified and employed to establish both upper and lower bounds for QBER. Further, the vulnerability of the DL04 protocol to Pavi\v{c}i\'c attack in the message mode is established. In addition, it is observed that the quantum attacks performed by Eve are more powerful than the classical attack, as the QBER value and the probability of detecting Eve's presence are found to be lower in quantum attacks compared to classical ones.
翻訳日:2024-03-12 21:02:41 公開日:2024-03-10
# 量子物理学, デジタルコンピュータ, および全体論的視点からの生命

Quantum physics, digital computers, and life from a holistic perspective ( http://arxiv.org/abs/2403.06306v1 )

ライセンス: Link先を確認
George F R Ellis(参考訳) 量子物理学は線形理論であり、デジタルコンピュータや生命体のような非常に複雑な系を仮定できることはやや曖昧である。 本稿では,その可能性について考察する。 物理的には、そのような複雑なシステムは必ずしもモジュラー階層構造であり、多くの重要な特徴を持つ。 まず、それらは単一の波動関数では説明できない: 生きている細胞、猫、脳にとって単一の波動関数ではなく、局所的な波動関数だけが存在することができる。 第二に、量子から古典への遷移は、古典的に記述できるマクロ要素によって形成される文脈波動関数の崩壊によって特徴づけられる。 第三に、下降因果関係は、時間依存制約による下降の影響と、下層の要素の生成、修正、削除の2つの重要な方法で物理的階層に生じる。 第4に、アルゴリズムやコンピュータプログラムなどの物理構造によって支えられる論理的モジュラー階層構造があり、任意の論理演算をサポートでき、コンピュータ支援設計や3Dプリンティングのような物理的結果に影響を与える可能性がある。 最後に、複雑なシステムは必ずしもオープンなシステムであり、熱浴はその力学において重要な役割を担い、宇宙の進化によって確立される時間の宇宙論的方向と一致する局所的な矢印を提供する。

Quantum physics is a linear theory, so it is somewhat puzzling that it can underlie very complex systems such as digital computers and life. This paper investigates how this is possible. Physically, such complex systems are necessarily modular hierarchical structures, with a number of key features. Firstly, they cannot be described by a single wave function: only local wave functions can exist, rather than a single wave function for a living cell, a cat, or a brain. Secondly, the quantum to classical transition is characterised by contextual wave-function collapse shaped by macroscopic elements that can be described classically. Thirdly, downward causation occurs in the physical hierarchy in two key ways: by the downward influence of time dependent constraints, and by creation, modification, or deletion of lower level elements. Fourthly, there are also logical modular hierarchical structures supported by the physical ones, such as algorithms and computer programs, They are able to support arbitrary logical operations, which can influence physical outcomes as in computer aided design and 3-d printing. Finally, complex systems are necessarily open systems, with heat baths playing a key role in their dynamics and providing local arrows of time that agree with the cosmological direction of time that is established by the evolution of the universe.
翻訳日:2024-03-12 21:02:17 公開日:2024-03-10
# スプライン近似を用いた非パラメトリック自動微分変分推定

Nonparametric Automatic Differentiation Variational Inference with Spline Approximation ( http://arxiv.org/abs/2403.06302v1 )

ライセンス: Link先を確認
Yuda Shao, Shan Yu, Tianshu Feng(参考訳) 自動微分変分推論(advi)は確率モデル学習において効率的である。 古典ADVIは後部を近似するためにパラメトリックなアプローチに依存している。 本稿では,スキューネス,マルチモーダリティ,有界支持といった複雑な構造を持つ分布に対するフレキシブルな後方近似を実現するためのスプラインベース非パラメトリック近似手法を開発する。 広く使われている非パラメトリック変分推定法と比較して,提案手法は実装が容易であり,様々なデータ構造に適応する。 スプライン近似を採用することで、重み付きオートエンコーダの重要性を低く抑え、漸近的一貫性を確立する。 実験では, 複雑な後続分布の近似における提案手法の有効性を実証し, 不完全データを用いた生成モデルの性能向上を図った。

Automatic Differentiation Variational Inference (ADVI) is efficient in learning probabilistic models. Classic ADVI relies on the parametric approach to approximate the posterior. In this paper, we develop a spline-based nonparametric approximation approach that enables flexible posterior approximation for distributions with complicated structures, such as skewness, multimodality, and bounded support. Compared with widely-used nonparametric variational inference methods, the proposed method is easy to implement and adaptive to various data structures. By adopting the spline approximation, we derive a lower bound of the importance weighted autoencoder and establish the asymptotic consistency. Experiments demonstrate the efficiency of the proposed method in approximating complex posterior distributions and improving the performance of generative models with incomplete data.
翻訳日:2024-03-12 21:01:56 公開日:2024-03-10
# LIEDER:言論エンティティ認識のための言語的インフォームド評価

LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition ( http://arxiv.org/abs/2403.06301v1 )

ライセンス: Link先を確認
Xiaomeng Zhu and Robert Frank(参考訳) 言論エンティティ(discourse entity, de)は、テキスト中に導入される新しいエンティティや既知のエンティティを識別するタスクである。 以前の研究では、大きな言語モデルには基本的な、不完全な認識能力(schuster and linzen, 2022)があるが、導入とそれに続く知識を持つdesへの参照を管理する基本的な意味的性質についてはほとんど評価されていない。 本稿では,4つの重要な意味的特性(存在,一意性,複数,新規性)に関する言語モデルの知識の詳細な検証を可能にする,言論エンティティ認識(lieder)データセットの言語的不定評価を提案する。 我々は,現在最先端の大規模言語モデルが,新規性以外のすべての特性に対して感受性を示す証拠を見いだし,人間レベルの言語理解能力にはまだ達していないことを示す。

Discourse Entity (DE) recognition is the task of identifying novel and known entities introduced within a text. While previous work has found that large language models have basic, if imperfect, DE recognition abilities (Schuster and Linzen, 2022), it remains largely unassessed which of the fundamental semantic properties that govern the introduction and subsequent reference to DEs they have knowledge of. We propose the Linguistically-Informed Evaluation for Discourse Entity Recognition (LIEDER) dataset that allows for a detailed examination of language models' knowledge of four crucial semantic properties: existence, uniqueness, plurality, and novelty. We find evidence that state-of-the-art large language models exhibit sensitivity to all of these properties except novelty, which demonstrates that they have yet to reach human-level language understanding abilities.
翻訳日:2024-03-12 21:01:45 公開日:2024-03-10
# cross-ecosystem categorization: python pypiトピックによるjava mavenライブラリの分類のための手動キュレーションプロトコル

Cross-ecosystem categorization: A manual-curation protocol for the categorization of Java Maven libraries along Python PyPI Topics ( http://arxiv.org/abs/2403.06300v1 )

ライセンス: Link先を確認
Ranindya Paramitha, Yuan Feng, Fabio Massacci, Carlos E. Budde(参考訳) コンテキスト: テキスト処理やネットワーキングなど、さまざまな機能カテゴリのソフトウェアは、セキュリティやアップデートといったメトリクスの面で異なるプロファイルを持っています。 javaとpythonライブラリの比較に人気を使うことは、最も人気のあるソフトウェアのカテゴリがひとつのエコシステムから次のものへと変化するため、歪んだ視点をもたらす可能性がある。 カテゴリ名が同じでない場合、ソフトウェアエコシステム全体でライブラリデータセットを比較するにはどうすればよいのか? 目的:我々は,ライブラリデータセットのクロスエコシステム研究を可能にする機能的目的により,ソフトウェアの言語に依存しない分類を生成する方法を研究する。 これはソフトウェアメトリクスの比較に必要な機能的な指紋情報を提供する。 方法:ソフトウェアエコシステムからライブラリを分類するためのヒューマンガイドプロトコルを設計,実装した。 カテゴリ名はPyPI Topic分類器を反映しているが、プロトコルは汎用的で、あらゆるエコシステムに適用できる。 256のjava/mavenライブラリを厳格なセキュリティ脆弱性で分類することで、これを実証した。 結果: このプロトコルでは、3人以上が任意のライブラリを分類できる。 生成された分類は機能指向で言語に依存しない。 Java/Mavenデータセットのデモンストレーションの結果、インターネット指向のライブラリの大部分は、深刻な脆弱性によって選択された。 レプリケーションと更新を可能にするため、データセットとプロトコルをオープンデータとして利用可能にする。 結論: 機能目的によるライブラリ分類は,256ライブラリのJavaデータセットの指紋を生成するプロトコルで実現可能である。 これは労働集約的であったが、人間は必要な推論タスクに優れており、プロセスの完全な自動化は想定されていない。 しかし、結果は大規模なecoシステム横断実証研究において機械学習に必要な基礎的真実を提供することができる。

Context: Software of different functional categories, such as text processing vs. networking, has different profiles in terms of metrics like security and updates. Using popularity to compare e.g. Java vs. Python libraries might give a skewed perspective, as the categories of the most popular software vary from one ecosystem to the next. How can one compare libraries datasets across software ecosystems, when not even the category names are uniform among them? Objective: We study how to generate a language-agnostic categorisation of software by functional purpose, that enables cross-ecosystem studies of libraries datasets. This provides the functional fingerprint information needed for software metrics comparisons. Method: We designed and implemented a human-guided protocol to categorise libraries from software ecosystems. Category names mirror PyPI Topic classifiers, but the protocol is generic and can be applied to any ecosystem. We demonstrate it by categorising 256 Java/Maven libraries with severe security vulnerabilities. Results: The protocol allows three or more people to categorise any number of libraries. The categorisation produced is functional-oriented and language-agnostic. The Java/Maven dataset demonstration resulted in a majority of Internet-oriented libraries, coherent with its selection by severe vulnerabilities. To allow replication and updates, we make the dataset and the protocol individual steps available as open data. Conclusions: Libraries categorisation by functional purpose is feasible with our protocol, which produced the fingerprint of a 256-libraries Java dataset. While this was labour intensive, humans excel in the required inference tasks, so full automation of the process is not envisioned. However, results can provide the ground truth needed for machine learning in large-scale cross-ecosystem empirical studies.
翻訳日:2024-03-12 21:01:29 公開日:2024-03-10
# クラスタ化フェデレーション学習における総変分最小化の分析

Analysis of Total Variation Minimization for Clustered Federated Learning ( http://arxiv.org/abs/2403.06298v1 )

ライセンス: Link先を確認
A. Jung(参考訳) 連合学習アプリケーションにおける鍵となる課題は、局所データセットの統計的不均一性である。 クラスタ化されたフェデレーション学習は、ほぼ均一なローカルデータセットのクラスタを特定することで、この問題に対処する。 クラスタ化連合学習への最近のアプローチは一般化全変動最小化(gtvmin)である。 このアプローチでは、ドメインの専門知識や、グラフ学習技術によるデータ駆動の方法で得られる類似性グラフが必要である。 広く適用可能なクラスタリングの仮定の下では、GTVMinソリューションとクラスタ平均との偏差の上限を導出する。 この境界は、連合学習環境における統計的不均一性に対処するためのgtvminの有効性と堅牢性に関する貴重な洞察を提供する。

A key challenge in federated learning applications is the statistical heterogeneity of local datasets. Clustered federated learning addresses this challenge by identifying clusters of local datasets that are approximately homogeneous. One recent approach to clustered federated learning is generalized total variation minimization (GTVMin). This approach requires a similarity graph which can be obtained by domain expertise or in a data-driven fashion via graph learning techniques. Under a widely applicable clustering assumption, we derive an upper bound the deviation between GTVMin solutions and their cluster-wise averages. This bound provides valuable insights into the effectiveness and robustness of GTVMin in addressing statistical heterogeneity within federated learning environments.
翻訳日:2024-03-12 21:01:04 公開日:2024-03-10
# 監視進化下におけるボソニック系の絡み合い

Entanglement of bosonic systems under monitored evolution ( http://arxiv.org/abs/2403.06297v1 )

ライセンス: Link先を確認
Quancheng Liu and Klaus Ziegler(参考訳) 連続射影測定における非相互作用ボソンの進化について検討した。 確立されたアプローチに従って、この監視された進化は、最初の検出された回帰と最初の検出された遷移確率によって特徴づけられる。 これらの量は,両部類系のエンタングルメントエントロピーおよびエンタングルメントスペクトルに直接関係していることを示す。 ボーソンの数、測定値、測定値の間の時間ステップに対する特定の値の計算は、敏感でしばしば強く変動する絡み合いエントロピーを示す。 特に, 時間ステップの特殊値の近傍では, 絡み合いエントロピーの進化は定常的か, 2つ以上の定常値間の動的スイッチングを行うかのどちらかである。 一方、エンタングルメントスペクトルでは、この複素挙動はレベル交差と関連付けられ、支配的な量子状態とそのエンタングルメントは系のパラメータの変化に強く反応することを示している。 エンタングルメントエントロピーのゆらぎを取り除くために,時間平均化の役割を簡潔に議論する。

The evolution of non-interacting bosons in the presence of repeated projective measurements is studied. Following the established approach, this monitored evolution is characterized by the first detected return and the first detected transition probabilities. We show that these quantities are directly related to the entanglement entropy and to the entanglement spectrum of a bipartite system. Calculations with specific values for the number of bosons, the number of measurements and the time step between measurements reveal a sensitive and often strongly fluctuating entanglement entropy. In particular, we demonstrate that in the vicinity of special values for the time steps the evolution of the entanglement entropy is either stationary or performs dynamical switching between two or more stationary values. In the entanglement spectrum, on the other hand, this complex behavior can be associated with level crossings, indicating that the dominant quantum states and their entanglement respond strongly to a change of the system parameters. We discuss briefly the role of time averaging to remove the fluctuations of the entanglement entropy.
翻訳日:2024-03-12 21:00:54 公開日:2024-03-10
# 細粒度データセットに対するマルチモーダルFew-Shotクラスインクリメンタル学習の合理化

A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets ( http://arxiv.org/abs/2403.06295v1 )

ライセンス: Link先を確認
Thang Doan, Sima Behpour, Xin Li, Wenbin He, Liang Gou, Liu Ren(参考訳) FSCIL(Class-Incremental Learning)は、制限された新しいデータストリームから学習しながら、すべて過度に適合することなく、事前の知識を維持するという課題を提起する。 VLM(Vision-Language Model)の台頭は、既存の知識を活用してカスタムデータを微調整する多くのアプリケーションをアンロックした。 しかし、モデル全体のトレーニングは計算的に禁止されており、VLMは汎用性はあるものの、多くのアプリケーションにとって重要な詳細なデータセットに苦戦している。 これらの課題を2つの単純なモジュールで解決する。 最初のSSP(Session-Specific Prompts)は、セッション間の画像テキスト埋め込みの分離性を高める。 第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。 実験の結果, トレーニング可能なパラメータの少なくとも8倍は必要であり, ベースラインに比べて平均10点の増加が認められた。 この改善は、新たに導入された3つのきめ細かいデータセットをさらに強調します。

Few-shot Class-Incremental Learning (FSCIL) poses the challenge of retaining prior knowledge while learning from limited new data streams, all without overfitting. The rise of Vision-Language models (VLMs) has unlocked numerous applications, leveraging their existing knowledge to fine-tune on custom data. However, training the whole model is computationally prohibitive, and VLMs while being versatile in general domains still struggle with fine-grained datasets crucial for many applications. We tackle these challenges with two proposed simple modules. The first, Session-Specific Prompts (SSP), enhances the separability of image-text embeddings across sessions. The second, Hyperbolic distance, compresses representations of image-text pairs within the same class while expanding those from different classes, leading to better representations. Experimental results demonstrate an average 10-point increase compared to baselines while requiring at least 8 times fewer trainable parameters. This improvement is further underscored on our three newly introduced fine-grained datasets.
翻訳日:2024-03-12 21:00:37 公開日:2024-03-10
# ArgMed-Agents:Argumentation Schemesによる大規模言語モデルによる説明可能な臨床診断

ArgMed-Agents: Explainable Clinical Decision Reasoning with Large Language Models via Argumentation Schemes ( http://arxiv.org/abs/2403.06294v1 )

ライセンス: Link先を確認
Shengxin Hong, Liang Xiao, Xin Zhang, Jianxia Chen(参考訳) 臨床推論における大規模言語モデル(llm)の使用には、2つの大きな障壁がある。 第一に、LLMは自然言語処理(NLP)タスクにおいて有望であるが、複雑な推論や計画における性能は期待に届かなかった。 第2に、LLMは解釈不能な方法を使用して、臨床医の認知過程と根本的に異なる臨床的決定を行う。 これはユーザーの不信につながる。 本稿では, LLMをベースとしたエージェントが, 相互作用による説明可能な臨床意思決定を行えるようにするためのマルチエージェントフレームワークArgMed-Agentsを提案する。 ArgMed-AgentsはArgumentation Scheme for Clinical Decision(臨床推論における認知過程をモデル化するための推論機構)を介して自己論証反復を行い、矛盾する関係を表す有向グラフとして議論プロセスを構築する。 究極的には、reasoner(シンボリックソルバ)は意思決定を支援するために一連の合理的かつ一貫性のある議論を識別する。 ArgMed-Agentsは、LSMが自己指向的な推論の説明を生成することによって、臨床議論的推論の過程を模倣することを可能にする。 セットアップ実験の結果,ArgMed-Agentsは,他のプロンプト手法と比較して,複雑な臨床的意思決定推論問題の精度を向上させるだけでなく,信頼性を高めるための意思決定説明を提供する。

There are two main barriers to using large language models (LLMs) in clinical reasoning. Firstly, while LLMs exhibit significant promise in Natural Language Processing (NLP) tasks, their performance in complex reasoning and planning falls short of expectations. Secondly, LLMs use uninterpretable methods to make clinical decisions that are fundamentally different from the clinician's cognitive processes. This leads to user distrust. In this paper, we present a multi-agent framework called ArgMed-Agents, which aims to enable LLM-based agents to make explainable clinical decision reasoning through interaction. ArgMed-Agents performs self-argumentation iterations via Argumentation Scheme for Clinical Decision (a reasoning mechanism for modeling cognitive processes in clinical reasoning), and then constructs the argumentation process as a directed graph representing conflicting relationships. Ultimately, Reasoner(a symbolic solver) identify a series of rational and coherent arguments to support decision. ArgMed-Agents enables LLMs to mimic the process of clinical argumentative reasoning by generating explanations of reasoning in a self-directed manner. The setup experiments show that ArgMed-Agents not only improves accuracy in complex clinical decision reasoning problems compared to other prompt methods, but more importantly, it provides users with decision explanations that increase their confidence.
翻訳日:2024-03-12 21:00:14 公開日:2024-03-10
# 画像キャプションと物体検出のためのトランスベースマルチタスク学習

Transformer based Multitask Learning for Image Captioning and Object Detection ( http://arxiv.org/abs/2403.06292v1 )

ライセンス: Link先を確認
Debolena Basak, P.K. Srijith, and Maunendra Sankar Desarkar(参考訳) 自律ナビゲーションやモビリティといった現実世界のシナリオでは、周囲をより視覚的に理解するために、画像キャプションやオブジェクト検出が重要な役割を果たす。 本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。 画像キャプションとオブジェクト検出ネットワークから得られた損失を組み合わせ,両タスクを共同で訓練するためのTICOD, Transformer ベースの画像キャプションおよびオブジェクト検出モデルを提案する。 ジョイントトレーニングを利用することで、2つのタスク間で共有される相補的な情報により、画像キャプションのパフォーマンスが向上する。 本手法では,画像キャプションとオブジェクト検出のエンドツーエンドネットワーク統合を実現するトランスフォーマーアーキテクチャを用いて,両タスクを共同で行う。 提案手法の有効性をMS-COCOデータセットを用いた総合実験により評価した。 我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。

In several real-world scenarios like autonomous navigation and mobility, to obtain a better visual understanding of the surroundings, image captioning and object detection play a crucial role. This work introduces a novel multitask learning framework that combines image captioning and object detection into a joint model. We propose TICOD, Transformer-based Image Captioning and Object detection model for jointly training both tasks by combining the losses obtained from image captioning and object detection networks. By leveraging joint training, the model benefits from the complementary information shared between the two tasks, leading to improved performance for image captioning. Our approach utilizes a transformer-based architecture that enables end-to-end network integration for image captioning and object detection and performs both tasks jointly. We evaluate the effectiveness of our approach through comprehensive experiments on the MS-COCO dataset. Our model outperforms the baselines from image captioning literature by achieving a 3.65% improvement in BERTScore.
翻訳日:2024-03-12 20:59:48 公開日:2024-03-10
# 教師付きコントラスト学習におけるヒューマンラベル誤りの理解と軽減

Understanding and Mitigating Human-Labelling Errors in Supervised Contrastive Learning ( http://arxiv.org/abs/2403.06289v1 )

ライセンス: Link先を確認
Zijun Long and Lipeng Zhuang and George Killick and Richard McCreadie and Gerardo Aragon Camarasa and Paul Henderson(参考訳) 人間の注釈付き視覚データセットには、必然的に人間の誤認例が少数含まれている。 このようなミスラベリングが教師付き学習に与える影響はよく研究されているが、SCL(Supervised Contrastive Learning)への影響は未解明である。 本稿では,従来の教師あり学習法と異なり,合成ラベルの誤りと人為的な誤りが顕著に異なるだけでなく,SCLに固有の課題が生じることを示す。 具体的には, 偽陽性例の99%の症例において, 学習過程に悪影響を及ぼすことが示された。 既存のノイズ緩和法は、主に合成ラベルのエラーに焦点をあて、非常に高い合成ノイズ率(40-80%)の非現実的な設定に取り組む。 この問題に対処するために,人間の誤りに頑健な新しいSCL目標であるSCL-RHEを導入する。 SCL-RHEは実世界の誤り事例の影響を緩和するために設計されており、典型的にはより低いノイズ率 (5%) で特徴づけられる。 我々は、SCL-RHEが、人間のエラーに対するレジリエンスの改善を提供することで、様々なビジョンベンチマークにおいて、最先端の表現学習やノイズ軽減手法を一貫して上回っていることを実証した。

Human-annotated vision datasets inevitably contain a fraction of human mislabelled examples. While the detrimental effects of such mislabelling on supervised learning are well-researched, their influence on Supervised Contrastive Learning (SCL) remains largely unexplored. In this paper, we show that human-labelling errors not only differ significantly from synthetic label errors, but also pose unique challenges in SCL, different to those in traditional supervised learning methods. Specifically, our results indicate they adversely impact the learning process in the ~99% of cases when they occur as false positive samples. Existing noise-mitigating methods primarily focus on synthetic label errors and tackle the unrealistic setting of very high synthetic noise rates (40-80%), but they often underperform on common image datasets due to overfitting. To address this issue, we introduce a novel SCL objective with robustness to human-labelling errors, SCL-RHE. SCL-RHE is designed to mitigate the effects of real-world mislabelled examples, typically characterized by much lower noise rates (<5%). We demonstrate that SCL-RHE consistently outperforms state-of-the-art representation learning and noise-mitigating methods across various vision benchmarks, by offering improved resilience against human-labelling errors.
翻訳日:2024-03-12 20:59:31 公開日:2024-03-10
# 授業増分学習のための画像圧縮の提案

Probing Image Compression For Class-Incremental Learning ( http://arxiv.org/abs/2403.06288v1 )

ライセンス: Link先を確認
Justin Yang, Zhihao Duan, Andrew Peng, Yuning Huang, Jiangpeng He, Fengqing Zhu(参考訳) 画像圧縮は、デジタル画像の効率的なハンドリングと伝送において重要なツールとして現れる。 ファイルサイズを大幅に削減する能力は、データストレージ容量の強化だけでなく、シーケンシャルデータから新たな知識をインクリメンタルに学習するcontinual machine learning (ml)システムの開発にもメリットをもたらす可能性がある。 連続mlシステムは、通常、exemplarsとして知られる代表的なサンプルを限られたメモリ制約内に格納することで、事前に学習したデータのパフォーマンスを維持する。 これらの手法はメモリリプレイに基づくアルゴリズムとして知られ、破滅的な忘れることの有害な効果を軽減できることが証明されている。 それでも、制限されたメモリバッファサイズは、データ分布全体の適切な表現に不足することが多い。 本稿では,バッファのキャパシティ向上のための戦略として,画像圧縮の利用について検討する。 しかし、圧縮された例を直接使用すると、圧縮されたトレーニングデータと圧縮されていないテストデータとの相違が特徴の連続的なML中にドメインシフトが発生する。 さらに、適切な圧縮アルゴリズムを決定し、連続mlシステムにおいて最も効果的なレートを選択して、模範的品質と量とのトレードオフのバランスをとることが不可欠である。 そこで本稿では,事前処理データ圧縮ステップと効率的な圧縮率/アルゴリズム選択方法を含む連続MLの画像圧縮を取り入れた新しいフレームワークを提案する。 CIFAR-100およびImageNetデータセットの広範な実験を行い、連続ML設定における画像分類精度を大幅に向上することを示す。

Image compression emerges as a pivotal tool in the efficient handling and transmission of digital images. Its ability to substantially reduce file size not only facilitates enhanced data storage capacity but also potentially brings advantages to the development of continual machine learning (ML) systems, which learn new knowledge incrementally from sequential data. Continual ML systems often rely on storing representative samples, also known as exemplars, within a limited memory constraint to maintain the performance on previously learned data. These methods are known as memory replay-based algorithms and have proven effective at mitigating the detrimental effects of catastrophic forgetting. Nonetheless, the limited memory buffer size often falls short of adequately representing the entire data distribution. In this paper, we explore the use of image compression as a strategy to enhance the buffer's capacity, thereby increasing exemplar diversity. However, directly using compressed exemplars introduces domain shift during continual ML, marked by a discrepancy between compressed training data and uncompressed testing data. Additionally, it is essential to determine the appropriate compression algorithm and select the most effective rate for continual ML systems to balance the trade-off between exemplar quality and quantity. To this end, we introduce a new framework to incorporate image compression for continual ML including a pre-processing data compression step and an efficient compression rate/algorithm selection method. We conduct extensive experiments on CIFAR-100 and ImageNet datasets and show that our method significantly improves image classification accuracy in continual ML settings.
翻訳日:2024-03-12 20:59:07 公開日:2024-03-10
# 対称性の不変性を考慮したフラクタル量子ホール効果

Fractional Quantum Hall Effect as Consequence of Symmetry Invariance ( http://arxiv.org/abs/2403.06287v1 )

ライセンス: Link先を確認
Jorge A. Lizarraga(参考訳) ランダウのゲージを用いて記述された電磁場の存在下での電子に対する非相対論的ハミルトニアンは、系の保存作用素に基づいて解析的に解かれる: 1つは$x$軸の正準運動量、もう1つは$y$軸の正準運動量、もう1つはエネルギー演算子である。 保存モーメントの両方を考慮するとローレンツ力が回復できることが示され、そうでなければシステムを完全に記述することはできない。 波動関数は運動量演算子の固有値方程式を解いて計算され、この関数の基底状態が構築される。 系の保存された性質に基づいて、ハミルトニアンの対称性を定義するユニタリ作用素の集合が確立される。 しかし、シュル=オディンガーのスキームでは、ユニタリ変換後の波動関数の不変性に必要な条件は、電界の1つと磁場の2つという2つの量子化された同一性をもたらす。 連続性方程式で定義される電流式を用いてホールと長手比抵抗を計算し、前者はフォン・クリッツの定数に比例し、後者は時間増分が$\Delta t<<\frac{m\omega_{c}}{q{\cal E}}\Delta x$であるときに消滅することを示した。 最後に、不変条件が満たされると、ホール比抵抗はフォン・クリッツェング定数に比例する整数倍で量子化される。 これは分数量子ホール効果が対称性不変性の表象であることを意味する。

The non-relativistic Hamiltonian for an electron in the presence of an electromagnetic field, described using Landau's gauge, is solved analytically based on the conserved operators of the system: one for the canonical momentum in the $x$-axis, a second one for the canonical momentum in the $y$-axis, and the final one for the energy operator. It is shown that the Lorentz force can be recovered only if both of the conserved momenta are considered; otherwise, the system cannot be fully described. The wave function is calculated by solving an eigenvalue equation for the momentum operators, and a ground state of this function is then constructed. Based on the conserved properties of the system, a set of unitary operators defining the symmetries of the Hamiltonian is established. However, in Schr\"odinger's scheme, the necessary conditions for the invariance of the wave function after a unitary transformation give rise to a couple of quantized identities: one for the electric field and the second one for the magnetic field. Using the electric current expression defined by the continuity equation, the Hall and longitudinal resistivity were calculated, showing that the former is proportional to von Klitzing's constant and the latter vanishes when the time increment is $\Delta t<<\frac{m\omega_{c}}{q{\cal E}}\Delta x$. Finally, if the invariance condition is satisfied, then the Hall resistivity is quantized in integer multiples proportional to von Klitzing's constant. This implies that the fractional quantum Hall effect is a manifestation of symmetry invariance.
翻訳日:2024-03-12 20:58:42 公開日:2024-03-10
# 2+1)Dグラフェンシートのf(R,T)アナログ重力

f(R,T) Analogue Gravity in (2+1) D graphene sheet ( http://arxiv.org/abs/2403.06283v1 )

ライセンス: Link先を確認
Marcelo Lapola and Luiz Antonio Barreiro(参考訳) グラフェンに適用したf(R,T)重力の文脈における類似重力モデルについて検討した。 2次元(2D)におけるラグランジアン密度の導出を行い、関数 f(R,T) によって特徴づけられる重力効果を考慮に入れた。 ラグランジアンは準粒子体 $\psi(x)$、随伴体 $\overline{\psi}$、有効計量テンソル $g^{\mu\nu}$、ゲージ場 $a_{\nu}$ を含む。 運動の方程式はラグランジアンに適用される変分原理によって確立され、ディラック方程式が修正される。 運動方程式における付加項の解釈とグラフェン系の修正された重力力学を捉える上での意義について考察する。 本研究は, 類似重力モデルの理解と凝縮物質系への応用に寄与する。

We examine the analogue gravity model within the context of f(R,T) gravity applied to graphene. The derivation of the Lagrangian density in two dimensions (2D) is undertaken, accounting for the altered gravitational effects as characterized by the function f(R,T). The Lagrangian encompasses the quasiparticle field $\psi(x)$, its adjoint $\overline{\psi}$, the effective metric tensor $g^{\mu\nu}$, and the gauge field $A_{\nu}$. The equations of motion are established through variational principles applied to the Lagrangian, resulting in modified Dirac equations. We discuss the interpretation of the additional terms in the equations of motion and their significance in capturing the modified gravitational dynamics in the graphene system. Our findings contribute to the understanding of analogue gravity models and their applications in condensed matter systems.
翻訳日:2024-03-12 20:58:09 公開日:2024-03-10
# ボルツマン方程式のBGKモデルを解くための分離型物理情報ニューラルネットワーク

Separable Physics-informed Neural Networks for Solving the BGK Model of the Boltzmann Equation ( http://arxiv.org/abs/2403.06342v1 )

ライセンス: Link先を確認
Jaemin Oh, Seung Yeon Cho, Seok-Bae Yun, Eunbyung Park, and Youngjoon Hong(参考訳) 本研究では,ボルツマン方程式のBGKモデルを効果的に解くために,分離型物理情報ニューラルネットワーク(SPINN)を用いた手法を提案する。 PINNのメッシュフリー性は、高次元偏微分方程式(PDE)を扱う上で大きな利点をもたらすが、BGK演算子における正確な積分評価のための二次規則を適用すると、メッシュフリーの利点を損なうことができ、計算コストが増大する。 これに対処するために,スピンの正準多進分解構造とモーメント計算の線形性質を活用し,二次規則適用のための計算コストを大幅に削減した。 粒子密度関数の多スケール性は、ニューラルネットワークを用いたマクロモーメントの精密近似に困難をもたらす。 SPINNトレーニングを改善するために,相対的損失アプローチと合わせて,ガウス関数をSPINNに統合する手法を提案する。 この修正により、SPINNはマクスウェル分布と同じくらい急速に崩壊し、マクロモーメント近似の精度を高めることができる。 相対的な損失設計により、SPINNによって大規模と小規模の両方の特徴が効果的に捕捉されることが保証される。 本手法の有効性は,挑戦的3次元リーマン問題の解を含む5つの数値実験によって実証された。 これらの結果は,計算物理学における複雑な課題を効率的かつ正確に解決するための新しい手法の可能性を強調している。

In this study, we introduce a method based on Separable Physics-Informed Neural Networks (SPINNs) for effectively solving the BGK model of the Boltzmann equation. While the mesh-free nature of PINNs offers significant advantages in handling high-dimensional partial differential equations (PDEs), challenges arise when applying quadrature rules for accurate integral evaluation in the BGK operator, which can compromise the mesh-free benefit and increase computational costs. To address this, we leverage the canonical polyadic decomposition structure of SPINNs and the linear nature of moment calculation, achieving a substantial reduction in computational expense for quadrature rule application. The multi-scale nature of the particle density function poses difficulties in precisely approximating macroscopic moments using neural networks. To improve SPINN training, we introduce the integration of Gaussian functions into SPINNs, coupled with a relative loss approach. This modification enables SPINNs to decay as rapidly as Maxwellian distributions, thereby enhancing the accuracy of macroscopic moment approximations. The relative loss design further ensures that both large and small-scale features are effectively captured by the SPINNs. The efficacy of our approach is demonstrated through a series of five numerical experiments, including the solution to a challenging 3D Riemann problem. These results highlight the potential of our novel method in efficiently and accurately addressing complex challenges in computational physics.
翻訳日:2024-03-12 20:54:47 公開日:2024-03-10
# 誤差緩和量子ランダムアクセスメモリ

Error-Mitigated Quantum Random Access Memory ( http://arxiv.org/abs/2403.06340v1 )

ライセンス: Link先を確認
Wenbo Shi, Neel Kanth Kundu, Matthew R. McKay, Robert Malaney(参考訳) 量子誤り訂正の代替として、ZNE(Zero-Noise Extrapolation)を含む量子エラー軽減手法が提案されている。 そこで本研究では,現在のノイズの多いデバイスに対して,大幅な性能向上を実現する改良型のZNEを提案する。 改良zne法は,ノイズスケール回路から得られたノイズデータ群を評価し,推定ノイズシミュレーション結果を用いて,各グループに対する補間関数を選択することにより,ゼロノイズデータへ外挿する。 実世界の量子アプリケーションにおけるエンハンスメントを定量化するため、将来の量子ネットワークやコンピュータにとって重要なメモリシステムである量子ランダムアクセスメモリ(QRAM)に修正したZNEを組み込む。 我々の新しいZNE強化QRAMの設計は27量子ビットの超伝導量子デバイス上で実験的に実装され、その結果、合理的な推定シミュレーション結果により、従来のZNE使用法と比較してQRAMの忠実度が大幅に向上することを示した。 本研究は, 量子アプリケーションが機能的か非機能的かという違いを, 測定単位ごとに決定する上で, 補間関数が果たす重要な役割を実証するものである。

As an alternative to quantum error correction, quantum error mitigation methods, including Zero-Noise Extrapolation (ZNE), have been proposed to alleviate run-time errors in current noisy quantum devices. In this work, we propose a modified version of ZNE that provides for a significant performance enhancement on current noisy devices. Our modified ZNE method extrapolates to zero-noise data by evaluating groups of noisy data obtained from noise-scaled circuits and selecting extrapolation functions for each group with the assistance of estimated noisy simulation results. To quantify enhancement in a real-world quantum application, we embed our modified ZNE in Quantum Random Access Memory (QRAM) - a memory system important for future quantum networks and computers. Our new ZNE-enhanced QRAM designs are experimentally implemented on a 27-qubit noisy superconducting quantum device, the results of which demonstrate that with reasonable estimated simulation results, QRAM fidelity is improved significantly relative to traditional ZNE usage. Our results demonstrate the critical role the extrapolation function plays in ZNE - judicious choice of that function on a per-measurement basis can make the difference between a quantum application being functional or non-functional.
翻訳日:2024-03-12 20:54:23 公開日:2024-03-10
# FOAA : マルチモーダル腫瘍分類のためのフレッテ付き外科学的注意

FOAA: Flattened Outer Arithmetic Attention For Multimodal Tumor Classification ( http://arxiv.org/abs/2403.06339v1 )

ライセンス: Link先を確認
Omnia Alwazzan (1 and 2), Ioannis Patras (1 and 2), Gregory Slabaugh (1 and 2) ((1) School of Electronic Engineering and Computer Science, Queen Mary University of London, UK, (2) Queen Mary Digital Environment Research Institute (DERI), London, UK)(参考訳) マルチモーダル医療データの融合は、患者の健康の全体像を提供するための大きな約束であり、その相関を利用して異なるモダリティの相補性を活用する。 本稿では,注意に刺激されて,異なる形態の識別特徴を融合させる,シンプルで効果的なアプローチを提案する。 本稿では,キー,クエリ,および各モダリティのフラット化埋め込みから得られる値から注意スコアを計算するために,外部演算演算子(加算,減算,積,分割)に依存する新しい注意機構であるflattened outer arithmetic attention (foaa)を提案する。 我々は、FOAAが自己注意と相互注意のためにどのように実装され、ニューラルネットワークアーキテクチャにおける再利用可能なコンポーネントを提供するかを実証する。 複数モーダル腫瘍分類のための2つのデータセット上でFOAAを評価し, FOAAに富む特徴が他の融合法より優れていることを示す。 コードは \href{https://github.com/omniaalwazzan/FOAA}{https://github.com/omniaalwazzan/FOAA} で公開されている。

Fusion of multimodal healthcare data holds great promise to provide a holistic view of a patient's health, taking advantage of the complementarity of different modalities while leveraging their correlation. This paper proposes a simple and effective approach, inspired by attention, to fuse discriminative features from different modalities. We propose a novel attention mechanism, called Flattened Outer Arithmetic Attention (FOAA), which relies on outer arithmetic operators (addition, subtraction, product, and division) to compute attention scores from keys, queries and values derived from flattened embeddings of each modality. We demonstrate how FOAA can be implemented for self-attention and cross-attention, providing a reusable component in neural network architectures. We evaluate FOAA on two datasets for multimodal tumor classification and achieve state-of-the-art results, and we demonstrate that features enriched by FOAA are superior to those derived from other fusion approaches. The code is publicly available at \href{https://github.com/omniaalwazzan/FOAA}{https://github.com/omniaalwazzan/FOAA}
翻訳日:2024-03-12 20:54:01 公開日:2024-03-10
# マルチモーダル変分オートエンコーダにおける異方性要因と私的潜時要因

Disentangling shared and private latent factors in multimodal Variational Autoencoders ( http://arxiv.org/abs/2403.06338v1 )

ライセンス: Link先を確認
Kaspar M\"artens and Christopher Yau(参考訳) 多モードデータの生成モデルは、観測データの不均一性の重要な決定要因に関連付けられる潜在因子の同定を可能にする。 共通因子または共有因子は、モダリティ間の変動を説明するのに重要であるが、他の因子は、単一のモダリティを説明するためにのみ、プライベートで重要である。 MVAE や MMVAE のようなマルチモーダル変分オートエンコーダは、これらの潜在因子を推定し、共有変分をプライベートから分離する自然な選択である。 そこで本研究では,この不整合を確実に行う能力について検討する。 特に、モダリティ特有の変動が共有信号を支配するような問題設定を強調する。 クロスモーダル予測の観点から,既存モデルの制約を実証し,モダリティ特有の変動に対してより堅牢にする方法を提案する。 本研究は,様々な実世界のマルチオミクスデータセットと合成実験によって裏付けられた。

Generative models for multimodal data permit the identification of latent factors that may be associated with important determinants of observed data heterogeneity. Common or shared factors could be important for explaining variation across modalities whereas other factors may be private and important only for the explanation of a single modality. Multimodal Variational Autoencoders, such as MVAE and MMVAE, are a natural choice for inferring those underlying latent factors and separating shared variation from private. In this work, we investigate their capability to reliably perform this disentanglement. In particular, we highlight a challenging problem setting where modality-specific variation dominates the shared signal. Taking a cross-modal prediction perspective, we demonstrate limitations of existing models, and propose a modification how to make them more robust to modality-specific variation. Our findings are supported by experiments on synthetic as well as various real-world multi-omics data sets.
翻訳日:2024-03-12 20:53:40 公開日:2024-03-10
# マージンを爆発させる: 資本主義はAIをミノリティーズド・グループの拡大に駆り立てる

Exploiting the Margin: How Capitalism Fuels AI at the Expense of Minoritized Groups ( http://arxiv.org/abs/2403.06332v1 )

ライセンス: Link先を確認
Nelson Col\'on Vargas(参考訳) 本稿では、資本主義、人種抑圧、人工知能(AI)の複雑なネクサスを考察し、これらの要素がいかにして社会的不平等を深めるかを明らかにする。 この研究は、資本主義的な実践を通じて、地域社会の歴史的搾取を追跡することによって、AI技術が社会的偏見を反映するだけでなく、特に人種格差を悪化させる際にも、どのように社会的バイアスを増幅するかを示す。 焦点を絞った分析を通じて、ギグエコノミーの労働虐待、偏見のある顔認識技術、これらのコミュニティに課される不均衡な精神保健負担などのメカニズムを通じて、AIの開発と応用が疎外されたグループをどのように活用するかを示す。 これらの例は、AIが既存の不平等を強化し、強化する上で重要な役割を担っている。 非規制のAIは、現在の抑圧を複雑にする恐れがある、と結論づけた記事は、AI開発に対する継続的な取り組みを求めている。 これは、体系的な欠陥を正し、限界化された個人のエンパワーメントを擁護する包括的なアプローチを採用し、技術の進歩が、搾取のサイクルを継続するよりむしろ社会的な癒しに貢献することを保証している。

This article investigates the complex nexus of capitalism, racial oppression, and artificial intelligence (AI), revealing how these elements coalesce to deepen social inequities. By tracing the historical exploitation of marginalized communities through capitalist practices, the study demonstrates how AI technologies not only reflect but also amplify societal biases, particularly in exacerbating racial disparities. Through a focused analysis, the paper presents how AI's development and application exploit marginalized groups via mechanisms such as gig economy labor abuses, biased facial recognition technologies, and the disproportionate mental health burdens placed on these communities. These examples underscore the critical role of AI in reinforcing and intensifying existing inequalities. Concluding that unregulated AI significantly threatens to compound current oppressions, the article calls for a concerted effort towards responsible AI development. This entails adopting a holistic approach that rectifies systemic flaws and champions the empowerment of marginalized individuals, ensuring that technological advancement contributes to societal healing rather than perpetuating cycles of exploitation.
翻訳日:2024-03-12 20:53:24 公開日:2024-03-10
# 一般化占有モデルによる移動性強化学習

Transferable Reinforcement Learning via Generalized Occupancy Models ( http://arxiv.org/abs/2403.06328v1 )

ライセンス: Link先を確認
Chuning Zhu, Xinqi Wang, Tyler Han, Simon S. Du, Abhishek Gupta(参考訳) インテリジェントエージェントはジェネラリストでなければならない - さまざまなタスクに迅速に適応し、一般化する能力を示す。 強化学習(RL)の枠組みの中で、モデルに基づくRLアルゴリズムは、原則として任意の報酬に一般化できるように、世界のタスクに依存しない力学モデルを学ぶ。 しかし、ワンステップモデルは自然に複合誤差に苦しむため、長い地平線や大きな状態空間の問題には効果がない。 本研究では,モデルベースRLの一般性を維持しつつ,複合誤差を回避し,新たなモデルのクラス(一般化占有モデル(GOM))を提案する。 GOMの背景にある重要な考え方は、定常データセットのカバレッジの下で、特定の状態から特定の結果を実現するポリシーとともに、ある状態から可能なすべての長期的な結果の分布をモデル化することである。 これらのモデルは、ポリシーの最適化を再設計することなく、任意の新しいタスクに最適なアクションを選択するために素早く使用できる。 GOMは長期的な結果を直接モデル化することにより、任意の報酬関数の一般性を保ちながら複雑なエラーを避ける。 拡散モデルを用いたgomsの実用的インスタンス化を行い,その効果を,理論上および経験上,様々なシミュレーションロボット工学的問題にまたがる移動可能モデルの新たなクラスとして示す。 ビデオとコードはhttps://weirdlabuw.github.io/gom/。

Intelligent agents must be generalists - showing the ability to quickly adapt and generalize to varying tasks. Within the framework of reinforcement learning (RL), model-based RL algorithms learn a task-agnostic dynamics model of the world, in principle allowing them to generalize to arbitrary rewards. However, one-step models naturally suffer from compounding errors, making them ineffective for problems with long horizons and large state spaces. In this work, we propose a novel class of models - generalized occupancy models (GOMs) - that retain the generality of model-based RL while avoiding compounding error. The key idea behind GOMs is to model the distribution of all possible long-term outcomes from a given state under the coverage of a stationary dataset, along with a policy that realizes a particular outcome from the given state. These models can then quickly be used to select the optimal action for arbitrary new tasks, without having to redo policy optimization. By directly modeling long-term outcomes, GOMs avoid compounding error while retaining generality across arbitrary reward functions. We provide a practical instantiation of GOMs using diffusion models and show its efficacy as a new class of transferable models, both theoretically and empirically across a variety of simulated robotics problems. Videos and code at https://weirdlabuw.github.io/gom/.
翻訳日:2024-03-12 20:53:01 公開日:2024-03-10
# 命令から制約へ:自動制約検証による言語モデルアライメント

From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification ( http://arxiv.org/abs/2403.06326v1 )

ライセンス: Link先を確認
Fei Wang, Chao Shang, Sarthak Jain, Shuai Wang, Qiang Ning, Bonan Min, Vittorio Castelli, Yassine Benajiba, Dan Roth(参考訳) ユーザアライメントは、ダウンストリームタスクに汎用言語モデル(LM)を適用する上で重要であるが、人間アノテーションは、特にカスタマイズされた制約を持つすべての命令で利用できないことが多い。 ユーザ命令は一般的に制約を含む。 命令全体の観点からの応答品質の評価はコストがかかることが多いが、制約の満足度を効率的に評価することは可能である。 我々は,NLPタスクの共通制約を調査し,それらの引数の型に基づいて3つのクラスに分類し,制約に適応したユーザアライメントのための監視信号を自動的に生成する統合フレームワークACTを提案する。 具体的には、ACTは各応答の制約満足度(CSR)を計算するために、一般的に実装が容易な制約検証器を使用する。 プロンプト毎に複数のレスポンスをサンプリングし、csrに基づいて好みラベルを自動的に収集する。 その後、ACTはランキングベースの学習プロセスを通じて、LMを目標タスクに適応させる。 微粒なエンティティタイピング、抽象的な要約、時間的質問応答の実験は、ACTが異なる制約クラスに準拠するLMの能力を強化し、タスク性能を向上させることができることを示している。 さらなる実験により、制約追従能力は転送可能であることが示されている。

User alignment is crucial for adapting general-purpose language models (LMs) to downstream tasks, but human annotations are often not available for all types of instructions, especially those with customized constraints. We observe that user instructions typically contain constraints. While assessing response quality in terms of the whole instruction is often costly, efficiently evaluating the satisfaction rate of constraints is feasible. We investigate common constraints in NLP tasks, categorize them into three classes based on the types of their arguments, and propose a unified framework, ACT (Aligning to ConsTraints), to automatically produce supervision signals for user alignment with constraints. Specifically, ACT uses constraint verifiers, which are typically easy to implement in practice, to compute constraint satisfaction rate (CSR) of each response. It samples multiple responses for each prompt and collect preference labels based on their CSR automatically. Subsequently, ACT adapts the LM to the target task through a ranking-based learning process. Experiments on fine-grained entity typing, abstractive summarization, and temporal question answering show that ACT is able to enhance LMs' capability to adhere to different classes of constraints, thereby improving task performance. Further experiments show that the constraint-following capabilities are transferable.
翻訳日:2024-03-12 20:52:24 公開日:2024-03-10
# 標準RLへの還元によるリスク感性RLの最適化

Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to Standard RL ( http://arxiv.org/abs/2403.06323v1 )

ライセンス: Link先を確認
Kaiwen Wang, Dawen Liang, Nathan Kallus, Wen Sun(参考訳) 我々は,リスク感性強化学習(RSRL)を,条件付きリスク(CVaR),エントロピックリスク,マルコウィッツの平均分散を一般化した最適化確実性等価(OCE)リスクを用いて検討した。 拡張マルコフ決定過程 (MDP) を用いて, 楽観的アルゴリズムに基づく標準RLとポリシー最適化に基づく2つの一般メタアルゴリズムを提案する。 我々の楽観的なメタアルゴリズムは、エントロピーリスクまたはCVaRを持つ以前のRSRL理論をほとんど全て一般化する。 離散的な報酬の下では、楽観的な理論は、例えば外生ブロック MDP のような有界被覆性を持つ MDP に対する最初の RSRL 後悔境界も証明する。 個別報酬の下では、我々の政策最適化メタアルゴリズムは、真のoceリスクを低くする新しいメトリックにおいて、グローバル収束と局所改善の保証の両方を享受する。 最後に、我々のフレームワークをPPOでインスタンス化し、MDPを構築し、それ以前のアルゴリズムが確実に失敗しながら、最適なリスク感受性ポリシーを学ぶことを示す。

We study Risk-Sensitive Reinforcement Learning (RSRL) with the Optimized Certainty Equivalent (OCE) risk, which generalizes Conditional Value-at-risk (CVaR), entropic risk and Markowitz's mean-variance. Using an augmented Markov Decision Process (MDP), we propose two general meta-algorithms via reductions to standard RL: one based on optimistic algorithms and another based on policy optimization. Our optimistic meta-algorithm generalizes almost all prior RSRL theory with entropic risk or CVaR. Under discrete rewards, our optimistic theory also certifies the first RSRL regret bounds for MDPs with bounded coverability, e.g., exogenous block MDPs. Under discrete rewards, our policy optimization meta-algorithm enjoys both global convergence and local improvement guarantees in a novel metric that lower bounds the true OCE risk. Finally, we instantiate our framework with PPO, construct an MDP, and show that it learns the optimal risk-sensitive policy while prior algorithms provably fail.
翻訳日:2024-03-12 20:51:50 公開日:2024-03-10
# 集中治療室(icu)におけるコンピュータビジョンを活用した訪問・移動の検討

Leveraging Computer Vision in the Intensive Care Unit (ICU) for Examining Visitation and Mobility ( http://arxiv.org/abs/2403.06322v1 )

ライセンス: Link先を確認
Scott Siegel, Jiaqing Zhang, Sabyasachi Bandyopadhyay, Subhash Nerella, Brandon Silva, Tezcan Baslanti, Azra Bihorac, Parisa Rashidi(参考訳) ICU(Intensive Care Unit)において患者を綿密に監視することの重要性にもかかわらず、医療提供者に課される時間的制約のため、多くの側面が限定的に評価されている。 例えば、休息中の過度の訪問は概日リズムの破壊やデリリウムのリスクを悪化させる可能性があるが、ICUでは捕獲されない。 同様に、移動度はicu患者の回復や悪化の重要な指標となりうるが、散発的に捕獲されるか、全く捕獲されない。 過去数年間、コンピュータビジョン分野は、人的負担を減らすことで、多くの領域で応用されている。 ICUのコンピュータビジョンシステムを使用することで、既存の評価の頻度と精度を高めつつ、スタッフの作業量を削減できる可能性がある。 本研究では,奥行き画像に基づく最先端の非侵襲的コンピュータビジョンシステムを用いて,icu訪問と患者の移動を特徴付ける。 次に、訪問と、痛み、明度、デリリウムなどのいくつかの患者結果との関係を検討する。 患者視力低下と訪問の増加に伴うデリリウムの出現との関連性を検討した。 一方,DVPRS(Defense and Veteran Pain Rating Scale)を用いた自己報告痛は,来院率の低下と相関した。 ICU患者に対する非侵襲的自律システムの有用性と可能性を明らかにする。

Despite the importance of closely monitoring patients in the Intensive Care Unit (ICU), many aspects are still assessed in a limited manner due to the time constraints imposed on healthcare providers. For example, although excessive visitations during rest hours can potentially exacerbate the risk of circadian rhythm disruption and delirium, it is not captured in the ICU. Likewise, while mobility can be an important indicator of recovery or deterioration in ICU patients, it is only captured sporadically or not captured at all. In the past few years, the computer vision field has found application in many domains by reducing the human burden. Using computer vision systems in the ICU can also potentially enable non-existing assessments or enhance the frequency and accuracy of existing assessments while reducing the staff workload. In this study, we leverage a state-of-the-art noninvasive computer vision system based on depth imaging to characterize ICU visitations and patients' mobility. We then examine the relationship between visitation and several patient outcomes, such as pain, acuity, and delirium. We found an association between deteriorating patient acuity and the incidence of delirium with increased visitations. In contrast, self-reported pain, reported using the Defense and Veteran Pain Rating Scale (DVPRS), was correlated with decreased visitations. Our findings highlight the feasibility and potential of using noninvasive autonomous systems to monitor ICU patients.
翻訳日:2024-03-12 20:51:18 公開日:2024-03-10
# フェイクか妥協か? フェデレーションラーニングにおける悪意あるクライアントのセンス

Fake or Compromised? Making Sense of Malicious Clients in Federated Learning ( http://arxiv.org/abs/2403.06319v1 )

ライセンス: Link先を確認
Hamid Mozaffari, Sunav Choudhary, and Amir Houmansadr(参考訳) Federated Learning(FL)は分散機械学習のパラダイムであり、分散データのトレーニングモデルを可能にする。 毒殺攻撃に対するflのセキュリティの分野は、敵の能力やその下の敵のモデルについて異なる仮定をする研究の急増によって混乱に苦しめられている。 本研究の目的は,本論文で提案されている各種毒殺攻撃および防衛集約ルール(AGR)を包括的に分析し,共通の枠組みで接続することで,この混乱を明らかにすることである。 既存の敵モデルを接続するために、敵のスペクトルの中間に位置するハイブリッド敵モデルを提案し、敵は少数のクライアントを妥協し、生成的(例えばDDPM)モデルをそれらの妥協したサンプルで訓練し、新しい合成データを生成して、より強い(例えば、より安く、より実用的な)攻撃を異なる頑健な凝集規則に対して解決する。 FLの敵のスペクトルを提示することにより、FLシステムを設計する際に考慮すべき脅威の種類を明確に把握し、さらなる研究が必要な分野を特定することを目的としている。

Federated learning (FL) is a distributed machine learning paradigm that enables training models on decentralized data. The field of FL security against poisoning attacks is plagued with confusion due to the proliferation of research that makes different assumptions about the capabilities of adversaries and the adversary models they operate under. Our work aims to clarify this confusion by presenting a comprehensive analysis of the various poisoning attacks and defensive aggregation rules (AGRs) proposed in the literature, and connecting them under a common framework. To connect existing adversary models, we present a hybrid adversary model, which lies in the middle of the spectrum of adversaries, where the adversary compromises a few clients, trains a generative (e.g., DDPM) model with their compromised samples, and generates new synthetic data to solve an optimization for a stronger (e.g., cheaper, more practical) attack against different robust aggregation rules. By presenting the spectrum of FL adversaries, we aim to provide practitioners and researchers with a clear understanding of the different types of threats they need to consider when designing FL systems, and identify areas where further research is needed.
翻訳日:2024-03-12 20:50:35 公開日:2024-03-10
# 形状マッチングと生成のためのエンドツーエンドディープラーニング生成フレームワーク

An End-to-End Deep Learning Generative Framework for Refinable Shape Matching and Generation ( http://arxiv.org/abs/2403.06317v1 )

ライセンス: Link先を確認
Soodeh Kalaie, Andy Bulpitt, Alejandro F. Frangi, and Ali Gooya(参考訳) 形状生成モデル (generative modelling for shapes) は、in-silico clinical trial (iscts) の前提条件であり、しばしば3次元表面メッシュとして表現される合成解剖学的形状を用いて医療機器の介入を効果的に検証することを目的としている。 しかし、実際のメッシュサンプルによく似た形状を生成するためのAIモデルの構築は、可変頂点数、接続性、トレーニングデータ間の密接な頂点対応の欠如により困難である。 メッシュのグラフ表現を用いて, 潜在空間における拡張可能な形状対応を確立し, 集団由来のアトラスを構築し, 現実的な合成形状を生成するための, 教師なし幾何学的深層学習モデルを開発した。 さらに,提案するベースモデルを,複合型生成クラスタ型マルチアトラスフレームワークに拡張し,さらに可変性を高め,生成した形状をより詳細に保存する。 肝臓および左室モデルを用いた実験結果から,ISCTに対するアプローチの適用性について比較分析により明らかにした。

Generative modelling for shapes is a prerequisite for In-Silico Clinical Trials (ISCTs), which aim to cost-effectively validate medical device interventions using synthetic anatomical shapes, often represented as 3D surface meshes. However, constructing AI models to generate shapes closely resembling the real mesh samples is challenging due to variable vertex counts, connectivities, and the lack of dense vertex-wise correspondences across the training data. Employing graph representations for meshes, we develop a novel unsupervised geometric deep-learning model to establish refinable shape correspondences in a latent space, construct a population-derived atlas and generate realistic synthetic shapes. We additionally extend our proposed base model to a joint shape generative-clustering multi-atlas framework to incorporate further variability and preserve more details in the generated shapes. Experimental results using liver and left-ventricular models demonstrate the approach's applicability to computational medicine, highlighting its suitability for ISCTs through a comparative analysis.
翻訳日:2024-03-12 20:49:48 公開日:2024-03-10
# HRIにおけるヒューマン反応による故障検出のためのドメイン一般化に関する研究

A Study on Domain Generalization for Failure Detection through Human Reactions in HRI ( http://arxiv.org/abs/2403.06315v1 )

ライセンス: Link先を確認
Maria Teresa Parreira, Sukruth Gowdru Lingaraju, Adolfo Ramirez-Aristizabal, Manaswi Saha, Michael Kuniavsky, Wendy Ju(参考訳) マシンラーニングモデルは通常、分散内でテストされる(同じデータセット)。 HRI研究の目標は、しばしば一般化されたモデルを開発することである。 これによりドメインの一般化 - 異なる設定でパフォーマンスを維持する - が重要な問題になります。 本研究では,人間の表情を訓練した故障検出モデルにおける領域一般化の簡潔な解析を行う。 エラーが発生したビデオに反応する2つの異なる人間のデータセットを使用して、制御されたラボ設定とオンラインで収集された別のデータセットを使用して、各データセットのディープラーニングモデルをトレーニングした。 これらのモデルを代替データセットでテストすると、大きなパフォーマンス低下が見られた。 我々は、観察されたモデル行動の原因を反映し、レコメンデーションを残す。 この研究は、モデル堅牢性と実生活適用性の改善に焦点を当てたHRI研究の必要性を強調している。

Machine learning models are commonly tested in-distribution (same dataset); performance almost always drops in out-of-distribution settings. For HRI research, the goal is often to develop generalized models. This makes domain generalization - retaining performance in different settings - a critical issue. In this study, we present a concise analysis of domain generalization in failure detection models trained on human facial expressions. Using two distinct datasets of humans reacting to videos where error occurs, one from a controlled lab setting and another collected online, we trained deep learning models on each dataset. When testing these models on the alternate dataset, we observed a significant performance drop. We reflect on the causes for the observed model behavior and leave recommendations. This work emphasizes the need for HRI research focusing on improving model robustness and real-life applicability.
翻訳日:2024-03-12 20:49:08 公開日:2024-03-10
# 深層強化学習のための最適政策スパーシフィケーションと低ランク分解

Optimal Policy Sparsification and Low Rank Decomposition for Deep Reinforcement Learning ( http://arxiv.org/abs/2403.06313v1 )

ライセンス: Link先を確認
Vikram Goddla(参考訳) 深層強化学習(DRL)は、コンピュータゲームやロボティクスを含む幅広い応用において有望である。 しかし、DRLポリシーのトレーニングは、過度に適合しがちな密集したポリシーをもたらす特別なコンピューティングリソースを消費する。 さらに、高密度DRLポリシーによる推論は、特にエッジコンピューティングにおける実用的応用を制限する。 プルーニングや特異値分解といった手法は、過度に適合しメモリ消費を減らすために、スペーシフィケーションとモデル圧縮を実現するためにディープラーニングモデルで使われてきた。 しかし、これらの技術は、報酬が著しく減少する副最適性能をもたらした。 L_1$と$L_2$の正規化技術は、ニューラルネットワークのスカラー化とスパースオートエンコーダ開発のために提案されているが、DRL環境での実装は明らかになっていない。 最適スパーシティマップを用いて,drlポリシーをスパーシライズし,その分解を報酬の低下を伴わずに低いランクに促進する,新たな$l_0$-norm-regularization手法を提案する。 我々は,5つの異なる環境(Cartpole-v1, Acrobat-v1, LunarLander-v2, SuperMarioBros-7.1.v0, surgery Robot Learning)を対象に,複数のオンライン・オフラインアルゴリズムを用いて,L_0$-norm-regularization手法を評価した。 我々は,スーパーメリオブロス環境における$L_0$-norm-regularized DRLポリシーが93%の空間性を実現し,低ランク分解条件下では70%の圧縮特性を示した。 さらに,手術ロボット学習環境における$l_0$-norm-regularized drlポリシーは36%のスパーシフィケーションを達成し,低位に分解すると46%の圧縮が得られた。 その結果、DRLポリシーのスペーサー化のためのカスタムな$L_0$-norm-regularization技術は、計算資源の削減とオーバーフィッティングの制限に有望な方法であることが示唆された。

Deep reinforcement learning(DRL) has shown significant promise in a wide range of applications including computer games and robotics. Yet, training DRL policies consume extraordinary computing resources resulting in dense policies which are prone to overfitting. Moreover, inference with dense DRL policies limit their practical applications, especially in edge computing. Techniques such as pruning and singular value decomposition have been used with deep learning models to achieve sparsification and model compression to limit overfitting and reduce memory consumption. However, these techniques resulted in sub-optimal performance with notable decay in rewards. $L_1$ and $L_2$ regularization techniques have been proposed for neural network sparsification and sparse auto-encoder development, but their implementation in DRL environments has not been apparent. We propose a novel $L_0$-norm-regularization technique using an optimal sparsity map to sparsify DRL policies and promote their decomposition to a lower rank without decay in rewards. We evaluated our $L_0$-norm-regularization technique across five different environments (Cartpole-v1, Acrobat-v1, LunarLander-v2, SuperMarioBros-7.1.v0 and Surgical Robot Learning) using several on-policy and off-policy algorithms. We demonstrated that the $L_0$-norm-regularized DRL policy in the SuperMarioBros environment achieved 93% sparsity and gained 70% compression when subjected to low-rank decomposition, while significantly outperforming the dense policy. Additionally, the $L_0$-norm-regularized DRL policy in the Surgical Robot Learning environment achieved a 36% sparsification and gained 46% compression when decomposed to a lower rank, while being performant. The results suggest that our custom $L_0$-norm-regularization technique for sparsification of DRL policies is a promising avenue to reduce computational resources and limit overfitting.
翻訳日:2024-03-12 20:48:56 公開日:2024-03-10
# カメラキャリブレーションにおける歪みコニックの非バイアス推定

Unbiased Estimator for Distorted Conics in Camera Calibration ( http://arxiv.org/abs/2403.04583v2 )

ライセンス: Link先を確認
Chaehyeon Song, Jaeho Shin, Myung-Hwan Jeon, Jongwoo Lim, Ayoung Kim(参考訳) 文献では、点と円錐はカメラの幾何学的キャリブレーションの主要な特徴である。 円錐は点よりも情報的特徴が多いが,歪み下での円錐特性の喪失は,カメラキャリブレーションにおける円錐特性の有用性を著しく制限している。 既存の多くのアプローチは、歪みを無視したり、この制限を回避するために3次元球面ターゲットを導入したりすることで、円錐型キャリブレーションに対処した。 本稿では,モーメントを用いた円錐型キャリブレーションの新しい定式化について述べる。 我々の導出は、第1モーメントが歪み下であってもバイアスなしで推定できるという数学的発見に基づいている。 これにより、突起と歪の間のモーメント変化を追跡でき、歪んだ円錐の最初のモーメントを確実に保存できる。 偏りのない推定器では、円パターンをサブピクセルレベルで正確に検出することができ、キャリブレーションパイプライン全体に対して完全に活用することができ、キャリブレーションが大幅に改善される。 コードはhttps://github.com/ChaehyeonSong/discocal.comから入手できる。

In the literature, points and conics have been major features for camera geometric calibration. Although conics are more informative features than points, the loss of the conic property under distortion has critically limited the utility of conic features in camera calibration. Many existing approaches addressed conic-based calibration by ignoring distortion or introducing 3D spherical targets to circumvent this limitation. In this paper, we present a novel formulation for conic-based calibration using moments. Our derivation is based on the mathematical finding that the first moment can be estimated without bias even under distortion. This allows us to track moment changes during projection and distortion, ensuring the preservation of the first moment of the distorted conic. With an unbiased estimator, the circular patterns can be accurately detected at the sub-pixel level and can now be fully exploited for an entire calibration pipeline, resulting in significantly improved calibration. The entire code is readily available from https://github.com/ChaehyeonSong/discocal.
翻訳日:2024-03-12 17:24:04 公開日:2024-03-10
# 言語モデルは天才か? アルゴリズムパズルがマルチモーダル推論の深刻な課題を発表

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning ( http://arxiv.org/abs/2403.03864v2 )

ライセンス: Link先を確認
Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria(参考訳) 本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の課題を紹介する。 視覚理解,言語理解,複雑なアルゴリズム推論を必要とするアルゴリズムパズルの解法において,マルチモーダル言語モデルの能力に挑戦し,評価するために設計された,新たなデータセットalgopuzzlevqaを提案する。 視覚データ解釈とアルゴリズム問題解決スキルのギャップを評価するために,ブール論理,組合せ論,グラフ理論,最適化,探索など,多種多様な数学的およびアルゴリズム的トピックを包含するパズルを作成する。 データセットは、人間が作成したコードから自動的に生成される。 私たちのパズルはすべて、退屈な人間の計算なしにアルゴリズムから得られる正確な解を持っています。 複雑な推論とデータセットサイズの観点から、データセットを任意にスケールアップできるようにします。 GPT4V や Gemini のような大規模言語モデル (LLM) はパズル解法において限られた性能を示した。 多数のパズルに対する複数選択質問回答設定において,その性能はランダムに近いことがわかった。 この発見は、複雑な推論問題を解決するために視覚的、言語的、アルゴリズム的知識を統合することの課題を強調している。

This paper introduces the novel task of multimodal puzzle solving, framed within the context of visual question-answering. We present a new dataset, AlgoPuzzleVQA designed to challenge and evaluate the capabilities of multimodal language models in solving algorithmic puzzles that necessitate both visual understanding, language understanding, and complex algorithmic reasoning. We create the puzzles to encompass a diverse array of mathematical and algorithmic topics such as boolean logic, combinatorics, graph theory, optimization, search, etc., aiming to evaluate the gap between visual data interpretation and algorithmic problem-solving skills. The dataset is generated automatically from code authored by humans. All our puzzles have exact solutions that can be found from the algorithm without tedious human calculations. It ensures that our dataset can be scaled up arbitrarily in terms of reasoning complexity and dataset size. Our investigation reveals that large language models (LLMs) such as GPT4V and Gemini exhibit limited performance in puzzle-solving tasks. We find that their performance is near random in a multi-choice question-answering setup for a significant number of puzzles. The findings emphasize the challenges of integrating visual, language, and algorithmic knowledge for solving complex reasoning problems.
翻訳日:2024-03-12 17:22:32 公開日:2024-03-10