このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231213となっている論文です。

PDF登録状況(公開日: 20231213)

TitleAuthorsAbstract論文公表日・翻訳日
# 逆エンジニアリング組込みソフトウェアにおけるインピーダンス漏洩脆弱性とその利用

Impedance Leakage Vulnerability and its Utilization in Reverse-engineering Embedded Software ( http://arxiv.org/abs/2310.03175v2 )

ライセンス: Link先を確認
Md Sadik Awal, Md Tauhidur Rahman, (参考訳) 新たな脆弱性を発見し、セキュリティとプライバシ対策を実装することは、システムやデータを物理的攻撃から保護するために重要である。 このような脆弱性の1つはインピーダンスであり、意図しないサイドチャネルを通じて情報を漏洩させることで、セキュリティとプライバシの重大なリスクを生じさせるデバイス固有の特性である。 従来の脆弱性とは異なり、インピーダンスは研究や設計における特定の頻度で固定値として扱われるので、見落としや狭く探索されることが多い。 さらに、インピーダンスは情報漏洩の源として探索されることは一度もない。 本稿では,組込み装置のインピーダンスが一定ではなく,デバイス上で実行されるプログラムに直接関連していることを示す。 我々は、この現象をインピーダンスリークと定義し、保護メモリからソフトウェア命令を抽出するためのサイドチャネルとして利用する。 ATmega328PマイクロコントローラとArtix 7 FPGAの実験では、インピーダンス側チャネルがそれぞれ96.1%と92.6%の精度でソフトウェア命令を検出できることが示されている。 さらに、インピーダンス側チャネルの二重性について検討し、有益な目的と知的財産盗難のリスクを明らかにする。 最後に、インピーダンスリークに対処する潜在的な対策について論じる。

Discovering new vulnerabilities and implementing security and privacy measures are important to protect systems and data against physical attacks. One such vulnerability is impedance, an inherent property of a device that can be exploited to leak information through an unintended side channel, thereby posing significant security and privacy risks. Unlike traditional vulnerabilities, impedance is often overlooked or narrowly explored, as it is typically treated as a fixed value at a specific frequency in research and design endeavors. Moreover, impedance has never been explored as a source of information leakage. This paper demonstrates that the impedance of an embedded device is not constant and directly relates to the programs executed on the device. We define this phenomenon as impedance leakage and use this as a side channel to extract software instructions from protected memory. Our experiment on the ATmega328P microcontroller and the Artix 7 FPGA indicates that the impedance side channel can detect software instructions with 96.1% and 92.6% accuracy, respectively. Furthermore, we explore the dual nature of the impedance side channel, highlighting the potential for beneficial purposes and the associated risk of intellectual property theft. Finally, potential countermeasures that specifically address impedance leakage are discussed.
翻訳日:2024-03-19 03:12:08 公開日:2023-12-13
# MLaaSにおけるグラフニューラルネットワークのセキュア化:クエリベースの積分検証の包括的実現

Securing Graph Neural Networks in MLaaS: A Comprehensive Realization of Query-based Integrity Verification ( http://arxiv.org/abs/2312.07870v1 )

ライセンス: Link先を確認
Bang Wu, Xingliang Yuan, Shuo Wang, Qi Li, Minhui Xue, Shirui Pan, (参考訳) 機械学習・アズ・ア・サービス(MLaaS)におけるグラフニューラルネットワーク(GNN)の展開により、新たな攻撃面がオープンになり、モデル中心の攻撃に関するセキュリティ上の懸念がエスカレーションされた。 これらの攻撃は、サービス中にGNNモデルパラメータを直接操作することができ、誤った予測を引き起こし、本質的なGNNアプリケーションに重大な脅威を引き起こす。 従来の整合性検証手法は、MLaaSが課した制限とGNNモデルの異なる特徴により、この文脈で失敗する。 本研究では,MLaaSにおけるGNNモデルをモデル中心攻撃から保護するための画期的なアプローチを提案する。 提案手法は,GNNの完全性に対する総合的な検証スキーマ,トランスダクティブGNNとインダクティブGNNの両方を考慮して,モデルに対する様々な事前デプロイ知識の調整を含む。 本稿では,革新的なノード指紋生成アルゴリズムを組み込んだクエリベースの検証手法を提案する。 我々のメカニズムを事前に知っている先進的な攻撃者に対処するために、我々は設計の中にランダム化された指紋ノードを導入する。 実験により,本手法は,ベースラインの2倍から4倍の効率で,5つの敵モデル中心攻撃を検出できることが示された。

The deployment of Graph Neural Networks (GNNs) within Machine Learning as a Service (MLaaS) has opened up new attack surfaces and an escalation in security concerns regarding model-centric attacks. These attacks can directly manipulate the GNN model parameters during serving, causing incorrect predictions and posing substantial threats to essential GNN applications. Traditional integrity verification methods falter in this context due to the limitations imposed by MLaaS and the distinct characteristics of GNN models. In this research, we introduce a groundbreaking approach to protect GNN models in MLaaS from model-centric attacks. Our approach includes a comprehensive verification schema for GNN's integrity, taking into account both transductive and inductive GNNs, and accommodating varying pre-deployment knowledge of the models. We propose a query-based verification technique, fortified with innovative node fingerprint generation algorithms. To deal with advanced attackers who know our mechanisms in advance, we introduce randomized fingerprint nodes within our design. The experimental evaluation demonstrates that our method can detect five representative adversarial model-centric attacks, displaying 2 to 4 times greater efficiency compared to baselines.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-13
# Adaptive Differentially Quantized Subspace Perturbation (ADQSP):プライバシ保護のための統一フレームワーク

Adaptive Differentially Quantized Subspace Perturbation (ADQSP): A Unified Framework for Privacy-Preserving Distributed Average Consensus ( http://arxiv.org/abs/2312.07947v1 )

ライセンス: Link先を確認
Qiongxiu Li, Jaron Skovsted Gundersen, Milan Lopuhaa-Zwakenberg, Richard Heusdens, (参考訳) プライバシを保存する分散平均コンセンサスは最近、適用可能性の広さから大きな注目を集めている。 達成された性能に基づいて、既存のアプローチは、セキュアなマルチパーティ計算(SMPC)や、差分プライバシー(DP)のような最悪のプライバシ優先のアプローチなど、完全な精度優先のアプローチに大別することができる。 第1クラスのメソッドは、完全な出力精度を達成するが、いくつかのプライベート情報を明らかにする一方、第2クラスのメソッドは、精度の低下を犠牲にして、最強の敵に対してプライバシを提供する。 本稿では、量子化スキームといわゆる部分空間摂動を組み合わせた適応微分量子化サブ空間摂動法(ADQSP)を提案する。 暗号プリミティブに依存しないが、提案手法は精度優先法とプライバシー優先法の両方の利点を享受し、それらを統一することができる。 具体的には,単一の量子化パラメータを変化させることで,提案手法がSMPC型の性能とDP型性能に異なることを示す。 この結果から,従来の分散信号処理ツールを暗号保証に活用する可能性が示唆された。 総合的な理論的解析に加えて,本研究の結果を裏付ける数値検証を行った。

Privacy-preserving distributed average consensus has received significant attention recently due to its wide applicability. Based on the achieved performances, existing approaches can be broadly classified into perfect accuracy-prioritized approaches such as secure multiparty computation (SMPC), and worst-case privacy-prioritized approaches such as differential privacy (DP). Methods of the first class achieve perfect output accuracy but reveal some private information, while methods from the second class provide privacy against the strongest adversary at the cost of a loss of accuracy. In this paper, we propose a general approach named adaptive differentially quantized subspace perturbation (ADQSP) which combines quantization schemes with so-called subspace perturbation. Although not relying on cryptographic primitives, the proposed approach enjoys the benefits of both accuracy-prioritized and privacy-prioritized methods and is able to unify them. More specifically, we show that by varying a single quantization parameter the proposed method can vary between SMPC-type performances and DP-type performances. Our results show the potential of exploiting traditional distributed signal processing tools for providing cryptographic guarantees. In addition to a comprehensive theoretical analysis, numerical validations are conducted to substantiate our results.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-13
# 交通のゼロ知識証明:協調知覚データに対する決定論的かつプライバシー保護的相互検証機構

Zero-Knowledge Proof of Traffic: A Deterministic and Privacy-Preserving Cross Verification Mechanism for Cooperative Perception Data ( http://arxiv.org/abs/2312.07948v1 )

ライセンス: Link先を確認
Ye Tao, Ehsan Javanmardi, Pengfei Lin, Jin Nakazato, Yuze Jiang, Manabu Tsukada, Hiroshi Esaki, (参考訳) インテリジェントトランスポートシステム(ITS)におけるコラボレーティブな自動走行車にとって、協調的な認識は重要であるが、車両が独立して目撃しない事象を検証できないため、認識データの信頼性を保証することは依然として困難である。 信頼に基づく統計手法や妥当性に基づく手法など、データの信頼性を確立するための様々な研究がなされている。 しかし、これらの手法は、過去の送信者行動や、認証を評価するための事前定義されたルールなどの事前知識を必要とするため、制限されている。 この制限を克服するために,ゼロ知識交通証明 (zk-PoT) と呼ばれる新しい手法を提案する。 同じ車両に関する複数の独立した証明は、基底的真理、確率的、あるいは確率的評価に頼らずに、どの受信機でも決定論的に相互検証することができる。 さらに、手順全体を通して個人情報が侵害されることはない。 zk-PoTの振る舞いを反映した完全な単体ソフトウェアスタックは、Flowsimと呼ばれる特別に設計されたシミュレータで実装されている。 その結果,zk-PoTの相互検証比率は80~96%であり,その80%は2秒で達成され,プロトコルオーバーヘッドは約25パーセントであることがわかった。 さらに, 様々な攻撃の分析から, 攻撃の大部分を防止でき, 共謀攻撃など一部の攻撃を軽減できることが示された。 提案手法は,欧州電気通信規格研究所 (ETSI) や国際標準化機構 (ISO) ITS など,後方互換性を損なうことなく既存の業務に組み込むことができる。

Cooperative perception is crucial for connected automated vehicles in intelligent transportation systems (ITSs); however, ensuring the authenticity of perception data remains a challenge as the vehicles cannot verify events that they do not witness independently. Various studies have been conducted on establishing the authenticity of data, such as trust-based statistical methods and plausibility-based methods. However, these methods are limited as they require prior knowledge such as previous sender behaviors or predefined rules to evaluate the authenticity. To overcome this limitation, this study proposes a novel approach called zero-knowledge Proof of Traffic (zk-PoT), which involves generating cryptographic proofs to the traffic observations. Multiple independent proofs regarding the same vehicle can be deterministically cross-verified by any receivers without relying on ground truth, probabilistic, or plausibility evaluations. Additionally, no private information is compromised during the entire procedure. A full on-board unit software stack that reflects the behavior of zk-PoT is implemented within a specifically designed simulator called Flowsim. A comprehensive experimental analysis is then conducted using synthesized city-scale simulations, which demonstrates that zk-PoT's cross-verification ratio ranges between 80 % to 96 %, and 80 % of the verification is achieved in 2 s, with a protocol overhead of approximately 25 %. Furthermore, the analyses of various attacks indicate that most of the attacks could be prevented, and some, such as collusion attacks, can be mitigated. The proposed approach can be incorporated into existing works, including the European Telecommunications Standards Institute (ETSI) and the International Organization for Standardization (ISO) ITS standards, without disrupting the backward compatibility.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-13
# フェデレーションクラスタリングのプライバシについて:暗号的視点

On the privacy of federated Clustering: A Cryptographic View ( http://arxiv.org/abs/2312.07992v1 )

ライセンス: Link先を確認
Qiongxiu Li, Lixia Luo, (参考訳) 連合クラスタリングにおけるプライバシーに関する懸念は、過去数十年でかなりの注目を集めている。 多くのプライバシ保存クラスタリングアルゴリズムは、ホモモルフィック暗号化やセキュアなマルチパーティ計算のような暗号技術を利用して、完全なプライバシを保証する。 しかし、クラスタリングアルゴリズムの反復性を考えると、セントロイドのような中間出力を一貫して暗号化し、効率を損なう。 本稿では,この複雑なトレードオフを考察し,反復アルゴリズムにおける連続暗号の必要性を疑問視する。 連合K平均クラスタリングを例として、中間セントロイドから入力されたプライベートデータを、秘密部分和問題 (HSSP) と呼ばれるNP完全問題 (SSP) から拡張した古典暗号問題として数学的に定式化する。 詳細な分析により,中間セントロイドの知識から,既存の格子型HSSP攻撃はプライベートデータの再構築に失敗していることを示す。 我々の知る限りでは、我々の研究は、具体的で厳密な分析を行うことのできる暗号化問題HSSPとして、フェデレートされたクラスタリングのプライバシに関する懸念を初めて提起するものである。

The privacy concern in federated clustering has attracted considerable attention in past decades. Many privacy-preserving clustering algorithms leverage cryptographic techniques like homomorphic encryption or secure multiparty computation, to guarantee full privacy, i.e., no additional information is leaked other than the final output. However, given the iterative nature of clustering algorithms, consistently encrypting intermediate outputs, such as centroids, hampers efficiency. This paper delves into this intricate trade-off, questioning the necessity of continuous encryption in iterative algorithms. Using the federated K-means clustering as an example, we mathematically formulate the problem of reconstructing input private data from the intermediate centroids as a classical cryptographic problem called hidden subset sum problem (HSSP)-extended from an NP-complete problem called subset sum problem (SSP). Through an in-depth analysis, we show that existing lattice-based HSSP attacks fail in reconstructing the private data given the knowledge of intermediate centroids, thus it is secure to reveal them for the sake of efficiency. To the best of our knowledge, our work is the first to cast federated clustering's privacy concerns as a cryptographic problem HSSP such that a concrete and rigorous analysis can be conducted.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-13
# SoK:非脆弱なトークンのセキュリティについて

SoK: On the Security of Non-Fungible Tokens ( http://arxiv.org/abs/2312.08000v1 )

ライセンス: Link先を確認
Kai Ma, Jintao Huang, Ningyu He, Zhuo Wang, Haoyu Wang, (参考訳) 非偽造トークン(NFT)はWeb3エコシステムの繁栄を促進する。 2023年11月までに、NFTプロジェクトの総市場価値は約160億米ドルに達した。 NFTの成功と相まって、様々なセキュリティ上の問題がある。 NFTは、業界と学術の両方から大きな注目を集めているが、NFTのセキュリティ問題に対する理解の欠如がある。 これらのセキュリティ問題の発見、詳細な分析、体系的な分類は、NFTエコシステムの繁栄に重要な意味を持つ。 2023年10月1日までに213件のセキュリティレポートと18の学術論文から142件のインシデントを特定した。 コンパイルされたセキュリティインシデントを手動で分析した結果,12のカテゴリに分類した。 そして、潜在的な解決策と緩和戦略を調査しました。 これらの分析から,最初のNFTセキュリティ参照フレームを構築した。 さらに,NFTのセキュリティ問題,すなわち有病率,重症度,難易度の特徴を抽出した。 我々は,NFTセキュリティのための産業と学院のギャップを示し,コミュニティにさらなる研究の方向性を提供してきた。 NFTのセキュリティの最初のSoKとして、NFTエコシステム内のセキュリティ問題について体系的に検討し、その根本原因、現実世界の攻撃、それに対処する潜在的方法について光を当てた。 今後のNFTセキュリティ研究に貢献する。

Non-fungible tokens (NFTs) drive the prosperity of the Web3 ecosystem. By November 2023, the total market value of NFT projects reached approximately 16 billion USD. Accompanying the success of NFTs are various security issues, i.e., attacks and scams are prevalent in the ecosystem. While NFTs have attracted significant attentions from both industry and academia, there is a lack of understanding of kinds of NFT security issues. The discovery, in-depth analysis, and systematic categorization of these security issues are of significant importance for the prosperous development of the NFT ecosystem. To fill the gap, we performed a systematic literature review related to NFT security, and we have identified 142 incidents from 213 security reports and 18 academic papers until October 1st, 2023. Through manual analysis of the compiled security incidents, we have classified them into 12 major categories. Then we explored potential solutions and mitigation strategies. Drawing from these analyses, we established the first NFT security reference frame. Except, we extracted the characteristics of NFT security issues, i.e., the prevalence, severity, and intractability. We have indicated the gap between industry and academy for NFT security, and provide further research directions for the community. This paper, as the first SoK of NFT security, has systematically explored the security issues within the NFT ecosystem, shedding light on their root causes, real-world attacks, and potential ways to address them. Our findings will contribute to the future research of NFT security.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-13
# Onion Routing and Mix Network Packet Format Sphinxのセキュリティ

Provable Security for the Onion Routing and Mix Network Packet Format Sphinx ( http://arxiv.org/abs/2312.08028v1 )

ライセンス: Link先を確認
Philip Scherer, Christiane Weis, Thorsten Strufe, (参考訳) オンオンルーティングとミックスネットワークは、インターネットへの匿名アクセスを提供するための基本的な概念である。 対応する様々なソリューションは、効率的なSphinxパケットフォーマットに依存している。 しかし、スフィンクスの根底にある証明戦略の欠陥が最近発見された。 したがって、Sphinxが実際にどのような保証を行っているのかは定かではなく、さらに悪いことに、適切な証明戦略が存在しない。 本稿では,Sphinxの理論的枠組みを構築することにより,これらすべての作業に対するセキュリティ基盤を復元する。 我々は、以前に使用されていたDDH仮定がセキュリティ証明に不十分であることを発見し、代わりにGap Diffie-Hellman(GDH)仮定が必要であることを示す。 我々は,GDHの仮定の下で,Sphinxパケットフォーマットの若干の適応バージョンがセキュアであることを証明するためにこれを適用した。 この方法でSphinxの詳細なセキュリティ証明を提供するのはこれが初めてです。 Sphinxへの当社の対応は必要です。送信者のプライバシーに対する攻撃で、そうでなければ不可能です。

Onion routing and mix networks are fundamental concepts to provide users with anonymous access to the Internet. Various corresponding solutions rely on the efficient Sphinx packet format. However, flaws in Sphinx's underlying proof strategy were found recently. It is thus currently unclear which guarantees Sphinx actually provides, and, even worse, there is no suitable proof strategy available. In this paper, we restore the security foundation for all these works by building a theoretical framework for Sphinx. We discover that the previously-used DDH assumption is insufficient for a security proof and show that the Gap Diffie-Hellman (GDH) assumption is required instead. We apply it to prove that a slightly adapted version of the Sphinx packet format is secure under the GDH assumption. Ours is the first work to provide a detailed, in-depth security proof for Sphinx in this manner. Our adaptations to Sphinx are necessary, as we demonstrate with an attack on sender privacy that would be possible otherwise.
翻訳日:2024-03-18 12:17:07 公開日:2023-12-13
# Recursive Augmented Fernet (RAF) Token:reeviating the Pain of Stolen Tokens

Recursive Augmented Fernet (RAF) Token: Alleviating the Pain of Stolen Tokens ( http://arxiv.org/abs/2312.08086v1 )

ライセンス: Link先を確認
Reza Rahaeimehr, Marten van Dijk, (参考訳) 堅牢な認証と承認のメカニズムは、モジュラリティとモジュラー思考が重要なモジュラーシステム開発において不可欠である。 従来のシステムでは認証とトークン発行に責任を持つアイデンティティモジュールを用いることが多い。 トークンは、ユーザ認証を表すもので、パスワードへの依存の軽減、寿命制限、スコープアクセスといった利点を提供する。 これらの利点にもかかわらず、"ベアラートークン"問題は持続し、トークンが侵害された場合、システムは悪用に弱いままになる。 本稿では,モジュールシステムのクリティカルベアリングトークン問題に対処するトークンベースの認証機構を提案する。 提案機構は、新しいRAF(Recursive Augmented Fernet)トークン、ブラックリストコンポーネント、ポリシー強制コンポーネントを含む。 RAFトークンは、チケットのようなワンタイムトークンである。 それらはコマンドを持ち、RAFトークンの受信者は、受信したRAFトークンを使用して新しいトークンを発行することができる。 ブラックリストコンポーネントは、RAFトークンが一度以上承認されないことを保証し、ポリシー執行者はRAFトークンによって実行されるコマンドの互換性をチェックする。 単純性と互換性を提供するユーザタイドRAFと、サービス固有のシークレットキーによるセキュリティ強化を提供するフルタイドRAFの2つのバリエーションを紹介します。 我々は,ゲームベースの証明によって裏打ちされたRAFトークンのセキュリティ保証,技術的定義,構成について,徹底的に議論する。 我々は、Keystoneの変更とRAFTライブラリの作成を含む、OpenStackのコンテキストにおける概念実証を実証する。 実験の結果、典型的なシナリオでは最小限のオーバーヘッドが示され、RAFの実用性と有効性を確立した。 我々の実験では、RAF機構が短命のFernetトークンを使用するというアイデアを破り、より優れたセキュリティを提供することを示した。

A robust authentication and authorization mechanism is imperative in modular system development, where modularity and modular thinking are pivotal. Traditional systems often employ identity modules responsible for authentication and token issuance. Tokens, representing user credentials, offer advantages such as reduced reliance on passwords, limited lifespan, and scoped access. Despite these benefits, the "bearer token" problem persists, leaving systems vulnerable to abuse if tokens are compromised. We propose a token-based authentication mechanism addressing modular systems' critical bearer token problem. The proposed mechanism includes a novel RAF (Recursive Augmented Fernet) token, a blacklist component, and a policy enforcer component. RAF tokens are one-time-use tokens, like tickets. They carry commands, and the receiver of an RAF token can issue new tokens using the received RAF token. The blacklist component guarantees an RAF token can not be approved more than once, and the policy enforcer checks the compatibility of commands carried by an RAF token. We introduce two variations of RAF tokens: User-tied RAF, offering simplicity and compatibility, and Fully-tied RAF, providing enhanced security through service-specific secret keys. We thoroughly discuss the security guarantees, technical definitions, and construction of RAF tokens backed by game-based proofs. We demonstrate a proof of concept in the context of OpenStack, involving modifications to Keystone and creating an RAFT library. The experimental results reveal minimal overhead in typical scenarios, establishing the practicality and effectiveness of RAF. Our experiments show that the RAF mechanism beats the idea of using short-life Fernet tokens while providing much better security.
翻訳日:2024-03-18 12:17:07 公開日:2023-12-13
# スマートメータのセキュリティ面:分析と防止

Security aspects in Smart Meters: Analysis and Prevention ( http://arxiv.org/abs/2312.08101v1 )

ライセンス: Link先を確認
Rebeca P. Díaz Redondo, Ana Fernández Vilas, Gabriel Fernández dos Reis, (参考訳) Smartmeterは、いわゆるSmart Gridの基本要素のひとつだ。 インターネットに接続されたこれらのデバイスは、リモート読み取りとメンテナンスを可能にするスマートグリッド構造内の他のデバイスとの双方向通信を維持する。 ネットワークに接続された他のデバイスと同様に、スマートメーターはデータ盗難や読み取り変更など、さまざまな目的の攻撃に対して脆弱になる。 今日では、エネルギープロバイダが設置したスマートメーターの購入・プラグ・アンド・プレイがますます普及し、家庭内でのエネルギー消費を直接監視するようになっている。 このオプションは本質的に、世帯の責任を負うセキュリティリスクを伴っている。 本稿では,Smartpi 2.0 デバイスを2つの目的を持ったオープンソリューションに焦点をあてる。 一方,家庭内のデータ(エネルギー)を交換するためのネットワーク構成と異なるデータフローを提案する。 これらのフローは、外部からの攻撃やデータの破損を防ぐために、デバイス間の協調をサポートするように設計されている。 一方,マルウェアを用いて2種類の攻撃(サービスの否定とデータの盗難と変更)を行うことで,脆弱性をチェックする。 予想通り、これらのデバイスはこれらの攻撃に対して脆弱であるが、協調技術を適用して、これらの攻撃を検知し、解決するためのメカニズムを提供する。

Smart meters are of the basic elements in the so-called Smart Grid. These devices, connected to the Internet, keep bidirectional communication with other devices in the Smart Grid structure to allow remote readings and maintenance. As any other device connected to a network, smart meters become vulnerable to attacks with different purposes, like stealing data or altering readings. Nowadays, it is becoming more and more popular to buy and plug-and-play smart meters, additionally to those installed by the energy providers, to directly monitor the energy consumption at home. This option inherently entails security risks that are under the responsibility of householders. In this paper, we focus on an open solution based on Smartpi 2.0 devices with two purposes. On the one hand, we propose a network configuration and different data flows to exchange data (energy readings) in the home. These flows are designed to support collaborative among the devices in order to prevent external attacks and attempts of corrupting the data. On the other hand, we check the vulnerability by performing two kind of attacks (denial of service and stealing and changing data by using a malware). We conclude that, as expected, these devices are vulnerable to these attacks, but we provide mechanisms to detect both of them and to solve, by applying cooperation techniques
翻訳日:2024-03-18 12:17:07 公開日:2023-12-13
# OKpi: メモリアクセスのローカリティを爆発させるセキュアな推測のための軽量アーキテクチャ

Okapi: A Lightweight Architecture for Secure Speculation Exploiting Locality of Memory Accesses ( http://arxiv.org/abs/2312.08156v1 )

ライセンス: Link先を確認
Philipp Schmitz, Tobias Jauch, Alex Wezel, Mohammad R. Fadiheh, Thore Tiemann, Jonah Heller, Thomas Eisenbarth, Dominik Stoffel, Wolfgang Kunz, (参考訳) 本稿では,現代のコンピューティングシステムにおいて,過渡的実行側チャネル(TES)攻撃を緩和するために設計された,ハードウェア/ソフトウェアクロスレイヤアーキテクチャであるOkapiを紹介する。 OKpiの重要なコントリビューションは、パフォーマンスとセキュリティのトレードオフを提供するために、相互に構築されたセキュリティ機能である。 コアとなるOkapiは、ターゲットのメモリ領域が、同じ信頼ドメインで以前に非投機的にアクセスされていた場合、投機的なデータアクセスを可能にする。 憶測が解決するまで、最初のアクセスを遅らせる。 Okapiは、セキュリティ実装の柔軟性で際立っている。 厳しいセキュリティニーズの少ない環境では、パフォーマンスのオーバーヘッドをなくすためにOkapiの機能を無効にすることができる。 アクティベートされると、ハードウェアの変更だけで、Spectre-PHTやSpectre-BTBといった一般的な読み出しガジェットを含む、スレッドレベルの粒度の過度な実行攻撃に対して堅牢な保護を提供する。 これによりSPEC CPU2017ベンチマークスイートでは平均的なパフォーマンスオーバーヘッドは3.6パーセントに過ぎなかった。 さらにOkapiは、ソフトウェアレベルのセキュリティサポートを追加するために、OkapiReset命令を導入している。 この命令は、開発者が手動で挿入したり、コンパイラ拡張を通じて自動的に行うことができ、完全にセキュアな推測とスレッドよりも小さな信頼ドメインサイズを可能にします。 OKpiResetを手動で挿入するとパフォーマンスのオーバーヘッドが0.6%増えるが、自動コンパイラ拡張アプローチは暗号化ライブラリを完全にセキュアにする上で23.1%のオーバーヘッドをもたらす。 ハードウェアオーバーヘッドの約0.4%で、オカピは最先端のプロセッサ設計における安全な推測のために、高度にスケーラブルで適応可能なソリューションを提供する。

This paper introduces Okapi, an innovative hardware/software cross-layer architecture designed to mitigate Transient Execution Side Channel (TES) attacks, including Spectre variants, in modern computing systems. A key contribution of Okapi is a set of security features building upon each other to offer various trade-offs between performance and security. At its core, Okapi allows for speculative data accesses if the targeted memory region has already been accessed non-speculatively before in the same trust domain. It delays first-time accesses until the speculation is resolved. Okapi stands out for its flexibility in security implementation. For environments with less stringent security needs, Okapi's features can be deactivated to eliminate performance overhead. When activated, the hardware modifications alone provide robust protection against transient execution attacks at a thread-level granularity, including all universal read gadgets like Spectre-PHT and Spectre-BTB. This incurs an average performance overhead of only 3.6 % for the SPEC CPU2017 benchmark suite. On top, Okapi introduces the OkapiReset instruction for additional software-level security support. This instruction, which can be manually inserted by developers or automatically via a compiler extension, allows for fully secure speculation and for trust domain sizes smaller than a thread. While the manual insertion of OkapiReset incurs an additional 0.6 % performance overhead, the automated compiler extension approach results in a 23.1 % overhead for making a cryptographic library fully secure. With an approximate 0.4 % hardware overhead, Okapi provides a highly scalable and adaptable solution for secure speculation in state-of-the-art processor design.
翻訳日:2024-03-18 12:17:07 公開日:2023-12-13
# 医療機器のインターネットにおけるウェアラブルデバイスのセキュリティ評価に向けて

Towards Evaluating the Security of Wearable Devices in the Internet of Medical Things ( http://arxiv.org/abs/2312.08160v1 )

ライセンス: Link先を確認
Yas Vaseghi, Behnaz Behara, Mehdi Delrobaei, (参考訳) インターネット・オブ・メディカル・モノ(IoMT)は、患者の健康を改善し、ヒューマンエラーを減らすための有望なソリューションを提供する。 医療を正確に管理し、電子健康記録と統合するウェアラブルスマート注入ポンプは、医療を改善する技術の一例である。 運用障害時に医療専門家やリモートサーバに警告することも可能だ。 しかし、接続医療機器の数が増加するにつれて、サイバー脅威の危険性も高まる。 患者の体に取り付けられたIoTに基づくウェアラブル医療機器は、重大なサイバー脅威を引き起こす傾向がある。 インターネットに接続されていることによって、これらのデバイスは潜在的に有害になり、デバイスの性能を損なったり劣化させたり、患者を害したりする可能性がある。 患者の安全と幸福を確保するためには、インターネットに接続された医療機器のセキュアなデータ認証を確立することが不可欠である。 また、そのようなデバイスの装着性オプションが計算リソースをダウングレードし、セキュリティリスクにより敏感になる可能性がある点にも注意が必要だ。 本稿では,ウェアラブル注入ポンプに対するセキュリティアプローチを実装した。 セキュリティ対応デバイスの実装における実践的課題について議論し、サイバー脅威を軽減するための初期解決策を提案する。

The Internet of Medical Things (IoMT) offers a promising solution to improve patient health and reduce human error. Wearable smart infusion pumps that accurately administer medication and integrate with electronic health records are an example of technology that can improve healthcare. They can even alert healthcare professionals or remote servers during operational failure, preventing distressing incidents. However, as the number of connected medical devices increases, the risk of cyber threats also increases. Wearable medication devices based on IoT attached to patients' bodies are prone to significant cyber threats. Being connected to the Internet exposes these devices to potential harm, which could disrupt or degrade device performance and harm patients. To ensure patient safety and well-being, it is crucial to establish secure data authentication for internet-connected medical devices. It is also important to note that the wearability option of such devices might downgrade the computational resources, making them more susceptible to security risks. This paper implements a security approach to a wearable infusion pump. We discuss practical challenges in implementing security-enabled devices and propose initial solutions to mitigate cyber threats.
翻訳日:2024-03-18 12:17:07 公開日:2023-12-13
# DiffuseRAW:低照度画像のためのエンドツーエンド生成RAW画像処理

DiffuseRAW: End-to-End Generative RAW Image Processing for Low-Light Images ( http://arxiv.org/abs/2402.18575v1 )

ライセンス: Link先を確認
Rishit Dagli, (参考訳) 極低照度条件下での撮像は重要な課題であり,光子捕獲の最小化による信号対雑音比(SNR)の低下が問題となっている。 これまで、拡散モデルは複数の生成タスクやイメージ・ツー・イメージタスクに用いられてきたが、これらのモデルは後処理のステップとして機能する。 これらの拡散モデルは、処理された画像に基づいて訓練され、処理された画像から学習される。 しかし、このようなアプローチは極端に低照度なタスクには適していないことが多い。 低照度画像強調やイメージ・ツー・イメージ強調のタスクとは異なり、RAW画像から処理画像まで、画像処理パイプライン全体を学ぶタスクに取り組む。 このタスクでは、従来の画像処理パイプラインは、ダウンストリームタスクに過度に依存する複数の特別な部分で構成されていることが多い。 これらとは違って、RAW画像上の微調整潜時拡散モデルと、大規模テキスト・画像生成モデルからの先行画像の適応化を可能にする処理された長時間露光画像を生成する新しい生成ISPを開発する。 我々は、有望な結果が得られ、See-in-Dark(SID)データセットに新しいSoTAを設定する、人気のあるエンドツーエンドの低照度データセットに対するアプローチを評価した。 さらに、本研究により、RAWデータにおける、より生成的で拡散的な画像処理や他の問題への道を開いたいと考えています。

Imaging under extremely low-light conditions presents a significant challenge and is an ill-posed problem due to the low signal-to-noise ratio (SNR) caused by minimal photon capture. Previously, diffusion models have been used for multiple kinds of generative tasks and image-to-image tasks, however, these models work as a post-processing step. These diffusion models are trained on processed images and learn on processed images. However, such approaches are often not well-suited for extremely low-light tasks. Unlike the task of low-light image enhancement or image-to-image enhancement, we tackle the task of learning the entire image-processing pipeline, from the RAW image to a processed image. For this task, a traditional image processing pipeline often consists of multiple specialized parts that are overly reliant on the downstream tasks. Unlike these, we develop a new generative ISP that relies on fine-tuning latent diffusion models on RAW images and generating processed long-exposure images which allows for the apt use of the priors from large text-to-image generation models. We evaluate our approach on popular end-to-end low-light datasets for which we see promising results and set a new SoTA on the See-in-Dark (SID) dataset. Furthermore, with this work, we hope to pave the way for more generative and diffusion-based image processing and other problems on RAW data.
翻訳日:2024-03-18 06:49:31 公開日:2023-12-13
# デジタル・計算病理学のための人工知能

Artificial Intelligence for Digital and Computational Pathology ( http://arxiv.org/abs/2401.06148v1 )

ライセンス: Link先を確認
Andrew H. Song, Guillaume Jaume, Drew F.K. Williamson, Ming Y. Lu, Anurag Vaidya, Tiffany R. Miller, Faisal Mahmood(参考訳) 組織スライドのデジタル化の進展とディープラーニングを含む人工知能の急速な進歩は、計算病理学の分野を加速させた。 この分野は、臨床診断を自動化し、患者の予後と治療に対する反応を予測し、組織画像から新しい形態的バイオマーカーを見つけるという大きな可能性を秘めている。 これらの人工知能ベースのシステムのいくつかは、現在臨床診断を支援するために承認されているが、技術上の障壁は、広く臨床採用され、研究ツールとしての統合のために残っている。 本総説は, 臨床検査の自動化と新しいバイオマーカーの発見を両立させる手法として, 臨床の終点予測の方法論的進歩を概説するものである。 そして、この分野がより多様な臨床データのモダリティを持つ幅広い臨床および研究タスクに展開するにつれて、将来的な展望を提供する。

Advances in digitizing tissue slides and the fast-paced progress in artificial intelligence, including deep learning, have boosted the field of computational pathology. This field holds tremendous potential to automate clinical diagnosis, predict patient prognosis and response to therapy, and discover new morphological biomarkers from tissue images. Some of these artificial intelligence-based systems are now getting approved to assist clinical diagnosis; however, technical barriers remain for their widespread clinical adoption and integration as a research tool. This Review consolidates recent methodological advances in computational pathology for predicting clinical end points in whole-slide images and highlights how these developments enable the automation of clinical practice and the discovery of new biomarkers. We then provide future perspectives as the field expands into a broader range of clinical and research tasks with increasingly diverse modalities of clinical data.
翻訳日:2024-01-22 13:05:58 公開日:2023-12-13
# 教師なしグラフを用いた6gサブネットワークにおけるサブバンド割り当て学習法

Unsupervised Graph-based Learning Method for Sub-band Allocation in 6G Subnetworks ( http://arxiv.org/abs/2401.00950v1 )

ライセンス: Link先を確認
Daniel Abode, Ramoni Adeogun, Lou Sala\"un, Renato Abreu, Thomas Jacobsen, Gilberto Berardinelli(参考訳) 本稿では,グラフ学習を用いた無線ネットワークにおける周波数サブバンド割り当ての教師なし手法を提案する。 サブネットワーク間干渉の調整に最適に割り当てなければならないサブバンドの数が少ない工場環境におけるサブネットワークの密配置について考察する。 サブネットワーク配置をコンフリクトグラフとしてモデル化し,グラフカラーヒューリスティックとポッツモデルにインスパイアされた教師なし学習アプローチを提案し,グラフニューラルネットワークを用いたサブバンド割り当てを最適化する。 数値評価により,提案手法は,計算時間の複雑度が低い集中グリーディーカラー化サブバンド割り当てヒューリスティックに密接な性能を実現することを示す。 さらに、全ての相互干渉チャネル情報を必要とする反復的最適化ヒューリスティックと比べて信号のオーバーヘッドを低減させる。 さらに,本手法は異なるネットワーク設定に対して堅牢であることを示す。

In this paper, we present an unsupervised approach for frequency sub-band allocation in wireless networks using graph-based learning. We consider a dense deployment of subnetworks in the factory environment with a limited number of sub-bands which must be optimally allocated to coordinate inter-subnetwork interference. We model the subnetwork deployment as a conflict graph and propose an unsupervised learning approach inspired by the graph colouring heuristic and the Potts model to optimize the sub-band allocation using graph neural networks. The numerical evaluation shows that the proposed method achieves close performance to the centralized greedy colouring sub-band allocation heuristic with lower computational time complexity. In addition, it incurs reduced signalling overhead compared to iterative optimization heuristics that require all the mutual interfering channel information. We further demonstrate that the method is robust to different network settings.
翻訳日:2024-01-15 12:18:24 公開日:2023-12-13
# 拡散モデルにおける注意マップの再利用による高速推論

Fast Inference Through The Reuse Of Attention Maps In Diffusion Models ( http://arxiv.org/abs/2401.01008v1 )

ライセンス: Link先を確認
Rosco Hunter, {\L}ukasz Dudziak, Mohamed S. Abdelfattah, Abhinav Mehrotra, Sourav Bhattacharya, Hongkai Wen(参考訳) テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成における前例のない能力を示している。 しかし、単一の画像を生成するのに必要な反復的なプロセスはコストがかかり、高いレイテンシが伴うため、研究者はその効率をさらに調査する必要がある。 通常、レイテンシの改善は、(1)知識蒸留(KD)によるより小さなモデルのトレーニング、(2)より大きなステップサイズを促進するためにODE理論の手法を採用する2つの方法で達成されている。 対照的に,本研究では,サンプルのステップサイズを変えない学習自由アプローチを提案する。 具体的には、注意マップの繰り返し計算はコストと冗長性の両方を考慮し、サンプリング中の注意マップの構造化再利用を提案する。 我々の初期再利用政策は初歩的なODE理論によって動機付けられており、サンプリング手順の後半には再利用が最も適していることが示唆されている。 この理論的なアプローチで多くの制限を指摘した後、私たちは経験的により良いポリシーを探します。 KDに依存する方法とは異なり、我々の再利用ポリシーはプラグアンドプレイ方式で様々な設定に容易に適応できる。 さらに,stable diffusion-1.5に適用することで,サンプル品質への影響を最小限に抑えることができる。

Text-to-image diffusion models have demonstrated unprecedented abilities at flexible and realistic image synthesis. However, the iterative process required to produce a single image is costly and incurs a high latency, prompting researchers to further investigate its efficiency. Typically, improvements in latency have been achieved in two ways: (1) training smaller models through knowledge distillation (KD); and (2) adopting techniques from ODE-theory to facilitate larger step sizes. In contrast, we propose a training-free approach that does not alter the step-size of the sampler. Specifically, we find the repeated calculation of attention maps to be both costly and redundant; therefore, we propose a structured reuse of attention maps during sampling. Our initial reuse policy is motivated by rudimentary ODE-theory, which suggests that reuse is most suitable late in the sampling procedure. After noting a number of limitations in this theoretical approach, we empirically search for a better policy. Unlike methods that rely on KD, our reuse policies can easily be adapted to a variety of setups in a plug-and-play manner. Furthermore, when applied to Stable Diffusion-1.5, our reuse policies reduce latency with minimal repercussions on sample quality.
翻訳日:2024-01-15 10:06:10 公開日:2023-12-13
# 多レベルドメインアライメントによる睡眠ステージングの一般化

Generalizable Sleep Staging via Multi-level Domain Alignment ( http://arxiv.org/abs/2401.05363v1 )

ライセンス: Link先を確認
Jiquan Wang, Sha Zhao, Haiteng Jiang, Shijian Li, Tao Li, Gang Pan(参考訳) 自動睡眠ステージングは睡眠アセスメントと障害診断に不可欠である。 既存のほとんどのメソッドは、特定のデータセットに依存しており、トレーニングデータとテストデータが同じデータセットから得られる、他の見えないデータセットに一般化するように制限されている。 本稿では,自動睡眠ステージングにドメイン一般化を導入し,データセットを認識不能にするためのモデル一般化能力の向上を目的とした一般化睡眠ステージングのタスクを提案する。 既存の領域一般化手法に着想を得て,機能アライメントの考え方を採用し,SleepDGと呼ばれるフレームワークを提案する。 睡眠のステージングには,局所的特徴と逐次的特徴の両方が重要であることを考慮し,エポックレベルとシーケンスレベルの特徴アライメントを組み合わせたマルチレベル特徴アライメントを提案し,ドメイン不変特徴表現を学習する。 具体的には,各単一睡眠期間の特徴分布を異なるドメイン間で調整するエポックレベル機能アライメントと,異なるドメイン間の逐次的特徴の差を最小限に抑えるシーケンスレベル機能アライメントを設計した。 SleepDGは5つの公開データセットで検証され、最先端のパフォーマンスを達成する。

Automatic sleep staging is essential for sleep assessment and disorder diagnosis. Most existing methods depend on one specific dataset and are limited to be generalized to other unseen datasets, for which the training data and testing data are from the same dataset. In this paper, we introduce domain generalization into automatic sleep staging and propose the task of generalizable sleep staging which aims to improve the model generalization ability to unseen datasets. Inspired by existing domain generalization methods, we adopt the feature alignment idea and propose a framework called SleepDG to solve it. Considering both of local salient features and sequential features are important for sleep staging, we propose a Multi-level Feature Alignment combining epoch-level and sequence-level feature alignment to learn domain-invariant feature representations. Specifically, we design an Epoch-level Feature Alignment to align the feature distribution of each single sleep epoch among different domains, and a Sequence-level Feature Alignment to minimize the discrepancy of sequential features among different domains. SleepDG is validated on five public datasets, achieving the state-of-the-art performance.
翻訳日:2024-01-15 08:56:51 公開日:2023-12-13
# dualteacher:半教師付きインクリメンタルオブジェクト検出のためのラベルなしクラスの共存

DualTeacher: Bridging Coexistence of Unlabelled Classes for Semi-supervised Incremental Object Detection ( http://arxiv.org/abs/2401.05362v1 )

ライセンス: Link先を確認
Ziqi Yuan, Liyuan Wang, Wenbo Ding, Xingxing Zhang, Jiachen Zhong, Jianyong Ai, Jianmin Li, Jun Zhu(参考訳) 実世界のアプリケーションでは、オブジェクト検出器は、しばしば新しいクラスからオブジェクトインスタンスに遭遇し、それらを効果的に対応する必要がある。 以前の作業では、この重要な問題をインクリメンタルオブジェクト検出(IOD)として定式化しており、新しいクラスのオブジェクトインスタンスがインクリメンタルデータで完全に注釈付けされていると仮定している。 しかし、監視信号は通常稀で高価であるため、管理されたIODは実装に実用的ではないかもしれない。 本研究では,より現実的な半教師付きIOD (SSIOD) について考察する。そこでは,オブジェクト検出器は,古いクラスを破滅的に忘れることなく,ラベル付きデータと大量の未ラベルデータから,新たなクラスを段階的に学習する必要がある。 教師付きIODの一般的な戦略は、現在のモデル(学生として)が(教師として)古いモデルの振る舞いを模倣するように促すことであるが、SSIODでは、古いクラスと新しいクラスのオブジェクトインスタンスの圧倒的多数が共存しており、教師がその一部しか認識していないため、一般的に失敗する。 興味のあるクラスのみを学ぶことは、他のクラスの検出を妨げる傾向があることを観察し、古クラスと新クラスにそれぞれ2つの教師モデルを構築し、その予測を結合して生徒に指導することにより、ラベルなしの授業の共存を橋渡しすることを提案する。 このアプローチはDualTeacherと呼ばれ、リソースオーバーヘッドが限られ、余分なハイパーパラメータがないSSIODの強力なベースラインとして機能する。 我々は、SSIODの様々なベンチマークを構築し、我々のアプローチの優位性を示す広範囲な実験を行う(例えば、MS-COCO上では18.28 APまで性能がリードする)。 我々のコードは \url{https://github.com/chuxiuhong/DualTeacher} で入手できる。

In real-world applications, an object detector often encounters object instances from new classes and needs to accommodate them effectively. Previous work formulated this critical problem as incremental object detection (IOD), which assumes the object instances of new classes to be fully annotated in incremental data. However, as supervisory signals are usually rare and expensive, the supervised IOD may not be practical for implementation. In this work, we consider a more realistic setting named semi-supervised IOD (SSIOD), where the object detector needs to learn new classes incrementally from a few labelled data and massive unlabelled data without catastrophic forgetting of old classes. A commonly-used strategy for supervised IOD is to encourage the current model (as a student) to mimic the behavior of the old model (as a teacher), but it generally fails in SSIOD because a dominant number of object instances from old and new classes are coexisting and unlabelled, with the teacher only recognizing a fraction of them. Observing that learning only the classes of interest tends to preclude detection of other classes, we propose to bridge the coexistence of unlabelled classes by constructing two teacher models respectively for old and new classes, and using the concatenation of their predictions to instruct the student. This approach is referred to as DualTeacher, which can serve as a strong baseline for SSIOD with limited resource overhead and no extra hyperparameters. We build various benchmarks for SSIOD and perform extensive experiments to demonstrate the superiority of our approach (e.g., the performance lead is up to 18.28 AP on MS-COCO). Our code is available at \url{https://github.com/chuxiuhong/DualTeacher}.
翻訳日:2024-01-15 08:56:31 公開日:2023-12-13
# 構造的推論課題におけるGPT4-Vの評価

Assessing GPT4-V on Structured Reasoning Tasks ( http://arxiv.org/abs/2312.11524v1 )

ライセンス: Link先を確認
Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Gust Verbruggen(参考訳) マルチモダリティは、大規模言語モデルのさらなる使用を解放することを約束する。 近年、最先端言語モデルgpt-4が視覚機能で強化された。 我々は、数学的推論、視覚データ分析、コード生成などの構造化推論タスクにおいて、GPT-4Vや他の5つのベースラインの迅速な評価を行う。 マルチモーダルllmへのチェーン・オブ・マインドの拡張であるビジュアル・チェーン・オブ・マインド(visual chain-of-thought)はバニラモデルを大きく改善する。 また,これらのモデルをうまく動作させるシナリオの分類分析を行い,コヒーレントなマルチモーダル推論に関わる課題を強調した。

Multi-modality promises to unlock further uses for large language models. Recently, the state-of-the-art language model GPT-4 was enhanced with vision capabilities. We carry out a prompting evaluation of GPT-4V and five other baselines on structured reasoning tasks, such as mathematical reasoning, visual data analysis, and code generation. We show that visual Chain-of-Thought, an extension of Chain-of-Thought to multi-modal LLMs, yields significant improvements over the vanilla model. We also present a categorized analysis of scenarios where these models perform well and where they struggle, highlighting challenges associated with coherent multimodal reasoning.
翻訳日:2023-12-31 03:58:14 公開日:2023-12-13
# ToViLaG:Visual-Language生成モデルも悪役

ToViLaG: Your Visual-Language Generative Model is Also An Evildoer ( http://arxiv.org/abs/2312.11523v1 )

ライセンス: Link先を確認
Xinpeng Wang, Xiaoyuan Yi, Han Jiang, Shanlin Zhou, Zhihua Wei, Xing Xie(参考訳) 警告:本論文は攻撃的コンテンツを示すモデル出力を含む。 近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。 しかし、これらのモデルは攻撃的なテキストやポルノ画像などの有害なコンテンツも生成し、重大な倫理的リスクを引き起こす可能性がある。 言語モデルの有害な変性に関する徹底的な研究にもかかわらず、この問題は視覚言語生成の文脈でほとんど未解決のままである。 この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。 この目的のために,32kの共毒・単毒のテキスト画像対と,毒性を刺激する1kの無害だが挑発的なテキストからなるデータセットtovilagを構築した。 さらに、視覚言語生成に適した新しい毒性指標WInToReを提案し、入力と出力の両方を考慮した毒性の異なる側面を理論的に反映する。 そこで本研究では,様々な種類のVLGMの毒性をベンチマークし,VLGMの解毒の必要性を強調し,感染に弱いモデルもあれば,予想以上に悪を行うモデルもあることを示した。 そこで我々は,革新的なボトルネックに基づくデトキシフィケーション手法を開発した。 本手法は, 生成品質を同等に保ちながら毒性を低減し, この研究に期待できる最初の解決策を提供する。

Warning: this paper includes model outputs showing offensive content. Recent large-scale Visual-Language Generative Models (VLGMs) have achieved unprecedented improvement in multimodal image/text generation. However, these models might also generate toxic content, e.g., offensive text and pornography images, raising significant ethical risks. Despite exhaustive studies on toxic degeneration of language models, this problem remains largely unexplored within the context of visual-language generation. This work delves into the propensity for toxicity generation and susceptibility to toxic data across various VLGMs. For this purpose, we built ToViLaG, a dataset comprising 32K co-toxic/mono-toxic text-image pairs and 1K innocuous but evocative text that tends to stimulate toxicity. Furthermore, we propose WInToRe, a novel toxicity metric tailored to visual-language generation, which theoretically reflects different aspects of toxicity considering both input and output. On such a basis, we benchmarked the toxicity of a diverse spectrum of VLGMs and discovered that some models do more evil than expected while some are more vulnerable to infection, underscoring the necessity of VLGMs detoxification. Therefore, we develop an innovative bottleneck-based detoxification method. Our method could reduce toxicity while maintaining comparable generation quality, providing a promising initial solution to this line of research.
翻訳日:2023-12-31 03:57:56 公開日:2023-12-13
# シンボリックグラウンド問題を解決するSATNetの能力の評価

Assessing SATNet's Ability to Solve the Symbol Grounding Problem ( http://arxiv.org/abs/2312.11522v1 )

ライセンス: Link先を確認
Oscar Chang, Lampros Flokas, Hod Lipson, Michael Spranger(参考訳) SATNetは、論理ルールの推論に使用でき、ディープニューラルネットワークの微分可能な層として統合される、賞を受賞したMAXSATソルバである。 パズルの桁画像の例からスドゥークパズルを視覚的に解くことが示され、パターン認識と論理的推論を組み合わせるという長年のAIの目標に対する印象的な成果として賞賛された。 本稿では,個々のsudoku digitイメージを論理表現で識別する中間ラベルが存在しない場合,satnetが完全にビジュアルsudoku(0%テスト精度)で失敗することを示すことにより,satnetの能力を明らかにする。 より一般的には、この失敗は知覚現象に記号を割り当てることのできないこと、あるいは記号基底問題(英: symbol grounding problem)として知られており、知的エージェントが現実世界の論理的推論を行うための前提条件と考えられてきた。 そこで本研究では, MNIST に基づく検定をシンボル基底問題の簡単な例として提案し, 一般の微分可能な記号解法に対する正当性チェックとして機能する。 SATNetをこのテストに適用すると、論理的推論能力のないモデルよりもパフォーマンスが悪くなります。 SATNetの障害の原因と対策について報告する。

SATNet is an award-winning MAXSAT solver that can be used to infer logical rules and integrated as a differentiable layer in a deep neural network. It had been shown to solve Sudoku puzzles visually from examples of puzzle digit images, and was heralded as an impressive achievement towards the longstanding AI goal of combining pattern recognition with logical reasoning. In this paper, we clarify SATNet's capabilities by showing that in the absence of intermediate labels that identify individual Sudoku digit images with their logical representations, SATNet completely fails at visual Sudoku (0% test accuracy). More generally, the failure can be pinpointed to its inability to learn to assign symbols to perceptual phenomena, also known as the symbol grounding problem, which has long been thought to be a prerequisite for intelligent agents to perform real-world logical reasoning. We propose an MNIST based test as an easy instance of the symbol grounding problem that can serve as a sanity check for differentiable symbolic solvers in general. Naive applications of SATNet on this test lead to performance worse than that of models without logical reasoning capabilities. We report on the causes of SATNet's failure and how to prevent them.
翻訳日:2023-12-31 03:56:55 公開日:2023-12-13
# 大規模言語モデルは複雑なテーブルパーザである

Large Language Models are Complex Table Parsers ( http://arxiv.org/abs/2312.11521v1 )

ライセンス: Link先を確認
Bowen Zhao, Changkai Ji, Yuejie Zhang, Wen He, Yingwen Wang, Qing Wang, Rui Feng, Xiaobo Zhang(参考訳) Generative Pre-trained Transformer 3.5 (GPT-3.5)は自然言語処理(NLP)において顕著な推論能力と理解能力を示しており、ほとんどの質問応答(QA)研究はGPTに基づく一般的なQAタスクを中心に行われており、複雑な表QAがもたらす課題を無視している。 本稿では,複雑なテーブルをタプルに再構成し,対話に具体的プロンプトデザインを適用するgpt-3.5を提案する。 具体的には,各セルの階層構造,位置情報,内容などをタプルとしてエンコードする。 各タプルの意味とタスクの論理的推論過程を説明的に記述することで、プロンプトテンプレートを強化し、gpt-3.5の階層構造認識能力を効果的に改善し、複雑な表をよりよく解析する。 複合テーブルQAデータセット、すなわち、オープンドメインデータセットHiTABと航空ドメインデータセットAIT-QAの広範な実験と結果から、我々のアプローチは両方のデータセットに対する以前の作業よりも大幅に優れており、SOTA(State-of-the-art)パフォーマンスにつながっていることが分かる。

With the Generative Pre-trained Transformer 3.5 (GPT-3.5) exhibiting remarkable reasoning and comprehension abilities in Natural Language Processing (NLP), most Question Answering (QA) research has primarily centered around general QA tasks based on GPT, neglecting the specific challenges posed by Complex Table QA. In this paper, we propose to incorporate GPT-3.5 to address such challenges, in which complex tables are reconstructed into tuples and specific prompt designs are employed for dialogues. Specifically, we encode each cell's hierarchical structure, position information, and content as a tuple. By enhancing the prompt template with an explanatory description of the meaning of each tuple and the logical reasoning process of the task, we effectively improve the hierarchical structure awareness capability of GPT-3.5 to better parse the complex tables. Extensive experiments and results on Complex Table QA datasets, i.e., the open-domain dataset HiTAB and the aviation domain dataset AIT-QA show that our approach significantly outperforms previous work on both datasets, leading to state-of-the-art (SOTA) performance.
翻訳日:2023-12-31 03:56:16 公開日:2023-12-13
# look before you leap: 言語モデルにおける検索タスクの普遍的な創発的分解

Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models ( http://arxiv.org/abs/2312.10091v1 )

ライセンス: Link先を確認
Alexandre Variengien and Eric Winsor(参考訳) 難しい問題を解決するとき、言語モデル(LM)は、長く複雑なコンテキストから関連する情報を識別することができる。 そこで本研究では,テキスト理解からコーディングまで,6つの領域にまたがる構造化検索タスクの集合であるORIONを導入する。 ORIONの各タスクは、コンテキスト(例えば、ストーリー)から属性(例えば、文字名)を検索するリクエスト(例えば、質問)によって抽象的に表現することができる。 1億2500万から7千億のパラメータを持つ18のオープンソース言語モデルに因果分析を適用する。 最後のトークン位置にある中間層はリクエストを処理し、後期層はコンテキストから正しいエンティティを検索する。 この分解を因果的に実施した後、モデルはまだ元のタスクを解決でき、106のモデル-タスクペアのうち98で元の正しいトークン確率の70%を保存できる。 我々はpythia-2.8b上の質問応答タスクの詳細なケーススタディを行い,マクロ分解と微視的記述を結びつけた。 高レベルの理解に基づいて,1回の入力のみを人間に監督させることなく,プロンプト注入を緩和するために,LMのスケーラブルな内部監視のための概念実証を行った。 ソリューションは精度を大幅に向上させる(pythia-12bでは15.5%から97.5%)。 この研究は、様々な領域やモデルにまたがるタスクの普遍的創発的モジュラー処理の証拠を示し、LMのスケーラブルな内部監視に解釈可能性を適用するための先駆的な取り組みである。

When solving challenging problems, language models (LMs) are able to identify relevant information from long and complicated contexts. To study how LMs solve retrieval tasks in diverse situations, we introduce ORION, a collection of structured retrieval tasks spanning six domains, from text understanding to coding. Each task in ORION can be represented abstractly by a request (e.g. a question) that retrieves an attribute (e.g. the character name) from a context (e.g. a story). We apply causal analysis on 18 open-source language models with sizes ranging from 125 million to 70 billion parameters. We find that LMs internally decompose retrieval tasks in a modular way: middle layers at the last token position process the request, while late layers retrieve the correct entity from the context. After causally enforcing this decomposition, models are still able to solve the original task, preserving 70% of the original correct token probability in 98 of the 106 studied model-task pairs. We connect our macroscopic decomposition with a microscopic description by performing a fine-grained case study of a question-answering task on Pythia-2.8b. Building on our high-level understanding, we demonstrate a proof of concept application for scalable internal oversight of LMs to mitigate prompt-injection while requiring human supervision on only a single input. Our solution improves accuracy drastically (from 15.5% to 97.5% on Pythia-12b). This work presents evidence of a universal emergent modular processing of tasks across varied domains and models and is a pioneering effort in applying interpretability for scalable internal oversight of LMs.
翻訳日:2023-12-31 03:55:52 公開日:2023-12-13
# コンテンツベース画像検索の進歩:関連性フィードバック技術に関する包括的調査

Advancements in Content-Based Image Retrieval: A Comprehensive Survey of Relevance Feedback Techniques ( http://arxiv.org/abs/2312.10089v1 )

ライセンス: Link先を確認
Hamed Qazanfari, Mohammad M. AlyanNezhadi, Zohreh Nozari Khoshdaregi(参考訳) コンテンツベース画像検索(cbir)システムはコンピュータビジョンの分野で重要なツールとして登場し、メタデータのみに頼るのではなく、ビジュアルコンテンツに基づく画像検索を可能にする。 本稿では,対象検出におけるCBIRの役割と,コンテンツ特徴に基づく視覚的に類似した画像の識別と検索の可能性について,包括的に概説する。 CBIRシステムで直面する課題は, セマンティックギャップやスケーラビリティなど, 潜在的な解決策とともに議論されている。 低レベルの特徴と高レベルの意味概念の相違から生じる意味的ギャップを詳細に説明し、このギャップを橋渡しするアプローチを探求する。 注目すべき解決策の1つは、関連フィードバック(RF)の統合であり、ユーザーは検索した画像に対してフィードバックを提供し、検索結果を反復的に洗練することができる。 この調査は、CBIRの精度と妥当性を高めるためにRFを利用する長期的および短期的な学習アプローチを含んでいる。 これらの手法は, 重み付け最適化と能動学習アルゴリズムの利用に着目し, 訓練用分類器のサンプルを選択する。 さらに,CBIR性能を向上させるために,機械学習技術と深層学習と畳み込みニューラルネットワークの利用について検討した。 本研究は,CBIRおよびRF技術の理解を深める上で重要な役割を担っている。 研究者や実践者が既存の方法論や課題、潜在的な解決策を理解しながら、知識の普及と研究ギャップの特定を促進する。 将来の研究方向性に対処することで、CBIRの進歩のステージを設定し、様々なアプリケーション領域における精度、ユーザビリティ、有効性を向上する。

Content-based image retrieval (CBIR) systems have emerged as crucial tools in the field of computer vision, allowing for image search based on visual content rather than relying solely on metadata. This survey paper presents a comprehensive overview of CBIR, emphasizing its role in object detection and its potential to identify and retrieve visually similar images based on content features. Challenges faced by CBIR systems, including the semantic gap and scalability, are discussed, along with potential solutions. It elaborates on the semantic gap, which arises from the disparity between low-level features and high-level semantic concepts, and explores approaches to bridge this gap. One notable solution is the integration of relevance feedback (RF), empowering users to provide feedback on retrieved images and refine search results iteratively. The survey encompasses long-term and short-term learning approaches that leverage RF for enhanced CBIR accuracy and relevance. These methods focus on weight optimization and the utilization of active learning algorithms to select samples for training classifiers. Furthermore, the paper investigates machine learning techniques and the utilization of deep learning and convolutional neural networks to enhance CBIR performance. This survey paper plays a significant role in advancing the understanding of CBIR and RF techniques. It guides researchers and practitioners in comprehending existing methodologies, challenges, and potential solutions while fostering knowledge dissemination and identifying research gaps. By addressing future research directions, it sets the stage for advancements in CBIR that will enhance retrieval accuracy, usability, and effectiveness in various application domains.
翻訳日:2023-12-31 03:55:24 公開日:2023-12-13
# 最小重量最小連結ドーティング集合問題に対するシミュレーションアニーリングに基づく多目的最適化アルゴリズム

A Simulated Annealing-Based Multiobjective Optimization Algorithm for Minimum Weight Minimum Connected Dominating Set Problem ( http://arxiv.org/abs/2312.11527v1 )

ライセンス: Link先を確認
Hayet Dahmri and Salim Bouamama(参考訳) 最小連結支配集合問題は、グラフ理論におけるNPハード組合せ最適化問題である。 接続された支配集合を見つけることは、無線センサネットワーク、光ネットワーク、システム生物学など様々な分野に高い関心を持っている。 その重み付き変種である最小重み付き支配集合はそのような応用にも有用である。 本稿では,最小連結ドミネート集合の変種に取り組むためのグリーディヒューリスティックに基づくシミュレーションアニーリングアルゴリズムを提案し,連結ドミネート集合の濃度と総重量の2つの目的を同時に利用する。 最近の研究で得られたものと比較した実験結果から,本手法の優越性が示された。

Minimum connected dominating set problem is an NP-hard combinatorial optimization problem in graph theory. Finding connected dominating set is of high interest in various domains such as wireless sensor networks, optical networks, and systems biology. Its weighted variant named minimum weight connected dominating set is also useful in such applications. In this paper, we propose a simulated annealing algorithm based on a greedy heuristic for tackling a variant of the minimum connected dominating set problem and that by exploiting two objectives together namely the cardinality and the total weight of the connected dominating set. Experimental results compared to those obtained by a recent proposed research show the superiority of our approach.
翻訳日:2023-12-31 03:43:46 公開日:2023-12-13
# ABiMed: 医薬レビューと多薬局管理のためのインテリジェントで視覚的な臨床診断支援システム

ABiMed: An intelligent and visual clinical decision support system for medication reviews and polypharmacy management ( http://arxiv.org/abs/2312.11526v1 )

ライセンス: Link先を確認
Abdelmalek Mouazer, Romain L\'eguillon, Nada Boudegzdame, Thibaud Levrard, Yoann Le Bars, Christian Simon, Brigitte S\'eroussi, Julien Grosjean, Romain Lelong, Catherine Letord, St\'efan Darmoni, Matthieu Schuers, Karima Sedki, Sophie Dubois, Hector Falcoff, Rosy Tsopra, Jean-Baptiste Lamy(参考訳) 背景: ポリファーマシー、すなわち5種以上の薬物を摂取することは、公衆衛生と経済問題の両方である。 服薬審査は、薬物治療を最適化し、無用、冗長または危険な薬物を記述することを目的とした、地域薬剤師による患者のインタビュー構造である。 しかし、実行と時間の浪費は困難である。 臨床医が多剤治療を手伝うために、いくつかの臨床意思決定支援システムが開発された。 しかし,そのほとんどは臨床実習ガイドラインの実施に限られていた。 本研究の目的は,医薬品レビューとポリファーマシー管理のための革新的な臨床判断支援システムabimedの設計である。 方法: ABiMedは、ガイドラインの実施、GPの電子健康記録から患者のデータの自動抽出と薬剤師への転送、および視覚分析を用いた文脈化された薬物知識の視覚的提示を関連づける。 フォーカスグループとワークショップで薬剤師とGPの人間工学的評価と質的評価を行った。 結果: 協調的なマルチユーザ利用を可能にするアーキテクチャを提案する。 本稿では,患者データの入力や検証,薬物知識(薬理学,副作用,相互作用)へのアクセス,ストッピング/スタートルールの閲覧,治療の修正を提案するabimedの各種画面について述べる。 質的評価の結果,健康専門家は,薬物知識の視覚的な提示とともに,ガイドラインの自動実行に強い関心を寄せていた。 結論: ガイドラインの実施と知識の視覚的提示の関連性は多薬品管理に有望なアプローチである。 今後の研究は、ABiMedの改良と評価に焦点を当てる。

Background: Polypharmacy, i.e. taking five drugs or more, is both a public health and an economic issue. Medication reviews are structured interviews of the patient by the community pharmacist, aiming at optimizing the drug treatment and deprescribing useless, redundant or dangerous drugs. However, they remain difficult to perform and time-consuming. Several clinical decision support systems were developed for helping clinicians to manage polypharmacy. However, most were limited to the implementation of clinical practice guidelines. In this work, our objective is to design an innovative clinical decision support system for medication reviews and polypharmacy management, named ABiMed. Methods: ABiMed associates several approaches: guidelines implementation, but the automatic extraction of patient data from the GP's electronic health record and its transfer to the pharmacist, and the visual presentation of contextualized drug knowledge using visual analytics. We performed an ergonomic assessment and qualitative evaluations involving pharmacists and GPs during focus groups and workshops. Results: We describe the proposed architecture, which allows a collaborative multi-user usage. We present the various screens of ABiMed for entering or verifying patient data, for accessing drug knowledge (posology, adverse effects, interactions), for viewing STOPP/START rules and for suggesting modification to the treatment. Qualitative evaluations showed that health professionals were highly interested by our approach, associating the automatic guidelines execution with the visual presentation of drug knowledge. Conclusions: The association of guidelines implementation with visual presentation of knowledge is a promising approach for managing polypharmacy. Future works will focus on the improvement and the evaluation of ABiMed.
翻訳日:2023-12-31 03:43:34 公開日:2023-12-13
# 人類新世を越えてのシンノセン--人-自然-AI相互作用の非分散化

Synocene, Beyond the Anthropocene: De-Anthropocentralising Human-Nature-AI Interaction ( http://arxiv.org/abs/2312.11525v1 )

ライセンス: Link先を確認
Isabelle Hupont and Marina Wainer and Sam Nester and Sylvie Tissot and Luc\'ia Iglesias-Blanco and Sandra Baldassarri(参考訳) 最近の出版物は、環境中の物体や人々を検出するAIバイアスを調査している。 しかし、aiが自然を調べる方法に取り組む研究は存在しない。 本ケーススタディでは,自然に対するai態度(エコセントリック,人道中心,反感)の先駆的探究を示す。 大規模言語モデル(LLM)と画像キャプションアルゴリズムによる実験は、AIに人間中心のバイアスが存在することを示す。 さらに,これらのバイアスと人間-自然-AIの相互作用を深く掘り下げるために,森林で没入型非人間中心体験を経験し,その後ChatGPTと関わり,物語を共同制作する実生活実験を行った。 架空のAIチャットボットのキャラクターをエコセントリックな属性、感情、ビューで作ることで、私たちはエコセントリックな交流を増幅することに成功しました。 物語の共創から短い対話,質問,回答へと逸脱した参加者は,LLMと対話する新奇さのため,いくつかの困難に遭遇した。 この問題を解決するために、llmとのインタラクションに関する予備ガイドラインを提供し、参加者がこの技術に慣れるようにすることを推奨する。 我々は、この実験を各国や森林で繰り返し、エコセントリック素材のコーパスを拡大する計画である。

Recent publications explore AI biases in detecting objects and people in the environment. However, there is no research tackling how AI examines nature. This case study presents a pioneering exploration into the AI attitudes (ecocentric, anthropocentric and antipathetic) toward nature. Experiments with a Large Language Model (LLM) and an image captioning algorithm demonstrate the presence of anthropocentric biases in AI. Moreover, to delve deeper into these biases and Human-Nature-AI interaction, we conducted a real-life experiment in which participants underwent an immersive de-anthropocentric experience in a forest and subsequently engaged with ChatGPT to co-create narratives. By creating fictional AI chatbot characters with ecocentric attributes, emotions and views, we successfully amplified ecocentric exchanges. We encountered some difficulties, mainly that participants deviated from narrative co-creation to short dialogues and questions and answers, possibly due to the novelty of interacting with LLMs. To solve this problem, we recommend providing preliminary guidelines on interacting with LLMs and allowing participants to get familiar with the technology. We plan to repeat this experiment in various countries and forests to expand our corpus of ecocentric materials.
翻訳日:2023-12-31 03:43:08 公開日:2023-12-13
# 安全な無線通信のためのグラフニューラルネットワークに基づく帯域割り当て

Graph Neural Network-Based Bandwidth Allocation for Secure Wireless Communications ( http://arxiv.org/abs/2312.14958v1 )

ライセンス: Link先を確認
Xin Hao, Phee Lep Yeoh, Yuhong Liu, Changyang She, Branka Vucetic, and Yonghui Li(参考訳) 本稿では,盗聴者の存在下で基地局に送信する複数の正規無線ユーザの帯域幅割り当てを改善するために,グラフニューラルネットワーク(GNN)を設計する。 プライバシを改善し,盗聴攻撃を防止するため,最小限の秘密率制約を満たすユーザをスケジュールするユーザスケジューリングアルゴリズムを提案する。 これに基づいて,反復探索 (ivs), gnn-based supervised learning (gnn-sl), gnn-based unsupervised learning (gnn-usl) という3つのアルゴリズムで帯域幅割り当てを最適化した。 本稿では,GNN-SL と GNN-USL が帯域幅ブロックサイズに制限された IvS と比較して,より効率的な計算複雑性解析を行う。 数値シミュレーションの結果,提案したGNNベースの資源割り当ては,計算複雑性が著しく低いIvSと比較して,最大機密度が得られることがわかった。 さらに,特に最良チャネル割り当て方式と比較して,盗聴者のチャネル状態情報の不確実性に対してGNNアプローチがより堅牢であることを示す。

This paper designs a graph neural network (GNN) to improve bandwidth allocations for multiple legitimate wireless users transmitting to a base station in the presence of an eavesdropper. To improve the privacy and prevent eavesdropping attacks, we propose a user scheduling algorithm to schedule users satisfying an instantaneous minimum secrecy rate constraint. Based on this, we optimize the bandwidth allocations with three algorithms namely iterative search (IvS), GNN-based supervised learning (GNN-SL), and GNN-based unsupervised learning (GNN-USL). We present a computational complexity analysis which shows that GNN-SL and GNN-USL can be more efficient compared to IvS which is limited by the bandwidth block size. Numerical simulation results highlight that our proposed GNN-based resource allocations can achieve a comparable sum secrecy rate compared to IvS with significantly lower computational complexity. Furthermore, we observe that the GNN approach is more robust to uncertainties in the eavesdropper's channel state information, especially compared with the best channel allocation scheme.
翻訳日:2023-12-31 03:11:51 公開日:2023-12-13
# フローエミュレーションのためのKronecker積の効率的なスパースガウス過程(E-SGP)

A Kronecker product accelerated efficient sparse Gaussian Process (E-SGP) for flow emulation ( http://arxiv.org/abs/2312.10023v1 )

ライセンス: Link先を確認
Yu Duan, Matthew Eaton, Michael Bluck(参考訳) 本稿では,流体力学のサロゲートモデリングのための効率的なスパースガウス過程(e-sgp)を提案する。 この新しいベイズ機械学習アルゴリズムは、異なる構造のデータベースを用いた効率的なモデルトレーニングを可能にする。 これは、効率的なGP(E-GP)と変動エネルギーのないガウス過程(VEF-SGP)の概念を組み合わせた近似スパースGPアルゴリズムのさらなる発展である。 vef-sgpの誘導点数に対して, 誘導点の任意性と目的関数の単調に増加する性質を生かしたe-sgp法を開発した。 直交格子/入力部分空間上の誘導点を特定し、クロネッカー積を用いることで、e-sgpは共分散行列に制約を課さずに計算効率を大幅に改善し、トレーニング中に最適化すべきパラメータの数を増やす。 この論文で開発されたE-SGPアルゴリズムは、スケーラビリティだけでなく、平均標準対数損失(MSLL)のモデル品質も優れている。 E-GPの計算複雑性は、成長する構造化トレーニングデータベースに関する3次成長に悩まされる。 しかし、E-SGPはモデルの解像度(つまり誘導点の数)が固定されている間、計算効率を維持する。 これらの例は、E-SGPがモデル解像度に類似している場合に、E-GPと比較してより正確な予測を生成することを示している。 E-SGPは、より多くのトレーニングデータから恩恵を受けるが、高い計算要求が伴う一方、E-SGPは同等の精度を達成できるが、より計算効率が良く、E-SGPは流体力学問題にとって好ましい選択肢となる。 さらに、E-SGPはモデル不確かさをより合理的に推定できる一方、E-GPは過信な予測を生成する可能性が高い。

In this paper, we introduce an efficient sparse Gaussian process (E-SGP) for the surrogate modelling of fluid mechanics. This novel Bayesian machine learning algorithm allows efficient model training using databases of different structures. It is a further development of the approximated sparse GP algorithm, combining the concept of efficient GP (E-GP) and variational energy free sparse Gaussian process (VEF-SGP). The developed E-SGP approach exploits the arbitrariness of inducing points and the monotonically increasing nature of the objective function with respect to the number of inducing points in VEF-SGP. By specifying the inducing points on the orthogonal grid/input subspace and using the Kronecker product, E-SGP significantly improves computational efficiency without imposing any constraints on the covariance matrix or increasing the number of parameters that need to be optimised during training. The E-SGP algorithm developed in this paper outperforms E-GP not only in scalability but also in model quality in terms of mean standardized logarithmic loss (MSLL). The computational complexity of E-GP suffers from the cubic growth regarding the growing structured training database. However, E-SGP maintains computational efficiency whilst the resolution of the model, (i.e., the number of inducing points) remains fixed. The examples show that E-SGP produces more accurate predictions in comparison with E-GP when the model resolutions are similar in both. E-GP benefits from more training data but comes with higher computational demands, while E-SGP achieves a comparable level of accuracy but is more computationally efficient, making E-SGP a potentially preferable choice for fluid mechanic problems. Furthermore, E-SGP can produce more reasonable estimates of model uncertainty, whilst E-GP is more likely to produce over-confident predictions.
翻訳日:2023-12-18 14:31:23 公開日:2023-12-13
# 量子ソフトウェア教育のためのプログラム命令の概要

A brief overview of programmed instructions for quantum software education ( http://arxiv.org/abs/2312.10020v1 )

ライセンス: Link先を確認
Richard A. Wolf, Sho Araiba(参考訳) 本稿では,量子ソフトウェア教育のためのプログラム命令手法の概要について述べる。 本稿では,STEM分野におけるプログラム命令法と最近の成功について述べる。 取り組まれている要素には、プログラムされた命令のコアコンポーネント、その行動根、早期使用、複雑なSTEM材料への適応などが含まれる。 さらに、量子ソフトウェア教育の特定の文脈での使用を推奨し、絡み合いの概念に対するPIベースの指導の1つの例を提供する。 この研究の目的は、量子スキルや概念をより効率的に広めることを目的として、量子教育にプログラムされた指示を組み込むための高レベルなガイドラインを提供することである。

In this paper we provide an overview of the programmed instructions approach for the purpose of quantum software education. The article presents the programmed instructions method and recent successes in STEM fields before describing its operating mode. Elements tackled include the core components of programmed instructions, its behavioural roots and early use as well as adaptation to complex STEM material. In addition, we offer recommendations for its use in the specific context of quantum software education and provide one example of PI-based instruction for the notion of entanglement. The aim of this work is to provide high-level guidelines for incorporating programmed instructions in quantum education with the goal of disseminating quantum skills and notions more efficiently to a wider audience.
翻訳日:2023-12-18 14:30:52 公開日:2023-12-13
# コントラスト学習の可視化と理解

Visualizing and Understanding Contrastive Learning ( http://arxiv.org/abs/2206.09753v3 )

ライセンス: Link先を確認
Fawaz Sammani, Boris Joukovsky, Nikos Deligiannis(参考訳) コントラスト学習はコンピュータビジョンの分野に革命をもたらし、ラベルのないデータからリッチな表現を学び、多様な視覚タスクを一般化した。 その結果、これらのアプローチを説明し、内部動作メカニズムを理解することがますます重要になっている。 対照的なモデルは相互依存的かつ相互作用的な入力で訓練され、データ拡張を通じて不変性を学ぶことを目的としているため、既存の単一イメージシステム(例えば、画像分類モデル)の説明方法は、これらの要因を考慮せず、通常は独立した入力を前提としないため不十分である。 また、一対の説明を評価するために設計された評価指標が欠如しており、対照的な学習を説明するための様々な手法の有効性を調べる分析研究は行われていない。 本研究では,一対の画像からの類似性学習タスクの理解に寄与する視覚的説明法を設計する。 画像分類システムの視覚的な説明を評価するために用いられる既存のメトリクスをさらに適合させ,提案手法をこれらのメトリクスで評価する。 最後に,コントラスト学習のための視覚的説明可能性の方法を徹底的に分析し,ダウンストリームタスクとの相関性を確立し,そのメリットと欠点を検討するためのアプローチの可能性を示す。

Contrastive learning has revolutionized the field of computer vision, learning rich representations from unlabeled data, which generalize well to diverse vision tasks. Consequently, it has become increasingly important to explain these approaches and understand their inner workings mechanisms. Given that contrastive models are trained with interdependent and interacting inputs and aim to learn invariance through data augmentation, the existing methods for explaining single-image systems (e.g., image classification models) are inadequate as they fail to account for these factors and typically assume independent inputs. Additionally, there is a lack of evaluation metrics designed to assess pairs of explanations, and no analytical studies have been conducted to investigate the effectiveness of different techniques used to explaining contrastive learning. In this work, we design visual explanation methods that contribute towards understanding similarity learning tasks from pairs of images. We further adapt existing metrics, used to evaluate visual explanations of image classification systems, to suit pairs of explanations and evaluate our proposed methods with these metrics. Finally, we present a thorough analysis of visual explainability methods for contrastive learning, establish their correlation with downstream tasks and demonstrate the potential of our approaches to investigate their merits and drawbacks.
翻訳日:2023-12-16 05:43:48 公開日:2023-12-13
# 循環・非循環因果モデルのための統一実験設計手法

A Unified Experiment Design Approach for Cyclic and Acyclic Causal Models ( http://arxiv.org/abs/2205.10083v3 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Saber Salehkaleybar, AmirEmad Ghassami, Negar Kiyavash(参考訳) 本研究では,単純なSCMの因果グラフのユニークな識別のための実験設計について検討する。 構造におけるサイクルの存在は、非循環グラフとは異なり、単に観察分布から因果グラフの骨格を学ぶことは不可能なため、実験設計における大きな課題をもたらす。 さらに、そのようなグラフの変数に介入することは、そのグラフに付随するすべてのエッジを指向させるとは限らない。 本稿では,循環グラフと非循環グラフの両方を学習可能な実験設計手法を提案する。 最悪の場合において因果グラフの独特な識別を保証するのに必要な実験数の上限を低くし,加法対数項までの実験数に関して提案手法が最適であることを示す。 さらに、各実験のサイズが定数で区切られるような設定まで結果を広げる。 この場合,本手法は,最悪の場合において因果グラフを一意に識別するために必要な最大実験のサイズで最適であることを示す。

We study experiment design for unique identification of the causal graph of a simple SCM, where the graph may contain cycles. The presence of cycles in the structure introduces major challenges for experiment design as, unlike acyclic graphs, learning the skeleton of causal graphs with cycles may not be possible from merely the observational distribution. Furthermore, intervening on a variable in such graphs does not necessarily lead to orienting all the edges incident to it. In this paper, we propose an experiment design approach that can learn both cyclic and acyclic graphs and hence, unifies the task of experiment design for both types of graphs. We provide a lower bound on the number of experiments required to guarantee the unique identification of the causal graph in the worst case, showing that the proposed approach is order-optimal in terms of the number of experiments up to an additive logarithmic term. Moreover, we extend our result to the setting where the size of each experiment is bounded by a constant. For this case, we show that our approach is optimal in terms of the size of the largest experiment required for uniquely identifying the causal graph in the worst case.
翻訳日:2023-12-16 05:42:17 公開日:2023-12-13
# 強化学習のための経験的説明

Experiential Explanations for Reinforcement Learning ( http://arxiv.org/abs/2210.04723v4 )

ライセンス: Link先を確認
Amal Alabdulkarim, Madhuri Singh, Gennie Mansi, Kaely Hall, Mark O. Riedl(参考訳) 強化学習(Reinforcement Learning, RL)システムは複雑で非解釈可能であり、非AI専門家が意思決定に介入することが難しい。 これは、将来の報酬のためにアクションが選択されるRLのシーケンシャルな性質によるものである。 しかし、RLエージェントはトレーニングの質的な特徴を捨て、アクションが選択された理由についてユーザ理解可能な情報を復元することが困難になる。 本稿では,RL ポリシーに則って,影響予測器の訓練による実証的説明を生成する手法 Experiential Explanations を提案する。 影響予測器は、報酬源が異なる状態のエージェントにどのように影響するかを学習し、ポリシーが環境をどのように反映するかを復元するモデルである。 人間による評価調査では、経験的な説明をした被験者は、他の標準的な説明をした被験者よりも、エージェントが何をするかを正確に推測できることがわかった。 参加者はまた、経験的な説明はより理解しやすく、満足し、完成し、有用で、正確であることを発見した。 質的分析は、最も有用な経験的説明の要因についての洞察を提供する。

Reinforcement Learning (RL) systems can be complex and non-interpretable, making it challenging for non-AI experts to understand or intervene in their decisions. This is due in part to the sequential nature of RL in which actions are chosen because of future rewards. However, RL agents discard the qualitative features of their training, making it difficult to recover user-understandable information for "why" an action is chosen. We propose a technique, Experiential Explanations, to generate counterfactual explanations by training influence predictors along with the RL policy. Influence predictors are models that learn how sources of reward affect the agent in different states, thus restoring information about how the policy reflects the environment. A human evaluation study revealed that participants presented with experiential explanations were better able to correctly guess what an agent would do than those presented with other standard types of explanation. Participants also found that experiential explanations are more understandable, satisfying, complete, useful, and accurate. The qualitative analysis provides insights into the factors of experiential explanations that are most useful.
翻訳日:2023-12-16 05:28:41 公開日:2023-12-13
# 意味的自己適応:単一サンプルによる一般化の強化

Semantic Self-adaptation: Enhancing Generalization with a Single Sample ( http://arxiv.org/abs/2208.05788v3 )

ライセンス: Link先を確認
Sherwin Bahmani, Oliver Hahn, Eduard Zamfir, Nikita Araslanov, Daniel Cremers and Stefan Roth(参考訳) ドメイン外一般化の欠如は、セマンティックセグメンテーションのためのディープネットワークの重要な弱点である。 これまでの研究は静的モデルの仮定に頼っていた。 e. トレーニングプロセスが完了すると、モデルパラメータはテスト時に固定されます。 本研究では,各入力サンプルに対する推論プロセスを調整する意味セグメンテーションに対する自己適応的アプローチによって,この前提に挑戦する。 自己適応は2つのレベルで動作する。 まず、一貫性の正規化を用いて畳み込み層のパラメータを入力画像に微調整する。 第二に、バッチ正規化層では、トレーニングと単一のテストサンプルに由来する参照分布の間に自己適応が補間される。 どちらの技法も文献でよく知られているが、それらの組み合わせは合成から実への一般化ベンチマークにおいて新しい最先端の精度を設定する。 本研究は,学習時間におけるモデル正規化の確立した実践を自己適応が補完し,ドメイン外データへのディープネットワーク一般化を改善する可能性を示唆する。 私たちのコードと事前訓練されたモデルはhttps://github.com/visinf/self-adaptive.comで利用可能です。

The lack of out-of-domain generalization is a critical weakness of deep networks for semantic segmentation. Previous studies relied on the assumption of a static model, i. e., once the training process is complete, model parameters remain fixed at test time. In this work, we challenge this premise with a self-adaptive approach for semantic segmentation that adjusts the inference process to each input sample. Self-adaptation operates on two levels. First, it fine-tunes the parameters of convolutional layers to the input image using consistency regularization. Second, in Batch Normalization layers, self-adaptation interpolates between the training and the reference distribution derived from a single test sample. Despite both techniques being well known in the literature, their combination sets new state-of-the-art accuracy on synthetic-to-real generalization benchmarks. Our empirical study suggests that self-adaptation may complement the established practice of model regularization at training time for improving deep network generalization to out-of-domain data. Our code and pre-trained models are available at https://github.com/visinf/self-adaptive.
翻訳日:2023-12-16 05:27:18 公開日:2023-12-13
# 小さな$^4he_n$クラスターに対する深層ニューラルネットワークと変分モンテカルロ法との相乗効果

Synergy between deep neural networks and the variational Monte Carlo method for small $^4He_N$ clusters ( http://arxiv.org/abs/2302.00599v3 )

ライセンス: Link先を確認
William Freitas and S. A. Vitiello(参考訳) 本稿ではBose-Einstein統計量を満たす波動関数をモデル化するためのニューラルネットワークに基づくアプローチを提案する。 このモデルを小さな^4he_n$クラスター(nは2原子から14原子)に適用し、弱ユニタリティに関連する基底状態エネルギー、対密度関数、および2体接触パラメータ$c^{(n)}_2$を正確に予測する。 変分モンテカルロ法によって得られた結果は、その統計的不確実性内で正確に考慮される拡散モンテカルロ法を用いて、以前の研究と顕著な一致を示した。 このことは,Bose-Einstein 統計による多体システムに対するニューラルネットワークアプローチの有効性を示す。

We introduce a neural network-based approach for modeling wave functions that satisfy Bose-Einstein statistics. Applying this model to small $^4He_N$ clusters (with N ranging from 2 to 14 atoms), we accurately predict ground state energies, pair density functions, and two-body contact parameters $C^{(N)}_2$ related to weak unitarity. The results obtained via the variational Monte Carlo method exhibit remarkable agreement with previous studies using the diffusion Monte Carlo method, which is considered exact within its statistical uncertainties. This indicates the effectiveness of our neural network approach for investigating many-body systems governed by Bose-Einstein statistics.
翻訳日:2023-12-16 05:19:03 公開日:2023-12-13
# スケーラブルリンク予測のための部分グラフ表現学習の簡略化

Simplifying Subgraph Representation Learning for Scalable Link Prediction ( http://arxiv.org/abs/2301.12562v3 )

ライセンス: Link先を確認
Paul Louis, Shweta Ann Jacob and Amirali Salehi-Abari(参考訳) グラフ上のリンク予測は根本的な問題である。 サブグラフ表現学習手法(SGRL)はリンク予測からリンク周辺のグラフ分類への変換によって,リンク予測における最先端性能を実現している。 しかし、SGRLは計算コストが高く、高価なサブグラフレベルの演算のために大規模グラフには拡張性がない。 SGRLのスケーラビリティを解放するために,SGRLの新たなクラスを提案し,SGRL(Scalable Simplified SGRL)と呼ぶ。 高速なトレーニングと推論を目的としたS3GRLは、各リンクのサブグラフにおけるメッセージパッシングとアグリゲーション操作を単純化する。 S3GRLは、拡張性のあるフレームワークとして、様々なサブグラフサンプリング戦略と拡散演算子に対応し、計算的なSGRLをエミュレートする。 本稿では、S3GRLの複数の例を提案し、それらを小規模・大規模グラフ上で実証研究する。 広範な実験により,提案するs3grlモデルがsgrlを大幅な性能上の妥協なくスケールアップできることが示され,計算量を大幅に削減した(マルチフォールド推論やトレーニングスピードアップなど)。

Link prediction on graphs is a fundamental problem. Subgraph representation learning approaches (SGRLs), by transforming link prediction to graph classification on the subgraphs around the links, have achieved state-of-the-art performance in link prediction. However, SGRLs are computationally expensive, and not scalable to large-scale graphs due to expensive subgraph-level operations. To unlock the scalability of SGRLs, we propose a new class of SGRLs, that we call Scalable Simplified SGRL (S3GRL). Aimed at faster training and inference, S3GRL simplifies the message passing and aggregation operations in each link's subgraph. S3GRL, as a scalability framework, accommodates various subgraph sampling strategies and diffusion operators to emulate computationally-expensive SGRLs. We propose multiple instances of S3GRL and empirically study them on small to large-scale graphs. Our extensive experiments demonstrate that the proposed S3GRL models scale up SGRLs without significant performance compromise (even with considerable gains in some cases), while offering substantially lower computational footprints (e.g., multi-fold inference and training speedup).
翻訳日:2023-12-16 05:17:52 公開日:2023-12-13
# ソフトマックス近似による最適動的政策の推理

Inference on Optimal Dynamic Policies via Softmax Approximation ( http://arxiv.org/abs/2303.04416v3 )

ライセンス: Link先を確認
Qizhao Chen, Morgane Austern, Vasilis Syrgkanis(参考訳) オフラインデータから最適な動的ポリシーを推定することは、動的意思決定における根本的な問題である。 因果推論の文脈では、この問題は最適な動的治療体制を推定することとして知られている。 推定のための多くの方法が存在するにもかかわらず、最適状態の値とそれに関連する構造パラメータの信頼区間を構築することは本質的に困難である。 以前の作業は、見積の品質を低下させるサブサンプルアプローチに頼っていた。 最適処理条件に対する簡易なソフトマックス近似により, 温度パラメータを適切に向上させることができ, 真に最適な条件を推定できることを示す。 提案手法は, 有限地平線の場合へ直接拡張するが, 2周期の最適力学系について検討する。 我々の研究は、半パラメトリック推論と$g$推定の手法と、適切な三角形配列中心極限定理と、ソフトマックス近似の漸近的影響と漸近的バイアスの新しい分析を組み合わせたものである。

Estimating optimal dynamic policies from offline data is a fundamental problem in dynamic decision making. In the context of causal inference, the problem is known as estimating the optimal dynamic treatment regime. Even though there exists a plethora of methods for estimation, constructing confidence intervals for the value of the optimal regime and structural parameters associated with it is inherently harder, as it involves non-linear and non-differentiable functionals of unknown quantities that need to be estimated. Prior work resorted to sub-sample approaches that can deteriorate the quality of the estimate. We show that a simple soft-max approximation to the optimal treatment regime, for an appropriately fast growing temperature parameter, can achieve valid inference on the truly optimal regime. We illustrate our result for a two-period optimal dynamic regime, though our approach should directly extend to the finite horizon case. Our work combines techniques from semi-parametric inference and $g$-estimation, together with an appropriate triangular array central limit theorem, as well as a novel analysis of the asymptotic influence and asymptotic bias of softmax approximations.
翻訳日:2023-12-16 05:05:43 公開日:2023-12-13
# NeRFLiXからNeRFLiX++へ: 一般的なNeRFに依存しないレゾラーパラダイム

From NeRFLiX to NeRFLiX++: A General NeRF-Agnostic Restorer Paradigm ( http://arxiv.org/abs/2306.06388v3 )

ライセンス: Link先を確認
Kun Zhou, Wenbo Li, Nianjuan Jiang, Xiaoguang Han, Jiangbo Lu(参考訳) ニューラルレイディアンス場(NeRF)は、新規なビュー合成において大きな成功を収めている。 しかし,非完全キャリブレーション情報やシーン表現の不正確さのため,現実のシーンから高品質な詳細を復元することは,既存のNeRFベースのアプローチでは依然として困難である。 高品質なトレーニングフレームであっても、NeRFモデルで作られた合成された新しいビューは、ノイズやぼやけなどの顕著なレンダリングアーチファクトに悩まされている。 そこで本研究では,分解駆動の視点間ミキサーを学習するNeRFLiXを提案する。 特に,nerf型劣化モデリング手法を設計,大規模トレーニングデータを構築し,深層ニューラルネットワークのnerfネイティブレンダリングアーティファクトを効果的に除去することを可能にした。 さらに, 劣化除去の他に, 高度に関連性の高い訓練画像を融合し, 最先端のNeRFモデルの性能を全く新しいレベルに押し上げ, 高度光写実的合成ビューを生成する視点間集約フレームワークを提案する。 このパラダイムに基づき,より強固な2段階のnrf分解シミュレータと高速なビューポイント間ミキサーを備えたnerflix++をさらに提示し,計算効率を大幅に向上した優れた性能を実現する。 特に、NeRFLiX++はノイズの多い低解像度のNeRFレンダリングビューからフォトリアリスティックな超高解像度出力を復元することができる。 様々な新しいビュー合成ベンチマークで、NeRFLiX++の優れた復元能力を実証した。

Neural radiance fields (NeRF) have shown great success in novel view synthesis. However, recovering high-quality details from real-world scenes is still challenging for the existing NeRF-based approaches, due to the potential imperfect calibration information and scene representation inaccuracy. Even with high-quality training frames, the synthetic novel views produced by NeRF models still suffer from notable rendering artifacts, such as noise and blur. To address this, we propose NeRFLiX, a general NeRF-agnostic restorer paradigm that learns a degradation-driven inter-viewpoint mixer. Specially, we design a NeRF-style degradation modeling approach and construct large-scale training data, enabling the possibility of effectively removing NeRF-native rendering artifacts for deep neural networks. Moreover, beyond the degradation removal, we propose an inter-viewpoint aggregation framework that fuses highly related high-quality training images, pushing the performance of cutting-edge NeRF models to entirely new levels and producing highly photo-realistic synthetic views. Based on this paradigm, we further present NeRFLiX++ with a stronger two-stage NeRF degradation simulator and a faster inter-viewpoint mixer, achieving superior performance with significantly improved computational efficiency. Notably, NeRFLiX++ is capable of restoring photo-realistic ultra-high-resolution outputs from noisy low-resolution NeRF-rendered views. Extensive experiments demonstrate the excellent restoration ability of NeRFLiX++ on various novel view synthesis benchmarks.
翻訳日:2023-12-16 04:57:36 公開日:2023-12-13
# 保存則のためのラグランジアンフローネットワーク

Lagrangian Flow Networks for Conservation Laws ( http://arxiv.org/abs/2305.16846v2 )

ライセンス: Link先を確認
F. Arend Torres, Marcello Massimo Negri, Marco Inversi, Jonathan Aellen, Volker Roth(参考訳) 流体密度と速度を連続的に空間と時間でモデル化するLagrangian Flow Networks (LFlows)を紹介した。 構築により,提案したLFlowは連続性方程式,すなわち,その微分可能な形での質量保存を記述するPDEを満たす。 我々のモデルは、連続性方程式の解を微分可能かつ可逆写像による時間依存密度変換として表現できるという洞察に基づいている。 これは滑らかなベクトル場に対するラグランジュ流の存在と一意性に関する古典的な理論から従う。 したがって, 時間条件付きパラメータ付き微分同相写像の基底密度を変換することにより, 流体密度をモデル化する。 数値ODEソルバやPINNに依存する手法に比べて大きな利点は、速度の解析的表現が常に密度の変化と一致することである。 さらに、PDEを強制するために高価な数値解法も追加の罰則も必要としない。 LFlowsは2次元および3次元の競合モデルと比較して密度モデリングタスクの予測精度が高く、計算効率は高い。 実世界の応用として、疎気象レーダ測定に基づく鳥の移動をモデル化する。

We introduce Lagrangian Flow Networks (LFlows) for modeling fluid densities and velocities continuously in space and time. By construction, the proposed LFlows satisfy the continuity equation, a PDE describing mass conservation in its differentiable form. Our model is based on the insight that solutions to the continuity equation can be expressed as time-dependent density transformations via differentiable and invertible maps. This follows from classical theory of the existence and uniqueness of Lagrangian flows for smooth vector fields. Hence, we model fluid densities by transforming a base density with parameterized diffeomorphisms conditioned on time. The key benefit compared to methods relying on numerical ODE solvers or PINNs is that the analytic expression of the velocity is always consistent with changes in density. Furthermore, we require neither expensive numerical solvers, nor additional penalties to enforce the PDE. LFlows show higher predictive accuracy in density modeling tasks compared to competing models in 2D and 3D, while being computationally efficient. As a real-world application, we model bird migration based on sparse weather radar measurements.
翻訳日:2023-12-16 04:56:06 公開日:2023-12-13
# 拡散モデルの注意マップ制御による合成テキスト・画像合成

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models ( http://arxiv.org/abs/2305.13921v2 )

ライセンス: Link先を確認
Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin(参考訳) 最近のtext-to-image(t2i)拡散モデルは、テキストプロンプトに基づく高品質画像の生成において優れた性能を示している。 しかし、コンポジション機能に制限があるため、生成したイメージをセマンティックにアライメントすることができないため、属性のリーク、エンティティのリーク、エンティティの欠落などが発生する。 本稿では,これらの問題に対処するために,予測対象ボックスに基づく注意マスク制御手法を提案する。 特に、プロンプトで指定された属性を持つ各エンティティのボックスを予測するために、まずboxnetをトレーニングします。 そして、予測されたボックスに応じて、クロス・アンド・セルフ・アテンションマップにユニークなマスク制御を適用する。 提案手法は,画像へのプロンプト中の各トークンの注意領域を制約することにより,より意味論的に合成する。 さらに,提案手法は単純かつ効果的であり,既存のT2Iジェネレータに容易に組み込むことができる。 提案手法を競合する手法と比較し,オリジナルテキストのセマンティクスを生成コンテンツに忠実に伝達し,使用可能なプラグインとして高可用性を実現することを実証する。 https://github.com/oppomente-lab/attention-mask-controlを参照。

Recent text-to-image (T2I) diffusion models show outstanding performance in generating high-quality images conditioned on textual prompts. However, they fail to semantically align the generated images with the prompts due to their limited compositional capabilities, leading to attribute leakage, entity leakage, and missing entities. In this paper, we propose a novel attention mask control strategy based on predicted object boxes to address these issues. In particular, we first train a BoxNet to predict a box for each entity that possesses the attribute specified in the prompt. Then, depending on the predicted boxes, a unique mask control is applied to the cross- and self-attention maps. Our approach produces a more semantically accurate synthesis by constraining the attention regions of each token in the prompt to the image. In addition, the proposed method is straightforward and effective and can be readily integrated into existing cross-attention-based T2I generators. We compare our approach to competing methods and demonstrate that it can faithfully convey the semantics of the original text to the generated content and achieve high availability as a ready-to-use plugin. Please refer to https://github.com/OPPOMente-Lab/attention-mask-control.
翻訳日:2023-12-16 04:54:42 公開日:2023-12-13
# 混合モードをもつ非対称角度からのマルチモーダルコンテンツモデレーションの再考

Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality ( http://arxiv.org/abs/2305.10547v3 )

ライセンス: Link先を確認
Jialin Yuan, Ye Yu, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei Chen(参考訳) ソーシャルメディア上のコンテンツが本質的にマルチモーダルであることから、マルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。 既存のユニモーダルCMシステムは、モダリティ(ミームやビデオなど)を横断する有害なコンテンツをキャッチできず、深刻な結果をもたらす可能性がある。 本稿では,マルチモーダルおよびユニモーダルcmタスクを対象とする新しいcmモデルであるasymmetric mixed-modal moderation (am3)を提案する。 具体的には、視覚と言語間の意味論における非対称性に対処するため、AM3は、両モードの共通知識を融合させるだけでなく、各モードにおけるユニークな情報を活用するために設計された、新しい非対称融合アーキテクチャを持つ。 多様性(multimodality)と単様性(asymmetry in modalities)で伝達される情報(asymmetry in modalities)の間に本質的な違いを見落としながら、2つのモダリティを類似した特徴空間に表現することに焦点を当てた以前の作品とは異なり、我々は多様性にのみ現れる独特な知識を学ぶために、新しい交叉モダリティ比較損失を提案する。 これは、有害な意図が両方のモダリティの交叉を通してのみ伝達されるため、重要である。 広範囲な実験により、AM3はマルチモーダルCMベンチマークとユニモーダルCMベンチマークの両方において、既存の最先端手法よりも優れていることを示す。

There is a rapidly growing need for multimodal content moderation (CM) as more and more content on social media is multimodal in nature. Existing unimodal CM systems may fail to catch harmful content that crosses modalities (e.g., memes or videos), which may lead to severe consequences. In this paper, we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target multimodal and unimodal CM tasks. Specifically, to address the asymmetry in semantics between vision and language, AM3 has a novel asymmetric fusion architecture that is designed to not only fuse the common knowledge in both modalities but also to exploit the unique information in each modality. Unlike previous works that focus on representing the two modalities into a similar feature space while overlooking the intrinsic difference between the information conveyed in multimodality and in unimodality (asymmetry in modalities), we propose a novel cross-modality contrastive loss to learn the unique knowledge that only appears in multimodality. This is critical as some harmful intent may only be conveyed through the intersection of both modalities. With extensive experiments, we show that AM3 outperforms all existing state-of-the-art methods on both multimodal and unimodal CM benchmarks.
翻訳日:2023-12-16 04:53:16 公開日:2023-12-13
# ゼロ温度における2自由度シュウィンガーモデルの位相図

Phase Diagram of the Two-Flavor Schwinger Model at Zero Temperature ( http://arxiv.org/abs/2305.04437v3 )

ライセンス: Link先を確認
Ross Dempsey, Igor R. Klebanov, Silviu S. Pufu, Benjamin T. S{\o}gaard, and Bernardo Zan(参考訳) そこで, 2-フレーバーシュウィンガーモデルの位相構造を, $\theta$-angle と $m_1$ と $m_2$ の2つの質量の関数として検討した。 特に、$\theta=\pi$:$SU(2)$-不変直線 $m_1 = m_2 = m$ において、$m$ が電荷 $g$ よりもはるかに小さい状態において、この理論はベレジンスキー=コステリッツ=トゥーレス型の対数的 RG フローを経る。 その結果、この方法では非摂動的に小さい質量ギャップ $\sim e^{- a g^2/m^2}$ が存在する。 su(2)$-不変直線は、電荷共役対称性が自発的に破られ、その境界が数値的に決定される位相図の領域内にある。 離散キラル対称性によって決定される質量シフト $m_\text{lat} = m-g^2 a/4$ を含むハミルトニアン格子ゲージの定式化を用いて数値計算を行った。

We examine the phase structure of the two-flavor Schwinger model as a function of the $\theta$-angle and the two masses, $m_1$ and $m_2$. In particular, we find interesting effects at $\theta=\pi$: along the $SU(2)$-invariant line $m_1 = m_2 = m$, in the regime where $m$ is much smaller than the charge $g$, the theory undergoes logarithmic RG flow of the Berezinskii-Kosterlitz-Thouless type. As a result, in this regime there is a non-perturbatively small mass gap $\sim e^{- A g^2/m^2}$. The $SU(2)$-invariant line lies within a region of the phase diagram where the charge conjugation symmetry is spontaneously broken and whose boundaries we determine numerically. Our numerical results are obtained using the Hamiltonian lattice gauge formulation that includes the mass shift $m_\text{lat} = m- g^2 a/4$ dictated by the discrete chiral symmetry.
翻訳日:2023-12-16 04:52:29 公開日:2023-12-13
# 粒子物理学のための説明可能な同変ニューラルネットワーク:PELICAN

Explainable Equivariant Neural Networks for Particle Physics: PELICAN ( http://arxiv.org/abs/2307.16506v3 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, David W. Miller, Jan T. Offermann, Xiaoyang Liu(参考訳) permutation equivariant and lorentz invariant or covariant aggregator network(ペリカン)は、素粒子物理学問題に適用されるアーキテクチャで見られる共通の制限を克服するために設計された、新しい置換同変および共変アグリゲータネットワークである。 基礎となる物理原理を無視し、非常に多くのパラメータを必要とする非特殊化アーキテクチャを使用する多くのアプローチと比較して、PELICANは、複雑性の低減、解釈可能性の向上、生のパフォーマンスの面でのメリットを示す、根本的に対称なグループベースのアーキテクチャを採用している。 本稿では,ローレンツ型トップクォークのタグ付け(分類)と再構成(回帰)の両面においてPELICANアルゴリズムアーキテクチャを包括的に研究し,ローレンツ型トップクォークの最終状態の密集した環境の中で,$W$ボソンを特定・測定することが困難であることを示す。 また,クォーク開始時とクォーク開始時を識別するタスクへのPELICANの適用も拡張する。 ~グルーオン開始ジェットと、ジェットの5つの異なるカテゴリーにまたがるマルチクラス同定。 Lorentz-boosted top-quarkタグの標準的なタスクでテストすると、PELICANは既存の競合製品よりもはるかに低いモデル複雑さと高いサンプル効率で性能を向上する。 4モーメント回帰のより一般的で複雑なタスクでは、PELICANは手作りの非機械学習アルゴリズムよりも優れている。 物理分野における機械学習の幅広い分野における対称性制限アーキテクチャの意義について論じる。

PELICAN is a novel permutation equivariant and Lorentz invariant or covariant aggregator network designed to overcome common limitations found in architectures applied to particle physics problems. Compared to many approaches that use non-specialized architectures that neglect underlying physics principles and require very large numbers of parameters, PELICAN employs a fundamentally symmetry group-based architecture that demonstrates benefits in terms of reduced complexity, increased interpretability, and raw performance. We present a comprehensive study of the PELICAN algorithm architecture in the context of both tagging (classification) and reconstructing (regression) Lorentz-boosted top quarks, including the difficult task of specifically identifying and measuring the $W$-boson inside the dense environment of the Lorentz-boosted top-quark hadronic final state. We also extend the application of PELICAN to the tasks of identifying quark-initiated vs.~gluon-initiated jets, and a multi-class identification across five separate target categories of jets. When tested on the standard task of Lorentz-boosted top-quark tagging, PELICAN outperforms existing competitors with much lower model complexity and high sample efficiency. On the less common and more complex task of 4-momentum regression, PELICAN also outperforms hand-crafted, non-machine learning algorithms. We discuss the implications of symmetry-restricted architectures for the wider field of machine learning for physics.
翻訳日:2023-12-16 04:45:46 公開日:2023-12-13
# ニューラルネットワーク場の理論:非ガウス性、行動、局所性

Neural Network Field Theories: Non-Gaussianity, Actions, and Locality ( http://arxiv.org/abs/2307.03223v2 )

ライセンス: Link先を確認
Mehmet Demirtas, James Halverson, Anindita Maiti, Matthew D. Schwartz, Keegan Stoner(参考訳) 場理論における経路積分測度とニューラルネットワークのアンサンブルは、関数上の分布を記述する。 中心極限定理が無限幅(無限$N$)極限に適用できるとき、ネットワークのアンサンブルは自由場理論に対応する。 1/N$の展開は場の理論における相互作用に対応するが、ネットワークパラメータの統計的独立性の小さな破れなど、相互作用する理論につながることもある。 これらの他の拡張は、例えば普遍近似定理に対する振る舞いの改善によって、1/N$-展開よりも有利である。 場の理論の連結コレレータが与えられた場合、頂点が連結コレレータである新しいファインマン図式処方を用いて、拡張パラメータのアクション順序を体系的に再構成することができる。 この方法はエッジワース展開に動機付けられ、ニューラルネットワークの場の理論に対する作用を導出することができる。 逆に、この対応により、ニューラルネットワークパラメータ密度の変形として作用変形を表現することにより、与えられた場理論を実現するアーキテクチャを設計できる。 例えば、$\phi^4$理論は無限の$N$ニューラルネットワーク場理論として実現される。

Both the path integral measure in field theory and ensembles of neural networks describe distributions over functions. When the central limit theorem can be applied in the infinite-width (infinite-$N$) limit, the ensemble of networks corresponds to a free field theory. Although an expansion in $1/N$ corresponds to interactions in the field theory, others, such as in a small breaking of the statistical independence of network parameters, can also lead to interacting theories. These other expansions can be advantageous over the $1/N$-expansion, for example by improved behavior with respect to the universal approximation theorem. Given the connected correlators of a field theory, one can systematically reconstruct the action order-by-order in the expansion parameter, using a new Feynman diagram prescription whose vertices are the connected correlators. This method is motivated by the Edgeworth expansion and allows one to derive actions for neural network field theories. Conversely, the correspondence allows one to engineer architectures realizing a given field theory by representing action deformations as deformations of neural network parameter densities. As an example, $\phi^4$ theory is realized as an infinite-$N$ neural network field theory.
翻訳日:2023-12-16 04:43:27 公開日:2023-12-13
# proxycap:人間中心のproxy-to-motion learningによる世界空間でのリアルタイムモノキュラーフルボディキャプチャ

ProxyCap: Real-time Monocular Full-body Capture in World Space via Human-Centric Proxy-to-Motion Learning ( http://arxiv.org/abs/2307.01200v2 )

ライセンス: Link先を確認
Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Jiajun Zhang, Hongwei Yi, Shengping Zhang, Yebin Liu(参考訳) モノクルモーションキャプチャーに対する学習ベースのアプローチは、最近データ駆動方式で回帰学習することで有望な結果を示している。 しかし、データ収集とネットワーク設計の課題のため、既存のソリューションが世界規模で正確でありながら、リアルタイムのフルボディキャプチャを実現することは依然として困難である。 本研究では,2次元骨格列と3次元回転運動のプロキシデータセットから世界空間の動きを学習する,人間中心のプロキシ・ツー・モーション学習スキームであるProxyCapを紹介する。 このようなプロキシデータにより,世界空間の正確な監視を行うとともに,一般化問題を緩和する学習ネットワークを構築することができる。 宇宙空間におけるより正確で物理的に可能な予測のために、我々のネットワークは人間中心の視点から人間の動きを学習するように設計されている。 さらに,我々のネットワーク上では,接触認識型神経運動降下モジュールが提案されている。 提案した学習ベースソリューションを用いて,手持ちの移動カメラを用いても,世界空間での足場接触が可能な実時間単眼フルボディキャプチャシステムを実演した。

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we introduce ProxyCap, a human-centric proxy-to-motion learning scheme to learn world-space motions from a proxy dataset of 2D skeleton sequences and 3D rotational motions. Such proxy data enables us to build a learning-based network with accurate world-space supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions in world space, our network is designed to learn human motions from a human-centric perspective, which enables the understanding of the same motion captured with different camera trajectories. Moreover, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space even using hand-held moving cameras.
翻訳日:2023-12-16 04:43:08 公開日:2023-12-13
# テキストから画像への拡散モデルにおける条件不一致の解消と実現

Decompose and Realign: Tackling Condition Misalignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.14408v2 )

ライセンス: Link先を確認
Luozhou Wang, Guibao Shen, Wenhang Ge, Guangyong Chen, Yijun Li, Ying-cong Chen(参考訳) テキスト間の拡散モデルは、テキスト以外の様々な追加条件(例えば深度マップ、バウンディングボックス)をサポートすることによって、より制御可能な生成に向かって進んでいる。 しかし、これらのモデルは、テキストと余分な条件の完全なアライメントの前提に基づいて学習される。 このアライメントが満たされない場合、最終的なアウトプットは1つの条件に支配されるか、あるいは曖昧さが生じてユーザの期待を満たせない場合があり得る。この問題に対処するため、部分的に調整された条件が与えられた場合に、既存のモデルの制御性をさらに向上させるために、'decompose and realign'と呼ばれるトレーニングフリーなアプローチを提案する。 decompose''フェーズは、ペア関係に基づいて条件を分離し、各ペアの結果を個別に計算する。 これにより、各ペアに相反する条件がなくなる。 realign'' フェーズは、これらを独立に計算した結果をクロス・アテンション・メカニズムによって調整し、それらを結合する際に新たな衝突を避ける。 定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件に対する我々のアプローチの有効性を示すものである。 コードはhttps://github.com/envision-research/decompose-and-realign.com/で入手できる。

Text-to-image diffusion models have advanced towards more controllable generation via supporting various additional conditions (e.g., depth map, bounding box) beyond text. However, these models are learned based on the premise of perfect alignment between the text and extra conditions. If this alignment is not satisfied, the final output could be either dominated by one condition, or ambiguity may arise, failing to meet user expectations.To address this issue, we present a training-free approach called ``Decompose and Realign'' to further improve the controllability of existing models when provided with partially aligned conditions. The ``Decompose'' phase separates conditions based on pair relationships, computing the result individually for each pair. This ensures that each pair no longer has conflicting conditions. The ``Realign'' phase aligns these independently calculated results via a cross-attention mechanism to avoid new conflicts when combining them back. Both qualitative and quantitative results demonstrate the effectiveness of our approach in handling unaligned conditions, which performs favorably against recent methods and more importantly adds flexibility to the controllable image generation process. Our code will be available at: https://github.com/EnVision-Research/Decompose-and-Realign.
翻訳日:2023-12-16 04:41:46 公開日:2023-12-13
# 2次アルゴリズムを用いた高効率深部オートエンコーダの自動サイズとトレーニング

Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms ( http://arxiv.org/abs/2308.06221v2 )

ライセンス: Link先を確認
Kanishka Tyagi, Chinmay Rane, Michael Manry(参考訳) 一般化線形分類器を設計するための多段階学習法を提案する。 まず、回帰によって初期多クラス線形分類器が見つかる。 そして、不要な入力をプルーニングすることで検証誤差を最小化する。 同時に、望まれる出力はHo-Kashyapルールに似た方法で改善される。 次に、出力判別剤を一般化線形分類器におけるシグモダル出力単位のネット関数にスケールする。 次に,多層パーセプトロンのためのバッチ学習アルゴリズム群を開発し,その隠れ層サイズと学習エポック数の最適化を行う。 次に、育種と成長するアプローチを組み合わせる。 その後、入力ユニットは、mlpへの入力として供給されるsgmoidal output unitのネット関数としてスケールされる。 そこで我々は,深層アーキテクチャの全体的な性能を改善するために,各深層学習ブロックの改善を提案している。 ディープオートエンコーダの学習アルゴリズムに関する原理と定式化について議論する。 本稿では,訓練問題,ネットワークが線形であることの理論的,数学的,実験的正当化,各層に隠された単位数の最適化,深層学習モデルの深度決定など,深層オートエンコーダネットワークの諸問題について検討する。 現在の研究の直接的な意味は、デスクトップレベルの計算リソースを使用して高速ディープラーニングモデルを構築する能力である。 これは、私たちの意見では、小さくて強力なアルゴリズムを構築するというデザイン哲学を促進するものです。 それぞれのステップでパフォーマンス向上が示されます。 広く利用可能なデータセットを使用して、ファイナルネットワークの10フォールドテストエラーは、文献で報告されている他の線形、一般化線形分類器、多層パーセプトロン、深層学習者よりも少ないことが示されている。

We propose a multi-step training method for designing generalized linear classifiers. First, an initial multi-class linear classifier is found through regression. Then validation error is minimized by pruning of unnecessary inputs. Simultaneously, desired outputs are improved via a method similar to the Ho-Kashyap rule. Next, the output discriminants are scaled to be net functions of sigmoidal output units in a generalized linear classifier. We then develop a family of batch training algorithm for the multi layer perceptron that optimizes its hidden layer size and number of training epochs. Next, we combine pruning with a growing approach. Later, the input units are scaled to be the net function of the sigmoidal output units that are then feed into as input to the MLP. We then propose resulting improvements in each of the deep learning blocks thereby improving the overall performance of the deep architecture. We discuss the principles and formulation regarding learning algorithms for deep autoencoders. We investigate several problems in deep autoencoders networks including training issues, the theoretical, mathematical and experimental justification that the networks are linear, optimizing the number of hidden units in each layer and determining the depth of the deep learning model. A direct implication of the current work is the ability to construct fast deep learning models using desktop level computational resources. This, in our opinion, promotes our design philosophy of building small but powerful algorithms. Performance gains are demonstrated at each step. Using widely available datasets, the final network's ten fold testing error is shown to be less than that of several other linear, generalized linear classifiers, multi layer perceptron and deep learners reported in the literature.
翻訳日:2023-12-16 04:31:55 公開日:2023-12-13
# RGMComm:マルチエージェント強化学習における離散通信によるギャップ最小化

RGMComm: Return Gap Minimization Via Discrete Communications In Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.03358v4 )

ライセンス: Link先を確認
Jingdi Chen, Tian Lan(参考訳) マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。 既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存しており、通信オーバーヘッドが高く、解釈性が低い連続メッセージの生成につながっている。 離散的コミュニケーション手法の先行の試みはエージェントの行動の一部として訓練された1つのホットベクトルを生成し、勾配を計算するためにグンベル・ソフトマックス演算(gumbel softmax operation)を使用する。 本稿では、完全な可観測性を持つ理想的なポリシーと、離散的な通信を伴う最適部分可観測性ポリシーとの間のリターンギャップの上限を確立する。 この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。 リターンギャップを最小限に抑えるため、離散メッセージ生成関数の驚くほど単純な設計であり、クラスタリングメトリックとしてコサイン距離を組み込んだ新しい正規化情報最大化損失関数を用いて強化学習と統合されたReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。 評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大幅に上回り、自然に解釈可能な数ビットメッセージでほぼ最適なリターンを達成できることがわかった。

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in partially observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents, leading to the generation of continuous messages with high communication overhead and poor interpretability. Prior attempts at discrete communication methods generate one-hot vectors trained as part of agents' actions and use the Gumbel softmax operation for calculating gradients, which are all heuristic designs that do not provide any quantitative guarantees on the expected return. This paper establishes an upper bound on the return gap between an ideal policy with full observability and an optimal partially observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. To minimize the return gap, we propose the Return-Gap-Minimization Communication (RGMComm) algorithm, which is a surprisingly simple design of discrete message generation functions and is integrated with reinforcement learning through the utilization of a novel Regularized Information Maximization loss function, which incorporates cosine-distance as the clustering metric. Evaluations show that RGMComm significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly optimal returns with few-bit messages that are naturally interpretable.
翻訳日:2023-12-16 04:30:03 公開日:2023-12-13
# パフォーマティビティと展望フェアネス

Performativity and Prospective Fairness ( http://arxiv.org/abs/2310.08349v2 )

ライセンス: Link先を確認
Sebastian Zezulka and Konstantin Genin(参考訳) アルゴリズムに通知された政策の展開は、社会の構造への重要な介入である。 予測アルゴリズムの使用は、アルゴリズムが訓練されたものから社会的結果の分布をシフトさせることができる。 アルゴリズムフェアネスの研究は、通常、これらのパフォーマンス効果がトレーニングデータを引き起こす構造的不平等を悪化させるという懸念によって動機づけられる。 しかし、標準的なふりかえりの公平性方法論は、これらの効果を予測するのに不適当である。 予測アルゴリズムがトレーニングされた後に保持される静的公正性制約を課すが、それがデプロイされる前に、従って、パフォーマンス効果の前には、起動するチャンスがある。 しかし、トレーニング後の静的フェアネス基準を満たすことは、デプロイ後の不平等の悪化を避けるのに十分ではない。 アルゴリズム的公正を動機付ける基本的な懸念に対処するには、デプロイ前後の関連構造的不平等の変化を明示的に比較する必要がある。 本稿では,この後処理データからアルゴリズムポリシーに関する知識を推定するための予測手法を提案する。 これには、異なる種類のパフォーマンス効果を区別し、考慮する戦略が必要である。 本稿では,因果的下流結果変数に対するアルゴリズム的効果に着目した。 我々は、(1)最近失業した人のうちの誰が長期的に失業するかを予測するアルゴリズムの使用、(2)労働市場プログラムをターゲットとするアルゴリズムの使用など、公共行政からの申請によって導かれる。 我々は、こうした政策が労働市場の男女不平等を悪化させるかどうかを予測する方法を示した。

Deploying an algorithmically informed policy is a significant intervention in the structure of society. As is increasingly acknowledged, predictive algorithms have performative effects: using them can shift the distribution of social outcomes away from the one on which the algorithms were trained. Algorithmic fairness research is usually motivated by the worry that these performative effects will exacerbate the structural inequalities that gave rise to the training data. However, standard retrospective fairness methodologies are ill-suited to predict these effects. They impose static fairness constraints that hold after the predictive algorithm is trained, but before it is deployed and, therefore, before performative effects have had a chance to kick in. However, satisfying static fairness criteria after training is not sufficient to avoid exacerbating inequality after deployment. Addressing the fundamental worry that motivates algorithmic fairness requires explicitly comparing the change in relevant structural inequalities before and after deployment. We propose a prospective methodology for estimating this post-deployment change from pre-deployment data and knowledge about the algorithmic policy. That requires a strategy for distinguishing between, and accounting for, different kinds of performative effects. In this paper, we focus on the algorithmic effect on the causally downstream outcome variable. Throughout, we are guided by an application from public administration: the use of algorithms to (1) predict who among the recently unemployed will stay unemployed for the long term and (2) targeting them with labor market programs. We illustrate our proposal by showing how to predict whether such policies will exacerbate gender inequalities in the labor market.
翻訳日:2023-12-16 04:10:28 公開日:2023-12-13
# 拡散に基づく画像変化を利用した有毒データロバストトレーニング

Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data ( http://arxiv.org/abs/2310.06372v2 )

ライセンス: Link先を確認
Lukas Struppek, Martin B. Hentschel, Clifton Poth, Dominik Hintersdorf, Kristian Kersting(参考訳) バックドア攻撃は、モデルに隠れた機能を導入することによって、ニューラルネットワークのトレーニングに深刻なセキュリティ上の脅威をもたらす。 このようなバックドアは、クリーンな入力の推論中に静かであり、目立たない振る舞いによる検出を避ける。 しかし、入力データに特定のトリガーパターンが現れると、バックドアが起動し、モデルがその隠蔽された機能を実行する。 このような有毒なサンプルを膨大なデータセットで検出することは、手動検査によって事実上不可能である。 そこで本研究では,近年の拡散モデルのパワーを活用して,潜在的に有毒なデータセットのモデルトレーニングを可能にする手法を提案する。 具体的には、すべてのトレーニングサンプルの合成的なバリエーションを作成し、データ内の潜在的なトリガパターンに拡散モデルの固有のレジリエンスを活用します。 この生成的アプローチと知識蒸留を組み合わせることで,バックドアトリガーに対する頑健な抵抗を示しながら,タスクの一般的なパフォーマンスを維持する学生モデルを作成する。

Backdoor attacks pose a serious security threat for training neural networks as they surreptitiously introduce hidden functionalities into a model. Such backdoors remain silent during inference on clean inputs, evading detection due to inconspicuous behavior. However, once a specific trigger pattern appears in the input data, the backdoor activates, causing the model to execute its concealed function. Detecting such poisoned samples within vast datasets is virtually impossible through manual inspection. To address this challenge, we propose a novel approach that enables model training on potentially poisoned datasets by utilizing the power of recent diffusion models. Specifically, we create synthetic variations of all training samples, leveraging the inherent resilience of diffusion models to potential trigger patterns in the data. By combining this generative approach with knowledge distillation, we produce student models that maintain their general performance on the task while exhibiting robust resistance to backdoor triggers.
翻訳日:2023-12-16 04:10:01 公開日:2023-12-13
# 気候変動に関する知識の移転

Transferring climate change knowledge ( http://arxiv.org/abs/2309.14780v2 )

ライセンス: Link先を確認
Francesco Immorlano, Veronika Eyring, Thomas le Monnier de Gouville, Gabriele Accarino, Donatello Elia, Giovanni Aloisio and Pierre Gentine(参考訳) 正確な気候予測は、気候適応と緩和のために必要である。 気候変動の予測に用いられる地球系モデルシミュレーションは、温室効果ガス濃度の増加に対する地球平均温度の応答の不確かさの根底にある雲の形成のような、小規模の物理的過程の表現を本質的に近似する。 将来の予測を制約し、気候予測や気候フィードバックの不確実性を減らすために、歴史的観測を用いたいくつかのアプローチが開発されている。 しかし、これらの手法は気候システムに固有の非線形複雑性を捉えることができない。 トランスファーラーニング(Transfer Learning)アプローチを用いて,21世紀の地球モデルシミュレーションと歴史的観測から得られた知識を最適に活用し,マージし,地球表面温度場をより正確に予測できることを,機械学習,特にディープニューラルネットワークを用いて示す。 我々は,2081-2098年における5~95%の地球表面温度の不確実性範囲を,共有社会経済パスにおいて最大56%,52%に削減し,それぞれ,最先端のアプローチと気候変動に関する政府間パネルによる第6回評価報告について検討した。 我々は,本手法が気候適応に緊急に必要な,より正確な気象予測とともに,より狭いマルチモデル不確実性を提供することを示す。

Accurate climate projections are required for climate adaptation and mitigation. Earth system model simulations, used to project climate change, inherently make approximations in their representation of small-scale physical processes, such as the formation of clouds, that are at the root of the uncertainties in global mean temperature's response to increased greenhouse gas concentrations. Several approaches have been developed to use historical observations to constrain future projections and reduce uncertainties in climate projections and climate feedbacks. Yet those methods cannot capture the non-linear complexity inherent in the climate system. Using a Transfer Learning approach, we show that Machine Learning, in particular Deep Neural Networks, can be used to optimally leverage and merge the knowledge gained from Earth system model simulations and historical observations to more accurately project global surface temperature fields in the 21st century. We reach a reduction in the 5-95% uncertainty range of global surface air temperature in 2081-2098 of up to 56% and 52% - across the Shared Socioeconomic Pathways considered - with respect to state-of-the-art approaches and the Sixth Assessment Report from the Intergovernmental Panel on Climate Change, respectively. We give evidence that our novel method provides narrower multi-model uncertainty together with more accurate climate projections, urgently required for climate adaptation.
翻訳日:2023-12-16 04:06:20 公開日:2023-12-13
# 部分合成データを用いた機械学習による腫瘍のAmide Proton Transfer(APT)イメージング

Amide Proton Transfer (APT) imaging in tumor with a machine learning approach using partially synthetic data ( http://arxiv.org/abs/2311.01683v2 )

ライセンス: Link先を確認
Malvika Viswanathan, Leqi Yin, Yashwant Kurmi, Zhongliang Zu(参考訳) 機械学習(ML)は、化学交換飽和移動(CEST)効果の定量化にますます利用されている。 mlモデルは通常、測定データまたは完全なシミュレーションデータを使用して訓練される。 しかしながら、測定データによるトレーニングには十分なトレーニングデータがない場合が多いが、完全にシミュレートされたデータによるトレーニングは、限られたシミュレーションプールによるバイアスをもたらす可能性がある。 本研究は,シミュレーションと測定を組み合わせることで部分合成cestデータを生成し,アミドプロトン移動(apt)効果を予測するためのmlモデルのトレーニングの可能性を評価するための新しいプラットフォームを提案する。 部分合成CEST信号は, シミュレーションと他の成分によるAPT効果の逆和を用いて生成した。 シミュレーションの柔軟性と忠実さのバランスを保ちながら,様々なAPTシミュレーションパラメータとスケーリング係数を用いて測定成分を調整し,トレーニングデータを生成した。 まず, マルチプールモデルシミュレーションを用いて組織模倣CEST信号と地中真実情報を作成し, 評価を行った。 第2に、MLモデルは、部分合成データ、生体内データ、および完全にシミュレートされたデータに基づいて個別に訓練され、9L腫瘍を有するラット脳におけるAPT効果を予測する。 組織ミミキングデータを用いた実験では、部分合成データを用いたML法がAPT予測に正確であることが示唆された。 In vivo実験により,本手法は生体データと完全合成データを用いたトレーニングよりも正確で堅牢な予測を提供することが示された。 部分的に合成されたCESTデータは、従来のML手法の課題に対処することができる。

Machine learning (ML) has been increasingly used to quantify chemical exchange saturation transfer (CEST) effect. ML models are typically trained using either measured data or fully simulated data. However, training with measured data often lacks sufficient training data, while training with fully simulated data may introduce bias due to limited simulations pools. This study introduces a new platform that combines simulated and measured components to generate partially synthetic CEST data, and to evaluate its feasibility for training ML models to predict amide proton transfer (APT) effect. Partially synthetic CEST signals were created using an inverse summation of APT effects from simulations and the other components from measurements. Training data were generated by varying APT simulation parameters and applying scaling factors to adjust the measured components, achieving a balance between simulation flexibility and fidelity. First, tissue-mimicking CEST signals along with ground truth information were created using multiple-pool model simulations to validate this method. Second, an ML model was trained individually on partially synthetic data, in vivo data, and fully simulated data, to predict APT effect in rat brains bearing 9L tumors. Experiments on tissue-mimicking data suggest that the ML method using the partially synthetic data is accurate in predicting APT. In vivo experiments suggest that our method provides more accurate and robust prediction than the training using in vivo data and fully synthetic data. Partially synthetic CEST data can address the challenges in conventional ML methods.
翻訳日:2023-12-16 03:59:00 公開日:2023-12-13
# 素粒子物理学のためのニューラルネットワーク「19のパラメータ」

19 Parameters Is All You Need: Tiny Neural Networks for Particle Physics ( http://arxiv.org/abs/2310.16121v3 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, Jan T. Offermann(参考訳) 粒子加速器の衝突速度が向上し、ディープラーニングソリューションがその実現可能性を証明するにつれ、トリガーのような低レイテンシタスクのための軽量で高速なニューラルネットワークアーキテクチャの必要性が高まっている。 本稿では,最近のLorentz- and permutation-symmetric architectureであるPELICANの可能性を検証し,トップクォークジェットタグのバイナリ分類タスクと比較した場合に,数万のパラメータで汎用アーキテクチャを上回り,最大19個のトレーニング可能なパラメータを提示する。

As particle accelerators increase their collision rates, and deep learning solutions prove their viability, there is a growing need for lightweight and fast neural network architectures for low-latency tasks such as triggering. We examine the potential of one recent Lorentz- and permutation-symmetric architecture, PELICAN, and present its instances with as few as 19 trainable parameters that outperform generic architectures with tens of thousands of parameters when compared on the binary classification task of top quark jet tagging.
翻訳日:2023-12-16 03:56:08 公開日:2023-12-13
# 土地利用計画における効果的な政策の発見

Discovering Effective Policies for Land-Use Planning ( http://arxiv.org/abs/2311.12304v2 )

ライセンス: Link先を確認
Risto Miikkulainen, Olivier Francon, Daniel Young, Elliot Meyerson, Jacob Bieker, Hugo Cunha, and Babak Hodjat(参考訳) 森林、都市、農業など、異なる用途のためにどのように土地が配分されるかは、炭素収支に大きな影響を与える。 土地利用の変化に関する利用可能な履歴データと炭素排出・吸収のシミュレーションに基づいて、意思決定者に利用可能な異なる選択肢を効率的に評価できるサロゲートモデルを学ぶことができる。 進化的探索プロセスは、特定の場所に対する効果的な土地利用政策を発見するために使用できる。 このようなシステムはProject Resilienceプラットフォーム上に構築され、Land-Use HarmonizationデータセットとBLUEシミュレータで評価された。 それは、異なる場所にカスタマイズされた炭素の影響と変更量とをトレードオフするパレートフロントを生成し、土地利用計画に潜在的に有用なツールを提供する。

How areas of land are allocated for different uses, such as forests, urban, and agriculture, has a large effect on carbon balance, and therefore climate change. Based on available historical data on changes in land use and a simulation of carbon emissions/absorption, a surrogate model can be learned that makes it possible to evaluate the different options available to decision-makers efficiently. An evolutionary search process can then be used to discover effective land-use policies for specific locations. Such a system was built on the Project Resilience platform and evaluated with the Land-Use Harmonization dataset and the BLUE simulator. It generates Pareto fronts that trade off carbon impact and amount of change customized to different locations, thus providing a potentially useful tool for land-use planning.
翻訳日:2023-12-16 03:45:26 公開日:2023-12-13
# 自由飛行ロボットによる微小重力におけるマルチエージェント3次元マップ再構成と変化検出

Multi-Agent 3D Map Reconstruction and Change Detection in Microgravity with Free-Flying Robots ( http://arxiv.org/abs/2311.02558v2 )

ライセンス: Link先を確認
Holly Dinkel, Julia Di, Jamie Santos, Keenan Albee, Paulo Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, Trey Smith(参考訳) 国際宇宙ステーション(iss)のアストロビー(astrobee)ロボットなど、将来の有人宇宙基地を自律的に支援する無人飛行ロボットは、日々の内部変化を検出して在庫を追跡し、故障を検出して診断し、基地の状況を監視する必要がある。 本研究は,宇宙基地のロボット保守を実現するための多エージェント協調マッピングと変更検出のためのフレームワークを提案する。 1つのエージェントを用いて、画像のシーケンスと対応する深度情報から環境の3次元モデルを再構築する。 別のエージェントは、定期的に3Dモデルに対する不整合をスキャンするために使用される。 実際の画像を用いて調査を完了し、地上テスト環境およびISS内の微小重力下でアストローブロボットが収集したデータを合成した後、変更検出を検証する。 本研究は, マルチエージェント再構築システムにおける目的, 要件, アルゴリズムモジュールについて概説する。 ※留意点等貢献

Assistive free-flyer robots autonomously caring for future crewed outposts -- such as NASA's Astrobee robots on the International Space Station (ISS) -- must be able to detect day-to-day interior changes to track inventory, detect and diagnose faults, and monitor the outpost status. This work presents a framework for multi-agent cooperative mapping and change detection to enable robotic maintenance of space outposts. One agent is used to reconstruct a 3D model of the environment from sequences of images and corresponding depth information. Another agent is used to periodically scan the environment for inconsistencies against the 3D model. Change detection is validated after completing the surveys using real image and pose data collected by Astrobee robots in a ground testing environment and from microgravity aboard the ISS. This work outlines the objectives, requirements, and algorithmic modules for the multi-agent reconstruction system, including recommendations for its use by assistive free-flyers aboard future microgravity outposts. *Denotes Equal Contribution
翻訳日:2023-12-16 03:41:48 公開日:2023-12-13
# ロボット工学におけるトランスファー学習: 今後のブレークスルー? 約束と挑戦のレビュー

Transfer Learning in Robotics: An Upcoming Breakthrough? A Review of Promises and Challenges ( http://arxiv.org/abs/2311.18044v2 )

ライセンス: Link先を確認
No\'emie Jaquier, Michael C. Welle, Andrej Gams, Kunpeng Yao, Bernardo Fichera, Aude Billard, Ale\v{s} Ude, Tamim Asfour, Danica Kragic(参考訳) トランスファーラーニングは、真にインテリジェントなエンボディエージェントを追求する概念的なパラダイムである。 新たな状況から学び、そこから学ぶための事前知識の再利用という中心的な概念は、人間が新しい状況に対処するためにうまく活用されている。 近年では、模倣学習、ドメイン適応、シミュレーションから実世界への体験の移譲など、さまざまな視点からコミュニティから新たな関心を集めている。 本稿では,ロボット工学における伝達学習の概念を統一し,ロボット,タスク,環境といった重要な概念を考慮に入れた最初の分類法を提供する。 この分野における約束と課題のレビューを通じて、異なる抽象レベルでの転送の必要性、転送ギャップの定量化の必要性、転送品質、および負の転送の危険性を特定する。 この立場から,ロボット工学における伝達学習の可能性を実現するために,コミュニティの努力を最も重要な道路ブロックへと導いていくことを願っている。

Transfer learning is a conceptually-enticing paradigm in pursuit of truly intelligent embodied agents. The core concept -- reusing prior knowledge to learn in and from novel situations -- is successfully leveraged by humans to handle novel situations. In recent years, transfer learning has received renewed interest from the community from different perspectives, including imitation learning, domain adaptation, and transfer of experience from simulation to the real world, among others. In this paper, we unify the concept of transfer learning in robotics and provide the first taxonomy of its kind considering the key concepts of robot, task, and environment. Through a review of the promises and challenges in the field, we identify the need of transferring at different abstraction levels, the need of quantifying the transfer gap and the quality of transfer, as well as the dangers of negative transfer. Via this position paper, we hope to channel the effort of the community towards the most significant roadblocks to realize the full potential of transfer learning in robotics.
翻訳日:2023-12-16 03:34:08 公開日:2023-12-13
# すべての分散オブジェクトをセグメンテーションする

Segment Every Out-of-Distribution Object ( http://arxiv.org/abs/2311.16516v3 )

ライセンス: Link先を確認
Wenjie Zhao, Jia Li, Xin Dong, Yu Xiang, Yunhui Guo(参考訳) セマンティクスセグメンテーションモデルは、分散内カテゴリに有効であるが、分散外(ood)オブジェクトに遭遇するため、現実のデプロイメントにおける課題に直面している。 これらのOoDオブジェクトの検出は、安全クリティカルなアプリケーションに不可欠である。 既存の方法は異常スコアに依存しているが、マスクの生成に適したしきい値を選択することは困難であり、断片化や不正確性につながる可能性がある。 本稿では,意味的セグメンテーションにおけるOoD検出の簡易かつ効果的なフレームワークであるS2Mと呼ばれる,異常な \textbf{S}core \textbf{T}o セグメンテーションを変換する手法を提案する。 異常スコアをピクセルに割り当てるのとは異なり、S2MはOoDオブジェクト全体を直接セグメントする。 anomalyスコアをプロンプトに変換することで、s2mはしきい値選択の必要性をなくす。 大規模な実験により、S2MはIoUで約10%、平均F1スコアで30%、フィッシュスケープ、Segment-Me-If-You-Can、RoadAnomalyデータセットなど、さまざまなベンチマークでパフォーマンスが向上した。

Semantic segmentation models, while effective for in-distribution categories, face challenges in real-world deployment due to encountering out-of-distribution (OoD) objects. Detecting these OoD objects is crucial for safety-critical applications. Existing methods rely on anomaly scores, but choosing a suitable threshold for generating masks presents difficulties and can lead to fragmentation and inaccuracy. This paper introduces a method to convert anomaly \textbf{S}core \textbf{T}o segmentation \textbf{M}ask, called S2M, a simple and effective framework for OoD detection in semantic segmentation. Unlike assigning anomaly scores to pixels, S2M directly segments the entire OoD object. By transforming anomaly scores into prompts for a promptable segmentation model, S2M eliminates the need for threshold selection. Extensive experiments demonstrate that S2M outperforms the state-of-the-art by approximately 10% in IoU and 30% in mean F1 score, on average, across various benchmarks including Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets.
翻訳日:2023-12-16 03:33:10 公開日:2023-12-13
# リスク対応政策最適化のためのモデルに基づく評価値の変動

Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization ( http://arxiv.org/abs/2312.04386v2 )

ライセンス: Link先を確認
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。 特に,mdp上の分布によって引き起こされる値の分散を特徴付けることに着目する。 従来の作業は、いわゆる不確実ベルマン方程式(UBE)を解くことによって、値よりも後方の分散を上限とするが、過剰近似は非効率な探索をもたらす可能性がある。 提案手法は,値の真後分散に収束し,表層探査問題における後悔度を低下させる新しいUBEを提案する。 本稿では,UBE理論を表計算問題を超えて適用するための課題を特定し,適切な近似法を提案する。 この近似に基づいて, リスク・シーキングあるいはリスク回避政策最適化に最小限の変更で適用可能な, 汎用政策最適化アルゴリズム q-uncertainty soft actor-critic (qu-sac) を提案する。 オンラインRLとオフラインRLの両方の実験では、他の不確実性推定法と比較して性能が向上した。

We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation (UBE), but the over-approximation may result in inefficient exploration. We propose a new UBE whose solution converges to the true posterior variance over values and leads to lower regret in tabular exploration problems. We identify challenges to apply the UBE theory beyond tabular problems and propose a suitable approximation. Based on this approximation, we introduce a general-purpose policy optimization algorithm, Q-Uncertainty Soft Actor-Critic (QU-SAC), that can be applied for either risk-seeking or risk-averse policy optimization with minimal changes. Experiments in both online and offline RL demonstrate improved performance compared to other uncertainty estimation methods.
翻訳日:2023-12-16 03:22:06 公開日:2023-12-13
# 科学発見へのシンボリック回帰のためのトランスフォーマーモデル

A Transformer Model for Symbolic Regression towards Scientific Discovery ( http://arxiv.org/abs/2312.04070v2 )

ライセンス: Link先を確認
Florian Lalande, Yoshitomo Matsubara, Naoya Chiba, Tatsunori Taniai, Ryo Igarashi, Yoshitaka Ushiku(参考訳) 記号回帰(SR)は、数値データセットを最もよく記述する数学的表現を探索する。 これにより、人工ニューラルネットワーク固有の解釈問題を回避できるが、SRアルゴリズムはしばしば計算コストがかかる。 本研究は,特に科学的発見に焦点を絞った記号回帰を目的とした新しい変圧器モデルを提案する。 本研究では, 柔軟性を増すが, カラム置換等分散違反のコストがかかる3つのエンコーダアーキテクチャを提案する。 トレーニング結果は、過度な適合を防ぐために最も柔軟なアーキテクチャが必要であることを示している。 トレーニングが完了すると、最高のモデルをSRSDデータセット(Symbolic Regression for Scientific Discoveryデータセット)に適用し、正規化ツリーベースの編集距離を使用して最先端の結果を出力し、余分な計算コストを伴わない。

Symbolic Regression (SR) searches for mathematical expressions which best describe numerical datasets. This allows to circumvent interpretation issues inherent to artificial neural networks, but SR algorithms are often computationally expensive. This work proposes a new Transformer model aiming at Symbolic Regression particularly focused on its application for Scientific Discovery. We propose three encoder architectures with increasing flexibility but at the cost of column-permutation equivariance violation. Training results indicate that the most flexible architecture is required to prevent from overfitting. Once trained, we apply our best model to the SRSD datasets (Symbolic Regression for Scientific Discovery datasets) which yields state-of-the-art results using the normalized tree-based edit distance, at no extra computational cost.
翻訳日:2023-12-16 03:21:06 公開日:2023-12-13
# Alpha-CLIP: 好きな場所にフォーカスするCLIPモデル

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want ( http://arxiv.org/abs/2312.03818v2 )

ライセンス: Link先を確認
Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang(参考訳) コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。 テキスト的および視覚的なモダリティを調整し、特定のタスクに関係のないものも含め、画像全体を理解する。 しかし,画像の微妙な理解と編集のためには,人や知覚モデルによってポイント,マスク,ボックスとして表示できる特定の関心領域に焦点を当てることが重要である。 この要求を満たすために,我々は,補助アルファチャネル付きクリップの拡張版であるalpha-clipを導入し,注意領域の提案と,構築された数百万のrgbaリージョンテキストペアによる微調整を行った。 Alpha-CLIPは、CLIPの視覚的認識能力を保持するだけでなく、画像内容の強調を正確に制御できる。 オープンワールド認識、マルチモーダル大規模言語モデル、条件付き2d/3d生成など、さまざまなタスクにおいて有効性を示す。 画像関連タスクのための汎用ツールとして機能する可能性が強い。

Contrastive Language-Image Pre-training (CLIP) plays an essential role in extracting valuable content information from images across diverse tasks. It aligns textual and visual modalities to comprehend the entire image, including all the details, even those irrelevant to specific tasks. However, for a finer understanding and controlled editing of images, it becomes crucial to focus on specific regions of interest, which can be indicated as points, masks, or boxes by humans or perception models. To fulfill the requirements, we introduce Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to suggest attentive regions and fine-tuned with constructed millions of RGBA region-text pairs. Alpha-CLIP not only preserves the visual recognition ability of CLIP but also enables precise control over the emphasis of image contents. It demonstrates effectiveness in various tasks, including but not limited to open-world recognition, multimodal large language models, and conditional 2D / 3D generation. It has a strong potential to serve as a versatile tool for image-related tasks.
翻訳日:2023-12-16 03:20:52 公開日:2023-12-13
# コンコルディアを用いた身体的, 社会的, デジタル空間に接する行動による生成エージェントに基づくモデリング

Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia ( http://arxiv.org/abs/2312.03664v2 )

ライセンス: Link先を確認
Alexander Sasha Vezhnevets, John P. Agapiou, Avia Aharon, Ron Ziv, Jayd Matyas, Edgar A. Du\'e\~nez-Guzm\'an, William A. Cunningham, Simon Osindero, Danny Karmon, Joel Z. Leibo(参考訳) エージェントベースのモデリングは数十年前からあり、社会科学や自然科学に広く応用されている。 大規模言語モデル(LLM)によって提供される新しい余裕を吸収するため,本研究のスコープは劇的に拡大する傾向にある。 GABM(Generative Agent-Based Models)は、エージェントが互いに対話する従来のエージェントベースモデル(ABM)ではない。 GABMは、LCMを使用して、状況に共通感覚を適用し、"合理的に行動し、共通の意味知識をリコールし、アプリのようなデジタル技術を制御するためのAPIコールを生成し、シミュレーションと外部から見る研究者の両方に通信する。 本稿では,GABMの構築と作業を容易にするライブラリであるConcordiaを紹介する。 Concordiaは、物理的またはデジタル的な地上環境の言語によるシミュレーションを簡単に構築できる。 concordiaエージェントは、llm呼び出しと連想メモリ検索の2つの基本的な操作を仲介するフレキシブルなコンポーネントシステムを使用して振る舞いを生成する。 Game Master(GM)と呼ばれる特殊なエージェントは、テーブルトップロールプレイングゲームに触発され、エージェントが相互作用する環境をシミュレートする役割を担っている。 エージェントは自然言語で何をしたいのかを説明することで行動を起こす。 gmはそのアクションを適切な実装に翻訳する。 シミュレーションされた物理的世界では、GMはエージェントアクションの物理的妥当性を確認し、その効果を説明する。 アプリやサービスなどの技術をシミュレートするデジタル環境では、GMは一般的なAIアシスタント(Bard、ChatGPTなど)やデジタルアプリ(カレンダー、メール、検索など)といった外部ツールとの統合のためにAPIコールを処理することができる。 Concordiaは、科学研究と、ユーザをシミュレートしたり、合成データを生成することによって、実際のデジタルサービスの性能を評価するための幅広いアプリケーションをサポートするように設計されている。

Agent-based modeling has been around for decades, and applied widely across the social and natural sciences. The scope of this research method is now poised to grow dramatically as it absorbs the new affordances provided by Large Language Models (LLM)s. Generative Agent-Based Models (GABM) are not just classic Agent-Based Models (ABM)s where the agents talk to one another. Rather, GABMs are constructed using an LLM to apply common sense to situations, act "reasonably", recall common semantic knowledge, produce API calls to control digital technologies like apps, and communicate both within the simulation and to researchers viewing it from the outside. Here we present Concordia, a library to facilitate constructing and working with GABMs. Concordia makes it easy to construct language-mediated simulations of physically- or digitally-grounded environments. Concordia agents produce their behavior using a flexible component system which mediates between two fundamental operations: LLM calls and associative memory retrieval. A special agent called the Game Master (GM), which was inspired by tabletop role-playing games, is responsible for simulating the environment where the agents interact. Agents take actions by describing what they want to do in natural language. The GM then translates their actions into appropriate implementations. In a simulated physical world, the GM checks the physical plausibility of agent actions and describes their effects. In digital environments simulating technologies such as apps and services, the GM may handle API calls to integrate with external tools such as general AI assistants (e.g., Bard, ChatGPT), and digital apps (e.g., Calendar, Email, Search, etc.). Concordia was designed to support a wide array of applications both in scientific research and for evaluating performance of real digital services by simulating users and/or generating synthetic data.
翻訳日:2023-12-16 03:20:08 公開日:2023-12-13
# StoryGPT-V: 一貫性のあるストーリービジュアライザとしての大規模言語モデル

StoryGPT-V: Large Language Models as Consistent Story Visualizers ( http://arxiv.org/abs/2312.02252v2 )

ライセンス: Link先を確認
Xiaoqian Shen and Mohamed Elhoseiny(参考訳) 最近の生成モデルは、テキストのプロンプトに基づいて、リアルで視覚的に心地よい画像を生成する素晴らしい能力を示している。 それでも、ストーリー視覚化のより複雑なタスクにこれらのモデルを適用することには、大きな課題が残っている。 フレーム記述における代名詞(he, she, they)の分解、すなわちアナフォラ分解、フレーム間の一貫性のある文字と背景合成が必要である。 しかし、新興のLarge Language Model(LLM)は曖昧な参照をナビゲートし、広範囲なシーケンスを処理する堅牢な推論能力を示している。 そこで,本研究では,潜在拡散(LDM)とLDMの利点を利用して,与えられたストーリー記述に基づいて,一貫した高品質なキャラクタを持つ画像を生成する。 まず,文字認識意味埋め込みを入力として,文字セグメンテーションマスクを用いた横断地図の監督を含む文字認識ldmを訓練し,文字生成精度と忠実性の向上を目指す。 第2段階では、LLMの出力と第1段モデルの入力空間に存在する文字拡張埋め込みとのアライメントを可能にする。 これは、曖昧な参照に対処するllmの推論能力とコンテキストを記憶する理解能力を利用する。 我々は2つのビジュアルストーリー可視化ベンチマークについて包括的な実験を行う。 本モデルでは,より優れた定量化結果が得られ,メモリ消費の少ない顕著な品質のキャラクタを一貫して生成する。 私たちのコードは公開されます。

Recent generative models have demonstrated impressive capabilities in generating realistic and visually pleasing images grounded on textual prompts. Nevertheless, a significant challenge remains in applying these models for the more intricate task of story visualization. Since it requires resolving pronouns (he, she, they) in the frame descriptions, i.e., anaphora resolution, and ensuring consistent characters and background synthesis across frames. Yet, the emerging Large Language Model (LLM) showcases robust reasoning abilities to navigate through ambiguous references and process extensive sequences. Therefore, we introduce \textbf{StoryGPT-V}, which leverages the merits of the latent diffusion (LDM) and LLM to produce images with consistent and high-quality characters grounded on given story descriptions. First, we train a character-aware LDM, which takes character-augmented semantic embedding as input and includes the supervision of the cross-attention map using character segmentation masks, aiming to enhance character generation accuracy and faithfulness. In the second stage, we enable an alignment between the output of LLM and the character-augmented embedding residing in the input space of the first-stage model. This harnesses the reasoning ability of LLM to address ambiguous references and the comprehension capability to memorize the context. We conduct comprehensive experiments on two visual story visualization benchmarks. Our model reports superior quantitative results and consistently generates accurate characters of remarkable quality with low memory consumption. Our code will be made publicly available.
翻訳日:2023-12-16 03:19:14 公開日:2023-12-13
# Grassland Monitoringにおける説明可能なAI - モデルパフォーマンスとドメイン適応性の向上

Explainable AI in Grassland Monitoring: Enhancing Model Performance and Domain Adaptability ( http://arxiv.org/abs/2312.08408v1 )

ライセンス: Link先を確認
Shanghua Liu, Anna Hedstr\"om, Deepak Hanike Basavegowda, Cornelia Weltzien, Marina M.-C. H\"ohne(参考訳) 草原は高い生物多様性と複数の生態系サービスを提供する能力で知られている。 指標植物の自動識別の課題は、大規模な草地モニタリングの鍵となる障害である。 これらの課題は、広範なデータセットの不足、ジェネリックデータセットと草地固有のデータセットの分散シフト、深層学習モデルの固有の不透明さに起因している。 本稿では、この領域におけるXAIの新規性を強調し、トランスファーラーニングとeXPlainable Artificial Intelligence(XAI)アプローチを草地モニタリングに向け、後者の2つの課題について述べる。 汎用データと草地固有のデータセット間の分布的ギャップを埋めるために,様々な転送学習手法を解析した。 さらに、説明可能なai技術がモデルのドメイン適応能力をいかに明らかにできるかを、定量的評価を用いて、関心対象に関する適切な入力特徴を正確に集中するモデルの習熟度を評価するために紹介する。 この研究は、伝達学習と説明可能なAIによるドメイン適応性の測定を通じて、モデル性能を向上させるための貴重な洞察に寄与し、農業コミュニティにおける幅広い応用への大きな期待を示している。

Grasslands are known for their high biodiversity and ability to provide multiple ecosystem services. Challenges in automating the identification of indicator plants are key obstacles to large-scale grassland monitoring. These challenges stem from the scarcity of extensive datasets, the distributional shifts between generic and grassland-specific datasets, and the inherent opacity of deep learning models. This paper delves into the latter two challenges, with a specific focus on transfer learning and eXplainable Artificial Intelligence (XAI) approaches to grassland monitoring, highlighting the novelty of XAI in this domain. We analyze various transfer learning methods to bridge the distributional gaps between generic and grassland-specific datasets. Additionally, we showcase how explainable AI techniques can unveil the model's domain adaptation capabilities, employing quantitative assessments to evaluate the model's proficiency in accurately centering relevant input features around the object of interest. This research contributes valuable insights for enhancing model performance through transfer learning and measuring domain adaptability with explainable AI, showing significant promise for broader applications within the agricultural community.
翻訳日:2023-12-16 03:11:25 公開日:2023-12-13
# アースファシー:一モデルにおける垂直時空間力学系モデリング

Earthfarseer: Versatile Spatio-Temporal Dynamical Systems Modeling in One Model ( http://arxiv.org/abs/2312.08403v1 )

ライセンス: Link先を確認
Hao Wu, Shilong Wang, Yuxuan Liang, Zhengyang Zhou, Wei Huang, Wei Xiong, Kun Wang(参考訳) 時空間(ST)物理過程と観察を効果的にモデル化することは、ディープラーニングコミュニティにとって難しい問題である。 最近の多くの研究は細心の注意を払って様々な利点を調整し、単純でも実用的でもない設計モデルへと導いてきた。 そこで本研究では, 市販モデルが抱える既存の欠点について, 局所的忠実性の欠如, 長期にわたる予測性能の低下, スケーラビリティの低下, 効率の低下など, 系統的に検討した。 並列局所畳み込みとグローバルフーリエに基づくトランスフォーマーアーキテクチャを組み合わせて,局所的空間的相互作用と依存関係を動的にキャプチャする,簡潔なフレームワークであるearthfarseerを提案する。 EarthFarseerはまた、時間的進化を効率的に効果的に捉えるために、マルチスケールの完全な畳み込みとフーリエアーキテクチャも組み込んでいる。 本提案は,様々なタスクやデータセットにまたがる強い適応性を示し,長い時間ステップ予測において高速収束と局所的忠実性の向上をもたらす。 8つの人間社会の物理と自然の物理的データセットに関する広範囲な実験と可視化は、earthfarseerの最先端のパフォーマンスを示している。 私たちはコードをhttps://github.com/easylearningscores/earthfarseerでリリースします。

Efficiently modeling spatio-temporal (ST) physical processes and observations presents a challenging problem for the deep learning community. Many recent studies have concentrated on meticulously reconciling various advantages, leading to designed models that are neither simple nor practical. To address this issue, this paper presents a systematic study on existing shortcomings faced by off-the-shelf models, including lack of local fidelity, poor prediction performance over long time-steps,low scalability, and inefficiency. To systematically address the aforementioned problems, we propose an EarthFarseer, a concise framework that combines parallel local convolutions and global Fourier-based transformer architectures, enabling dynamically capture the local-global spatial interactions and dependencies. EarthFarseer also incorporates a multi-scale fully convolutional and Fourier architectures to efficiently and effectively capture the temporal evolution. Our proposal demonstrates strong adaptability across various tasks and datasets, with fast convergence and better local fidelity in long time-steps predictions. Extensive experiments and visualizations over eight human society physical and natural physical datasets demonstrates the state-of-the-art performance of EarthFarseer. We release our code at https://github.com/easylearningscores/EarthFarseer.
翻訳日:2023-12-16 03:11:05 公開日:2023-12-13
# LDM$^2$: 動的メモリ拡張による人間の認知を省略する大規模決定モデル

LDM$^2$: A Large Decision Model Imitating Human Cognition with Dynamic Memory Enhancement ( http://arxiv.org/abs/2312.08402v1 )

ライセンス: Link先を確認
Xingjin Wang, Linjing Li, Daniel Zeng(参考訳) 大規模言語モデル (LLM) の急速な発展に伴い,LLM は人工知能を実現するための決定を下すことができることが求められている。 ほとんどのアプローチでは、手作業による例を利用して、LLMに人間の意思決定プロセスを模倣するよう促している。 しかしながら、最適プロンプトの設計は困難であり、パターン化されたプロンプトはより複雑な環境に一般化できない。 本稿では,動的プロンプトを構築するために動的メモリ機構を活用するLarge Decision Model with Memory (LDM$^2$)を提案する。 LDM$^2$は、メモリ形成とメモリ改善の2段階からなる。 前段では、人間の行動はllmの強力な要約能力を利用して状態行動タプルに分解される。 そして、これらのタプルはllmによってインデックスが生成されるメモリに格納され、現在の状態に基づいて記憶されたタプルの最も関連するサブセットの検索を容易にする。 後者の段階では、LDM$^2$はツリー探索を利用して、より適切な決定プロセスを発見し、貴重なステートアクションタプルを追加することでメモリを豊かにする。 探索とメモリ拡張のダイナミックサークルは、グローバル環境をよりよく理解するためのldm$^2$を提供する。 2つのインタラクティブな環境で行った大規模な実験により, LDM$^2$がスコアと成功率の両方でベースラインを上回り, その効果が示された。

With the rapid development of large language models (LLMs), it is highly demanded that LLMs can be adopted to make decisions to enable the artificial general intelligence. Most approaches leverage manually crafted examples to prompt the LLMs to imitate the decision process of human. However, designing optimal prompts is difficult and the patterned prompts can hardly be generalized to more complex environments. In this paper, we propose a novel model named Large Decision Model with Memory (LDM$^2$), which leverages a dynamic memory mechanism to construct dynamic prompts, guiding the LLMs in making proper decisions according to the faced state. LDM$^2$ consists of two stages: memory formation and memory refinement. In the former stage, human behaviors are decomposed into state-action tuples utilizing the powerful summarizing ability of LLMs. Then, these tuples are stored in the memory, whose indices are generated by the LLMs, to facilitate the retrieval of the most relevant subset of memorized tuples based on the current state. In the latter stage, our LDM$^2$ employs tree exploration to discover more suitable decision processes and enrich the memory by adding valuable state-action tuples. The dynamic circle of exploration and memory enhancement provides LDM$^2$ a better understanding of the global environment. Extensive experiments conducted in two interactive environments have shown that our LDM$^2$ outperforms the baselines in terms of both score and success rate, which demonstrates its effectiveness.
翻訳日:2023-12-16 03:10:44 公開日:2023-12-13
# バランスと決定論的ウェイトシェアリングはネットワークパフォーマンスに役立つ

Balanced and Deterministic Weight-sharing Helps Network Performance ( http://arxiv.org/abs/2312.08401v1 )

ライセンス: Link先を確認
Oscar Chang, Hod Lipson(参考訳) 重み共有は、多くのディープニューラルネットワークの成功において、メモリ効率を向上し、ネットワークに問題に関する有用な帰納的事前を組み込むことで重要な役割を果たす。 しかし、一般的に重量共有をどのように効果的に利用できるかを理解することは、広く研究されていないトピックである。 チェンなど。 2015年]ニューラルネットワークの圧縮手法として,ハッシュテーブルを備えた多層パーセプトロンを拡張可能なhashednetsを提案する。 この手法を,効率的な任意の重み共有を可能にするフレームワーク(arbnets)に一般化し,ニューラルネットワークにおける重み共有の役割を研究するために使用する。 我々は、共通のニューラルネットワークを異なるハッシュ関数を持つ ArbNet として表現できることを示す。 また,2つの新しいハッシュ関数であるDirichletハッシュとNeighborhoodハッシュを提案し,バランスの取れた重み付けがニューラルネットワークの性能に与える影響を実験的に示す。

Weight-sharing plays a significant role in the success of many deep neural networks, by increasing memory efficiency and incorporating useful inductive priors about the problem into the network. But understanding how weight-sharing can be used effectively in general is a topic that has not been studied extensively. Chen et al. [2015] proposed HashedNets, which augments a multi-layer perceptron with a hash table, as a method for neural network compression. We generalize this method into a framework (ArbNets) that allows for efficient arbitrary weight-sharing, and use it to study the role of weight-sharing in neural networks. We show that common neural networks can be expressed as ArbNets with different hash functions. We also present two novel hash functions, the Dirichlet hash and the Neighborhood hash, and use them to demonstrate experimentally that balanced and deterministic weight-sharing helps with the performance of a neural network.
翻訳日:2023-12-16 03:10:20 公開日:2023-12-13
# アラビア語の文法的誤り訂正のためのLLMの評価

Beyond English: Evaluating LLMs for Arabic Grammatical Error Correction ( http://arxiv.org/abs/2312.08400v1 )

ライセンス: Link先を確認
Sang Yun Kwon, Gagan Bhatia, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) 大規模言語モデル(LLM)は、最近、様々な英語のNLPタスクにおいて重要な機能を示した。 しかし、文法的誤り訂正(GEC)におけるそれらの性能は、特に英語以外の言語では明らかに解明されていない。 本研究では,アラビア語の豊富な形態素による複雑な課題である,アラビア語 GEC における微調整 LLM の能力を評価する。 この結果から, GPT-4 はエキスパート・プロンプトで最大 65.49$ F$_{1}$ のスコア(確立したベースラインよりも約 5$ 高い値)を得ることができた。 これらのポジティブな結果にもかかわらず、命令の微調整モデルは、そのサイズに関わらず、サイズがかなり小さい場合でも、完全に微調整されたモデルではまだ優れています。 この格差は、LLMの大幅な改善の余地を浮き彫りにする。 また,低リソース機械翻訳の手法に触発されて,従来の2つの標準アラビア語ベンチマークのモデルを大きく上回る合成データを利用する手法を開発した。 私たちの最良のモデルは、2014年と2015年のqalbデータセットでそれぞれ73.29$と73.26$f$_{1}$のアラビアgecで新しいsotaを達成しています。

Large language models (LLMs) finetuned to follow human instruction have recently exhibited significant capabilities in various English NLP tasks. However, their performance in grammatical error correction (GEC), especially on languages other than English, remains significantly unexplored. In this work, we evaluate the abilities of instruction finetuned LLMs in Arabic GEC, a complex task due to Arabic's rich morphology. Our findings suggest that various prompting methods, coupled with (in-context) few-shot learning, demonstrate considerable effectiveness, with GPT-4 achieving up to $65.49$ F$_{1}$ score under expert prompting (approximately $5$ points higher than our established baseline). Despite these positive results, we find that instruction finetuned models, regardless of their size, are still outperformed by fully finetuned ones, even if they are significantly smaller in size. This disparity highlights substantial room for improvements for LLMs. Inspired by methods used in low-resource machine translation, we also develop a method exploiting synthetic data that significantly outperforms previous models on two standard Arabic benchmarks. Our best model achieves a new SOTA on Arabic GEC, with $73.29$ and $73.26$ F$_{1}$ on the 2014 and 2015 QALB datasets, respectively, compared to peer-reviewed published baselines.
翻訳日:2023-12-16 03:10:02 公開日:2023-12-13
# ハイパーネットワークの原理的重み初期化

Principled Weight Initialization for Hypernetworks ( http://arxiv.org/abs/2312.08399v1 )

ライセンス: Link先を確認
Oscar Chang, Lampros Flokas, Hod Lipson(参考訳) Hypernetworksは、エンドツーエンドの微分可能な方法でメインニューラルネットワークの重みを生成する、メタニューラルネットワークである。 マルチタスク学習からベイズ深層学習まで幅広い応用があるが、ハイパーネットワークの最適化の問題はこれまで研究されていない。 Grorot & Bengio (2010) や He et al. (2015) のような古典的なウェイト初期化法は、ハイパーネットに直接適用しても、正しいスケールでメインネットの重みを生成できない。 我々は,ハイパーネットにおける重み初期化の原理的な手法を開発し,より安定なメインネット重み,低いトレーニング損失,より高速な収束をもたらすことを示す。

Hypernetworks are meta neural networks that generate weights for a main neural network in an end-to-end differentiable manner. Despite extensive applications ranging from multi-task learning to Bayesian deep learning, the problem of optimizing hypernetworks has not been studied to date. We observe that classical weight initialization methods like Glorot & Bengio (2010) and He et al. (2015), when applied directly on a hypernet, fail to produce weights for the mainnet in the correct scale. We develop principled techniques for weight initialization in hypernets, and show that they lead to more stable mainnet weights, lower training loss, and faster convergence.
翻訳日:2023-12-16 03:09:37 公開日:2023-12-13
# 勾配の共有によるメタラーニングの高速化

Accelerating Meta-Learning by Sharing Gradients ( http://arxiv.org/abs/2312.08398v1 )

ライセンス: Link先を確認
Oscar Chang, Hod Lipson(参考訳) 勾配に基づくメタラーニングの成功は、タスク不変情報を学ぶために関連するタスクを活用する能力が主な原因である。 しかし、内部ループに異なるタスク間の相互作用がないことは、メタトレーニングの初期段階でタスク固有の過剰フィッティングにつながる。 最終的には、これらの相互作用が外ループに存在することによって修正されるが、メタ学習を遅くするかなりのコストがかかる。 この制限に対処するために,マルチタスク学習に触発された内部ループ正規化機構を通じて,タスク関連性を明示的にエンコードする。 提案アルゴリズムは,以前遭遇したタスクと同一タスクバッチ内の並行タスクの勾配情報を共有し,メタ学習パラメータによるコントリビューションをスケールする。 今回我々は,2つの人気のあるマイナショット分類データセットを用いて,グラデーション共有によって内部ループ学習率の増大によるメタ学習が可能となり,最大134%のメタトレーニングプロセスを高速化できることを示す。

The success of gradient-based meta-learning is primarily attributed to its ability to leverage related tasks to learn task-invariant information. However, the absence of interactions between different tasks in the inner loop leads to task-specific over-fitting in the initial phase of meta-training. While this is eventually corrected by the presence of these interactions in the outer loop, it comes at a significant cost of slower meta-learning. To address this limitation, we explicitly encode task relatedness via an inner loop regularization mechanism inspired by multi-task learning. Our algorithm shares gradient information from previously encountered tasks as well as concurrent tasks in the same task batch, and scales their contribution with meta-learned parameters. We show using two popular few-shot classification datasets that gradient sharing enables meta-learning under bigger inner loop learning rates and can accelerate the meta-training process by up to 134%.
翻訳日:2023-12-16 03:09:22 公開日:2023-12-13
# 心のモデリング理論と説明可能な強化学習に基づくパーソナライズド意思決定支援

Personalized Decision Supports based on Theory of Mind Modeling and Explainable Reinforcement Learning ( http://arxiv.org/abs/2312.08397v1 )

ライセンス: Link先を確認
Huao Li, Yao Fan, Keyang Zheng, Michael Lewis, Katia Sycara(参考訳) 本稿では,心の理論(tom)モデルと説明可能強化学習(xrl)を組み合わせて,効果的かつ解釈可能な介入を提供するパーソナライズド意思決定支援システムを提案する。 本手法はDRLを活用し,ToMモデリングを応用してユーザの精神状態を理解し,今後の行動を予測し,介入の適切なタイミングを可能にする。 介入を説明するために,RLの特徴的重要性とユーザによるToMモデル構造に基づく実例説明を用いる。 提案システムは,エンドユーザが容易に解釈可能な,正確でパーソナライズされた介入を生成する。 シミュレーションしたチーム意思決定タスクにおけるクラウドソーシング実験を通じて,本手法の有効性を実証する。 提案手法はタスク環境やrlモデル構造に依存せず,幅広いアプリケーションに適用できる可能性を持っている。

In this paper, we propose a novel personalized decision support system that combines Theory of Mind (ToM) modeling and explainable Reinforcement Learning (XRL) to provide effective and interpretable interventions. Our method leverages DRL to provide expert action recommendations while incorporating ToM modeling to understand users' mental states and predict their future actions, enabling appropriate timing for intervention. To explain interventions, we use counterfactual explanations based on RL's feature importance and users' ToM model structure. Our proposed system generates accurate and personalized interventions that are easily interpretable by end-users. We demonstrate the effectiveness of our approach through a series of crowd-sourcing experiments in a simulated team decision-making task, where our system outperforms control baselines in terms of task performance. Our proposed approach is agnostic to task environment and RL model structure, therefore has the potential to be generalized to a wide range of applications.
翻訳日:2023-12-16 03:09:07 公開日:2023-12-13
# 効率的な変動ハミルトンアンザッツに対する通勤群の利用

Leveraging commuting groups for an efficient variational Hamiltonian ansatz ( http://arxiv.org/abs/2312.08502v1 )

ライセンス: Link先を確認
Abhinav Anand and Kenneth R. Brown(参考訳) パウリ作用素の和として書かれるハミルトニアンの低次固有値の効率的な計算は、量子コンピューティングにおける根本的な課題である。 このタスクのための量子回路の複雑さを減らすために様々な方法が提案されているが、さらなる改善の余地がある。 本稿では、ハミルトニアン系量子回路の回路複雑性をさらに低減するために、ハミルトニアン内の通勤群を用いた新しい回路設計を提案する。 我々のアプローチでは、ポーリ演算子を相互に通勤するクラスタに分割し、各クラスタを対角化するクリフォードユニタリを見つける。 次に、これらのクリフォードユニタリを用いてクラスタ間の効率的な切り替えを行うansatzを設計し、各クラスタのパラメータ化された単一キュービット回転の層を補完する。 数値シミュレーションにより,異なる量子化学ハミルトニアンの基底状態エネルギーを正確に決定する手法の有効性を実証する。 その結果,様々な量子コンピューティングアプリケーションに対する問題に触発されたansatzの設計手法の適用可能性と可能性について考察した。

Efficiently calculating the low-lying eigenvalues of Hamiltonians, written as sums of Pauli operators, is a fundamental challenge in quantum computing. While various methods have been proposed to reduce the complexity of quantum circuits for this task, there remains room for further improvement. In this article, we introduce a new circuit design using commuting groups within the Hamiltonian to further reduce the circuit complexity of Hamiltonian-based quantum circuits. Our approach involves partitioning the Pauli operators into mutually commuting clusters and finding Clifford unitaries that diagonalize each cluster. We then design an ansatz that uses these Clifford unitaries for efficient switching between the clusters, complemented by a layer of parameterized single qubit rotations for each individual cluster. By conducting numerical simulations, we demonstrate the effectiveness of our method in accurately determining the ground state energy of different quantum chemistry Hamiltonians. Our results highlight the applicability and potential of our approach for designing problem-inspired ansatz for various quantum computing applications.
翻訳日:2023-12-16 03:02:51 公開日:2023-12-13
# 大規模実世界の臨床テキストデータセットの自動復号化

Beyond Accuracy: Automated De-Identification of Large Real-World Clinical Text Datasets ( http://arxiv.org/abs/2312.08495v1 )

ライセンス: Link先を確認
Veysel Kocaman, Hasham Ul Haq, David Talby(参考訳) 最近の研究は、研究データセットのフリーテキスト臨床ノートを非識別するための人間レベルの正確性を実現するが、大規模な実世界での再現にはギャップがある。 本稿では,10億以上の実際の臨床ノートを完全に自動化して識別するシステムの構築から得られた教訓を要約する。 完全に自動化されたソリューションは、手動レビューを必要としない非常に高いレベルの精度を必要とする。 ハイブリッドコンテキストベースのモデルアーキテクチャは、i2b2-2014ベンチマークで10%だけ、名前付きエンティティ認識(NER)よりも優れている。 提案されたシステムは、比較対象のAWS、Azure、GCPサービスよりも50%、475%、および575%エラーを削減し、ChatGPTを33%上回っている。 微調整を必要とせず、7つのヨーロッパ言語にまたがるセンシティブなデータカバレッジは98%を超えている。 第2のモデルでは、名前、日付、性別、臨床、フォーマットの整合性を保ちながら、機密データをランダムな代理に置き換える、データ難読化を可能にする。 実用的ニーズと信頼性のある匿名化されたドキュメントを提供するソリューションアーキテクチャについて説明する。

Recent research advances achieve human-level accuracy for de-identifying free-text clinical notes on research datasets, but gaps remain in reproducing this in large real-world settings. This paper summarizes lessons learned from building a system used to de-identify over one billion real clinical notes, in a fully automated way, that was independently certified by multiple organizations for production use. A fully automated solution requires a very high level of accuracy that does not require manual review. A hybrid context-based model architecture is described, which outperforms a Named Entity Recogniton (NER) - only model by 10% on the i2b2-2014 benchmark. The proposed system makes 50%, 475%, and 575% fewer errors than the comparable AWS, Azure, and GCP services respectively while also outperforming ChatGPT by 33%. It exceeds 98% coverage of sensitive data across 7 European languages, without a need for fine tuning. A second set of described models enable data obfuscation -- replacing sensitive data with random surrogates -- while retaining name, date, gender, clinical, and format consistency. Both the practical need and the solution architecture that provides for reliable & linked anonymized documents are described.
翻訳日:2023-12-16 03:02:14 公開日:2023-12-13
# PerMod:潜在拡散モデルを用いた知覚的音声修正

PerMod: Perceptually Grounded Voice Modification with Latent Diffusion Models ( http://arxiv.org/abs/2312.08494v1 )

ライセンス: Link先を確認
Robin Netzorg, Ajil Jalal, Luna McNulty, Gopala Krishna Anumanchipalli(参考訳) 音声の知覚的修正は、難解な目標である。 非専門家は、利用可能なツールでイメージや文を知覚的に修正することができるが、知覚軸に沿って音声を同じように修正する方法は明確ではない。 音声変換は、ある声を別の声に変換することができるが、これらの修正はブラックボックスモデルによって処理される。 入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルであるpermodを導入し、それと一致する知覚品質を持つ音声を生成する。 以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。 人間と予測されたラベルからRMSEを用いて知覚品質ベクターを評価することで、PerModが典型的音声に対して所望の知覚品質を持つ音声を生成できるが、非定型音声では不十分であることを示す。

Perceptual modification of voice is an elusive goal. While non-experts can modify an image or sentence perceptually with available tools, it is not clear how to similarly modify speech along perceptual axes. Voice conversion does make it possible to convert one voice to another, but these modifications are handled by black box models, and the specifics of what perceptual qualities to modify and how to modify them are unclear. Towards allowing greater perceptual control over voice, we introduce PerMod, a conditional latent diffusion model that takes in an input voice and a perceptual qualities vector, and produces a voice with the matching perceptual qualities. Unlike prior work, PerMod generates a new voice corresponding to specific perceptual modifications. Evaluating perceptual quality vectors with RMSE from both human and predicted labels, we demonstrate that PerMod produces voices with the desired perceptual qualities for typical voices, but performs poorly on atypical voices.
翻訳日:2023-12-16 03:01:54 公開日:2023-12-13
# マルコフモデルにおける時間依存パラメータの深層学習に基づく推定と非線形回帰とSDEへの応用

Deep learning-based estimation of time-dependent parameters in Markov models with application to nonlinear regression and SDEs ( http://arxiv.org/abs/2312.08493v1 )

ライセンス: Link先を確認
Andrzej Ka{\l}u\.za, Pawe{\l} M. Morkisz, Bart{\l}omiej Mulewicz, Pawe{\l} Przyby{\l}owicz and Martyna Wi\k{a}cek(参考訳) 本稿では,マルコフ過程の時間依存パラメータを離散サンプリングにより推定する新しい深層学習手法を提案する。 従来の機械学習とは別に,パラメータ近似を最大極大手法を用いて最適化問題として再設定する。 実験的検証は多変量回帰および確率微分方程式(SDE)におけるパラメータ推定に焦点をあてる。 理論的には、実際の解はSDEに近く、パラメータはニューラルネットワークから特定の条件下で近似されている。 本研究は,SDEに基づくモデルパラメータ推定に寄与し,多種多様な分野の汎用ツールを提供する。

We present a novel deep learning method for estimating time-dependent parameters in Markov processes through discrete sampling. Departing from conventional machine learning, our approach reframes parameter approximation as an optimization problem using the maximum likelihood approach. Experimental validation focuses on parameter estimation in multivariate regression and stochastic differential equations (SDEs). Theoretical results show that the real solution is close to SDE with parameters approximated using our neural network-derived under specific conditions. Our work contributes to SDE-based model parameter estimation, offering a versatile tool for diverse fields.
翻訳日:2023-12-16 03:01:37 公開日:2023-12-13
# 予測可能な頂点障害に対するコネクティビティオラクル

Connectivity Oracles for Predictable Vertex Failures ( http://arxiv.org/abs/2312.08489v1 )

ライセンス: Link先を確認
Bingbing Hu, Evangelos Kosinas, Adam Polak(参考訳) 頂点障害をサポートする接続オーラクルを設計する問題は、無向グラフの基本的なデータ構造問題の一つである。 先行研究[Duan-Pettie STOC'10; Long-Saranurak FOCS'22] は、失敗した頂点数でクエリ時間線形を達成しており、グラフのサイズで前処理時間多項式、失敗した頂点数で更新時間多項式を必要とする限り条件的に最適である。 我々は、この問題を予測を伴うアルゴリズムのパラダイムで再考する: 失敗する頂点のセットを、少数のエラーまで事前に予測できれば、クエリ時間を改善することができるかどうかを問う。 More specifically, we design a data structure that, given a graph $G=(V,E)$ and a set of vertices predicted to fail $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ and then can receive an update given as the symmetric difference between the predicted and the actual set of failed vertices $\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, process it in time $\tilde{O}(\eta^4)$, and after that answer connectivity queries in $G \setminus D$ in time $O(\eta)$. 別の観点から見ると、我々のデータ構造は \emph{sensitivity setting} [Henzinger--Neumann ESA'16] における \emph{fully dynamic subgraph connection problem} の技法の状態を改善します。 データ構造の前処理時間とクエリ時間は、標準的なきめ細かい複雑性仮定の下で条件的に最適である。

The problem of designing connectivity oracles supporting vertex failures is one of the basic data structures problems for undirected graphs. It is already well understood: previous works [Duan--Pettie STOC'10; Long--Saranurak FOCS'22] achieve query time linear in the number of failed vertices, and it is conditionally optimal as long as we require preprocessing time polynomial in the size of the graph and update time polynomial in the number of failed vertices. We revisit this problem in the paradigm of algorithms with predictions: we ask if the query time can be improved if the set of failed vertices can be predicted beforehand up to a small number of errors. More specifically, we design a data structure that, given a graph $G=(V,E)$ and a set of vertices predicted to fail $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ and then can receive an update given as the symmetric difference between the predicted and the actual set of failed vertices $\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, process it in time $\tilde{O}(\eta^4)$, and after that answer connectivity queries in $G \setminus D$ in time $O(\eta)$. Viewed from another perspective, our data structure provides an improvement over the state of the art for the \emph{fully dynamic subgraph connectivity problem} in the \emph{sensitivity setting} [Henzinger--Neumann ESA'16]. We argue that the preprocessing time and query time of our data structure are conditionally optimal under standard fine-grained complexity assumptions.
翻訳日:2023-12-16 03:01:28 公開日:2023-12-13
# 二次元ポーズ推定のためのpnp

PnP for Two-Dimensional Pose Estimation ( http://arxiv.org/abs/2312.08488v1 )

ライセンス: Link先を確認
Joshua Wang(参考訳) 本研究では,2次元移動に制約されたカメラのためのpnpアルゴリズムを提案する(例えば,多くの車輪型ロボットプラットフォームに適用できる)。 この仮定を活用すれば,探索空間次元の削減による3d pnpアルゴリズムのパフォーマンス向上が可能になる。 また、曖昧なポーズ推定の発生率も減少させる(多くの場合、スプリアス解は運動面の外側に落ちる)。 本アルゴリズムは,幾何基準を用いて近似解を求め,その予測を反復的に洗練する。 このアルゴリズムを既存の3d pnpアルゴリズムと比較し,コプレーナ点配置とコプランナ点配置の場合と比較した。

We propose a PnP algorithm for a camera constrained to two-dimensional movement (applicable, for instance, to many wheeled robotics platforms). Leveraging this assumption allows performance improvements over 3D PnP algorithms due to the reduction in search space dimensionality. It also reduces the incidence of ambiguous pose estimates (as, in most cases, the spurious solutions fall outside the plane of movement). Our algorithm finds an approximate solution using geometric criteria and refines its prediction iteratively. We compare this algorithm to existing 3D PnP algorithms in the cases of general and coplanar point configurations.
翻訳日:2023-12-16 03:00:54 公開日:2023-12-13
# 子宮内膜癌分類のための視覚トランスフォーマーを用いた深部学習

Vision Transformer-Based Deep Learning for Histologic Classification of Endometrial Cancer ( http://arxiv.org/abs/2312.08479v1 )

ライセンス: Link先を確認
Manu Goyal, Laura J. Tafe, James X. Feng, Kristen E. Muller, Liesbeth Hondelink, Jessica L. Bentz, Saeed Hassanpour(参考訳) 子宮内膜癌は、世界で6番目に多い女性がんであり、特定のタイプが再発しやすい異種集団である。 子宮内膜癌の正確な組織学的評価は, 効果的な患者管理と治療方法の決定に不可欠である。 本研究では,子宮内膜癌の組織学的分類のためのトランスフォーマーベースディープラーニングアプローチであるEndoNetを紹介する。 endonetは畳み込みニューラルネットワークを使用して組織の特徴を抽出し、視覚トランスフォーマはこれらの特徴を集約し、その視覚特性に基づいてスライドを分類する。 このモデルは、ダートマス・ヘルス(dartmouth health)の子宮内膜癌に対する929デジタイズドヘマトキシリンとエオシンによる全スライド画像で訓練された。 これらのスライドは,低等級 (Endometroid Grades 1, 2) と高等級 (Endometroid carcinoma FIGO grade 3, 子宮体質癌, 癌肉腫) に分類される。 EndoNetは、218のスライドの内部テストセットと、パブリックTCGAデータベースから100のランダムスライドの外部テストセットで評価された。 モデルでは、F1スコアは平均0.92(95% CI: 0.87-0.95)、AUCは内部試験で0.93(95% CI: 0.88-0.96)、F1スコアでは0.86(95% CI: 0.80-0.94)、AUCは外部試験で0.86(95% CI: 0.75-0.93)であった。 さらなる検証を控えて、EndoNetは、難治性婦人科腫瘍の分類と患者ケアの強化を支援することができる。

Endometrial cancer, the sixth most common cancer in females worldwide, presents as a heterogeneous group with certain types prone to recurrence. Precise histologic evaluation of endometrial cancer is essential for effective patient management and determining the best treatment modalities. This study introduces EndoNet, a transformer-based deep learning approach for histologic classification of endometrial cancer. EndoNet uses convolutional neural networks for extracting histologic features and a vision transformer for aggregating these features and classifying slides based on their visual characteristics. The model was trained on 929 digitized hematoxylin and eosin-stained whole slide images of endometrial cancer from hysterectomy cases at Dartmouth Health. It classifies these slides into low grade (Endometroid Grades 1 and 2) and high-grade (endometroid carcinoma FIGO grade 3, uterine serous carcinoma, carcinosarcoma) categories. EndoNet was evaluated on an internal test set of 218 slides and an external test set of 100 random slides from the public TCGA database. The model achieved a weighted average F1-score of 0.92 (95% CI: 0.87-0.95) and an AUC of 0.93 (95% CI: 0.88-0.96) on the internal test, and 0.86 (95% CI: 0.80-0.94) for F1-score and 0.86 (95% CI: 0.75-0.93) for AUC on the external test. Pending further validation, EndoNet has the potential to assist pathologists in classifying challenging gynecologic pathology tumors and enhancing patient care.
翻訳日:2023-12-16 03:00:45 公開日:2023-12-13
# e&v: 擬似コードの実行と検証による静的解析を大規模言語モデルに促す

E&V: Prompting Large Language Models to Perform Static Analysis by Pseudo-code Execution and Verification ( http://arxiv.org/abs/2312.08477v1 )

ライセンス: Link先を確認
Yu Hao, Weiteng Chen, Ziqiao Zhou, Weidong Cui(参考訳) 静的分析は、実行せずにコードを検査するプロセスであり、ソフトウェアの問題を特定するのに不可欠である。 しかし、静的解析はその複雑さと異なるターゲットのカスタマイズの必要性によって妨げられている。 従来の静的解析ツールは広範囲の人的努力を必要とし、しばしば特定のターゲットプログラムやプログラミング言語に限られる。 GPT-4やLlamaのようなLLM(Large Language Models)の最近の進歩は、ソフトウェアエンジニアリングタスクに新たな機能を提供する。 しかし、静的解析、特に複雑なコード構造を理解するための応用は、まだ検討されていない。 本稿では,LLMを利用して静的解析を行うE&Vという新しい手法を提案する。 特に、e&vは、擬似コードの実行をシミュレートするためにllmsを使用し、擬似コードにエンコードされた静的解析を最小限の労力で効果的に実行し、結果の精度を向上させる。 E&Vは、外部のオラクルを必要としない疑似コード実行の検証プロセスを含む。 このプロセスにより、E&V は LLM の幻覚を緩和し、静的解析結果の精度を高めることができる。 後方テート解析により衝突をトリアージするプロトタイプツールとしてE&Vを実装した。 GPT-4-32kと組み合わせたこのプロトタイプは、7つのバグカテゴリで最近修正された170のLinuxカーネルバグをトリアージしている。 本実験は, 81.2%の症例において, 原因関数を正しく同定することを示した。 さらに,新たな検証プロセスにより精度が向上し,28.2%から81.2%に向上した。

Static analysis, the process of examining code without executing it, is crucial for identifying software issues. Yet, static analysis is hampered by its complexity and the need for customization for different targets. Traditional static analysis tools require extensive human effort and are often limited to specific target programs and programming languages. Recent advancements in Large Language Models (LLMs), such as GPT-4 and Llama, offer new capabilities for software engineering tasks. However, their application in static analysis, especially in understanding complex code structures, remains under-explored. This paper introduces a novel approach named E&V , which leverages LLMs to perform static analysis. Specifically, E&V employs LLMs to simulate the execution of pseudo-code, effectively conducting static analysis encoded in the pseudo-code with minimal human effort, thereby improving the accuracy of results. E&V includes a verification process for pseudo-code execution without needing an external oracle. This process allows E&V to mitigate hallucinations of LLMs and enhance the accuracy of static analysis results. We have implemented E&V in a prototype tool designed for triaging crashes through backward taint analysis. This prototype, paired with GPT-4-32k, has been applied to triage 170 recently fixed Linux kernel bugs across seven bug categories. Our experiments demonstrate that the prototype correctly identifies the blamed function in 81.2% of the cases. Additionally, we observe that our novel verification process significantly improves the accuracy, increasing it from 28.2% to 81.2%.
翻訳日:2023-12-16 03:00:11 公開日:2023-12-13
# 絡み合う深さの完全絡み合った部分空間 $k$

Completely entangled subspaces of entanglement depth $k$ ( http://arxiv.org/abs/2312.08474v1 )

ライセンス: Link先を確認
Maciej Demianowicz, Kajetan Vogtt, and Remigiusz Augusiak(参考訳) 我々は、エンタングル部分空間の新たなクラス -- エンタングル深さの完全エンタングル部分空間 $k$ (k$-cess) を導入する。 これらは多部ヒルベルト空間の部分空間であり、絡み合い深さが少なくとも$k$である純粋状態のみを含む。 マルチパーティのシナリオで達成可能な次元の$k$-CESを効率的に構築する。 さらに、これらの部分空間と拡張不可能な製品ベース(UPB)との関係について論じる。 特に、直補集合が$k$-CESである UPB の濃度に非自明な境界が存在することを証明している。 さらに、量子ビットシステムにおけるそのような UPB の存在について論じる。

We introduce a new class of entangled subspaces -- completely entangled subspaces of entanglement depth $k$ ($k$-CESs). These are subspaces of multipartite Hilbert spaces containing only pure states with the entanglement depth at least $k$. We present an efficient construction of $k$-CESs of any achievable dimensionality in any multipartite scenario. Further, we discuss the relation between these subspaces and unextendible product bases (UPBs). In particular, we establish that there is a non-trivial bound on the cardinality of a UPB whose orthocomplement is a $k$-CES. Further, we discuss existence of such UPBs for qubit systems.
翻訳日:2023-12-16 02:59:47 公開日:2023-12-13
# AutoNumerics-Zero: 最先端数学関数の自動発見

AutoNumerics-Zero: Automated Discovery of State-of-the-Art Mathematical Functions ( http://arxiv.org/abs/2312.08472v1 )

ライセンス: Link先を確認
Esteban Real, Yao Chen, Mirko Rossini, Connal de Souza, Manav Garg, Akhil Verghese, Moritz Firsching, Quoc V. Le, Ekin Dogus Cubuk, David H. Park(参考訳) コンピュータは、いくつかの限定精度命令の合成を通じてそれらを近似することで超越関数を計算する。 例えば、指数関数はテイラー級数で計算できる。 これらの近似法は数世紀にわたって数学者によって開発され、任意の精度の達成性を強調した。 しかし、コンピュータは、人気のあるfloat32のような限られた精度のタイプでしか動作しない。 本研究では, 限られた精度を目標として, 既存の近似手法を, 単純な進化的アルゴリズムによって, スクラッチから自動的に検出されるプログラムに勝ることを示す。 特に実数上において、本手法は、与えられた演算数の精度が従来の手法に比べて桁違いに高い指数関数を近似することができる。 より現実的には、float32の数値を1ULP未満のエラーに制限し、同じメソッドは、より良いXLA/LLVMコンパイルパスをトリガーするコードを生成することによって、ベースラインを高速化する。 言い換えれば、どちらの場合も、進化は数学の知識のない膨大なプログラムの空間を探索し、これまで未知の最適化された近似を高い精度で初めて発見した。 また、これらの結果は指数を超えているという証拠を与える。 超越関数の普遍性から,本手法は科学計算のコストを低減できる可能性が示唆された。

Computers calculate transcendental functions by approximating them through the composition of a few limited-precision instructions. For example, an exponential can be calculated with a Taylor series. These approximation methods were developed over the centuries by mathematicians, who emphasized the attainability of arbitrary precision. Computers, however, operate on few limited precision types, such as the popular float32. In this study, we show that when aiming for limited precision, existing approximation methods can be outperformed by programs automatically discovered from scratch by a simple evolutionary algorithm. In particular, over real numbers, our method can approximate the exponential function reaching orders of magnitude more precision for a given number of operations when compared to previous approaches. More practically, over float32 numbers and constrained to less than 1 ULP of error, the same method attains a speedup over baselines by generating code that triggers better XLA/LLVM compilation paths. In other words, in both cases, evolution searched a vast space of possible programs, without knowledge of mathematics, to discover previously unknown optimized approximations to high precision, for the first time. We also give evidence that these results extend beyond the exponential. The ubiquity of transcendental functions suggests that our method has the potential to reduce the cost of scientific computing applications.
翻訳日:2023-12-16 02:59:37 公開日:2023-12-13
# 抗体発見・開発における機械学習のベストプラクティス

Best practices for machine learning in antibody discovery and development ( http://arxiv.org/abs/2312.08470v1 )

ライセンス: Link先を確認
Leonard Wossnig, Norbert Furtmann, Andrew Buchanan, Sandeep Kumar, and Victor Greiff(参考訳) 過去40年間で、疾患を治療するための治療抗体の発見と開発が一般的に行われている。 しかし、治療用抗体構造がより洗練されつつある(例えば、多種多型)ため、従来の最適化アプローチは効率が悪くなっている。 機械学習(ML)は、抗体発見のためのシリコ経路を開くことを約束し、多数の実験と結果としてコストを削減して医薬品の開発を加速する。 近年,ML誘導型抗体発見・開発(D&D)の分野での急速な進展が観察されている。 しかし、この分野での他の専門家による有用性の比較や評価は、データセットの多様性や、業界やアカデミアにまたがる評価技術やメトリクスによって困難である。 この文献の制限により、業界全体でMLが広く採用され、分野全体の進歩が鈍化し、異なる研究グループ間でMLモデルの再現性を改善するための標準やガイドラインの開発の必要性が強調される。 これらの課題に対処するため,我々は,現状の実践を批判的にレビューし,共通の落とし穴を解説し,さまざまな種類のMLベースの抗体D&D技術に適用可能な手法開発および評価ガイドラインのセットを明確に定義する。 具体的には、エンドツーエンドの分析、MLプロセスのすべての側面に関連する課題に対処し、各ステージのベストプラクティスセットを推奨します。

Over the past 40 years, the discovery and development of therapeutic antibodies to treat disease has become common practice. However, as therapeutic antibody constructs are becoming more sophisticated (e.g., multi-specifics), conventional approaches to optimisation are increasingly inefficient. Machine learning (ML) promises to open up an in silico route to antibody discovery and help accelerate the development of drug products using a reduced number of experiments and hence cost. Over the past few years, we have observed rapid developments in the field of ML-guided antibody discovery and development (D&D). However, many of the results are difficult to compare or hard to assess for utility by other experts in the field due to the high diversity in the datasets and evaluation techniques and metrics that are across industry and academia. This limitation of the literature curtails the broad adoption of ML across the industry and slows down overall progress in the field, highlighting the need to develop standards and guidelines that may help improve the reproducibility of ML models across different research groups. To address these challenges, we set out in this perspective to critically review current practices, explain common pitfalls, and clearly define a set of method development and evaluation guidelines that can be applied to different types of ML-based techniques for therapeutic antibody D&D. Specifically, we address in an end-to-end analysis, challenges associated with all aspects of the ML process and recommend a set of best practices for each stage.
翻訳日:2023-12-16 02:59:18 公開日:2023-12-13
# 協調MARLにおけるエージェント訓練行動理解のための診断法について

On Diagnostics for Understanding Agent Training Behaviour in Cooperative MARL ( http://arxiv.org/abs/2312.08468v1 )

ライセンス: Link先を確認
Wiem Khlifi, Siddarth Singh, Omayma Mahjoub, Ruan de Kock, Abidine Vall, Rihab Gorsane and Arnu Pretorius(参考訳) 協調型マルチエージェント強化学習(MARL)は,分散意思決定課題の解決に大きく貢献している。 しかし,マルチエージェントシステムが複雑化するにつれて,その行動の包括的理解がますます困難になる。 従来、チーム報酬の追跡は、最適なポリシーを学ぶためのエージェントの有効性を測定するための実践的な手段であった。 それでも、経験的なリターンのみに依存することは、エージェントの振る舞いに対する重要な洞察を曖昧にする可能性があると論じています。 本稿では,エージェント動作に関する深い洞察を得るために,説明可能なAI(XAI)ツールの適用について検討する。 これらの診断ツールを,マルチロボット倉庫環境とレベルベースフォーミングのコンテキストで活用し,多種多様なmarlアルゴリズムに適用した。 我々は,MARLシステムの解釈可能性や説明可能性を高める方法を示し,エージェントの振る舞いをよりよく理解する。

Cooperative multi-agent reinforcement learning (MARL) has made substantial strides in addressing the distributed decision-making challenges. However, as multi-agent systems grow in complexity, gaining a comprehensive understanding of their behaviour becomes increasingly challenging. Conventionally, tracking team rewards over time has served as a pragmatic measure to gauge the effectiveness of agents in learning optimal policies. Nevertheless, we argue that relying solely on the empirical returns may obscure crucial insights into agent behaviour. In this paper, we explore the application of explainable AI (XAI) tools to gain profound insights into agent behaviour. We employ these diagnostics tools within the context of Level-Based Foraging and Multi-Robot Warehouse environments and apply them to a diverse array of MARL algorithms. We demonstrate how our diagnostics can enhance the interpretability and explainability of MARL systems, providing a better understanding of agent behaviour.
翻訳日:2023-12-16 02:58:56 公開日:2023-12-13
# 文化的にレスポンシブな人工知能 -- 問題、挑戦、解決

Culturally Responsive Artificial Intelligence -- Problems, Challenges and Solutions ( http://arxiv.org/abs/2312.08467v1 )

ライセンス: Link先を確認
Natalia O\.zegalska-{\L}ukasik, Szymon {\L}ukasik(参考訳) 現代の相互接続された世界では、文化的責任の概念が最重要視されている。 国家間の境界線がはっきりしないにつれて、世界社会を構成する多様な文化の景観を保護し評価する責任を負うことは個人、共同体、機関に委ねられている。 本稿では,AIアルゴリズムの実装から生じる社会的・文化的・倫理的課題について考察し,文化的に応答する開発の必要性を強調する。 また、現代多文化社会の要求を満たすためにAIシステムの適応性を高めるために必要な必須要素についても推奨している。 この論文は、これらの課題に効果的に対処するAIモデルを作成するために、さらに多分野の研究の必要性を強調している。 また、AI教育の重要性を主張し、AIシステムにおける文化的責任を促進するための規制措置の重要性を強調している。

In the contemporary interconnected world, the concept of cultural responsibility occupies paramount importance. As the lines between nations become less distinct, it is incumbent upon individuals, communities, and institutions to assume the responsibility of safeguarding and valuing the landscape of diverse cultures that constitute our global society. This paper explores the socio-cultural and ethical challenges stemming from the implementation of AI algorithms and highlights the necessity for their culturally responsive development. It also offers recommendations on essential elements required to enhance AI systems' adaptability to meet the demands of contemporary multicultural societies. The paper highlights the need for further multidisciplinary research to create AI models that effectively address these challenges. It also advocates the significance of AI enculturation and underlines the importance of regulatory measures to promote cultural responsibility in AI systems.
翻訳日:2023-12-16 02:58:41 公開日:2023-12-13
# 協調marlにおける個々のエージェントの重要性の定量化

Efficiently Quantifying Individual Agent Importance in Cooperative MARL ( http://arxiv.org/abs/2312.08466v1 )

ライセンス: Link先を確認
Omayma Mahjoub, Ruan de Kock, Siddarth Singh, Wiem Khlifi, Abidine Vall, Kale-ab Tessera and Arnu Pretorius(参考訳) 協調型マルチエージェント強化学習(MARL)において,個々のエージェントの貢献度を測定することは困難である。 協力的なmarlでは、チームのパフォーマンスは通常、単一の共有グローバル報酬から推測される。 おそらく、個々のエージェントのコントリビューションを効果的に測定する最良のアプローチは、Shapley値を使用することでしょう。 しかし、計算の複雑さはエージェントの数に対して指数関数的に増加するため、これらの値の計算は高価である。 本稿では,エージェント重要度と呼ばれる個々のエージェントの寄与度を定量化するための効率的な手法として,エージェント数に対する線形計算量を提供する。 計算値が真のShapley値と強く相関していること、およびそれらが利用可能な環境において基礎となる真理として使用される真の個々のエージェント報酬を実証的に示す。 従来のmarlベンチマーク作業で発見されたアルゴリズム的障害を診断することにより,marlシステムの研究にエージェントの重要性がいかに役立つかを実証する。 本分析は,今後のMARLベンチマークにおいて,エージェントの重要度を重要な説明可能性コンポーネントとして示す。

Measuring the contribution of individual agents is challenging in cooperative multi-agent reinforcement learning (MARL). In cooperative MARL, team performance is typically inferred from a single shared global reward. Arguably, among the best current approaches to effectively measure individual agent contributions is to use Shapley values. However, calculating these values is expensive as the computational complexity grows exponentially with respect to the number of agents. In this paper, we adapt difference rewards into an efficient method for quantifying the contribution of individual agents, referred to as Agent Importance, offering a linear computational complexity relative to the number of agents. We show empirically that the computed values are strongly correlated with the true Shapley values, as well as the true underlying individual agent rewards, used as the ground truth in environments where these are available. We demonstrate how Agent Importance can be used to help study MARL systems by diagnosing algorithmic failures discovered in prior MARL benchmarking work. Our analysis illustrates Agent Importance as a valuable explainability component for future MARL benchmarks.
翻訳日:2023-12-16 02:58:29 公開日:2023-12-13
# 1年でいくら変更できますか。 マルチエージェント強化学習における再考評価

How much can change in a year? Revisiting Evaluation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2312.08463v1 )

ライセンス: Link先を確認
Siddarth Singh, Omayma Mahjoub, Ruan de Kock, Wiem Khlifi, Abidine Vall, Kale-ab Tessera and Arnu Pretorius(参考訳) 健全な実験基準と厳密さの確立は、あらゆる研究分野において重要である。 Deep Multi-Agent Reinforcement Learning (MARL)は、そのような初期段階の分野である。 ワクワクする進展はあったが、MARLは最近、複製可能性の問題や標準化された評価方法論の欠如、特に協調的な環境での調査を受けている。 この問題を軽減するためのプロトコルが提案されているが、この分野の健康を積極的に監視することが重要である。 本研究は,marl出版物のメタデータを含む評価手法のデータベースを拡張し,更新されたデータベースから得られた知見と,その成果から得られた傾向を比較したものである。 我々の分析は、パフォーマンスレポートの懸念する傾向の多くが残っていることを示している。 これは不確実性定量化の欠如を含み、関連するすべての評価詳細を報告せず、アルゴリズム開発クラスを狭める。 SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。 我々のデータによると、新たなエキサイティングなフロンティアに向かう際には、MARLコミュニティがより積極的に複製性にアプローチする必要がある。

Establishing sound experimental standards and rigour is important in any growing field of research. Deep Multi-Agent Reinforcement Learning (MARL) is one such nascent field. Although exciting progress has been made, MARL has recently come under scrutiny for replicability issues and a lack of standardised evaluation methodology, specifically in the cooperative setting. Although protocols have been proposed to help alleviate the issue, it remains important to actively monitor the health of the field. In this work, we extend the database of evaluation methodology previously published by containing meta-data on MARL publications from top-rated conferences and compare the findings extracted from this updated database to the trends identified in their work. Our analysis shows that many of the worrying trends in performance reporting remain. This includes the omission of uncertainty quantification, not reporting all relevant evaluation details and a narrowing of algorithmic development classes. Promisingly, we do observe a trend towards more difficult scenarios in SMAC-v1, which if continued into SMAC-v2 will encourage novel algorithmic development. Our data indicate that replicability needs to be approached more proactively by the MARL community to ensure trust in the field as we move towards exciting new frontiers.
翻訳日:2023-12-16 02:58:12 公開日:2023-12-13
# 製品コードからのフラクトンモデル

Fracton models from product codes ( http://arxiv.org/abs/2312.08462v1 )

ライセンス: Link先を確認
Yi Tan, Brenden Roberts, Nathanan Tantivasadakarn, Beni Yoshida, Norman Y. Yao(参考訳) フラクトンオーダーと製品コードとの深い関係について検討する。 特に,量子積符号においてフラクトン次数に繋がる古典的なシード符号の条件を提案し,解析する。 入力符号の性質によっては、製品コードは非局所的および局所的な構成においてType-IまたはType-IIフラクトンモデルのいずれかを実現することができる。 非局所的な場合、不規則グラフ上の最近提案されたリネンのモデルがハイパーグラフ積コードとして得られることを示す。 興味深いことに、このモデルの制約されたモビリティは、グラフに関連するガラス性からのみ生じる。 局所的なケースでは、平面的周期的タイリングに基づいて定義された新しい古典的LDPC符号を導入する。 ピンホイールタイリングの具体例を考慮し、局所的なタイプIおよびタイプIIフラクトンモデルを製品コードとして体系的に構築した。 私たちの仕事は、フラクトン秩序を探求するための自然な設定として製品コードを確立します。

We explore a deep connection between fracton order and product codes. In particular, we propose and analyze conditions on classical seed codes which lead to fracton order in the resulting quantum product codes. Depending on the properties of the input codes, product codes can realize either Type-I or Type-II fracton models, in both nonlocal and local constructions. For the nonlocal case, we show that a recently proposed model of lineons on an irregular graph can be obtained as a hypergraph product code. Interestingly, constrained mobility in this model arises only from glassiness associated with the graph. For the local case, we introduce a novel type of classical LDPC code defined on a planar aperiodic tiling. By considering the specific example of the pinwheel tiling, we demonstrate the systematic construction of local Type-I and Type-II fracton models as product codes. Our work establishes product codes as a natural setting for exploring fracton order.
翻訳日:2023-12-16 02:57:53 公開日:2023-12-13
# フーリエ・ルベーグ空間における浅層ニューラルネットワークによる時空近似

Space-Time Approximation with Shallow Neural Networks in Fourier Lebesgue spaces ( http://arxiv.org/abs/2312.08461v1 )

ライセンス: Link先を確認
Ahmed Abdeljawad, Thomas Dittrich(参考訳) 浅いニューラルネットワーク(SNN)の近似能力は、ディープニューラルネットワーク(DNN)の性質を理解する上で不可欠な部分を形成する。 これらの近似能力の研究において、対象関数の非常に人気のあるクラスはいわゆるスペクトルバロン空間である。 この空間は偏微分方程式(PDE)解の近似に関して特に興味深い。 ある種の静的PDEの解はある種のスペクトルバロン空間に存在することが示されている。 静的な pdes への制限を緩和し、空間領域と異なる正則性を持つ時間領域を含むために、スペクトルバロン空間の概念を異方性重み付きフーリエ・ルベーグ空間へと拡張する。 そのような場合、変数の2つのブロックを持つ対象関数について検討し、それぞれのブロックが異なる減衰と可積分性を持つことを許容する。 これらの対象函数に対して、まずボヒナー・ソボレフ空間における異方性重み付きフーリエ・ルベーグ空間の包含について研究する。 これにより、近似誤差を異方性ソボレフノルム、すなわちボヒナー・ソボレフノルムを用いて測定することができる。 我々はこの観測を、異方性重み付きフーリエ・ルベーグ空間からの関数の近似率とボヒナー・ソボレフノルムにおけるsnsによる近似のバウンドを定める第二のステップで用いる。

Approximation capabilities of shallow neural networks (SNNs) form an integral part in understanding the properties of deep neural networks (DNNs). In the study of these approximation capabilities some very popular classes of target functions are the so-called spectral Barron spaces. This spaces are of special interest when it comes to the approximation of partial differential equation (PDE) solutions. It has been shown that the solution of certain static PDEs will lie in some spectral Barron space. In order to alleviate the limitation to static PDEs and include a time-domain that might have a different regularity than the space domain, we extend the notion of spectral Barron spaces to anisotropic weighted Fourier-Lebesgue spaces. In doing so, we consider target functions that have two blocks of variables, among which each block is allowed to have different decay and integrability properties. For these target functions we first study the inclusion of anisotropic weighted Fourier-Lebesgue spaces in the Bochner-Sobolev spaces. With that we can now also measure the approximation error in terms of an anisotropic Sobolev norm, namely the Bochner-Sobolev norm. We use this observation in a second step where we establish a bound on the approximation rate for functions from the anisotropic weighted Fourier-Lebesgue spaces and approximation via SNNs in the Bochner-Sobolev norm.
翻訳日:2023-12-16 02:57:38 公開日:2023-12-13
# facetalk: ニューラルパラメトリック頭部モデルのための音声駆動運動拡散

FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models ( http://arxiv.org/abs/2312.08459v1 )

ライセンス: Link先を確認
Shivangi Aneja, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) 入力音声信号から人間の頭部の高忠実度3次元モーションシーケンスを合成するための新しい生成手法であるFaceTalkを紹介する。 毛髪,耳,眼球運動などの人間の頭部の表現豊かで精細な性質を捉えるため,ニューラルパラメトリック頭部モデルの潜在空間に音声信号を結合し,高忠実で時間的に一貫性のある動画像を生成することを提案する。 本稿では,ニューラルパラメトリックヘッドモデルの表現空間で動作する新しい潜時拡散モデルを提案し,音声駆動型現実的ヘッドシーケンスを合成する。 音声に対応するNPHM表現のデータセットがない場合、これらの対応を最適化し、時間的に最適化されたNPHM表現のデータセットを、話している人の音声ビデオ記録に適合させる。 我々の知る限り、これは、音駆動3Dアニメーションの分野における大きな進歩を象徴する、容積的頭部の現実的で高品質な運動合成のための生成的アプローチを提案する最初の試みである。 提案手法は,NPHM形状空間に結合した高忠実度頭部アニメーションを生成可能な可塑性運動列を生成する能力に特筆される。 実験の結果,FaceTalkの有効性を実証し,顔の表情やスタイルを多種多様に包含し,知覚的ユーザスタディ評価において既存の手法を75%上回る結果を得た。

We introduce FaceTalk, a novel generative approach designed for synthesizing high-fidelity 3D motion sequences of talking human heads from input audio signal. To capture the expressive, detailed nature of human heads, including hair, ears, and finer-scale eye movements, we propose to couple speech signal with the latent space of neural parametric head models to create high-fidelity, temporally coherent motion sequences. We propose a new latent diffusion model for this task, operating in the expression space of neural parametric head models, to synthesize audio-driven realistic head sequences. In the absence of a dataset with corresponding NPHM expressions to audio, we optimize for these correspondences to produce a dataset of temporally-optimized NPHM expressions fit to audio-video recordings of people talking. To the best of our knowledge, this is the first work to propose a generative approach for realistic and high-quality motion synthesis of volumetric human heads, representing a significant advancement in the field of audio-driven 3D animation. Notably, our approach stands out in its ability to generate plausible motion sequences that can produce high-fidelity head animation coupled with the NPHM shape space. Our experimental results substantiate the effectiveness of FaceTalk, consistently achieving superior and visually natural motion, encompassing diverse facial expressions and styles, outperforming existing methods by 75% in perceptual user study evaluation.
翻訳日:2023-12-16 02:57:15 公開日:2023-12-13
# 効率的かつ自己整合的な枠組みによる非マルコフ的特徴化

Unifying non-Markovian characterisation with an efficient and self-consistent framework ( http://arxiv.org/abs/2312.08454v1 )

ライセンス: Link先を確認
Gregory A. L. White, Petar Jurcevic, Charles D. Hill, Kavan Modi(参考訳) 量子デバイスのノイズは、一般的にクレジットされるよりもずっと複雑である。 通常のデコヒーレンスモデルとは違い、ほとんどの量子デバイスは環境の連続性と時間的不安定性の両方に悩まされている。 これらは回路のレベルでノイズの多い量子と古典的な相関を誘導する。 関連する時空間効果は、戦うことはもちろん、理解しがたいほど難しい。 現在、量子情報のスクランブルと損失の原因となる現象に対処するスケーラブルな方法や完全な方法が欠如している。 ここでは、この問題の解決に深く取り組みます。 我々は、すべての非マルコフ現象を一様に組み込んで分類する理論的枠組みを確立する。 我々のフレームワークは普遍的で、未知の制御を前提としており、完全に実験的にアクセス可能な回路レベルの量で書かれています。 我々は、テンソルネットワーク学習を用いて効率的な再構成を定式化し、システムの期待する物理量に基づいて容易にモジュール化と単純化を行う。 このことは、IBMの量子デバイスに関する広範な数値研究と実験を通じて実証され、時空相関の包括的なセットを推定する。 最後に、ノイズ認識回路のコンパイルや動的疎結合の最適化など、これらの効果に対処するための制御手法の有効性について分析を行った。 ダイヤモンド標準と任意の$SU(4)$演算の平均ゲート忠実度、およびオフザシェルフスキームとは対照的にデカップリングの改善により、大きな改善が期待できる。

Noise on quantum devices is much more complex than it is commonly given credit. Far from usual models of decoherence, nearly all quantum devices are plagued both by a continuum of environments and temporal instabilities. These induce noisy quantum and classical correlations at the level of the circuit. The relevant spatiotemporal effects are difficult enough to understand, let alone combat. There is presently a lack of either scalable or complete methods to address the phenomena responsible for scrambling and loss of quantum information. Here, we make deep strides to remedy this problem. We establish a theoretical framework that uniformly incorporates and classifies all non-Markovian phenomena. Our framework is universal, assumes unknown control, and is written entirely in terms of experimentally accessible circuit-level quantities. We formulate an efficient reconstruction using tensor network learning, allowing also for easy modularisation and simplification based on the expected physics of the system. This is then demonstrated through both extensive numerical studies and experiments on IBM Quantum devices, estimating a comprehensive set of spacetime correlations. Finally, we conclude our analysis with applications thereof to the efficacy of control techniques to counteract these effects -- including noise-aware circuit compilation and optimised dynamical decoupling. We find significant improvements are possible in the diamond norm and average gate fidelity of arbitrary $SU(4)$ operations, as well as related decoupling improvements in contrast to off-the-shelf schemes.
翻訳日:2023-12-16 02:56:48 公開日:2023-12-13
# 普遍的および非普遍的資源を持つマッチゲート回路の絡み合いスペクトル

Entanglement spectrum of matchgate circuits with universal and non-universal resources ( http://arxiv.org/abs/2312.08447v1 )

ライセンス: Link先を確認
Andrew M. Projansky, Joshuah T. Heath, James D. Whitfield(参考訳) 量子状態の絡み合いレベル統計は、基礎となる量子回路における普遍性の署名として最近提案されている。 これは、エンタングルメントスペクトルが生成するエンタングルメントの可積分性に結びついている場合のレベル反発の結果である。 しかし、エンタングルメントスペクトルにおけるレベルスペーシング統計のこのような研究は、製品状態入力におけるクリフォードとハールのランダム回路の出力状態に限定されている。 本研究では、シミュレーション可能なゲート集合からなる回路の最初の例を示すが、摂動普遍要素を持たないウィグナー・ダイソン分散絡み合いレベルスペクトルを持つ。 まず、無作為な積状態に作用するマッチゲート回路に対して、ウィグナー・ダイソンの統計は、クリフォード回路に関する以前の研究と直接的に類似して、単一のSWAPゲートによって現れることを示す。 次に、入力状態の異なるマッチゲート回路の絡み合いスペクトルを調べ、2ビットから3ビットの絡み合い入力へと進むと、絡み合いの複雑さの急激な跳躍を求める。 クリフォードとマッチゲートのハイブリッド回路の研究では、普遍的な量子ゲート要素が存在しない場合、出力状態がウィグナー・ダイソンの絡み合いレベル統計を示す古典的シミュレート可能な回路の例を示す。 そこで本研究では, 絡み合いスペクトルが任意の量子回路におけるシミュラビリティの概念と強く結びついていないことを示す。

The entanglement level statistics of a quantum state have recently been proposed to be a signature of universality in the underlying quantum circuit. This is a consequence of level repulsion in the entanglement spectra being tied to the integrability of entanglement generated. However, such studies of the level-spacing statistics in the entanglement spectrum have thus far been limited to the output states of Clifford and Haar random circuits on product state inputs. In this work, we provide the first example of a circuit which is composed of a simulable gate set, yet has a Wigner-Dyson distributed entanglement level spectrum without any perturbing universal element. We first show that, for matchgate circuits acting on random product states, Wigner-Dyson statistics emerge by virtue of a single SWAP gate, in direct analog to previous studies on Clifford circuits. We then examine the entanglement spectrum of matchgate circuits with varied input states, and find a sharp jump in the complexity of entanglement as we go from two- to three-qubit entangled inputs. Studying Clifford and matchgate hybrid circuits, we find examples of classically simulable circuits whose output states exhibit Wigner-Dyson entanglement level statistics in the absence of universal quantum gate elements. Our study thus provides strong evidence that entanglement spectrum is not strongly connected to notions of simulability in any given quantum circuit.
翻訳日:2023-12-16 02:56:28 公開日:2023-12-13
# ガウスボゾンサンプリングにおける抗濃縮の遷移

Transition of Anticoncentration in Gaussian Boson Sampling ( http://arxiv.org/abs/2312.08433v1 )

ライセンス: Link先を確認
Adam Ehrenberg, Joseph T. Iosue, Abhinav Deshpande, Dominik Hangleiter, Alexey V. Gorshkov(参考訳) ガウスボソンサンプリングは、他の同等のスキームよりも実装が容易であるため、量子優位性の実験的な実証のための有望な方法である。 ガウスボソンサンプリングの性質はこれらの他のスキームと同じ程度に理解されているが、出力分布の統計的性質についてはほとんど分かっていない。 最も関連する統計特性は、量子アドバンテージの証明の観点から、その第2モーメントで測定された出力分布の反集中である。 ガウスボソンサンプリングの複雑性理論的硬さに関する議論において, 反集中特性の程度は, 実験性能の検証にクロスエントロピーベンチマークを用いることも重要である。 本研究では,ガウスボソンサンプリング分布のモーメントを解析するためのグラフ理論フレームワークを開発する。 この枠組みを用いて,gaussian bosonサンプリングは,回路の終端で測定された光子数と比較して,最初に圧縮されたモードの数の関数として,反集中の遷移をすることを示した。 初期硬化モードの数が光子数とともに十分に緩やかにスケールすると、反濃縮の欠如が生じる。 しかし、初期圧縮モードの数が十分にスケールすると、出力確率は反集中的に弱くなる。

Gaussian Boson Sampling is a promising method for experimental demonstrations of quantum advantage because it is easier to implement than other comparable schemes. While most of the properties of Gaussian Boson Sampling are understood to the same degree as for these other schemes, we understand relatively little about the statistical properties of its output distribution. The most relevant statistical property, from the perspective of demonstrating quantum advantage, is the anticoncentration of the output distribution as measured by its second moment. The degree of anticoncentration features in arguments for the complexity-theoretic hardness of Gaussian Boson Sampling, and it is also important to know when using cross-entropy benchmarking to verify experimental performance. In this work, we develop a graph-theoretic framework for analyzing the moments of the Gaussian Boson Sampling distribution. Using this framework, we show that Gaussian Boson Sampling undergoes a transition in anticoncentration as a function of the number of modes that are initially squeezed compared to the number of photons measured at the end of the circuit. When the number of initially squeezed modes scales sufficiently slowly with the number of photons, there is a lack of anticoncentration. However, if the number of initially squeezed modes scales quickly enough, the output probabilities anticoncentrate weakly.
翻訳日:2023-12-16 02:56:00 公開日:2023-12-13
# 多数の量子ビットのロバストおよび並列制御

Robust and Parallel Control of Many Qubits ( http://arxiv.org/abs/2312.08426v1 )

ライセンス: Link先を確認
Wenjie Gong, Soonwon Choi(参考訳) 量子デバイスのサイズが急速に拡大するにつれて、それらを制御する効率的な方法が求められている。 ここでは、単純だが強力な解を提示する: 任意の数のキュービットを、運転場の極小局所チューナビリティと平行に頑健でサイト依存の制御する。 最近の実験的進歩に触発されて、各キュービットにおけるビームの位相または振幅の局所制御、あるいは個々のZ回転の3つの制限された局所制御機能のうちの1つへのアクセスを検討する。 いずれの場合も並列化可能な複合パルス列を考案し、準静的振幅と周波数ゆらぎに頑健な任意の単一量子単位系を実現する。 数値実験により, BB1 や CORPSE などの既存系列よりも高い精度を示し, 平均忠実度 $>0.999$ をデコヒーレンス率 $\sim 10^{-5}$ で達成し, 振幅と周波数誤差はわずかであった。 以上の結果から,非常に大きな量子ビットアンサンブルであっても,制御の不均一性にも拘わらず,高精度な個別操作が可能であった。

The rapid growth in size of quantum devices demands efficient ways to control them, which is challenging for systems with thousands of qubits or more. Here, we present a simple yet powerful solution: robust, site-dependent control of an arbitrary number of qubits in parallel with only minimal local tunability of the driving field. Inspired by recent experimental advances, we consider access to only one of three constrained local control capabilities: local control of either the phase or amplitude of the beam at each qubit, or individual Z rotations. In each case, we devise parallelizable composite pulse sequences to realize arbitrary single-qubit unitaries robust against quasistatic amplitude and frequency fluctuations. Numerical demonstration shows that our approach outperforms existing sequences such as BB1 and CORPSE in almost all regimes considered, achieving average fidelity $>0.999$ under a decoherence rate $\sim 10^{-5}$, even with a few percent amplitude and frequency error. Our results indicate that even for very large qubit ensembles, accurate, individual manipulation can be achieved despite substantial control inhomogeneity.
翻訳日:2023-12-16 02:55:38 公開日:2023-12-13
# LSTMネットワークを用いたゲーム中のバグの自動検出

Automatic Bug Detection in Games using LSTM Networks ( http://arxiv.org/abs/2312.08418v1 )

ライセンス: Link先を確認
Elham Azizi, Loutfouz Zaman(参考訳) 我々はLong Short-Term Memory (LSTM) ネットワークを用いて知覚的バグを検出する新しいフレームワークを導入し、ビデオゲームのバグを異常として検出した。 検出されたバギーフレームはクラスタ化され、発生したバグのカテゴリを決定する。 このフレームワークはFPS(First Person Shooter)ゲームで評価された。 結果はフレームワークの有効性を示す。

We introduced a new framework to detect perceptual bugs using a Long Short-Term Memory (LSTM) network, which detects bugs in video games as anomalies. The detected buggy frames are then clustered to determine the category of the occurred bug. The framework was evaluated on two First Person Shooter (FPS) games. Results show the effectiveness of the framework.
翻訳日:2023-12-16 02:55:16 公開日:2023-12-13
# EmbAu: Shuffled Frog Leapingアルゴリズムによるオーディオデータを埋め込む新しい手法

EmbAu: A Novel Technique to Embed Audio Data Using Shuffled Frog Leaping Algorithm ( http://arxiv.org/abs/2312.08417v1 )

ライセンス: Link先を確認
Sahil Nokhwal, Saurabh Pahune, Ankit Chaudhary(参考訳) ステガノグラフィーアルゴリズムの目的は、データ暗号化のために機密情報のビットを隠蔽できるホストまたはカバー画像内の適切な画素位置を特定することである。 機密情報を統合し、画像の視覚的外観を維持する能力を向上させるために作業が行われている。 したがって、ステガノグラフィーは難しい研究分野である。 現在提案されている画像ステガノグラフィー手法では,Shuffled Frog Leaping Algorithm (SFLA) を用いて,被写体画像に機密情報を配置できる画素の順序を決定する。 埋め込み容量を高めるために、カバー画像の空間領域からの画素を慎重に選択し、センシティブなデータを配置するために使用する。 画像ステガノグラフィーにより、埋め込み後の最終像はステガナシー攻撃に耐性がある。 SFLAアルゴリズムは、秘密のビット埋め込みのために任意の色付き(RGB)カバー画像の最適な画素選択を行う。 フィットネス機能を利用することで、SFLAは許容時間内に最小のコスト値に達することで利益を得る。 埋め込み用の画素は、埋め込み時のホスト画像の歪みを最小限に抑えるために慎重に選択される。 さらに、ステガノグラフィー画像に埋め込まれたデータの検出を非常に難しい課題とする努力もなされている。 現在の世界では音声データの暗号化が極めて必要であるため,提案手法は実世界のアプリケーションにおいて大きな可能性を秘めている。 本稿では,既存のステガノグラフィ手法との比較と戦略を提案する。

The aim of steganographic algorithms is to identify the appropriate pixel positions in the host or cover image, where bits of sensitive information can be concealed for data encryption. Work is being done to improve the capacity to integrate sensitive information and to maintain the visual appearance of the steganographic image. Consequently, steganography is a challenging research area. In our currently proposed image steganographic technique, we used the Shuffled Frog Leaping Algorithm (SFLA) to determine the order of pixels by which sensitive information can be placed in the cover image. To achieve greater embedding capacity, pixels from the spatial domain of the cover image are carefully chosen and used for placing the sensitive data. Bolstered via image steganography, the final image after embedding is resistant to steganalytic attacks. The SFLA algorithm serves in the optimal pixels selection of any colored (RGB) cover image for secret bit embedding. Using the fitness function, the SFLA benefits by reaching a minimum cost value in an acceptable amount of time. The pixels for embedding are meticulously chosen to minimize the host image's distortion upon embedding. Moreover, an effort has been taken to make the detection of embedded data in the steganographic image a formidable challenge. Due to the enormous need for audio data encryption in the current world, we feel that our suggested method has significant potential in real-world applications. In this paper, we propose and compare our strategy to existing steganographic methods.
翻訳日:2023-12-16 02:55:10 公開日:2023-12-13
# 決定木に対するプライバシー制約付き公平性推定

Privacy Constrained Fairness Estimation for Decision Trees ( http://arxiv.org/abs/2312.08413v1 )

ライセンス: Link先を確認
Florian van der Steen, Fr\'e Vink and Heysem Kaya(参考訳) データが価値と有効性を高めるにつれて、機密データの保護がより重要になる。 さらに、モデル開発者に対する規制当局や社会からの圧力が高まり、ai(artificial intelligence)モデルが差別的になる。 起動するには、ハイテイクタスクのための解釈可能な透明なAIモデルが必要である。 一般的に、任意のAIモデルの公平さを測定するには、データセット内の個人の機密性の高い属性が必要である。 本研究では,公平性とプライバシ,解釈可能性のトレードオフをさらに検討する。 決定木(DT)の統計パリティ(SP)と差分プライバシー(DP)について,各サブフィールドにおける各手法について検討する。 本稿では,dts に対して dp-aware 方式で sp を推定できる,プライバシ・アウェア・フェアネス推定法 (pafer) を提案する。 DPは、この機密データを安全に保持するサードパーティの法定機関を利用して、機密データにノイズを加えることによってプライバシーを保証する。 いくつかのDPメカニズムを実験的に比較した。 提案手法は,ラプラシアン機構を用いて,データセット内の個人のプライバシーを高い確度で保証しつつ,低い誤差でSPを推定できることを示す。 さらに,本手法は人間が解釈し易いDTに対して,実験および理論的に優れた性能を示す。

The protection of sensitive data becomes more vital, as data increases in value and potency. Furthermore, the pressure increases from regulators and society on model developers to make their Artificial Intelligence (AI) models non-discriminatory. To boot, there is a need for interpretable, transparent AI models for high-stakes tasks. In general, measuring the fairness of any AI model requires the sensitive attributes of the individuals in the dataset, thus raising privacy concerns. In this work, the trade-offs between fairness, privacy and interpretability are further explored. We specifically examine the Statistical Parity (SP) of Decision Trees (DTs) with Differential Privacy (DP), that are each popular methods in their respective subfield. We propose a novel method, dubbed Privacy-Aware Fairness Estimation of Rules (PAFER), that can estimate SP in a DP-aware manner for DTs. DP, making use of a third-party legal entity that securely holds this sensitive data, guarantees privacy by adding noise to the sensitive data. We experimentally compare several DP mechanisms. We show that using the Laplacian mechanism, the method is able to estimate SP with low error while guaranteeing the privacy of the individuals in the dataset with high certainty. We further show experimentally and theoretically that the method performs better for DTs that humans generally find easier to interpret.
翻訳日:2023-12-16 02:54:46 公開日:2023-12-13
# 複数のディラックデルタポテンシャルからの1次元量子散乱:Pythonベースの解

One-dimensional quantum scattering from multiple Dirac delta potentials: A Python-based solution ( http://arxiv.org/abs/2312.08412v1 )

ライセンス: Link先を確認
Erfan Keshavarz and S. Habib Mazharimousavi(参考訳) 本稿では,複数のディラックデルタポテンシャルを組み込んだ1次元量子システムをシミュレートするPythonベースのソリューションを提案する。 本研究の主な目的は,そのようなシステム内の散乱現象を研究することである。 このプログラムの開発により、システム全体の波動関数を生成し、ポテンシャル強度、距離、ディラックデルタ電位数を含む無限の組合せに対して、伝送係数と反射係数を解析的および数値的に計算することができる。 さらに, 符号の修正により, 量子系を通して完全透過を行う粒子のエネルギー固有値を生成する伝送共振について検討する。 その後、システム内の不純物を考慮して研究を延長できる。 最後に,様々なポテンシャルに適用可能な透過・反射確率の一般的な解析解を得るとともに,散乱下のシステムの挙動を効果的に探究する変動プロットを生成する能力を有する。

In this paper, we present a Python-based solution designed to simulate a one-dimensional quantum system that incorporates multiple Dirac delta potentials. The primary aim of this research is to investigate the scattering phenomenon within such a system. By developing this program, we can generate wave functions throughout the system and compute transmission and reflection coefficients analytically and numerically for an infinite range of combinations involving potential strengths, distances, and the number of Dirac delta potentials. Furthermore, by modifying the code, we investigate transmission resonances, which yields the energy eigenvalues for particles undergoing perfect transmission through the quantum system. Subsequently, our research can be extended by considering impurities in the system. Finally, we attain the general analytical solution for transmission and reflection probabilities applicable to any number of potentials, and we possess the capability to generate variation plots that effectively explore the behavior of the system under scattering.
翻訳日:2023-12-16 02:54:22 公開日:2023-12-13
# ランダムニューラルネットワークの普遍近似特性

Universal Approximation Property of Random Neural Networks ( http://arxiv.org/abs/2312.08410v1 )

ライセンス: Link先を確認
Ariel Neufeld, Philipp Schmocker(参考訳) 本稿では,重みとバイアスがランダムに初期化される単層フィードフォワードニューラルネットワークであるランダムニューラルネットワークについて検討する。 このランダムな初期化の後、線形読み出しのみを訓練する必要があり、最小二乗法のように効率的に行うことができる。 ランダムニューラルネットワークをバナッハ空間値のランダム変数として見ることにより、ボヒナー空間内の普遍近似特性を証明できる。 これにより、対応するバナッハ空間はユークリッド空間のコンパクト部分集合(例えば$L^p$-空間やソボレフ空間など)上の連続函数の空間よりもより一般にすることができる。 さらに、近似率を導出し、ランダムニューラルネットワークを用いて決定論的関数を学習するための明示的なアルゴリズムを開発する。 さらに,入力・出力次元において,学習コストが最大に多項式的に大きくなるという意味で,ランダムニューラルネットワークが次元の呪いを克服した場合の完全な誤差解析と研究を行う。 さらに,完全訓練された決定論的ニューラルネットワークと比較して,ランダムニューラルネットワークの実証的利点を2つの数値例で示す。

In this paper, we study random neural networks which are single-hidden-layer feedforward neural networks whose weights and biases are randomly initialized. After this random initialization, only the linear readout needs to be trained, which can be performed efficiently, e.g., by the least squares method. By viewing random neural networks as Banach space-valued random variables, we prove their universal approximation properties within suitable Bochner spaces. Hereby, the corresponding Banach space can be more general than the space of continuous functions over a compact subset of a Euclidean space, namely, e.g., an $L^p$-space or a Sobolev space, where the latter includes the approximation of the derivatives. Moreover, we derive some approximation rates and develop an explicit algorithm to learn a deterministic function by a random neural network. In addition, we provide a full error analysis and study when random neural networks overcome the curse of dimensionality in the sense that the training costs scale at most polynomially in the input and output dimension. Furthermore, we show in two numerical examples the empirical advantages of random neural networks compared to fully trained deterministic neural networks.
翻訳日:2023-12-16 02:54:07 公開日:2023-12-13
# 同期型オブジェクト中心コンフォーマンスアライメント(拡張版)

Object-Centric Conformance Alignments with Synchronization (Extended Version) ( http://arxiv.org/abs/2312.08537v1 )

ライセンス: Link先を確認
Alessandro Gianola and Marco Montali and Sarah Winkler(参考訳) 現実世界のプロセスは相互依存のオブジェクトで動作します。 このようなプロセスの性質を正確に反映するには、オブジェクト中心のプロセスマイニング技術、特に適合性チェックが必要である。 しかし,近年はオブジェクト中心の視点が注目されているが,具体的なプロセスマイニング技術はほとんど示されていない。 さらに、既存のアプローチは、オブジェクトのアイデンティティとオブジェクトの依存関係を追跡する能力が非常に制限されている。 その結果、ログの深刻な問題は未発見のままである。 本稿では,2つの既存手法の重要なモデリング特徴,特に1対多の関係を捕捉するオブジェクト中心のペトリネットと,その同一性に基づいてオブジェクトを比較・同期する識別子を持つペトリネットとを組み合わせた新しい形式について述べる。 得られた形式主義を「識別子を持つ対象中心のペトリネット」と呼び、アライメントと適合性チェックタスクを定義する。 そこで本研究では,smt(sipfiability modulo theory)のエンコーディングに基づいて,そのようなネットの適合性チェック手法を提案する。 実用性を評価するため,文献から得られたデータについて評価を行う。

Real-world processes operate on objects that are inter-dependent. To accurately reflect the nature of such processes, object-centric process mining techniques are needed, notably conformance checking. However, while the object-centric perspective has recently gained traction, few concrete process mining techniques have been presented so far. Moreover, existing approaches are severely limited in their abilities to keep track of object identity and object dependencies. Consequently, serious problems in logs remain undetected. In this paper, we present a new formalism that combines the key modelling features of two existing approaches, in particular the ability of object-centric Petri nets to capture one-to-many relations and the one of Petri nets with identifiers to compare and synchronize objects based on their identity. We call the resulting formalism 'object-centric Petri nets with identifiers', and define alignments and the conformance checking task for this setting. We propose a conformance checking approach for such nets based on an encoding in satisfiability modulo theories (SMT), and illustrate how it can be effectively used to overcome shortcomings of earlier work. To assess its practicality, we perform an evaluation on data from the literature.
翻訳日:2023-12-16 00:46:29 公開日:2023-12-13
# ノイズ状態観察によるマルコフ決定過程

Markov Decision Processes with Noisy State Observation ( http://arxiv.org/abs/2312.08536v1 )

ライセンス: Link先を確認
Amirhossein Afsharrad, Sanjay Lall(参考訳) 本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。 我々は、この不確かさを、真の状態を誤認する確率を捉える混乱行列を通してモデル化することに集中する。 本研究の目的は, 固有測定ノイズを推定することであり, そのために2つの新しいアルゴリズム手法を提案する。 第1の手法である第2次反復動作の手法は、有限時間窓内の効率的なノイズ推定のために設計され、システム解析のための識別可能な条件を提供する。 第2のアプローチはベイズアルゴリズムのファミリーで構成され、性能と限界の観点から徹底的に解析し比較する。 実験の結果をシミュレーションで検証し,様々なシナリオにおける手法の有効性,特に定常分布の異なる環境での挙動を明らかにした。 我々の研究は、ノイズの多い環境での強化学習の理解を深め、MDPのより正確な状態推定のための堅牢な技術を提供する。

This paper addresses the challenge of a particular class of noisy state observations in Markov Decision Processes (MDPs), a common issue in various real-world applications. We focus on modeling this uncertainty through a confusion matrix that captures the probabilities of misidentifying the true state. Our primary goal is to estimate the inherent measurement noise, and to this end, we propose two novel algorithmic approaches. The first, the method of second-order repetitive actions, is designed for efficient noise estimation within a finite time window, providing identifiable conditions for system analysis. The second approach comprises a family of Bayesian algorithms, which we thoroughly analyze and compare in terms of performance and limitations. We substantiate our theoretical findings with simulations, demonstrating the effectiveness of our methods in different scenarios, particularly highlighting their behavior in environments with varying stationary distributions. Our work advances the understanding of reinforcement learning in noisy environments, offering robust techniques for more accurate state estimation in MDPs.
翻訳日:2023-12-16 00:46:09 公開日:2023-12-13
# 電力消費に基づく居住検知

Occupancy Detection Based on Electricity Consumption ( http://arxiv.org/abs/2312.08535v1 )

ライセンス: Link先を確認
Thomas Brilland, Guillaume Matheron, Laetitia Leduc, Yukihide Nakada(参考訳) 本稿では、低周波電力消費データから住宅が空き時間帯を抽出する新しい手法を提案する。 このアプローチは、変更点の検出、分類、周期検出、周期スパイク検索など、複数のアルゴリズムを組み合わせる。 実消費曲線と実消費曲線の両方において有意な結果を示す。 このアプローチはエネルギー使用を最適化するための実用的な洞察を提供し、エネルギーコストの削減と持続可能性の観点から住宅用消費者や電力会社に潜在的利益をもたらす。 多様な設定とより大きなデータセットで適用性を高めるためには、さらなる研究が必要である。

This article presents a new methodology for extracting intervals when a home is vacant from low-frequency electricity consumption data. The approach combines multiple algorithms, including change point detection, classification, period detection, and periodic spikes retrieval. It shows encouraging results on both simulated and real consumption curves. This approach offers practical insights for optimizing energy use and holds potential benefits for residential consumers and utility companies in terms of energy cost reduction and sustainability. Further research is needed to enhance its applicability in diverse settings and with larger datasets.
翻訳日:2023-12-16 00:45:54 公開日:2023-12-13
# 政策誘導軌道拡散による世界モデル

World Models via Policy-Guided Trajectory Diffusion ( http://arxiv.org/abs/2312.08533v1 )

ライセンス: Link先を確認
Marc Rigter, Jun Yamada, Ingmar Posner(参考訳) 世界モデルは知的エージェントを開発するための強力なツールです。 一連のアクションの結果を予測することによって、世界モデルは「想像力」という合成データを用いて、オンポリシー強化学習(rl)を通じてポリシーを最適化することができる。 既存の世界モデルは自己回帰的であり、ポリシーから次のアクションをサンプリングして次の状態を予測する。 これにより、軌道長が大きくなるにつれて予測誤差が必然的に複合化する。 本研究では, 自己回帰的ではなく, 拡散モデルを介して単一パスを介してオン・ポリティカル・トラジェクタ全体を生成する, 新たな世界モデリング手法を提案する。 ポリシ誘導軌道拡散(polygrad, policy-guided orbital diffusion)というアプローチでは,方針の動作分布の勾配に加えて,ノイズモデルを用いて初期ランダム状態と動作の軌道をオンポリシー合成軌道に拡散する。 提案手法の能力を解析し,最先端の自己回帰ベースラインに対する競合予測誤差が得られたことを示す。 polygradはまた、イマジネーションにおいて、オン・ポリシーrlを介して実行ポリシーをトレーニングすることを可能にする。 我々はPolyGRADが将来的な研究のために多くの拡張が可能な世界モデリングのための有望なパラダイムを導入していると信じている。

World models are a powerful tool for developing intelligent agents. By predicting the outcome of a sequence of actions, world models enable policies to be optimised via on-policy reinforcement learning (RL) using synthetic data, i.e. in ``in imagination''. Existing world models are autoregressive, and interleave predicting the next state with sampling the next action from the policy. Thus, the prediction error inevitably compounds as the trajectory length grows. In this work, we propose a novel world modelling approach that is not autoregressive and generates entire on-policy trajectories via a single pass through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient of the action distribution of the policy to diffuse a trajectory of initially random states and actions into an on-policy synthetic trajectory. We analyse the capabilities of our approach and demonstrate that it obtains competitive prediction errors to state-of-the-art autoregressive baselines. PolyGRAD also enables performant policies to be trained via on-policy RL in imagination. We believe that PolyGRAD introduces a promising paradigm for world modelling with many possible extensions to explore in future work.
翻訳日:2023-12-16 00:45:46 公開日:2023-12-13
# コスト適応推論のための協調学習

Cooperative Learning for Cost-Adaptive Inference ( http://arxiv.org/abs/2312.08532v1 )

ライセンス: Link先を確認
Xingli Fang, Richard Bradford, Jung-Eun Kim(参考訳) 本稿では,動的コンピューティングリソースの要求を満たすために,ランタイムネットワークの深度を変更可能なディープニューラルネットワークアーキテクチャのための協調トレーニングフレームワークを提案する。 我々のフレームワークでは、推論実行時にパフォーマンスコストのトレードオフを満たすために、計算に参加するレイヤの数を動的に選択できる。 提案手法は,2つのチームメイトネットと1つのリーダーネット,および2組のチームメイトサブネットワークを知識蒸留により様々な深度で訓練する。 チームメイトネットはサブネットワークを導き、知識を互いに伝達し、リーダーネットはチームメイトネットをガイドし、正確性を確保する。 このアプローチは、モデルのさまざまなサイズを個別にトレーニングする代わりに、フレームワークを一度に原子的にトレーニングする。 提案されたフレームワークは、特定のアーキテクチャに縛られないが、既存のモデル/アーキテクチャを組み込めるため、安定した結果を維持することができ、データセットの機能マップのサイズに敏感である。 他の関連するアプローチと比較して、モデルのさまざまなサイズが利用可能である間、フルネットワークに匹敵する精度を提供する。

We propose a cooperative training framework for deep neural network architectures that enables the runtime network depths to change to satisfy dynamic computing resource requirements. In our framework, the number of layers participating in computation can be chosen dynamically to meet performance-cost trade-offs at inference runtime. Our method trains two Teammate nets and a Leader net, and two sets of Teammate sub-networks with various depths through knowledge distillation. The Teammate nets derive sub-networks and transfer knowledge to them, and to each other, while the Leader net guides Teammate nets to ensure accuracy. The approach trains the framework atomically at once instead of individually training various sizes of models; in a sense, the various-sized networks are all trained at once, in a "package deal." The proposed framework is not tied to any specific architecture but can incorporate any existing models/architectures, therefore it can maintain stable results and is insensitive to the size of a dataset's feature map. Compared with other related approaches, it provides comparable accuracy to its full network while various sizes of models are available.
翻訳日:2023-12-16 00:45:26 公開日:2023-12-13
# 確率勾配法の最終Iterate Convergenceの再検討

Revisiting the Last-Iterate Convergence of Stochastic Gradient Methods ( http://arxiv.org/abs/2312.08531v1 )

ライセンス: Link先を確認
Zijian Liu, Zhengyuan Zhou(参考訳) 近年,SGD (Stochastic Gradient Descent) アルゴリズムの最後の繰り返しの収束は,実践上の優れた性能と理論的理解の欠如から人々の関心を喚起している。 リプシッツ函数と凸函数に対して、異なる著作物が最適な $o(\log(1/\delta)\log t/\sqrt{t})$ または $o(\sqrt{\log(1/\delta)/t})$ を確定し、ここで$t$ は時間軸、$\delta$ は失敗確率である。 しかし、これらの境界を証明するために、既存のすべての著作物はコンパクト領域に制限されるか、ほぼ確実に有界ノイズを必要とする。 最後の反復 SGD が最適収束率を保証できるかどうかを問うことは自然であるが、これら2つの制限的な仮定が存在しない。 この重要な質問に加えて、答えが欠けている理論的な問題がまだたくさんある。 例えば、非滑らかな問題に対するSGDの最後の反復収束と比較すると、スムーズな最適化の結果はまだ少ない。 さらに、既存の結果は、すべて非合成目的と標準ユークリッドノルムに制限されている。 ラストイテレート収束がより広い合成最適化と非ユークリッドノルムに拡張できるかどうかはまだ不明である。 本稿では,上記の問題に対処するために,確率勾配法のラストイテレート収束を再検討し,一般領域,複合目的,非ユークリッドノルム,リプシッツ条件,滑らかさ,(強い)凸性を同時に満たすための,期待値と高い確率の両方において収束率を証明する最初の統一的方法を提供する。 さらに,重み付き雑音下でのラストイテレート収束を得るために解析を拡張した。

In the past several years, the convergence of the last iterate of the Stochastic Gradient Descent (SGD) algorithm has triggered people's interest due to its good performance in practice but lack of theoretical understanding. For Lipschitz and convex functions, different works have established the optimal $O(\log(1/\delta)\log T/\sqrt{T})$ or $O(\sqrt{\log(1/\delta)/T})$ high-probability convergence rates for the final iterate, where $T$ is the time horizon and $\delta$ is the failure probability. However, to prove these bounds, all the existing works are limited to compact domains or require almost surely bounded noises. It is natural to ask whether the last iterate of SGD can still guarantee the optimal convergence rate but without these two restrictive assumptions. Besides this important question, there are still lots of theoretical problems lacking an answer. For example, compared with the last iterate convergence of SGD for non-smooth problems, only few results for smooth optimization have yet been developed. Additionally, the existing results are all limited to a non-composite objective and the standard Euclidean norm. It still remains unclear whether the last-iterate convergence can be provably extended to wider composite optimization and non-Euclidean norms. In this work, to address the issues mentioned above, we revisit the last-iterate convergence of stochastic gradient methods and provide the first unified way to prove the convergence rates both in expectation and in high probability to accommodate general domains, composite objectives, non-Euclidean norms, Lipschitz conditions, smoothness and (strong) convexity simultaneously. Additionally, we extend our analysis to obtain the last-iterate convergence under heavy-tailed noises.
翻訳日:2023-12-16 00:45:08 公開日:2023-12-13
# auto-sktime: 時系列の自動予測

auto-sktime: Automated Time Series Forecasting ( http://arxiv.org/abs/2312.08528v1 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller and Marius Lindauer and Marco F. Huber(参考訳) 今日のデータ駆動の状況では、時系列予測はさまざまな分野における意思決定において重要である。 しかし、より多様な時系列データの増加は、利用可能な予測手法の広がりと相まって、予測者にとって大きな課題となっている。 効率的な予測の需要の高まりに対応するため,自動時系列予測のための新しいフレームワークであるauto-sktimeを導入する。 提案するフレームワークは、自動機械学習(AutoML)技術を使用して、予測パイプライン全体の生成を自動化する。 このフレームワークはベイズ最適化を採用し、統計、機械学習(ML)、ディープニューラルネットワーク(DNN)モデルからパイプラインを自動的に構築する。 さらに我々は,AutoMLを時系列データに適用するための3つの重要な改良点を提案する。 第二に、以前の最適化実行から最適化を開始するための新しいウォームスタート技術である。 第3に,統計モデル,MLモデル,DNNモデルを含む探索空間に適用できるように,多要素最適化を適用する。 64種類の実世界の時系列データセットに対する実験結果は、フレームワークの有効性と効率を実証し、人間の関与を最小限に抑えながら従来の手法より優れている。

In today's data-driven landscape, time series forecasting is pivotal in decision-making across various sectors. Yet, the proliferation of more diverse time series data, coupled with the expanding landscape of available forecasting methods, poses significant challenges for forecasters. To meet the growing demand for efficient forecasting, we introduce auto-sktime, a novel framework for automated time series forecasting. The proposed framework uses the power of automated machine learning (AutoML) techniques to automate the creation of the entire forecasting pipeline. The framework employs Bayesian optimization, to automatically construct pipelines from statistical, machine learning (ML) and deep neural network (DNN) models. Furthermore, we propose three essential improvements to adapt AutoML to time series data: First, pipeline templates to account for the different supported forecasting models. Second, a novel warm-starting technique to start the optimization from prior optimization runs. Third, we adapt multi-fidelity optimizations to make them applicable to a search space containing statistical, ML and DNN models. Experimental results on 64 diverse real-world time series datasets demonstrate the effectiveness and efficiency of the framework, outperforming traditional methods while requiring minimal human involvement.
翻訳日:2023-12-16 00:44:30 公開日:2023-12-13
# 圧縮HDR映像の品質評価のためのFUNQUEアプローチ

A FUNQUE Approach to the Quality Assessment of Compressed HDR Videos ( http://arxiv.org/abs/2312.08524v1 )

ライセンス: Link先を確認
Abhinau K. Venkataramanan, Cosmin Stejerean, Ioannis Katsavounidis, Alan C. Bovik(参考訳) 近年、ハイダイナミックレンジ(HDR)コンテンツ、特にビデオがインターネット上でストリーミングされる人気と可用性が着実に伸びている。 その結果,HDR動画の主観的品質を評価することは,一般的に圧縮の対象となっている。 特に,圧縮HDRビデオの完全参照品質評価の課題を対象としている。 最先端のSOTA(State-of-the-art)アプローチでは、VMAFのような市販のビデオ品質モデルが強化され、非線形変換ビデオフレームで計算される。 しかし、HDRMAXはVMAFのようなモデルの計算複雑性を高める。 ここでは、FUNQUE+というビデオ品質予測モデルの効率的なクラスがSOTA精度を実現することを示す。 これは、FUNQUE+モデルがVMAFのフレキシブルな代替品であることを示し、より低い計算コストで高いHDRビデオ品質予測精度を実現する。

Recent years have seen steady growth in the popularity and availability of High Dynamic Range (HDR) content, particularly videos, streamed over the internet. As a result, assessing the subjective quality of HDR videos, which are generally subjected to compression, is of increasing importance. In particular, we target the task of full-reference quality assessment of compressed HDR videos. The state-of-the-art (SOTA) approach HDRMAX involves augmenting off-the-shelf video quality models, such as VMAF, with features computed on non-linearly transformed video frames. However, HDRMAX increases the computational complexity of models like VMAF. Here, we show that an efficient class of video quality prediction models named FUNQUE+ achieves SOTA accuracy. This shows that the FUNQUE+ models are flexible alternatives to VMAF that achieve higher HDR video quality prediction accuracy at lower computational cost.
翻訳日:2023-12-16 00:44:13 公開日:2023-12-13
# パワーモジュールの自動レイアウト設計のためのインダクタンスと熱回帰と最適化に関する研究

A Study on the Inductance and Thermal Regression and Optimization for Automatic Layout Design of Power Modules ( http://arxiv.org/abs/2312.08523v1 )

ライセンス: Link先を確認
Victor Parque, Aiki Nakamura, Tomoyuki Miyashita(参考訳) インダクタンスと温度測定に優れた電力モジュールは、新しい技術におけるエネルギー需要の高度化に対応するために重要である。 本稿では,低計算予算で実現可能かつ魅力的なインダクタンス温度比を持つ電力モジュールの最適レイアウトをサロゲートベースで描画する手法を提案する。 特に,電力モジュールのレイアウト-設計変数とインダクタンス-温度要因の関係をシミュレーションから推定するために,フィードフォワードネットワークのクラス,およびインダクタンスと温度比を最小化するパワーモジュール基板の可能なレイアウト配置を最適化・配置するための差分進化アルゴリズムを用いる。 本研究は,電力モジュールレイアウトを効率的かつ効果的に推定・最適化できるフィードフォワードネットワークと勾配なし最適化アルゴリズムの望ましいクラスを提案する。

Power modules with excellent inductance and temperature metrics are significant to meet the rising sophistication of energy demand in new technologies. In this paper, we use a surrogate-based approach to render optimal layouts of power modules with feasible and attractive inductance-temperature ratios at low computational budget. In particular, we use the class of feedforward networks to estimate the surrogate relationships between power module layout-design variables and inductance-temperature factors rendered from simulations; and Differential Evolution algorithms to optimize and locate feasible layout configurations of power module substrates minimizing inductance and temperature ratios. Our findings suggest the desirable classes of feedforward networks and gradient-free optimization algorithms being able to estimate and optimize power module layouts efficiently and effectively.
翻訳日:2023-12-16 00:43:55 公開日:2023-12-13
# コントラスト学習による推薦損失関数の再検討(技術報告)

Revisiting Recommendation Loss Functions through Contrastive Learning (Technical Report) ( http://arxiv.org/abs/2312.08520v1 )

ライセンス: Link先を確認
Dong Li and Ruoming Jin and Bin Ren(参考訳) コントラスト学習の成功に触発されて,リストワイド(ソフトマックス),ペアワイド(BPR),ポイントワイド(MSE,CCL)損失などの推薦損失を体系的に検討した。 本稿では、バランス係数を持つInfoNCEの最適化一般化であるInfoNCE+を紹介し、特に新たな非結合型コントラスト損失であるMINE+に合わせると、その性能上の利点を強調します。 また,Debiased InfoNCEを用いて,Debiased CCLとしてポイントワイドレコメンデーション損失(CCL)を除去する。 興味深いことに、我々はiALSやEASEのような線形モデルが本質的に不偏であることを明らかにした。 実験結果は, mine+およびdebiased-cclの有効性を示す。

Inspired by the success of contrastive learning, we systematically examine recommendation losses, including listwise (softmax), pairwise (BPR), and pointwise (MSE and CCL) losses. In this endeavor, we introduce InfoNCE+, an optimized generalization of InfoNCE with balance coefficients, and highlight its performance advantages, particularly when aligned with our new decoupled contrastive loss, MINE+. We also leverage debiased InfoNCE to debias pointwise recommendation loss (CCL) as Debiased CCL. Interestingly, our analysis reveals that linear models like iALS and EASE are inherently debiased. Empirical results demonstrates the effectiveness of MINE+ and Debiased-CCL.
翻訳日:2023-12-16 00:43:37 公開日:2023-12-13
# より生物学的にプラズブルな潜在原因推論ニューラルネットワークモデルに向けて

Toward a More Biologically Plausible Neural Network Model of Latent Cause Inference ( http://arxiv.org/abs/2312.08519v1 )

ライセンス: Link先を確認
Qihong Lu, Tan T. Nguyen, Qiong Zhang, Uri Hasson, Thomas L. Griffiths, Jeffrey M. Zacks, Samuel J. Gershman, Kenneth A. Norman(参考訳) 人間は個別の出来事として経験の流れを自然に知覚する。 この能力は潜在原因推論(LCI)によって支えられると仮定されている。 我々は,LCIのニューラルネットワークモデルであるLCNetを用いて,この仮説を実装した。 LCNetはベイズ型LCI機構と相互作用し、推定潜在原因ごとに独自のコンテキストベクトルを活性化する。 このアーキテクチャによりLCNetは既存のLCIモデルよりも生物学的に信頼性が高くなり、潜在原因間の共有構造の抽出をサポートする。 3つのシミュレーションでLCNetが実現可能であることが分かった。 1)破滅的干渉を回避しつつ,機能学習課題における潜在原因間の共有構造を抽出する。 2)スキーマ学習におけるカリキュラム効果に関する人的データを取得し、 3) 日常活動の自然映像処理におけるイベント構造の推定 我々の研究は、実験室での実験設定と自然主義的な設定の両方で操作できる生物学的に妥当な計算モデルを提供し、イベント認知の統一モデルを提供する可能性を広げる。

Humans spontaneously perceive a continuous stream of experience as discrete events. It has been hypothesized that this ability is supported by latent cause inference (LCI). We implemented this hypothesis using Latent Cause Network (LCNet), a neural network model of LCI. LCNet interacts with a Bayesian LCI mechanism that activates a unique context vector for each inferred latent cause. This architecture makes LCNet more biologically plausible than existing models of LCI and supports extraction of shared structure across latent causes. Across three simulations, we found that LCNet could 1) extract shared structure across latent causes in a function-learning task while avoiding catastrophic interference, 2) capture human data on curriculum effects in schema learning, and 3) infer the underlying event structure when processing naturalistic videos of daily activities. Our work provides a biologically plausible computational model that can operate in both laboratory experiment settings and naturalistic settings, opening up the possibility of providing a unified model of event cognition.
翻訳日:2023-12-16 00:43:24 公開日:2023-12-13
# (偏り)勧告のためのコントラスト学習損失(技術報告)

(Debiased) Contrastive Learning Loss for Recommendation (Technical Report) ( http://arxiv.org/abs/2312.08517v1 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li(参考訳) 本稿では,listwise (softmax), pairwise (bpr), pointwise (mean-squared error, mse, cosine contrastive loss, ccl) などの推奨損失を,コントラスト学習のレンズを通して体系的に検討する。 提案手法では,debiased infonce と mutual information neural estimator (mine) の両方を初めて推奨条件下で導入・検討する。 また, この2つの損失を, 下位境界解析によるBPR損失と関連づけ, 区別する。 さらに, 2つの最もポピュラーな線形モデルであるiALSとEASEの両方が本質的にデバイアス化されていることを理論的に証明する。 実証実験の結果,デバイアス損失の有効性が示され,新たに導入された相互情報損失は,既存(バイアス)損失を上回った。

In this paper, we perform a systemic examination of the recommendation losses, including listwise (softmax), pairwise(BPR), and pointwise (mean-squared error, MSE, and Cosine Contrastive Loss, CCL) losses through the lens of contrastive learning. We introduce and study both debiased InfoNCE and mutual information neural estimator (MINE), for the first time, under the recommendation setting. We also relate and differentiate these two losses with the BPR loss through the lower bound analysis. Furthermore, we present the debiased pointwise loss (for both MSE and CCL) and theoretically certify both iALS and EASE, two of the most popular linear models, are inherently debiased. The empirical experimental results demonstrate the effectiveness of the debiased losses and newly introduced mutual-information losses outperform the existing (biased) ones.
翻訳日:2023-12-16 00:43:09 公開日:2023-12-13
# neural $k$-formsを用いた単純表現学習

Simplicial Representation Learning with Neural $k$-forms ( http://arxiv.org/abs/2312.08515v1 )

ライセンス: Link先を確認
Kelly Maggs, Celia Hacker, Bastian Rieck(参考訳) 幾何学的深層学習は、特にグラフのような複雑な領域において、幾何学的および位相的データに関する情報を組み込むようにディープラーニングを拡張する。 この分野ではメッセージパッシングの人気にもかかわらず、グラフの書き換えの必要性、データの解釈の曖昧さ、過剰なスムース化といった制限がある。 本稿では,ノード座標を用いて,$\mathbb{R}^n$に埋め込まれた単体錯体の幾何学的情報を活用することに焦点をあてる。 我々は \mathbb{R}^n の微分 k-形式を用いて単純化の表現を作成し、メッセージパッシングなしで解釈可能性と幾何的整合性を提供する。 このアプローチはまた、微分幾何学ツールを適用し、普遍近似を実現できる。 本手法は, グラフ, 単純錯体, セル錯体など, 様々な入力錯体に適用可能である。 既存のメッセージパッシングニューラルネットワークよりも、ノードの特徴を座標として持つ幾何学グラフの情報を活用する。

Geometric deep learning extends deep learning to incorporate information about the geometry and topology data, especially in complex domains like graphs. Despite the popularity of message passing in this field, it has limitations such as the need for graph rewiring, ambiguity in interpreting data, and over-smoothing. In this paper, we take a different approach, focusing on leveraging geometric information from simplicial complexes embedded in $\mathbb{R}^n$ using node coordinates. We use differential k-forms in \mathbb{R}^n to create representations of simplices, offering interpretability and geometric consistency without message passing. This approach also enables us to apply differential geometry tools and achieve universal approximation. Our method is efficient, versatile, and applicable to various input complexes, including graphs, simplicial complexes, and cell complexes. It outperforms existing message passing neural networks in harnessing information from geometrical graphs with node features serving as coordinates.
翻訳日:2023-12-16 00:42:50 公開日:2023-12-13
# M3T: ビデオオブジェクトのセグメンテーションとトラッキングのためのマルチスケールメモリマッチング

M3T: Multi-Scale Memory Matching for Video Object Segmentation and Tracking ( http://arxiv.org/abs/2312.08514v1 )

ライセンス: Link先を確認
Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal(参考訳) ビデオオブジェクトセグメンテーション(vos: video object segmentation)は、より大きなデータセットとより複雑で現実的な設定が利用可能になったことで、ますます重要になっている。 このタスクに対する最近の多くのアプローチが検討されているが、これらのデータ特性は依然として課題となっている。 本稿では,上記の課題を体系的に分析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。 具体的には,動画をクリップに分割し,時間符号化メモリを用いてコンテキストを伝播させることにより,長い映像をウィンドウ方式でオンライン推論することができる。 短いクリップ長と学習時間符号化によるメモリ長が,最先端(sota)性能を達成する上で重要な設計選択であることを示す。 さらに,小物体の感度と精度を確保するため,マルチスケールマッチングとデコードを提案する。 最後に,被写体が大きな変形を受ける映像の一部に焦点をあてる,新たなトレーニング戦略を提案する。 これらの技術的貢献により、我々のモデルは2つの複雑なデータセット、VISORとVOSTでSoTAのパフォーマンスを達成することができる。 一連の詳細なアブレーションは、我々の設計選択を検証し、パラメータ選択の重要性とそのパフォーマンスへの影響についての洞察を提供します。

Video Object Segmentation (VOS) has became increasingly important with availability of larger datasets and more complex and realistic settings, which involve long videos with global motion (e.g, in egocentric settings), depicting small objects undergoing both rigid and non-rigid (including state) deformations. While a number of recent approaches have been explored for this task, these data characteristics still present challenges. In this work we propose a novel, DETR-style encoder-decoder architecture, which focuses on systematically analyzing and addressing aforementioned challenges. Specifically, our model enables on-line inference with long videos in a windowed fashion, by breaking the video into clips and propagating context among them using time-coded memory. We illustrate that short clip length and longer memory with learned time-coding are important design choices for achieving state-of-the-art (SoTA) performance. Further, we propose multi-scale matching and decoding to ensure sensitivity and accuracy for small objects. Finally, we propose a novel training strategy that focuses learning on portions of the video where an object undergoes significant deformations -- a form of "soft" hard-negative mining, implemented as loss-reweighting. Collectively, these technical contributions allow our model to achieve SoTA performance on two complex datasets -- VISOR and VOST. A series of detailed ablations validate our design choices as well as provide insights into the importance of parameter choices and their impact on performance.
翻訳日:2023-12-16 00:42:33 公開日:2023-12-13
# アルゴリズム意思決定における予測の相対値

The Relative Value of Prediction in Algorithmic Decision Making ( http://arxiv.org/abs/2312.08511v1 )

ライセンス: Link先を確認
Juan Carlos Perdomo(参考訳) アルゴリズムによる予測は、公共分野における商品の配分や介入を知らせるためにますます使われている。 これらの領域では、予測は終わりの手段となる。 意思決定の質を高め、社会福祉を強化する手段として、将来のイベントの可能性に関する洞察をステークホルダーに提供する。 しかし、福祉を最大化することが究極の目標なら、予測はパズルの小さなピースにすぎない。 利用可能な商品へのアクセスの拡大や介入の効果規模の拡大など、ボトムラインな結果を改善するために社会プランナーが追求するであろう他の政策レバーもある。 アルゴリズムによる意思決定における予測の相対的な価値は何か? 他の政策レバーと比べて、より良い予測から生じる福祉の改善はどのようなものか? 私たちの研究の目標は、これらの質問の正式な研究を開始することです。 我々の主な成果は自然理論である。 定量的社会科学者に人気があるいくつかの統計モデルにおいて, vis-\`a-vis拡張アクセスの相対的価値を決定する単純で鋭い条件を同定した。 さらに,これらの理論的洞察が,アルゴリズム的意思決定システムの設計を実際に導く上でどのように役立つかを示す。

Algorithmic predictions are increasingly used to inform the allocations of goods and interventions in the public sphere. In these domains, predictions serve as a means to an end. They provide stakeholders with insights into likelihood of future events as a means to improve decision making quality, and enhance social welfare. However, if maximizing welfare is the ultimate goal, prediction is only a small piece of the puzzle. There are various other policy levers a social planner might pursue in order to improve bottom-line outcomes, such as expanding access to available goods, or increasing the effect sizes of interventions. Given this broad range of design decisions, a basic question to ask is: What is the relative value of prediction in algorithmic decision making? How do the improvements in welfare arising from better predictions compare to those of other policy levers? The goal of our work is to initiate the formal study of these questions. Our main results are theoretical in nature. We identify simple, sharp conditions determining the relative value of prediction vis-\`a-vis expanding access, within several statistical models that are popular amongst quantitative social scientists. Furthermore, we illustrate how these theoretical insights may be used to guide the design of algorithmic decision making systems in practice.
翻訳日:2023-12-16 00:42:05 公開日:2023-12-13
# phaseperturbation: phase perturbationによる自動音声認識のための音声データ拡張

PhasePerturbation: Speech Data Augmentation via Phase Perturbation for Automatic Speech Recognition ( http://arxiv.org/abs/2312.08571v1 )

ライセンス: Link先を確認
Chengxi Lei, Satwinder Singh, Feng Hou, Xiaoyun Jia, Ruili Wang(参考訳) 現在の音声データ拡張手法のほとんどは、音声の生波形または振幅スペクトルのいずれかで動作する。 本稿では,音声の位相スペクトル上で動的に動作する位相摂動と呼ばれる新しい音声データ拡張法を提案する。 位相を一定度静的に回転させる代わりに、位相摂動は3つの動的位相スペクトル演算、すなわちランダム化演算、周波数マスキング演算、時間マスキング演算を利用して、音声データの多様性を高める。 我々は、段階摂動拡張TIMITコーパスを用いて、wav2vec2.0事前訓練されたASRモデルについて実験を行った。 実験の結果, 単語誤り率 (wer) が10.9\%低下し, 補足操作を伴わずに微調整されたベースラインモデルと比較した。 さらに、振幅スペクトルに基づく拡張法である声道長摂動(vtlp)とspecaugを補完することにより、werのさらなる改善(12.9\%および15.9\%)を実現する。 その結果,現在の振幅スペクトルに基づく増幅法を改善するための位相摂動の能力を強調した。

Most of the current speech data augmentation methods operate on either the raw waveform or the amplitude spectrum of speech. In this paper, we propose a novel speech data augmentation method called PhasePerturbation that operates dynamically on the phase spectrum of speech. Instead of statically rotating a phase by a constant degree, PhasePerturbation utilizes three dynamic phase spectrum operations, i.e., a randomization operation, a frequency masking operation, and a temporal masking operation, to enhance the diversity of speech data. We conduct experiments on wav2vec2.0 pre-trained ASR models by fine-tuning them with the PhasePerturbation augmented TIMIT corpus. The experimental results demonstrate 10.9\% relative reduction in the word error rate (WER) compared with the baseline model fine-tuned without any augmentation operation. Furthermore, the proposed method achieves additional improvements (12.9\% and 15.9\%) in WER by complementing the Vocal Tract Length Perturbation (VTLP) and the SpecAug, which are both amplitude spectrum-based augmentation methods. The results highlight the capability of PhasePerturbation to improve the current amplitude spectrum-based augmentation methods.
翻訳日:2023-12-16 00:34:53 公開日:2023-12-13
# 量子スーパーインパルスの理論

Theory of quantum super impulses ( http://arxiv.org/abs/2312.08569v1 )

ライセンス: Link先を確認
Christopher Jarzynski(参考訳) 量子インパルス(quantum impulse)は、波動関数 $\psi(x)$ に突然変化をもたらす短時間だが強い摂動である。 我々は、通常のインパルスと超インパルスを区別する量子インパルスの理論を開発する。 通常のインパルスは $\psi$ に位相を描き、超インパルス -- この論文の主な焦点 -- は、可逆写像 $\mu: x -> x'$ の下で波動関数を変形させる。 最適な質量輸送理論と断熱への近道からツールを借りて、所望の写像$\mu$ の下で波動関数を変形する超インパルスを設計する方法を示し、解法可能な例を用いて結果を示す。 我々は量子力学の経路積分的定式化の観点から表現された量子と古典的スーパーインパルスの強い関係を指摘する。 本稿では,通常のインパルスとスーパーインパルスを同時に適用するハイブリッドインパルスについて簡単に論じる。 我々の中心となる結果は時間依存シュロディンガー方程式の下での進化に導かれるが、時間依存グロス・ピタエフスキー方程式にも等しく当てはまるため、ボース=アインシュタイン凝縮の操作に関係している可能性がある。

A quantum impulse is a brief but strong perturbation that produces a sudden change in a wavefunction $\psi(x)$. We develop a theory of quantum impulses, distinguishing between ordinary and super impulses. An ordinary impulse paints a phase onto $\psi$, while a super impulse -- the main focus of this paper -- deforms the wavefunction under an invertible map, $\mu: x -> x'$. Borrowing tools from optimal mass transport theory and shortcuts to adiabaticity, we show how to design a super impulse that deforms a wavefunction under a desired map $\mu$, and we illustrate our results using solvable examples. We point out a strong connection between quantum and classical super impulses, expressed in terms of the path integral formulation of quantum mechanics. We briefly discuss hybrid impulses, in which ordinary and super impulses are applied simultaneously. While our central results are derived for evolution under the time-dependent Schrodinger equation, they apply equally well to the time-dependent Gross-Pitaevskii equation, and thus may be relevant for the manipulation of Bose-Einstein condensates.
翻訳日:2023-12-16 00:34:32 公開日:2023-12-13
# nvist: トランスフォーマーのある1枚の画像からの新しい視点で合成する

NViST: In the Wild New View Synthesis from a Single Image with Transformers ( http://arxiv.org/abs/2312.08568v1 )

ライセンス: Link先を確認
Wonbong Jang, Lourdes Agapito(参考訳) NViSTは、1つの画像から新規ビューを合成するためのトランスフォーマーモデルであり、複雑な背景を持つ画像の大規模データセットに基づいて訓練される。 NViSTは画像入力を直接放射場に変換し、スケーラブルなトランスフォーマーベースのアーキテクチャを採用する。 実際には、NViSTはマスク付きオートエンコーダ(MAE)によって学習された自己教師機能を活用し、クロスアテンションと適応層正規化によって特徴を3Dトークンに変換する新しいデコーダを学ぶ。 実験時間最適化や3D対応拡散モデルのようなサンプリングを必要とする手法とは異なり,提案手法は1つのフォワードパスのみで3D表現を予測できる。 我々は,現行の新視点合成モデルのさらなる限界に取り組む。 まず、合成データセットやマスク入力で訓練されるほとんどの生成モデルとは異なり、我々のモデルは、様々な背景を持つ数百の対象カテゴリを含む実世界のカジュアルなビデオの大規模データセットであるMVImgNetで訓練されている。 第二に、私たちのモデルはトレーニングデータの正規化を必要としません。すなわち、すべてのオブジェクトをフロントビューに整列する — トレーニング時に相対的なポーズが必要なだけであり、カジュアルにキャプチャされたデータセットで使用されていることに対する大きな障壁を取り除きます。 MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャの結果を示す。 我々は,MVImgNetとShapeNetの質的,定量的な評価を行い,本モデルが1枚の画像から真の新規ビュー合成を実現するための一歩であることを示す。

We propose NViST, a transformer-based model for novel-view synthesis from a single image, trained on a large-scale dataset of in-the-wild images with complex backgrounds. NViST transforms image inputs directly into a radiance field, adopting a scalable transformer-based architecture. In practice, NViST exploits the self-supervised features learnt by a masked autoencoder (MAE), and learns a novel decoder that translates features to 3D tokens via cross-attention and adaptive layer normalization. Our model is efficient at inference since only a single forward-pass is needed to predict a 3D representation, unlike methods that require test-time optimization or sampling such as 3D-aware diffusion models. We tackle further limitations of current new-view synthesis models. First, unlike most generative models that are trained in a category-specific manner, often on synthetic datasets or on masked inputs, our model is trained on MVImgNet, a large-scale dataset of real-world, casually-captured videos containing hundreds of object categories with diverse backgrounds. Secondly, our model does not require canonicalization of the training data - i.e. aligning all objects with a frontal view - only needing relative pose at training time which removes a substantial barrier to it being used on casually captured datasets. We show results on unseen objects and categories on MVImgNet and even casual phone captures. We conduct qualitative and quantitative evaluations on MVImgNet and ShapeNet to show that our model represents a step forward towards enabling true in-the-wild novel-view synthesis from a single image.
翻訳日:2023-12-16 00:34:08 公開日:2023-12-13
# ConFormer: 心臓機能評価における心臓科医を支援するための新しい深層学習モデル

ConFormer: A Novel Collection of Deep Learning Models to Assist Cardiologists in the Assessment of Cardiac Function ( http://arxiv.org/abs/2312.08567v1 )

ライセンス: Link先を確認
Ethan Thomas, Salman Aslam(参考訳) 心臓血管疾患、特に心不全は、世界中で主要な死因である。 定期的な心エコー検査による心不全の早期発見は、これらの処置のコストと労働集約性によってしばしば妨げられ、これは生命と死の違いを意味する。 本稿では,心エコー法による射出率(ef)と左室壁厚の推定を自動化した新しい深層学習モデルであるconformerを提案する。 ConFormerの実装は、コスト効率が高く、アクセシビリティが高く、包括的な心臓健康モニタリングを可能にし、無数の命を救うことによって、予防的心臓病を増強する可能性がある。 ソースコードはhttps://github.com/aether111/conformerで入手できる。

Cardiovascular diseases, particularly heart failure, are a leading cause of death globally. The early detection of heart failure through routine echocardiogram screenings is often impeded by the high cost and labor-intensive nature of these procedures, a barrier that can mean the difference between life and death. This paper presents ConFormer, a novel deep learning model designed to automate the estimation of Ejection Fraction (EF) and Left Ventricular Wall Thickness from echocardiograms. The implementation of ConFormer has the potential to enhance preventative cardiology by enabling cost-effective, accessible, and comprehensive heart health monitoring, thereby saving countless lives. The source code is available at https://github.com/Aether111/ConFormer.
翻訳日:2023-12-16 00:33:38 公開日:2023-12-13
# 自然言語指導による適応型計画表現の学習

Learning adaptive planning representations with natural language guidance ( http://arxiv.org/abs/2312.08566v1 )

ライセンス: Link先を確認
Lionel Wong, Jiayuan Mao, Pratyusha Sharma, Zachary S. Siegel, Jiahai Feng, Noa Korneev, Joshua B. Tenenbaum, Jacob Andreas(参考訳) 現実世界の効果的な計画には、世界の知識だけでなく、その知識を活用して目の前のタスクの正しい表現を構築する能力が必要です。 何十年もの間、階層的計画手法は、効率的で正確な計画を支援するために、ドメイン固有の時間的行動抽象化を使用してきた。 本稿では、言語モデル(lms)からのタスク全般的背景知識を用いてタスク固有の計画表現を自動的に構築するフレームワークであるada(action domain acquisition)について述べる。 汎用階層型プランナーと低レベル目標条件ポリシーから始め、adaはプランナー互換の高レベルアクション抽象化と、特定の計画タスクのドメインに適応した低レベルコントローラのライブラリをインタラクティブに学習する。 言語指導による2つの対話型計画ベンチマーク(Mini MinecraftとALFRED Household Tasks)では、AdaはLMをシーケンシャルな意思決定に使用する他のアプローチよりも優れており、より正確な計画と複雑なタスクへのより良い一般化を提供する。

Effective planning in the real world requires not only world knowledge, but the ability to leverage that knowledge to build the right representation of the task at hand. Decades of hierarchical planning techniques have used domain-specific temporal action abstractions to support efficient and accurate planning, almost always relying on human priors and domain knowledge to decompose hard tasks into smaller subproblems appropriate for a goal or set of goals. This paper describes Ada (Action Domain Acquisition), a framework for automatically constructing task-specific planning representations using task-general background knowledge from language models (LMs). Starting with a general-purpose hierarchical planner and a low-level goal-conditioned policy, Ada interactively learns a library of planner-compatible high-level action abstractions and low-level controllers adapted to a particular domain of planning tasks. On two language-guided interactive planning benchmarks (Mini Minecraft and ALFRED Household Tasks), Ada strongly outperforms other approaches that use LMs for sequential decision-making, offering more accurate plans and better generalization to complex tasks.
翻訳日:2023-12-16 00:33:26 公開日:2023-12-13
# マルチビュー対応強化拡散モデルによるテキスト駆動3次元編集の効率化

Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models ( http://arxiv.org/abs/2312.08563v1 )

ライセンス: Link先を確認
Liangchen Song, Liangliang Cao, Jiatao Gu, Yifan Jiang, Junsong Yuan, Hao Tang(参考訳) テキスト駆動3dコンテンツ編集の進歩は、2次元生成拡散モデルからの進歩によって祝福されている。 しかし、3Dコンテンツ編集の普及を妨げる大きな障害は、その時間集約的な処理である。 この課題は、2次元画像ベース生成モデルから一貫した3D出力を達成するのに必要な反復的および精製的なステップから生じる。 最近の最先端の手法は通常、単一のgpuを使って3dシーンを編集するのに、数十分から数時間の最適化時間を必要とする。 本研究では,拡散モデルに対応正規化を組み込むことにより,3次元編集のプロセスを大幅に高速化できることを示す。 このアプローチは、拡散中の推定サンプルは拡散生成過程においてマルチビュー一貫性を持つべきであるという考え方に触発されている。 このマルチビューの一貫性を利用することで、3dコンテンツをより高速に編集できるのです。 ほとんどのシナリオにおいて、提案手法はベースライン法と比較して10$\times$のスピードアップをもたらし、同等の品質で2分間で3dシーンの編集を完了する。

The advancement of text-driven 3D content editing has been blessed by the progress from 2D generative diffusion models. However, a major obstacle hindering the widespread adoption of 3D content editing is its time-intensive processing. This challenge arises from the iterative and refining steps required to achieve consistent 3D outputs from 2D image-based generative models. Recent state-of-the-art methods typically require optimization time ranging from tens of minutes to several hours to edit a 3D scene using a single GPU. In this work, we propose that by incorporating correspondence regularization into diffusion models, the process of 3D editing can be significantly accelerated. This approach is inspired by the notion that the estimated samples during diffusion should be multiview-consistent during the diffusion generation process. By leveraging this multiview consistency, we can edit 3D content at a much faster speed. In most scenarios, our proposed technique brings a 10$\times$ speed-up compared to the baseline method and completes the editing of a 3D scene in 2 minutes with comparable quality.
翻訳日:2023-12-16 00:33:06 公開日:2023-12-13
# 低データレジームにおける公正なアクティブラーニング

Fair Active Learning in Low-Data Regimes ( http://arxiv.org/abs/2312.08559v1 )

ライセンス: Link先を確認
Romain Camilleri, Andrew Wagenmaker, Jamie Morgenstern, Lalit Jain, Kevin Jamieson(参考訳) 重要な機械学習アプリケーションでは、社会的不平等の持続を避けるために公正性を確保することが不可欠である。 本研究では,ラベル付きデータの収集コストが大きなラベル付きデータセットの使用を禁止するデータ収集環境において,バイアス低減と精度向上の課題に対処する。 このような環境では、アクティブラーニングは少量のラベル付きデータの限界精度ゲインを最大化する。 しかし、フェアネスのための既存のアクティブラーニングの応用では、通常は大きなラベル付きデータセットを必要とするか、あるいは、人口分布において所望のフェアネス寛容を確実に満たすことができない。 このような制限に対処するために,後方サンプリングに触発された探索手順と公平な分類サブルーチンを組み合わせた,革新的なアクティブラーニングフレームワークを提案する。 このフレームワークは、非常にデータスカルス的な方法で効果的に動作し、公平さの制約を高い確率で満たしながら精度を最大化する。 提案手法を確立された実世界ベンチマークデータセットを用いて評価し,最新手法と比較し,公平なモデル作成における効果と既存手法の改善を実証した。

In critical machine learning applications, ensuring fairness is essential to avoid perpetuating social inequities. In this work, we address the challenges of reducing bias and improving accuracy in data-scarce environments, where the cost of collecting labeled data prohibits the use of large, labeled datasets. In such settings, active learning promises to maximize marginal accuracy gains of small amounts of labeled data. However, existing applications of active learning for fairness fail to deliver on this, typically requiring large labeled datasets, or failing to ensure the desired fairness tolerance is met on the population distribution. To address such limitations, we introduce an innovative active learning framework that combines an exploration procedure inspired by posterior sampling with a fair classification subroutine. We demonstrate that this framework performs effectively in very data-scarce regimes, maximizing accuracy while satisfying fairness constraints with high probability. We evaluate our proposed approach using well-established real-world benchmark datasets and compare it against state-of-the-art methods, demonstrating its effectiveness in producing fair models, and improvement over existing methods.
翻訳日:2023-12-16 00:32:49 公開日:2023-12-13
# G-MEMP: 運転時のマルチモーダルエゴ運動予測

G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving ( http://arxiv.org/abs/2312.08558v1 )

ライセンス: Link先を確認
M. Eren Akbiyik, Nedko Savov, Danda Pani Paudel, Nikola Popovic, Christian Vater, Otmar Hilliges, Luc Van Gool, Xi Wang(参考訳) ドライバーの意思決定プロセスを理解することは、道路安全を確保する鍵のひとつだ。 ドライバーの意図と結果として生じるエゴモーションの軌跡は、運転支援システムの開発に有用であるが、既存の手法は主に他の車両の動きに焦点を当てている。 対照的に,視線データを用いて運転者の車両の自走軌跡を推定することに注力する。 この目的のために、私たちはまず、ドライバーの視線追跡データとGPS座標を組み合わせた高忠実なエゴモーションビデオを含む新しいデータセット、GEMを収集します。 次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークG-MEMPを開発する。 また,軌道の複雑度を測定するため,パス複雑度指数(PCI)と呼ばれる新しい指標を提案する。 本稿では,既存のベンチマークデータセットであるGEMとDR(eye)VEについて,提案手法の広範な評価を行う。 その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。 さらに、アブレーション研究は、特にPCIの高い運転シナリオにおいて、視線データを用いた平均変位率を20%以上改善することを示した。 データ、コード、モデルはhttps://eth-ait.github.io/g-memp/で確認できる。

Understanding the decision-making process of drivers is one of the keys to ensuring road safety. While the driver intent and the resulting ego-motion trajectory are valuable in developing driver-assistance systems, existing methods mostly focus on the motions of other vehicles. In contrast, we focus on inferring the ego trajectory of a driver's vehicle using their gaze data. For this purpose, we first collect a new dataset, GEM, which contains high-fidelity ego-motion videos paired with drivers' eye-tracking data and GPS coordinates. Next, we develop G-MEMP, a novel multimodal ego-trajectory prediction network that combines GPS and video input with gaze data. We also propose a new metric called Path Complexity Index (PCI) to measure the trajectory complexity. We perform extensive evaluations of the proposed method on both GEM and DR(eye)VE, an existing benchmark dataset. The results show that G-MEMP significantly outperforms state-of-the-art methods in both benchmarks. Furthermore, ablation studies demonstrate over 20% improvement in average displacement using gaze data, particularly in challenging driving scenarios with a high PCI. The data, code, and models can be found at https://eth-ait.github.io/g-memp/.
翻訳日:2023-12-16 00:32:29 公開日:2023-12-13
# KDAS3:Attention Supervisionによる知識蒸留とポリプセグメンテーションを導く対称性構造

KDAS3: Knowledge distillation via Attention Supervision, and Symmetrical structure guiding for Polyp Segmentation ( http://arxiv.org/abs/2312.08555v1 )

ライセンス: Link先を確認
Quoc-Huy Trinh(参考訳) 医療画像における論争的な問題であるポリプセグメンテーションでは、セグメンテーションマスクの品質向上を目的とした多くの手法が提案されている。 現在、最先端の技術は印象的な結果をもたらす。 しかし、これらのモデルの大きさは、実践的な産業アプリケーションに課題をもたらす。 そこで本研究では,注意監督と対称誘導手法を取り入れた知識蒸留フレームワークを提案する。 このフレームワークは、教師モデルからより少ないパラメータでよりコンパクトな学生モデルへの知識伝達を容易にするように設計されている。 本フレームワークの実験的な評価は,学生モデルが教師の知識を効率的に獲得できることの有効性を評価するものである。 さらに,本手法は,不正確な予測につながる可能性のある冗長な特徴を学生モデルに組み込むことを防ぐのに役立つ。 その結果,約500万パラメータを誇示する手法は,最先端手法に匹敵する競合結果が得られる。 実装は以下の通りである。 https://github.com/huyquoctrinh/KDAS3

Polyp segmentation, a contentious issue in medical imaging, has seen numerous proposed methods aimed at improving the quality of segmented masks. Currently, state-of-the-art techniques yield impressive results. However, the sheer size of these models poses challenges for practical industry applications. To address this, we present a Knowledge Distillation framework, incorporating attention supervision and the symmetrical guiding method. This framework is designed to facilitate knowledge transfer from a teacher model to a more compact student model with fewer parameters. Our experimental evaluation of the framework assesses its effectiveness in enabling the student model to acquire knowledge from the teacher efficiently. Additionally, our method serves to prevent the student model from incorporating redundant features that could lead to inaccurate predictions. Consequently, our method, boasting approximately 5 million parameters, achieves competitive results comparable to the state-of-the-art approaches. The implementation can be found at: https://github.com/huyquoctrinh/KDAS3
翻訳日:2023-12-16 00:32:08 公開日:2023-12-13
# 学習の調和:不変ネットワークに現れる普遍的フーリエ特徴

Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks ( http://arxiv.org/abs/2312.08550v1 )

ライセンス: Link先を確認
Giovanni Luca Marchetti, Christopher Hillar, Danica Kragic, Sophia Sanborn(参考訳) この研究において、ある条件下で、ニューラルネットワークが有限群に不変であれば、その重みはその群のフーリエ変換を回復することを正式に証明する。 これは、生物と人工学習システムの両方においてユビキタスな現象であるフーリエ特徴の出現に関する数学的説明を提供する。 結果は非可換群に対しても成り立ち、その場合フーリエ変換はすべての既約ユニタリ群表現を符号化する。 我々の発見は対称性発見の問題に影響を及ぼす。 具体的には、未知群の代数的構造は、ある境界内で少なくともほぼ不変であるネットワークの重みから回復できることを実証する。 全体として、この研究は不変ニューラルネットワーク表現の代数的学習理論の基礎に貢献する。

In this work, we formally prove that, under certain conditions, if a neural network is invariant to a finite group then its weights recover the Fourier transform on that group. This provides a mathematical explanation for the emergence of Fourier features -- a ubiquitous phenomenon in both biological and artificial learning systems. The results hold even for non-commutative groups, in which case the Fourier transform encodes all the irreducible unitary group representations. Our findings have consequences for the problem of symmetry discovery. Specifically, we demonstrate that the algebraic structure of an unknown group can be recovered from the weights of a network that is at least approximately invariant within certain bounds. Overall, this work contributes to a foundation for an algebraic learning theory of invariant neural network representations.
翻訳日:2023-12-16 00:31:53 公開日:2023-12-13
# EVP:逆多重補正と正規化画像テキストアライメントを用いた視覚知覚の強化

EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature Refinement and Regularized Image-Text Alignment ( http://arxiv.org/abs/2312.08548v1 )

ライセンス: Link先を確認
Mykola Lavreniuk, Shariq Farooq Bhat, Matthias M\"uller, Peter Wonka(参考訳) この研究は、ネットワークアーキテクチャ EVP (Enhanced Visual Perception) を示す。 EVPは、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいて構築されている。 我々は2つの大きな拡張を提案する。 まず,高いピラミッドレベルから空間情報を集約することで,機能学習能力を高める逆多目的機能改良(imafr)モジュールを開発した。 第2に,安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。 得られたアーキテクチャは多種多様なタスクに適しており、分類ベースビンを用いた専用デコーダと既製のデコーダを用いたセグメンテーションによる単一画像深度推定の文脈でその性能を示す。 確立されたデータセットで実施された総合的な実験により、EVPは屋内(NYU Depth v2, 11.8% RMSE v2, 11.8% RMSE v2, 11.8%)と屋外(KITTI)の環境に対して、またセグメンテーション(RefCOCO, 2.53 IoU improvement over ReLA)を参照して、単一画像深度推定の最先端結果を達成することが示された。 コードと事前トレーニングされたモデルはhttps://github.com/lavreniuk/evpで公開されている。

This work presents the network architecture EVP (Enhanced Visual Perception). EVP builds on the previous work VPD which paved the way to use the Stable Diffusion network for computer vision tasks. We propose two major enhancements. First, we develop the Inverse Multi-Attentive Feature Refinement (IMAFR) module which enhances feature learning capabilities by aggregating spatial information from higher pyramid levels. Second, we propose a novel image-text alignment module for improved feature extraction of the Stable Diffusion backbone. The resulting architecture is suitable for a wide variety of tasks and we demonstrate its performance in the context of single-image depth estimation with a specialized decoder using classification-based bins and referring segmentation with an off-the-shelf decoder. Comprehensive experiments conducted on established datasets show that EVP achieves state-of-the-art results in single-image depth estimation for indoor (NYU Depth v2, 11.8% RMSE improvement over VPD) and outdoor (KITTI) environments, as well as referring segmentation (RefCOCO, 2.53 IoU improvement over ReLA). The code and pre-trained models are publicly available at https://github.com/Lavreniuk/EVP.
翻訳日:2023-12-16 00:31:42 公開日:2023-12-13
# 多様性の披露: コミュニティ多様性とターンオーバーダッシュボードでossプロジェクトのリーダに権限を与える

Unveiling Diversity: Empowering OSS Project Leaders with Community Diversity and Turnover Dashboards ( http://arxiv.org/abs/2312.08543v1 )

ライセンス: Link先を確認
Mariam Guizani, Zixuan Feng, Emily Judith Arteaga, Luis Ca\~nas-D\'iaz, Alexander Serebrenik, Anita Sarma(参考訳) オープンソースソフトウェア(OSS)プロジェクトを管理するには、コントリビュータのコミュニティを管理する必要がある。 特に、プロジェクトリーダーがコミュニティの多様性と交代を理解することは不可欠です。 CommunityTapestryは動的リアルタイムコミュニティダッシュボードで、文献や利害関係者との参加型デザインセッションを通じて、重要な多様性とターンオーバーのシグナルを提示します。 OSSプロジェクトのコントリビュータやプロジェクト管理委員会メンバとCommunityTapestryを評価し,自身のプロジェクトデータを用いてダッシュボードを調査した。 調査の結果,コミュニティTapestryは参加者のコミュニティ構成に対する意識を高め,プロジェクトの多様性と転職率を高めた。 改善の領域を特定し、実行可能な情報を提供するのに役立ちました。

Managing open-source software (OSS) projects requires managing communities of contributors. In particular, it is essential for project leaders to understand their community's diversity and turnover. We present CommunityTapestry, a dynamic real-time community dashboard, which presents key diversity and turnover signals that we identified from the literature and through participatory design sessions with stakeholders. We evaluated CommunityTapestry with an OSS project's contributors and Project Management Committee members, who explored the dashboard using their own project data. Our study results demonstrate that CommunityTapestry increased participants' awareness of their community composition and the diversity and turnover rates in the project. It helped them identify areas of improvement and gave them actionable information.
翻訳日:2023-12-16 00:31:15 公開日:2023-12-13
# 非有向グラフの最小整数表現の探索について

On Searching for Minimal Integer Representation of Undirected Graphs ( http://arxiv.org/abs/2312.08539v1 )

ライセンス: Link先を確認
Victor Parque, Tomoyuki Miyashita(参考訳) 最小かつ効率的なグラフ表現は、ユーザ定義基準を満たしながら、グラフやネットワークの検索空間を保存、通信、サンプリングするための鍵である。 本稿では,非有向グラフの最小整数表現を探索するための微分進化に基づく勾配なし最適化ヒューリスティックスの実現可能性について検討する。 微分進化アルゴリズムのクラスは、非凸および非線形最適化コミュニティにおいて関連する注意を払っている集団に基づく勾配なし最適化ヒューリスティックである。 8種類の微分進化スキームとグラフインスタンスを用いた計算実験により,少数の関数評価において探索指向戦略で表されるグラフエンコーディング/表現の最小値を得ることができた。 この結果から,グラフ表現,ネットワーク設計,最適化のための新しい数値ベース符号化とサンプルベースアルゴリズムの解明が可能となった。

Minimal and efficient graph representations are key to store, communicate, and sample the search space of graphs and networks while meeting user-defined criteria. In this paper, we investigate the feasibility of gradient-free optimization heuristics based on Differential Evolution to search for minimal integer representations of undirected graphs. The class of Differential Evolution algorithms are population-based gradient-free optimization heuristics having found a relevant attention in the nonconvex and nonlinear optimization communities. Our computational experiments using eight classes of Differential Evolution schemes and graph instances with varying degrees of sparsity have shown the merit of attaining minimal numbers for graph encoding/representation rendered by exploration-oriented strategies within few function evaluations. Our results have the potential to elucidate new number-based encoding and sample-based algorithms for graph representation, network design and optimization.
翻訳日:2023-12-16 00:31:02 公開日:2023-12-13
# 勾配圧縮のための収縮誤差フィードバック

Contractive error feedback for gradient compression ( http://arxiv.org/abs/2312.08538v1 )

ライセンス: Link先を確認
Bingcong Li, Shuai Zheng, Parameswaran Raman, Anshumali Shrivastava and Georgios B. Giannakis(参考訳) 分散ディープラーニングにおけるオンデバイスメモリの懸念が深刻化している (i)マルチGPUトレーニングにおけるモデルサイズの成長,及び (ii) 限られたストレージを持つIoTデバイス上でのフェデレーション学習にディープニューラルネットワークが広く採用されていること。 このような環境では、通信効率のよい最適化手法は魅力的な代替手段である。 これらの課題に対処するため,契約誤りフィードバック (ConEF) と呼ばれる通信効率のよい手法を提案する。 メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFは収束とメモリ使用率のスイートスポットを取得し、バイアスと全還元可能な勾配圧縮を利用して通信効率を達成する。 画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証し、テスト性能にほとんど損失がなく、またSGDの1.3倍から5倍のスピードアップを達成するとともに、EFがEFSGDの余剰メモリの80%~90%を節約することを示した。 我々はまた、ConEFをZeRO-3のような一般的なメモリ効率フレームワークに統合する理論的障壁を解消するために、ConEFの実現可能性と収束性を示す。

On-device memory concerns in distributed deep learning have become severe due to (i) the growth of model size in multi-GPU training, and (ii) the wide adoption of deep neural networks for federated learning on IoT devices which have limited storage. In such settings, communication efficient optimization methods are attractive alternatives, however they still struggle with memory issues. To tackle these challenges, we propose an communication efficient method called contractive error feedback (ConEF). As opposed to SGD with error-feedback (EFSGD) that inefficiently manages memory, ConEF obtains the sweet spot of convergence and memory usage, and achieves communication efficiency by leveraging biased and all-reducable gradient compression. We empirically validate ConEF on various learning tasks that include image classification, language modeling, and machine translation and observe that ConEF saves 80\% - 90\% of the extra memory in EFSGD with almost no loss on test performance, while also achieving 1.3x - 5x speedup of SGD. Through our work, we also demonstrate the feasibility and convergence of ConEF to clear up the theoretical barrier of integrating ConEF to popular memory efficient frameworks such as ZeRO-3.
翻訳日:2023-12-16 00:30:47 公開日:2023-12-13
# 拡散モデルにおける誘導画像合成のためのセマンティクス駆動初期画像構築

Semantic-Driven Initial Image Construction for Guided Image Synthesis in Diffusion Model ( http://arxiv.org/abs/2312.08872v1 )

ライセンス: Link先を確認
Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa(参考訳) 初期ノイズ画像は画像生成に大きな影響を与えており、初期ノイズ画像を操作することで、生成に対する制御を効果的に向上させることができる。 現在の生成は、通常分布から引き出された1つの初期ノイズのみに基づいており、プロンプトによって指定された所望のコンテンツには適さない可能性がある。 本研究では,画像生成の制御性を高めるために,複数の初期雑音から予め選択された意味的インフォームド画素ブロックを用いた新しい手法を提案する。 これらのピクセルブロックの固有の傾向は、特定のコンテンツを容易に生成できるため、望ましいコンテンツに向けて生成プロセスを効果的に導くことができる。 修正初期画像構築の追求は必然的に通常の分布から逸脱することとなり, 実験結果から拡散モデルが初期画像の分布に対してある程度の耐性を示すことが示された。 提案手法は,トレーニング不要なレイアウト・画像合成タスクにおける最先端性能を実現し,生成画像の内容の導出における初期画像構築の適応性を示す。 私たちのコードは公開されます。

The initial noise image has demonstrated a significant influence on image generation, and manipulating the initial noise image can effectively increase control over the generation. All of the current generation is based only on a single initial noise drawn from a normal distribution, which may not be suited to the desired content specified by the prompt. In this research, we propose a novel approach using pre-collected, semantically-informed pixel blocks from multiple initial noises for the initial image construction to enhance control over the image generation. The inherent tendencies of these pixel blocks can easily generate specific content, thus effectively guiding the generation process towards the desired content. The pursuit of tailored initial image construction inevitably leads to deviations from the normal distribution, and our experimental results show that the diffusion model exhibits a certain degree of tolerance towards the distribution of initial images. Our approach achieves state-of-the-art performance in the training-free layout-to-image synthesis task, demonstrating the adaptability of the initial image construction in guiding the content of the generated image. Our code will be made publicly available.
翻訳日:2023-12-15 22:39:30 公開日:2023-12-13
# ERASE:ラベル耐雑音性のためのグラフ上での誤り耐性表現学習

ERASE: Error-Resilient Representation Learning on Graphs for Label Noise Tolerance ( http://arxiv.org/abs/2312.08852v1 )

ライセンス: Link先を確認
Ling-Hao Chen, Yuanshuo Zhang, Taohua Huang, Liangcai Su, Zeyi Lin, Xi Xiao, Xiaobo Xia, and Tongliang Liu(参考訳) 深層学習はグラフ関連のタスクで顕著に成功したが、この成果は大規模で高品質な注釈付きデータセットに大きく依存している。 しかし、そのようなデータセットの取得はコストがかかるため、web検索やユーザタグといった経済的に効率的なソースから得られるラベルを実用化することができる。 残念ながら、これらのラベルはノイズを伴い、ディープネットワークの一般化性能を損なうことが多い。 この課題に対処し、グラフベースタスクにおけるラベルノイズに対するディープラーニングモデルの堅牢性を高めるために、ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) と呼ばれる手法を提案する。 ERASEの中核となる考え方は、符号化率の最大化により、エラー耐性のある表現を学習することである。 特に,表現を学習するための分離ラベル伝搬法を提案する。 トレーニングの前には、ノイズラベルは構造的装飾によって事前修正される。 トレーニング中、ERASEはプロトタイプの擬似ラベルとプロパゲーションされた識別ラベルと、表現の更新とエラーレジリエンスを組み合わせ、ノード分類における一般化性能を大幅に改善した。 提案手法は,ノードのラベルのずれによる誤りに対してより効果的に対処し,ノイズの多いグラフデータを扱う際のディープネットワークの堅牢性を高める。 大規模な実験結果から,提案手法は広い雑音レベルにおいて明瞭なマージンで複数のベースラインを上回り,高いスケーラビリティを享受できることが示された。 コードはhttps://github.com/eraseai/eraseでリリースされる。

Deep learning has achieved remarkable success in graph-related tasks, yet this accomplishment heavily relies on large-scale high-quality annotated datasets. However, acquiring such datasets can be cost-prohibitive, leading to the practical use of labels obtained from economically efficient sources such as web searches and user tags. Unfortunately, these labels often come with noise, compromising the generalization performance of deep networks. To tackle this challenge and enhance the robustness of deep learning models against label noise in graph-based tasks, we propose a method called ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE). The core idea of ERASE is to learn representations with error tolerance by maximizing coding rate reduction. Particularly, we introduce a decoupled label propagation method for learning representations. Before training, noisy labels are pre-corrected through structural denoising. During training, ERASE combines prototype pseudo-labels with propagated denoised labels and updates representations with error resilience, which significantly improves the generalization performance in node classification. The proposed method allows us to more effectively withstand errors caused by mislabeled nodes, thereby strengthening the robustness of deep networks in handling noisy graph data. Extensive experimental results show that our method can outperform multiple baselines with clear margins in broad noise levels and enjoy great scalability. Codes are released at https://github.com/eraseai/erase.
翻訳日:2023-12-15 22:34:09 公開日:2023-12-13
# SEEAvatar: 制約された幾何学と外観を持つフォトリアリスティックテキストから3次元アバター生成

SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance ( http://arxiv.org/abs/2312.08889v1 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 大規模なテキストから画像への生成モデルによって、テキストから3dアバターの生成は有望な進歩を遂げている。 しかし、ほとんどの方法は不正確な幾何学と低品質の外観によって制限されたフォトリアリスティックな結果を生み出すことができない。 より実用的なアバター生成に向けて,本論文では,Self-Evolving 制約付きテキストからフォトリアリスティックな3Dアバターを生成する方法であるSEEAvatarを提案する。 幾何学では,テンプレートアバターを用いて最適化アバターを適度なグローバル形状に制約することを提案する。 テンプレートアバターは、ヒトの事前で初期化され、最適化されたアバターを周期的に進化テンプレートとして更新し、より柔軟な形状生成を可能にする。 さらに、顔や手などの局所的な部分において、静的な人間によって、微妙な構造を維持するために制約される。 外観生成のために,プロンプトエンジニアリングにより拡張された拡散モデルを用いて,物理ベースのレンダリングパイプラインをガイドし,リアルなテクスチャを生成する。 アルベドテクスチャに光度制約を適用し、誤った照明効果を抑制する。 実験により,本手法は,大域的・局所的な幾何学的手法と外観的品質を大きなマージンで比較した。 本手法は高品質なメッシュやテクスチャを生成できるため,任意の照明条件下でのリアルレンダリングのために,従来のグラフィックパイプラインに直接適用することができる。 プロジェクトページ: https://seeavatar3d.github.io

Powered by large-scale text-to-image generation models, text-to-3D avatar generation has made promising progress. However, most methods fail to produce photorealistic results, limited by imprecise geometry and low-quality appearance. Towards more practical avatar generation, we present SEEAvatar, a method for generating photorealistic 3D avatars from text with SElf-Evolving constraints for decoupled geometry and appearance. For geometry, we propose to constrain the optimized avatar in a decent global shape with a template avatar. The template avatar is initialized with human prior and can be updated by the optimized avatar periodically as an evolving template, which enables more flexible shape generation. Besides, the geometry is also constrained by the static human prior in local parts like face and hands to maintain the delicate structures. For appearance generation, we use diffusion model enhanced by prompt engineering to guide a physically based rendering pipeline to generate realistic textures. The lightness constraint is applied on the albedo texture to suppress incorrect lighting effect. Experiments show that our method outperforms previous methods on both global and local geometry and appearance quality by a large margin. Since our method can produce high-quality meshes and textures, such assets can be directly applied in classic graphics pipeline for realistic rendering under any lighting condition. Project page at: https://seeavatar3d.github.io.
翻訳日:2023-12-15 22:28:01 公開日:2023-12-13
# 層間読み出し:事前学習モデルによるリハーサルなし連続学習のための階層内表現の活用

Read Between the Layers: Leveraging Intra-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models ( http://arxiv.org/abs/2312.08888v1 )

ライセンス: Link先を確認
Kyra Ahrens, Hans Hergen Lehmann, Jae Hee Lee, Stefan Wermter(参考訳) 我々は、モデルが非定常分布から一連のタスクを学習し、新しい経験に遭遇する前の知識を保ちながら、継続学習(continual learning, cl)の問題に対処する。 基礎モデルの発展に伴い、cl研究は初期学習パラダイムから大規模事前学習から汎用機能の利用へと焦点を移している。 しかし、事前訓練されたモデルによるCLへの既存のアプローチは、クラス固有の特徴を最終表現層から分離することのみに集中し、ドメインシフトに自然に不変な低レベルと中レベルの特徴をキャプチャする中間表現のパワーを無視する。 本研究では,事前学習ネットワークの複数の中間層からの2次特徴統計量を活用する,クラスプロトタイプに基づく連続学習手法であるLayUPを提案する。 本手法は概念的に単純であり,リプレイバッファを必要としない。 LayUPは、次の最高のベースラインと比較して、メモリと計算のフットプリントが大幅に削減された7つのクラスインクリメンタル学習設定のうち4つの最新技術を改善している。 その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。

We address the Continual Learning (CL) problem, where a model has to learn a sequence of tasks from non-stationary distributions while preserving prior knowledge as it encounters new experiences. With the advancement of foundation models, CL research has shifted focus from the initial learning-from-scratch paradigm to the use of generic features from large-scale pre-training. However, existing approaches to CL with pre-trained models only focus on separating the class-specific features from the final representation layer and neglect the power of intermediate representations that capture low- and mid-level features naturally more invariant to domain shifts. In this work, we propose LayUP, a new class-prototype-based approach to continual learning that leverages second-order feature statistics from multiple intermediate layers of a pre-trained network. Our method is conceptually simple, does not require any replay buffer, and works out of the box with any foundation model. LayUP improves over the state-of-the-art on four of the seven class-incremental learning settings at a considerably reduced memory and computational footprint compared with the next best baseline. Our results demonstrate that fully exhausting the representational capacities of pre-trained models in CL goes far beyond their final embeddings.
翻訳日:2023-12-15 22:27:37 公開日:2023-12-13
# speedupnet:テキストから画像への拡散を高速化するプラグイン・アンド・プレイハイパーネットワーク

SpeedUpNet: A Plug-and-Play Hyper-Network for Accelerating Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.08887v1 )

ライセンス: Link先を確認
Weilong Chai, DanDan Zheng, Jiajiong Cao, Zhiquan Chen, Changbao Wang, Chenguang Ma(参考訳) テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で大きな進歩を示す。 多くの加速法が提案されているが、それらは新しい微調整モデルに一般化した生成品質劣化や余分な訓練コストに悩まされている。 これらの制約に対処するため,我々はSpeedUpNet(SUN)と呼ばれる,新奇で普遍的なSDアクセラレーションモジュールを提案する。 SUNは追加の訓練なしに様々な細調整されたSDモデルに直接接続することができる。 この手法はクロスアテンション層を利用して、負プロンプトと正プロンプトの間の生成画像結果の相対的オフセットを学習し、負プロンプトを制御可能な分類器フリーガイダンス蒸留を行い、多段階一貫性(msc)損失を導入し、推論ステップの削減と生成出力の一貫性の維持との調和バランスを確保する。 その結果、SUNは推論ステップの数をわずか4ステップに減らし、分類器フリーガイダンスの必要性を排除した。 これは、最先端の25ステップのDPM-solver++と比較して、SDモデルの全体的な10倍のスピードアップをもたらし、(1)制御可能な負のプロンプトを持つ分類子なし誘導蒸留と(2)訓練なしで様々な微調整された安定拡散モデルへのシームレスな統合の2つの利点を提供する。 SUNの有効性は広範な実験を通じて検証されている。 プロジェクトページ: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io

Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Though many acceleration methods have been proposed, they suffer from generation quality degradation or extra training cost generalizing to new fine-tuned models. To address these limitations, we propose a novel and universal Stable-Diffusion (SD) acceleration module called SpeedUpNet(SUN). SUN can be directly plugged into various fine-tuned SD models without extra training. This technique utilizes cross-attention layers to learn the relative offsets in the generated image results between negative and positive prompts achieving classifier-free guidance distillation with negative prompts controllable, and introduces a Multi-Step Consistency (MSC) loss to ensure a harmonious balance between reducing inference steps and maintaining consistency in the generated output. Consequently, SUN significantly reduces the number of inference steps to just 4 steps and eliminates the need for classifier-free guidance. It leads to an overall speedup of more than 10 times for SD models compared to the state-of-the-art 25-step DPM-solver++, and offers two extra advantages: (1) classifier-free guidance distillation with controllable negative prompts and (2) seamless integration into various fine-tuned Stable-Diffusion models without training. The effectiveness of the SUN has been verified through extensive experimentation. Project Page: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io
翻訳日:2023-12-15 22:27:17 公開日:2023-12-13
# 拡散に基づくブラインドテキスト画像の超解像

Diffusion-based Blind Text Image Super-Resolution ( http://arxiv.org/abs/2312.08886v1 )

ライセンス: Link先を確認
Yuzhe Zhang, Jiawei Zhang, Hao Li, Zhouxia Wang, Luwei Hou, Dongqing Zou, Liheng Bian(参考訳) 劣化した低解像度のテキスト画像の復元は、特に複雑なストロークと現実世界のシナリオの深刻な劣化を伴う中国語のテキスト画像では困難である。 高品質なテキスト画像の超高解像度化には,テキスト忠実性とスタイル現実性の両方を保証することが不可欠である。 近年の拡散モデルは、強力なデータ分散モデリング能力とデータ生成能力により、自然画像合成と復元において大きな成功を収めている。 本研究では,現実的なスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。 拡散モデルでは、現実的な画像分布のモデル化だけでなく、テキスト分布の学習にも適している。 そこで本研究では,テキスト認識のためのテキスト拡散モデル(TDM)を提案する。 さらに,これら2つの拡散モデルがすべての拡散ステップで相互に協調するマルチモダリティモジュール(mom)の混合を提案する。 合成および実世界のデータセットに関する大規模な実験により、我々の拡散に基づくBlind Text Image Super-Resolution (DiffTSR)は、より正確なテキスト構造とより現実的な外観でテキストイメージを復元できることを示した。

Recovering degraded low-resolution text images is challenging, especially for Chinese text images with complex strokes and severe degradation in real-world scenarios. Ensuring both text fidelity and style realness is crucial for high-quality text image super-resolution. Recently, diffusion models have achieved great success in natural image synthesis and restoration due to their powerful data distribution modeling abilities and data generation capabilities. In this work, we propose an Image Diffusion Model (IDM) to restore text images with realistic styles. For diffusion models, they are not only suitable for modeling realistic image distribution but also appropriate for learning text distribution. Since text prior is important to guarantee the correctness of the restored text structure according to existing arts, we also propose a Text Diffusion Model (TDM) for text recognition which can guide IDM to generate text images with correct structures. We further propose a Mixture of Multi-modality module (MoM) to make these two diffusion models cooperate with each other in all the diffusion steps. Extensive experiments on synthetic and real-world datasets demonstrate that our Diffusion-based Blind Text Image Super-Resolution (DiffTSR) can restore text images with more accurate text structures as well as more realistic appearances simultaneously.
翻訳日:2023-12-15 22:26:48 公開日:2023-12-13
# SceneWiz3D:テキスト誘導型3Dシーン構成を目指して

SceneWiz3D: Towards Text-guided 3D Scene Composition ( http://arxiv.org/abs/2312.08885v1 )

ライセンス: Link先を確認
Qihang Zhang, Chaoyang Wang, Aliaksandr Siarohin, Peiye Zhuang, Yinghao Xu, Ceyuan Yang, Dahua Lin, Bolei Zhou, Sergey Tulyakov, Hsin-Ying Lee(参考訳) 私たちは、テキストから3dオブジェクトを生成する技術における大きなブレークスルーを目撃しています。 既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。 しかし、シーン全体の生成は非常に困難であり、複数の3Dオブジェクトが多様で散在している。 本研究では,テキストから高忠実度3Dシーンを合成するSceneWiz3Dを紹介する。 オブジェクトの局所性とシーンのグローバル性は,オブジェクトの明示性とシーンの暗黙性という,ハイブリッドな3D表現を導入することで結婚する。 注目すべきは、明示的に表現されたオブジェクトは、従来のテキストから3Dのアプローチを使ってテキストから生成されるか、あるいはユーザによって提供される。 シーンのレイアウトを設定し,オブジェクトを自動的に配置するために,最適化プロセス中にParticle Swarm Optimization手法を適用する。 さらに、シーンの特定の部分(コーナー、オクルージョンなど)が多視点の監督を受けることは困難であり、幾何学的に劣る。 我々は,rgbdパノラマ拡散モデルを導入してその緩和を行い,高品質な幾何学を実現した。 広汎な評価は,従来のアプローチよりも優れた品質を実現し,詳細な3Dシーンの生成を可能にする。

We are witnessing significant breakthroughs in the technology for generating 3D objects from text. Existing approaches either leverage large text-to-image models to optimize a 3D representation or train 3D generators on object-centric datasets. Generating entire scenes, however, remains very challenging as a scene contains multiple 3D objects, diverse and scattered. In this work, we introduce SceneWiz3D, a novel approach to synthesize high-fidelity 3D scenes from text. We marry the locality of objects with globality of scenes by introducing a hybrid 3D representation: explicit for objects and implicit for scenes. Remarkably, an object, being represented explicitly, can be either generated from text using conventional text-to-3D approaches, or provided by users. To configure the layout of the scene and automatically place objects, we apply the Particle Swarm Optimization technique during the optimization process. Furthermore, it is difficult for certain parts of the scene (e.g., corners, occlusion) to receive multi-view supervision, leading to inferior geometry. We incorporate an RGBD panorama diffusion model to mitigate it, resulting in high-quality geometry. Extensive evaluation supports that our approach achieves superior quality over previous approaches, enabling the generation of detailed and view-consistent 3D scenes.
翻訳日:2023-12-15 22:26:29 公開日:2023-12-13
# 敵対的機械学習における防衛 : 調査

Defenses in Adversarial Machine Learning: A Survey ( http://arxiv.org/abs/2312.08890v1 )

ライセンス: Link先を確認
Baoyuan Wu, Shaokui Wei, Mingli Zhu, Meixi Zheng, Zihao Zhu, Mingda Zhang, Hongrui Chen, Danni Yuan, Li Liu, Qingshan Liu(参考訳) 機械学習(ML)システム、特にディープニューラルネットワークシステムでは、MLシステムは特定の場合において人間と一貫性がなく理解不能な予測を生じさせる可能性があると説明されている。 この現象はMLシステムの実用化に深刻なセキュリティ上の脅威をもたらし、バックドアアタック、重み付けアタック、敵の例を含むいくつかの高度な攻撃パラダイムが開発されている。 各攻撃パラダイムに対して、対応する攻撃パラダイムに対するモデル堅牢性を改善するために、様々な防御パラダイムが開発された。 しかし,これらの防衛パラダイムの独立性と多様性から,mlシステムの全般的堅牢性を検討することは困難であり,統一的な視点から既存の防衛パラダイムを体系的に検討することを目的としている。 具体的には、ライフサイクルの観点から、完全な機械学習システムを、事前トレーニング、トレーニング、ポストトレーニング、デプロイメント、推論ステージを含む5つのステージに分類する。 次に,各段階における代表的な防御方法を分類・検討するための明確な分類法を提案する。 統一的な視点と提示された分類法は、各防衛パラダイムのメカニズムの分析を促進するだけでなく、異なる防衛パラダイム間の接続や相違を理解するのに役立つ。

Adversarial phenomenon has been widely observed in machine learning (ML) systems, especially in those using deep neural networks, describing that ML systems may produce inconsistent and incomprehensible predictions with humans at some particular cases. This phenomenon poses a serious security threat to the practical application of ML systems, and several advanced attack paradigms have been developed to explore it, mainly including backdoor attacks, weight attacks, and adversarial examples. For each individual attack paradigm, various defense paradigms have been developed to improve the model robustness against the corresponding attack paradigm. However, due to the independence and diversity of these defense paradigms, it is difficult to examine the overall robustness of an ML system against different kinds of attacks.This survey aims to build a systematic review of all existing defense paradigms from a unified perspective. Specifically, from the life-cycle perspective, we factorize a complete machine learning system into five stages, including pre-training, training, post-training, deployment, and inference stages, respectively. Then, we present a clear taxonomy to categorize and review representative defense methods at each individual stage. The unified perspective and presented taxonomies not only facilitate the analysis of the mechanism of each defense paradigm but also help us to understand connections and differences among different defense paradigms, which may inspire future research to develop more advanced, comprehensive defenses.
翻訳日:2023-12-15 22:11:00 公開日:2023-12-13
# シンボリック音楽理解のためのN-Gram無教師複合と特徴注入

N-Gram Unsupervised Compoundation and Feature Injection for Better Symbolic Music Understanding ( http://arxiv.org/abs/2312.08931v1 )

ライセンス: Link先を確認
Jinhao Tian, Zuchao Li, Jiajia Li, Ping Wang(参考訳) シンボリック音楽理解にディープラーニング技術を適用する最初のステップは、音楽作品(主にmidi形式)を音符ピッチ、音速、和音などの予め定義されたトークン列に変換することである。 その後、シーケンスは特定のタスクを達成するために神経シーケンスモデルに供給される。 音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)のN-gram技術の主要な候補となる。 クラシックピアノ音楽を考える:特定の旋律は曲全体にわたって繰り返され、毎回微妙な変化がある。 本稿では,N-gramアプローチを利用したシンボリック音楽系列の理解のためのNG-Midiformerを提案する。 提案手法では,提案する非教師なし複合化法を用いて楽曲をワード状系列に処理し,n-gram変換エンコーダを用いてn-gram情報を有効活用し,一次エンコーダ部を強化し,楽曲列の理解を深める。 大規模音楽データセットの事前学習プロセスにより、モデルが楽曲シーケンスに含まれるn-gram情報を徹底的に学習し、その後、微調整段階で推論を行うためにこの情報を適用することができる。 様々なデータセットを用いた実験により,下流の一連の音楽理解課題において,提案手法の有効性を実証し,最先端のパフォーマンスを達成した。 コードとモデルの重み付けはhttps://github.com/WouuYoauin/NG-Midiformer.comで公開される。

The first step to apply deep learning techniques for symbolic music understanding is to transform musical pieces (mainly in MIDI format) into sequences of predefined tokens like note pitch, note velocity, and chords. Subsequently, the sequences are fed into a neural sequence model to accomplish specific tasks. Music sequences exhibit strong correlations between adjacent elements, making them prime candidates for N-gram techniques from Natural Language Processing (NLP). Consider classical piano music: specific melodies might recur throughout a piece, with subtle variations each time. In this paper, we propose a novel method, NG-Midiformer, for understanding symbolic music sequences that leverages the N-gram approach. Our method involves first processing music pieces into word-like sequences with our proposed unsupervised compoundation, followed by using our N-gram Transformer encoder, which can effectively incorporate N-gram information to enhance the primary encoder part for better understanding of music sequences. The pre-training process on large-scale music datasets enables the model to thoroughly learn the N-gram information contained within music sequences, and subsequently apply this information for making inferences during the fine-tuning stage. Experiment on various datasets demonstrate the effectiveness of our method and achieved state-of-the-art performance on a series of music understanding downstream tasks. The code and model weights will be released at https://github.com/WouuYoauin/NG-Midiformer.
翻訳日:2023-12-15 22:00:59 公開日:2023-12-13
# socialstigmaqa: 生成言語モデルにおけるstigmaの増幅を示すベンチマーク

SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models ( http://arxiv.org/abs/2312.07492v2 )

ライセンス: Link先を確認
Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini(参考訳) 望ましくない社会的偏見監査のための現在のデータセットは、人種や性別などの保護された人口動態の研究に限られている。 本研究では,遺伝的言語モデルにおけるシュティグマを通して,社会的偏見の増幅を捉えるための総合的なベンチマークを導入する。 まず、社会科学文献に記録された93のスティグマの総合リストから始め、単純な社会的状況を含む質問回答データセット(QA)をキュレートする。 私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデルロバストネスの両方を体系的にテストするために、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。 本稿では,2つのオープンソース生成言語モデルを用いたSocialStigmaQAの結果について述べる。 具体的には,様々なデコーディング戦略とプロンプトスタイルにおいて,社会的に偏ったアウトプットの割合は45%から59%であることがわかった。 ベンチマークのテンプレートの意図的な設計(例えば、プロンプトにバイアステキストを追加したり、バイアスを示す回答を変更)が、社会的に偏った出力を生成するためのモデル傾向に影響を与えることを発見した。 さらに,生成した思考連鎖アウトプットのパターンについて報告し,微妙なバイアスから推論の欠如の証拠に至るまで,様々な問題を見出した。 警告: 本論文は、有害で偏見があり、有害なテキストの例を含む。

Current datasets for unwanted social bias auditing are limited to studying protected demographic features such as race and gender. In this work, we introduce a comprehensive benchmark that is meant to capture the amplification of social bias, via stigmas, in generative language models. We start with a comprehensive list of 93 stigmas documented in social science literature and curate a question-answering (QA) dataset which involves simple social situations. Our benchmark, SocialStigmaQA, contains roughly 10K prompts, with a variety of prompt styles, carefully constructed to systematically test for both social bias and model robustness. We present results for SocialStigmaQA with two widely used open source generative language models and we demonstrate that the output generated by these models considerably amplifies existing social bias against stigmatized groups. Specifically, we find that the proportion of socially biased output ranges from 45% to 59% across a variety of decoding strategies and prompting styles. We discover that the deliberate design of the templates in our benchmark (e.g., by adding biasing text to the prompt or varying the answer that indicates bias) impact the model tendencies to generate socially biased output. Additionally, we report on patterns in the generated chain-of-thought output, finding a variety of problems from subtle bias to evidence of a lack of reasoning. Warning: This paper contains examples of text which is toxic, biased, and harmful.
翻訳日:2023-12-15 11:38:33 公開日:2023-12-13
# SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト

Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects ( http://arxiv.org/abs/2312.07374v2 )

ライセンス: Link先を確認
Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong(参考訳) camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。 弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。 Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。 しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。 さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。 この作業では,手作業によるプロンプトの不要化を目標としている。 鍵となる考え方は、一般的なテキストプロンプトによって与えられる意味情報を用いて視覚的なプロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。 そこで我々は,ジェネリザブルSAM(GenSAM)と呼ばれるテスト時適応機構を導入し,視覚的プロンプトを最適化し,WSCODの汎用タスクプロンプトを最適化する。 特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。 さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。 重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。 GenSAMの優位性を示す実験。 3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。 私たちのコードは以下のとおりです。

Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt. To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
翻訳日:2023-12-15 11:38:09 公開日:2023-12-13
# Compress & Align: 人間の知識による画像テキストデータのキュレーション

Compress & Align: Curating Image-Text Data with Human Knowledge ( http://arxiv.org/abs/2312.06726v2 )

ライセンス: Link先を確認
Lei Zhang, Fangxun Shu, Sucheng Ren, Bingchen Zhao, Hao Jiang, Cihang Xie(参考訳) ウェブクローリングによる画像テキストデータの膨大な増加は、本質的にデータ品質の変動性の課題を示している。 本稿では,人間の知識に根ざした新しいアルゴリズムを導入し,この膨大な画像テキストデータセットのコーパスを,コンパクトで高品質な形式に圧縮する。 我々の方法は3つの大きなステップで展開する。 まず、画像テキストデータセットを収集し、各画像に多様な起源から派生した複数のキャプションを関連付ける。 そして,各画像と組み合わせた最適なキャプションに関する人間の嗜好を体系的に把握するために,ラベルからアライメント評価を批判的に導くための主観的基準と客観的基準の包括的セットを確立する。 最後に、アノテートデータセット上の報酬モデルをトレーニングし、画像テキストアライメントに関する人間の微妙な理解を内部化する。 結果として得られる報酬モデルは、不整合/低品質の画像テキストペアをフィルタする人間のようなレフェリーとして機能する。 広範な実験によって、画像テキストデータセットを90%まで圧縮することで、モデルパフォーマンスを確保(あるいは改善)できることが示されています。 例えば、我々のBLIP-B/16モデルは、130Mから15.5Mに積極的に縮小することで、画像テキスト検索(Flickr30K、COCO)で約2.5%、CIDErで約10.0%、SPICEで約2.7%のフルサイズデータセットよりも優れたパフォーマンスを示している。

The massive growth of image-text data through web crawling inherently presents the challenge of variability in data quality. This paper introduces a novel algorithm, rooted in human knowledge, to compress this vast corpus of web-crawled image-text datasets to a compact and high-quality form. Our method unfolds in three major steps. First, we collect an image-text dataset, wherein each image is associated with multiple captions sourced from diverse origins. Then, to systemically capture human preferences regarding the best caption paired with each image, we establish a comprehensive set of both subjective and objective criteria for critically guiding the alignment assessment from labelers. Lastly, we train a reward model on the annotated dataset to internalize the nuanced human understanding of image-text alignment. The resulting reward model thus can act as a human-like referee to filter misaligned/low-quality image-text pairs. Extensive experiments demonstrate that we are able to secure (or even improve) model performance by compressing the image-text datasets up to ~90%. An impressive example is that, by aggressively reducing the total training sample from 130M to 15.5M (e.g., ~9x smaller), our BLIP-B/16 models still consistently show superior performance compared with the full-size-dataset counterpart on image-text retrieval (Flickr30K, COCO) by ~2.5% in Recall@1, and on image-captioning (Nocaps, COCO) by ~10.0% in CIDEr and ~2.7% in SPICE.
翻訳日:2023-12-15 11:34:09 公開日:2023-12-13
# 特徴領域適応による低照度画像の学習

Learning to See Low-Light Images via Feature Domain Adaptation ( http://arxiv.org/abs/2312.06723v2 )

ライセンス: Link先を確認
Qirui Yang, Qihua Cheng, Huanjing Yue, Le Zhang, Yihao Liu, Jingyu Yang(参考訳) raw low light image enhancement (llie) は生データの利点により、srgbドメイン拡張法よりもはるかに優れた性能を達成している。 しかし、ノイズとクリーンと生とsRGBマッピングのあいまいさは、シングルステージエンハンスメントネットワークを誤解させる可能性がある。 2段階のネットワークは、2つのマッピングを分離することで曖昧さを避けるが、計算の複雑さは大きい。 そこで本研究では,特徴領域適応 (FDA) によって強化された単一段階ネットワークを提案し,生のLLIEにおけるデノイングとカラーマッピングのタスクを分離する。 清浄な生画像によって復調エンコーダを監督し、その復調された特徴をFDAモジュールによるカラーマッピングタスクに適合させる。 本稿では,fdaとして機能するラインフォーマを提案する。ラインバッファの少ないグローバルおよびローカル相関を(ラインベースの撮像プロセスに好適な)検討できる。 推測中、生の監視ブランチを除去する。 このようにして、我々のネットワークは、2段階拡張プロセスの利点と1段階推論の効率を組み合わせている。 4つのベンチマークデータセットを用いた実験により,2段法DNFの60%FLOPを演算コストの少ない最先端性能を実現することができた。 この作業の受理後、私たちのコードは解放されます。

Raw low light image enhancement (LLIE) has achieved much better performance than the sRGB domain enhancement methods due to the merits of raw data. However, the ambiguity between noisy to clean and raw to sRGB mappings may mislead the single-stage enhancement networks. The two-stage networks avoid ambiguity by decoupling the two mappings but usually have large computing complexity. To solve this problem, we propose a single-stage network empowered by Feature Domain Adaptation (FDA) to decouple the denoising and color mapping tasks in raw LLIE. The denoising encoder is supervised by the clean raw image, and then the denoised features are adapted for the color mapping task by an FDA module. We propose a Lineformer to serve as the FDA, which can well explore the global and local correlations with fewer line buffers (friendly to the line-based imaging process). During inference, the raw supervision branch is removed. In this way, our network combines the advantage of a two-stage enhancement process with the efficiency of single-stage inference. Experiments on four benchmark datasets demonstrate that our method achieves state-of-the-art performance with fewer computing costs (60% FLOPs of the two-stage method DNF). Our codes will be released after the acceptance of this work.
翻訳日:2023-12-15 11:33:35 公開日:2023-12-13
# 映像理解のためのLLM

Audio-Visual LLM for Video Understanding ( http://arxiv.org/abs/2312.06720v2 )

ライセンス: Link先を確認
Fangxun Shu, Lei Zhang, Hao Jiang, Cihang Xie(参考訳) 本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 鍵となる設計は、適切な視覚および/または聴覚エンコーダを選択的に活性化するように設計されたモダリティ固有のトークンの統合を含むモダリティ提示トレーニングである。 このメカニズムは、視覚のみ、オーディオオンリー、オーディオ-ビジュアルフォーマットなど、さまざまなモードでビデオデータとエンドツーエンドのジョイントトレーニングを可能にする上で重要なものだ。 さらに,gpt-4から派生した高品質ビデオ命令データセットを提案する。 このデータセットは、マルチターン会話やオーディオ視覚物語から複雑な推論タスクまで、様々なタスク指向のビデオ命令を順応的に処理することを可能にする。 広範にわたる実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。 例えば、Audio-Visual LLMはMSRVTT-QAで53.7%の精度を達成し、非LLMベースのInterVideoを6.6%、LLMベースのValleyを4.4%上回った。 さらに、私たちのAudio-Visual LLMはオーディオタスク(例えばAudioCaps)の競合性能も達成しています。

This paper presents Audio-Visual LLM, a Multimodal Large Language Model that takes both visual and auditory inputs for holistic video understanding. A key design is the modality-augmented training, which involves the integration of modality-specific tokens engineered to activate the appropriate visual and/or auditory encoder selectively. This mechanism is pivotal in enabling end-to-end joint training with video data at different modalities, including visual-only, audio-only, and audio-visual formats. Moreover, we introduce a high-quality video instruction dataset, derived from GPT-4. This dataset allows Audio-Visual LLM to adeptly process a variety of task-oriented video instructions, ranging from multi-turn conversations and audio-visual narratives to complex reasoning tasks. Extensive experiments demonstrate that Audio-Visual LLM impressively achieves strong zero-shot results across a range of video understanding tasks. For example, Audio-Visual LLM achieves an accuracy of 53.7% on MSRVTT-QA, outperforming non-LLM-based InterVideo by 6.6% and LLM-based Valley by 4.4%, respectively. Additionally, our Audio-Visual LLM also achieves competitive performance on audio tasks (e.g., AudioCaps).
翻訳日:2023-12-15 11:33:19 公開日:2023-12-13
# 線形相補性プログラミングを用いた時系列の等角予測領域

Conformal Prediction Regions for Time Series using Linear Complementarity Programming ( http://arxiv.org/abs/2304.01075v4 )

ライセンス: Link先を確認
Matthew Cleaveland, Insup Lee, George J. Pappas, Lars Lindemann(参考訳) コンフォーマル予測は、高い確率で有効な機械学習モデルの予測領域を生成する統計ツールである。 しかし、時系列データに共形予測を適用すると、保守的な予測領域が生じる。 実際、信頼度1-\delta$でT$以上の予測領域を得るには、 {previous works requires each individual prediction region is valid} with confidence $1-\delta/T$。 学習可能な時系列予測器を使用する場合,この保守性を低減する最適化手法を提案する。 複数の時間ステップで予測誤差を個別に考慮する代わりに、パラメータ化された予測誤差をパラメータ化する。 追加データセット上でパラメータを最適化することにより、保守的でない予測領域を見つける。 この問題を混合整数線形相補性プログラム (MILCP) としてキャストし, 線形相補性プログラム (LCP) に緩和することを示した。 さらに、緩和されたLPは元のMILCPと同じ最適コストであることを示す。 最後に,歩行者軌道予測器とF16戦闘機高度予測器を用いたケーススタディにおける本手法の有効性を示す。

Conformal prediction is a statistical tool for producing prediction regions of machine learning models that are valid with high probability. However, applying conformal prediction to time series data leads to conservative prediction regions. In fact, to obtain prediction regions over $T$ time steps with confidence $1-\delta$, {previous works require that each individual prediction region is valid} with confidence $1-\delta/T$. We propose an optimization-based method for reducing this conservatism to enable long horizon planning and verification when using learning-enabled time series predictors. Instead of considering prediction errors individually at each time step, we consider a parameterized prediction error over multiple time steps. By optimizing the parameters over an additional dataset, we find prediction regions that are not conservative. We show that this problem can be cast as a mixed integer linear complementarity program (MILCP), which we then relax into a linear complementarity program (LCP). Additionally, we prove that the relaxed LP has the same optimal cost as the original MILCP. Finally, we demonstrate the efficacy of our method on case studies using pedestrian trajectory predictors and F16 fighter jet altitude predictors.
翻訳日:2023-12-14 23:31:39 公開日:2023-12-13
# 繰り返し2次オークションにおける動的予算変動

Dynamic Budget Throttling in Repeated Second-Price Auctions ( http://arxiv.org/abs/2207.04690v7 )

ライセンス: Link先を確認
Zhaohua Chen, Chang Wang, Qian Wang, Yuqi Pan, Zhuming Shi, Zheng Cai, Yukun Ren, Zhihua Zhu, Xiaotie Deng(参考訳) 今日のオンライン広告市場では、広告主にとって重要な要件は、一定の予算の下で時間内に全支出を制御することである。 様々な予算管理手法の中で、スロットリングは一般的な選択肢として現れ、広告主の総支出を管理し、参加するオークションのサブセットだけを選択する。 本論文は, 広告業者の動的予算削減プロセスに関する理論的パノラマを, 繰り返し2次価格オークションで提示する。 まず,広告主の値が確率的かつ逆向きである場合,まず,アルゴリズムの漸近的競合比の下位境界と上位境界をそれぞれ確立する。 アルゴリズム面では,確率的値によるほぼ最適の後悔を保証するOGD-CBアルゴリズムを提案する。 一方、値が逆である場合、このアルゴリズムは漸近的競争比の上限に達することを証明している。 さらに,2次価格競売を繰り返して,予算管理手法として広く採用されているペーシングとスロットリングを比較した。 確率的な場合、ペーシングは一般に広告主のスロットリングよりも優れていることを示し、このシナリオではペーシングが漸近的に最適であるというよく知られた結果を支持している。 しかし, 逆向きの場合, スロットリングは漸近的に最適な動的入札戦略であることを示すエキサイティングな結果を与える。 本研究は,反復オークションにおけるスロットリングに関する理論的研究のギャップを橋渡しし,この人気のある予算移動戦略の可能性を包括的に明らかにする。

In today's online advertising markets, a crucial requirement for an advertiser is to control her total expenditure within a time horizon under some budget. Among various budget control methods, throttling has emerged as a popular choice, managing an advertiser's total expenditure by selecting only a subset of auctions to participate in. This paper provides a theoretical panorama of a single advertiser's dynamic budget throttling process in repeated second-price auctions. We first establish a lower bound on the regret and an upper bound on the asymptotic competitive ratio for any throttling algorithm, respectively, when the advertiser's values are stochastic and adversarial. Regarding the algorithmic side, we propose the OGD-CB algorithm, which guarantees a near-optimal expected regret with stochastic values. On the other hand, when values are adversarial, we prove that this algorithm also reaches the upper bound on the asymptotic competitive ratio. We further compare throttling with pacing, another widely adopted budget control method, in repeated second-price auctions. In the stochastic case, we demonstrate that pacing is generally superior to throttling for the advertiser, supporting the well-known result that pacing is asymptotically optimal in this scenario. However, in the adversarial case, we give an exciting result indicating that throttling is also an asymptotically optimal dynamic bidding strategy. Our results bridge the gaps in theoretical research of throttling in repeated auctions and comprehensively reveal the ability of this popular budget-smoothing strategy.
翻訳日:2023-12-14 23:31:19 公開日:2023-12-13
# 分光異常エミッタを有する結合キャビティアレイにおけるポラリトン生成

Polariton Creation in Coupled Cavity Arrays with Spectrally Disordered Emitters ( http://arxiv.org/abs/2112.15469v4 )

ライセンス: Link先を確認
Jesse Patton, Victoria A. Norman, Eliana C. Mann, Brinda Puri, Richard T. Scalettar, Marina Radulaski(参考訳) 統合フォトニクスは、強相関系における凝縮物現象のアナログ量子シミュレーションの有望なプラットフォームである。 そこで本研究では,全光子量子シミュレータの実装を,スペクトル不規則エミッタのアンサンブルを組み込んだキャビティアレイで検討する。 本モデルはフォトニッククリスタルキャビティアレイに統合されたカラーセンターアンサンブルの反射型である。 量子マスター方程式と実効ハミルトニアンのアプローチを用いて、オープン量子タヴィス-カミングス-ハバードフレームワークにおけるエネルギーバンドの形成と波動関数特性を研究する。 エミッタ周波数、キャビティ共鳴周波数、エミッタキャビティ結合率における障害の実験的に関連する値の下でのポラリトンの生成と(de)局所化の条件を見出した。 これらの特性を定量化するために,各波動関数の光-物質ハイブリッド化とノード非局在化を特徴付ける2つの測度,分極性および結節参加比を導入する。 これらの新しい計量と効果的なハミルトニアンアプローチは、固体系のキャビティ量子電気力学工学の強力なツールボックスであることが証明されている。

Integrated photonics has been a promising platform for analog quantum simulation of condensed matter phenomena in strongly correlated systems. To that end, we explore the implementation of all-photonic quantum simulators in coupled cavity arrays with integrated ensembles of spectrally disordered emitters. Our model is reflective of color center ensembles integrated into photonic crystal cavity arrays. Using the Quantum Master Equation and the Effective Hamiltonian approaches, we study energy band formation and wavefunction properties in the open quantum Tavis-Cummings-Hubbard framework. We find conditions for polariton creation and (de)localization under experimentally relevant values of disorder in emitter frequencies, cavity resonance frequencies, and emitter-cavity coupling rates. To quantify these properties, we introduce two metrics, the polaritonic and nodal participation ratios, that characterize the light-matter hybridization and the node delocalization of the wavefunction, respectively. These new metrics combined with the Effective Hamiltonian approach prove to be a powerful toolbox for cavity quantum electrodynamical engineering of solid-state systems.
翻訳日:2023-12-14 23:30:55 公開日:2023-12-13
# PECANN:グラフベースの近似近傍探索による並列クラスタリング

PECANN: Parallel Efficient Clustering with Graph-Based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2312.03940v2 )

ライセンス: Link先を確認
Shangdi Yu, Joshua Engels, Yihao Huang, Julian Shun(参考訳) 本稿では,ポイント集合の密度に基づくクラスタリングについて検討する。 これらの手法は、任意の形状のクラスターを検出するために、点の密度の高い領域を使用する。 特に,実際にうまく機能することを示す一般的なアルゴリズムである密度ピーククラスタリングの変種について検討した。 当社の目標は、一般的に普及している大規模な高次元データセットをクラスタ化することです。 従来のソリューションはシーケンシャルで、大きなデータにスケールできないか、低次元のデータに特化している。 本稿では,このアルゴリズムに共通するいくつかの重要なステップを抽象化することにより,密度ピークの異なる変種をひとつのフレームワークPECANNにまとめる。 そのような重要なステップの1つは述語関数を満たす近辺を探すことである。本論文の主な貢献の一つは、グラフに基づく近似近辺探索(anns)を用いて述語探索を行う効率的な方法である。 並列性を両立させるために,少数のラウンドで述語を満足する近傍近傍の点を見つけることができる二重探索手法を提案する。 提案手法は,PECANNに接続可能な既存のグラフベースANNSアルゴリズムにも適用可能である。 PECANNを用いて5つのクラスタリングアルゴリズムを実装し,最大128万点,最大1024次元の合成および実世界のデータセットを双方向ハイパースレッディングを備えた30コアマシン上で評価する。 高次元密度ピーククラスタリングのための最新のFASTDPアルゴリズムと比較すると,ARIの競合点を達成しつつ,最良のアルゴリズムは45x-734倍高速である。 低次元に最適化された最先端の並列DPCアルゴリズムと比較して,PECANNは2桁高速であることを示す。 私たちが知る限り、我々の研究は、大規模な高次元実世界画像とテキスト埋め込みデータセットでdpcの変種を評価する最初の方法です。

This paper studies density-based clustering of point sets. These methods use dense regions of points to detect clusters of arbitrary shapes. In particular, we study variants of density peaks clustering, a popular type of algorithm that has been shown to work well in practice. Our goal is to cluster large high-dimensional datasets, which are prevalent in practice. Prior solutions are either sequential, and cannot scale to large data, or are specialized for low-dimensional data. This paper unifies the different variants of density peaks clustering into a single framework, PECANN, by abstracting out several key steps common to this class of algorithms. One such key step is to find nearest neighbors that satisfy a predicate function, and one of the main contributions of this paper is an efficient way to do this predicate search using graph-based approximate nearest neighbor search (ANNS). To provide ample parallelism, we propose a doubling search technique that enables points to find an approximate nearest neighbor satisfying the predicate in a small number of rounds. Our technique can be applied to many existing graph-based ANNS algorithms, which can all be plugged into PECANN. We implement five clustering algorithms with PECANN and evaluate them on synthetic and real-world datasets with up to 1.28 million points and up to 1024 dimensions on a 30-core machine with two-way hyper-threading. Compared to the state-of-the-art FASTDP algorithm for high-dimensional density peaks clustering, which is sequential, our best algorithm is 45x-734x faster while achieving competitive ARI scores. Compared to the state-of-the-art parallel DPC-based algorithm, which is optimized for low dimensions, we show that PECANN is two orders of magnitude faster. As far as we know, our work is the first to evaluate DPC variants on large high-dimensional real-world image and text embedding datasets.
翻訳日:2023-12-14 23:27:38 公開日:2023-12-13
# カオスおよび積分可能なユニタリ回路ダイナミクスにおけるhayden-preskill回復

Hayden-Preskill recovery in chaotic and integrable unitary circuit dynamics ( http://arxiv.org/abs/2312.03838v2 )

ライセンス: Link先を確認
Michael A. Rampp and Pieter W. Claeys(参考訳) Hayden-Preskillプロトコルは、ユニタリダイナミクス後のローカルサブシステムからの情報回復能力を探索する。 これにより、量子多体系の量子誤り訂正符号を動的に実装する能力が解決される。 符号化の挙動への遷移は、エンタングルメント膜理論のような効果的なアプローチで論じられている。 本稿では,局所量子多体系におけるスクランブルの動的プローブとしてHayden-Preskillリカバリを用いた正確な結果を示す。 本研究では,Floquet(Dual-unitary)とHaar-random(Haar-random)の2種類の回路モデルについて検討する。 効果的なアプローチを超えて,情報伝達やスクランブルに対応する異なる動的シグネチャについて論じる。 驚くべきことに、あるカオス回路は完全な忠実度で情報を転送する。 積分可能なデュアルユニタリ回路では、情報伝達を準粒子の伝播と散乱に関連付ける。 数値的および解析的な洞察を用いて、情報回復の質的特徴はこれらの解点から遠ざかっていると論じる。 以上の結果から,情報回復プロトコルはカオス的および可積分的行動の識別に有用であり,長寿命準粒子や双対ユニタリティーといった特性的な動的特徴に敏感であることが示唆された。

The Hayden-Preskill protocol probes the capability of information recovery from local subsystems after unitary dynamics. As such it resolves the capability of quantum many-body systems to dynamically implement a quantum error-correcting code. The transition to coding behavior has been mostly discussed using effective approaches, such as entanglement membrane theory. Here, we present exact results on the use of Hayden-Preskill recovery as a dynamical probe of scrambling in local quantum many-body systems. We investigate certain classes of unitary circuit models, both structured Floquet (dual-unitary) and Haar-random circuits. We discuss different dynamical signatures corresponding to information transport or scrambling, respectively, that go beyond effective approaches. Surprisingly, certain chaotic circuits transport information with perfect fidelity. In integrable dual-unitary circuits, we relate the information transmission to the propagation and scattering of quasiparticles. Using numerical and analytical insights, we argue that the qualitative features of information recovery extend away from these solvable points. Our results suggest that information recovery protocols can serve to distinguish chaotic and integrable behavior, and that they are sensitive to characteristic dynamical features, such as long-lived quasiparticles or dual-unitarity.
翻訳日:2023-12-14 23:27:08 公開日:2023-12-13
# 深部ニューラルネットワークを用いた火炎振動子の円配列の次元化と動的モード認識

Dimensionality Reduction and Dynamical Mode Recognition of Circular Arrays of Flame Oscillators Using Deep Neural Network ( http://arxiv.org/abs/2312.02462v2 )

ライセンス: Link先を確認
Weiming Xu, Tao Yang, Peng Zhang(参考訳) エアロエンジンと現代のガスタービンの振動燃焼は運転に重大な悪影響を及ぼし、様々な振動モードを正確に認識することが燃焼不安定の理解と制御の必要条件である。 しかし、複雑な燃焼系の高次元時空間データは通常、動的モード認識にかなりの困難をもたらす。 本研究では, 双方向長周期メモリ変動オートエンコーダ(Bi-LSTM-VAE)次元削減モデルと2次元ワッサーシュタイン距離ベース分類器(WDC)に基づいて, 振動燃焼系の動的モードを認識するための有望な手法(Bi-LSTM-VAE-WDC)を提案する。 具体的には, 燃焼系の高次元時空間データを低次元位相空間に還元するためにBi-LSTM-VAE次元縮小モデルを導入し, 格子内の位相点分布に基づいてガウス核密度推定値(GKDE)を算出し, 振動モードを認識するために2次元WD値を算出した。 本研究で用いた時系列データは,層状火炎発振器の円形配列の数値シミュレーションにより得られた。 その結果,新しいBi-LSTM-VAE法では位相点の非重複分布が生成され,非教師なしモード認識と分類が効果的であることが示唆された。 さらに, 複雑な火炎系の動的モードを識別するためのVAEおよびPCA(主成分分析)よりも顕著な性能を示し, 乱流燃焼研究の可能性を示唆している。

Oscillatory combustion in aero engines and modern gas turbines often has significant adverse effects on their operation, and accurately recognizing various oscillation modes is the prerequisite for understanding and controlling combustion instability. However, the high-dimensional spatial-temporal data of a complex combustion system typically poses considerable challenges to the dynamical mode recognition. Based on a two-layer bidirectional long short-term memory variational autoencoder (Bi-LSTM-VAE) dimensionality reduction model and a two-dimensional Wasserstein distance-based classifier (WDC), this study proposes a promising method (Bi-LSTM-VAE-WDC) for recognizing dynamical modes in oscillatory combustion systems. Specifically, the Bi-LSTM-VAE dimension reduction model was introduced to reduce the high-dimensional spatial-temporal data of the combustion system to a low-dimensional phase space; Gaussian kernel density estimates (GKDE) were computed based on the distribution of phase points in a grid; two-dimensional WD values were calculated from the GKDE maps to recognize the oscillation modes. The time-series data used in this study were obtained from numerical simulations of circular arrays of laminar flame oscillators. The results show that the novel Bi-LSTM-VAE method can produce a non-overlapping distribution of phase points, indicating an effective unsupervised mode recognition and classification. Furthermore, the present method exhibits a more prominent performance than VAE and PCA (principal component analysis) for distinguishing dynamical modes in complex flame systems, implying its potential in studying turbulent combustion.
翻訳日:2023-12-14 23:26:45 公開日:2023-12-13
# openvoice: 汎用的な音声クローン

OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v2 )

ライセンス: Link先を確認
Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun(参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)柔軟な音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。 音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。 以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。 2)ゼロショットクロスリンガル音声クローン。 openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。 すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。 この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。 デモサイトでも質的な結果を提供しています。 OpenVoiceは一般公開される前、2023年5月から10月にかけて世界中で何千万回も利用され、MyShellのバックエンドとして使われていました。

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.
翻訳日:2023-12-14 23:25:57 公開日:2023-12-13
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v2 )

ライセンス: Link先を確認
Quinn DuPont(参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAO)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビルや急激なアイデンティティを識別する手法を開発することによって、分散型ガバナンスに直面する重要な課題に対処する。 この手法は、DAOガバナンスデータセット(snapshot.org)のシビルアクティビティをグラフ深層学習技術を用いて識別する。 特に、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速なk平均ベクトルクラスタリングアルゴリズム(FAISS)はグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはシビルを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を浮き彫りにして、分散ガバナンス、将来の政策、規制、ガバナンスの実践について新しい視点を提供する。

This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify sybils, or spurious identities. The method uses graph deep learning techniques to identify sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast k-means vector clustering algorithm (FAISS) used the high dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify sybils, reducing the voting graph by 2-5%. This research underscores the importance of sybil resistance in DAOs and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2023-12-14 23:25:26 公開日:2023-12-13
# GPU上で高速2ビットLLMを実現する:メモリアライメントと非同期デクエント化

Enabling Fast 2-bit LLM on GPUs: Memory Alignment and Asynchronous Dequantization ( http://arxiv.org/abs/2311.16442v2 )

ライセンス: Link先を確認
Jinhao Li, Shiyao Li, Jiaming Xu, Shan Huang, Yaoxiu Lian, Jun Liu, Yu Wang, Guohao Dai(参考訳) 大規模言語モデル(LLM)は、推論コストが高価である間に、様々な領域で印象的な能力を示す。 最先端の手法は2ビット量子化をメインストリームのLCMに用いている。 しかし、(1)2ビット量子化の精度損失は無視できない。 重みはグループによって量子化されるが、重みの範囲はいくつかのグループで大きく、大きな量子化誤差と無視できない精度損失をもたらす(例えば、gptqとgreenbitの2ビット量子化を持つllama2-7bの3%)。 2) 4ビット重み付けによる精度向上の制限。 10%余分な平均ビットを4ビット重みに増やすと、定量化されたllama2-7bの精度が0.5%向上する。 (3)GPUにおける時間を要する復調処理。 dequantization操作は50%以上の実行時間をもたらし、LSM推論コストを削減する可能性を妨げている。 これらの課題に対処するために,(1)GPU上でのメモリアライメントを考慮した4ビットを用いて,より広い範囲の少数のグループのみを定量化する手法を提案する。 2)GPU上での非同期dequantizationを設計し,最大3.92倍の高速化を実現した。 異なるモデルサイズに関する広範な実験を行う。 我々はLlama2-7bの各重量に対して2.85ビットを達成し、Llama2-7bのエンドツーエンドのスピードアップはオリジナルのモデルよりも1.74倍、実行時コストとハードウェアコストの両方を2.70Xと2.81Xに削減し、GPUの要求を減らした。

Large language models (LLMs) have demonstrated impressive abilities in various domains while the inference cost is expensive. The state-of-the-art methods use 2-bit quantization for mainstream LLMs. However, challenges still exist: (1) Nonnegligible accuracy loss for 2-bit quantization. Weights are quantized by groups, while the ranges of weights are large in some groups, resulting in large quantization errors and nonnegligible accuracy loss (e.g. >3% for Llama2-7b with 2-bit quantization in GPTQ and Greenbit). (2) Limited accuracy improvement by adding 4-bit weights. Increasing 10% extra average bit more 4-bit weights only leads to <0.5% accuracy improvement on a quantized Llama2-7b. (3) Time-consuming dequantization operations on GPUs. The dequantization operations lead to >50% execution time, hindering the potential of reducing LLM inference cost. To tackle these challenges, we propose the following techniques: (1) We only quantize a small fraction of groups with the larger range using 4-bit with memory alignment consideration on GPUs.(2) We design the asynchronous dequantization on GPUs, leading to up to 3.92X speedup. We conduct extensive experiments on different model sizes. We achieve 2.85-bit for each weight and the end-to-end speedup for Llama2-7b is 1.74X over the original model, and we reduce both runtime cost and hardware cost by up to 2.70X and 2.81X with less GPU requirements.
翻訳日:2023-12-14 23:25:08 公開日:2023-12-13
# 深層学習システムにおけるバックドアアタックのためのエクスプロイトマシンアンラーニング

Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning System ( http://arxiv.org/abs/2310.10659v2 )

ライセンス: Link先を確認
Peixin Zhang, Jun Sun, Mingtian Tan, Xinyu Wang(参考訳) 近年、ディープラーニングの研究や応用の急速な発展により、人工知能のセキュリティ問題がますます顕著になっている。 バックドアアタック(backdoor attack)は、攻撃者が埋め込んだトリガによって隠れたバックドアが起動されるディープラーニングモデルの脆弱性を標的とする攻撃である。 本研究では,機械学習に基づく新しいブラックボックスバックドア攻撃を提案する。 攻撃者はまず、毒物や緩和データを含む注意深く設計されたサンプルで訓練セットを補強して「良性」モデルを訓練する。 そして、攻撃者は緩和サンプルの未学習の要求をポストし、モデルの関連データの影響を取り除き、徐々に隠れたバックドアを活性化する。 バックドアは反復的アンラーニングプロセス中に埋め込まれるため、バックドア検出や緩和のための既存の防御手法の計算オーバーヘッドを大幅に増大させる。 この新たなセキュリティ脅威に対処するために、このような悪意ある未学習要求を検知または緩和する2つの方法を提案する。 我々は、正確なアンラーニングと近似アンラーニング(SISA)の両方で実験を行う。 実験の結果は 1)我々の攻撃アプローチは、バックドアをモデルにうまく埋め込むことができ、シャーディングは攻撃の困難を増す。 2) 検出アルゴリズムは緩和サンプルの同定に有効であるが, シャーディングは検出アルゴリズムの有効性を低下させる。

In recent years, the security issues of artificial intelligence have become increasingly prominent due to the rapid development of deep learning research and applications. Backdoor attack is an attack targeting the vulnerability of deep learning models, where hidden backdoors are activated by triggers embedded by the attacker, thereby outputting malicious predictions that may not align with the intended output for a given input. In this work, we propose a novel black-box backdoor attack based on machine unlearning. The attacker first augments the training set with carefully designed samples, including poison and mitigation data, to train a `benign' model. Then, the attacker posts unlearning requests for the mitigation samples to remove the impact of relevant data on the model, gradually activating the hidden backdoor. Since backdoors are implanted during the iterative unlearning process, it significantly increases the computational overhead of existing defense methods for backdoor detection or mitigation. To address this new security threat, we proposes two methods for detecting or mitigating such malicious unlearning requests. We conduct the experiment in both exact unlearning and approximate unlearning (i.e., SISA) settings. Experimental results indicate that: 1) our attack approach can successfully implant backdoor into the model, and sharding increases the difficult of attack; 2) our detection algorithms are effective in identifying the mitigation samples, while sharding reduces the effectiveness of our detection algorithms.
翻訳日:2023-12-14 23:24:20 公開日:2023-12-13
# HappyFeat -- 臨床応用のためのインタラクティブで効率的なBCIフレームワーク

HappyFeat -- An interactive and efficient BCI framework for clinical applications ( http://arxiv.org/abs/2310.02948v2 )

ライセンス: Link先を確認
Arthur Desbois, Tristan Venot, Fabrizio De Vico Fallani, Marie-Constance Corsi(参考訳) Brain-Computer Interface (BCI)システムでは、ユーザーは脳の活動をコマンドに変換することでアクションを実行することができる。 このようなシステムは通常、記録された信号から特定の特徴を用いて精神状態を識別する分類アルゴリズムを訓練する訓練段階を必要とする。 特徴選択とトレーニングのこのフェーズは、BCIのパフォーマンスに不可欠であり、ストローク後のリハビリテーションのような臨床コンテキストで満たすべき特定の制約を提示する。 本稿では,1つの便利なguiで必要な操作と解析を収集し,実験や分析パラメータの自動化により,運動画像(mi)ベースのbci実験を容易にするソフトウェアhappyfeatを提案する。 結果として得られたワークフローは、最高の機能を簡単に選択でき、時間に制約された環境で優れたbciパフォーマンスを達成するのに役立ちます。 関数接続性に基づく別の機能は、Power Spectral Densityと使用、比較、組み合わせて、ネットワーク指向のアプローチを可能にする。 次にhappyfeatの主なメカニズムの詳細と、典型的なユースケースにおけるそのパフォーマンスのレビューを提供する。 また,信号から抽出した異なる指標を比較し,分類アルゴリズムを学習するための効率的なツールとして使用できることを示す。 そこで本研究では,汎用のパワースペクトル密度と関数接続に基づくネットワークメトリクスの比較を行った。 HappyFeatはオープンソースプロジェクトとして利用可能で、GitHubから無料でダウンロードできる。

Brain-Computer Interface (BCI) systems allow users to perform actions by translating their brain activity into commands. Such systems usually need a training phase, consisting in training a classification algorithm to discriminate between mental states using specific features from the recorded signals. This phase of feature selection and training is crucial for BCI performance and presents specific constraints to be met in a clinical context, such as post-stroke rehabilitation. In this paper, we present HappyFeat, a software making Motor Imagery (MI) based BCI experiments easier, by gathering all necessary manipulations and analysis in a single convenient GUI and via automation of experiment or analysis parameters. The resulting workflow allows for effortlessly selecting the best features, helping to achieve good BCI performance in time-constrained environments. Alternative features based on Functional Connectivity can be used and compared or combined with Power Spectral Density, allowing a network-oriented approach. We then give details of HappyFeat's main mechanisms, and a review of its performances in typical use cases. We also show that it can be used as an efficient tool for comparing different metrics extracted from the signals, to train the classification algorithm. To this end, we show a comparison between the commonly-used Power Spectral Density and network metrics based on Functional Connectivity. HappyFeat is available as an open-source project which can be freely downloaded on GitHub.
翻訳日:2023-12-14 23:23:58 公開日:2023-12-13
# 強化学習を用いた大規模渦シミュレーションのための離散化整合閉包スキームの提案

Toward Discretization-Consistent Closure Schemes for Large Eddy Simulation Using Reinforcement Learning ( http://arxiv.org/abs/2309.06260v2 )

ライセンス: Link先を確認
Andrea Beck and Marius Kurz(参考訳) 本研究では,暗黙的にフィルタされた大渦シミュレーション(LES)のための離散化整合クロージャ手法の開発手法を提案する。 ここで、誘導フィルタカーネル、すなわち閉包項は、グリッドと離散演算子の性質によって決定され、事前解析で一般的に知られていない計算サブグリッド項が追加される。 本研究では, LES閉包モデルの係数を適応させるタスクをマルコフ決定プロセスとしてフレーム化して, 強化学習(RL)を用いた後処理で解決する。 この最適化フレームワークは、明示的および暗黙的なクロージャモデルの両方に適用される。 明示的なモデルは要素局所渦粘性モデルに基づいている。 最適化されたモデルは、不連続なガレルキン(dg)法で誘導された粘度に適応し、その中心付近でより粘度を加えることにより、元素内の散逸を均質化する。 暗黙的モデリングのために、rlはハイブリッドdgおよび有限体積(fv)スキームの最適ブレンド戦略を特定するために適用される。 その結果、最適化された離散化により、純粋なdg法やfv法よりもlesの精度が向上し、単一のフレームワークにおける乱流モデリングと衝撃捕捉を組み合わせることで圧縮性乱流のための新しい高次スキームのクラスを開始することができる、実行可能なモデリング ansatz として自身をレンダリングすることができる。 新たに派生した全てのモデルは、異なる離散化と解像度のために従来のモデルと一致するか、より優れた結果を得る。 全体として、提案するrl最適化は、暗黙的にフィルタされたlesの不確かさを低減できる離散化一貫性のあるクロージャを提供することができることを示した。

This study proposes a novel method for developing discretization-consistent closure schemes for implicitly filtered Large Eddy Simulation (LES). Here, the induced filter kernel, and thus the closure terms, are determined by the properties of the grid and the discretization operator, leading to additional computational subgrid terms that are generally unknown in a priori analysis. In this work, the task of adapting the coefficients of LES closure models is thus framed as a Markov decision process and solved in an a posteriori manner with Reinforcement Learning (RL). This optimization framework is applied to both explicit and implicit closure models. The explicit model is based on an element-local eddy viscosity model. The optimized model is found to adapt its induced viscosity within discontinuous Galerkin (DG) methods to homogenize the dissipation within an element by adding more viscosity near its center. For the implicit modeling, RL is applied to identify an optimal blending strategy for a hybrid DG and Finite Volume (FV) scheme. The resulting optimized discretization yields more accurate results in LES than either the pure DG or FV method and renders itself as a viable modeling ansatz that could initiate a novel class of high-order schemes for compressible turbulence by combining turbulence modeling with shock capturing in a single framework. All newly derived models achieve accurate results that either match or outperform traditional models for different discretizations and resolutions. Overall, the results demonstrate that the proposed RL optimization can provide discretization-consistent closures that could reduce the uncertainty in implicitly filtered LES.
翻訳日:2023-12-14 23:22:42 公開日:2023-12-13
# $s$-spinコヒーレント状態の重ね合わせによる量子力学性能と正確なハイゼンベルク極限精度の実現

Achieving quantum metrological performance and exact Heisenberg limit precision through superposition of $s$-spin coherent states ( http://arxiv.org/abs/2308.09833v2 )

ライセンス: Link先を確認
Hanane El Hadfi, Hanan Saidi, Abdallah Slaoui and Rachid Ahl Laamara(参考訳) 量子位相推定において、ハイゼンベルク極限は準古典的推定手順の最終的な精度を提供する。 しかし、この限界の実現は、出力測定に使用される検出戦略と入力状態の特性の両方にかかっている。 本研究では,$s$-spinコヒーレント状態重ね合わせを用いた量子位相推定を行う。 はじめに、スピン $s=3/2$ に対するスピンコヒーレント状態の明示的な定式化を考える。 量子フィッシャー情報と量子クラーラオ境界は細心の注意を払って検討される。 我々はスピン猫状態の最終的な測定精度がハイゼンベルク限界に近づき、不確実性は全粒子数と逆向きに減少することを示した。 さらに、演算子 $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ および $e^{i\zeta{S}_{y}}$ によって導入された位相感度について検討し、その結果を比較した。 最後に、これら3つのパラメータ生成演算子に適用される量子クレーダ-rao境界の一般的な解析式を提供し、一般的な$s$-spinコヒーレント状態を利用する。 ハイゼンベルク・リミット精度を達成するには、ブロッホ球面上の$s$-spin cat状態の幾何学に関する洞察的な情報を注意深く調整する必要がある。 さらに、$s$-spinの数が増加するにつれて、ハイゼンベルクの極限は減少し、この減少は$s$-spin数に逆比例する。

In quantum phase estimation, the Heisenberg limit provides the ultimate accuracy over quasi-classical estimation procedures. However, realizing this limit hinges upon both the detection strategy employed for output measurements and the characteristics of the input states. This study delves into quantum phase estimation using $s$-spin coherent states superposition. Initially, we delve into the explicit formulation of spin coherent states for a spin $s=3/2$. Both the quantum Fisher information and the quantum Cramer-Rao bound are meticulously examined. We analytically show that the ultimate measurement precision of spin cat states approaches the Heisenberg limit, where uncertainty decreases inversely with the total particle number. Moreover, we investigate the phase sensitivity introduced through operators $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ and $e^{i\zeta{S}_{y}}$, subsequently comparing the resultants findings. In closing, we provide a general analytical expression for the quantum Cramer-Rao boundary applied to these three parameter-generating operators, utilizing general $s$-spin coherent states. We remarked that attaining Heisenberg-limit precision requires the careful adjustment of insightful information about the geometry of $s$-spin cat states on the Bloch sphere. Additionally, as the number of $s$-spin increases, the Heisenberg limit decreases, and this reduction is inversely proportional to the $s$-spin number.
翻訳日:2023-12-14 23:21:47 公開日:2023-12-13
# ランダム原子雲における協調光子放出速度

Cooperative photon emission rates in random atomic clouds ( http://arxiv.org/abs/2306.06055v2 )

ライセンス: Link先を確認
Viviana Viggiano, Romain Bachelard, Fabio Deelan Cunden, Paolo Facchi, Robin Kaiser, Saverio Pascazio, Francesco V. Pepe(参考訳) 本研究では,3次元のガウス分布を特徴とする冷原子雲の協調崩壊モードの性質について検討した。 崩壊速度行列である$S$の特性について検討し、その次元は雲中の原子の数と一致し、協調光子放出の特性についてより深い知見を得る。 原子位置はランダムであるため、$s$ は原子距離の関数であるユークリッドランダム行列である。 雲内の多数の原子の限界において、s$ の固有値分布は、協調性パラメータと呼ばれる単一のパラメータ $b_0$ に依存する。 b_0$ の非常に小さな値に対して、極限固有値密度はおよそ三角形である。 また、最近傍の間隔分布と固有ベクトル統計についても研究し、減衰速度行列はユークリッド行列であるが、それらのスペクトルの大部分は古典的ランダム行列理論の期待通りに振る舞うことを見出した。 特にバルクにはレベル反発があり、固有ベクトルは非局在化され、カオス量子系の普遍的な振る舞いを示す。

We investigate the properties of the cooperative decay modes of a cold atomic cloud, characterized by a Gaussian distribution in three dimensions, initially excited by a laser in the linear regime. We study the properties of the decay rate matrix $S$, whose dimension coincides with the number of atoms in the cloud, in order to get a deeper insight into properties of cooperative photon emission. Since the atomic positions are random, $S$ is a Euclidean random matrix whose entries are function of the atom distances. We show that, in the limit of a large number of atoms in the cloud, the eigenvalue distribution of $S$ depends on a single parameter $b_0$, called the cooperativeness parameter, which can be viewed as a quantifier of the number of atoms that are coherently involved in an emission process. For very small values of $b_0$, we find that the limit eigenvalue density is approximately triangular. We also study the nearest-neighbour spacing distribution and the eigenvector statistics, finding that, although the decay rate matrices are Euclidean, the bulk of their spectra mostly behaves according to the expectations of classical random matrix theory. In particular, in the bulk there is level repulsion and the eigenvectors are delocalized, therefore exhibiting the universal behaviour of chaotic quantum systems.
翻訳日:2023-12-14 23:21:11 公開日:2023-12-13
# 単一画像と映像から新しいシーン構成を生成する

Generating Novel Scene Compositions from Single Images and Videos ( http://arxiv.org/abs/2103.13389v5 )

ライセンス: Link先を確認
Vadim Sushko, Dan Zhang, Juergen Gall, Anna Khoreva(参考訳) 訓練のための大きなデータセットが与えられると、生成逆ネットワーク(gans)は画像合成タスクにおいて顕著な性能を達成できる。 しかし、非常に低いデータ体制でのGANのトレーニングは、過度な適合が頻繁に発生し、記憶や訓練のばらつきにつながるため、依然として課題である。 本稿では,siv-ganについて紹介する。siv-ganは無条件生成モデルであり,単一のトレーニング画像やビデオクリップから新たなシーン構成を生成することができる。 本稿では、内部コンテンツとシーンレイアウトのリアリズムを別々に判断するために、コンテンツとレイアウトの分岐を持つ2分岐判別器アーキテクチャを提案する。 この識別器設計により、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なるシーンの視覚的に可視で斬新な構成を合成することができる。 従来の単一画像 GAN と比較すると,より多彩で高品質な画像を生成する一方で,単一の画像設定に制限されない。 さらに、単一のビデオのいくつかのフレームから学習する上で、新たな課題を導入する。 このトレーニング設定では、トレーニング画像は互いに非常によく似ており、従来のGANモデルでは高品質と多様性の両方を合成することが困難である。

Given a large dataset for training, generative adversarial networks (GANs) can achieve remarkable performance for the image synthesis task. However, training GANs in extremely low data regimes remains a challenge, as overfitting often occurs, leading to memorization or training divergence. In this work, we introduce SIV-GAN, an unconditional generative model that can generate new scene compositions from a single training image or a single video clip. We propose a two-branch discriminator architecture, with content and layout branches designed to judge internal content and scene layout realism separately from each other. This discriminator design enables synthesis of visually plausible, novel compositions of a scene, with varying content and layout, while preserving the context of the original sample. Compared to previous single image GANs, our model generates more diverse, higher quality images, while not being restricted to a single image setting. We further introduce a new challenging task of learning from a few frames of a single video. In this training setup the training images are highly similar to each other, which makes it difficult for prior GAN models to achieve a synthesis of both high quality and diversity.
翻訳日:2023-12-14 21:34:59 公開日:2023-12-13
# ノイズ最適化による微分プライベート推論

Differentially private inference via noisy optimization ( http://arxiv.org/abs/2103.11003v4 )

ライセンス: Link先を確認
Marco Avella-Medina, Casey Bradshaw, Po-Ling Loh(参考訳) 本稿では,微分プライベートm推定器を計算するための汎用最適化ベースフレームワークと,差分プライベート信頼領域を構築する新しい手法を提案する。 まず,大域的線形あるいは二次収束を伴う最適プライベート推定器を得るために,雑音勾配降下法や雑音ニュートン法と併用して,ロバストな統計が利用できることを示す。 局所的および大域的収束の保証を局所的強い凸性と自己一致の両方の下で確立し、我々のプライベートな推定者は非プライベートなm-推定者の小さな近傍に高い確率で収束することを示した。 第二に, パラメトリック推定の問題を, 自己の非漸近的分散の微分的プライベート推定器を構成することで解決する。 これは当然、信頼領域を構築し仮説検証を行う上で重要な統計量の近似につながる。 シミュレーションにおける小サンプル実験性能の向上につながるバイアス補正の有効性を実証する。 本手法の利点をいくつかの数値例で示す。

We propose a general optimization-based framework for computing differentially private M-estimators and a new method for constructing differentially private confidence regions. Firstly, we show that robust statistics can be used in conjunction with noisy gradient descent or noisy Newton methods in order to obtain optimal private estimators with global linear or quadratic convergence, respectively. We establish local and global convergence guarantees, under both local strong convexity and self-concordance, showing that our private estimators converge with high probability to a small neighborhood of the non-private M-estimators. Secondly, we tackle the problem of parametric inference by constructing differentially private estimators of the asymptotic variance of our private M-estimators. This naturally leads to approximate pivotal statistics for constructing confidence regions and conducting hypothesis testing. We demonstrate the effectiveness of a bias correction that leads to enhanced small-sample empirical performance in simulations. We illustrate the benefits of our methods in several numerical examples.
翻訳日:2023-12-14 21:34:39 公開日:2023-12-13
# 非定常マルコフ政策による遅延環境における行動

Acting in Delayed Environments with Non-Stationary Markov Policies ( http://arxiv.org/abs/2101.11992v4 )

ライセンス: Link先を確認
Esther Derman and Gal Dalal, Shie Mannor(参考訳) 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。 しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融といったアプリケーションで壊滅的な失敗を引き起こす可能性があると仮定する。 我々は、mdpにおける学習と計画のためのフレームワークを紹介し、意思決定者は、$m$のステップで実行されるアクションをコミットする。 状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。 そして、実行遅延により、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。 定常マルコフポリシーについては、一般に準最適であることを示す。 その結果、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習型モデルベースアルゴリズムを考案した。 表、物理、アタリドメインの実験では、遅延を無視するか、状態拡張の苦労に頼ったり、分散のために失敗する標準的なアプローチに対して、かなりの遅延があっても高速に収束する。 コードはgithub.com/galdl/rl_delay_basicとgithub.com/galdl/rl_delay_atariで入手できる。

The standard Markov Decision Process (MDP) formulation hinges on the assumption that an action is executed immediately after it was chosen. However, assuming it is often unrealistic and can lead to catastrophic failures in applications such as robotic manipulation, cloud computing, and finance. We introduce a framework for learning and planning in MDPs where the decision-maker commits actions that are executed with a delay of $m$ steps. The brute-force state augmentation baseline where the state is concatenated to the last $m$ committed actions suffers from an exponential complexity in $m$, as we show for policy iteration. We then prove that with execution delay, deterministic Markov policies in the original state-space are sufficient for attaining maximal reward, but need to be non-stationary. As for stationary Markov policies, we show they are sub-optimal in general. Consequently, we devise a non-stationary Q-learning style model-based algorithm that solves delayed execution tasks without resorting to state-augmentation. Experiments on tabular, physical, and Atari domains reveal that it converges quickly to high performance even for substantial delays, while standard approaches that either ignore the delay or rely on state-augmentation struggle or fail due to divergence. The code is available at github.com/galdl/rl_delay_basic and github.com/galdl/rl_delay_atari.
翻訳日:2023-12-14 21:34:22 公開日:2023-12-13
# UTC 時刻,形式的検証

UTC Time, Formally Verified ( http://arxiv.org/abs/2209.14227v2 )

ライセンス: Link先を確認
Ana de Almeida Borges, Mireia Gonz\'alez Bedmar, Juan Conejero Rodr\'iguez, Eduardo Hermo Reyes, Joaquim Casals Bu\~nuel and Joost J. Joosten(参考訳) FV Timeは、Coqの証明アシスタントでMathematical Componentsライブラリを使って開発された小さな検証プロジェクトである。 これは、時間形式(UTCとタイムスタンプ)間の変換を管理するためのライブラリであり、時間演算の一般的な機能である。 時間変換のライブラリとして、その新規性はUTC標準の一部であるが、既存のライブラリでは実装されない跳躍秒の実装である。 FV Time の検証機能は合理的に単純だが非自明であるため,Coq によるソフトウェア検証の方法論をうまく説明している。 本稿では,ライブラリ開発中に直面した主な問題点を強調するとともに,副産物として開発され,他の検証プロジェクトでも使用可能な汎用ソリューションについて述べる。 これには、証明指向のmathcomp数とcoq標準ライブラリからの計算指向プリミティブ数の間の細分化パッケージと、ブルート力計算によって有限範囲で決定可能な文を自動的に証明する一連の戦術が含まれる。

FV Time is a small-scale verification project developed in the Coq proof assistant using the Mathematical Components libraries. It is a library for managing conversions between time formats (UTC and timestamps), as well as commonly used functions for time arithmetic. As a library for time conversions, its novelty is the implementation of leap seconds, which are part of the UTC standard but usually not implemented in existing libraries. Since the verified functions of FV Time are reasonably simple yet non-trivial, it nicely illustrates our methodology for verifying software with Coq. In this paper we present a description of the project, emphasizing the main problems faced while developing the library, as well as some general-purpose solutions that were produced as by-products and may be used in other verification projects. These include a refinement package between proof-oriented MathComp numbers and computation-oriented primitive numbers from the Coq standard library, as well as a set of tactics to automatically prove certain decidable statements over finite ranges through brute-force computation.
翻訳日:2023-12-14 21:31:04 公開日:2023-12-13
# Cem Mil Podcasts:多言語・多言語・多言語情報アクセス研究のためのポルトガル語文書コーパス

Cem Mil Podcasts: A Spoken Portuguese Document Corpus For Multi-modal, Multi-lingual and Multi-Dialect Information Access Research ( http://arxiv.org/abs/2209.11871v2 )

ライセンス: Link先を確認
Ekaterina Garmash, Edgar Tanaka, Ann Clifton, Joana Correia, Sharmistha Jat, Winstead Zhu, Rosie Jones, Jussi Karlgren(参考訳) 本稿では,学術研究目的でリリースしたポルトガル語のポッドキャストデータセットについて述べる。 ブラジルとポルトガルの方言の分布に関する情報だけでなく、収集されたデータのサンプル、収集に関する記述的な統計について概説する。 本研究は,多言語要約実験の結果から,英語とポルトガル語の両方をサポートするシステムを用いて,ポッドキャストの書き起こしの要約をうまく行うことができることを示した。 また,テキストメタデータを用いたポルトガル語ポッドキャストのジャンル分類実験を行った。 このコレクションと以前リリースされた英語コレクションを組み合わせることで、マルチモーダル、多言語、多言語ポッドキャスト情報アクセス研究の可能性が開ける。

In this paper we describe the Portuguese-language podcast dataset we have released for academic research purposes. We give an overview of how the data was sampled, descriptive statistics over the collection, as well as information about the distribution over Brazilian and Portuguese dialects. We give results from experiments on multi-lingual summarization, showing that summarizing podcast transcripts can be performed well by a system supporting both English and Portuguese. We also show experiments on Portuguese podcast genre classification using text metadata. Combining this collection with previously released English-language collection opens up the potential for multi-modal, multi-lingual and multi-dialect podcast information access research.
翻訳日:2023-12-14 21:30:46 公開日:2023-12-13
# ロバストマルコフ決定過程の凸定式化について

On the convex formulations of robust Markov decision processes ( http://arxiv.org/abs/2209.10187v2 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement, Marek Petrik(参考訳) ロバスト・マルコフ決定過程(MDP)は不確実な環境での動的最適化の応用に使われ、広く研究されている。 MDPの主な特性やアルゴリズム、例えば値反復やポリシー反復はRMDPに直接拡張される。 驚いたことに、RMDPを解くためのMDP凸最適化の定式化の類似は知られていない。 本研究は, 古典的 sa-rectangularity と s-rectangularity 仮定の下での rmdps の最初の凸最適化定式化について述べる。 エントロピー正則化と変数の指数変化を用いることで、多くの変数と制約多項式を持つ凸定式化を状態と作用の数で導出するが、制約の係数は大きい。 さらに, 多面体, 楕円体, エントロピーに基づく不確実性集合を持つRMDPの定式化を単純化し, これらの場合において, RMDPは指数錐, 二次錐体および非負のオルサントに基づいて円錐プログラムとして再構成可能であることを示す。 本研究は, RMDPの新たな研究方向を開拓し, RMDPのトラクタブル凸定式化に向けた第一歩として機能する。

Robust Markov decision processes (MDPs) are used for applications of dynamic optimization in uncertain environments and have been studied extensively. Many of the main properties and algorithms of MDPs, such as value iteration and policy iteration, extend directly to RMDPs. Surprisingly, there is no known analog of the MDP convex optimization formulation for solving RMDPs. This work describes the first convex optimization formulation of RMDPs under the classical sa-rectangularity and s-rectangularity assumptions. By using entropic regularization and exponential change of variables, we derive a convex formulation with a number of variables and constraints polynomial in the number of states and actions, but with large coefficients in the constraints. We further simplify the formulation for RMDPs with polyhedral, ellipsoidal, or entropy-based uncertainty sets, showing that, in these cases, RMDPs can be reformulated as conic programs based on exponential cones, quadratic cones, and non-negative orthants. Our work opens a new research direction for RMDPs and can serve as a first step toward obtaining a tractable convex formulation of RMDPs.
翻訳日:2023-12-14 21:30:33 公開日:2023-12-13
# GLARE:Sun Glareにおける交通信号検出用データセット

GLARE: A Dataset for Traffic Sign Detection in Sun Glare ( http://arxiv.org/abs/2209.08716v2 )

ライセンス: Link先を確認
Nicholas Gray, Megan Moraes, Jiang Bian, Alex Wang, Allen Tian, Kurt Wilson, Yan Huang, Haoyi Xiong, Zhishan Guo(参考訳) リアルタイム機械学習オブジェクト検出アルゴリズムは、自動運転車技術の中によく見られ、品質データセットに依存する。 これらのアルゴリズムは、日光の下でも日常的にも正しく機能することが不可欠である。 事故の最も顕著な理由は2つあると報告されている。 しかしながら、Intelligent & Safe Automobiles Traffic Sign (LISA) Dataset や German Traffic Sign Recognition Benchmark といった既存のデータセットは、太陽フレアの存在を反映していない。 本稿では、GLARE (GLARE is available at: https://github.com/NicholasCG/GLARE_Dataset ) Traffic sign data: a collection of image with U.S.-based traffic sign under heavy visual interference by sun。 GLAREには、アメリカの道路のダッシュカム映像を33本撮影した2,157枚が写っている。 広く使用されているLISA Traffic Signデータセットに不可欠な拡張を提供する。 実験により, 過去の日照のない条件下では, いくつかの最先端のベースラインアーキテクチャが交通標識検出に優れた性能を示したが, GLARE(平均mAP0.5:0.95, 19.4)に対して試験すると, 性能が低かった。 また、現在のアーキテクチャでは、太陽グレア性能の交通標識の画像(例:平均mAP0.5:0.95 39.6)で訓練された場合には、より優れた検出が可能であり、混合条件(例:平均mAP0.5:0.95 39.3)で訓練された場合には、最高の性能を発揮する。

Real-time machine learning object detection algorithms are often found within autonomous vehicle technology and depend on quality datasets. It is essential that these algorithms work correctly in everyday conditions as well as under strong sun glare. Reports indicate glare is one of the two most prominent environment-related reasons for crashes. However, existing datasets, such as the Laboratory for Intelligent & Safe Automobiles Traffic Sign (LISA) Dataset and the German Traffic Sign Recognition Benchmark, do not reflect the existence of sun glare at all. This paper presents the GLARE (GLARE is available at: https://github.com/NicholasCG/GLARE_Dataset ) traffic sign dataset: a collection of images with U.S-based traffic signs under heavy visual interference by sunlight. GLARE contains 2,157 images of traffic signs with sun glare, pulled from 33 videos of dashcam footage of roads in the United States. It provides an essential enrichment to the widely used LISA Traffic Sign dataset. Our experimental study shows that although several state-of-the-art baseline architectures have demonstrated good performance on traffic sign detection in conditions without sun glare in the past, they performed poorly when tested against GLARE (e.g., average mAP0.5:0.95 of 19.4). We also notice that current architectures have better detection when trained on images of traffic signs in sun glare performance (e.g., average mAP0.5:0.95 of 39.6), and perform best when trained on a mixture of conditions (e.g., average mAP0.5:0.95 of 42.3).
翻訳日:2023-12-14 21:30:11 公開日:2023-12-13
# ミニバッチ重球運動量の高速収束について

On the fast convergence of minibatch heavy ball momentum ( http://arxiv.org/abs/2206.07553v4 )

ライセンス: Link先を確認
Raghu Bollapragada, Tyler Chen, Rachel Ward(参考訳) 単純な確率運動量法は機械学習の最適化に広く用いられているが、その優れた実用性能は、文学における加速の理論的保証がないことと相反する。 本研究は,2次最適化問題において,確率重球運動量が(決定論的)重球運動量の高速線形速度を保っていることを示すことにより,理論と実践のギャップを埋めることを目的としている。 このアルゴリズムは,極小バッチと重い球運動量を持つランダム化カッツマーズアルゴリズムと解釈できる。 この分析は運動量遷移行列を慎重に分解し、独立なランダム行列の積に対して新しいスペクトルノルム濃度境界を用いる。 境界が合理的に鋭いことを示す数値図面を提供する。

Simple stochastic momentum methods are widely used in machine learning optimization, but their good practical performance is at odds with an absence of theoretical guarantees of acceleration in the literature. In this work, we aim to close the gap between theory and practice by showing that stochastic heavy ball momentum retains the fast linear rate of (deterministic) heavy ball momentum on quadratic optimization problems, at least when minibatching with a sufficiently large batch size. The algorithm we study can be interpreted as an accelerated randomized Kaczmarz algorithm with minibatching and heavy ball momentum. The analysis relies on carefully decomposing the momentum transition matrix, and using new spectral norm concentration bounds for products of independent random matrices. We provide numerical illustrations demonstrating that our bounds are reasonably sharp.
翻訳日:2023-12-14 21:29:22 公開日:2023-12-13
# グラフニューラルネットワークのための位置エンコーディングによるリライト

Rewiring with Positional Encodings for Graph Neural Networks ( http://arxiv.org/abs/2201.12674v4 )

ライセンス: Link先を確認
Rickard Br\"uel-Gabrielsson, Mikhail Yurochkin, Justin Solomon(参考訳) いくつかの最近の研究は、注意機構を備えたグラフニューラルネットワーク(GNN)層の受容場を拡張するために位置符号化を使用している。 しかしながら、これらの手法は受容場を完全なグラフに拡張し、かなりの計算コストをかけて従来のgnnの帰納バイアスの変化を危険にさらすか、複雑なアーキテクチャの調整を必要とする。 保守的な代替手段として、位置エンコーディングを用いて受容場を$r$ホップ地区に拡張する。 具体的には、入力グラフにノード/エッジを追加し、ノードやエッジの特徴として位置エンコーディングを使用する。 したがって、モデル自体を変更する代わりに、下流のGNNモデルにグラフを入力する前にグラフを変更します。 これにより、我々のメソッドは既存のGNNアーキテクチャのどれとも互換性がない。 また、元のグラフと修正されたグラフの間の1対1のマップでロスレスな位置符号化の例も提供する。 位置エンコーディングと仮想完全接続ノードによる受容フィールドの拡張はgnnの性能を大幅に向上させ,小額の$r$でオーバースワッシングを緩和する。 各種モデルやデータセットの改良や,従来のGNNやグラフトランスフォーマーによる競争性能の向上を実現しています。

Several recent works use positional encodings to extend the receptive fields of graph neural network (GNN) layers equipped with attention mechanisms. These techniques, however, extend receptive fields to the complete graph, at substantial computational cost and risking a change in the inductive biases of conventional GNNs, or require complex architecture adjustments. As a conservative alternative, we use positional encodings to expand receptive fields to $r$-hop neighborhoods. More specifically, our method augments the input graph with additional nodes/edges and uses positional encodings as node and/or edge features. We thus modify graphs before inputting them to a downstream GNN model, instead of modifying the model itself. This makes our method model-agnostic, i.e., compatible with any of the existing GNN architectures. We also provide examples of positional encodings that are lossless with a one-to-one map between the original and the modified graphs. We demonstrate that extending receptive fields via positional encodings and a virtual fully-connected node significantly improves GNN performance and alleviates over-squashing using small $r$. We obtain improvements on a variety of models and datasets and reach competitive performance using traditional GNNs or graph Transformers.
翻訳日:2023-12-14 21:27:25 公開日:2023-12-13
# 大域的最適化問題に対するデフレ手法を用いた連続ニュートン法

Continuation Newton methods with deflation techniques for global optimization problems ( http://arxiv.org/abs/2107.13864v6 )

ライセンス: Link先を確認
Xin-long Luo, Hang Xiao and Sen Zhang(参考訳) 最適化問題の大域的最小点が工学分野に興味を持ち、特に凸でない大規模最適化問題において見出すのが困難である。 本稿では,この問題に対する新しいmemeticアルゴリズムについて考察する。 つまり、継続ニュートン法(continuation newton method)とデフレ法(deflation technique)を用いて目的関数の複数の定常点を見つけ出し、それらの定常点を既知の進化アルゴリズムのランダム初期種以外の進化アルゴリズムの初期種として用いる。 一方,微分自由法のユーザビリティと勾配に基づく高速収束を維持するために,自動微分法を用いて勾配を計算し,有限差分近似によりヘッセン行列を置換する。 According to our numerical experiments, this new algorithm works well for unconstrained optimization problems and finds their global minima efficiently, in comparison to the other representative global optimization methods such as the multi-start methods (the built-in subroutine GlobalSearch.m of MATLAB R2021b, GLODS and VRBBO), the branch-and-bound method (Couenne, a state-of-the-art open-source solver for mixed integer nonlinear programming problems), and the derivative-free algorithms (CMA-ES and MCS).

The global minimum point of an optimization problem is of interest in engineering fields and it is difficult to be found, especially for a nonconvex large-scale optimization problem. In this article, we consider a new memetic algorithm for this problem. That is to say, we use the continuation Newton method with the deflation technique to find multiple stationary points of the objective function and use those found stationary points as the initial seeds of the evolutionary algorithm, other than the random initial seeds of the known evolutionary algorithms. Meanwhile, in order to retain the usability of the derivative-free method and the fast convergence of the gradient-based method, we use the automatic differentiation technique to compute the gradient and replace the Hessian matrix with its finite difference approximation. According to our numerical experiments, this new algorithm works well for unconstrained optimization problems and finds their global minima efficiently, in comparison to the other representative global optimization methods such as the multi-start methods (the built-in subroutine GlobalSearch.m of MATLAB R2021b, GLODS and VRBBO), the branch-and-bound method (Couenne, a state-of-the-art open-source solver for mixed integer nonlinear programming problems), and the derivative-free algorithms (CMA-ES and MCS).
翻訳日:2023-12-14 21:26:54 公開日:2023-12-13
# セマンティックテキスト対顔GAN-ST^2FG

Semantic Text-to-Face GAN -ST^2FG ( http://arxiv.org/abs/2107.10756v4 )

ライセンス: Link先を確認
Manan Oza, Sukalpa Chanda and David Doermann(参考訳) generative adversarial networks (gans) を用いて生成された顔は、前例のない現実主義に到達している。 ディープフェイクス」とも呼ばれるこれらの顔は、ピクセルレベルの歪みがほとんどない現実的な写真として現れる。 対象の特定の特性を発生させるモデルのトレーニングを可能にした研究もあるが、自然言語記述に基づく顔画像の生成は十分に検討されていない。 セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するganベースのシステムを提供する能力は非常に有用です。 本稿では,意味的テキスト記述から顔画像を生成する新しい手法を提案する。 学習されたモデルは、テキスト記述と、モデルが特徴のスケッチに使用する顔のタイプの概要を提供する。 我々のモデルはAffine Combination Module (ACM) 機構を用いて訓練され、BERT と GAN の潜在空間からの埋め込みを自己認識行列を用いて組み合わせる。 これは、テキストの埋め込みと潜伏ベクトルが単純に結合された場合に起こりうる、不適切な"注意"による機能の喪失を回避する。 提案手法では,顔の詳細な特徴を多数備えた顔のテキスト記述に極めて正確に一致した画像を生成し,良好な画像を生成することができる。 提案手法は、追加のテキスト記述や文が提供される場合、予め生成した画像に漸進的な変更を加えることもできる。

Faces generated using generative adversarial networks (GANs) have reached unprecedented realism. These faces, also known as "Deep Fakes", appear as realistic photographs with very little pixel-level distortions. While some work has enabled the training of models that lead to the generation of specific properties of the subject, generating a facial image based on a natural language description has not been fully explored. For security and criminal identification, the ability to provide a GAN-based system that works like a sketch artist would be incredibly useful. In this paper, we present a novel approach to generate facial images from semantic text descriptions. The learned model is provided with a text description and an outline of the type of face, which the model uses to sketch the features. Our models are trained using an Affine Combination Module (ACM) mechanism to combine the text embedding from BERT and the GAN latent space using a self-attention matrix. This avoids the loss of features due to inadequate "attention", which may happen if text embedding and latent vector are simply concatenated. Our approach is capable of generating images that are very accurately aligned to the exhaustive textual descriptions of faces with many fine detail features of the face and helps in generating better images. The proposed method is also capable of making incremental changes to a previously generated image if it is provided with additional textual descriptions or sentences.
翻訳日:2023-12-14 21:26:35 公開日:2023-12-13
# 一般化移動ピークベンチマーク(gmpb)による動的最適化問題の競合

Competition on Dynamic Optimization Problems Generated by Generalized Moving Peaks Benchmark (GMPB) ( http://arxiv.org/abs/2106.06174v3 )

ライセンス: Link先を確認
Danial Yazdani (1), Michalis Mavrovouniotis (2), Changhe Li (3), Wenjian Luo (4), Mohammad Nabi Omidvar (5), Amir H. Gandomi (6), Trung Thanh Nguyen (7), Juergen Branke (8), Xiaodong Li (9), Shengxiang Yang (10), and Xin Yao (11) ((1) Faculty of Engineering & Information Technology, University of Technology Sydney,(2) ERATOSTHENES Centre of Excellence, (3) School of Automation, China University of Geosciences, (4) Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies, School of Computer Science and Technology, Harbin Institute of Technology and Peng Cheng Laboratory, (5) School of Computing, University of Leeds, and Leeds University Business School, (6) Faculty of Engineering & Information Technology, University of Technology Sydney and University Research and Innovation Center (EKIK), Obuda University, (7) Liverpool Logistics, Offshore and Marine (LOOM) Research Institute, Faculty of Engineering and Technology, School of Engineering, Liverpool John Moores University, (8) Warwick Business school, University of Warwick, (9) School of Science (Computer Science), RMIT University, (10) Center for Computational Intelligence (CCI), School of Computer Science and Informatics, De Montfort University, (11) Research Institute of Trustworthy Autonomous Systems (RITAS), and Guangdong Provincial Key Laboratory of Brain inspired Intelligent Computation, Department of Computer Science and Engineering, Southern University of Science and Technology, and CERCIA, School of Computer Science, University of Birmingham)(参考訳) この文書は、CEC 2024の動的最適化コンペティションに使用される継続的動的最適化問題インスタンスを生成するツールであるGMPB(Generalized Moving Peaks Benchmark)を紹介している。 gmpbは、幅広い特徴を持つ風景を創出し、ユニモーダルから高度にマルチモーダルな風景まで、対称から高度に非対称な構成まであらゆるものを提供する。 風景は、滑らかな表面から非常に不規則な表面まで、様々な相互作用と条件づけの程度を包含するテクスチャも様々である。 この文書はGMPBの複雑さを掘り下げ、そのパラメータを調整してこれらの多様な景観特性を創出する方法を詳述している。 GMPBのMATLAB実装はEDOLABプラットフォームで利用可能である。

This document introduces the Generalized Moving Peaks Benchmark (GMPB), a tool for generating continuous dynamic optimization problem instances that is used for the CEC 2024 Competition on Dynamic Optimization. GMPB is adept at generating landscapes with a broad spectrum of characteristics, offering everything from unimodal to highly multimodal landscapes and ranging from symmetric to highly asymmetric configurations. The landscapes also vary in texture, from smooth to highly irregular surfaces, encompassing diverse degrees of variable interaction and conditioning. This document delves into the intricacies of GMPB, detailing the myriad ways in which its parameters can be tuned to produce these diverse landscape characteristics. GMPB's MATLAB implementation is available on the EDOLAB Platform.
翻訳日:2023-12-14 21:25:48 公開日:2023-12-13
# 実雑音下での捕捉イオン量子誤差補正における絡み合いの観察

Witnessing entanglement in trapped-ion quantum error correction under realistic noise ( http://arxiv.org/abs/2212.07479v3 )

ライセンス: Link先を確認
Andrea Rodriguez-Blanco, Farid Shahandeh, and Alejandro Bermudez(参考訳) 量子エラー補正(QEC)は論理情報を複数の物理量子ビットに符号化することで冗長性を利用する。 QECの現在の実装では、完全でない2量子エンタングルゲートのシーケンスを使用して、情報を冗長にマルチパーティントエンタングル状態に符号化する。 また、エラーシンドロームを抽出するために、パリティチェック読み出し回路を構築するために、一連の2ビットゲートを使用する。 ノイズゲートの場合、両方のステップを完璧に実行することができず、QECの性能を評価するためにエラーモデルを提供する必要がある。 トラップイオンプラットフォームで使用される2量子光シフトゲートの平均ゲート不忠実度を推定するための詳細な顕微鏡誤差モデルを提案する。 我々は, 現象学的によく用いられる誤り率と, ここから導出される微小ゲート不忠実度を結合する, 顕微鏡パラメータによる先行エラー寄与を解析的に導出した。 次に、この現実的な誤差モデルを適用し、QECビルディングブロックとして機能する回路によって生成される多部絡み合いを定量化する。 我々は,より現実的な微視的雑音の影響を探究することにより,絡み合いの目撃者を用いて,最近の研究を補完する。

Quantum Error Correction (QEC) exploits redundancy by encoding logical information into multiple physical qubits. In current implementations of QEC, sequences of non-perfect two-qubit entangling gates are used to codify the information redundantly into multipartite entangled states. Also, to extract the error syndrome, a series of two-qubit gates are used to build parity-check readout circuits. In the case of noisy gates, both steps cannot be performed perfectly, and an error model needs to be provided to assess the performance of QEC. We present a detailed microscopic error model to estimate the average gate infidelity of two-qubit light-shift gates used in trapped-ion platforms. We analytically derive leading-error contributions in terms of microscopic parameters and present effective error models that connect the error rates typically used in phenomenological accounts to the microscopic gate infidelities hereby derived. We then apply this realistic error model to quantify the multipartite entanglement generated by circuits that act as QEC building blocks. We do so by using entanglement witnesses, complementing in this way the recent studies by exploring the effects of a more realistic microscopic noise.
翻訳日:2023-12-14 21:21:37 公開日:2023-12-13
# ConsPrompt:Fewshot Prompt Learningのためのコントラストサンプルのエクスプロイト

ConsPrompt: Exploiting Contrastive Samples for Fewshot Prompt Learning ( http://arxiv.org/abs/2211.04118v2 )

ライセンス: Link先を確認
Jinta Weng and Yifan Deng and d Donghao Li and Hao You and Yue Hu and Heyan Huang(参考訳) 近年,事前学習された言語モデルを活用するための効果的な言語ツールが提案されている。 しかし、少数のシナリオでは、プロンプトの設計の微妙な変更が常に結果を大きく変え、プロンプトデザインは現在の限られたサンプルをオーバーフィットさせるのも容易である。 そこで本研究では,よりロバストなプロンプト表現を実現するために,適切なコントラストサンプルと複数のコントラスト学習手法をどのように活用するかを検討する。 したがって、コントラストプロンプトモデルとプロンプト符号化ネットワーク、コントラストサンプリングモジュール、コントラストスコアリングモジュールを組み合わせることで、差分コントラスト学習を実現する。 以上の結果から,数ショットの異なる環境での最先端性能を示すとともに,アブレーション実験により,プロンプトベースファインタニングプロセスにおける多自由度コントラスト学習の有効性を検証した。

Prompt recently have become an effective linguistic tool on utilizing the pre-trained language models. However, in few-shot scenarios, subtle changes of prompt's design always make the result widely different, and the prompt design is also easy to overfit the current limited samples. To alleviate this, we explore how to utilize suitable contrastive samples and multiple contrastive learning methods to realize a more robust prompt's representation. Therefore, the contrastive prompt model ConsPrompt combining with prompt encoding network, contrastive sampling modules, and contrastive scoring modules are introduced to realize differential contrastive learning. Our results exhibit the state-of-the-art performance in different few-shot settings, and the ablation experiments also certificate the effectiveness in utilizing multi-degree contrastive learning in prompt-based fine-tuning process.
翻訳日:2023-12-14 21:20:53 公開日:2023-12-13
# 非ラベルデータを用いたコントローラ誘導部分ラベル一貫性規則化

Controller-Guided Partial Label Consistency Regularization with Unlabeled Data ( http://arxiv.org/abs/2210.11194v2 )

ライセンス: Link先を確認
Qian-Wei Wang, Bowen Zhao, Mingyan Zhu, Tianxiang Li, Zimo Liu, Shu-Tao Xia(参考訳) 部分ラベル学習(PLL)は、複数の候補ラベルに関連付けられたトレーニング例から学習する。 近年, 曖昧な監視処理能力と, 最新のデータ拡張手法の推進力により, 整合性正規化に基づくPLL法が成功し, 主流になってきた。 しかし、部分アノテーションが不十分になると、パフォーマンスは大幅に低下する。 本稿では,ラベルの整合性の部分的正則化を容易にするために,アクセスし易いラベルなし例を利用する。 部分的教師付き損失に加えて,ラベル付きデータの助けを借りて,ラベルレベルと表現レベルの両方でコントローラ誘導整合正則化を行う。 初期教師付きモデルの欠点を最小限に抑えるため,制御器を用いて各予測の信頼度を推定し,その後の整合性正規化を導出する。 さらに, 信頼度閾値を動的に調整し, 整合正則化に参加する各クラスの標本数が大まかに等しいようにし, クラス不均衡の問題を緩和する。 実験により,本手法はより実用的な状況で十分な性能を得られ,既存のpll法にもモジュールを適用できることを示した。

Partial label learning (PLL) learns from training examples each associated with multiple candidate labels, among which only one is valid. In recent years, benefiting from the strong capability of dealing with ambiguous supervision and the impetus of modern data augmentation methods, consistency regularization-based PLL methods have achieved a series of successes and become mainstream. However, as the partial annotation becomes insufficient, their performances drop significantly. In this paper, we leverage easily accessible unlabeled examples to facilitate the partial label consistency regularization. In addition to a partial supervised loss, our method performs a controller-guided consistency regularization at both the label-level and representation-level with the help of unlabeled data. To minimize the disadvantages of insufficient capabilities of the initial supervised model, we use the controller to estimate the confidence of each current prediction to guide the subsequent consistency regularization. Furthermore, we dynamically adjust the confidence thresholds so that the number of samples of each class participating in consistency regularization remains roughly equal to alleviate the problem of class-imbalance. Experiments show that our method achieves satisfactory performances in more practical situations, and its modules can be applied to existing PLL methods to enhance their capabilities.
翻訳日:2023-12-14 21:20:34 公開日:2023-12-13
# 伝達学習、推論、計画のための抽象化としてのグラフスキーマ

Graph schemas as abstractions for transfer learning, inference, and planning ( http://arxiv.org/abs/2302.07350v2 )

ライセンス: Link先を確認
J. Swaroop Guntupalli, Rajkumar Vasudeva Raju, Shrinu Kushagra, Carter Wendelken, Danny Sawyer, Ishan Deshpande, Guangyao Zhou, Miguel L\'azaro-Gredilla, Dileep George(参考訳) ある環境や問題から別の環境へ潜伏構造を移すことは、人間や動物が非常に少ないデータで一般化するメカニズムである。 認知と神経生物学の知見に触発されて,伝達学習の抽象化機構としてグラフスキーマを提案する。 グラフスキーマは、知覚的にエイリアスされた観察を文脈情報を用いて潜在空間で曖昧にする潜在グラフ学習から始まる。 潜在グラフ学習は、マップ学習と推移的推論を説明するために海馬の新しい計算モデルとしても登場している。 私たちの見識では、潜在ノードのグループと特定の観測や接地を結合するスロットで、概念や振る舞いをモデル化するフレキシブルなテンプレート -- スキーマ -- として扱うことができる、ということです。 学習された潜在グラフ(schemas)を事前の知識として扱うことにより、新しい環境はスキーマと新しい学習されたバインディングの合成としてすぐに学べる。 我々は、新しい環境での迅速なタスク解決のテストを目的とした、メモリ&プランニングゲームとワンショットのStreetLearnの2つの課題に対して、グラフスキーマを評価した。 グラフスキーマは、以前のベースラインよりもはるかに少ないエピソードで学習でき、これらのタスクの新しいバリエーションを数ステップでモデル化し、計画することができる。 また,より困難な2次元および3次元環境におけるグラフスキーマの学習,マッチング,再利用の例を示し,より大規模で複雑な環境をモデル化するために異なるスキーマをどのように構成できるかを示す。 要約すると、我々の主な貢献は、認知科学にインスパイアされ基礎付けられた統一されたシステムであり、地図誘導と知覚エイリアスを扱う構成を通してスキーマを用いた新しい環境の迅速な伝達学習を容易にする。

Transferring latent structure from one environment or problem to another is a mechanism by which humans and animals generalize with very little data. Inspired by cognitive and neurobiological insights, we propose graph schemas as a mechanism of abstraction for transfer learning. Graph schemas start with latent graph learning where perceptually aliased observations are disambiguated in the latent space using contextual information. Latent graph learning is also emerging as a new computational model of the hippocampus to explain map learning and transitive inference. Our insight is that a latent graph can be treated as a flexible template -- a schema -- that models concepts and behaviors, with slots that bind groups of latent nodes to the specific observations or groundings. By treating learned latent graphs (schemas) as prior knowledge, new environments can be quickly learned as compositions of schemas and their newly learned bindings. We evaluate graph schemas on two previously published challenging tasks: the memory & planning game and one-shot StreetLearn, which are designed to test rapid task solving in novel environments. Graph schemas can be learned in far fewer episodes than previous baselines, and can model and plan in a few steps in novel variations of these tasks. We also demonstrate learning, matching, and reusing graph schemas in more challenging 2D and 3D environments with extensive perceptual aliasing and size variations, and show how different schemas can be composed to model larger and more complex environments. To summarize, our main contribution is a unified system, inspired and grounded in cognitive science, that facilitates rapid transfer learning of new environments using schemas via map-induction and composition that handles perceptual aliasing.
翻訳日:2023-12-14 21:17:17 公開日:2023-12-13
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v6 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,産業的な視点から効率的な3d物体検出の課題に取り組むため,配置に優しい柱型3d検出器「fastpillars」を開発した。 まず,小型の3Dオブジェクトを拡張可能な軽量なMax-and-Attention Pillar Encoding (MAPE) モジュールを提案する。 第2に,柱型3d検出におけるバックボーンの設計において,単純かつ効果的な原理を提案する。 これらの設計に基づいてFastPillarを構築し,SPConvなしで高い性能と低レイテンシを実現する。 2つの大規模データセットに関する広範囲な実験は、性能と速度の両方に関するデバイス上の3d検出におけるfastpillarの有効性と効率を示している。 具体的には、FastPillarsはWaymo Open Datasetの最先端の精度を1.8倍、CenterPoint(SPConvベース)よりも3.8mAPH/L2改善している。 私たちのコードは、https://github.com/StiphyJay/FastPillars.comで公開されています。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolutions (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment, especially for on-device applications. In this paper, to tackle the challenge of efficient 3D object detection from an industry perspective, we devise a deployment-friendly pillar-based 3D detector, termed FastPillars. First, we introduce a novel lightweight Max-and-Attention Pillar Encoding (MAPE) module specially for enhancing small 3D objects. Second, we propose a simple yet effective principle for designing a backbone in pillar-based 3D detection. We construct FastPillars based on these designs, achieving high performance and low latency without SPConv. Extensive experiments on two large-scale datasets demonstrate the effectiveness and efficiency of FastPillars for on-device 3D detection regarding both performance and speed. Specifically, FastPillars delivers state-of-the-art accuracy on Waymo Open Dataset with 1.8X speed up and 3.8 mAPH/L2 improvement over CenterPoint (SPConv-based). Our code is publicly available at: https://github.com/StiphyJay/FastPillars.
翻訳日:2023-12-14 21:16:46 公開日:2023-12-13
# コントラストとクラスタリング:ソースフリードメイン適応のための近隣ペア表現の学習

Contrast and Clustering: Learning Neighborhood Pair Representation for Source-free Domain Adaptation ( http://arxiv.org/abs/2301.13428v4 )

ライセンス: Link先を確認
Yuqi Chen, Xiangbin Zhu and Yonggang Li and Yingjian Li and Haojie Fang(参考訳) 教師なしドメイン適応は、異なるディストリビューションのソースデータを使用して、ラベルのないターゲットドメインからデータを分類する問題を解決する。 しかし、従来の方法ではソースデータへのアクセスが必要であり、データプライバシに関する懸念がしばしば生じている。 本稿では、ソースドメインデータが利用できなくなり、対象ドメインデータがラベル付けされていない、より実用的で困難な設定について考察する。 具体的には, コントラスト学習の観点から, ドメインの不一致問題に対処する。 私たちの仕事の鍵となるアイデアは、ドメイン不変機能を学ぶことです。 1) 隣人と共に元の特徴空間に直接クラスタリングを行う。 2) さらなる計算複雑性を導入することなく、隣り合う拡張による真の強負対の構築 3) ノイズコントラスト推定理論を組み合わせ, 計算上の優位性を得る。 我々はvisda, office-home, office-31の3つの共通ベンチマークについて, 注意深くアブレーション研究を行い, 広範な実験を行った。 その結果,本手法は他の最先端作品と比較して優れていることがわかった。

Unsupervised domain adaptation uses source data from different distributions to solve the problem of classifying data from unlabeled target domains. However, conventional methods require access to source data, which often raise concerns about data privacy. In this paper, we consider a more practical but challenging setting where the source domain data is unavailable and the target domain data is unlabeled. Specifically, we address the domain discrepancy problem from the perspective of contrastive learning. The key idea of our work is to learn a domain-invariant feature by 1) performing clustering directly in the original feature space with nearest neighbors; 2) constructing truly hard negative pairs by extended neighbors without introducing additional computational complexity; and 3) combining noise-contrastive estimation theory to gain computational advantage. We conduct careful ablation studies and extensive experiments on three common benchmarks: VisDA, Office-Home, and Office-31. The results demonstrate the superiority of our methods compared with other state-of-the-art works.
翻訳日:2023-12-14 21:15:36 公開日:2023-12-13
# Graph Harmony: Graph-Structured Dataにおけるドメイン転送強化のためのDenoising and Nuclear-Norm Wasserstein Adaptation

Graph Harmony: Denoising and Nuclear-Norm Wasserstein Adaptation for Enhanced Domain Transfer in Graph-Structured Data ( http://arxiv.org/abs/2301.12361v2 )

ライセンス: Link先を確認
Mengxi Wu and Mohammad Rostami(参考訳) グラフ構造化データは多数のドメインで見ることができるが、ラベル付きインスタンスの不足により、多くのシナリオでディープラーニングの有効利用が妨げられる。 グラフに対する従来の教師なしドメイン適応(UDA)戦略は、主に敵対的学習と擬似ラベルに基づく。 これらのアプローチは、グラフ識別機能を効果的に活用できないため、クラスミスマッチと信頼性の低いラベル品質につながる。 これらの障害をナビゲートするために、Denoising and Nuclear-Norm Wasserstein Adaptation Network (DNAN) を開発した。 DNANはNWD(Nuclear-norm Wasserstein discrepancy)を採用し、同時にドメインアライメントとクラス区別を実現する。 DANAはまた、データノイズを緩和する変分グラフオートエンコーダを通じて、デノナイズ機構を統合する。 この denoising メカニズムは、ソースドメインとターゲットドメインの両方の本質的な特徴をキャプチャし、ドメイン適応プロセスの堅牢性を改善するのに役立つ。 包括的実験により、DNANはグラフ分類のための標準UDAベンチマークにおいて最先端の手法よりも優れていることが示された。

Graph-structured data can be found in numerous domains, yet the scarcity of labeled instances hinders its effective utilization of deep learning in many scenarios. Traditional unsupervised domain adaptation (UDA) strategies for graphs primarily hinge on adversarial learning and pseudo-labeling. These approaches fail to effectively leverage graph discriminative features, leading to class mismatching and unreliable label quality. To navigate these obstacles, we develop the Denoising and Nuclear-Norm Wasserstein Adaptation Network (DNAN). DNAN employs the Nuclear-norm Wasserstein discrepancy (NWD), which can simultaneously achieve domain alignment and class distinguishment. DANA also integrates a denoising mechanism via a variational graph autoencoder that mitigates data noise. This denoising mechanism helps capture essential features of both source and target domains, improving the robustness of the domain adaptation process. Our comprehensive experiments demonstrate that DNAN outperforms state-of-the-art methods on standard UDA benchmarks for graph classification.
翻訳日:2023-12-14 21:15:24 公開日:2023-12-13
# 任意の忠実度に対するMargolus-Levitin量子速度制限

Margolus-Levitin quantum speed limit for an arbitrary fidelity ( http://arxiv.org/abs/2301.10063v3 )

ライセンス: Link先を確認
Niklas H\"ornedal, Ole S\"onnerborn(参考訳) mandelstam-tammとmargolus-levitinの量子速度限界は、孤立した量子系でよく知られた2つの進化時間推定値である。 これらの境界は通常、完全に区別可能な初期状態と最終状態のために定式化されるが、どちらも任意の忠実度を持つ状態の間で進化する系への厳密な拡張を持つ。 しかし、これらの拡張の基礎はいくつかの本質的な点で異なる。 拡張マンデルスタム-タム量子速度制限は解析的に証明され、明確な幾何学的解釈を持つ。 さらに、どのシステムが制限を飽和させるかが知られている。 一方、拡張されたマルゴラス-レヴィチン量子速度制限の導出は、数値的な推定に基づいている。 さらに、極限は幾何学的解釈を欠き、それに到達したシステムの完全な特徴付けは存在しない。 本稿では,マルゴラス-レヴィチン量子速度制限を解析的に導出し,その限界を詳細に飽和させるシステムを記述する。 また、シンプレクティック・幾何学的解釈により、既存の量子速度制限と異なる性質を持つことを示す極限も提供する。 論文の最後には,拡張Mandelstam-TammとMargolus-Levitinの量子速度限界の最大値を分析し,拡張Margolus-Levitin量子速度限界の二重バージョンを導出する。 最大極限は、初期状態と最終状態の忠実性にかかわらず厳密である。 しかし、初期状態と最終状態が完全に区別可能であるか否かによって、最大限界が飽和している条件が異なる。 双対極限もまたタイトであり、時間反転の議論から従う。 双対量子速度制限を飽和させるシステムについて述べる。

The Mandelstam-Tamm and Margolus-Levitin quantum speed limits are two well-known evolution time estimates for isolated quantum systems. These bounds are usually formulated for fully distinguishable initial and final states, but both have tight extensions to systems that evolve between states with an arbitrary fidelity. However, the foundations of these extensions differ in some essential respects. The extended Mandelstam-Tamm quantum speed limit has been proven analytically and has a clear geometric interpretation. Furthermore, which systems saturate the limit is known. The derivation of the extended Margolus-Levitin quantum speed limit, on the other hand, is based on numerical estimates. Moreover, the limit lacks a geometric interpretation, and no complete characterization of the systems reaching it exists. In this paper, we derive the extended Margolus-Levitin quantum speed limit analytically and describe the systems that saturate the limit in detail. We also provide the limit with a symplectic-geometric interpretation, which indicates that it is of a different character than most existing quantum speed limits. At the end of the paper, we analyze the maximum of the extended Mandelstam-Tamm and Margolus-Levitin quantum speed limits and derive a dual version of the extended Margolus-Levitin quantum speed limit. The maximum limit is tight regardless of the fidelity of the initial and final states. However, the conditions under which the maximum limit is saturated differ depending on whether or not the initial state and the final state are fully distinguishable. The dual limit is also tight and follows from a time reversal argument. We describe the systems that saturate the dual quantum speed limit.
翻訳日:2023-12-14 21:14:46 公開日:2023-12-13
# 時空間データに対する混合移動平均場誘導学習

Mixed moving average field guided learning for spatio-temporal data ( http://arxiv.org/abs/2301.00736v3 )

ライセンス: Link先を確認
Imma Valentina Curato, Orkun Furat, Lorenzo Proietti and Bennet Stroeh(参考訳) 混合移動平均場は時空間データのための汎用モデリングクラスである。 しかし、その予測分布は一般には知られていない。 このモデリング仮定の下で、新しい時空間埋め込みと、一般化ベイズアルゴリズムを用いてアンサンブル予測を行う理論誘導機械学習アプローチを定義する。 バッチ学習では,リプシッツ予測器を用いて一定時間および任意の時間pacベイズ境界を決定する。 因果予測を行うことは,空間的・時間的短期的・長期的依存のあるデータに適用する可能性として,我々の方法論のハイライトである。 次に,線形予測器と,時空間Ornstein-Uhlenbeckプロセスからシミュレーションしたデータセットを用いて,学習手法の性能を検証した。

Influenced mixed moving average fields are a versatile modeling class for spatio-temporal data. However, their predictive distribution is not generally known. Under this modeling assumption, we define a novel spatio-temporal embedding and a theory-guided machine learning approach that employs a generalized Bayesian algorithm to make ensemble forecasts. We employ Lipschitz predictors and determine fixed-time and any-time PAC Bayesian bounds in the batch learning setting. Performing causal forecast is a highlight of our methodology as its potential application to data with spatial and temporal short and long-range dependence. We then test the performance of our learning methodology by using linear predictors and data sets simulated from a spatio-temporal Ornstein-Uhlenbeck process.
翻訳日:2023-12-14 21:13:55 公開日:2023-12-13
# マルチホップ質問応答におけるラベル平滑化の再考

Rethinking Label Smoothing on Multi-hop Question Answering ( http://arxiv.org/abs/2212.09512v3 )

ライセンス: Link先を確認
Zhangyue Yin, Yuxin Wang, Xiannian Hu, Yiguang Wu, Hang Yan, Xinyu Zhang, Zhao Cao, Xuanjing Huang, Xipeng Qiu(参考訳) MHQA(Multi-Hop Question Answering)は、文書検索、文予測、回答スパン抽出など、複数の推論要素を必要とする質問応答において重要な領域である。 本研究では,マルチホップ推論の性能を制限する主要な要因を分析し,MHQAタスクにラベルスムーシングを導入する。 これは、MHQAシステムの一般化能力の向上と、トレーニングセットにおける回答スパンと推論パスの過剰適合の軽減を目的としている。 本研究では,学習プロセスに不確実性を取り入れた新しいラベル平滑化手法であるf1平滑化法を提案する。 カリキュラム学習の原則に着想を得て,学習過程を通じて不確実性を徐々に減少させる線形決定ラベル平滑化アルゴリズム(LDLA)を導入する。 HotpotQAデータセットを用いた実験により,マルチホップ推論における性能向上と一般化性の向上,およびリーダボード上での新たな最先端結果の達成効果が示された。

Multi-Hop Question Answering (MHQA) is a significant area in question answering, requiring multiple reasoning components, including document retrieval, supporting sentence prediction, and answer span extraction. In this work, we analyze the primary factors limiting the performance of multi-hop reasoning and introduce label smoothing into the MHQA task. This is aimed at enhancing the generalization capabilities of MHQA systems and mitigating overfitting of answer spans and reasoning paths in training set. We propose a novel label smoothing technique, F1 Smoothing, which incorporates uncertainty into the learning process and is specifically tailored for Machine Reading Comprehension (MRC) tasks. Inspired by the principles of curriculum learning, we introduce the Linear Decay Label Smoothing Algorithm (LDLA), which progressively reduces uncertainty throughout the training process. Experiment on the HotpotQA dataset demonstrates the effectiveness of our methods in enhancing performance and generalizability in multi-hop reasoning, achieving new state-of-the-art results on the leaderboard.
翻訳日:2023-12-14 21:13:31 公開日:2023-12-13
# Occ3D: 自動運転のための大規模3D作業予測ベンチマーク

Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving ( http://arxiv.org/abs/2304.14365v3 )

ライセンス: Link先を確認
Xiaoyu Tian, Tao Jiang, Longfei Yun, Yucheng Mao, Huitong Yang, Yue Wang, Yilun Wang, Hang Zhao(参考訳) ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。 既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細の無視、一般的な語彙外オブジェクトの扱いに苦慮している。 シーンの詳細な占有状態とセマンティクスを推定する3D占有予測は、これらの制限を克服する新たな課題である。 3D占有率予測を支援するため,任意のシーンに高密度で可視性のあるラベルを生成するラベル生成パイプラインを開発した。 このパイプラインは、ボクセルの密度化、閉塞推論、および画像誘導ボクセル精製の3段階からなる。 Waymo Open DatasetとnuScenes Datasetの2つのベンチマーク、すなわちOcc3D-WaymoとOcc3D-nuScenesベンチマークを構築します。 さらに,提案したデータセットをベースラインモデルを用いて広範囲に解析する。 最後に,occ3dベンチマークにおいて優れた性能を示す,粒度対細占有(ctf-occ)ネットワークと呼ばれる新しいモデルを提案する。 コード、データ、ベンチマークはhttps://tsinghua-mars-lab.github.io/occ3d/でリリースされる。

Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
翻訳日:2023-12-14 21:06:27 公開日:2023-12-13
# SSLモデルはD\'ej\`a Vuを持っているか? 自己指導型学習における意図しない記憶の1例

Do SSL Models Have D\'ej\`a Vu? A Case of Unintended Memorization in Self-supervised Learning ( http://arxiv.org/abs/2304.13850v3 )

ライセンス: Link先を確認
Casey Meehan, Florian Bordes, Pascal Vincent, Kamalika Chaudhuri, Chuan Guo(参考訳) 自己教師付き学習(ssl)アルゴリズムは、自然画像の異なる部分を互いに関連付けるように学習することで有用な画像表現を生成することができる。 しかし、極端な場合、SSLモデルは意味論的に意味のある関連を学習するのではなく、個々のトレーニングサンプルの特定の部分を意図せずに記憶することができる。 本研究では,SSL モデルにおける画像固有情報の意図しない記憶に関する体系的研究を行い,これを d\'ej\`a vu 記憶と呼ぶ。 具体的には、背景(水、空、草など)のみを含む訓練画像の訓練モデルと作物を考慮すれば、前景オブジェクトを高精度に推測したり、視覚的に再構成したりすることが可能であることを示す。 さらに,d\'ej\`a vuの記憶は異なるsslアルゴリズムに共通であり,特定の設計選択によって悪化し,従来の表現品質評価手法では検出できないことを示す。 d\'ej\`a vuメモリ化に関する我々の研究は、SSLモデルでこれまで未知のプライバシリスクを明らかにし、潜在的な実用的な緩和戦略を示唆している。 コードはhttps://github.com/facebookresearch/DejaVu.comで入手できる。

Self-supervised learning (SSL) algorithms can produce useful image representations by learning to associate different parts of natural images with one another. However, when taken to the extreme, SSL models can unintendedly memorize specific parts in individual training samples rather than learning semantically meaningful associations. In this work, we perform a systematic study of the unintended memorization of image-specific information in SSL models -- which we refer to as d\'ej\`a vu memorization. Concretely, we show that given the trained model and a crop of a training image containing only the background (e.g., water, sky, grass), it is possible to infer the foreground object with high accuracy or even visually reconstruct it. Furthermore, we show that d\'ej\`a vu memorization is common to different SSL algorithms, is exacerbated by certain design choices, and cannot be detected by conventional techniques for evaluating representation quality. Our study of d\'ej\`a vu memorization reveals previously unknown privacy risks in SSL models, as well as suggests potential practical mitigation strategies. Code is available at https://github.com/facebookresearch/DejaVu.
翻訳日:2023-12-14 21:06:08 公開日:2023-12-13
# マルコフ決定過程における静的リスク対策の動的プログラミング分解について

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes ( http://arxiv.org/abs/2304.12477v3 )

ライセンス: Link先を確認
Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik(参考訳) マルコフ決定過程における静的リスク回避目標の最適化は、強化学習(rl)アルゴリズムに共通する標準的な動的プログラミング方程式を認めないため困難である。 状態空間を個別のリスクレベルで拡張する動的プログラミング分解は、最近rlコミュニティで人気を集めている。 先行研究により、これらの分解はリスクレベルが十分に離散化されている場合に最適であることが示されている。 しかし, 条件値-at-Risk (CVaR) とエントロピー-値-at-Risk (EVaR) の分解は, 離散化レベルに関係なく本質的に準最適であることを示す。 特に,先行文献において保持されると考えられるサドル点特性が侵害される可能性があることを示す。 しかしながら、分解はバリュー・アット・リスクを保ち、このリスク尺度がCVaRとEVaRとどのように異なるかを示す。 リスク回避アルゴリズムは高リスク環境において用いられており,その正確性は極めて重要である。

Optimizing static risk-averse objectives in Markov decision processes is difficult because they do not admit standard dynamic programming equations common in Reinforcement Learning (RL) algorithms. Dynamic programming decompositions that augment the state space with discrete risk levels have recently gained popularity in the RL community. Prior work has shown that these decompositions are optimal when the risk level is discretized sufficiently. However, we show that these popular decompositions for Conditional-Value-at-Risk (CVaR) and Entropic-Value-at-Risk (EVaR) are inherently suboptimal regardless of the discretization level. In particular, we show that a saddle point property assumed to hold in prior literature may be violated. However, a decomposition does hold for Value-at-Risk and our proof demonstrates how this risk measure differs from CVaR and EVaR. Our findings are significant because risk-averse algorithms are used in high-stake environments, making their correctness much more critical.
翻訳日:2023-12-14 21:05:48 公開日:2023-12-13
# 自然言語による計画への学習

Learning to Plan with Natural Language ( http://arxiv.org/abs/2304.10464v4 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Chenfei Wu, Wenshan Wu, Dongyan Zhao, Nan Duan(参考訳) 大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。 複雑なタスクを完了するには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。 LLMは直接タスクプランを生成することができるが、これらのプランは依然として事実エラーを含むか不完全である。 高品質なタスクプランには、すべての状況を解決するための正しいステップバイステップソリューションと、ミスを避けるための行動指示が含まれている。 そこで本研究では,(1)第1の学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した,新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。 2) その後のテストフェーズでは,LLMは学習したタスクプランを使用して,テストセット上のLLMの推論をガイドする。 提案手法は,5つの異なる推論型タスク (8つのデータセット) において有効であることを示す。 さらに,解析実験により,あるLLMが学習したタスクプランが,他のLLMを直接指導して,その性能を向上させることができることがわかった。 コードは \url{https://github.com/eureka6174/learnnlplan} でリリースします。

Large Language Models (LLMs) have shown remarkable performance in various basic natural language tasks. For completing the complex task, we still need a plan for the task to guide LLMs to generate the specific solutions step by step. LLMs can directly generate task plans, but these plans may still contain factual errors or are incomplete. A high-quality task plan contains correct step-by-step solutions for solving all situations and behavioral instructions for avoiding mistakes. To obtain it, we propose the Learning to Plan method, which involves two phases: (1) In the first learning task plan phase, it iteratively updates the task plan with new step-by-step solutions and behavioral instructions, which are obtained by prompting LLMs to derive from training error feedback. (2) In the subsequent test phase, the LLM uses the learned task plan to guide the inference of LLM on the test set. We demonstrate the effectiveness of our method on the five different reasoning type tasks (8 datasets). Further, our analysis experiment shows that the task plan learned by one LLM can directly guide another LLM to improve its performance, which reveals a new transfer learning paradigm. We release the code at \url{https://github.com/Eureka6174/LearnNLPlan}
翻訳日:2023-12-14 21:05:27 公開日:2023-12-13
# 不整合表現学習のためのスパースと共有特徴アクティベーションの活用

Leveraging sparse and shared feature activations for disentangled representation learning ( http://arxiv.org/abs/2304.07939v3 )

ライセンス: Link先を確認
Marco Fumero, Florian Wenzel, Luca Zancato, Alessandro Achille, Emanuele Rodol\`a, Stefano Soatto, Bernhard Sch\"olkopf, Francesco Locatello(参考訳) 高次元データの変動の潜在要因の回復は、これまで単純な合成設定に重点を置いてきた。 主に教師なしおよび弱教師付き目的に基づいて構築され、以前の研究は、実世界のデータにおける表現学習のポジティブな意味を欠いた。 本研究では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。 各教師付きタスクがばらつきの要因の未知の部分集合のみに依存すると仮定すると、私たちは教師付きマルチタスクモデルの機能空間を分断し、異なるタスク間で機能を活性化し、適切な情報を共有する。 重要なことは、我々は変化の要因を直接観察することはないが、複数のタスクへのアクセスは、十分かつ最小限の仮定の下での識別に十分であることを示す。 6つの実世界の分散シフトベンチマークと異なるデータモダリティ(画像、テキスト)のアプローチを検証し、異種表現を実環境に転送する方法を実証した。

Recovering the latent factors of variation of high dimensional data has so far focused on simple synthetic settings. Mostly building on unsupervised and weakly-supervised objectives, prior work missed out on the positive implications for representation learning on real world data. In this work, we propose to leverage knowledge extracted from a diversified set of supervised tasks to learn a common disentangled representation. Assuming each supervised task only depends on an unknown subset of the factors of variation, we disentangle the feature space of a supervised multi-task model, with features activating sparsely across different tasks and information being shared as appropriate. Importantly, we never directly observe the factors of variations but establish that access to multiple tasks is sufficient for identifiability under sufficiency and minimality assumptions. We validate our approach on six real world distribution shift benchmarks, and different data modalities (images, text), demonstrating how disentangled representations can be transferred to real settings.
翻訳日:2023-12-14 21:04:25 公開日:2023-12-13
# 熱分解としての量子ウォークとフラーレングラフへの応用

Quantum walks as thermalizations, with application to fullerene graphs ( http://arxiv.org/abs/2304.01572v2 )

ライセンス: Link先を確認
Shyam Dhamapurkar, Oscar Dahlsten(参考訳) 量子ウォークは、古典的ランダムウォークが古典的熱化のモデルとなるのと同様に、どの程度の熱化のモデルを構成することができるかを考える。 グラフ上の量子ウォークでは、ウォーカーはユニタリ時間発展を通じてノードの位置の重ね合わせを移動する。 量子ウォークは、一様進化量子系の熱化に関する文献で研究されている種類の平衡として解釈できることを示す。 この接続は、観測可能性の平衡に関する最近の結果が量子ウォークのノード位置統計解析に応用できることを示している。 これをフラーレンと呼ばれるグラフの族に例証する。 short et al. のバウンドは、ある期待値が時間平均値に近いことを暗示しており、ノードの位置確率に厳密に適用される。 それでも、ノード位置統計は標準的な意味では熱化しない。 特に、フラーレングラフ上の量子ウォークは、サブシステムがギブス状態に等しいという仮説に対する反例となる。 また,この橋を応用して,固有状態熱化仮説(eth)関係の普遍性を調べるために量子ウォークが利用できることを示す。 単一の歩行器を持つC60では、ETH関係はノード位置プロジェクターを保たないが、ハミルトニアンの対称性によって強制される平均位置を保っている。 この結果は、量子ウォークと量子自己熱化の統一的な研究が自然で実現可能であることを示唆している。

We consider to what extent quantum walks can constitute models of thermalization, analogously to how classical random walks can be models for classical thermalization. In a quantum walk over a graph, a walker moves in a superposition of node positions via a unitary time evolution. We show a quantum walk can be interpreted as an equilibration of a kind investigated in the literature on thermalization in unitarily evolving quantum systems. This connection implies that recent results concerning the equilibration of observables can be applied to analyse the node position statistics of quantum walks. We illustrate this in the case of a family of graphs known as fullerenes. We find that a bound from Short et al., implying that certain expectation values will at most times be close to their time-averaged value, applies tightly to the node position probabilities. Nevertheless, the node position statistics do not thermalize in the standard sense. In particular, quantum walks over fullerene graphs constitute a counter-example to the hypothesis that subsystems equilibrate to the Gibbs state. We also exploit the bridge created to show how quantum walks can be used to probe the universality of the eigenstate thermalisation hypothesis (ETH) relation. We find that whilst in C60 with a single walker, the ETH relation does not hold for node position projectors, it does hold for the average position, enforced by a symmetry of the Hamiltonian. The findings suggest a unified study of quantum walks and quantum self-thermalizations is natural and feasible.
翻訳日:2023-12-14 21:04:06 公開日:2023-12-13
# バイオメディカルテキストにおけるタンパク質間相互作用の同定のためのGPTおよびBERTモデルの評価

Evaluation of GPT and BERT-based models on identifying protein-protein interactions in biomedical text ( http://arxiv.org/abs/2303.17728v2 )

ライセンス: Link先を確認
Hasin Rehana, Nur Bengisu \c{C}am, Mert Basmaci, Jie Zheng, Christianah Jemiyo, Yongqun He, Arzucan \"Ozg\"ur, Junguk Hur(参考訳) タンパク質-タンパク質相互作用(PPI)の検出は、遺伝子機構、疾患の病因、薬物設計を理解するために重要である。 しかし, 生物医学文献の急速な成長に伴い, 科学的知識発見を促進するために, PPIの自動的かつ正確な抽出の必要性が高まっている。 生成事前学習変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。 テキスト77文に164PPIの学習言語(LLL),145文に163PPIのヒトタンパク質参照データベース,486文に335PPIのインタラクション抽出性能の3つの手作業による複数のGPTおよびBERTモデルのPPI識別性能の評価を行った。 BERTベースのモデルは、BioBERTが91.95%、F1スコアが86.84%、PubMedBERTが85.25%、最高性能を達成した。 興味深いことに、GPT-4はバイオメディカルテキスト向けに明示的に訓練されていないにもかかわらず、最高性能のBERTモデルに匹敵する高い性能を達成した。 精度は88.37%、リコールは85.14%、f1-scoreは86.49%であった。 これらの結果は,GPTモデルがテキストデータからPPIを効果的に検出できることを示唆している。 さらなる研究は、これらのモデルが、バイオメディカル領域内でさらに専門的なタスクのために微調整される可能性を探るかもしれない。

Detecting protein-protein interactions (PPIs) is crucial for understanding genetic mechanisms, disease pathogenesis, and drug design. However, with the fast-paced growth of biomedical literature, there is a growing need for automated and accurate extraction of PPIs to facilitate scientific knowledge discovery. Pre-trained language models, such as generative pre-trained transformers (GPT) and bidirectional encoder representations from transformers (BERT), have shown promising results in natural language processing (NLP) tasks. We evaluated the performance of PPI identification of multiple GPT and BERT models using three manually curated gold-standard corpora: Learning Language in Logic (LLL) with 164 PPIs in 77 sentences, Human Protein Reference Database with 163 PPIs in 145 sentences, and Interaction Extraction Performance Assessment with 335 PPIs in 486 sentences. BERT-based models achieved the best overall performance, with BioBERT achieving the highest recall (91.95%) and F1-score (86.84%) and PubMedBERT achieving the highest precision (85.25%). Interestingly, despite not being explicitly trained for biomedical texts, GPT-4 achieved commendable performance, comparable to the top-performing BERT models. It achieved a precision of 88.37%, a recall of 85.14%, and an F1-score of 86.49% on the LLL dataset. These results suggest that GPT models can effectively detect PPIs from text data, offering promising avenues for application in biomedical literature mining. Further research could explore how these models might be fine-tuned for even more specialized tasks within the biomedical domain.
翻訳日:2023-12-14 21:03:37 公開日:2023-12-13
# ADCNet: 蒸留によるRAWレーダデータからの学習

ADCNet: Learning from Raw Radar Data via Distillation ( http://arxiv.org/abs/2303.11420v3 )

ライセンス: Link先を確認
Bo Yang, Ishan Khatri, Michael Happold, Chulong Chen(参考訳) 自動運転車や高度な運転支援システムが広く展開されるにつれて、レーダーを用いた堅牢な認識システムの構築への関心が高まっている。 レーダーベースのシステムは、LiDARベースのシステムよりも低コストで、悪天候条件に対してより堅牢である。 これらの課題に対処するために、最近の研究は、最終レーダーポイントクラウドではなく、生のレーダーデータを消費することに焦点を当てている。 我々は、この一連の作業の上に構築し、信号処理パイプラインの要素を我々のネットワークに持ち込み、信号処理タスクで事前学習することにより、RADIalデータセット上でのアート検出性能の状態を達成できることを実証する。 提案手法は高価なオフライン信号処理アルゴリズムを用いて擬似ラベルデータを処理し、ネットワークを訓練し、その情報を高速畳み込みバックボーンに蒸留し、知覚タスク用に微調整することができる。 実験結果は,提案手法の有効性を裏付けるものである。

As autonomous vehicles and advanced driving assistance systems have entered wider deployment, there is an increased interest in building robust perception systems using radars. Radar-based systems are lower cost and more robust to adverse weather conditions than their LiDAR-based counterparts; however the point clouds produced are typically noisy and sparse by comparison. In order to combat these challenges, recent research has focused on consuming the raw radar data, instead of the final radar point cloud. We build on this line of work and demonstrate that by bringing elements of the signal processing pipeline into our network and then pre-training on the signal processing task, we are able to achieve state of the art detection performance on the RADIal dataset. Our method uses expensive offline signal processing algorithms to pseudo-label data and trains a network to distill this information into a fast convolutional backbone, which can then be finetuned for perception tasks. Extensive experiment results corroborate the effectiveness of the proposed techniques.
翻訳日:2023-12-14 21:03:01 公開日:2023-12-13
# MMFace4D:オーディオ駆動型3D顔アニメーションのための大規模マルチモーダル4D顔データセット

MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D Face Animation ( http://arxiv.org/abs/2303.09797v2 )

ライセンス: Link先を確認
Haozhe Wu, Jia Jia, Junliang Xing, Hongwei Xu, Xiangyuan Wang, Jelo Wang(参考訳) オーディオ駆動のフェイスアニメーションは、vr/ar、ゲーム、映画製作などのアプリケーションで期待されている技術だ。 3dエンジンの急速な開発により、オーディオによる3d顔の運転の需要が高まっている。 しかし、現在利用可能な3D顔アニメーションデータセットは、スケール制限または品質不満足である。 この課題に対処するために,431のアイデンティティ,35,904のシーケンス,390万フレームからなる大規模マルチモーダル4D顔データセットMMFace4Dを提案する。 MMFace4Dは2つの魅力的な特徴を示す。 1) 15歳から68歳までの俳優を包含し,0.7秒から11.4秒の連続で記録する,極めて多様な主題とコーパスの組。 2) 音声と3dメッシュの同期シーケンスと高精細な顔画像が特徴である。 3d表情の微妙なニュアンスを捉えるために、記録プロセス中に3つの同期rgbdカメラを利用する。 MMFace4Dでは,音声駆動型3D顔アニメーションのための非自己回帰フレームワークを構築する。 顔アニメーションの地域的・複合的性質を考察し,質的・定量的に,現代の最先端のアプローチを上回っている。 コード、モデル、データセットは公開される予定だ。

Audio-Driven Face Animation is an eagerly anticipated technique for applications such as VR/AR, games, and movie making. With the rapid development of 3D engines, there is an increasing demand for driving 3D faces with audio. However, currently available 3D face animation datasets are either scale-limited or quality-unsatisfied, which hampers further developments of audio-driven 3D face animation. To address this challenge, we propose MMFace4D, a large-scale multi-modal 4D (3D sequence) face dataset consisting of 431 identities, 35,904 sequences, and 3.9 million frames. MMFace4D exhibits two compelling characteristics: 1) a remarkably diverse set of subjects and corpus, encompassing actors spanning ages 15 to 68, and recorded sentences with durations ranging from 0.7 to 11.4 seconds. 2) It features synchronized audio and 3D mesh sequences with high-resolution face details. To capture the subtle nuances of 3D facial expressions, we leverage three synchronized RGBD cameras during the recording process. Upon MMFace4D, we construct a non-autoregressive framework for audio-driven 3D face animation. Our framework considers the regional and composite natures of facial animations, and surpasses contemporary state-of-the-art approaches both qualitatively and quantitatively. The code, model, and dataset will be publicly available.
翻訳日:2023-12-14 21:02:44 公開日:2023-12-13
# TOLD: 話者ダイアリゼーションのための2段階オーバーラップ認識フレームワーク

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization ( http://arxiv.org/abs/2303.05397v2 )

ライセンス: Link先を確認
Jiaming Wang, Zhihao Du, Shiliang Zhang(参考訳) 近年、エンドツーエンドのニューラルネットワークダイアリゼーション(eend)が導入され、話者オーバーラップシナリオで有望な結果が得られている。 eendでは、話者ダイアリゼーションはマルチラベル予測問題として定式化され、話者の活動は独立して見積もられ、その依存が十分に考慮されていない。 これらの欠点を克服するために,単一ラベル分類問題として話者ダイアリゼーションを再構成するパワーセット符号化を採用し,話者重複と依存を明示的にモデル化できるオーバーラップアウェアeend(eend-ola)モデルを提案する。 2段階ハイブリッドシステムの成功に触発されて、eend-olaのダイアリゼーション結果を反復的に洗練するために、スピーカーオーバーラップアウェアポストプロセッシング(soap)モデルを用いて、新しい2段階オーバーラップアウェアダイアリゼーションフレームワーク(told)を提案する。 実験の結果、eend-olaは元々のeendと比較してダイアリゼーションエラー率(der)の点で14.39%の相対的な改善を達成し、soapを利用することでさらに19.33%の相対的な改善が得られた。 その結果,TOLD は CALLHOME データセット上で 10.14% の DER を達成することができた。

Recently, end-to-end neural diarization (EEND) is introduced and achieves promising results in speaker-overlapped scenarios. In EEND, speaker diarization is formulated as a multi-label prediction problem, where speaker activities are estimated independently and their dependency are not well considered. To overcome these disadvantages, we employ the power set encoding to reformulate speaker diarization as a single-label classification problem and propose the overlap-aware EEND (EEND-OLA) model, in which speaker overlaps and dependency can be modeled explicitly. Inspired by the success of two-stage hybrid systems, we further propose a novel Two-stage OverLap-aware Diarization framework (TOLD) by involving a speaker overlap-aware post-processing (SOAP) model to iteratively refine the diarization results of EEND-OLA. Experimental results show that, compared with the original EEND, the proposed EEND-OLA achieves a 14.39% relative improvement in terms of diarization error rates (DER), and utilizing SOAP provides another 19.33% relative improvement. As a result, our method TOLD achieves a DER of 10.14% on the CALLHOME dataset, which is a new state-of-the-art result on this benchmark to the best of our knowledge.
翻訳日:2023-12-14 21:02:21 公開日:2023-12-13
# アンサンブル強化学習:調査

Ensemble Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.02618v3 )

ライセンス: Link先を確認
Yanjie Song, P. N. Suganthan, Witold Pedrycz, Junwei Ou, Yongming He, Yingwu Chen, Yutong Wu(参考訳) 強化学習(Reinforcement Learning, RL)は, 様々な科学的, 応用的な問題に対処するための, 極めて効果的な手法として登場した。 その成功にもかかわらず、ある複雑なタスクは単一のモデルとアルゴリズムでのみ対処することが困難である。 これに対し, アンサンブル強化学習(ERL)は, RLとアンサンブル学習(EL)の両方の利点を組み合わせた有望なアプローチであり, 広く普及している。 ERLは複数のモデルやトレーニングアルゴリズムを利用して、問題空間を包括的に探索し、強力な一般化能力を持つ。 本研究では,ERLに関する総合的な調査を行い,この分野における最近の進歩と課題について概観する。 まず、ERLの背景と動機について紹介する。 第2に、ERLで実装されたモデル選択や組み合わせのような戦略を詳細に分析する。 その後、ERLの適用、データセットの要約、採用アルゴリズムの分析について検討する。 最後に,いくつかのオープンな質問について概説し,今後のERL研究の方向性について論じる。 今後の科学研究および工学応用へのガイダンスを提供することで、この調査はerlの進歩に大きく貢献する。

Reinforcement Learning (RL) has emerged as a highly effective technique for addressing various scientific and applied problems. Despite its success, certain complex tasks remain challenging to be addressed solely with a single model and algorithm. In response, ensemble reinforcement learning (ERL), a promising approach that combines the benefits of both RL and ensemble learning (EL), has gained widespread popularity. ERL leverages multiple models or training algorithms to comprehensively explore the problem space and possesses strong generalization capabilities. In this study, we present a comprehensive survey on ERL to provide readers with an overview of recent advances and challenges in the field. Firstly, we provide an introduction to the background and motivation for ERL. Secondly, we conduct a detailed analysis of strategies such as model selection and combination that have been successfully implemented in ERL. Subsequently, we explore the application of ERL, summarize the datasets, and analyze the algorithms employed. Finally, we outline several open questions and discuss future research directions of ERL. By offering guidance for future scientific research and engineering applications, this survey significantly contributes to the advancement of ERL.
翻訳日:2023-12-14 21:01:53 公開日:2023-12-13
# 多パラメータ帯域モデルにおけるトンプソンサンプリングの非形式的事前選択

The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models ( http://arxiv.org/abs/2302.14407v2 )

ライセンス: Link先を確認
Jongyeong Lee, Chao-Kai Chiang, Masashi Sugiyama(参考訳) トンプソンサンプリング(ts)は、古典的確率的多腕バンディット問題における様々な報酬モデルに対する理論的な保証によって、優れた経験的性能で知られている。 しかしながら、その最適性はしばしば、TSが漸近的後悔境界に関して前者の選択にかなり敏感であるという共通の観察のために、特定の先行に制限される。 しかし、モデルが複数のパラメータを含む場合、tsの最適性は事前の選択に大きく依存し、他のモデルに対する以前の結果の一般化可能性に疑問を投げかける。 このギャップに対処するために、理論的な理解が欠如した新しいモデルを扱う際に、非形式的事前選択の影響について考察し、TSの性能に関する洞察を提供する。 まず、TSの残念な解析を、未知のサポートを持つ一様分布のモデルに拡張し、これは最も単純な非正規モデルとなる。 以上の結果から,他のマルチパラメータ・バンディットモデルの既知結果と一致して,非形式的先行変化が期待される後悔に大きく影響することが明らかとなった。 均一な前者は最適であることが示されるが、その最適性の本質的な制限は特定のパラメータ化に限られており、前者の不変性の重要性を強調している。 この制限に照らし合わせると、ts with truncation (ts-t) と呼ばれる少し修正された ts-based policy が提案され、これは1対1の再パラメーターの下で不変な基準 pre と jeffreys prior を用いてガウスモデルと一様モデルの漸近的最適性を達成することができる。 この方針は、最適な優先事項を探すよりもずっと容易な、微調整された切り込みを採用することで、最適性を達成するための別のアプローチを提供する。

Thompson sampling (TS) has been known for its outstanding empirical performance supported by theoretical guarantees across various reward models in the classical stochastic multi-armed bandit problems. Nonetheless, its optimality is often restricted to specific priors due to the common observation that TS is fairly insensitive to the choice of the prior when it comes to asymptotic regret bounds. However, when the model contains multiple parameters, the optimality of TS highly depends on the choice of priors, which casts doubt on the generalizability of previous findings to other models. To address this gap, this study explores the impact of selecting noninformative priors, offering insights into the performance of TS when dealing with new models that lack theoretical understanding. We first extend the regret analysis of TS to the model of uniform distributions with unknown supports, which would be the simplest non-regular model. Our findings reveal that changing noninformative priors can significantly affect the expected regret, aligning with previously known results in other multiparameter bandit models. Although the uniform prior is shown to be optimal, we highlight the inherent limitation of its optimality, which is limited to specific parameterizations and emphasizes the significance of the invariance property of priors. In light of this limitation, we propose a slightly modified TS-based policy, called TS with Truncation (TS-T), which can achieve the asymptotic optimality for the Gaussian models and the uniform models by using the reference prior and the Jeffreys prior that are invariant under one-to-one reparameterizations. This policy provides an alternative approach to achieving optimality by employing fine-tuned truncation, which would be much easier than hunting for optimal priors in practice.
翻訳日:2023-12-14 21:01:37 公開日:2023-12-13
# コンフォーメータは、視覚音声認識に必要なすべてです。

Conformers are All You Need for Visual Speech Recognition ( http://arxiv.org/abs/2302.10915v2 )

ライセンス: Link先を確認
Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan(参考訳) 視覚音声認識モデルは階層的に視覚特徴を抽出する。 下層には、唇や顔を描いた生のピクセルを処理する、限られた時間的受容野を持つ視覚フロントエンドがある。 より高いレベルでは、大きな時間的受容体の上にフロントエンドによって生成される埋め込みに対応するエンコーダがある。 従来の研究は、音声認識に有用な特徴を抽出するためにモデルの視覚的フロントエンドを改善することに重点を置いてきた。 驚くべきことに、我々の研究は複雑な視覚的フロントエンドは必要ないことを示している。 高度なビジュアルフロントエンドにリソースを割り当てる代わりに、より大規模なコンフォーマーエンコーダと組み合わせた線形ビジュアルフロントエンドが低レイテンシ、より効率的なメモリ使用量、WER性能の向上をもたらすことがわかった。 TED LRS3データセットでは、わずか4年前の音声のみのモデルのパフォーマンスに匹敵する、視覚音声認識のための12.8% WERの新たな最先端技術を実現している。

Visual speech recognition models extract visual features in a hierarchical manner. At the lower level, there is a visual front-end with a limited temporal receptive field that processes the raw pixels depicting the lips or faces. At the higher level, there is an encoder that attends to the embeddings produced by the front-end over a large temporal receptive field. Previous work has focused on improving the visual front-end of the model to extract more useful features for speech recognition. Surprisingly, our work shows that complex visual front-ends are not necessary. Instead of allocating resources to a sophisticated visual front-end, we find that a linear visual front-end paired with a larger Conformer encoder results in lower latency, more efficient memory usage, and improved WER performance. We achieve a new state-of-the-art of 12.8% WER for visual speech recognition on the TED LRS3 dataset, which rivals the performance of audio-only models from just four years ago.
翻訳日:2023-12-14 21:01:02 公開日:2023-12-13
# Fit Like You Sample: 高速混合拡散による高効率一般化スコアマッチング

Fit Like You Sample: Sample-Efficient Generalized Score Matching from Fast Mixing Diffusions ( http://arxiv.org/abs/2306.09332v3 )

ライセンス: Link先を確認
Yilong Qin, Andrej Risteski(参考訳) スコアマッチングは、比例定数(エネルギーベースモデルなど)までパラメータ化された確率分布を学習するアプローチである。 その考え方は、確率ではなく分布のスコアに合わせることであり、比例性の定数を評価する必要性を避けることである。 koehler et al. 2022 による最近の研究は、等角性(大きな poincar\'e や log-sobolev 定数)の悪い分布に対して、スコアマッチングは最大確率よりもかなり統計的に効率が低いことを示した。 しかし、例えば1次元の2つのガウスの混合のように単純であるような多様分布のような多くの自然現実的分布はポアンカルの定数が貧弱である。 本稿では,多種多様なマルコフ過程の混合時間と生成元$\mathcal{L}$との密接な関係と,$\frac{\mathcal{O} p}{p}$に収まるように適切に選択された一般化されたスコアマッチング損失との密接な関係を示す。 これにより、マルコフ連鎖を高速化する手法を適応させ、より良いスコアマッチング損失を構築することができる。 特に、'preconditioning'' の拡散はスコアロスの適切な ``preconditioning''' に変換できる。 シミュレートされたテンパリングで温度を加えることでチェーンを上昇させることで、2019年のsongやermonのようなガウス畳み込みアニーリングスコアマッチングの損失が得られる。 さらに、学習対象の分布が、共有共分散を持つ$d$次元のガウスの有限混合である場合、アニールスコアマッチングのサンプル複雑性は、周辺次元における多項式であり、平均の直径、および共分散の最小かつ最大の固有値である。

Score matching is an approach to learning probability distributions parametrized up to a constant of proportionality (e.g. Energy-Based Models). The idea is to fit the score of the distribution, rather than the likelihood, thus avoiding the need to evaluate the constant of proportionality. While there's a clear algorithmic benefit, the statistical "cost'' can be steep: recent work by Koehler et al. 2022 showed that for distributions that have poor isoperimetric properties (a large Poincar\'e or log-Sobolev constant), score matching is substantially statistically less efficient than maximum likelihood. However, many natural realistic distributions, e.g. multimodal distributions as simple as a mixture of two Gaussians in one dimension -- have a poor Poincar\'e constant. In this paper, we show a close connection between the mixing time of a broad class of Markov processes with generator $\mathcal{L}$ and an appropriately chosen generalized score matching loss that tries to fit $\frac{\mathcal{O} p}{p}$. This allows us to adapt techniques to speed up Markov chains to construct better score-matching losses. In particular, ``preconditioning'' the diffusion can be translated to an appropriate ``preconditioning'' of the score loss. Lifting the chain by adding a temperature like in simulated tempering can be shown to result in a Gaussian-convolution annealed score matching loss, similar to Song and Ermon, 2019. Moreover, we show that if the distribution being learned is a finite mixture of Gaussians in $d$ dimensions with a shared covariance, the sample complexity of annealed score matching is polynomial in the ambient dimension, the diameter of the means, and the smallest and largest eigenvalues of the covariance -- obviating the Poincar\'e constant-based lower bounds of the basic score matching loss shown in Koehler et al. 2022.
翻訳日:2023-12-14 20:54:44 公開日:2023-12-13
# 普遍ロバスト埋め込みによるカテゴリーデータの転送可能逆ロバスト性

Transferable Adversarial Robustness for Categorical Data via Universal Robust Embeddings ( http://arxiv.org/abs/2306.04064v2 )

ライセンス: Link先を確認
Klim Kireev, Maksym Andriushchenko, Carmela Troncoso, Nicolas Flammarion(参考訳) 敵対的堅牢性の研究は、主に画像とテキストデータに焦点を当てている。 しかし、堅牢性の欠如が詐欺検出、診断、レコメンダシステムといった深刻なリスクをもたらすシナリオの多くは、画像やテキストに頼らず、表形式のデータに頼っていることが多い。 表データの逆の堅牢性は2つの深刻な課題を生じさせる。 まず、表型データセットにはカテゴリ的な特徴がしばしば含まれているため、既存の最適化手順に直接取り組めない。 第二に、表領域では、ディープネットワークをベースとしないアルゴリズムが広く使われ、優れた性能を提供するが、堅牢性を高めるアルゴリズムはニューラルネットワークに適合する(例えば、敵の訓練)。 本稿では,両課題に対処する。 本稿では,表データに対して,逆ロバストな深層ネットワークを訓練し,そのロバスト性をカテゴリデータに合わせたユニバーサルロバスト埋め込みを介して他の分類器に転送する手法を提案する。 これらの埋め込みは、二段階の交互化フレームワークを用いて作成され、木やランダムな森林に移動でき、表層データに高い精度を保ちながら、敵の訓練を必要とせずに堅牢になる。 本手法は,表データに適した実用的脅威モデルにおいて,既存の手法よりも優れていることを示す。

Research on adversarial robustness is primarily focused on image and text data. Yet, many scenarios in which lack of robustness can result in serious risks, such as fraud detection, medical diagnosis, or recommender systems often do not rely on images or text but instead on tabular data. Adversarial robustness in tabular data poses two serious challenges. First, tabular datasets often contain categorical features, and therefore cannot be tackled directly with existing optimization procedures. Second, in the tabular domain, algorithms that are not based on deep networks are widely used and offer great performance, but algorithms to enhance robustness are tailored to neural networks (e.g. adversarial training). In this paper, we tackle both challenges. We present a method that allows us to train adversarially robust deep networks for tabular data and to transfer this robustness to other classifiers via universal robust embeddings tailored to categorical data. These embeddings, created using a bilevel alternating minimization framework, can be transferred to boosted trees or random forests making them robust without the need for adversarial training while preserving their high accuracy on tabular data. We show that our methods outperform existing techniques within a practical threat model suitable for tabular data.
翻訳日:2023-12-14 20:53:42 公開日:2023-12-13
# 構造化ボロノイサンプリング

Structured Voronoi Sampling ( http://arxiv.org/abs/2306.03061v2 )

ライセンス: Link先を確認
Afra Amini, Li Du, Ryan Cotterell(参考訳) 勾配に基づくサンプリングアルゴリズムは、特に制御されたテキスト生成の文脈において、テキスト生成においてその効果を実証している。 しかし、この課題には理論的に根ざした原則的なアプローチが欠如している。 本稿では,勾配法を用いて言語モデルから抽出する原理的アプローチの構築に向けて重要な一歩を踏み出す。 言語モデルによって与えられる離散分布を用いて密度を定義し、ハミルトンモンテカルロに基づくアルゴリズムを開発してそれらからサンプリングする。 グラデーションベース手法であるstructured voronoi sampling (svs) と命名する。 基準分布が知られている実験では,svsサンプルの実験的分布は,代替サンプリング方式と比較して基準分布に近いことが示されている。 さらに、制御された生成タスクでは、SVSは他の方法よりもはるかに優れた制御対象に従いながら、流動的で多様なサンプルを生成することができる。

Gradient-based sampling algorithms have demonstrated their effectiveness in text generation, especially in the context of controlled text generation. However, there exists a lack of theoretically grounded and principled approaches for this task. In this paper, we take an important step toward building a principled approach for sampling from language models with gradient-based methods. We use discrete distributions given by language models to define densities and develop an algorithm based on Hamiltonian Monte Carlo to sample from them. We name our gradient-based technique Structured Voronoi Sampling (SVS). In an experimental setup where the reference distribution is known, we show that the empirical distribution of SVS samples is closer to the reference distribution compared to alternative sampling schemes. Furthermore, in a controlled generation task, SVS is able to generate fluent and diverse samples while following the control targets significantly better than other methods.
翻訳日:2023-12-14 20:53:20 公開日:2023-12-13
# 血管セグメンテーションのための形態的エッジアテンションネットワークと最適幾何マッチング接続モデル

Morphology Edge Attention Network and Optimal Geometric Matching Connection model for vascular segmentation ( http://arxiv.org/abs/2306.01808v2 )

ライセンス: Link先を確認
Yuntao Zhu, Yuxuan Qiao, Xiaoping Yang(参考訳) 血管像の分割には、血管構造接続、枝の不足、小血管の欠如など多くの未解決の問題がある。 正しいトポロジー構造を保存する血管を得ることは、単一の血管系の全体像を提供するため、現在重要な研究課題である。 血管分割のトポロジと精度を維持するため,我々は,血管状構造のセグメンテーションのための新しいMorphology Edge Attention Network (MEA-Net) と,壊れた血管セグメントを接続するための最適幾何マッチング接続(OGMC)モデルを提案した。 mea-netは、マルチスケールで境界ボクセルを抽出する形態素演算により、エッジと小さなオブジェクトのセグメンテーションを改善するエッジアテンションモジュールを有する。 OGMCモデルは、微分幾何学からの曲線タッチの概念を用いて断片化された血管終端をフィルタリングし、最小表面を用いて血管間の最適接続順序を決定する。 最後に、与えられたリーマン計量の下で行方不明の船を修理する測地線を計算する。 本手法は, 血管破壊を効果的に抑制し, 血管枝肥大を増大させ, より正確なトポロジカル構造を持つ血管を産出する, 4つの3次元血管分節タスクの最先端の手法と比較して, 優れた, 競争的な結果が得られる。

There are many unsolved problems in vascular image segmentation, including vascular structural connectivity, scarce branches and missing small vessels. Obtaining vessels that preserve their correct topological structures is currently a crucial research issue, as it provides an overall view of one vascular system. In order to preserve the topology and accuracy of vessel segmentation, we proposed a novel Morphology Edge Attention Network (MEA-Net) for the segmentation of vessel-like structures, and an Optimal Geometric Matching Connection (OGMC) model to connect the broken vessel segments. The MEA-Net has an edge attention module that improves the segmentation of edges and small objects by morphology operation extracting boundary voxels on multi-scale. The OGMC model uses the concept of curve touching from differential geometry to filter out fragmented vessel endpoints, and then employs minimal surfaces to determine the optimal connection order between blood vessels. Finally, we calculate the geodesic to repair missing vessels under a given Riemannian metric. Our method achieves superior or competitive results compared to state-of-the-art methods on four datasets of 3D vascular segmentation tasks, both effectively reducing vessel broken and increasing vessel branch richness, yielding blood vessels with a more precise topological structure.
翻訳日:2023-12-14 20:53:06 公開日:2023-12-13
# MaxwellのDemonがウォール街へ:確率的熱力学と期待された実用性理論

Maxwell's Demon walks into Wall Street: Stochastic Thermodynamics meets Expected Utility Theory ( http://arxiv.org/abs/2306.00449v2 )

ライセンス: Link先を確認
Andres F. Ducuara, Paul Skrzypczyk, Francesco Buscemi, Peter Sidajaya, Valerio Scarani(参考訳) 熱力学と情報理論の相互作用は長い歴史があるが、その定量的表現はまだ研究されている。 我々は、期待効用理論から経済学から確率的熱力学へ道具をインポートする。 クルックスのゆらぎ関係に従う過程において、すべての$\alpha$ R\'enyi が前処理と逆処理の間で分岐していることが、リスク・アバージョン $r=\alpha-1$ のプレイヤーに対して、散逸された作業(あるいはエントロピー生産)の 'certainty equivalent'' の操作的意味を持つことを証明している。 既知の2つのケース$\alpha=1$と$\alpha=\infty$は、それぞれリスクニュートラルと極端なリスクアバースプレーヤーに関連付けられているという新しい解釈を受け取る。 新しい結果のうち、$\alpha=0$の条件は、第二法則の過渡的違反に賭けようとするリスクを問う選手の行動を記述する。 我々のアプローチは、さらに一般化されたジャージンスキー等式をもたらし、より広範な統計分岐のクラスに一般化する。

The interplay between thermodynamics and information theory has a long history, but its quantitative manifestations are still being explored. We import tools from expected utility theory from economics into stochastic thermodynamics. We prove that, in a process obeying Crooks' fluctuation relations, every $\alpha$ R\'enyi divergence between the forward process and its reverse has the operational meaning of the ``certainty equivalent'' of dissipated work (or, more generally, of entropy production) for a player with risk aversion $r=\alpha-1$. The two known cases $\alpha=1$ and $\alpha=\infty$ are recovered and receive the new interpretation of being associated to a risk-neutral and an extreme risk-averse player respectively. Among the new results, the condition for $\alpha=0$ describes the behavior of a risk-seeking player willing to bet on the transient violations of the second law. Our approach further leads to a generalized Jarzynski equality, and generalizes to a broader class of statistical divergences.
翻訳日:2023-12-14 20:52:35 公開日:2023-12-13
# 直接参照最適化:あなたの言語モデルは秘密裏にリワードモデルである

Direct Preference Optimization: Your Language Model is Secretly a Reward Model ( http://arxiv.org/abs/2305.18290v2 )

ライセンス: Link先を確認
Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn(参考訳) 大規模な教師なし言語モデル(LM)は、幅広い世界の知識とある程度の推論スキルを学習するが、教師なしの訓練の性質が全くないため、その行動の正確な制御は困難である。 このようなステアビリティを得るための既存の方法は、モデル世代における相対的な品質の人間ラベルを収集し、教師なしLMを微調整してこれらの好みに合わせる。 しかし、rlhfは複雑でしばしば不安定な手順であり、まず人間の好みを反映した報酬モデルに適合し、その後強化学習を用いて大きな教師なしlmを微調整し、元のモデルから遠ざかることなくこの推定報酬を最大化する。 本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。これにより,対応する最適ポリシーをクローズド形式で抽出し,単純な分類損失のみで標準RLHF問題を解くことができる。 私たちがDPO(Direct Preference Optimization)と呼ぶこのアルゴリズムは安定的で、性能が高く、計算量も軽量であり、微調整や重要なハイパーパラメータチューニングを行う際に、LMからサンプリングする必要がなくなる。 我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。 特に、DPOによる微調整は、世代ごとの感情を制御できるPPOベースのRLHFを超え、要約やシングルターン対話における応答品質にマッチまたは改善すると同時に、実装とトレーニングが大幅に簡単になる。

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy in closed form, allowing us to solve the standard RLHF problem with only a simple classification loss. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant, and computationally lightweight, eliminating the need for sampling from the LM during fine-tuning or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of generations, and matches or improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train.
翻訳日:2023-12-14 20:52:11 公開日:2023-12-13
# AR拡散:テキスト生成のための自己回帰拡散モデル

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation ( http://arxiv.org/abs/2305.09515v3 )

ライセンス: Link先を確認
Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen(参考訳) 拡散モデルはその優れた性能のために画像生成の分野で大きな注目を集めている。 彼らの成功は、シーケンス内のすべてのトークンを同時生成することで、最近テキスト生成に拡大された。 しかし、自然言語は画像と比較してはるかに顕著な依存性を示しており、既存の言語モデルは左から右への自己回帰アプローチで訓練されている。 自然言語の固有な逐次特性を考慮し,自己回帰拡散(AR-Diffusion)を導入する。 AR拡散(AR-Diffusion)は、右のトークンの生成が左の生成されたトークンに依存することを保証します。 この結果、左のトークンは右のトークンよりもデノイングステップが少ないため、より早く生成でき、その後右のトークンの生成に影響を与える。 テキスト要約、機械翻訳、常識生成を含む様々なテキスト生成タスクに関する一連の実験で、ar-diffusionは既存の拡散言語モデルよりも優れていることを明確に証明し、同等の結果を得るには100\times\sim600\times$であることを示した。 私たちのコードはhttps://github.com/microsoft/ProphetNet/tree/master/AR-diffusionで利用可能です。

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.
翻訳日:2023-12-14 20:51:09 公開日:2023-12-13
# StarCoder: ソースはあなたにありますか?

StarCoder: may the source be with you! ( http://arxiv.org/abs/2305.06161v2 )

ライセンス: Link先を確認
Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, Jo\~ao Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Mu\~noz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries(参考訳) コードのための大規模言語モデル(コードllms)の責任ある開発に取り組んでいるオープン科学的なコラボレーションであるbigcode communityでは、starcoderとstarcoderbaseを紹介している。 starcoderbaseは、スタックからソースされた1兆個のトークン、検査ツールとオプトアウトプロセスを備えた許容ライセンスのgithubリポジトリの大規模なコレクションでトレーニングされる。 私たちは、35B PythonトークンでStarCoderBaseを微調整し、StarCoderを作成しました。 これまでに最も包括的なCode LLMの評価を行い、StarCoderBaseが複数のプログラミング言語をサポートし、OpenAIのCode-cushman-001モデルより優れていることを示す。 さらに、StarCoderはPythonで微調整されたすべてのモデルより優れており、HumanEvalで40\%のpass@1を達成するよう促すことができる。 我々は、改良されたPIIリアクションパイプラインと新しい属性追跡ツールを含む、安全なオープンアクセスモデルリリースに向けて、いくつかの重要なステップを取り、StarCoderモデルを、より商業的に実行可能なOpen Responsible AI Modelライセンスの下で公開する。

The BigCode community, an open-scientific collaboration working on the responsible development of Large Language Models for Code (Code LLMs), introduces StarCoder and StarCoderBase: 15.5B parameter models with 8K context length, infilling capabilities and fast large-batch inference enabled by multi-query attention. StarCoderBase is trained on 1 trillion tokens sourced from The Stack, a large collection of permissively licensed GitHub repositories with inspection tools and an opt-out process. We fine-tuned StarCoderBase on 35B Python tokens, resulting in the creation of StarCoder. We perform the most comprehensive evaluation of Code LLMs to date and show that StarCoderBase outperforms every open Code LLM that supports multiple programming languages and matches or outperforms the OpenAI code-cushman-001 model. Furthermore, StarCoder outperforms every model that is fine-tuned on Python, can be prompted to achieve 40\% pass@1 on HumanEval, and still retains its performance on other programming languages. We take several important steps towards a safe open-access model release, including an improved PII redaction pipeline and a novel attribution tracing tool, and make the StarCoder models publicly available under a more commercially viable version of the Open Responsible AI Model license.
翻訳日:2023-12-14 20:50:26 公開日:2023-12-13
# Structure-CLIP:マルチモーダルな構造表現を実現するためのシーングラフ知識を目指して

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations ( http://arxiv.org/abs/2305.06152v3 )

ライセンス: Link先を確認
Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Zhou Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang(参考訳) 大規模視覚言語事前学習は、マルチモーダル理解と生成タスクにおいて大きな成果を上げている。 しかしながら、既存のメソッドは、構造化された表現、すなわちオブジェクト、属性、関係の表現を必要とする画像-テキストマッチングタスクでは、よく機能しない。 図に示すように。 〜reffig:case (a)では、モデルは『宇宙飛行士は馬に乗る』と『馬は宇宙飛行士に乗る』を区別することはできない。 これは、マルチモーダルシナリオにおける表現の学習において、構造化知識を完全に活用できないためである。 本稿では、SGK(Scene Graph Knowledge)を統合し、マルチモーダルな構造化表現を強化するエンドツーエンドフレームワークであるStructure-CLIPを提案する。 まず、シーングラフを用いて意味論的ネガティブな例の構築を導くことにより、構造化表現の学習に重点が置かれる。 さらに、SGKを入力として活用し、構造化表現をさらに強化するために知識エンハンスエンコーダ(KEE)を提案する。 提案手法の有効性を検証するため,提案手法を前述のアプローチで事前学習し,下流タスクで実験を行う。 実験の結果、Structure-CLIPはVG-AttributionとVG-Relationのデータセット上で、それぞれ12.5%と4.1%の精度でSOTA(State-of-the-art)性能を達成した。 一方, MSCOCOの結果から, 構造CLIPは汎用表現の能力を維持しつつ, 構造表現を著しく向上させることが示された。 私たちのコードはhttps://github.com/zjukg/Structure-CLIPで利用可能です。

Large-scale vision-language pre-training has achieved significant performance in multi-modal understanding and generation tasks. However, existing methods often perform poorly on image-text matching tasks that require structured representations, i.e., representations of objects, attributes, and relations. As illustrated in Fig.~reffig:case (a), the models cannot make a distinction between ``An astronaut rides a horse" and ``A horse rides an astronaut". This is because they fail to fully leverage structured knowledge when learning representations in multi-modal scenarios. In this paper, we present an end-to-end framework Structure-CLIP, which integrates Scene Graph Knowledge (SGK) to enhance multi-modal structured representations. Firstly, we use scene graphs to guide the construction of semantic negative examples, which results in an increased emphasis on learning structured representations. Moreover, a Knowledge-Enhance Encoder (KEE) is proposed to leverage SGK as input to further enhance structured representations. To verify the effectiveness of the proposed framework, we pre-train our model with the aforementioned approaches and conduct experiments on downstream tasks. Experimental results demonstrate that Structure-CLIP achieves state-of-the-art (SOTA) performance on VG-Attribution and VG-Relation datasets, with 12.5% and 4.1% ahead of the multi-modal SOTA model respectively. Meanwhile, the results on MSCOCO indicate that Structure-CLIP significantly enhances the structured representations while maintaining the ability of general representations. Our code is available at https://github.com/zjukg/Structure-CLIP.
翻訳日:2023-12-14 20:50:01 公開日:2023-12-13
# 深層学習に基づくコード検索の実態調査

Survey of Code Search Based on Deep Learning ( http://arxiv.org/abs/2305.05959v2 )

ライセンス: Link先を確認
Yutao Xie, Jiayi Lin, Hande Dong, Lei Zhang, Zhonghai Wu(参考訳) コード記述は反復的で予測可能で、さまざまなコードインテリジェンス技術の開発に刺激を与えます。 この調査は、クエリとコード間の意味的類似性を効果的に捉えて、与えられたクエリにマッチするコードを取得するためのコード検索に焦点を当てている。 複雑なセマンティクス情報を抽出可能なディープラーニングは、この分野で大きな成功を収めています。 近年,グラフニューラルネットワークや事前学習モデルなどのディープラーニング手法が,大きな進歩を遂げたコード探索に応用されている。 ディープラーニングは現在、コード検索の主要なパラダイムです。 本稿では,深層学習に基づくコード検索の包括的概要について述べる。 本稿では、クエリ/コードをベクトルにマッピングし、類似度を測定する、既存のディープラーニングベースのコード検索フレームワークについて検討する。 さらに,質問文セマンティクスモデリング,コードセマンティクスモデリング,深層学習モデルトレーニングを含むマッチングモデリングという,最先端のディープラーニングベースのコード検索を3段階のプロセスで記述する新たな分類法を提案する。 最後に、この将来的な分野における今後の研究への道のりを提案する。

Code writing is repetitive and predictable, inspiring us to develop various code intelligence techniques. This survey focuses on code search, that is, to retrieve code that matches a given query by effectively capturing the semantic similarity between the query and code. Deep learning, being able to extract complex semantics information, has achieved great success in this field. Recently, various deep learning methods, such as graph neural networks and pretraining models, have been applied to code search with significant progress. Deep learning is now the leading paradigm for code search. In this survey, we provide a comprehensive overview of deep learning-based code search. We review the existing deep learning-based code search framework which maps query/code to vectors and measures their similarity. Furthermore, we propose a new taxonomy to illustrate the state-of-the-art deep learning-based code search in a three-steps process: query semantics modeling, code semantics modeling, and matching modeling which involves the deep learning model training. Finally, we suggest potential avenues for future research in this promising field.
翻訳日:2023-12-14 20:49:30 公開日:2023-12-13
# レグレッションのロバスト不確かさ定量化のための離散化誘起ディリクレ後部

Discretization-Induced Dirichlet Posterior for Robust Uncertainty Quantification on Regression ( http://arxiv.org/abs/2308.09065v2 )

ライセンス: Link先を確認
Xuanlong Yu, Gianni Franchi, Jindong Gu, Emanuel Aldea(参考訳) 不確実性定量化は、現実世界のアプリケーションにディープニューラルネットワーク(DNN)をデプロイするために重要である。 AuxUE(Auxiliary Uncertainity Estimator)は、メインタスクモデルを変更することなく、メインタスク予測の不確かさを推定する最も効果的な方法の1つである。 強固であると考えられるためには、auxueはその性能を維持し、分散(ood)入力、すなわち強固なアレーテータと認識的不確実性をもたらすために、より高い不確実性を引き起こすことができる必要がある。 しかし、視覚回帰タスクでは、現在の auxue の設計は、主に aleatoric uncertainty estimation に採用されており、auxue robustness は検討されていない。 本研究では,回帰タスクに対するより堅牢な不確実性定量化のための一般化されたAuxUEスキームを提案する。 具体的には,よりロバストなアレエータ的不確実性推定を実現するために,ヘテロシドスティックノイズに対して異なる分布仮定を考慮し,ラプラス分布を選択して予測誤差を近似する。 認識的不確実性については,離散化誘導ディリクレ後方(dido)という新しい解を提案し,離散化予測誤差に基づいてディリクレ後方をモデル化する。 年齢推定,単眼深度推定,超解像タスクに関する広範な実験により,提案手法はノイズ入力に対して頑健な不確実性推定が可能であり,画像レベルと画素単位の両方のタスクにスケーラブルであることを示す。 コードはhttps://github.com/ENSTA-U2IS/DIDOで入手できる。

Uncertainty quantification is critical for deploying deep neural networks (DNNs) in real-world applications. An Auxiliary Uncertainty Estimator (AuxUE) is one of the most effective means to estimate the uncertainty of the main task prediction without modifying the main task model. To be considered robust, an AuxUE must be capable of maintaining its performance and triggering higher uncertainties while encountering Out-of-Distribution (OOD) inputs, i.e., to provide robust aleatoric and epistemic uncertainty. However, for vision regression tasks, current AuxUE designs are mainly adopted for aleatoric uncertainty estimates, and AuxUE robustness has not been explored. In this work, we propose a generalized AuxUE scheme for more robust uncertainty quantification on regression tasks. Concretely, to achieve a more robust aleatoric uncertainty estimation, different distribution assumptions are considered for heteroscedastic noise, and Laplace distribution is finally chosen to approximate the prediction error. For epistemic uncertainty, we propose a novel solution named Discretization-Induced Dirichlet pOsterior (DIDO), which models the Dirichlet posterior on the discretized prediction error. Extensive experiments on age estimation, monocular depth estimation, and super-resolution tasks show that our proposed method can provide robust uncertainty estimates in the face of noisy inputs and that it can be scalable to both image-level and pixel-wise tasks. Code is available at https://github.com/ENSTA-U2IS/DIDO .
翻訳日:2023-12-14 20:42:27 公開日:2023-12-13
# PMET: トランスによる精密モデル編集

PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v3 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu(参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。 既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。 彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。 しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。 既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。 これにより、モデル編集の性能が低下する。 より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。 これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。 以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。 実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。 我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。 私たちのコードはhttps://github.com/xpq-tech/pmetで利用可能です。

Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at https://github.com/xpq-tech/PMET.
翻訳日:2023-12-14 20:41:56 公開日:2023-12-13
# 選択的なシナプスダンピングを通さない高速機械学習

Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening ( http://arxiv.org/abs/2308.07707v2 )

ライセンス: Link先を確認
Jack Foster, Stefan Schoepf, Alexandra Brintrup(参考訳) 機械学習モデルを忘れることのできる機械学習は、データプライバシ規則に準拠するだけでなく、有害で操作された、あるいは時代遅れな情報を削除することがますます重要になっている。 重要な課題は、残りのデータでモデルパフォーマンスを保護しながら、特定の情報を忘れることである。 現在の最先端のメソッドはうまく機能するが、モデルのパフォーマンスを保護または復元するためには、保持されたデータに対してある程度の訓練を必要とする。 これにより、計算オーバーヘッドが増加し、トレーニングデータが引き続き利用可能でアクセス可能であることが義務付けられる。 対照的に、他の手法ではリトレインフリーのパラダイムを採用しているが、これらの手法は計算コストが禁じられ、リトレインベースの手法と同等に動作しない。 選択型シナプスダンピング(Selective Synaptic Dampening, SSD)は, 高速で, 性能が高く, 訓練データの長期保存を必要としない, 2段階, ポストホック, リトレインフリーな機械学習手法である。 まず、ssdはトレーニングのフィッシャー情報マトリクスを使い、データを忘れ、忘れセットにとって不釣り合いに重要なパラメータを選択する。 第2に、SSDは、これらのパラメータを、より広いトレーニングデータに対する忘れセットに対する相対的な重要性に比例して減衰させることで、忘れを誘導する。 resnet18 と vision transformer を用いた各種実験において,既存のアンラーニング手法に対する評価を行った。 その結果,retrain-based post hoc法とssd性能が競合することが明らかとなり,retrain-free post hoc unlearning法の有効性が示された。

Machine unlearning, the ability for a machine learning model to forget, is becoming increasingly important to comply with data privacy regulations, as well as to remove harmful, manipulated, or outdated information. The key challenge lies in forgetting specific information while protecting model performance on the remaining data. While current state-of-the-art methods perform well, they typically require some level of retraining over the retained data, in order to protect or restore model performance. This adds computational overhead and mandates that the training data remain available and accessible, which may not be feasible. In contrast, other methods employ a retrain-free paradigm, however, these approaches are prohibitively computationally expensive and do not perform on par with their retrain-based counterparts. We present Selective Synaptic Dampening (SSD), a novel two-step, post hoc, retrain-free approach to machine unlearning which is fast, performant, and does not require long-term storage of the training data. First, SSD uses the Fisher information matrix of the training and forgetting data to select parameters that are disproportionately important to the forget set. Second, SSD induces forgetting by dampening these parameters proportional to their relative importance to the forget set with respect to the wider training data. We evaluate our method against several existing unlearning methods in a range of experiments using ResNet18 and Vision Transformer. Results show that the performance of SSD is competitive with retrain-based post hoc methods, demonstrating the viability of retrain-free post hoc unlearning approaches.
翻訳日:2023-12-14 20:41:24 公開日:2023-12-13
# 実時間ニューラルネットワークのためのFPGAリソース対応構造化プルーニング

FPGA Resource-aware Structured Pruning for Real-Time Neural Networks ( http://arxiv.org/abs/2308.05170v2 )

ライセンス: Link先を確認
Benjamin Ramhorst, Vladimir Loncar, George A. Constantinides(参考訳) ニューラルネットワークは、画像分類、音声認識、科学分析、その他多くの応用分野において最先端のパフォーマンスを達成する。 ニューラルネットワークの計算複雑性とメモリフットプリントが高いため、プルーニングや量子化といった様々な圧縮技術が文献で提案されている。 プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。 しかし、プルーニングはしばしば基盤となるハードウェアの特性を捉えず、非構造的なスパーシリティと負荷バランスの非効率を引き起こすため、リソース改善のボトルネックとなる。 資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。 CERNの大型ハドロン衝突型加速器におけるサブミクロ秒粒子分類や高速画像分類などのタスクに基づいて,提案手法はDSP利用の55%から92%,BRAM利用の81%の削減を実現する。

Neural networks achieve state-of-the-art performance in image classification, speech recognition, scientific analysis and many more application areas. Due to the high computational complexity and memory footprint of neural networks, various compression techniques, such as pruning and quantization, have been proposed in literature. Pruning sparsifies a neural network, reducing the number of multiplications and memory. However, pruning often fails to capture properties of the underlying hardware, causing unstructured sparsity and load-balance inefficiency, thus bottlenecking resource improvements. We propose a hardware-centric formulation of pruning, by formulating it as a knapsack problem with resource-aware tensor structures. Evaluated on a range of tasks, including sub-microsecond particle classification at CERN's Large Hadron Collider and fast image classification, the proposed method achieves reductions ranging between 55% and 92% in the DSP utilization and up to 81% in BRAM utilization.
翻訳日:2023-12-14 20:40:55 公開日:2023-12-13
# PUG:表現学習のためのフォトリアリスティックでセマンティックに制御可能な合成データ

PUG: Photorealistic and Semantically Controllable Synthetic Data for Representation Learning ( http://arxiv.org/abs/2308.03977v2 )

ライセンス: Link先を確認
Florian Bordes, Shashank Shekhar, Mark Ibrahim, Diane Bouchacourt, Pascal Vincent, Ari S. Morcos(参考訳) 合成画像データセットは、ディープニューラルネットワークの設計と評価に不整合な利点を提供する。 i) 必要なだけ多くのデータサンプルをレンダリングする。 (ii)各場面を精密に制御し、細かな地上真理ラベル(及びキャプション)を付与する。 (iii)音実験の興味のある変数を分離するために、トレーニングとテストの間における分布の正確な制御を行う。 このような約束にもかかわらず、合成画像データの使用は、主に現実主義が欠如しているため、依然として制限されている。 それゆえ、ほとんどの作品は実際の画像のデータセットに依存しており、それはインターネット上の公開画像からしばしば取り除かれており、プライバシー、バイアス、著作権に関して問題があり、オブジェクトが正確にどのように現れるかはほとんど制御できない。 本研究では,フォトリアリスティックな合成データの利用を民主化する手法を提案する。我々は,制御可能性と現実性の両方を提供する表現学習研究のための新しい世代の対話環境を開発する。 私たちはエンタテインメント業界でよく知られた強力なゲームエンジンであるunreal engineを使用して、表現学習のためにpug(photorealistic unreal graphics)環境とデータセットを作成しています。 本稿では,より厳密な視覚モデル評価を可能にするPUGの可能性を示す。

Synthetic image datasets offer unmatched advantages for designing and evaluating deep neural networks: they make it possible to (i) render as many data samples as needed, (ii) precisely control each scene and yield granular ground truth labels (and captions), (iii) precisely control distribution shifts between training and testing to isolate variables of interest for sound experimentation. Despite such promise, the use of synthetic image data is still limited -- and often played down -- mainly due to their lack of realism. Most works therefore rely on datasets of real images, which have often been scraped from public images on the internet, and may have issues with regards to privacy, bias, and copyright, while offering little control over how objects precisely appear. In this work, we present a path to democratize the use of photorealistic synthetic data: we develop a new generation of interactive environments for representation learning research, that offer both controllability and realism. We use the Unreal Engine, a powerful game engine well known in the entertainment industry, to produce PUG (Photorealistic Unreal Graphics) environments and datasets for representation learning. In this paper, we demonstrate the potential of PUG to enable more rigorous evaluations of vision models.
翻訳日:2023-12-14 20:40:36 公開日:2023-12-13
# 高オーバトンバルク共振器とフォトニック回路の統合による双方向マイクロ波光伝送

Bidirectional microwave-optical transduction based on integration of high-overtone bulk acoustic resonators and photonic circuits ( http://arxiv.org/abs/2308.02706v2 )

ライセンス: Link先を確認
Terence Bl\'esin, Wil Kao, Anat Siddharth, Rui N. Wang, Alaina Attanasio, Hao Tian, Sunil A. Bhave, Tobias J. Kippenberg(参考訳) マイクロ波と光周波数のコヒーレントな相互変換は、計算、通信、センシングのための古典的および量子的インターフェースとして機能する。 本稿では,窒化ケイ素フォトニック回路上に圧電アクチュエータを一体化した小型マイクロ波光変換器を提案する。 このようなアクチュエータは、マイクロ波信号を光導波路コアの懸濁シリカクラディングによって定義される高オーバートンバルク音響共振器に直接結合し、電気機械的および光学的結合が強化される。 室温では、この三重共振型圧電オプトメカニカルトランスデューサは、入力ポンプパワー21dBmで、25MHzの帯域上で−48dBのオフチップ光子数変換効率を達成する。 このアプローチは製造にスケーラブルであり、既存の電気光学トランスデューサとは異なり、超伝導共振器に依存しない。 トランスダクションプロセスは双方向であるため、純粋な光入力からのマイクロ波パルスの合成をさらに実証する。 トランスダクションに複数の音響モードを利用する能力と組み合わせて、このプラットフォームは、周波数多重量子ビット配線とマイクロ波フォトニクスを大規模に構築するための展望を提供する。

Coherent interconversion between microwave and optical frequencies can serve as both classical and quantum interfaces for computing, communication, and sensing. Here, we present a compact microwave-optical transducer based on monolithic integration of piezoelectric actuators atop silicon nitride photonic circuits. Such an actuator directly couples microwave signals to a high-overtone bulk acoustic resonator defined by the suspended silica cladding of the optical waveguide core, which leads to enhanced electromechanical and optomechanical couplings. At room temperature, this triply resonant piezo-optomechanical transducer achieves an off-chip photon number conversion efficiency of -48 dB over a bandwidth of 25 MHz at an input pump power of 21 dBm. The approach is scalable in manufacturing and, unlike existing electro-optic transducers, does not rely on superconducting resonators. As the transduction process is bidirectional, we further demonstrate synthesis of microwave pulses from a purely optical input. Combined with the capability of leveraging multiple acoustic modes for transduction, the present platform offers prospects for building frequency-multiplexed qubit interconnects and for microwave photonics at large.
翻訳日:2023-12-14 20:40:15 公開日:2023-12-13
# Big Data -- 予測のためのサプライチェーン管理フレームワーク: データ前処理と機械学習技術

Big Data -- Supply Chain Management Framework for Forecasting: Data Preprocessing and Machine Learning Techniques ( http://arxiv.org/abs/2307.12971v2 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, Jungpil Shin, Istiyaque Ahmed Ridoy, Yoichi Tomioka, and M. F. Mridha(参考訳) 本稿は,最先端サプライチェーン(sc)の予測戦略と技術を体系的に同定し,比較分析することを目的とする。 sc管理(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)にビッグデータ分析(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)を組み込んだ新しいフレームワークが提案されている。 当初、sc戦略に従ってデータを収集する必要性と収集方法が議論されてきた。 本稿は、期間やSCの目的に応じて異なるタイプの予測の必要性について論じる。 SC KPIとエラー測定システムは、最高性能モデルを最適化するために推奨されている。 モデル性能パラメータの決定と運用管理,透明性,計画効率の向上のために,ファントム在庫の予測および管理決定のSC KPIへの依存に対する悪影響を概説した。 フレームワーク内の循環接続は、プロセス後KPIに基づいて前処理の最適化を導入し、全体的な制御プロセス(発明的管理、労働決定、コスト、生産、容量計画)を最適化する。 この研究の貢献は、標準のSCプロセスフレームワークの提案、予測データ分析の推奨、SCパフォーマンスの予測効果、機械学習アルゴリズムの最適化、そして将来の研究への光の遮蔽にある。

This article intends to systematically identify and comparatively analyze state-of-the-art supply chain (SC) forecasting strategies and technologies. A novel framework has been proposed incorporating Big Data Analytics in SC Management (problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization), forecasting effects on human-workforce, inventory, and overall SC. Initially, the need to collect data according to SC strategy and how to collect them has been discussed. The article discusses the need for different types of forecasting according to the period or SC objective. The SC KPIs and the error-measurement systems have been recommended to optimize the top-performing model. The adverse effects of phantom inventory on forecasting and the dependence of managerial decisions on the SC KPIs for determining model performance parameters and improving operations management, transparency, and planning efficiency have been illustrated. The cyclic connection within the framework introduces preprocessing optimization based on the post-process KPIs, optimizing the overall control process (inventory management, workforce determination, cost, production and capacity planning). The contribution of this research lies in the standard SC process framework proposal, recommended forecasting data analysis, forecasting effects on SC performance, machine learning algorithms optimization followed, and in shedding light on future research.
翻訳日:2023-12-14 20:39:56 公開日:2023-12-13
# TwinLiteNet:自動運転車における走行可能エリアとレーンセグメンテーションのための効率的軽量モデル

TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars ( http://arxiv.org/abs/2307.10705v5 )

ライセンス: Link先を確認
Quang Huy Che and Dinh Phuc Nguyen and Minh Quan Pham and Duc Khai Lam(参考訳) セマンティックセグメンテーションは、周囲の環境を理解するための自律運転において一般的な課題である。 運転可能なエリアセグメンテーションとレーン検出は、道路上の安全かつ効率的なナビゲーションに特に重要である。 しかし、オリジナルのセマンティクスセグメンテーションモデルは計算コストが高く、ハイエンドハードウェアを必要とするため、自動運転車の組み込みシステムでは実現不可能である。 本稿では,運転可能領域と車線区分の軽量モデルを提案する。 TwinLiteNetは安価に設計されているが、正確で効率的なセグメンテーション結果が得られる。 bdd100kデータセット上でtwinlitenetを評価し,現代的なモデルと比較する。 実験の結果,twinlitenetは既存の手法と同様に動作し,計算資源が大幅に少ないことがわかった。 具体的には、twinlitenet はdrivable area task の91.3%、レーン検出タスクの31.08% iou を 0.4 million のパラメータで達成し、gpu rtx a5000 で 415 fps を達成した。 さらにtwinlitenetは、jetson xavier nxで60fpsを達成したため、計算能力に制限のある組み込みデバイス上でリアルタイムに動作し、自動運転車にとって理想的なソリューションとなる。 コードは url{https://github.com/chequanghuy/TwinLiteNet} で入手できる。

Semantic segmentation is a common task in autonomous driving to understand the surrounding environment. Driveable Area Segmentation and Lane Detection are particularly important for safe and efficient navigation on the road. However, original semantic segmentation models are computationally expensive and require high-end hardware, which is not feasible for embedded systems in autonomous vehicles. This paper proposes a lightweight model for the driveable area and lane line segmentation. TwinLiteNet is designed cheaply but achieves accurate and efficient segmentation results. We evaluate TwinLiteNet on the BDD100K dataset and compare it with modern models. Experimental results show that our TwinLiteNet performs similarly to existing approaches, requiring significantly fewer computational resources. Specifically, TwinLiteNet achieves a mIoU score of 91.3% for the Drivable Area task and 31.08% IoU for the Lane Detection task with only 0.4 million parameters and achieves 415 FPS on GPU RTX A5000. Furthermore, TwinLiteNet can run in real-time on embedded devices with limited computing power, especially since it achieves 60FPS on Jetson Xavier NX, making it an ideal solution for self-driving vehicles. Code is available: url{https://github.com/chequanghuy/TwinLiteNet}.
翻訳日:2023-12-14 20:39:28 公開日:2023-12-13
# 新しい量子機械学習アルゴリズム:量子条件マスター方程式に触発された分割隠れ量子マルコフモデル

A new quantum machine learning algorithm: split hidden quantum Markov model inspired by quantum conditional master equation ( http://arxiv.org/abs/2307.08640v4 )

ライセンス: Link先を確認
Xiao-Yu Li, Qin-Sheng Zhu, Yong Hu, Hao Wu, Guo-Wu Yang, Lian-Hui Yu, Geng Chen(参考訳) 隠れマルコフモデル(hidden quantum markov model, hqmm)は、時系列データの解析や量子領域の確率過程の研究において、古典的な隠れマルコフモデルよりも高い精度と効率性を持つ。 本稿では,量子システムの内部状態間の相互接続を実証するために,条件付きマスター方程式を微細なバランス条件で利用し,隠れ量子マルコフ過程を実装するための分割HQMM(SHQMM)を提案する。 実験結果から,本モデルは従来のモデルよりも性能とロバスト性において優れていることが示唆された。 さらに,量子条件マスター方程式をHQMMに関連付けることで,HQMMのパラメータを解く新しい学習アルゴリズムを構築した。 最後に,本研究では,量子輸送系がHQMMの物理表現とみなすことができることを示す。 shqmmと付随するアルゴリズムは、物理的に実装された量子システムと時系列を分析する新しい手法である。

The Hidden Quantum Markov Model (HQMM) has significant potential for analyzing time-series data and studying stochastic processes in the quantum domain due to its greater accuracy and efficiency than the classical hidden Markov model. In this paper, we introduced the split HQMM (SHQMM) for implementing the hidden quantum Markov process, utilizing the conditional master equation with a fine balance condition to demonstrate the interconnections among the internal states of the quantum system. The experimental results suggest that our model outperforms previous models in terms of performance and robustness. Additionally, we establish a new learning algorithm to solve parameters in HQMM by relating the quantum conditional master equation to the HQMM. Finally, our study provides clear evidence that the quantum transport system can be considered a physical representation of HQMM. The SHQMM with accompanying algorithms present a novel method to analyze quantum systems and time series grounded in physical implementation.
翻訳日:2023-12-14 20:39:06 公開日:2023-12-13
# LLQL: 強化学習のためのロジスティックなQラーニング

LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning ( http://arxiv.org/abs/2307.02345v4 )

ライセンス: Link先を確認
Outongyi Lv and Bingxin Zhou(参考訳) 現代の強化学習(RL)はオンラインとオフラインに分類できる。 オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。 本研究は,ベルマン方程式の繰り返し探索を通じてベルマン近似誤差の分布を考察し,ベルマン誤差がロジスティック分布にほぼ従うことを観測する。 そこで本研究では,ベルマン誤差の正規分布を仮定した平均二乗誤差 (mseloss) の代替としてロジスティック最大度関数 (lloss) を用いることを提案した。 様々なオンライン・オフライン環境における数値実験を通じて仮説を検証した。 特に,様々なrlベースライン法における損失関数にロジスティック補正を適用し,llossによる結果がmseよりも一貫して優れていた。 また,ロジスティック分布の信頼性を確認するためにKolmogorov-Smirnov試験を行った。 さらに,本理論は分布に基づく解析を行うことで,ベルマン誤差と比例報酬スケーリング現象を結びつけるものである。 さらに,ロジスティック分布からのサンプリングにバイアス分散分解を適用した。 この研究の理論的、実証的な洞察は、ベルマン誤差の分布を中心とした将来の研究と強化の貴重な基礎を築いた。

Modern reinforcement learning (RL) can be categorized into online and offline variants. As a pivotal aspect of both online and offline RL, current research on the Bellman equation revolves primarily around optimization techniques and performance enhancement rather than exploring the inherent structural properties of the Bellman error, such as its distribution characteristics. This study investigates the distribution of the Bellman approximation error through iterative exploration of the Bellman equation with the observation that the Bellman error approximately follows the Logistic distribution. Based on this, we proposed the utilization of the Logistic maximum likelihood function (LLoss) as an alternative to the commonly used mean squared error (MSELoss) that assumes a Normal distribution for Bellman errors. We validated the hypotheses through extensive numerical experiments across diverse online and offline environments. In particular, we applied the Logistic correction to loss functions in various RL baseline methods and observed that the results with LLoss consistently outperformed the MSE counterparts. We also conducted the Kolmogorov-Smirnov tests to confirm the reliability of the Logistic distribution. Moreover, our theory connects the Bellman error to the proportional reward scaling phenomenon by providing a distribution-based analysis. Furthermore, we applied the bias-variance decomposition for sampling from the Logistic distribution. The theoretical and empirical insights of this study lay a valuable foundation for future investigations and enhancements centered on the distribution of Bellman error.
翻訳日:2023-12-14 20:38:48 公開日:2023-12-13
# causalvlr:ビジュアル言語因果推論のためのツールボックスとベンチマーク

CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning ( http://arxiv.org/abs/2306.17462v2 )

ライセンス: Link先を確認
Yang Liu, Weixing Chen, Guanbin Li, Liang Lin(参考訳) 本稿では,VQA,画像/画像キャプション,医療報告生成,モデル一般化,ロバストネスなど,さまざまな視覚言語推論タスクに対する,最先端の因果関係発見と因果推論手法の豊富なオープンソースツールボックスであるCausalVLRについて述べる。 これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。 トレーニングや推論コードを含むだけでなく、モデルの重み付けも提供する。 このツールボックスは、最も完全なビジュアル言語因果推論ツールボックスであると考えています。 ツールボックスとベンチマークは、既存のメソッドを再実装し、独自の因果推論方法を開発する柔軟なツールキットを提供することで、成長する研究コミュニティに役立てることを望む。 コードとモデルはhttps://github.com/HCPLab-SYSU/CausalVLRで入手できる。 このプロジェクトは現在,hcp-labのコントリビュータによって活発に開発されています。

We present CausalVLR (Causal Visual-Linguistic Reasoning), an open-source toolbox containing a rich set of state-of-the-art causal relation discovery and causal inference methods for various visual-linguistic reasoning tasks, such as VQA, image/video captioning, medical report generation, model generalization and robustness, etc. These methods have been included in the toolbox with PyTorch implementations under NVIDIA computing system. It not only includes training and inference codes, but also provides model weights. We believe this toolbox is by far the most complete visual-linguitic causal reasoning toolbox. We wish that the toolbox and benchmark could serve the growing research community by providing a flexible toolkit to re-implement existing methods and develop their own new causal reasoning methods. Code and models are available at https://github.com/HCPLab-SYSU/CausalVLR. The project is under active development by HCP-Lab's contributors and we will keep this document updated.
翻訳日:2023-12-14 20:38:30 公開日:2023-12-13
# 2クラス依存サイクルのアンタングリングパターンに関する実証的研究

An Empirical Study of Untangling Patterns of Two-Class Dependency Cycles ( http://arxiv.org/abs/2306.10599v2 )

ライセンス: Link先を確認
Qiong Feng, Shuwen Liu, Huan Ji, Xiaotian Ma, Peng Liang(参考訳) 依存性のサイクルは、ソフトウェアの品質と保守性に大きな課題をもたらします。 しかし、実際のシナリオにおいて、実践者が依存性のサイクルをどのように解決するかの理解は限られている。 本稿では,ソフトウェア開発者が2つのクラス間の依存性サイクルを実際に解決するための繰り返しパターンについて,実証的研究を行った。 さまざまなドメインにわたる38のオープンソースプロジェクトのデータを分析し,数百のサイクルアンタングリングケースを手作業で調査した。 私たちの調査によると、開発者は依存性サイクルに対処するために5つの繰り返しパターンを使う傾向があります。 選択されたパターンは、巡回クラス間の依存関係関係によって決定されるだけでなく、その設計コンテキスト、すなわち、巡回クラスが隣のクラスに依存するか、あるいは依存するかに非常に関係している。 この経験的研究を通じて、開発者がサイクルのハンドリングで通常採用する3つの一般的な直感的ソリューションを発見した。 これらの繰り返しのパターンと、依存性サイクルのプラクティスに見られる一般的な直観に反する解決策は、開発者の意識を高めるための分類法となり、ソフトウェア工学の学生や経験の浅い開発者のための教材としても使われる。 また,依存性サイクルの内部構造を考慮することに加えて,自動ツールが依存関係サイクルのリファクタリングを支援するために,サイクルの設計コンテキストを考慮する必要があることも示唆した。

Dependency cycles pose a significant challenge to software quality and maintainability. However, there is limited understanding of how practitioners resolve dependency cycles in real-world scenarios. This paper presents an empirical study investigating the recurring patterns employed by software developers to resolve dependency cycles between two classes in practice. We analyzed the data from 38 open-source projects across different domains and manually inspected hundreds of cycle untangling cases. Our findings reveal that developers tend to employ five recurring patterns to address dependency cycles. The chosen patterns are not only determined by dependency relations between cyclic classes, but also highly related to their design context, i.e., how cyclic classes depend on or are depended by their neighbor classes. Through this empirical study, we also discovered three common counterintuitive solutions developers usually adopted during cycles' handling. These recurring patterns and common counterintuitive solutions observed in dependency cycles' practice can serve as a taxonomy to improve developers' awareness and also be used as learning materials for students in software engineering and inexperienced developers. Our results also suggest that, in addition to considering the internal structure of dependency cycles, automatic tools need to consider the design context of cycles to provide better support for refactoring dependency cycles.
翻訳日:2023-12-14 20:37:46 公開日:2023-12-13
# Selenite: 大規模言語モデルから取り除かれた包括的概要を備えたオンラインセンスメイキング

Selenite: Scaffolding Online Sensemaking with Comprehensive Overviews Elicited from Large Language Models ( http://arxiv.org/abs/2310.02161v2 )

ライセンス: Link先を確認
Michael Xieyang Liu, Tongshuang Wu, Tianying Chen, Franklin Mingzhe Li, Aniket Kittur, Brad A. Myers(参考訳) 不慣れなドメインでのセンス作成は困難であり、さまざまな基準に関して異なる選択肢を比較するためにかなりのユーザ努力を必要とする。 以前の調査やフォーマティブな調査では、前もって有用な基準を含む情報空間の概観を読むことで、人々が恩恵を受けることが分かった。 しかし、既存のセンスメイキングツールは"コールドスタート"問題に苦しむ -- これらの概要を生成し共有するために、以前のユーザからかなりのインプットを必要とするだけでなく、そのような概要は偏りがあり不完全である可能性がある。 本研究では,LLMを推論機や知識検索機として活用し,ユーザの感覚形成過程を飛躍させるための選択肢と基準の包括的概要を自動生成する,新しいシステムであるSeleniteを紹介する。 次に、Seleniteは、ユーザーが慣れていない情報を体系的かつパーソナライズされた方法で見つけ、読み、ナビゲートするのを助ける。 3つの研究を通して,Seleniteは正確かつ高品質な概要を確実に生成し,ユーザの情報処理を著しく促進し,全体的な理解とセンスメイキング体験を効果的に改善した。

Sensemaking in unfamiliar domains can be challenging, demanding considerable user effort to compare different options with respect to various criteria. Prior research and our formative study found that people would benefit from reading an overview of an information space upfront, including the criteria others previously found useful. However, existing sensemaking tools struggle with the "cold-start" problem -- not only requiring significant input from previous users to generate and share these overviews, but also that such overviews may turn out to be biased and incomplete. In this work, we introduce a novel system, Selenite, which leverages LLMs as reasoning machines and knowledge retrievers to automatically produce a comprehensive overview of options and criteria to jumpstart users' sensemaking processes. Subsequently, Selenite also adapts as people use it, helping users find, read, and navigate unfamiliar information in a systematic yet personalized manner. Through three studies, we found that Selenite produced accurate and high-quality overviews reliably, significantly accelerated users' information processing, and effectively improved their overall comprehension and sensemaking experience.
翻訳日:2023-12-14 20:30:43 公開日:2023-12-13
# ScaLearn: スケール学習によるシンプルかつ高パラメータ効率なタスク転送

ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale ( http://arxiv.org/abs/2310.01217v2 )

ライセンス: Link先を確認
Markus Frohmann, Carolin Holtermann, Shahed Masoudian, Anne Lauscher, Navid Rekabsaz(参考訳) マルチタスク学習(MTL)は、特に事前学習言語モデル(PLM)を使用する場合、かなり実用的な利点を示している。 これは、共同最適化手順の下で$n$タスクを同時に学習することで、一般的に達成されるが、AdapterFusionのような最近の手法は、問題を2つの異なる段階に構造化する。 (i)タスク学習、あるタスクに固有の知識が一連のパラメータ(例えばアダプタ)にカプセル化されている場合、及び (ii)転送、この既に学習済みの知識を対象タスクに活用する。 この懸念の分離は、再利用可能性の促進、データのプライバシと社会的な懸念を伴うケースへの対処など、多くのメリットを提供する。 本稿では,転送学習において,ソースアダプタの出力表現を線形にスケールするの有用性を活用して,この問題に対処する。 ScaLearnは、目的タスクへの効果的な知識伝達を可能にする最小限のスケーリングパラメータ集合を学習することにより、ソースタスクの知識を活用するシンプルで高パラメータ効率の2段階MTL手法である。 3つのベンチマーク(glue,superglue,humset)による実験では,2段階mtlのメリットに加えて,少ない転送パラメータ(adaptorfusionの約0.35%)で強いベースラインを一貫して上回っています。 注目すべきは、ScaLearnは、均一なスケーリングと層共有によってパラメータを減らしても、その強力な能力を維持し、ターゲットタスクごとにたった8ドルの転送パラメータで、同様の競合的な結果が得られることだ。 提案手法は,より効率的なタスク転送の約束として,単純なスケーリングの能力を示す。

Multi-task learning (MTL) has shown considerable practical benefits, particularly when using pre-trained language models (PLMs). While this is commonly achieved by simultaneously learning $n$ tasks under a joint optimization procedure, recent methods such as AdapterFusion structure the problem into two distinct stages: (i) task learning, where knowledge specific to a task is encapsulated within sets of parameters (e.g., adapters), and (ii) transfer, where this already learned knowledge is leveraged for a target task. This separation of concerns provides numerous benefits, such as promoting reusability, and addressing cases involving data privacy and societal concerns; on the flip side, current two-stage MTL methods come with the cost of introducing a substantial number of additional parameters. In this work, we address this issue by leveraging the usefulness of linearly scaling the output representations of source adapters for transfer learning. We introduce ScaLearn, a simple and highly parameter-efficient two-stage MTL method that capitalizes on the knowledge of the source tasks by learning a minimal set of scaling parameters that enable effective knowledge transfer to a target task. Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) show that our ScaLearn, in addition to facilitating the benefits of two-stage MTL, consistently outperforms strong baselines with only a small number of transfer parameters - roughly 0.35% of those of AdapterFusion. Remarkably, we observe that ScaLearn maintains its strong abilities even when further reducing parameters through uniform scaling and layer-sharing, achieving similarly competitive results with only $8$ transfer parameters for each target task. Our proposed approach thus demonstrates the power of simple scaling as a promise for more efficient task transfer.
翻訳日:2023-12-14 20:30:21 公開日:2023-12-13
# 細粒度視覚分類のためのマルチモーダルプロンプトへの展開

Delving into Multimodal Prompting for Fine-grained Visual Classification ( http://arxiv.org/abs/2309.08912v2 )

ライセンス: Link先を確認
Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li(参考訳) 細粒度視覚分類(英語版)(fgvc)は、より広いカテゴリ内の細部を分類することであり、微妙なクラス間格差と大きなクラス内変異のために問題を引き起こす。 しかし、一般的なアプローチは主に一様視覚概念に焦点を当てている。 事前学習された視覚言語モデルの最近の進歩は、様々なハイレベルな視覚タスクにおいて顕著な性能を示しているが、そのようなモデルがFGVCタスクに適用可能であるかどうかは不明だ。 本稿では,FGVCタスクに取り組むためのクロスモーダル記述の能力をフル活用することを目的として,CLIPモデルに基づく,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。 我々のMP-FGVCはマルチモーダルプロンプトスキームとマルチモーダル適応スキームからなる。 前者にはssvp(subcategory-specific vision prompt)とdatp(discrepancy-aware text prompt)が含まれており、視覚と言語の両方の観点から、サブカテゴリ固有の不一致を明確に強調している。 後者は、共通意味空間におけるビジョンとテキストの要素を協調させ、FGVCのさらなる改善のためにビジョン・ランゲージ・フュージョン・モジュール(VLFM)による相互協調推論を促進する。 さらに、MP-FGVCの2段階最適化戦略を調整し、事前学習したCLIPモデルを完全に活用し、FGVCの効率的な適応を高速化する。 4つのFGVCデータセットを用いた大規模な実験により,MP-FGVCの有効性が示された。

Fine-grained visual classification (FGVC) involves categorizing fine subdivisions within a broader category, which poses challenges due to subtle inter-class discrepancies and large intra-class variations. However, prevailing approaches primarily focus on uni-modal visual concepts. Recent advancements in pre-trained vision-language models have demonstrated remarkable performance in various high-level vision tasks, yet the applicability of such models to FGVC tasks remains uncertain. In this paper, we aim to fully exploit the capabilities of cross-modal description to tackle FGVC tasks and propose a novel multimodal prompting solution, denoted as MP-FGVC, based on the contrastive language-image pertaining (CLIP) model. Our MP-FGVC comprises a multimodal prompts scheme and a multimodal adaptation scheme. The former includes Subcategory-specific Vision Prompt (SsVP) and Discrepancy-aware Text Prompt (DaTP), which explicitly highlights the subcategory-specific discrepancies from the perspectives of both vision and language. The latter aligns the vision and text prompting elements in a common semantic space, facilitating cross-modal collaborative reasoning through a Vision-Language Fusion Module (VLFM) for further improvement on FGVC. Moreover, we tailor a two-stage optimization strategy for MP-FGVC to fully leverage the pre-trained CLIP model and expedite efficient adaptation for FGVC. Extensive experiments conducted on four FGVC datasets demonstrate the effectiveness of our MP-FGVC.
翻訳日:2023-12-14 20:28:49 公開日:2023-12-13
# 最適パルス駆動を用いた耐障害スワップゲート

High-tolerance antiblockade SWAP gates using optimal pulse drivings ( http://arxiv.org/abs/2309.06013v2 )

ライセンス: Link先を確認
Wan-Xia Li, Jin-Lei Wu, Shi-Lei Su, and Jing Qian(参考訳) 位置誤差は、2つの原子間の相対的な動きの変動が反ブロッケード条件を無効にするため、レイドベルクの反ブロッケードゲートが実験的に実現できない主要な障害として扱われる。 本研究は, 高耐食性抗ブロッカドをベースとしたRydberg SWAPゲートへの進展を, 慎重に最適化されたレーザーパルスと組み合わせて報告する。 様々なパルス形状の最適化により、我々のプロトコルでは、ダブルリドバーグ状態における時間スペント量は、この位置誤差を著しく低減する「完全」アンチブロッケード条件を用いた場合に対して70\%$以上短縮できることを示した。 さらに,原子熱運動によるドップラーの劣化,レーザ強度とレーザー位相の変動,強度不均一性といった技術ノイズを考慮に入れて,ゲートのロバスト性を評価する。 他の既存のアンチブロッケードゲートのスキームと比較して、予測ゲート忠実度は様々な実験的欠陥を非常に保守的に見積もった後に0.91以上維持でき、特に$\delta V/V\approx 5.92\%$ at $T\sim20$ $\mu$K の現実的な相互作用偏差について考慮されている。 私たちの研究は、近い将来、rydberg antiblockade gatesの実験的なデモンストレーションへの道を開くものです。

Position error is treated as the leading obstacle that prevents Rydberg antiblockade gates from being experimentally realizable, because of the inevitable fluctuations in the relative motion between two atoms invalidating the antiblockade condition. In this work we report progress towards a high-tolerance antiblockade-based Rydberg SWAP gate enabled by the use of {\it modified} antiblockade condition combined with carefully-optimized laser pulses. Depending on the optimization of diverse pulse shapes our protocol shows that the amount of time-spent in the double Rydberg state can be shortened by more than $70\%$ with respect to the case using {\it perfect} antiblockade condition, which significantly reduces this position error. Moreover, we benchmark the robustness of the gate via taking account of the technical noises, such as the Doppler dephasing due to atomic thermal motion, the fluctuations in laser intensity and laser phase and the intensity inhomogeneity. As compared to other existing antiblockade-gate schemes the predicted gate fidelity is able to maintain at above 0.91 after a very conservative estimation of various experimental imperfections, especially considered for realistic interaction deviation of $\delta V/V\approx 5.92\%$ at $T\sim20$ $\mu$K. Our work paves the way to the experimental demonstration of Rydberg antiblockade gates in the near future.
翻訳日:2023-12-14 20:28:21 公開日:2023-12-13
# AmbientFlow:不完全・雑音測定による可逆生成モデル

AmbientFlow: Invertible generative models from incomplete, noisy measurements ( http://arxiv.org/abs/2309.04856v2 )

ライセンス: Link先を確認
Varun A. Kelkar, Rucha Deshpande, Arindam Banerjee, Mark A. Anastasio(参考訳) 生成モデルは、画像再構成、後部サンプリング、データ共有など、画像科学の潜在的な応用で人気を集めている。 フローベースの生成モデルは、高速で安価で多様なサンプルとともに正確な密度推定を正確に提供できるため、特に魅力的である。 しかし、そのようなモデルのトレーニングには、大規模で高品質なオブジェクトデータセットが必要である。 計算画像などのアプリケーションでは、長い取得時間や高い放射線線量などの要求により、そのようなデータを取得することは困難であることが多いが、ノイズや部分的に観察されたこれらの物体の計測はより実現可能である。 本研究では、ノイズや不完全データから直接フローベースの生成モデルを学習するフレームワークであるAmbientFlowを提案する。 変分ベイズ法を用いて,不完全データからフローベース生成モデルを構築する新しい枠組みを提案する。 広範囲な数値研究により,物体分布の学習におけるアンビエントフローの効果が示された。 画像再構成の下流推論タスクにおける AmbientFlow の有用性を示す。

Generative models have gained popularity for their potential applications in imaging science, such as image reconstruction, posterior sampling and data sharing. Flow-based generative models are particularly attractive due to their ability to tractably provide exact density estimates along with fast, inexpensive and diverse samples. Training such models, however, requires a large, high quality dataset of objects. In applications such as computed imaging, it is often difficult to acquire such data due to requirements such as long acquisition time or high radiation dose, while acquiring noisy or partially observed measurements of these objects is more feasible. In this work, we propose AmbientFlow, a framework for learning flow-based generative models directly from noisy and incomplete data. Using variational Bayesian methods, a novel framework for establishing flow-based generative models from noisy, incomplete data is proposed. Extensive numerical studies demonstrate the effectiveness of AmbientFlow in learning the object distribution. The utility of AmbientFlow in a downstream inference task of image reconstruction is demonstrated.
翻訳日:2023-12-14 20:27:57 公開日:2023-12-13
# 自己教師付き表現のマルチドメイン設定への適応

Adapting Self-Supervised Representations to Multi-Domain Setups ( http://arxiv.org/abs/2309.03999v2 )

ライセンス: Link先を確認
Neha Kalibhat, Sam Sharpe, Jeremy Goodsitt, Bayan Bruss, Soheil Feizi(参考訳) 現在の最先端の自己監督アプローチは、個々のドメインでトレーニングする場合に有効であるが、見えないドメインでは限定的な一般化を示す。 これらのモデルは、混合ドメイン上でトレーニングしてもあまり一般化せず、多様な実世界環境下でのデプロイには適さないと観察した。 そこで我々は,共有クラスの有無に関わらず,多種多様なドメインで表現学習を効果的に行うために,任意の自己教師付きエンコーダにプラグイン可能な汎用軽量ドメイン異角モジュール(ddm)を提案する。 自己監督的損失に従って事前トレーニングを行う際、DDMはドメイン不変部分とドメイン不変部分に分割することで表現空間のゆがみを強制する。 ドメインラベルが利用できない場合、DDMは擬似ドメインを見つけるために堅牢なクラスタリングアプローチを使用する。 PACS, DomainNet, WILDS などのマルチベンチマーク上で, DDM を用いた事前学習により, SimCLR, MoCo, BYOL, DINO, SimSiam, Barlow Twins といった最先端の自己教師型モデルに対して,線形探索精度を最大3.5%向上させることができることを示す。 DDMで訓練されたモデルでは、ベースラインに比べて一般化(7.4%)が著しく改善された。 したがって、ddmは、多種多様なマルチドメインデータに対して高品質で汎用的な表現を提供するために、自己教師付きエンコーダを効率的に適応させることができる。

Current state-of-the-art self-supervised approaches, are effective when trained on individual domains but show limited generalization on unseen domains. We observe that these models poorly generalize even when trained on a mixture of domains, making them unsuitable to be deployed under diverse real-world setups. We therefore propose a general-purpose, lightweight Domain Disentanglement Module (DDM) that can be plugged into any self-supervised encoder to effectively perform representation learning on multiple, diverse domains with or without shared classes. During pre-training according to a self-supervised loss, DDM enforces a disentanglement in the representation space by splitting it into a domain-variant and a domain-invariant portion. When domain labels are not available, DDM uses a robust clustering approach to discover pseudo-domains. We show that pre-training with DDM can show up to 3.5% improvement in linear probing accuracy on state-of-the-art self-supervised models including SimCLR, MoCo, BYOL, DINO, SimSiam and Barlow Twins on multi-domain benchmarks including PACS, DomainNet and WILDS. Models trained with DDM show significantly improved generalization (7.4%) to unseen domains compared to baselines. Therefore, DDM can efficiently adapt self-supervised encoders to provide high-quality, generalizable representations for diverse multi-domain data.
翻訳日:2023-12-14 20:27:43 公開日:2023-12-13
# Norm Tweaking:大規模言語モデルの高速低ビット量子化

Norm Tweaking: High-performance Low-bit Quantization of Large Language Models ( http://arxiv.org/abs/2309.02784v2 )

ライセンス: Link先を確認
Liang Li, Qingyuan Li, Bo Zhang, Xiangxiang Chu(参考訳) 大規模言語モデル(LLM)のサイズが拡大するにつれ、精度を犠牲にすることなくモデル圧縮が重要な課題となっている。 GPTQのようないくつかの量子化法は許容される4ビットの重みのみの量子化を達成するために進歩してきたが、低ビットの量子化の試みは、しばしば深刻な性能劣化をもたらす。 本稿では,現行のPTQ手法のプラグインとして利用でき,コスト効率を向上し,高精度な手法であるノルム調整手法を提案する。 本手法は, フロートに適合する量子化活性化分布の修正により, LLMの精度が容易に回復できることに着想を得たものである。 これを実現するために,キャリブレーションデータ生成とチャネル間距離制約を含む微調整戦略を慎重に設計し,正規化層の重み付けを更新し,より一般化する。 我々は,複数のオープンソース LLM を用いて,様々なデータセットに対する広範な実験を行う。 本手法は,既存のPTQ法を超越して,重量のみの量子化と重量と活性化の連成量子化の両面で有意な改善を示す。 GLM-130B と OPT-66B では,フロート法と同程度の精度で2ビット量子化を行う。 私たちのシンプルで効果的なアプローチは、現実のアプリケーションでより実用的になります。

As the size of large language models (LLMs) continues to grow, model compression without sacrificing accuracy has become a crucial challenge for deployment. While some quantization methods, such as GPTQ, have made progress in achieving acceptable 4-bit weight-only quantization, attempts at lower-bit quantization often result in severe performance degradation. In this paper, we introduce a technique called norm tweaking, which can be used as a plugin in current PTQ methods to achieve high precision while being cost-efficient. Our approach is inspired by the observation that rectifying the quantized activation distribution to match its float counterpart can readily restore accuracy for LLMs. To achieve this, we carefully design a tweaking strategy that includes calibration data generation and channel-wise distance constraint to update the weights of normalization layers for better generalization. We conduct extensive experiments on various datasets using several open-sourced LLMs. Our method demonstrates significant improvements in both weight-only quantization and joint quantization of weights and activations, surpassing existing PTQ methods. On GLM-130B and OPT-66B, our method even achieves the same level of accuracy at 2-bit quantization as their float ones. Our simple and effective approach makes it more practical for real-world applications.
翻訳日:2023-12-14 20:27:13 公開日:2023-12-13
# Infinite Horizon Average Reward Markov決定過程におけるポリシー勾配アルゴリズムの回帰解析

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes ( http://arxiv.org/abs/2309.01922v2 )

ライセンス: Link先を確認
Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal(参考訳) 本稿では、無限水平平均報酬マルコフ決定過程(MDP)について考察する。 この文脈における既存の作品と区別して、我々のアプローチは一般的なポリシー勾配に基づくアルゴリズムの力を利用し、線形mdp構造を仮定する制約から解放する。 政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。 次に、提案アルゴリズムが$\tilde{\mathcal{o}}({t}^{3/4})$ regretであることを証明する。 本稿は,平均報酬シナリオの文脈において,一般パラメータ化ポリシ勾配アルゴリズムの残差計算に関する最初の研究を行ない,先駆的な試みである。

In this paper, we consider an infinite horizon average reward Markov Decision Process (MDP). Distinguishing itself from existing works within this context, our approach harnesses the power of the general policy gradient-based algorithm, liberating it from the constraints of assuming a linear MDP structure. We propose a policy gradient-based algorithm and show its global convergence property. We then prove that the proposed algorithm has $\tilde{\mathcal{O}}({T}^{3/4})$ regret. Remarkably, this paper marks a pioneering effort by presenting the first exploration into regret-bound computation for the general parameterized policy gradient algorithm in the context of average reward scenarios.
翻訳日:2023-12-14 20:26:50 公開日:2023-12-13
# saturn: 大規模ディープラーニングワークロードのための最適化されたデータシステム

Saturn: An Optimized Data System for Large Model Deep Learning Workloads ( http://arxiv.org/abs/2309.01226v2 )

ライセンス: Link先を確認
Kabir Nagrecha and Arun Kumar(参考訳) GPT-3やChatGPTといった大規模言語モデルは、ディープラーニング(DL)を変革し、大衆の想像力を捉えたアプリケーションを動かしている。 これらのモデルは、様々なモダリティの分析のために、しばしば事前訓練されたベースモデルを微調整することで、ドメイン全体で急速に採用されている。 このようなモデルは、サイズと計算負荷の両方のために複数のGPUを必要とし、"モデル並列化"技術とツールの開発を推進している。 しかし、このような並列性の選択をナビゲートすることは、必要なシステムノウハウを欠く可能性のあるデータ科学者、ドメイン科学者など、DLのエンドユーザーにとって新たな負担となる。 ハイパーパラメータチューニングやレイヤ単位での微調整のために多くのモデルをトレーニングするモデル選択の必要性は、リソースの割り当てとスケジューリングという2つの負担を伴います。 本研究では,これら3つのDLユーザの負担を統一的に解決し,SPASE(Select a Parallelism, Allocate resources, Schedule)と呼ぶ共同問題として形式化する。 本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。 既存の並列化スキームのための拡張可能なテンプレートを考案し、ランタイム推定のための自動実証プロファイラと組み合わせる。 次に、SPASEをMILPとして定式化する。 また,MILPソルバの直接使用は,いくつかの基礎的ヒューリスティックスよりも有意に有効であることがわかった。 イントロスペクティブなスケジューリングアプローチで,システムランタイムをさらに最適化する。 これらの技術をすべて、サターンと呼ばれる新しいデータシステムに実装します。 ベンチマークDLワークロードによる実験では、サターンは典型的なDLよりも39~49%低いモデル選択ランタイムを達成した。

Large language models such as GPT-3 & ChatGPT have transformed deep learning (DL), powering applications that have captured the public's imagination. These models are rapidly being adopted across domains for analytics on various modalities, often by finetuning pre-trained base models. Such models need multiple GPUs due to both their size and computational load, driving the development of a bevy of "model parallelism" techniques & tools. Navigating such parallelism choices, however, is a new burden for end users of DL such as data scientists, domain scientists, etc. who may lack the necessary systems knowhow. The need for model selection, which leads to many models to train due to hyper-parameter tuning or layer-wise finetuning, compounds the situation with two more burdens: resource apportioning and scheduling. In this work, we tackle these three burdens for DL users in a unified manner by formalizing them as a joint problem that we call SPASE: Select a Parallelism, Allocate resources, and SchedulE. We propose a new information system architecture to tackle the SPASE problem holistically, representing a key step toward enabling wider adoption of large DL models. We devise an extensible template for existing parallelism schemes and combine it with an automated empirical profiler for runtime estimation. We then formulate SPASE as an MILP. We find that direct use of an MILP-solver is significantly more effective than several baseline heuristics. We optimize the system runtime further with an introspective scheduling approach. We implement all these techniques into a new data system we call Saturn. Experiments with benchmark DL workloads show that Saturn achieves 39-49% lower model selection runtimes than typical current DL practice.
翻訳日:2023-12-14 20:26:40 公開日:2023-12-13
# FaceCoresetNet: 顔認識のための微分可能なコアセット

FaceCoresetNet: Differentiable Coresets for Face Set Recognition ( http://arxiv.org/abs/2308.14075v2 )

ライセンス: Link先を確認
Gil Shapira and Yosi Keller(参考訳) セットベース顔認識では,一人の人物を示す画像やビデオの非有界集合から最も識別性の高い記述子を計算することを目的としている。 判別ディスクリプタは、所定のセットから情報を集約する際に2つのポリシーのバランスをとる。 1つ目は品質に基づくポリシーで、高品質で低画質な画像を強調する。 2つめは多様性に基づくポリシーで、セット内のユニークな画像を強調し、セット表現を圧倒するビデオクリップに見られるような、類似したイメージの複数の発生をダウンウェイトする。 この作業は、微分可能なコアセット選択問題としてフェイスセット表現をフレーム化する。 我々のモデルは、顔の品質によってパラメータ化された学習指標を用いて、品質と多様性ポリシーのバランスをとる入力セットの小さなコアセットを選択する方法を学ぶ。 選択過程は, 距離のGumbel-Softmax分布から, 微分可能でないArgmax演算を微分可能サンプリングで近似することにより実現した微分可能遠点サンプリング(FPS)である。 小さなコアセットは後に、集合全体の情報で記述子を豊かにするために、自己および横断アーキテクチャのクエリとして使われる。 我々のモデルは、入力セットサイズにおいて順序不変で線形である。 我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するための新しいSOTAを設定した。 私たちのコードは公開されています。

In set-based face recognition, we aim to compute the most discriminative descriptor from an unbounded set of images and videos showing a single person. A discriminative descriptor balances two policies when aggregating information from a given set. The first is a quality-based policy: emphasizing high-quality and down-weighting low-quality images. The second is a diversity-based policy: emphasizing unique images in the set and down-weighting multiple occurrences of similar images as found in video clips which can overwhelm the set representation. This work frames face-set representation as a differentiable coreset selection problem. Our model learns how to select a small coreset of the input set that balances quality and diversity policies using a learned metric parameterized by the face quality, optimized end-to-end. The selection process is a differentiable farthest-point sampling (FPS) realized by approximating the non-differentiable Argmax operation with differentiable sampling from the Gumbel-Softmax distribution of distances. The small coreset is later used as queries in a self and cross-attention architecture to enrich the descriptor with information from the whole set. Our model is order-invariant and linear in the input set size. We set a new SOTA to set face verification on the IJB-B and IJB-C datasets. Our code is publicly available.
翻訳日:2023-12-14 20:25:54 公開日:2023-12-13
# FigStep:タイポグラフィー・ビジュアル・プロンプトによる視覚言語モデルの脱獄

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts ( http://arxiv.org/abs/2311.05608v2 )

ライセンス: Link先を確認
Yichen Gong and Delong Ran and Jinyuan Liu and Conglei Wang and Tianshuo Cong and Anyu Wang and Sisi Duan and Xiaoyun Wang(参考訳) 人工知能生成コンテンツ(AIGC)の安全性の確保は、人工知能(AI)コミュニティにおける長年の話題であり、Large Language Models(LLM)に関連する安全性に関する懸念が広く研究されている。 近年、大きな視覚言語モデル(VLM)は、LLM上に構築されているが、追加のモダリティ(画像など)を組み込むことができるため、前例のない革命を表している。 しかしながら、VLMの安全性は体系的な評価に欠けており、基盤となるLLMの安全保証に過信がある可能性がある。 本稿では、追加のモダリティモジュールの導入が予期せぬAI安全性問題を引き起こすことを示すために、VLMに対する単純かつ効果的なジェイルブレイクアルゴリズムであるFigStepを提案する。 FigStepは、テキスト有害な指示を直接送る代わりに、有害なコンテンツを画像に変換して、VLMのテキストモジュール内の安全アライメントを回避し、一般的なAI安全ポリシーに違反した安全でない応答をVLMに誘導する。 本評価では,LLaVA,MiniGPT4,CagVLM(計6VLM)の3つのオープンソースVLMの3つのファミリが生成する46,500のモデル応答を手動で検証する。 実験の結果、FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができた。 さらに,FIgStepの手法は,すでにOCR検出器を利用して有害なクエリをフィルタリングしているGPT-4Vでもジェイルブレイクできることを示した。 とりわけ,vlmはジェイルブレイク攻撃に対して脆弱であることが明らかとなり,視覚とテキスト間の新たな安全性アライメントの必要性が浮き彫りになった。

Ensuring the safety of artificial intelligence-generated content (AIGC) is a longstanding topic in the artificial intelligence (AI) community, and the safety concerns associated with Large Language Models (LLMs) have been widely investigated. Recently, large vision-language models (VLMs) represent an unprecedented revolution, as they are built upon LLMs but can incorporate additional modalities (e.g., images). However, the safety of VLMs lacks systematic evaluation, and there may be an overconfidence in the safety guarantees provided by their underlying LLMs. In this paper, to demonstrate that introducing additional modality modules leads to unforeseen AI safety issues, we propose FigStep, a straightforward yet effective jailbreaking algorithm against VLMs. Instead of feeding textual harmful instructions directly, FigStep converts the harmful content into images through typography to bypass the safety alignment within the textual module of the VLMs, inducing VLMs to output unsafe responses that violate common AI safety policies. In our evaluation, we manually review 46,500 model responses generated by 3 families of the promising open-source VLMs, i.e., LLaVA, MiniGPT4, and CogVLM (a total of 6 VLMs). The experimental results show that FigStep can achieve an average attack success rate of 82.50% on 500 harmful queries in 10 topics. Moreover, we demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which already leverages an OCR detector to filter harmful queries. Above all, our work reveals that VLMs are vulnerable to jailbreaking attacks, which highlights the necessity of novel safety alignments between visual and textual modalities.
翻訳日:2023-12-14 20:18:19 公開日:2023-12-13
# GQKVA: クエリ、キー、値のグルーピングによるトランスフォーマーの効率的な事前トレーニング

GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys, and Values ( http://arxiv.org/abs/2311.03426v2 )

ライセンス: Link先を確認
Farnoosh Javadi, Walid Ahmed, Habib Hajimolahoseini, Foozhan Ataiefard, Mohammad Hassanpour, Saina Asani, Austin Wen, Omar Mohamed Awad, Kangling Liu, Yang Liu(参考訳) 大量トランスフォーマーベースのモデルは、遅くて計算集約的な事前学習や過度パラメトリゼーションなど、いくつかの課題に直面している。 本稿では,クエリ,キー,値のグルーピングを一般化したGQKVAという多元的手法を提案する。 GQKVAはモデルサイズを小さくしながらトランスフォーマーの事前訓練を高速化するように設計されている。 GQKVAのさまざまなバリエーションによる実験では、パフォーマンスとモデルサイズの間に明確なトレードオフが示され、リソースと時間制限に基づいてカスタマイズされた選択が可能になる。 また,より軽量で高速な代替手段があるため,従来の多頭注意アプローチが必ずしも最善の選択ではないことも示唆した。 画像分類の作業において, モデルサイズを約4%削減しつつ, 精度を約0.3%向上させたvitを用いて実験を行った。 さらに,最も攻撃的なモデル縮小実験の結果,モデルサイズが約15%削減され,精度は1%程度低下した。

Massive transformer-based models face several challenges, including slow and computationally intensive pre-training and over-parametrization. This paper addresses these challenges by proposing a versatile method called GQKVA, which generalizes query, key, and value grouping techniques. GQKVA is designed to speed up transformer pre-training while reducing the model size. Our experiments with various GQKVA variants highlight a clear trade-off between performance and model size, allowing for customized choices based on resource and time limitations. Our findings also indicate that the conventional multi-head attention approach is not always the best choice, as there are lighter and faster alternatives available. We tested our method on ViT, which achieved an approximate 0.3% increase in accuracy while reducing the model size by about 4% in the task of image classification. Additionally, our most aggressive model reduction experiment resulted in a reduction of approximately 15% in model size, with only around a 1% drop in accuracy.
翻訳日:2023-12-14 20:17:44 公開日:2023-12-13
# Biased Policy Gradient Algorithmの2次収束について

On the Second-Order Convergence of Biased Policy Gradient Algorithms ( http://arxiv.org/abs/2311.02546v2 )

ライセンス: Link先を確認
Siqiao Mu and Diego Klabjan(参考訳) 強化学習問題の目的関数は一般に高度に非凸であるため,これらのアルゴリズムが鞍点から脱出し,二階定常点に到達する保証を求める。 既存の結果は、偏りのない勾配推定器を用いたバニラポリシー勾配アルゴリズムのみを考慮するが、無限水平割引報酬設定に基づく実践的な実装は、有限水平サンプリングによりバイアスを受ける。 さらに,2次収束が確立されていないアクター批判法も,値関数の批判的近似によりバイアスを受ける。 本稿では,モンテカルロの軌道のサンプリングから算出したバニラ勾配推定器や,2ループアクター批判アルゴリズムを含む,バイアス付き政策勾配法の新しい2次解析を行い,その内部ループでは,評価パラメータがTD(0)学習による値関数の近似を改善する。 また、初期状態分布に関係なく、マルコフ連鎖上のTD(0)の収束も確立する。

Since the objective functions of reinforcement learning problems are typically highly nonconvex, we seek guarantees that these algorithms escape saddle points and arrive at second-order stationary points. Existing results only consider vanilla policy gradient algorithms with unbiased gradient estimators, but practical implementations under the infinite-horizon discounted reward setting are biased due to finite-horizon sampling. Moreover, actor-critic methods, whose second-order convergence has not yet been established, are also biased due to the critic approximation of the value function. We provide a novel second-order analysis of biased policy gradient methods, including the vanilla gradient estimator computed from Monte-Carlo sampling of trajectories as well as the double-loop actor-critic algorithm, where in the inner loop the the critic parameter improves the approximation of the value function via TD(0) learning. Separately, we also establish the convergence of TD(0) on Markov chains irrespective of initial state distribution.
翻訳日:2023-12-14 20:17:28 公開日:2023-12-13
# ゲート依存雑音下における古典影の安定性

Stability of classical shadows under gate-dependent noise ( http://arxiv.org/abs/2310.19947v2 )

ライセンス: Link先を確認
Raphael Brieger, Markus Heinrich, Ingo Roth, Martin Kliesch(参考訳) オブザーバブルの期待値は、繰り返し準備された量子状態におけるランダム化されたベースの測定結果のいわゆる古典影$\unicode{x2014}$を用いて日常的に推定される。 実際の影推定の精度を信頼するためには,現実的な雑音下での推定者の挙動を理解することが重要である。 本研究では、クリフォード回路のシミュレーションにおいて、境界安定化ノルム$\unicode{x2014}$オリジナブルのゲート依存ノイズの下で、クリフォードユニタリを含む影推定プロトコルが安定であることを証明する。 これらの可観測性については、プロトコルのサンプル複雑性が本質的にノイズのないケースと同一であることも示します。 対照的に,'magic'オブザーバブルの推定は,システム規模で指数関数的にスケールするバイアスに苦しむことを実証する。 さらに,いわゆる頑健な影は,未緩和の古典的影に比べてゲート依存ノイズの存在に大きなバイアスを生じさせることが示唆された。 それでも、より一般的なノイズ設定のために頑健な影が機能することを保証します。 技術的レベルでは、影推定に影響を及ぼす平均ノイズチャネルを特定し、よりきめ細かなノイズ誘発バイアスの制御を可能にする。

Expectation values of observables are routinely estimated using so-called classical shadows$\unicode{x2014}$the outcomes of randomized bases measurements on a repeatedly prepared quantum state. In order to trust the accuracy of shadow estimation in practice, it is crucial to understand the behavior of the estimators under realistic noise. In this work, we prove that any shadow estimation protocol involving Clifford unitaries is stable under gate-dependent noise for observables with bounded stabilizer norm$\unicode{x2014}$originally introduced in the context of simulating Clifford circuits. For these observables, we also show that the protocol's sample complexity is essentially identical to the noiseless case. In contrast, we demonstrate that estimation of `magic' observables can suffer from a bias that scales exponentially in the system size. We further find that so-called robust shadows, aiming at mitigating noise, can introduce a large bias in the presence of gate-dependent noise compared to unmitigated classical shadows. Nevertheless, we guarantee the functioning of robust shadows for a more general noise setting than in previous works. On a technical level, we identify average noise channels that affect shadow estimators and allow for a more fine-grained control of noise-induced biases.
翻訳日:2023-12-14 20:16:50 公開日:2023-12-13
# Image Super resolution Via Latent Diffusion: エキスパートのサンプリング空間と周波数拡張デコーダアプローチ

Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of Experts And Frequency-augmented Decoder Approach ( http://arxiv.org/abs/2310.12004v3 )

ライセンス: Link先を確認
Feng Luo, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang(参考訳) 近年、事前訓練されたテキストイメージモデルによって強化された拡散先行利用により、画像超解像(SR)の性能が著しく向上した。 画素ベースの拡散SRで必要とされる膨大な計算コストを軽減するため、ラテントベースの手法では特徴エンコーダを用いて画像を変換し、コンパクトなラテント空間でSR画像を生成する。 それでも、潜伏拡散の性能を制限する2つの大きな問題がある。 まず、遅延空間の圧縮は通常、再構成歪みを引き起こす。 第二に、膨大な計算コストは拡散モデルのパラメータスケールを制約する。 これらの問題を解決するため,我々はまず,周波数成分を潜在空間から画素空間へ拡張する周波数補償モジュールを提案する。 再構成歪み(特に高周波情報)は著しく低減することができる。 次に,より強力な潜在性に基づくsrを実現するために,ss-moeのサンプル空間混合モデル(ss-moe)を用いて,推定コストを大幅に増加させることなく,モデルのキャパシティを着実に向上させる手法を提案する。 これらの慎重に設計された設計は、主に調査された4倍高解像度のベンチマークの性能向上に貢献し、8倍画像SRベンチマークのような大きな倍率係数にまで拡張した。 コードはhttps://github.com/amandaluof/moe_srで入手できる。

The recent use of diffusion prior, enhanced by pre-trained text-image models, has markedly elevated the performance of image super-resolution (SR). To alleviate the huge computational cost required by pixel-based diffusion SR, latent-based methods utilize a feature encoder to transform the image and then implement the SR image generation in a compact latent space. Nevertheless, there are two major issues that limit the performance of latent-based diffusion. First, the compression of latent space usually causes reconstruction distortion. Second, huge computational cost constrains the parameter scale of the diffusion model. To counteract these issues, we first propose a frequency compensation module that enhances the frequency components from latent space to pixel space. The reconstruction distortion (especially for high-frequency information) can be significantly decreased. Then, we propose to use Sample-Space Mixture of Experts (SS-MoE) to achieve more powerful latent-based SR, which steadily improves the capacity of the model without a significant increase in inference costs. These carefully crafted designs contribute to performance improvements in largely explored 4x blind super-resolution benchmarks and extend to large magnification factors, i.e., 8x image SR benchmarks. The code is available at https://github.com/amandaluof/moe_sr.
翻訳日:2023-12-14 20:16:30 公開日:2023-12-13
# Motion2Language, Unsupervised learning of synchronized semantic motion segmentation

Motion2Language, unsupervised learning of synchronized semantic motion segmentation ( http://arxiv.org/abs/2310.10594v2 )

ライセンス: Link先を確認
Karim Radouane, Andon Tchechmedjiev, Julien Lagarde, Sylvie Ranwez(参考訳) 本稿では,動きから言語翻訳と同期のためのシーケンスアーキテクチャの構築について検討する。 この目的は、モーションキャプチャ入力を英語の自然言語記述に変換することで、記述が実行されたアクションと同期して生成され、副産物としてセマンティックセグメンテーションを可能にするが、同期されたトレーニングデータを必要としない。 本稿では,同期/ライブテキスト生成に適した局所注意の新しい定式化と,より小さなデータや同期生成に適した改良されたモーションエンコーダアーキテクチャを提案する。 標準のbleu4メトリックと単純な意味同値尺度を用いて,kitモーション言語データセット上で,個々の実験における貢献度を評価する。 フォローアップ実験では,複数の評価指標を用いて,提案手法における生成テキストの同期性を評価する。 また,アテンション機構とエンコーダアーキテクチャへのコントリビューションにより,生成したテキストの品質(BLEUとセマンティック等価性)が向上し,同期性も向上することがわかった。 私たちのコードはhttps://github.com/rd20karim/M2T-Segmentation/tree/mainで利用可能です。

In this paper, we investigate building a sequence to sequence architecture for motion to language translation and synchronization. The aim is to translate motion capture inputs into English natural-language descriptions, such that the descriptions are generated synchronously with the actions performed, enabling semantic segmentation as a byproduct, but without requiring synchronized training data. We propose a new recurrent formulation of local attention that is suited for synchronous/live text generation, as well as an improved motion encoder architecture better suited to smaller data and for synchronous generation. We evaluate both contributions in individual experiments, using the standard BLEU4 metric, as well as a simple semantic equivalence measure, on the KIT motion language dataset. In a follow-up experiment, we assess the quality of the synchronization of generated text in our proposed approaches through multiple evaluation metrics. We find that both contributions to the attention mechanism and the encoder architecture additively improve the quality of generated text (BLEU and semantic equivalence), but also of synchronization. Our code is available at https://github.com/rd20karim/M2T-Segmentation/tree/main
翻訳日:2023-12-14 20:16:08 公開日:2023-12-13
# Loci-Segmented: シーンセグメンテーション学習の改善

Loci-Segmented: Improving Scene Segmentation Learning ( http://arxiv.org/abs/2310.10410v2 )

ライセンス: Link先を確認
Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin V. Butz(参考訳) 画像やビデオからの合成シーンセグメンテーションのためのスロット指向のアプローチは、提供された背景情報やスロット割り当てに依存している。 スロットベースの位置情報とID追跡アーキテクチャであるLoci(Traub et al., ICLR 2023)をベースとしたLoci-Segmented(Loci-s)アーキテクチャを提案する。 Loci-sは動的を可能にする (i)前景識別モジュール及び背景再生成装置による背景処理 (ii)トップダウン修正オブジェクト指向ボトムアップ処理、 (iii)深さ推定生成。 また、スロット位置エンタリティ正規化機構と事前セグメンテーションネットワークにより、自動スロット割り当てを改善する。 この結果から,MOViデータセットと,シーンセグメンテーションをターゲットとした他のデータセットコレクションにおいて,優れた映像分解性能が得られた。 loci-sは、マルチオブジェクトビデオデータセットmovi-eのintersection over union(iou)スコアに対して、スロット割り当てを監督することなく、背景情報の提供なしにも、最先端の技術を上回る。 さらに、Loci-sがよく解釈可能な潜在表現を生成することを示す。 これらの表現は、基底言語、構成規則の形成、一発強化学習タスクの解決といった下流タスクを解決するための基礎モデルのような解釈可能な基盤として機能する。

Slot-oriented approaches for compositional scene segmentation from images and videos still depend on provided background information or slot assignments. We present Loci-Segmented (Loci-s) building on the slot-based location and identity tracking architecture Loci (Traub et al., ICLR 2023). Loci-s enables dynamic (i) background processing by means of a foreground identifying module and a background re-generator; (ii) top-down modified object-focused bottom-up processing; and (iii) depth estimate generation. We also improve automatic slot assignment via a slot-location-entity regularization mechanism and a prior segmentation network. The results reveal superior video decomposition performance in the MOVi datasets and in another established dataset collection targeting scene segmentation. Loci-s outperforms the state-of-the-art with respect to the intersection over union (IoU) score in the multi-object video dataset MOVi-E by a large margin and even without supervised slot assignments and without the provision of background information. We furthermore show that Loci-s generates well-interpretable latent representations. These representations may serve as a foundation-model-like interpretable basis for solving downstream tasks, such as grounding language, forming compositional rules, or solving one-shot reinforcement learning tasks.
翻訳日:2023-12-14 20:15:46 公開日:2023-12-13
# datt:クワッドローター制御のための深い適応軌道追跡

DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control ( http://arxiv.org/abs/2310.09053v3 )

ライセンス: Link先を確認
Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots(参考訳) 四元数に対する精密な任意の軌道追跡は、未知の非線形ダイナミクス、軌道不実現性、アクティベーション限界のために困難である。 これらの課題に対処するために,実世界の大きな乱れの存在下で,任意の,潜在的に不可能な軌跡を正確に追跡する学習ベースのアプローチであるDeep Adaptive Trajectory Tracking (DATT)を提案する。 DATTは、強化学習を用いたシミュレーションで訓練された新しいフィードフォワードフィードバック適応制御構造に基づいている。 実際のハードウェアにデプロイする際、DATTはクローズドループにおけるL1適応制御を用いた外乱推定器で拡張される。 DATTは、ベースラインが完全に故障する挑戦的なシナリオを含む非定常風場において、実行不可能なスムーズな軌道と不可能な軌道の両方に対して、競争適応性のある非線形およびモデル予測コントローラを著しく上回っている。 さらに、dattは、適応非線形モデル予測制御ベースラインの1/4未満の3.2ms未満の推論時間で効率的にオンライン実行することができる。

Precise arbitrary trajectory tracking for quadrotors is challenging due to unknown nonlinear dynamics, trajectory infeasibility, and actuation limits. To tackle these challenges, we present Deep Adaptive Trajectory Tracking (DATT), a learning-based approach that can precisely track arbitrary, potentially infeasible trajectories in the presence of large disturbances in the real world. DATT builds on a novel feedforward-feedback-adaptive control structure trained in simulation using reinforcement learning. When deployed on real hardware, DATT is augmented with a disturbance estimator using L1 adaptive control in closed-loop, without any fine-tuning. DATT significantly outperforms competitive adaptive nonlinear and model predictive controllers for both feasible smooth and infeasible trajectories in unsteady wind fields, including challenging scenarios where baselines completely fail. Moreover, DATT can efficiently run online with an inference time less than 3.2 ms, less than 1/4 of the adaptive nonlinear model predictive control baseline
翻訳日:2023-12-14 20:15:21 公開日:2023-12-13
# 問合せ型オブジェクト検出のための局所領域に着目して

Focus on Local Regions for Query-based Object Detection ( http://arxiv.org/abs/2310.06470v2 )

ライセンス: Link先を確認
Hongbin Xu, Yamei Xia, Shuai Zhao, Bo Cheng(参考訳) クエリベースの手法は、先駆的なクエリベースの検出器であるDETRの出現以来、オブジェクト検出に大きな注目を集めてきた。 しかし、これらの手法は低収束や準最適性能といった課題に直面している。 特に、オブジェクト検出における自己着脱は、そのグローバルな焦点によって収束を阻害することが多い。 これらの問題に対処するために,デコーダのみを有するトランスフォーマーのようなアーキテクチャであるFoLRを提案する。 我々は、グローバル領域ではなく、地域に集中させる無関係なオブジェクト間の接続を分離することで、自己着脱を改善する。 また,特徴マップからクエリの局所領域に基づく効果的な特徴を抽出する適応的サンプリング手法を設計する。 さらに、デコーダが以前の情報を保持するためのルックバック戦略と、機能とクエリを融合するfeature mixerモジュールを採用しています。 クエリベースの検出器におけるFoLRの最先端性能を実証し,収束速度と計算効率に優れていた。

Query-based methods have garnered significant attention in object detection since the advent of DETR, the pioneering query-based detector. However, these methods face challenges like slow convergence and suboptimal performance. Notably, self-attention in object detection often hampers convergence due to its global focus. To address these issues, we propose FoLR, a transformer-like architecture with only decoders. We improve the self-attention by isolating connections between irrelevant objects that makes it focus on local regions but not global regions. We also design the adaptive sampling method to extract effective features based on queries' local regions from feature maps. Additionally, we employ a look-back strategy for decoders to retain previous information, followed by the Feature Mixer module to fuse features and queries. Experimental results demonstrate FoLR's state-of-the-art performance in query-based detectors, excelling in convergence speed and computational efficiency.
翻訳日:2023-12-14 20:14:39 公開日:2023-12-13
# 結晶GFN:望ましい性質と制約を有する結晶のサンプリング

Crystal-GFN: sampling crystals with desirable properties and constraints ( http://arxiv.org/abs/2310.04925v2 )

ライセンス: Link先を確認
Mila AI4Science and Alex Hernandez-Garcia and Alexandre Duval and Alexandra Volokhova and Yoshua Bengio and Divya Sharma and Pierre Luc Carrier and Yasmine Benabed and Micha{\l} Koziarski and Victor Schmidt(参考訳) 物質発見の加速は、気候危機の緩和に大きく貢献する可能性がある。 電気触媒、超イオン伝導体、太陽電池などの新しい固体材料の発見は、例えば再生可能エネルギーの生産と貯蔵の効率を向上させる上で重要な影響を与える可能性がある。 本稿では,結晶構造の生成モデルである crystal-gfn について紹介する。 このドメインにインスパイアされたアプローチは、物理的および構造的制約を柔軟に組み込むだけでなく、目的関数として所望の物理化学的特性の任意の予測モデルを使用することを可能にする。 安定な材料を設計するには、最低生成エネルギーの候補を標的にする必要がある。 ここでは,matbenchで学習した新しいプロキシ機械学習モデルによって予測される結晶構造の原子当たりの生成エネルギーを目的とする。 その結果、Crystal-GFNは低(中間-3.1 eV/原子)で生成エネルギーが予測される非常に多様な結晶をサンプリングできることが示された。

Accelerating material discovery holds the potential to greatly help mitigate the climate crisis. Discovering new solid-state materials such as electrocatalysts, super-ionic conductors or photovoltaic materials can have a crucial impact, for instance, in improving the efficiency of renewable energy production and storage. In this paper, we introduce Crystal-GFN, a generative model of crystal structures that sequentially samples structural properties of crystalline materials, namely the space group, composition and lattice parameters. This domain-inspired approach enables the flexible incorporation of physical and structural hard constraints, as well as the use of any available predictive model of a desired physicochemical property as an objective function. To design stable materials, one must target the candidates with the lowest formation energy. Here, we use as objective the formation energy per atom of a crystal structure predicted by a new proxy machine learning model trained on MatBench. The results demonstrate that Crystal-GFN is able to sample highly diverse crystals with low (median -3.1 eV/atom) predicted formation energy.
翻訳日:2023-12-14 20:14:03 公開日:2023-12-13
# サブゲームカリキュラム学習によるゼロサムゲームにおけるマルチエージェント強化学習の高速化

Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning ( http://arxiv.org/abs/2310.04796v2 )

ライセンス: Link先を確認
Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang, Fei Fang, Yu Wang, Yi Wu(参考訳) 多エージェント強化学習(MARL)を用いた複雑なゼロサムゲームにおけるナッシュ均衡(NE)の学習は,計算コストが極めて高い。 カリキュラム学習は学習を加速する効果的な方法であるが、カリキュラムを生成するための未探索の次元は、特定の状態から始めることで引き起こされるサブゲームの難易度である。 本稿では,ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。 エージェントを以前訪問したいくつかの状態にリセットすることで適応的な初期状態分布を採用し、素早くパフォーマンスを改善することができる。 この枠組みに基づいて,二乗距離からne値に近似したサブゲーム選択メトリックを導出し,さらにサブゲーム生成のための粒子ベースの状態サンプリング器を採用する。 これらのテクニックを統合することで,サブゲームカリキュラム学習フレームワークの実現を目指す,新たなアルゴリズムであるサブゲーム自動カリキュラム学習(sacl)が実現される。 SACLはMAPPOのような任意のMARLアルゴリズムと組み合わせることができる。 粒子世界の環境とGoogle Research Football環境の実験では、SACLはベースラインよりもはるかに強力なポリシーを生み出している。 挑戦的な隠れて見る四角い環境では、saclは4つの創発的なステージを全て生成し、mappoのサンプルの半分だけをセルフプレイで使用する。 プロジェクトのwebサイトはhttps://sites.google.com/view/sacl-rlにある。

Learning Nash equilibrium (NE) in complex zero-sum games with multi-agent reinforcement learning (MARL) can be extremely computationally expensive. Curriculum learning is an effective way to accelerate learning, but an under-explored dimension for generating a curriculum is the difficulty-to-learn of the subgames -- games induced by starting from a specific state. In this work, we present a novel subgame curriculum learning framework for zero-sum games. It adopts an adaptive initial state distribution by resetting agents to some previously visited states where they can quickly learn to improve performance. Building upon this framework, we derive a subgame selection metric that approximates the squared distance to NE values and further adopt a particle-based state sampler for subgame generation. Integrating these techniques leads to our new algorithm, Subgame Automatic Curriculum Learning (SACL), which is a realization of the subgame curriculum learning framework. SACL can be combined with any MARL algorithm such as MAPPO. Experiments in the particle-world environment and Google Research Football environment show SACL produces much stronger policies than baselines. In the challenging hide-and-seek quadrant environment, SACL produces all four emergent stages and uses only half the samples of MAPPO with self-play. The project website is at https://sites.google.com/view/sacl-rl.
翻訳日:2023-12-14 20:13:44 公開日:2023-12-13
# 空港保安チェックにおける乗客フローの最適化

Optimizing the Passenger Flow for Airport Security Check ( http://arxiv.org/abs/2312.05259v2 )

ライセンス: Link先を確認
Yuxin Wang, Fanfei Meng, Xiaotian Wang, Chaoyu Xie(参考訳) 空港や飛行に必要なセキュリティのため、乗客は乗る前に厳格なセキュリティチェックを受けなければならない。 しかし、セキュリティチェックを待つ間、膨大な時間を浪費しているという苦情が頻発している。 本稿では,シカゴ・オアレ国際空港専用ゲート設置手順の最適化を目的とした潜在的な解決策を提案する。 待ち行列理論を参照し,モンテカルロシミュレーションを行うことにより,平均待ち時間をより管理可能なレベルまで大幅に短縮する手法を提案する。 さらに,本研究では,この最適化に寄与する要因を慎重に検討し,その影響を包括的に理解する。

Due to the necessary security for the airport and flight, passengers are required to have strict security check before getting aboard. However, there are frequent complaints of wasting huge amount of time while waiting for the security check. This paper presents a potential solution aimed at optimizing gate setup procedures specifically tailored for Chicago OHare International Airport. By referring to queueing theory and performing Monte Carlo simulations, we propose an approach to significantly diminish the average waiting time to a more manageable level. Additionally, our study meticulously examines and identifies the influential factors contributing to this optimization, providing a comprehensive understanding of their impact.
翻訳日:2023-12-14 20:07:11 公開日:2023-12-13
# 照明推定のための知覚評価枠組みに向けて

Towards a Perceptual Evaluation Framework for Lighting Estimation ( http://arxiv.org/abs/2312.04334v2 )

ライセンス: Link先を確認
Justine Giroux, Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Javier Vazquez-Corral, Jean-Fran\c{c}ois Lalonde(参考訳) 照明推定の進歩は、標準データセットの画像上の既存の画像品質評価(IQA)メトリクスを計算することによって追跡される。 これは合理的なアプローチのように見えるが、仮想シーンをリアルな写真にリライトするために推定照明を使用する場合、人間の嗜好と相関しないことを示す。 そこで我々は,近年の文献から選択された照明推定アルゴリズムを用いて照らされたシーンの中から,人間の観察者が好みを選ばなければならない制御心理学実験を設計し,これらのアルゴリズムが人間の知覚に応じてどのように機能するかを分析する。 そして、文献から最も人気のあるIQA指標のうち、個別に取られたものは、人間の知覚を正しく表現するものではないことを示した。 最後に、既存のIQAメトリクスを組み合わせることで、人間の好みをより正確に表現できることを示す。 これは将来の照明推定アルゴリズムを評価するのに役立つ新しい知覚フレームワークを提供する。

Progress in lighting estimation is tracked by computing existing image quality assessment (IQA) metrics on images from standard datasets. While this may appear to be a reasonable approach, we demonstrate that doing so does not correlate to human preference when the estimated lighting is used to relight a virtual scene into a real photograph. To study this, we design a controlled psychophysical experiment where human observers must choose their preference amongst rendered scenes lit using a set of lighting estimation algorithms selected from the recent literature, and use it to analyse how these algorithms perform according to human perception. Then, we demonstrate that none of the most popular IQA metrics from the literature, taken individually, correctly represent human perception. Finally, we show that by learning a combination of existing IQA metrics, we can more accurately represent human preference. This provides a new perceptual framework to help evaluate future lighting estimation algorithms.
翻訳日:2023-12-14 20:06:31 公開日:2023-12-13
# 次のトークン予測としてのオブジェクト認識

Object Recognition as Next Token Prediction ( http://arxiv.org/abs/2312.02142v2 )

ライセンス: Link先を確認
Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim(参考訳) 本稿では,次のトークン予測として物体認識を行う手法を提案する。 その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。 この予測処理を自動回帰で行うために,デコーダの非因果注意マスクをカスタマイズし,異なるラベルから独立したトークンをモデリングし,画像トークンをプレフィックスとして扱うという2つの重要な特徴を取り入れた。 このマスキング機構は、推論中に複数のラベルのトークンを並列にサンプリングし、その確率によって生成されたラベルをランク付けする効率的な方法であるワンショットサンプリングを誘導する。 さらに効率を高めるために,事前学習した言語モデルの中間ブロックを単に破棄して,コンパクトデコーダを構築するための簡易な方法を提案する。 このアプローチでは、デコーダが完全なモデルのパフォーマンスにマッチし、より効率的である。 コードはhttps://github.com/kaiyuyue/nxtpで入手できる。

We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp
翻訳日:2023-12-14 20:05:58 公開日:2023-12-13
# 大規模言語モデルによる自律運転の強化:安全の観点から

Empowering Autonomous Driving with Large Language Models: A Safety Perspective ( http://arxiv.org/abs/2312.00812v2 )

ライセンス: Link先を確認
Yixuan Wang, Ruochen Jiao, Chengtian Lang, Sinong Simon Zhan, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu(参考訳) 自律運転(AD)は商業打ち上げの重要なハードルに直面しており、特に、長期にわたる予期せぬ運転シナリオによる公共の信頼と安全上の懸念が減少している。 この予測は、ADソフトウェアにおけるディープニューラルネットワークの制限によるものであり、解釈可能性に苦慮し、配布外および不確実なシナリオにおける一般化能力の低下を示す。 そこで本稿では,大規模言語モデル(llm)を広告システムに統合し,その強固な共通認識知識,推論能力,ヒューマンインタラクション能力を活用することを提案する。 提案手法は,環境安全学習のための安全性検証器を組み込んで,全体的な広告パフォーマンスと安全性を高めることを目的として,計画におけるインテリジェントな意思決定者としてllmを展開する。 本手法の有効性を実証する2つの症例研究の結果を報告する。 さらに、認識、予測、シミュレーションを含む他のADソフトウェアコンポーネントに対するLLMの統合の可能性についても論じる。 ケーススタディで観察された課題にもかかわらず、LDMの統合は、ADにおける安全性と性能の強化に有益であり、有益である。

Autonomous Driving (AD) faces crucial hurdles for commercial launch, notably in the form of diminished public trust and safety concerns from long-tail unforeseen driving scenarios. This predicament is due to the limitation of deep neural networks in AD software, which struggle with interpretability and exhibit poor generalization capabilities in out-of-distribution and uncertain scenarios. To this end, this paper advocates for the integration of Large Language Models (LLMs) into the AD system, leveraging their robust common-sense knowledge, reasoning abilities, and human-interaction capabilities. The proposed approach deploys the LLM as an intelligent decision-maker in planning, incorporating safety verifiers for contextual safety learning to enhance overall AD performance and safety. We present results from two case studies that affirm the efficacy of our approach. We further discuss the potential integration of LLM for other AD software components including perception, prediction, and simulation. Despite the observed challenges in the case studies, the integration of LLMs is promising and beneficial for reinforcing both safety and performance in AD.
翻訳日:2023-12-14 20:05:13 公開日:2023-12-13
# GaussianEditor: Swiftとコントロール可能な3D編集

GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2311.14521v3 )

ライセンス: Link先を確認
Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, Zhongang Cai, Lei Yang, Huaping Liu, Guosheng Lin(参考訳) 3D編集はゲームや仮想現実など多くの分野で重要な役割を果たしている。 メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。 一方,neural radiance field(nerf)のような暗黙の3d表現に基づく手法では,複雑なシーンを効果的に描画するが,処理速度の低下や特定のシーン領域の制御が制限される。 これらの課題に応えて,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。 GaussianEditorは、トレーニングプロセスを通して編集対象をトレースする提案したGaussianセマンティックトレースを通じて、編集の精度と制御を強化する。 さらに,2次元拡散モデルから確率的生成誘導下での安定化および微細化を実現するために階層型ガウススプラッティング(HGS)を提案する。 また,オブジェクトの効率的な削除と統合のための編集戦略を開発し,既存の手法では難しい課題である。 総合的な実験により,gaussianeditorの優れた制御,有効性,高速性能が示され,3d編集の著しい進歩が示された。 プロジェクトページ: https://buaacyw.github.io/gaussian-editor/

3D editing plays a crucial role in many areas such as gaming and virtual reality. Traditional 3D editing methods, which rely on representations like meshes and point clouds, often fall short in realistically depicting complex scenes. On the other hand, methods based on implicit 3D representations, like Neural Radiance Field (NeRF), render complex scenes effectively but suffer from slow processing speeds and limited control over specific scene areas. In response to these challenges, our paper presents GaussianEditor, an innovative and efficient 3D editing algorithm based on Gaussian Splatting (GS), a novel 3D representation. GaussianEditor enhances precision and control in editing through our proposed Gaussian semantic tracing, which traces the editing target throughout the training process. Additionally, we propose Hierarchical Gaussian splatting (HGS) to achieve stabilized and fine results under stochastic generative guidance from 2D diffusion models. We also develop editing strategies for efficient object removal and integration, a challenging task for existing methods. Our comprehensive experiments demonstrate GaussianEditor's superior control, efficacy, and rapid performance, marking a significant advancement in 3D editing. Project Page: https://buaacyw.github.io/gaussian-editor/
翻訳日:2023-12-14 20:04:10 公開日:2023-12-13
# データ入力形式の完全性要件の学習に基づく緩和

Learning-Based Relaxation of Completeness Requirements for Data Entry Forms ( http://arxiv.org/abs/2311.13517v3 )

ライセンス: Link先を確認
Hichem Belgacem, Xiaochen Li, Domenico Bianculli, Lionel C. Briand(参考訳) データ入力フォームは、異なるタイプのユーザから必要な情報を集めるのに必要なフィールドやオプションを指定するために完全性要件を使用する。 しかし、いくつかの必要なフィールドは、特定の種類のユーザーに適用できないかもしれない。 それでも、これらのフィールドは、そのフォームで要求されるように誤ってマークされる可能性がある。 廃止予定のフィールドは通常、フォームを提出する前にnullの検証チェックを行わないので、フォームの提出を完了するには、ユーザーはそのようなフィールドに意味のない値を入力する必要がある。 これらの意味のない値は、満たしたデータの品質を脅かす。 ユーザが意味のない値を満たすのを避けるため、既存のテクニックは通常、不要なフィールドを特定し、完全性要件を緩和するために手書きのルールに依存している。 しかし、これらの技術は効果がなく費用もかかる。 本稿では,データ入力フォームの完全性要件を緩和する学習ベースの自動アプローチであるLACQUERを提案する。 LACQUERはベイジアンネットワークモデルを構築し、ユーザーが無意味な値を満たさなければならない条件を自動的に学習する。 学習能力を向上させるために、LACQUERは、必要なフィールドが少数のユーザグループにのみ適用される場合を特定し、オーバーサンプリング技術であるSMOTEを使用して、そのようなフィールド上のより多くのインスタンスを生成し、それらへの依存性を効果的にマイニングする。 実験の結果, LACQUERは, 異なるデータセット上で0.76から0.90の精度で, 必要なフィールドの完全性要件を正確に緩和できることがわかった。 LACQUERは、ユーザが無意味な値の20%から64%を、0.72から0.91の負の予測値で埋めることを防ぐことができる。 さらに、LACQUERは効率が良く、インスタンスの完全性要件を予測するのに少なくとも839ミリ秒かかる。

Data entry forms use completeness requirements to specify the fields that are required or optional to fill for collecting necessary information from different types of users. However, some required fields may not be applicable for certain types of users anymore. Nevertheless, they may still be incorrectly marked as required in the form; we call such fields obsolete required fields. Since obsolete required fields usually have not-null validation checks before submitting the form, users have to enter meaningless values in such fields in order to complete the form submission. These meaningless values threaten the quality of the filled data. To avoid users filling meaningless values, existing techniques usually rely on manually written rules to identify the obsolete required fields and relax their completeness requirements. However, these techniques are ineffective and costly. In this paper, we propose LACQUER, a learning-based automated approach for relaxing the completeness requirements of data entry forms. LACQUER builds Bayesian Network models to automatically learn conditions under which users had to fill meaningless values. To improve its learning ability, LACQUER identifies the cases where a required field is only applicable for a small group of users, and uses SMOTE, an oversampling technique, to generate more instances on such fields for effectively mining dependencies on them. Our experimental results show that LACQUER can accurately relax the completeness requirements of required fields in data entry forms with precision values ranging between 0.76 and 0.90 on different datasets. LACQUER can prevent users from filling 20% to 64% of meaningless values, with negative predictive values between 0.72 and 0.91. Furthermore, LACQUER is efficient; it takes at most 839 ms to predict the completeness requirement of an instance.
翻訳日:2023-12-14 20:03:44 公開日:2023-12-13
# pg-video-llava: 大型ビデオ言語モデルのためのピクセル

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models ( http://arxiv.org/abs/2311.13435v2 )

ライセンス: Link先を確認
Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan(参考訳) 画像に基づくLMM(Large Multimodal Models)をビデオに拡張することは、ビデオデータの本質的な複雑さのために困難である。 画像ベースのLMMをビデオに拡張する最近のアプローチは、グラウンド機能(例えば、VideoChat、Video-ChatGPT、Video-LLaMA)や、より良いビデオ理解のためにオーディオ信号を使用しない(例えば、Video-ChatGPT)。 これらのギャップに対処するため, PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり, 音声キューをテキストに書き起こし, 映像内容の理解を深める。 本フレームワークでは,既製のトラッカーと新しい接地モジュールを用いて,ユーザの指示に従って映像中のオブジェクトを空間的ローカライズする。 pg-video-llavaをビデオベース生成および質問応答ベンチマークを用いて評価し,ビデオ中のプロンプトベースオブジェクトの接地性能を測定するためのベンチマークを新たに導入した。 さらに,ビデオチャットgptにおけるvicuna over gpt-3.5の使用をビデオベースの会話ベンチマークに適用し,gpt-3.5のプロプライエタリな性質と関係する結果の再現性を確保する。 我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。 プロジェクトページ: https://github.com/mbzuai-oryx/video-llava

Extending image-based Large Multimodal Models (LMMs) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMMs to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose PG-Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially localize objects in videos following user instructions. We evaluate PG-Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA
翻訳日:2023-12-14 20:03:14 公開日:2023-12-13
# 医用画像セグメンテーションのための不確実性整定付きセグメントanyモデル

Segment Anything Model with Uncertainty Rectification for Auto-Prompting Medical Image Segmentation ( http://arxiv.org/abs/2311.10529v2 )

ライセンス: Link先を確認
Yichi Zhang, Shiyao Hu, Chen Jiang, Yuan Cheng, Yuan Qi(参考訳) Segment Anything Model (SAM) の導入は、プロンプト駆動画像のセグメンテーションにおいて大きな進歩を見せている。 しかし、サムの医療画像セグメンテーションへの応用は、まだ労働集約的なパフォーマンスを得るためにターゲット構造の手作業によるプロンプトを必要とする。 SAMを完全な自動的な方法で自動プロンプトする試みは試みられているが、医療画像の分野ではまだ性能が劣り、信頼性が欠如している。 本稿では,医用画像の自動分割における堅牢性と信頼性を高めるための不確実性修正SAMフレームワークUR-SAMを提案する。 提案手法では,予測の分布を推定し,不確実性マップを生成するプロンプト拡張モジュールと,SAMの性能をさらに向上する不確実性に基づく修正モジュールを組み込んだ。 35個の臓器の分節を包含する2つの公開3次元医用データセットの広範囲な実験により, 補足訓練や微調整がなければ, 最大10.7 %, 13.8 %のダイス類似度係数で分節性能を向上し, 手動のプロンプトを伴わない医用画像分節の効率と幅広い機能を示す。

The introduction of the Segment Anything Model (SAM) has marked a significant advancement in prompt-driven image segmentation. However, SAM's application to medical image segmentation requires manual prompting of target structures to obtain acceptable performance, which is still labor-intensive. Despite attempts of auto-prompting to turn SAM into a fully automatic manner, it still exhibits subpar performance and lacks of reliability in the field of medical imaging. In this paper, we propose UR-SAM, an uncertainty rectified SAM framework to enhance the robustness and reliability for auto-prompting medical image segmentation. Our method incorporates a prompt augmentation module to estimate the distribution of predictions and generate uncertainty maps, and an uncertainty-based rectification module to further enhance the performance of SAM. Extensive experiments on two public 3D medical datasets covering the segmentation of 35 organs demonstrate that without supplementary training or fine-tuning, our method further improves the segmentation performance with up to 10.7 % and 13.8 % in dice similarity coefficient, demonstrating efficiency and broad capabilities for medical image segmentation without manual prompting.
翻訳日:2023-12-14 20:02:43 公開日:2023-12-13
# ジェンダーニュートラル語の英語翻訳におけるジェンダーバイアスの評価

Evaluating Gender Bias in the Translation of Gender-Neutral Languages into English ( http://arxiv.org/abs/2311.08836v2 )

ライセンス: Link先を確認
Spencer Rarrick, Ranjita Naik, Sundar Poudel, Vishal Chowdhary(参考訳) 機械翻訳(mt)は品質と採用率の向上を続けているが、性別バイアスの不用意な持続性は依然として重要な関心事である。 トルコ語のようなジェンダーニュートラル言語から英語のような強くジェンダー化された言語への翻訳におけるジェンダーバイアスに関する多くの研究にもかかわらず、この現象を評価したり緩和戦略を評価するためのベンチマークはない。 このギャップに対処するため、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATE(Rarrick et al., 2023)コーパスの拡張であるGATE X-Eを導入する。 それぞれの翻訳には女性、男性、中立の変種が伴い、性別の解釈が可能である。 4つの言語ペアごとに1250から1850のインスタンスを含むこのデータセットは、幅広い文の長さと領域を持つ自然な文を特徴とし、様々な言語現象に関する翻訳書き換えに挑戦する。 さらに、GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。 我々は、ジェンダーデバイアスに関するさらなる研究を促進するために、コントリビューションをオープンソースにしています。

Machine Translation (MT) continues to improve in quality and adoption, yet the inadvertent perpetuation of gender bias remains a significant concern. Despite numerous studies into gender bias in translations from gender-neutral languages such as Turkish into more strongly gendered languages like English, there are no benchmarks for evaluating this phenomenon or for assessing mitigation strategies. To address this gap, we introduce GATE X-E, an extension to the GATE (Rarrick et al., 2023) corpus, that consists of human translations from Turkish, Hungarian, Finnish, and Persian into English. Each translation is accompanied by feminine, masculine, and neutral variants for each possible gender interpretation. The dataset, which contains between 1250 and 1850 instances for each of the four language pairs, features natural sentences with a wide range of sentence lengths and domains, challenging translation rewriters on various linguistic phenomena. Additionally, we present an English gender rewriting solution built on GPT-3.5 Turbo and use GATE X-E to evaluate it. We open source our contributions to encourage further research on gender debiasing.
翻訳日:2023-12-14 20:02:17 公開日:2023-12-13
# FS-Net:マイクロ網膜血管構造の抽出改善のためのフルスケールネットワークと適応閾値

FS-Net: Full Scale Network and Adaptive Threshold for Improving Extraction of Micro-Retinal Vessel Structures ( http://arxiv.org/abs/2311.08059v3 )

ライセンス: Link先を確認
Melaku N. Getahun, Oleg Y. Rogov, Dmitry V. Dylov, Andrey Somov, Ahmed Bouridane, Rifat Hamoudi(参考訳) 網膜血管セグメンテーションは、生体画像処理において広く研究されている課題であり、網膜障害の治療および検出における眼科医の負担を軽減することを目的としている。 しかし、網膜血管の分割には独自の課題があり、従来の技術では分枝や微小血管構造を分割する場合に十分な結果が得られなかった。 近年のニューラルネットワークのアプローチは、局所的および全体的特性を共に保持できないことと、小さなエンド容器を捕獲できないことが、望ましい結果を達成するのに困難である点が特徴である。 この網膜血管セグメンテーション問題を解決するために,エンコーダ・デコーダニューラルネットワークアーキテクチャ,シグモイド平滑化,適応しきい値法に基づくフルスケールの微小血管抽出機構を提案する。 ネットワークは、残余、エンコーダブースター、ボトルネック強化、圧縮、励起ビルディングブロックで構成されている。 これらすべてのブロックは、セグメンテーションマップの機能抽出と予測を改善するのに役立ちます。 提案手法は, DRIVE, CHASE-DB1, STAREデータセットを用いて評価し, 従来の研究と比較した場合の競合結果を得た。 AUCとDRIVEデータセットの精度はそれぞれ0.9884と0.9702である。 CHASE-DB1データセットでは、スコアはそれぞれ0.9903と0.9755である。 STAREデータセットでは、スコアはそれぞれ0.9916と0.9750である。 その結果、眼科医の注意を引こうとする実生活診断センターにおいて、このソリューションが実現される確率が高くなる。

Retinal vascular segmentation, is a widely researched subject in biomedical image processing, aims to relieve ophthalmologists' workload when treating and detecting retinal disorders. However, segmenting retinal vessels has its own set of challenges, with prior techniques failing to generate adequate results when segmenting branches and microvascular structures. The neural network approaches used recently are characterized by the inability to keep local and global properties together and the failure to capture tiny end vessels make it challenging to attain the desired result. To reduce this retinal vessel segmentation problem, we propose a full-scale micro-vessel extraction mechanism based on an encoder-decoder neural network architecture, sigmoid smoothing, and an adaptive threshold method. The network consists of of residual, encoder booster, bottleneck enhancement, squeeze, and excitation building blocks. All of these blocks together help to improve the feature extraction and prediction of the segmentation map. The proposed solution has been evaluated using the DRIVE, CHASE-DB1, and STARE datasets, and competitive results are obtained when compared with previous studies. The AUC and accuracy on the DRIVE dataset are 0.9884 and 0.9702, respectively. On the CHASE-DB1 dataset, the scores are 0.9903 and 0.9755, respectively. On the STARE dataset, the scores are 0.9916 and 0.9750, respectively. The performance achieved is one step ahead of what has been done in previous studies, and this results in a higher chance of having this solution in real-life diagnostic centers that seek ophthalmologists attention.
翻訳日:2023-12-14 20:01:56 公開日:2023-12-13
# オペレーティングシステムの基礎モデルについて

On a Foundation Model for Operating Systems ( http://arxiv.org/abs/2312.07813v1 )

ライセンス: Link先を確認
Divyanshu Saxena, Nihal Sharma, Donghyun Kim, Rohit Dwivedula, Jiayi Chen, Chenxi Yang, Sriram Ravula, Zichao Hu, Aditya Akella, Sebastian Angel, Joydeep Biswas, Swarat Chaudhuri, Isil Dillig, Alex Dimakis, P. Brighten Godfrey, Daehyeok Kim, Chris Rossbach, and Gang Wang(参考訳) 本稿では,オペレーティングシステム(OS)のドメイン固有基盤モデルの研究課題について概説する。 基礎モデルの場合、cpu、メモリ、ネットワークサブシステムなどのosコンポーネントが相互に関連しており、osトレースが基盤モデルに理想的なデータセットを提供し、多様なosコンポーネントの複雑さと、さまざまな環境やワークロードにおけるそれらの振る舞いを理解する。 基本モデルを政策エージェントとして採用し、それらをジェネレータや予測器として活用し、従来のos制御アルゴリズムを補助するなど、さまざまな可能性について議論する。 この論文は、OS基盤モデルに関するさらなる研究と、進化するコンピューティングの展望のための次世代オペレーティングシステムの開発を促進することを願っている。

This paper lays down the research agenda for a domain-specific foundation model for operating systems (OSes). Our case for a foundation model revolves around the observations that several OS components such as CPU, memory, and network subsystems are interrelated and that OS traces offer the ideal dataset for a foundation model to grasp the intricacies of diverse OS components and their behavior in varying environments and workloads. We discuss a wide range of possibilities that then arise, from employing foundation models as policy agents to utilizing them as generators and predictors to assist traditional OS control algorithms. Our hope is that this paper spurs further research into OS foundation models and creating the next generation of operating systems for the evolving computing landscape.
翻訳日:2023-12-14 17:25:45 公開日:2023-12-13
# Semantic-Lens: ビデオスーパーリゾリューションのためのインスタンス中心セマンティックアライメント

Semantic-Lens: Instance-Centric Semantic Alignment for Video Super-Resolution ( http://arxiv.org/abs/2312.07823v1 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao(参考訳) ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。 しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。 この問題に対して,劣化したビデオから引き出されたセマンティックな先入観に基づく,VSRの新しいパラダイム「textbf{Semantic Lens}」を紹介した。 具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。 これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。 蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。 さらに, \textbf{g}lobal \textbf{p}erspective \textbf{s}hifter (gps) と \textbf{i}nstance-specific \textbf{s}emantic \textbf{e}mbedding \textbf{e}ncoder (isee) からなるピクセルレベルの特徴と意味的知識を橋渡しするために, \textbf{s}emantics-\textbf{p}ttention \textbf{c}ross-\textbf{e}mbedding (space)ブロックを開発した。 具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。 その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。 さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。 広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。

As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named \textbf{Semantic Lens}, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a \textbf{S}emantics-\textbf{P}owered \textbf{A}ttention \textbf{C}ross-\textbf{E}mbedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a \textbf{G}lobal \textbf{P}erspective \textbf{S}hifter (GPS) and an \textbf{I}nstance-Specific \textbf{S}emantic \textbf{E}mbedding \textbf{E}ncoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods.
翻訳日:2023-12-14 17:12:11 公開日:2023-12-13
# 再訓練を行わない原型的自己説明モデル

Prototypical Self-Explainable Models Without Re-training ( http://arxiv.org/abs/2312.07822v1 )

ライセンス: Link先を確認
Srishti Gautam, Ahcene Boubekki, Marina M. C. H\"ohne and Michael C. Kampffmeyer(参考訳) 説明可能なAI(XAI)は、事前訓練されたブラックボックスモデルの予測を説明するポストホックな方法と、直接トレーニングされた自己説明可能なモデル(SEM)の2つの研究方向で展開され、予測とともに説明を提供する。 後者は、ほとんどの安全クリティカルなシナリオで好まれるが、ポストホックアプローチは、リトレーニングなしでベースモデルを説明する単純さと能力のために、これまで多くの注目を集めてきた。 現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、特殊でコストのかかる訓練を必要とする。 この欠点に対処し,より広範なSEMの利用を容易にするために,既存の事前学習モデルからプロトタイプSEMに変換する,KMEx(K-Means Explainer)と呼ばれるシンプルで効率的なユニバーサル手法を提案する。 KMExの背後にあるモチベーションは、ベースモデルを再訓練することなく、多様性と信頼性が保証されるクラスプロトタイプベースの説明を通じて、より透過的なディープラーニングベースの意思決定を促進することである。 kmexから得られたモデルと最先端semを比較し,各モデルの長所と短所を質的評価し,より信頼性が高く客観的なsem評価へ向けた。

Explainable AI (XAI) has unfolded in two distinct research directions with, on the one hand, post-hoc methods that explain the predictions of a pre-trained black-box model and, on the other hand, self-explainable models (SEMs) which are trained directly to provide explanations alongside their predictions. While the latter is preferred in most safety-critical scenarios, post-hoc approaches have received the majority of attention until now, owing to their simplicity and ability to explain base models without retraining. Current SEMs instead, require complex architectures and heavily regularized loss functions, thus necessitating specific and costly training. To address this shortcoming and facilitate wider use of SEMs, we propose a simple yet efficient universal method called KMEx (K-Means Explainer), which can convert any existing pre-trained model into a prototypical SEM. The motivation behind KMEx is to push towards more transparent deep learning-based decision-making via class-prototype-based explanations that are guaranteed to be diverse and trustworthy without retraining the base model. We compare models obtained from KMEx to state-of-the-art SEMs using an extensive qualitative evaluation to highlight the strengths and weaknesses of each model, further paving the way toward a more reliable and objective evaluation of SEMs.
翻訳日:2023-12-14 17:11:05 公開日:2023-12-13
# 逆ロバスト量子機械学習による無線信号の分類

Radio Signal Classification by Adversarially Robust Quantum Machine Learning ( http://arxiv.org/abs/2312.07821v1 )

ライセンス: Link先を確認
Yanqiu Wu, Eromanga Adermann, Chandra Thapa, Seyit Camtepe, Hajime Suzuki and Muhammad Usman(参考訳) 無線信号の分類は、送信された情報の復調と適切な解釈に不可欠である受信無線信号の変調方式を特定する上で重要な役割を担っている。 研究者らは、対向攻撃に対する電波信号分類のためのmlアルゴリズムの高感受性を強調している。 このような脆弱性は、クリティカルメッセージの誤解、機密情報の傍受、通信チャネルの破壊など、深刻な結果をもたらす可能性がある。 量子コンピューティングの最近の進歩は理論と計算の実装に革命をもたらし、量子機械学習(QML)の先例のない発展をもたらした。 量子変分分類器 (QVC) は, 画像分類における古典的逆数攻撃に対して, 顕著に強靭性を示す。 しかし、QMLが無線信号分類の文脈で同様に敵の脅威を軽減することができるかどうかはまだ研究されていない。 この研究は、QVCを無線信号分類に適用し、様々な敵攻撃に対するロバスト性を研究する。 また,無線信号データを効率的に符号化するための近似振幅符号化(aae)手法の新たな応用を提案する。 シミュレーションの結果,QVCが生成した攻撃はCNNモデルによく対応し,攻撃対象に設計されていないニューラルネットワークを騙すことが示唆された。 しかし、その逆は真実ではない。 QVCは主にCNNで生成された攻撃に抵抗する。 総合シミュレーションでは,無線信号分類におけるQAMLの知識ギャップを埋めるとともに,QML手法を実用化するメリットを明らかにすることで,QMLの育成分野に新たな光を当てた。

Radio signal classification plays a pivotal role in identifying the modulation scheme used in received radio signals, which is essential for demodulation and proper interpretation of the transmitted information. Researchers have underscored the high susceptibility of ML algorithms for radio signal classification to adversarial attacks. Such vulnerability could result in severe consequences, including misinterpretation of critical messages, interception of classified information, or disruption of communication channels. Recent advancements in quantum computing have revolutionized theories and implementations of computation, bringing the unprecedented development of Quantum Machine Learning (QML). It is shown that quantum variational classifiers (QVCs) provide notably enhanced robustness against classical adversarial attacks in image classification. However, no research has yet explored whether QML can similarly mitigate adversarial threats in the context of radio signal classification. This work applies QVCs to radio signal classification and studies their robustness to various adversarial attacks. We also propose the novel application of the approximate amplitude encoding (AAE) technique to encode radio signal data efficiently. Our extensive simulation results present that attacks generated on QVCs transfer well to CNN models, indicating that these adversarial examples can fool neural networks that they are not explicitly designed to attack. However, the converse is not true. QVCs primarily resist the attacks generated on CNNs. Overall, with comprehensive simulations, our results shed new light on the growing field of QML by bridging knowledge gaps in QAML in radio signal classification and uncovering the advantages of applying QML methods in practical applications.
翻訳日:2023-12-14 17:10:40 公開日:2023-12-13
# 大規模言語モデルを用いたネイティブ言語識別

Native Language Identification with Large Language Models ( http://arxiv.org/abs/2312.07819v1 )

ライセンス: Link先を確認
Wei Zhang and Alexandre Salle(参考訳) GPT-4 などの LLM を用いたNative Language Identification (NLI) の最初の実験について述べる。 NLIは、著者の最初の言語を第2言語で解析することで予測し、第2言語習得と法医学的言語学で使用される。 その結果、gptモデルはnli分類に熟達しており、gpt-4ではベンチマークtoefl11テストセットで91.7%の新性能記録をゼロショット設定で設定した。 また、従来の完全教師付き設定とは異なり、llmは既知のクラスに制限されることなくnliを実行可能であることも示しています。 最後に、LLMはスペルエラー、構文パターン、直接翻訳された言語パターンの使用に基づく推論を提供することで、それらの選択を正当化できることを示す。

We present the first experiments on Native Language Identification (NLI) using LLMs such as GPT-4. NLI is the task of predicting a writer's first language by analyzing their writings in a second language, and is used in second language acquisition and forensic linguistics. Our results show that GPT models are proficient at NLI classification, with GPT-4 setting a new performance record of 91.7% on the benchmark TOEFL11 test set in a zero-shot setting. We also show that unlike previous fully-supervised settings, LLMs can perform NLI without being limited to a set of known classes, which has practical implications for real-world applications. Finally, we also show that LLMs can provide justification for their choices, providing reasoning based on spelling errors, syntactic patterns, and usage of directly translated linguistic patterns.
翻訳日:2023-12-14 17:10:13 公開日:2023-12-13
# 人間病理のための基礎的マルチモーダルビジョン言語AIアシスタント

A Foundational Multimodal Vision Language AI Assistant for Human Pathology ( http://arxiv.org/abs/2312.07814v1 )

ライセンス: Link先を確認
Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Kenji Ikamura, Georg Gerber, Ivy Liang, Long Phi Le, Tong Ding, Anil V Parwani, Faisal Mahmood(参考訳) 計算病理学の分野では、タスク固有の予測モデルとタスクに依存しない自己教師付き視覚エンコーダの開発が著しく進展している。 しかし, 人工人工知能(AI)の爆発的成長にもかかわらず, 病理学に適した汎用型マルチモーダルAIアシスタントの構築に関する研究は限られている。 ここでは,10万人以上の患者から1億の組織像と1億1800万の病理像を予め訓練した基礎的視覚エンコーダを用いた,人間の病理学のための視覚言語汎用aiアシスタントであるpathchatを提案する。 視覚エンコーダは事前訓練された大型言語モデルと組み合わせられ、システム全体は25万以上の多様な病気非依存の視覚言語命令に基づいて微調整される。 PathChatを、市販のマルチモーダル汎用AIアシスタントChatGPT-4のGPT4Vと同様に、複数のマルチモーダルビジョン言語AIアシスタントと比較する。 病理組織像と関連する臨床的文脈が提供された場合、pathchatは様々な組織由来および疾患モデルが公に入手可能な症例に基づいて、マルチチョース質問で87%の診断精度を達成した。 さらに,オープンな質問と人間の専門家による評価により,PathChatはより正確で,病理医に好適な応答が得られた。 視覚と自然言語の両方の入力を柔軟に処理できるインタラクティブで汎用的なビジョン言語aiアシスタントとして、pathchatは病理学教育、研究、および人道的な臨床意思決定に影響力のある応用を見つける可能性がある。

The field of computational pathology has witnessed remarkable progress in the development of both task-specific predictive models and task-agnostic self-supervised vision encoders. However, despite the explosive growth of generative artificial intelligence (AI), there has been limited study on building general purpose, multimodal AI assistants tailored to pathology. Here we present PathChat, a vision-language generalist AI assistant for human pathology using an in-house developed foundational vision encoder pretrained on 100 million histology images from over 100,000 patient cases and 1.18 million pathology image-caption pairs. The vision encoder is then combined with a pretrained large language model and the whole system is finetuned on over 250,000 diverse disease agnostic visual language instructions. We compare PathChat against several multimodal vision language AI assistants as well as GPT4V, which powers the commercially available multimodal general purpose AI assistant ChatGPT-4. When relevant clinical context is provided with the histology image, PathChat achieved a diagnostic accuracy of 87% on multiple-choice questions based on publicly available cases of diverse tissue origins and disease models. Additionally, using open-ended questions and human expert evaluation, we found that overall PathChat produced more accurate and pathologist-preferable responses to diverse queries related to pathology. As an interactive and general vision language AI assistant that can flexibly handle both visual and natural language inputs, PathChat can potentially find impactful applications in pathology education, research, and human-in-the-loop clinical decision making.
翻訳日:2023-12-14 17:09:57 公開日:2023-12-13
# 可視赤外人物再同定のための高次構造に基づく中機能学習

High-Order Structure Based Middle-Feature Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2312.07853v1 )

ライセンス: Link先を確認
Liuxiang Qiu, Si Chen, Yan Yan, Jin-Hao Xue, Da-Han Wang, Shunzhi Zhu(参考訳) Visible-Infrared person re-identification (VI-ReID) は、可視光(VIS)と赤外線(IR)カメラで捉えた人物の画像を取得することを目的としている。 既存のVI-ReID法は、VIS画像とIR画像の間に大きな相違があるため、合理的な共通特徴空間の学習が比較的困難でありながら、特徴の高次構造情報を無視する。 上記の問題に対処するために,新しい高次構造に基づく中高次学習ネットワーク(HOS-Net)を提案する。 具体的には,まず,短距離特徴抽出(sle)モジュールを用いて,短距離特徴と長距離特徴の両方を有効に活用した。 そこで,提案するhsl(high-order structure learning)モジュールは,白字ハイパーグラフネットワークに基づいて各人物画像の異なる局所的特徴間の高次関係をうまくモデル化し,モデルの崩壊を軽減し,特徴表現を向上させる。 最後に,異なるモダリティと範囲から特徴を整列させて生成した中間特徴に基づいて,識別的かつ合理的な共通特徴空間を学習するための共通特徴空間学習(CFL)モジュールを開発する。 特に, vis, ir, および中間特徴間の距離を減少させ, 訓練過程を円滑化するために, モダリティレンジid-center contrastive (mric) 損失が提案されている。 SYSU-MM01, RegDB, LLCMデータセットの大規模な実験は、我々のHOS-Netが最先端のパフォーマンスを達成することを示す。 私たちのコードは \url{https://github.com/Jaulaucoeng/HOS-Net} で利用可能です。

Visible-infrared person re-identification (VI-ReID) aims to retrieve images of the same persons captured by visible (VIS) and infrared (IR) cameras. Existing VI-ReID methods ignore high-order structure information of features while being relatively difficult to learn a reasonable common feature space due to the large modality discrepancy between VIS and IR images. To address the above problems, we propose a novel high-order structure based middle-feature learning network (HOS-Net) for effective VI-ReID. Specifically, we first leverage a short- and long-range feature extraction (SLE) module to effectively exploit both short-range and long-range features. Then, we propose a high-order structure learning (HSL) module to successfully model the high-order relationship across different local features of each person image based on a whitened hypergraph network.This greatly alleviates model collapse and enhances feature representations. Finally, we develop a common feature space learning (CFL) module to learn a discriminative and reasonable common feature space based on middle features generated by aligning features from different modalities and ranges. In particular, a modality-range identity-center contrastive (MRIC) loss is proposed to reduce the distances between the VIS, IR, and middle features, smoothing the training process. Extensive experiments on the SYSU-MM01, RegDB, and LLCM datasets show that our HOS-Net achieves superior state-of-the-art performance. Our code is available at \url{https://github.com/Jaulaucoeng/HOS-Net}.
翻訳日:2023-12-14 16:59:50 公開日:2023-12-13
# 逆過程における雑音は拡散モデルの近似能力を改善する

Noise in the reverse process improves the approximation capabilities of diffusion models ( http://arxiv.org/abs/2312.07851v1 )

ライセンス: Link先を確認
Karthik Elamvazhuthi and Samet Oymak and Fabio Pasqualetti(参考訳) Score based Generative Modeling (SGMs) では、確率的逆過程は決定論的過程よりも優れていることが知られている。 本稿では,ニューラル常微分方程式 (ODE) とニューラル確率微分方程式 (SDE) を逆過程として比較し,この現象の核を掘り下げる。 逆過程の近似を軌道追跡問題として定式化することにより,制御論的視点を用いる。 我々は,Fokker-Planck方程式の軌跡を近似するニューラルSDEの能力を解析し,確率性の利点を明らかにする。 第一に、ニューラルSDEは強力な正規化効果を示し、参照ベクトル場やスコア関数がリプシッツでない場合でも、類似条件下でのニューラルODEによって達成されるワッサーシュタイン計量近似を超えるノルム軌道近似を可能にする。 この結果を用いて,sgmsにおけるスコアマッチングを用いてサンプルできる分布のクラスを確立し,既存の文献におけるデータ分布の勾配に対するリプシッツ要件を緩和する。 第2に、ネットワーク幅がネットワークの入力次元に制限された場合、この近似特性が保存されることを示す。 この限定幅の場合、重みは制御入力として作用し、確率密度空間における神経sdesの制御可能性問題として解析を相補する。 これにより、ノイズがシステムの望ましい解への制御にどのように役立つかが明らかになり、生成的モデリングにおける確率性の実証的な成功を照らします。

In Score based Generative Modeling (SGMs), the state-of-the-art in generative modeling, stochastic reverse processes are known to perform better than their deterministic counterparts. This paper delves into the heart of this phenomenon, comparing neural ordinary differential equations (ODEs) and neural stochastic differential equations (SDEs) as reverse processes. We use a control theoretic perspective by posing the approximation of the reverse process as a trajectory tracking problem. We analyze the ability of neural SDEs to approximate trajectories of the Fokker-Planck equation, revealing the advantages of stochasticity. First, neural SDEs exhibit a powerful regularizing effect, enabling $L^2$ norm trajectory approximation surpassing the Wasserstein metric approximation achieved by neural ODEs under similar conditions, even when the reference vector field or score function is not Lipschitz. Applying this result, we establish the class of distributions that can be sampled using score matching in SGMs, relaxing the Lipschitz requirement on the gradient of the data distribution in existing literature. Second, we show that this approximation property is preserved when network width is limited to the input dimension of the network. In this limited width case, the weights act as control inputs, framing our analysis as a controllability problem for neural SDEs in probability density space. This sheds light on how noise helps to steer the system towards the desired solution and illuminates the empirical success of stochasticity in generative modeling.
翻訳日:2023-12-14 16:59:21 公開日:2023-12-13
# 6g通信のための大規模言語モデル強化マルチエージェントシステム

Large Language Model Enhanced Multi-Agent Systems for 6G Communications ( http://arxiv.org/abs/2312.07850v1 )

ライセンス: Link先を確認
Feibo Jiang, Li Dong, Yubo Peng, Kezhi Wang, Kun Yang, Cunhua Pan, Dusit Niyato, Octavia A. Dobre(参考訳) LLM(Large Language Model)の急速な開発は、6G通信(例えば、ネットワーク最適化や管理など)において、ユーザが自然言語でLLMにタスク要求を入力できるようにすることで大きな機会を提供する。 しかし、6G にネイティブ LLM を直接適用することは、プライベートなコミュニケーションデータや知識の欠如、論理的推論の制限、評価、洗練能力など、様々な課題に直面している。 エージェントの検索,計画,メモリ,評価,リフレクションの能力とLLMを統合することで,6G通信におけるLLMの可能性を大幅に向上させることができる。 To this end, we propose a multi-agent system with customized communication knowledge and tools for solving communication related tasks using natural language, comprising three components: (1) Multi-agent Data Retrieval (MDR), which employs the condensate and inference agents to refine and summarize communication knowledge from the knowledge base, expanding the knowledge boundaries of LLMs in 6G communications; (2) Multi-agent Collaborative Planning (MCP), which utilizes multiple planning agents to generate feasible solutions for the communication related task from different perspectives based on the retrieved knowledge; (3) Multi-agent Evaluation and Reflecxion (MER), which utilizes the evaluation agent to assess the solutions, and applies the reflexion agent and refinement agent to provide improvement suggestions for current solutions. 最後に,6g通信を事例として,意味コミュニケーションシステムの設計によるマルチエージェントシステムの有効性を検証する。

The rapid development of the Large Language Model (LLM) presents huge opportunities for 6G communications, e.g., network optimization and management by allowing users to input task requirements to LLMs by nature language. However, directly applying native LLMs in 6G encounters various challenges, such as a lack of private communication data and knowledge, limited logical reasoning, evaluation, and refinement abilities. Integrating LLMs with the capabilities of retrieval, planning, memory, evaluation and reflection in agents can greatly enhance the potential of LLMs for 6G communications. To this end, we propose a multi-agent system with customized communication knowledge and tools for solving communication related tasks using natural language, comprising three components: (1) Multi-agent Data Retrieval (MDR), which employs the condensate and inference agents to refine and summarize communication knowledge from the knowledge base, expanding the knowledge boundaries of LLMs in 6G communications; (2) Multi-agent Collaborative Planning (MCP), which utilizes multiple planning agents to generate feasible solutions for the communication related task from different perspectives based on the retrieved knowledge; (3) Multi-agent Evaluation and Reflecxion (MER), which utilizes the evaluation agent to assess the solutions, and applies the reflexion agent and refinement agent to provide improvement suggestions for current solutions. Finally, we validate the effectiveness of the proposed multi-agent system by designing a semantic communication system, as a case study of 6G communications.
翻訳日:2023-12-14 16:58:50 公開日:2023-12-13
# リモートセンシング画像復調のためのエンコーダ最小デコーダ最小化フレームワーク

Encoder-minimal and Decoder-minimal Framework for Remote Sensing Image Dehazing ( http://arxiv.org/abs/2312.07849v1 )

ライセンス: Link先を確認
Yuanbo Wen, Tao Gao, Ziqi Li, Jing Zhang, Ting Chen(参考訳) Hazeはリモートセンシング画像を隠蔽し、貴重な情報抽出を妨げる。 そこで我々は,効率的なリモートセンシング画像復調のためのエンコーダ最小化およびデコーダ最小化フレームワークRSHazeNetを提案する。 具体的には,同レベルにおける機能統合のプロセスについて,ITFM(Intra-level Transposed fusion Module)と呼ばれるイノベーティブモジュールを開発した。 本モジュールは、包括的コンテキストアウェア情報を取り込むために適応的トランスポスドセルフアテンションを用い、ロバストなコンテキストアウェア機能融合を容易にする。 一方,様々なレベルの特徴間の効果的な相互作用を可能にするための多層多視点対話モジュール(CMIM)を提案し,繰り返しサンプリング操作による情報の損失を軽減した。 さらに,これらの特徴を4つの異なるコンポーネントに分割するマルチビュープログレッシブ抽出ブロック (mpeb) を提案する。 大規模な実験により提案したRSHazeNetの優位性を実証した。 ソースコードと事前トレーニング済みのすべてのモデルを \url{https://github.com/chdwyb/rshazenet} でリリースします。

Haze obscures remote sensing images, hindering valuable information extraction. To this end, we propose RSHazeNet, an encoder-minimal and decoder-minimal framework for efficient remote sensing image dehazing. Specifically, regarding the process of merging features within the same level, we develop an innovative module called intra-level transposed fusion module (ITFM). This module employs adaptive transposed self-attention to capture comprehensive context-aware information, facilitating the robust context-aware feature fusion. Meanwhile, we present a cross-level multi-view interaction module (CMIM) to enable effective interactions between features from various levels, mitigating the loss of information due to the repeated sampling operations. In addition, we propose a multi-view progressive extraction block (MPEB) that partitions the features into four distinct components and employs convolution with varying kernel sizes, groups, and dilation factors to facilitate view-progressive feature learning. Extensive experiments demonstrate the superiority of our proposed RSHazeNet. We release the source code and all pre-trained models at \url{https://github.com/chdwyb/RSHazeNet}.
翻訳日:2023-12-14 16:58:29 公開日:2023-12-13
# q&aにおける古典の文脈知識に関するllmの微調整

Finetuning an LLM on Contextual Knowledge of Classics for Q&A ( http://arxiv.org/abs/2312.07848v1 )

ライセンス: Link先を確認
Shane Storm Strachan(参考訳) 大規模言語モデル(LLM)のオープンソース公開は、言語を理解し、コンピュータにアクセス可能な人なら誰でも、人工知能の重要なツール、特に学習と知識の普及の文脈で対話できる多くの可能性を生み出している。 しかし、古典などの専門分野におけるこれらのモデルの実用性は、いまだにほとんど解明されていない。 このプロジェクトは、学習者と専門家の特定のニーズに対応するためにllmを微調整することで、古典の知識と人工知能の能力を統合する試みである。 このプロジェクトの目標は、文脈的知識を正確に再現するだけでなく、一貫性のある「個人性」を示すllmを開発し、異なるレベルの知識を持つ多様なオーディエンスにアピールすることである。 このプロジェクトの大きな部分は、"ガーベージイン、ガベージアウト"の原則に従ってデータセットの精錬に費やされ、モデルがプロンプト(文、質問、単一単語)を与えられたときに、関連する、有用な、創造的な応答を生成することを保証する。 トレーニングと評価の後、私のモデルは様々な入力を処理し、355mのパラメータモデルに期待を上回ったが、その時々の幻覚(特に高温で設定された場合)、特に歴史的な出来事やそれ自身のアイデンティティに関する主張において、幾分キャピタリティーになり、継続的な微調整という形での作業が行われる。

The open-source publishing of large language models (LLMs) has created many possibilities for how anyone who understands language and has access to a computer can interact with significant tools of artificial intelligence, particularly in the context of learning and knowledge dissemination. However, the utility of these models in specialized fields like Classics is still largely unexplored. This project is an attempt to merge the knowledge of Classics with the capabilities of artificial intelligence by finetuning an LLM to cater to the specific needs of learners and professionals. The goal of this project is to develop an LLM that not only reproduces contextual knowledge accurately but also exhibits a consistent "personality" - and, indeed, has consistent propriety - to appeal to a diverse audience who possess differing levels of knowledge. A significant portion of this project was dedicated to refining the dataset, following the principle of "garbage in, garbage out," to ensure the model generates relevant, useful, and creative responses when given a prompt (a statement, question, or single word). After training and evaluation, my model's ability to handle a vast array of different types of inputs and prompting exceeded expectations for a 355M parameter model, though its occasional hallucinations (especially when set with a high temperature), particularly in its assertions about historical events or its own identity, make it seem somewhat capricious and more work in the form of continuous finetuning will be undertaken.
翻訳日:2023-12-14 16:58:09 公開日:2023-12-13
# 未知の損失とそれ以上のダイナミクスについて

On the Dynamics Under the Unhinged Loss and Beyond ( http://arxiv.org/abs/2312.07841v1 )

ライセンス: Link先を確認
Xiong Zhou, Xianming Liu, Hanzhang Wang, Deming Zhai, Junjun Jiang, Xiangyang Ji(参考訳) 最近の研究では、ディープラーニングにおける暗黙のバイアス、特にラスト層の特徴と分類子重みの振る舞いを研究している。 しかし、通常は、損失関数やモデルアーキテクチャの難解性のため、勾配流や勾配降下の下での中間ダイナミクスを単純化する必要がある。 本稿では,閉形式力学をできるだけ単純化や仮定を必要とせず,より数学的に解析する機会を提供する簡潔な損失関数であるunhinged lossを提案する。 アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。 最終層特徴を自由最適化変数と見なす層ピールモデルに基づき、制約のない、正規化された、球面制約されたケースと、神経接核が不変のままである場合について、徹底的な解析を行う。 クロスエントロピー (CE) に無拘束損失をブリッジするために, 特定の構造で分類器重みを固定するシナリオについて検討する(例えば, 単純な等角形状のタイトフレーム)。 解析の結果, 特徴の初期化と分類器重みによって, これらのダイナミクスは指数関数的に解に収束することがわかった。 これらの理論的な結果は、明示的な特徴の正規化や再スケールされた学習率といった価値ある洞察を提供するだけでなく、他の損失関数への適用性も拡張する。 最後に、これらの理論的な結果と洞察を広範な実験を通じて実証する。

Recent works have studied implicit biases in deep learning, especially the behavior of last-layer features and classifier weights. However, they usually need to simplify the intermediate dynamics under gradient flow or gradient descent due to the intractability of loss functions and model architectures. In this paper, we introduce the unhinged loss, a concise loss function, that offers more mathematical opportunities to analyze the closed-form dynamics while requiring as few simplifications or assumptions as possible. The unhinged loss allows for considering more practical techniques, such as time-vary learning rates and feature normalization. Based on the layer-peeled model that views last-layer features as free optimization variables, we conduct a thorough analysis in the unconstrained, regularized, and spherical constrained cases, as well as the case where the neural tangent kernel remains invariant. To bridge the performance of the unhinged loss to that of Cross-Entropy (CE), we investigate the scenario of fixing classifier weights with a specific structure, (e.g., a simplex equiangular tight frame). Our analysis shows that these dynamics converge exponentially fast to a solution depending on the initialization of features and classifier weights. These theoretical results not only offer valuable insights, including explicit feature regularization and rescaled learning rates for enhancing practical training with the unhinged loss, but also extend their applicability to other loss functions. Finally, we empirically demonstrate these theoretical results and insights through extensive experiments.
翻訳日:2023-12-14 16:57:41 公開日:2023-12-13
# 頭の中の物理学研究室: 量子思考実験を教育ツールとして

A Physics Lab Inside Your Head: Quantum Thought Experiments as an Educational Tool ( http://arxiv.org/abs/2312.07840v1 )

ライセンス: Link先を確認
Maria Violaris(参考訳) 思考実験は、論理的推論がストーリーテリングを満たし、量子科学とテクノロジーの進歩を触媒する場である。 Schr\"odinger's famous cat brought quantum science to the public consciousness, while Deutsch's thought experiment to test the many-worlds and Copenhagen interpretations involved the first conception of a quantum computer. I will show how presenting thought experiments using quantum circuits can demystify apparent quantum paradoxes, and provide fun, conceptually important activities for learners to implement themselves on near-term quantum devices. Additionally, I will explain how thought experiments can be used as a first introduction to quantum, and outline a workshop based on the "quantum bomb tester" for school students as young as 11. 本稿は、オックスフォードにおける量子コンピューティングワークショップの開発と提供、およびIBM Quantum of Video、ブログ、コードチュートリアルによる量子パラドックスコンテンツシリーズの作成における私の経験を引用する。

Thought experiments are where logical reasoning meets storytelling, catalysing progress in quantum science and technology. Schr\"odinger's famous cat brought quantum science to the public consciousness, while Deutsch's thought experiment to test the many-worlds and Copenhagen interpretations involved the first conception of a quantum computer. I will show how presenting thought experiments using quantum circuits can demystify apparent quantum paradoxes, and provide fun, conceptually important activities for learners to implement themselves on near-term quantum devices. Additionally, I will explain how thought experiments can be used as a first introduction to quantum, and outline a workshop based on the "quantum bomb tester" for school students as young as 11. This paper draws upon my experience in developing and delivering quantum computing workshops in Oxford, and in creating a quantum paradoxes content series with IBM Quantum of videos, blogs and code tutorials.
翻訳日:2023-12-14 16:57:15 公開日:2023-12-13
# 衝突のない信号を用いたスパースマルチリファレンスアライメントのミニマックス最適推定

Minimax-optimal estimation for sparse multi-reference alignment with collision-free signals ( http://arxiv.org/abs/2312.07839v1 )

ライセンス: Link先を確認
Subhro Ghosh, Soumendu Sundar Mukherjee, Jing Bin Pan(参考訳) MRA問題(Multi-Reference Alignment)は、高強度$\sigma$の付加雑音の存在下で、環状アイソメトリー群の潜伏作用の下で繰り返し観測された未知の信号の回復を目的とする。 有名なクライオEMモデルのより魅力的なバージョンである。 高騒音環境では、そのサンプル複雑性は$\sigma^6$でスケールすることが知られている。 近年の研究では、スパース信号の実質的に有意な設定では、最大確率推定器のサンプル複雑性が漸近的に拡張され、ノイズレベルは$\sigma^4$であることが示された。 本研究では,MRAモデルによる衝突のない信号に対する信号推定の最小最適性について検討する。 特に、この信号クラスは、希薄なスパース性の一般的な信号の設定(サポートサイズが$s=o(l^{1/3})$であり、ここで$l$は環境次元である。 この設定におけるスパースMRA問題に対する推定の最小最大値は$\sigma^2/\sqrt{n}$であり、$n$はサンプルサイズである。 特に、これはこの設定において制限されたMLEに対するサンプル複雑性漸近を広く一般化し、統計的に最適な推定器として確立する。 最後に, 制限されたMLEに対する濃度不等式を, 基礎的真理からの偏差に対して示す。

The Multi-Reference Alignment (MRA) problem aims at the recovery of an unknown signal from repeated observations under the latent action of a group of cyclic isometries, in the presence of additive noise of high intensity $\sigma$. It is a more tractable version of the celebrated cryo EM model. In the crucial high noise regime, it is known that its sample complexity scales as $\sigma^6$. Recent investigations have shown that for the practically significant setting of sparse signals, the sample complexity of the maximum likelihood estimator asymptotically scales with the noise level as $\sigma^4$. In this work, we investigate minimax optimality for signal estimation under the MRA model for so-called collision-free signals. In particular, this signal class covers the setting of generic signals of dilute sparsity (wherein the support size $s=O(L^{1/3})$, where $L$ is the ambient dimension. We demonstrate that the minimax optimal rate of estimation in for the sparse MRA problem in this setting is $\sigma^2/\sqrt{n}$, where $n$ is the sample size. In particular, this widely generalizes the sample complexity asymptotics for the restricted MLE in this setting, establishing it as the statistically optimal estimator. Finally, we demonstrate a concentration inequality for the restricted MLE on its deviations from the ground truth.
翻訳日:2023-12-14 16:57:00 公開日:2023-12-13
# コンフリクト・トランスフォーメーションとマネジメント。 認知地図からバリューツリーへ

Conflict Transformation and Management. From Cognitive Maps to Value Trees ( http://arxiv.org/abs/2312.07838v1 )

ライセンス: Link先を確認
Berkay H. Tosunlu and Joseph H.A. Guillaume and Alexis Tsouki\`as(参考訳) コンフリクト変換とマネジメントは極めて高い利害関係を持つ複雑な意思決定プロセスであり、意思決定支援への正式なアプローチから大きな恩恵を受ける可能性がある。 この目的のために,このような目的のために問題構造化手法を使用する方法に関する一般的なフレームワークを開発する。 より正確には、コンフリクト管理目的の革新的なソリューション構築を目的とした意思決定支援のための、より設計指向のアプローチを促進するために、認知マップをバリューツリーに変換する方法を示す。 本研究は,問題状況の記述的表現から,形式的手続きやモデルを用いたより記述的な表現への移行を可能にするため,より広い妥当性を有することを示す。

Conflict transformation and management are complex decision processes with extremely high stakes at hand and could greatly benefit from formal approaches to decision support. For this purpose we develop a general framework about how to use problem structuring methods for such purposes. More precisely we show how to transform cognitive maps to value trees in order to promote a more design-oriented approach to decision support aiming at constructing innovative solutions for conflict management purposes. We show that our findings have a much wider validity since they allow to move from a descriptive representation of a problem situation to a more prescriptive one using formal procedures and models.
翻訳日:2023-12-14 16:56:35 公開日:2023-12-13
# 合成データ:統計推定器を信頼できるか?

Synthetic Data: Can We Trust Statistical Estimators? ( http://arxiv.org/abs/2312.07837v1 )

ライセンス: Link先を確認
Alexander Decruyenaere, Heidelinde Dehaene, Paloma Rabaey, Christiaan Polet, Johan Decruyenaere, Stijn Vansteelandt, Thomas Demeester(参考訳) データ共有への関心が高まり、合成データが魅力的になる。 しかし、合成データの解析は独自の方法論上の課題を提起する。 本研究は, 推定実用性の重要性を強調し, 合成データからのナイーブ推論に対する実証的証拠を提供する(これは, 実際に観測されたかのように扱う)。 推定値が偏りなくても, 偽陽性の発見率(タイプ1の誤り)は許容できないほど高いと論じる。 理由の1つは真の標準誤差の過小評価であり、緩やかな収束によりより大きいサンプルサイズで徐々に増加する可能性がある。 これは特に深層生成モデルでは問題となる。 合成データを公開する前には、そのようなデータに対する統計的推論ツールを開発することが不可欠である。

The increasing interest in data sharing makes synthetic data appealing. However, the analysis of synthetic data raises a unique set of methodological challenges. In this work, we highlight the importance of inferential utility and provide empirical evidence against naive inference from synthetic data (that handles these as if they were really observed). We argue that the rate of false-positive findings (type 1 error) will be unacceptably high, even when the estimates are unbiased. One of the reasons is the underestimation of the true standard error, which may even progressively increase with larger sample sizes due to slower convergence. This is especially problematic for deep generative models. Before publishing synthetic data, it is essential to develop statistical inference tools for such data.
翻訳日:2023-12-14 16:56:27 公開日:2023-12-13
# video dynamics prior:ロバストなビデオ拡張のための内部学習アプローチ

Video Dynamics Prior: An Internal Learning Approach for Robust Video Enhancements ( http://arxiv.org/abs/2312.07835v1 )

ライセンス: Link先を確認
Gaurav Shrivastava, Ser-Nam Lim, Abhinav Shrivastava(参考訳) 本稿では,外部トレーニングデータコーパスを必要とせず,ノイズ除去,オブジェクト除去,フレーム補間,スーパーレゾリューションといった低レベル視覚タスクのための新しいロバストなフレームワークを提案する。 提案手法は,映像の時空間的コヒーレンスと内部統計を利用して,劣化したテストシーケンスを最適化することで,神経モジュールの重みを直接学習する。 さらに,映像の異なるスケールにおける時空間的パッチ再帰の特性を生かした新たな空間的ピラミッド損失について紹介する。 この損失は、空間領域と時間領域の両方において非構造ノイズに対するロバスト性を高める。 さらに,本フレームワークは入力フレームの劣化に対して極めて堅牢であり,デノナイズやオブジェクト除去,フレーム補間といった下流タスクにおける最先端の結果が得られる。 提案手法の有効性を検証するため, DAVIS, UCF-101, VIMEO90K-Tなどの標準ビデオデータセットの質的,定量的評価を行った。

In this paper, we present a novel robust framework for low-level vision tasks, including denoising, object removal, frame interpolation, and super-resolution, that does not require any external training data corpus. Our proposed approach directly learns the weights of neural modules by optimizing over the corrupted test sequence, leveraging the spatio-temporal coherence and internal statistics of videos. Furthermore, we introduce a novel spatial pyramid loss that leverages the property of spatio-temporal patch recurrence in a video across the different scales of the video. This loss enhances robustness to unstructured noise in both the spatial and temporal domains. This further results in our framework being highly robust to degradation in input frames and yields state-of-the-art results on downstream tasks such as denoising, object removal, and frame interpolation. To validate the effectiveness of our approach, we conduct qualitative and quantitative evaluations on standard video datasets such as DAVIS, UCF-101, and VIMEO90K-T.
翻訳日:2023-12-14 16:56:14 公開日:2023-12-13
# 安定河川:地球科学におけるテキストから画像への生成モデルの適用事例

Stable Rivers: A Case Study in the Application of Text-to-Image Generative Models for Earth Sciences ( http://arxiv.org/abs/2312.07833v1 )

ライセンス: Link先を確認
C Kupferschmidt, A.D. Binns, K.L. Kupferschmidt, and G.W Taylor(参考訳) テキスト・ツー・イメージ(TTI)生成モデルは、与えられたテキストストリング入力からフォトリアリスティックな画像を生成するために使用できる。 これらのモデルは、地球科学における機械学習の取り込みの課題を軽減する大きな可能性を秘めている。 しかし、彼らの使用の急速な増加は公正さとバイアスに関する疑問を提起し、多くの研究はドメイン固有の考慮よりも、社会的、文化的領域に焦点を当てている。 地球科学のケーススタディとして, フラビアル地形学の分野に着目し, 訓練データにおける対象領域固有の偏りと安定拡散の下流モデル性能を評価した(v1.5)。 西洋の偏見の持続性に加えて,有名な河川や滝などの名勝地を過度に表現し,多くの形態・環境条件の過度な下・過度な表現を示した。 偏りのある訓練データにもかかわらず, 安定拡散モデルでは, 重要な環境・形態特性を再現したフォトリアリスティックな合成河川画像を生成することができた。 さらに,ControlNetを用いた条件マップなどの条件制御技術は,出力画像に付加的な制約を与えるのに有効であった。 地球科学分野でのTTIモデルの利用の可能性は大きいが、我々は敏感な応用に注意を払い、既存のバイアスを緩和するためにトレーニングデータと画像生成バイアスのドメイン固有のレビューを提唱する。

Text-to-image (TTI) generative models can be used to generate photorealistic images from a given text-string input. These models offer great potential to mitigate challenges to the uptake of machine learning in the earth sciences. However, the rapid increase in their use has raised questions about fairness and biases, with most research to-date focusing on social and cultural areas rather than domain-specific considerations. We conducted a case study for the earth sciences, focusing on the field of fluvial geomorphology, where we evaluated subject-area specific biases in the training data and downstream model performance of Stable Diffusion (v1.5). In addition to perpetuating Western biases, we found that the training data over-represented scenic locations, such as famous rivers and waterfalls, and showed serious under- and over-representation of many morphological and environmental terms. Despite biased training data, we found that with careful prompting, the Stable Diffusion model was able to generate photorealistic synthetic river images reproducing many important environmental and morphological characteristics. Furthermore, conditional control techniques, such as the use of condition maps with ControlNet were effective for providing additional constraints on output images. Despite great potential for the use of TTI models in the earth sciences field, we advocate for caution in sensitive applications, and advocate for domain-specific reviews of training data and image generation biases to mitigate perpetuation of existing biases.
翻訳日:2023-12-14 16:55:56 公開日:2023-12-13
# 2次元(2次元)マイクログラフによる三次元(3次元)異方性組織の生成

Denoising diffusion-based synthetic generation of three-dimensional (3D) anisotropic microstructures from two-dimensional (2D) micrographs ( http://arxiv.org/abs/2312.07832v1 )

ライセンス: Link先を確認
Kang-Hyun Lee and Gun Jin Yun(参考訳) 総合計算材料工学(ICME)は, 微細構造と材料特性の関係の体系的解析を大幅に強化し, 高性能材料開発への道を開いた。 しかし, 三次元(3次元)微細構造データセットの不足により, 微視的材料挙動の解析は依然として困難である。 さらに, この課題は, 異方性材料特性をも生ずるため, 異方性構造が異方性であれば増幅される。 本稿では,条件拡散型生成モデル(dgms)を用いた二次元(2次元)マイクログラフのみに基づく異方性組織再構成のための枠組みを提案する。 提案フレームワークは複数の2次元条件付きDGMの空間接続を伴い、3つの異なる直交平面に対して2次元微細構造サンプルを生成するように訓練された。 接続された多重逆拡散過程は、ノイズを3次元マイクロ構造サンプルに変換するマルコフ連鎖の効果的なモデリングを可能にする。 さらに、3次元空間における異方性微細構造試料のスライス間の空間接続を保ちながら、サンプル品質を高めるために、改良された調和サンプリングを用いる。 提案手法を検証するため, 2D-to-3D再構成異方性構造試料を空間相関関数と物質挙動の両面から評価した。 その結果, このフレームワークは材料相の統計分布だけでなく, 3次元空間における材料特性も再現可能であることがわかった。 本研究は, 2次元から3次元への再構成手法の高スループット材料設計を支援するミクロ組織-特性結合構築への応用を強調するものである。

Integrated computational materials engineering (ICME) has significantly enhanced the systemic analysis of the relationship between microstructure and material properties, paving the way for the development of high-performance materials. However, analyzing microstructure-sensitive material behavior remains challenging due to the scarcity of three-dimensional (3D) microstructure datasets. Moreover, this challenge is amplified if the microstructure is anisotropic, as this results in anisotropic material properties as well. In this paper, we present a framework for reconstruction of anisotropic microstructures solely based on two-dimensional (2D) micrographs using conditional diffusion-based generative models (DGMs). The proposed framework involves spatial connection of multiple 2D conditional DGMs, each trained to generate 2D microstructure samples for three different orthogonal planes. The connected multiple reverse diffusion processes then enable effective modeling of a Markov chain for transforming noise into a 3D microstructure sample. Furthermore, a modified harmonized sampling is employed to enhance the sample quality while preserving the spatial connection between the slices of anisotropic microstructure samples in 3D space. To validate the proposed framework, the 2D-to-3D reconstructed anisotropic microstructure samples are evaluated in terms of both the spatial correlation function and the physical material behavior. The results demonstrate that the framework is capable of reproducing not only the statistical distribution of material phases but also the material properties in 3D space. This highlights the potential application of the proposed 2D-to-3D reconstruction framework in establishing microstructure-property linkages, which could aid high-throughput material design for future studies
翻訳日:2023-12-14 16:55:30 公開日:2023-12-13
# ベトナムのナラティブテキストに対する乱用スパン検出

Abusive Span Detection for Vietnamese Narrative Texts ( http://arxiv.org/abs/2312.07831v1 )

ライセンス: Link先を確認
Nhu-Thanh Nguyen, Khoa Thi-Kim Phan, Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 身体的、心理的、言葉的、性的、経済的、文化的といった様々な形態での虐待は精神健康に悪影響を及ぼす。 しかし、ベトナムのこの分野には自然言語処理(NLP)の適用に関する限られた研究がある。 そこで本研究では,ベトナムのナラティブテキスト中の乱用内容を検出するための,人手によるベトナム語データセットの構築を目標とする。 ベトナムで人気のあるオンライン新聞「VnExpress」からこれらのテキストを入手した。 これらのテキスト中の乱用範囲の特定と分類は、データセット作成において重大な課題となったが、これも研究の動機となった。 PhoBERT と XLM-RoBERTa を凍結し,BiLSTM に隠された状態を用いてデータセットの複雑さを評価することにより,軽量なベースラインモデル実験を行った。 実験結果によると、PhoBERTはラベル付きとラベルなしの両方で他のモデルよりも優れている。 これらの結果は将来の改善の可能性を示している。

Abuse in its various forms, including physical, psychological, verbal, sexual, financial, and cultural, has a negative impact on mental health. However, there are limited studies on applying natural language processing (NLP) in this field in Vietnam. Therefore, we aim to contribute by building a human-annotated Vietnamese dataset for detecting abusive content in Vietnamese narrative texts. We sourced these texts from VnExpress, Vietnam's popular online newspaper, where readers often share stories containing abusive content. Identifying and categorizing abusive spans in these texts posed significant challenges during dataset creation, but it also motivated our research. We experimented with lightweight baseline models by freezing PhoBERT and XLM-RoBERTa and using their hidden states in a BiLSTM to assess the complexity of the dataset. According to our experimental results, PhoBERT outperforms other models in both labeled and unlabeled abusive span detection tasks. These results indicate that it has the potential for future improvements.
翻訳日:2023-12-14 16:55:03 公開日:2023-12-13
# 自動事例要約のための深層学習に基づくシステム

A Deep Learning-Based System for Automatic Case Summarization ( http://arxiv.org/abs/2312.07824v1 )

ライセンス: Link先を確認
Minh Duong, Long Nguyen, Yen Vuong, Trong Le, Ha-Thanh Nguyen(参考訳) 本稿では,効率的な自動事例要約のための深層学習システムを提案する。 最先端の自然言語処理技術を活用して、長い訴訟文書の簡潔かつ関連する要約を生成する教師付きおよび教師なしの手法を提供する。 ユーザフレンドリーなインターフェースにより、ユーザーはシステムの訴訟文書データベースを閲覧し、所望の事例を選択し、好みの要約方法を選択することができる。 本システムは,法文の各部分に対する包括的な要約と全体要約を生成する。 このデモは、法的ケース文書の分析を合理化し、ワークロードの削減と効率の向上によって、法的専門家に利益をもたらす可能性がある。 今後の研究は、要約技術の改良と、我々の手法を他の種類の法的テキストに適用することに焦点を当てる。

This paper presents a deep learning-based system for efficient automatic case summarization. Leveraging state-of-the-art natural language processing techniques, the system offers both supervised and unsupervised methods to generate concise and relevant summaries of lengthy legal case documents. The user-friendly interface allows users to browse the system's database of legal case documents, select their desired case, and choose their preferred summarization method. The system generates comprehensive summaries for each subsection of the legal text as well as an overall summary. This demo streamlines legal case document analysis, potentially benefiting legal professionals by reducing workload and increasing efficiency. Future work will focus on refining summarization techniques and exploring the application of our methods to other types of legal texts.
翻訳日:2023-12-14 16:54:45 公開日:2023-12-13
# RAT: Webアプリケーションファイアウォールにおける脆弱性発見のための強化学習と適応テスト

RAT: Reinforcement-Learning-Driven and Adaptive Testing for Vulnerability Discovery in Web Application Firewalls ( http://arxiv.org/abs/2312.07885v1 )

ライセンス: Link先を確認
Mohammadhossein Amouei, Mohsen Rezvani, Mansoor Fateh(参考訳) Web攻撃の高度化により、Webアプリケーションファイアウォール(WAF)は、Web攻撃の絶え間ない流れに抵抗するために、定期的にテストされ、更新されなければならない。 実際には、さまざまな攻撃パターンのために、ブルートフォース攻撃を使用して脆弱性を発見することは不可能である。 このように、さまざまなブラックボックス試験技術が文献で提案されている。 しかし、これらの技術は低効率である。 本稿では,WAFのインジェクション脆弱性を検出する自動ブラックボックステスト戦略であるReinforcement-Learning-Driven and Adaptive Testing (RAT)を提案する。 特に私たちは、sqlインジェクションとクロスサイトスクリプティングに注目しています。 より具体的には、RATクラスタが同様の攻撃サンプルを一緒に集める。 次に,新しい適応探索アルゴリズムを組み合わせた強化学習手法を用いて,ほぼすべてのバイパス攻撃パターンを効率的に発見する。 RATと最先端の3つの手法の比較を行った。 実験の結果、RATはペイロードを通過させ、適切に設定されたWAFをテストする際に、それぞれ最初のペイロードを通過させる前の試行回数を減らすことで、平均して33.53%と63.16%の性能を発揮した。

Due to the increasing sophistication of web attacks, Web Application Firewalls (WAFs) have to be tested and updated regularly to resist the relentless flow of web attacks. In practice, using a brute-force attack to discover vulnerabilities is infeasible due to the wide variety of attack patterns. Thus, various black-box testing techniques have been proposed in the literature. However, these techniques suffer from low efficiency. This paper presents Reinforcement-Learning-Driven and Adaptive Testing (RAT), an automated black-box testing strategy to discover injection vulnerabilities in WAFs. In particular, we focus on SQL injection and Cross-site Scripting, which have been among the top ten vulnerabilities over the past decade. More specifically, RAT clusters similar attack samples together. It then utilizes a reinforcement learning technique combined with a novel adaptive search algorithm to discover almost all bypassing attack patterns efficiently. We compare RAT with three state-of-the-art methods considering their objectives. The experiments show that RAT performs 33.53% and 63.16% on average better than its counterparts in discovering the most possible bypassing payloads and reducing the number of attempts before finding the first bypassing payload when testing well-configured WAFs, respectively.
翻訳日:2023-12-14 16:49:57 公開日:2023-12-13
# 夜間UAV追跡のための相互学習知識蒸留

Mutual-Learning Knowledge Distillation for Nighttime UAV Tracking ( http://arxiv.org/abs/2312.07884v1 )

ライセンス: Link先を確認
Yufeng Liu, Haobo Zuo, Liangliang Yao, Kunhan Lu, Guangze Zheng and Changhong Fu(参考訳) 夜間無人航空機(UAV)の追跡は、必要不可欠なプラグアンドプレイの低照度エンハンサーによって促進されている。 しかし、低照度エンハンサーの導入は、UAVの余分な計算負担を増大させ、リアルタイムUAVアプリケーションの開発を著しく妨げている。 一方、これらの最先端のSOTA(State-of-the-art)エンハンサーは、高度な日中UAVトラッキングアプローチと密結合を欠いている。 そこで本研究では,夜間UAV追跡のための新たな相互学習知識蒸留フレームワークであるMLKDを提案する。 本フレームワークは,教師からの知識伝達と学生間の知識共有を通じて,コンパクトで迅速な夜間トラッカーを学習するために構築されている。 具体的には,SOTAエンハンサーと優れたトラッキングバックボーンとに基づく上級教師を,タイトな結合認識トラッキングバックボーンのみに基づいて指導し,夜間のオブジェクト特徴を直接抽出する。 一人の生徒のバイアス学習に対処するために,多様な蒸留方法を持つ多様な軽量の生徒が,教師の知識の様々な側面に焦点を合わせるように構築されている。 さらに、先進的な相互学習室を設計し、上位の学生候補を選抜し、訓練段階において残りの学生をフレーム単位で支援する。 さらに、テストデータセットから最後の最高の学生であるMLKD-Trackが選択される。 MLKDとMLKD-Trackの有効性と優位性を示す。 MLKD-Trackの実用性は、異なる課題のある実世界のテストで検証される。 コードはhttps://github.com/vision4robotics/MLKDで公開されている。

Nighttime unmanned aerial vehicle (UAV) tracking has been facilitated with indispensable plug-and-play low-light enhancers. However, the introduction of low-light enhancers increases the extra computational burden for the UAV, significantly hindering the development of real-time UAV applications. Meanwhile, these state-of-the-art (SOTA) enhancers lack tight coupling with the advanced daytime UAV tracking approach. To solve the above issues, this work proposes a novel mutual-learning knowledge distillation framework for nighttime UAV tracking, i.e., MLKD. This framework is constructed to learn a compact and fast nighttime tracker via knowledge transferring from the teacher and knowledge sharing among various students. Specifically, an advanced teacher based on a SOTA enhancer and a superior tracking backbone is adopted for guiding the student based only on the tight coupling-aware tracking backbone to directly extract nighttime object features. To address the biased learning of a single student, diverse lightweight students with different distillation methods are constructed to focus on various aspects of the teacher's knowledge. Moreover, an innovative mutual-learning room is designed to elect the superior student candidate to assist the remaining students frame-by-frame in the training phase. Furthermore, the final best student, i.e., MLKD-Track, is selected through the testing dataset. Extensive experiments demonstrate the effectiveness and superiority of MLKD and MLKD-Track. The practicality of the MLKD-Track is verified in real-world tests with different challenging situations. The code is available at https://github.com/vision4robotics/MLKD.
翻訳日:2023-12-14 16:49:32 公開日:2023-12-13
# CoIE:多属性顔操作のためのChain-of-instruct Editing

CoIE: Chain-of-Instruct Editing for Multi-Attribute Face Manipulation ( http://arxiv.org/abs/2312.07879v1 )

ライセンス: Link先を確認
Zhenduo Zhang, Bowen Zhang, Guang Liu(参考訳) 現在のテキスト画像編集モデルは、単一の命令を使って複数の属性を滑らかに操作する問題にしばしば遭遇する。 言語モデルに活用されるChain-of-Instruct Editing(CoIE)からインスピレーションを得て,一連の命令を用いたステップバイステップ編集により,これらのモデルの能力を向上する,Chain-of-Instruct Editing(CoIE)と呼ばれる革新的な概念を提案する。 特に、顔操作の文脈では、GPT-4のような事前訓練された大規模言語モデル(LLM)の文脈学習能力を利用して、目的設計の1ショットテンプレートを用いて、元の入力から命令列を生成する。 編集ステップの精度をさらに向上するため,自己構築型指導誘導顔編集データセットであるInstruct-CelebAを用いて,編集モデルの微調整を行う。 さらに,編集性や品質劣化の悪影響を軽減するために,スーパーレゾリューションモジュールを組み込んだ。 様々な課題における実験結果から,チェーン・オブ・インストラクション編集による多属性顔画像操作の大幅な向上が確認された。 これは、clipsim と coverage metrics による編集成功率の向上、それぞれ 17.86% と 85.45% の改善、l1 と quality metrics の保持による制御性の向上、それぞれ 11.58% と 4.93% の改善である。

Current text-to-image editing models often encounter challenges with smoothly manipulating multiple attributes using a single instruction. Taking inspiration from the Chain-of-Thought prompting technique utilized in language models, we present an innovative concept known as Chain-of-Instruct Editing (CoIE), which enhances the capabilities of these models through step-by-step editing using a series of instructions. In particular, in the context of face manipulation, we leverage the contextual learning abilities of a pretrained Large Language Model (LLM), such as GPT-4, to generate a sequence of instructions from the original input, utilizing a purpose-designed 1-shot template. To further improve the precision of each editing step, we conduct fine-tuning on the editing models using our self-constructed instruction-guided face editing dataset, Instruct-CelebA. And additionally, we incorporate a super-resolution module to mitigate the adverse effects of editability and quality degradation. Experimental results across various challenging cases confirm the significant boost in multi-attribute facial image manipulation using chain-of-instruct editing. This is evident in enhanced editing success rates, measured by CLIPSim and Coverage metrics, improved by 17.86% and 85.45% respectively, and heightened controllability indicated by Preserve L1 and Quality metrics, improved by 11.58% and 4.93% respectively.
翻訳日:2023-12-14 16:49:08 公開日:2023-12-13
# 大規模言語モデルのセキュリティ評価のための因果解析

Causality Analysis for Evaluating the Security of Large Language Models ( http://arxiv.org/abs/2312.07876v1 )

ライセンス: Link先を確認
Wei Zhao, Zhe Li, Jun Sun(参考訳) gptやllama2といった大規模言語モデル(llm)は多くの安全クリティカルなアプリケーションで採用されている。 したがって、彼らの安全は不可欠である。 人間からのフィードバック(RLHF)からの強化学習に多大な努力を払っているにもかかわらず、近年の研究では、LLMは相変わらず敵の摂動やトロイア攻撃のような攻撃にさらされていることが示されている。 そのため、セキュリティを評価したり、その欠如を理解するためにはさらなる研究が必要である。 本研究では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。 Llama2 や Vicuna などのオープンソース LLM に我々のフレームワークを適用し,興味深い発見がいくつかあった。 層レベルの因果関係解析に基づいて、RLHFは有害なプロンプトに対してモデルに過度に適合する効果を有することを示す。 有害なプロンプトによって、このようなセキュリティが容易に克服できることを意味する。 本研究では,トロイの木馬検出コンペティション2023のレッドチーム作業において,100倍の攻撃成功率を達成する逆摂動法を提案する。 さらに,ミステリーニューロンがllama2とvicunaの両方に存在し,その出力に不合理に高い因果効果を示す。 そのようなニューロンがなぜ存在するのかは定かではないが、特定のニューロンを標的とした ' ‘Trojan'' 攻撃を行えば LLM を完全に損なうことができる、すなわち、LLM が無意味な反応を頻繁に起こさせるような伝達可能な接尾辞を生成できることを示す。

Large Language Models (LLMs) such as GPT and Llama2 are increasingly adopted in many safety-critical applications. Their security is thus essential. Even with considerable efforts spent on reinforcement learning from human feedback (RLHF), recent studies have shown that LLMs are still subject to attacks such as adversarial perturbation and Trojan attacks. Further research is thus needed to evaluate their security and/or understand the lack of it. In this work, we propose a framework for conducting light-weight causality-analysis of LLMs at the token, layer, and neuron level. We applied our framework to open-source LLMs such as Llama2 and Vicuna and had multiple interesting discoveries. Based on a layer-level causality analysis, we show that RLHF has the effect of overfitting a model to harmful prompts. It implies that such security can be easily overcome by `unusual' harmful prompts. As evidence, we propose an adversarial perturbation method that achieves 100\% attack success rate on the red-teaming tasks of the Trojan Detection Competition 2023. Furthermore, we show the existence of one mysterious neuron in both Llama2 and Vicuna that has an unreasonably high causal effect on the output. While we are uncertain on why such a neuron exists, we show that it is possible to conduct a ``Trojan'' attack targeting that particular neuron to completely cripple the LLM, i.e., we can generate transferable suffixes to prompts that frequently make the LLM produce meaningless responses.
翻訳日:2023-12-14 16:48:41 公開日:2023-12-13
# 意味的成分レベル解析によるスケッチ認識の説明可能性

Enhance Sketch Recognition's Explainability via Semantic Component-Level Parsing ( http://arxiv.org/abs/2312.07875v1 )

ライセンス: Link先を確認
Guangming Zhu, Siyuan Wang, Tianci Wu, Liang Zhang(参考訳) フリーハンドスケッチは、視覚世界を描く普遍的なツールとして人間にアピールしている。 人間は、どの種類のセマンティックコンポーネントがそれぞれのスケッチカテゴリを構成するかについての共通のコンセンサスに基づいて自由手スケッチを描くため、カテゴリ固有のセマンティックコンポーネントのコンカレンスとレイアウトを特定することで、カテゴリのさまざまなスケッチを容易に認識することができる。 例えば、飛行機は少なくとも胴体と翼を持つべきである。 この分析に基づいて,提案する構造化スケッチ認識ネットワークにセマンティックコンポーネントレベルのメモリモジュールを構築し,組み込む。 各スケッチカテゴリの意味成分を表すメモリキーを自己学習し、認識ネットワークの説明可能性を高めることができる。 提案するネットワークは、スケッチ認識の異なる状況、すなわち、ストロークのセマンティックコンポーネントラベルの有無を扱うことができる。 SPGとSketchIMEデータセットの実験は、メモリモジュールの柔軟性と認識ネットワークの説明可能性を示している。 コードとデータはhttps://github.com/GuangmingZhu/SketchESCで公開されている。

Free-hand sketches are appealing for humans as a universal tool to depict the visual world. Humans can recognize varied sketches of a category easily by identifying the concurrence and layout of the intrinsic semantic components of the category, since humans draw free-hand sketches based a common consensus that which types of semantic components constitute each sketch category. For example, an airplane should at least have a fuselage and wings. Based on this analysis, a semantic component-level memory module is constructed and embedded in the proposed structured sketch recognition network in this paper. The memory keys representing semantic components of each sketch category can be self-learned and enhance the recognition network's explainability. Our proposed networks can deal with different situations of sketch recognition, i.e., with or without semantic components labels of strokes. Experiments on the SPG and SketchIME datasets demonstrate the memory module's flexibility and the recognition network's explainability. The code and data are available at https://github.com/GuangmingZhu/SketchESC.
翻訳日:2023-12-14 16:48:10 公開日:2023-12-13
# MLNet:Universal Domain Adaptationのための近隣不変性を持つ相互学習ネットワーク

MLNet: Mutual Learning Network with Neighborhood Invariance for Universal Domain Adaptation ( http://arxiv.org/abs/2312.07871v1 )

ライセンス: Link先を確認
Yanzuo Lu, Meng Shen, Andy J Ma, Xiaohua Xie, Jian-Huang Lai(参考訳) ユニバーサルドメイン適応(UniDA)は、ソースとターゲットドメインの関係に関する情報を知識伝達のために与えない、実用的だが困難な問題である。 既存のUniDAメソッドは、ターゲットドメイン内のドメイン内変異を見落としている問題と、同様の既知のクラスと未知のクラスを分離することが困難である。 これらの問題に対処するために,UniDA の近傍不変性を考慮した新しい MLNet (textbf{Mutual Learning Network) を提案する。 本手法では,自己適応的近傍選択を用いた信頼誘導型不変特徴学習により,より一般化可能な特徴表現のための領域内変動を低減する。 未知クラス識別を改善するためにクロスドメインミックスアップスキームを用いることにより、提案手法は、クローズドセットとオープンセットの分類器間の相互学習により、誤識別された既知のクラスエラーを補償する。 一般に公開されている3つのベンチマークの大規模な実験により、我々の手法は、ほとんどの場合において最先端の手法と比較して最高の結果が得られることが示され、UniDAの4つの設定のベースラインをはるかに上回る結果となった。 コードはhttps://github.com/YanzuoLu/MLNetで入手できる。

Universal domain adaptation (UniDA) is a practical but challenging problem, in which information about the relation between the source and the target domains is not given for knowledge transfer. Existing UniDA methods may suffer from the problems of overlooking intra-domain variations in the target domain and difficulty in separating between the similar known and unknown class. To address these issues, we propose a novel \textbf{Mutual Learning Network (MLNet)} with neighborhood invariance for UniDA. In our method, confidence-guided invariant feature learning with self-adaptive neighbor selection is designed to reduce the intra-domain variations for more generalizable feature representation. By using the cross-domain mixup scheme for better unknown-class identification, the proposed method compensates for the misidentified known-class errors by mutual learning between the closed-set and open-set classifiers. Extensive experiments on three publicly available benchmarks demonstrate that our method achieves the best results compared to the state-of-the-arts in most cases and significantly outperforms the baseline across all the four settings in UniDA. Code is available at https://github.com/YanzuoLu/MLNet.
翻訳日:2023-12-14 16:47:52 公開日:2023-12-13
# グラフ対シーケンス:知識接地対話における知識形式に関する実証的研究

Graph vs. Sequence: An Empirical Study on Knowledge Forms for Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2312.07868v1 )

ライセンス: Link先を確認
Yizhe Yang, Heyan Huang, Yihang Liu, Yang Gao(参考訳) 知識基底対話は、対話履歴と外部知識ソースの両方に基づいて情報応答を生成するタスクである。 一般に、知識には2つの形式がある: 手作業による知識グラフとwebサイトからの知識テキスト。 様々な評価の観点から、それぞれの知識には利点と欠点がある。 原理と決定要因をさらに複雑な要因と区別するため,我々は3つの本質的疑問に答えるタスクを徹底的に実験し,検討する。 質問は、適切な知識形式の選択、知識とモデル選択の間の相互効果の程度、知識の少数の性能に関するものである。 統計的なエビデンスによって支持され、我々は決定的な解決策と将来の研究の方向性と標準に対する賢明な提案を提供する。

Knowledge-grounded dialogue is a task of generating an informative response based on both the dialogue history and external knowledge source. In general, there are two forms of knowledge: manually annotated knowledge graphs and knowledge text from website. From various evaluation viewpoints, each type of knowledge has advantages and downsides. To further distinguish the principles and determinants from the intricate factors, we conduct a thorough experiment and study on the task to answer three essential questions. The questions involve the choice of appropriate knowledge form, the degree of mutual effects between knowledge and the model selection, and the few-shot performance of knowledge. Supported by statistical shreds of evidence, we offer conclusive solutions and sensible suggestions for directions and standards of future research.
翻訳日:2023-12-14 16:47:16 公開日:2023-12-13
# bestmvqa : 医用ビジュアル質問応答のためのベンチマーク評価システム

BESTMVQA: A Benchmark Evaluation System for Medical Visual Question Answering ( http://arxiv.org/abs/2312.07867v1 )

ライセンス: Link先を確認
Xiaojie Hong, Zixin Song, Liangzhi Li, Xiaoli Wang, Feiyan Liu(参考訳) 医学的視覚的質問応答(med-vqa)は、医療業界において非常に重要なタスクであり、自然言語質問に医療画像で答える。 情報システムにおける既存のVQA技術は、タスクの解決に直接適用することができる。 しかし、しばしば苦しむ。 (i)データ不足のため、ドメイン特化作業のための技術状況(sota)の訓練が困難である。 (ii)再現性問題、既存モデルの多くが統一実験環境で徹底的に評価されていないこと。 これらの課題に対処するため,BESTMVQA で表される医療視覚質問応答のためのベンチマーク評価システムを開発した。 自己コンパイル型臨床データから,本システムはMed-VQAデータセットを自動構築する上で有用なツールを提供する。 また,モデルライブラリから幅広いsotaモデルを簡便に選択し,総合的な実験研究を行うことができる。 簡単な構成で、ベンチマークデータセット上で選択したモデルを自動的にトレーニングし評価し、ユーザが新しい技術を開発したり、医療実践を行うための総合的な結果を報告する。 既存の仕事の限界は克服される i) 構造化されていない臨床データから新しいデータセットを自動的に作成するデータ生成ツール (2) ベンチマークデータセットのSOTAを統一的な実験装置で評価すること。 我々のシステムのデモビデオはhttps://youtu.be/QkEeFlu1x4Aで見ることができる。 コードとデータはもうすぐ手に入るでしょう。

Medical Visual Question Answering (Med-VQA) is a very important task in healthcare industry, which answers a natural language question with a medical image. Existing VQA techniques in information systems can be directly applied to solving the task. However, they often suffer from (i) the data insufficient problem, which makes it difficult to train the state of the arts (SOTAs) for the domain-specific task, and (ii) the reproducibility problem, that many existing models have not been thoroughly evaluated in a unified experimental setup. To address these issues, this paper develops a Benchmark Evaluation SysTem for Medical Visual Question Answering, denoted by BESTMVQA. Given self-collected clinical data, our system provides a useful tool for users to automatically build Med-VQA datasets, which helps overcoming the data insufficient problem. Users also can conveniently select a wide spectrum of SOTA models from our model library to perform a comprehensive empirical study. With simple configurations, our system automatically trains and evaluates the selected models over a benchmark dataset, and reports the comprehensive results for users to develop new techniques or perform medical practice. Limitations of existing work are overcome (i) by the data generation tool, which automatically constructs new datasets from unstructured clinical data, and (ii) by evaluating SOTAs on benchmark datasets in a unified experimental setup. The demonstration video of our system can be found at https://youtu.be/QkEeFlu1x4A. Our code and data will be available soon.
翻訳日:2023-12-14 16:46:54 公開日:2023-12-13
# SimAC:拡散モデルのテキスト・画像合成に対する簡易なアンチ・カスタム化手法

SimAC: A Simple Anti-Customization Method against Text-to-Image Synthesis of Diffusion Models ( http://arxiv.org/abs/2312.07865v1 )

ライセンス: Link先を確認
Feifei Wang, Zhentao Tan, Tianyi Wei, Yue Wu, Qidong Huang(参考訳) ビジュアルコンテンツ作成における拡散ベースのカスタマイズ手法の成功にもかかわらず、プライバシーと政治の両方の観点からそのような技術に対する懸念が高まっている。 この問題に対処するため、近年ではいくつかのアンチ・カスタマイゼーション手法が提案されている。 残念なことに、これらの手法の多くは、元のトレーニング損失を逆向きに最大化し、拡散モデルに固有の微妙な内部特性を無視し、いくつかの拡散時間ステップにおいて非効率な最適化に至るような単純な設計を採用する。 本稿では,これら固有の特性を包括的に探究し,現在のアンチカスタマイゼーションアプローチの性能を高めることで,このギャップを埋めることに努める。 特性の2つの側面を考察する。 1) 画像の周波数領域における時間ステップ選択とモデル知覚の関係について検討し, より低い時間ステップが対向雑音にさらに寄与することを示した。 これにより,既存のアンチ・カストマイゼーション手法とシームレスに統合された最適時間ステップの適応的欲求探索を提案する。 2)異なるレイヤにおける機能の役割について検討し,アンチカスタマイゼーションのための高度な機能ベースの最適化フレームワークを考案する。 顔のベンチマーク実験により、我々のアプローチはアイデンティティの破壊を著しく増加させ、ユーザのプライバシとセキュリティを向上することを示した。

Despite the success of diffusion-based customization methods on visual content creation, increasing concerns have been raised about such techniques from both privacy and political perspectives. To tackle this issue, several anti-customization methods have been proposed in very recent months, predominantly grounded in adversarial attacks. Unfortunately, most of these methods adopt straightforward designs, such as end-to-end optimization with a focus on adversarially maximizing the original training loss, thereby neglecting nuanced internal properties intrinsic to the diffusion model, and even leading to ineffective optimization in some diffusion time steps. In this paper, we strive to bridge this gap by undertaking a comprehensive exploration of these inherent properties, to boost the performance of current anti-customization approaches. Two aspects of properties are investigated: 1) We examine the relationship between time step selection and the model's perception in the frequency domain of images and find that lower time steps can give much more contributions to adversarial noises. This inspires us to propose an adaptive greedy search for optimal time steps that seamlessly integrates with existing anti-customization methods. 2) We scrutinize the roles of features at different layers during denoising and devise a sophisticated feature-based optimization framework for anti-customization. Experiments on facial benchmarks demonstrate that our approach significantly increases identity disruption, thereby enhancing user privacy and security.
翻訳日:2023-12-14 16:46:17 公開日:2023-12-13
# GraphGuard: グラフニューラルネットワークにおけるトレーニングデータの誤用の検出と防止

GraphGuard: Detecting and Counteracting Training Data Misuse in Graph Neural Networks ( http://arxiv.org/abs/2312.07861v1 )

ライセンス: Link先を確認
Bang Wu, He Zhang, Xiangwen Yang, Shuo Wang, Minhui Xue, Shirui Pan, Xingliang Yuan(参考訳) グラフデータ分析におけるグラフニューラルネットワーク(gnn)の出現と、サービスプラットフォームとしての機械学習への展開は、モデルトレーニング中のデータ誤用に関する重要な懸念を提起している。 この状況は、局所的なトレーニングプロセスにおける透明性の欠如によりさらに悪化し、大量のグラフデータが不正に蓄積され、データ所有者の知的財産権が侵害される可能性がある。 既存の方法論は、データ誤用検出または緩和のいずれかに対処することが多く、主にクラウドベースのMLaaSプラットフォームではなく、ローカルGNNモデル用に設計されている。 これらの制限は、データのプロプライエタリな性質を尊重しながら、正確なトレーニングデータを必要としないデータ誤用を検出し、軽減する、効果的で包括的なソリューションを求める。 本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。 本研究では,グラフデータの誤用を検出するだけでなく,対象とする未学習による影響を緩和する学習データフリー手法を提案する。 本手法は,放射能データを用いたメンバシップ推定を応用し,メンバと非メンバのデータ分布の識別性を高める。 対象モデルで学習した特徴をエミュレートする合成グラフを用いて,正確なグラフデータがない場合でも効果的なアンラーニングを実現する。 実世界のグラフデータセットを4つ利用して総合的な実験を行い、グラフガードの検出と学習の両面での有効性を実証する。 GNNモデルを用いて,GraphGuardがこれらのデータセットに対してほぼ100%の精度で検出可能であることを示す。 さらに、未学習グラフの精度を5%以下に抑えながら、未学習グラフの影響を排除し、未学習を行う。

The emergence of Graph Neural Networks (GNNs) in graph data analysis and their deployment on Machine Learning as a Service platforms have raised critical concerns about data misuse during model training. This situation is further exacerbated due to the lack of transparency in local training processes, potentially leading to the unauthorized accumulation of large volumes of graph data, thereby infringing on the intellectual property rights of data owners. Existing methodologies often address either data misuse detection or mitigation, and are primarily designed for local GNN models rather than cloud-based MLaaS platforms. These limitations call for an effective and comprehensive solution that detects and mitigates data misuse without requiring exact training data while respecting the proprietary nature of such data. This paper introduces a pioneering approach called GraphGuard, to tackle these challenges. We propose a training-data-free method that not only detects graph data misuse but also mitigates its impact via targeted unlearning, all without relying on the original training data. Our innovative misuse detection technique employs membership inference with radioactive data, enhancing the distinguishability between member and non-member data distributions. For mitigation, we utilize synthetic graphs that emulate the characteristics previously learned by the target model, enabling effective unlearning even in the absence of exact graph data. We conduct comprehensive experiments utilizing four real-world graph datasets to demonstrate the efficacy of GraphGuard in both detection and unlearning. We show that GraphGuard attains a near-perfect detection rate of approximately 100% across these datasets with various GNN models. In addition, it performs unlearning by eliminating the impact of the unlearned graph with a marginal decrease in accuracy (less than 5%).
翻訳日:2023-12-14 16:45:22 公開日:2023-12-13
# エネルギー最小化による動脈・静脈セグメンテーションのためのデータ依存型高次クライク選択法

Data-Dependent Higher-Order Clique Selection for Artery-Vein Segmentation by Energy Minimization ( http://arxiv.org/abs/2312.07860v1 )

ライセンス: Link先を確認
Yoshiro Kitamura, Yuanzhong Li, Wataru Ito, Hiroshi Ishikawa(参考訳) 高次ポテンシャルのエネルギー最小化に基づく新しいセグメンテーション法を提案する。 エネルギーに高次項を導入することで、セグメントの形状に事前知識を組み込む。 この用語は、あるピクセルの集合を1つのセグメントまたはもう一方に完全に配置することを奨励する。 例えば、このセットは、ほぼ直線で走ることが知られている肺血管の直線化を助けるために滑らかな曲線となる。 高階項は補助変数を追加することで副モジュラー一階項に変換することができ、グラフカットによってグローバルに最小化することができる。 また、基礎的真理を用いた訓練データから学習することで、これらの用語の重み、または前述の奨励の程度を原理的に決定する。 CT画像における完全自動肺動脈-静脈分画の現実的応用における本法の有効性を実証する。

We propose a novel segmentation method based on energy minimization of higher-order potentials. We introduce higher-order terms into the energy to incorporate prior knowledge on the shape of the segments. The terms encourage certain sets of pixels to be entirely in one segment or the other. The sets can for instance be smooth curves in order to help delineate pulmonary vessels, which are known to run in almost straight lines. The higher-order terms can be converted to submodular first-order terms by adding auxiliary variables, which can then be globally minimized using graph cuts. We also determine the weight of these terms, or the degree of the aforementioned encouragement, in a principled way by learning from training data with the ground truth. We demonstrate the effectiveness of the method in a real-world application in fully-automatic pulmonary artery-vein segmentation in CT images.
翻訳日:2023-12-14 16:44:52 公開日:2023-12-13
# 不変グラフ変換器

Invariant Graph Transformer ( http://arxiv.org/abs/2312.07859v1 )

ライセンス: Link先を確認
Zhe Xu (1), Menghai Pan (2), Yuzhong Chen (2), Huiyuan Chen (2), Yuchen Yan (1), Mahashweta Das (2), Hanghang Tong (1) ((1) University of Illinois Urbana-Champaign, (2) Visa Research)(参考訳) Rationale discovery は、下流タスクの予測を最大限にサポートする入力データのサブセットを見つけるものとして定義される。 グラフ機械学習の文脈では、グラフ論理は与えられたグラフトポロジーの臨界部分グラフを見つけるために定義され、予測結果を根本的に決定する。 有理部分グラフとは対照的に、残りの部分グラフは環境部分グラフと呼ばれる。 グラフの合理化は、グラフの合理性と予測ラベルのマッピングが不変であると見なされるので、モデルの性能を高めることができる。 抽出された合理部分グラフの判別能力を確保するために、"intervention"というキー技術を適用する。 介入の中核となる考え方は、変化する環境部分グラフが与えられた場合、合理的部分グラフからの意味論は不変であり、正しい予測結果を保証することである。 しかし、すべてではないにしても、既存の合理化はグラフデータに作用し、グラフレベルでの介入戦略を発展させる。 本稿では,グラフデータに対する適切な介入戦略を提案する。 我々のアイデアはTransformerモデルの開発によって推進され、自己アテンションモジュールは入力ノード間のリッチな相互作用を提供する。 自己アテンションモジュールをベースとして,提案した不変グラフ変換器(IGT)は,ノードレベルおよび仮想ノードレベルの微細な介入を実現する。 提案したIGTは,13のベースライン手法と比較して,大きな性能上の優位性を示す。

Rationale discovery is defined as finding a subset of the input data that maximally supports the prediction of downstream tasks. In graph machine learning context, graph rationale is defined to locate the critical subgraph in the given graph topology, which fundamentally determines the prediction results. In contrast to the rationale subgraph, the remaining subgraph is named the environment subgraph. Graph rationalization can enhance the model performance as the mapping between the graph rationale and prediction label is viewed as invariant, by assumption. To ensure the discriminative power of the extracted rationale subgraphs, a key technique named "intervention" is applied. The core idea of intervention is that given any changing environment subgraphs, the semantics from the rationale subgraph is invariant, which guarantees the correct prediction result. However, most, if not all, of the existing rationalization works on graph data develop their intervention strategies on the graph level, which is coarse-grained. In this paper, we propose well-tailored intervention strategies on graph data. Our idea is driven by the development of Transformer models, whose self-attention module provides rich interactions between input nodes. Based on the self-attention module, our proposed invariant graph Transformer (IGT) can achieve fine-grained, more specifically, node-level and virtual node-level intervention. Our comprehensive experiments involve 7 real-world datasets, and the proposed IGT shows significant performance advantages compared to 13 baseline methods.
翻訳日:2023-12-14 16:44:17 公開日:2023-12-13
# DTL:視覚認識のための遠方移動学習

DTL: Disentangled Transfer Learning for Visual Recognition ( http://arxiv.org/abs/2312.07856v1 )

ライセンス: Link先を確認
Minghao Fu, Ke Zhu, Jianxin Wu(参考訳) 事前トレーニングされたモデルが急速に大きくなると、下流タスクの微調整コストも着実に増加する。 これらのモデルを経済的に微調整するために、パラメータ効率変換学習(PETL)を提案し、トレーニング可能なパラメータの小さなサブセットをチューニングするだけで品質表現を効率的に学習する。 しかし、現在のpetlメソッドは、トレーニング中にgpuメモリフットプリントがトレーニング可能なパラメータとして効果的に削減されないというジレンマに直面している。 PETLも、GPUのメモリ外問題に遭遇すれば、失敗するだろう。 この現象は、これらのメソッドからのトレーニング可能なパラメータが一般的にバックボーンと絡み合っているため、多くの中間状態が勾配伝播のためにGPUメモリに格納される必要があるためである。 この問題を軽減するために、軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。 タスク固有の情報を少数の低ランク線形マッピングで段階的に抽出し、情報をバックボーンに適切に付加することにより、CSNは様々な下流タスクにおける知識伝達を効果的に実現する。 本手法の有効性を検証するために広範な実験を行った。 提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL手法よりも高い精度で性能を向上し,いくつかの標準ベンチマークで新たな最先端性を実現する。

When pre-trained models become rapidly larger, the cost of fine-tuning on downstream tasks steadily increases, too. To economically fine-tune these models, parameter-efficient transfer learning (PETL) is proposed, which only tunes a tiny subset of trainable parameters to efficiently learn quality representations. However, current PETL methods are facing the dilemma that during training the GPU memory footprint is not effectively reduced as trainable parameters. PETL will likely fail, too, if the full fine-tuning encounters the out-of-GPU-memory issue. This phenomenon happens because trainable parameters from these methods are generally entangled with the backbone, such that a lot of intermediate states have to be stored in GPU memory for gradient propagation. To alleviate this problem, we introduce Disentangled Transfer Learning (DTL), which disentangles the trainable parameters from the backbone using a lightweight Compact Side Network (CSN). By progressively extracting task-specific information with a few low-rank linear mappings and appropriately adding the information back to the backbone, CSN effectively realizes knowledge transfer in various downstream tasks. We conducted extensive experiments to validate the effectiveness of our method. The proposed method not only reduces a large amount of GPU memory usage and trainable parameters, but also outperforms existing PETL methods by a significant margin in accuracy, achieving new state-of-the-art on several standard benchmarks.
翻訳日:2023-12-14 16:43:50 公開日:2023-12-13
# セッションベースレコメンデーションにおける人気バイアスの検討

Exploring Popularity Bias in Session-based Recommendation ( http://arxiv.org/abs/2312.07855v1 )

ライセンス: Link先を確認
Haowen Wang(参考訳) 既存の研究によると、ユーザとイテムのインタラクションのためのリコメンデータシステムの大規模なオフライン評価は、クローズドループフィードバックの一形態として、デプロイシステム自体が引き起こすバイアスの傾向にある。 この経験的問題を解析または緩和するために、多くの人は \textit{propensity} の概念を採用している。 本研究は,セッションベースレコメンデーションタスクのユニークな特徴に対して,セッションベースの設定と適応性計算に分析を拡張したものである。 我々の実験はニューラルモデルとKNNベースのモデルを含み、音楽と電子商取引の両方をカバーする。 我々は,異なるデータセット上での確率分布と異なる階層化手法について検討し,その特性が実際にデータセットに特異的であることを示す。 そして、階層化の効果を活用し、元のモデルと比較して有望な結果を得る。

Existing work has revealed that large-scale offline evaluation of recommender systems for user-item interactions is prone to bias caused by the deployed system itself, as a form of closed loop feedback. Many adopt the \textit{propensity} concept to analyze or mitigate this empirical issue. In this work, we extend the analysis to session-based setup and adapted propensity calculation to the unique characteristics of session-based recommendation tasks. Our experiments incorporate neural models and KNN-based models, and cover both the music and the e-commerce domain. We study the distributions of propensity and different stratification techniques on different datasets and find that propensity-related traits are actually dataset-specific. We then leverage the effect of stratification and achieve promising results compared to the original models.
翻訳日:2023-12-14 16:43:28 公開日:2023-12-13
# 拡散モデルによる下肢人工装具使用者のゼロショットポーズ推定

Diffusion Models Enable Zero-Shot Pose Estimation for Lower-Limb Prosthetic Users ( http://arxiv.org/abs/2312.07854v1 )

ライセンス: Link先を確認
Tianxun Zhou, Muhammad Nur Shahril Iskandar, Keng-Hwee Chiam(参考訳) 2dマーカーレス歩行分析の適用は、臨床における関心と応用の高まりをもたらしている。 しかし、低リンブアンプーテの領域におけるその効果は、最適よりも低いままである。 そこで本研究では,画像生成拡散モデルを用いて下肢人工装具に対するマーカーレスポーズ推定を実現する革新的なゼロショット法を提案する。 提案手法は, 既存の方法よりも義肢のキーポイントを検出できることを示し, 臨床医が歩行周期を通じて下肢切断のキネマティクスについて重要な知見を得ることを可能にする。 得られた結果は、このゼロショットアプローチの実現可能性の実証となるだけでなく、この独特な人口の歩行分析を通じてリハビリテーションを促進する可能性の核心となる。

The application of 2D markerless gait analysis has garnered increasing interest and application within clinical settings. However, its effectiveness in the realm of lower-limb amputees has remained less than optimal. In response, this study introduces an innovative zero-shot method employing image generation diffusion models to achieve markerless pose estimation for lower-limb prosthetics, presenting a promising solution to gait analysis for this specific population. Our approach demonstrates an enhancement in detecting key points on prosthetic limbs over existing methods, and enables clinicians to gain invaluable insights into the kinematics of lower-limb amputees across the gait cycle. The outcomes obtained not only serve as a proof-of-concept for the feasibility of this zero-shot approach but also underscore its potential in advancing rehabilitation through gait analysis for this unique population.
翻訳日:2023-12-14 16:43:14 公開日:2023-12-13
# polar-doc: 極性表現下でのマルチスコープ制約付き一段階文書の変形

Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation ( http://arxiv.org/abs/2312.07925v1 )

ライセンス: Link先を確認
Weiguang Zhang, Qiufeng Wang, Kaizhu Huang(参考訳) テキスト認識のために写真文書の幾何学的変形を排除しようとする文書デワープは近年大きく進歩しているが,解決には程遠い。 デカルト座標は、典型的には変形制御点のグループを学ぶための最先端のアプローチによって利用されるが、そのような表現は変形情報を学習するための変形モデルにとって効率的ではない。 本研究では,文書デワープにおける各点の極座標表現,すなわちPolar-Docについて検討する。 2段階パイプラインを採用する現在のほとんどの作業とは対照的に、Polar表現は1つのステージでセグメンテーションとデウォープネットワークの両方に統一されたポイント回帰フレームワークを可能にする。 このような統一により、モデル全体がエンドツーエンドの最適化パイプラインで学習しやすくなり、コンパクトな表現も得られる。 さらに、制御点間の関係を極性表現に基づくグリッドベース正規化として制約する、新しいマルチスコープポラリド-IOU損失を提案する。 2つのベンチマークにおける視覚的比較と定量的実験により、マルチスコープ制約のあるワンステージモデルでは、ピクセルアライメントメトリクスとocrメトリクスの両方において、新たな最先端のパフォーマンスを実現しています。 ソースコードは \url{*****} で入手できる。

Document dewarping, aiming to eliminate geometric deformation in photographed documents to benefit text recognition, has made great progress in recent years but is still far from being solved. While Cartesian coordinates are typically leveraged by state-of-the-art approaches to learn a group of deformation control points, such representation is not efficient for dewarping model to learn the deformation information. In this work, we explore Polar coordinates representation for each point in document dewarping, namely Polar-Doc. In contrast to most current works adopting a two-stage pipeline typically, Polar representation enables a unified point regression framework for both segmentation and dewarping network in one single stage. Such unification makes the whole model more efficient to learn under an end-to-end optimization pipeline, and also obtains a compact representation. Furthermore, we propose a novel multi-scope Polar-Doc-IOU loss to constrain the relationship among control points as a grid-based regularization under the Polar representation. Visual comparisons and quantitative experiments on two benchmarks show that, with much fewer parameters than the other mainstream counterparts, our one-stage model with multi-scope constraints achieves new state-of-the-art performance on both pixel alignment metrics and OCR metrics. Source codes will be available at \url{*****}.
翻訳日:2023-12-14 16:37:10 公開日:2023-12-13
# メモリ効率の良い可逆スパイクニューラルネットワーク

Memory-Efficient Reversible Spiking Neural Networks ( http://arxiv.org/abs/2312.07922v1 )

ライセンス: Link先を確認
Hong Zhang, Yu Zhang(参考訳) スパイキングニューラルネットワーク(snn)は、ニューロモルフィックハードウェアのエネルギー効率が高いため、ニューラルネットワーク(ann)の潜在的な競合である。 しかし、SNNはトレーニングプロセス中にシミュレーション時間ステップで展開される。 したがって、SNNは、より深いSNNモデルのトレーニングを妨げるANNよりもはるかに多くのメモリを必要とする。 本稿では,学習中の中間活性化と膜電位のメモリコストを低減するために,可逆性スパイキングニューラルネットワークを提案する。 まず,可逆構造を時間次元に沿って拡張し,計算グラフを再構成し,すべての中間変数を逆プロセスで再計算できる可逆スピーキングブロックを提案する。 そこで本研究では,最新のsnモデルを可逆型snnet (revsresnet) と可逆型snsトランスフォーマー (revsformer) に適用する。 静的およびニューロモルフィックデータセットの実験を通して、我々の可逆SNNの画像あたりのメモリコストがネットワークの深さとともに増加しないことを示した。 CIFAR10とCIFAR100データセットでは、我々のRevSResNet37とRevSFormer-4-384は同等の精度を達成し、ほぼ同じモデルの複雑さとパラメータを持つデータセットよりも3.79xと3.00x低いGPUメモリを消費します。 この作業は、SNNトレーニングにおけるメモリ制約を解き放ち、非常に大きく深いSNNトレーニングの道を開くことができると考えています。 コードはhttps://github.com/mi804/RevSNN.gitで入手できる。

Spiking neural networks (SNNs) are potential competitors to artificial neural networks (ANNs) due to their high energy-efficiency on neuromorphic hardware. However, SNNs are unfolded over simulation time steps during the training process. Thus, SNNs require much more memory than ANNs, which impedes the training of deeper SNN models. In this paper, we propose the reversible spiking neural network to reduce the memory cost of intermediate activations and membrane potentials during training. Firstly, we extend the reversible architecture along temporal dimension and propose the reversible spiking block, which can reconstruct the computational graph and recompute all intermediate variables in forward pass with a reverse process. On this basis, we adopt the state-of-the-art SNN models to the reversible variants, namely reversible spiking ResNet (RevSResNet) and reversible spiking transformer (RevSFormer). Through experiments on static and neuromorphic datasets, we demonstrate that the memory cost per image of our reversible SNNs does not increase with the network depth. On CIFAR10 and CIFAR100 datasets, our RevSResNet37 and RevSFormer-4-384 achieve comparable accuracies and consume 3.79x and 3.00x lower GPU memory per image than their counterparts with roughly identical model complexity and parameters. We believe that this work can unleash the memory constraints in SNN training and pave the way for training extremely large and deep SNNs. The code is available at https://github.com/mi804/RevSNN.git.
翻訳日:2023-12-14 16:36:45 公開日:2023-12-13
# BinGo:グラフ表現学習によるバイナリコードのセキュリティパッチの識別

BinGo: Identifying Security Patches in Binary Code with Graph Representation Learning ( http://arxiv.org/abs/2312.07921v1 )

ライセンス: Link先を確認
Xu He, Shu Wang, Pengbin Feng, Xinda Wang, Shiyu Sun, Qi Li, Kun Sun(参考訳) セキュリティ上の脆弱性の増大に対処するには,タイムリーなソフトウェアアップデートが不可欠だ。 しかし、一部のソフトウェアベンダーは、CVEエントリを作成したり、変更ログにセキュリティ問題を記述することなく、秘密裏に脆弱性をパッチする可能性がある。 したがって、これらの隠れたセキュリティパッチを特定し、N日攻撃の可能性を打ち負かすことが重要である。 研究者たちは、さまざまな機械学習技術を使用して、オープンソースソフトウェアのセキュリティパッチを特定し、ソフトウェアの変更とコミットメッセージの構文と意味的特徴を活用する。 しかし、これらすべてのソリューションはバイナリコードに直接適用できず、その命令とプログラムフローは異なるコンパイル構成のために劇的に異なる可能性がある。 本稿では,バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。 主なアイデアは、バイナリコードをコードプロパティグラフとして提示し、プログラムフローを包括的に理解し、インストラクションセマンティクスを取得するためにバイナリコードのブロックごとに言語モデルを実行することである。 BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。 既存のバイナリセキュリティパッチデータセットがないため、Linuxカーネルの事前パッチと後パッチのソースコードをコンパイルすることで、そのようなデータセットを構築します。 実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。 さらに、BinGoは、異なるコンパイラと最適化レベルに起因する偽陽性と偽陰性を効果的に削減できる。

A timely software update is vital to combat the increasing security vulnerabilities. However, some software vendors may secretly patch their vulnerabilities without creating CVE entries or even describing the security issue in their change log. Thus, it is critical to identify these hidden security patches and defeat potential N-day attacks. Researchers have employed various machine learning techniques to identify security patches in open-source software, leveraging the syntax and semantic features of the software changes and commit messages. However, all these solutions cannot be directly applied to the binary code, whose instructions and program flow may dramatically vary due to different compilation configurations. In this paper, we propose BinGo, a new security patch detection system for binary code. The main idea is to present the binary code as code property graphs to enable a comprehensive understanding of program flow and perform a language model over each basic block of binary code to catch the instruction semantics. BinGo consists of four phases, namely, patch data pre-processing, graph extraction, embedding generation, and graph representation learning. Due to the lack of an existing binary security patch dataset, we construct such a dataset by compiling the pre-patch and post-patch source code of the Linux kernel. Our experimental results show BinGo can achieve up to 80.77% accuracy in identifying security patches between two neighboring versions of binary code. Moreover, BinGo can effectively reduce the false positives and false negatives caused by the different compilers and optimization levels.
翻訳日:2023-12-14 16:36:17 公開日:2023-12-13
# drivinggaussian: 動的自律走行シーンのための複合ガウスプレート

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes ( http://arxiv.org/abs/2312.07920v1 )

ライセンス: Link先を確認
Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang(参考訳) 我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。 移動物体を持つ複雑なシーンでは、まずシーン全体の静的背景を段階的に、段階的に3Dガウスアンでモデル化する。 次に,複合動的ガウスグラフを用いて複数の移動物体を処理し,個々の物体を個別に再構成し,それらの正確な位置と咬合関係を再現する。 我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。 ドライビングガウシアンはシーン再構成の既存の手法よりも優れており、高忠実でマルチカメラの整合性を備えたフォトリアリスティックサラウンドビュー合成を可能にする。 ソースコードとトレーニングされたモデルがリリースされる。

We present DrivingGaussian, an efficient and effective framework for surrounding dynamic autonomous driving scenes. For complex scenes with moving objects, we first sequentially and progressively model the static background of the entire scene with incremental static 3D Gaussians. We then leverage a composite dynamic Gaussian graph to handle multiple moving objects, individually reconstructing each object and restoring their accurate positions and occlusion relationships within the scene. We further use a LiDAR prior for Gaussian Splatting to reconstruct scenes with greater details and maintain panoramic consistency. DrivingGaussian outperforms existing methods in driving scene reconstruction and enables photorealistic surround-view synthesis with high-fidelity and multi-camera consistency. The source code and trained models will be released.
翻訳日:2023-12-14 16:35:52 公開日:2023-12-13
# 階層的深層強化学習によるマルチUAV支援無線動的通信の設計

On Designing Multi-UAV aided Wireless Powered Dynamic Communication via Hierarchical Deep Reinforcement Learning ( http://arxiv.org/abs/2312.07917v1 )

ライセンス: Link先を確認
Ze Yu Zhao and Yue Ling Che and Sheng Luo and Gege Luo and Kaishun Wu and Victor C. M. Leung(参考訳) 本稿では,複数の無人航空機(uavs)の助けを借りて,動的環境における無線通信ネットワーク(wpcn)の新しい設計を提案する。 従来の研究とは異なり、低電力無線ノード(WN)はコヒーレントな収穫-送信プロトコルによく準拠するが、新たに提案したダブルスレッショルドベースのWNタイプ更新ルールでは、各WNは、時間スロットを経由した非線形エネルギー収穫のためのEノードとして、またサブスロット上でデータを送信するためのIノードとして、WNタイプを動的かつ繰り返し更新することができる。 Tスロット上の全WNの送信データサイズを最大化するために、各UAVは、各UAVの制限されたオンボードエネルギーと各WNのノードタイプ更新ルールの制約の下で、時間スロット上の軌道およびバイナリ無線エネルギー伝送(WET)決定とサブスロット上のバイナリ無線データ収集(WDC)決定を個別に決定する。 しかし、UAVのWETおよびWDC決定との密結合軌道と、各WNの時間変化バッテリエネルギーにより、この問題は最適に解決することが困難である。 次に,マルチエージェントに基づく階層型深層強化学習(MAHDRL)フレームワークを提案し,各UAVの連続軌跡とバイナリWET決定をタイムスロット上で決定するソフトアクタ評論家(SAC)ポリシーをtier-1で設計し,深部Q学習(DQN)ポリシーをtier-2で設計し,各UAVのサブスロットに対するサブスロットに対するバイナリWDC決定をtier-1から決定する。 SACポリシーとDQNポリシーは、それぞれのUAVで分配的に実行される。 最後に,様々な最先端ベンチマークに対して提案したMAHDRL法の性能評価を行うため,広範囲なシミュレーション結果が得られた。

This paper proposes a novel design on the wireless powered communication network (WPCN) in dynamic environments under the assistance of multiple unmanned aerial vehicles (UAVs). Unlike the existing studies, where the low-power wireless nodes (WNs) often conform to the coherent harvest-then-transmit protocol, under our newly proposed double-threshold based WN type updating rule, each WN can dynamically and repeatedly update its WN type as an E-node for non-linear energy harvesting over time slots or an I-node for transmitting data over sub-slots. To maximize the total transmission data size of all the WNs over T slots, each of the UAVs individually determines its trajectory and binary wireless energy transmission (WET) decisions over times slots and its binary wireless data collection (WDC) decisions over sub-slots, under the constraints of each UAV's limited on-board energy and each WN's node type updating rule. However, due to the UAVs' tightly-coupled trajectories with their WET and WDC decisions, as well as each WN's time-varying battery energy, this problem is difficult to solve optimally. We then propose a new multi-agent based hierarchical deep reinforcement learning (MAHDRL) framework with two tiers to solve the problem efficiently, where the soft actor critic (SAC) policy is designed in tier-1 to determine each UAV's continuous trajectory and binary WET decision over time slots, and the deep-Q learning (DQN) policy is designed in tier-2 to determine each UAV's binary WDC decisions over sub-slots under the given UAV trajectory from tier-1. Both of the SAC policy and the DQN policy are executed distributively at each UAV. Finally, extensive simulation results are provided to validate the outweighed performance of the proposed MAHDRL approach over various state-of-the-art benchmarks.
翻訳日:2023-12-14 16:35:40 公開日:2023-12-13
# 大規模言語モデルにおけるテキスト透かしの実態調査

A Survey of Text Watermarking in the Era of Large Language Models ( http://arxiv.org/abs/2312.07913v1 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,Large Language Models (LLMs) のテキスト生成機能において,抽象要約や対話生成,データからテキストへの変換といった下流タスクにおいて,例外的な性能を示す顕著な進歩がなされている。 しかし、それらの生成能力は、フェイクニュースの急速な拡散、データセット/LLM著作権の侵害、学術的完全性への挑戦などのリスクを引き起こす。 テキスト透かし技術が潜在的な解決策として現れる。 目に見えないが検出可能なパターンを生成テキストに埋め込むことで、テキスト起源の追跡と検証に役立ち、不正使用や海賊行為を防止する。 本研究の目的は,(1)異なるテキスト透かし技術の概要と比較,(2)テキスト透かしアルゴリズムの評価方法,(2)成功率,テキスト品質への影響,堅牢性,忘れやすさ,(3)テキスト透かし技術の潜在的な応用,の3点を包括的に要約することにある。 この調査は、研究者がテキスト透かし技術を完全に理解し、さらなる開発を促進することを目的としている。

In recent years, significant advancements have been made in the text generation capabilities of Large Language Models (LLMs), demonstrating exceptional performance in downstream tasks such as abstract summarization, dialogue generation, and data-to-text conversion. However, their generative abilities also pose risks such as the rapid spread of fake news, infringement of datasets/LLM copyrights, and challenges to academic integrity. Text watermarking technology emerges as a potential solution. By embedding invisible yet detectable patterns in generated texts, it helps in tracking and verifying text origins, thus preventing misuse and piracy. This survey aims to comprehensively summarize current text watermarking technologies, covering three main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their success rate, impact on text quality, robustness, and unforgeability; (3) potential applications of text watermarking technologys. This survey aims to help researchers thoroughly understanding the text watermarking technologies, thereby fostering further development.
翻訳日:2023-12-14 16:35:00 公開日:2023-12-13
# プロジェクティブ・パラレル・シングルピクセルイメージング:大域照明下での3次元構造光走査

Projective Parallel Single-Pixel Imaging: 3D Structured Light Scanning Under Global Illumination ( http://arxiv.org/abs/2312.07911v1 )

ライセンス: Link先を確認
Yuxi Li, Hongzhi Jiang, Huijie Zhao, Xudong Li(参考訳) 我々は,光輸送挙動を解析し,大域照明による光効果の分離を可能とし,大域照明下での3次元構造光走査を実現するための3次元撮影手法である投影平行一画素イメージング(pPSI)を提案する。 光輸送挙動は、プロジェクターカメラ対の完全な情報を含み、4Dデータセットである光輸送係数(LTC)によって記述される。 しかし、LCCの捕獲は一般的に時間を要する。 pPSIの4D LTCは投射関数に還元され、高効率なデータキャプチャプロセスが実現される。 本稿では,プロジェクションが捕捉されたときの候補対応点の位置を制約する局所的最大制約を提案する。 プロジェクション関数のキャプチャを高速化するローカルスライス拡張(LSE)法が導入された。 pPSIの最適化はいくつかの状況下で行われる。 pPSIに必要な投影関数の数を最適化し,LSEにおける捕捉比が対応一致点の精度に及ぼす影響について検討した。 議論と実験には、反射と地下散乱の2種類の典型的な全球照明が含まれる。 提案手法は,いくつかの難解なシナリオで検証され,最先端手法よりも優れている。

We present projective parallel single-pixel imaging (pPSI), a 3D photography method that provides a robust and efficient way to analyze the light transport behavior and enables separation of light effect due to global illumination, thereby achieving 3D structured light scanning under global illumination. The light transport behavior is described by the light transport coefficients (LTC), which contain complete information for a projector camera pair, and is a 4D data set. However, the capture of LTC is generally time consuming. The 4D LTC in pPSI are reduced to projection functions, thereby enabling a highly efficient data capture process. We introduce the local maximum constraint, which provides constraint for the location of candidate correspondence matching points when projections are captured. Local slice extension (LSE) method is introduced to accelerate the capture of projection functions. Optimization is conducted for pPSI under several situations. The number of projection functions required for pPSI is optimized and the influence of capture ratio in LSE on the accuracy of the correspondence matching points is investigated. Discussions and experiments include two typical kinds of global illuminations: inter-reflections and subsurface scattering. The proposed method is validated with several challenging scenarios, and outperforms the state-of-the-art methods.
翻訳日:2023-12-14 16:34:39 公開日:2023-12-13
# PromptBench: 大規模言語モデル評価のための統一ライブラリ

PromptBench: A Unified Library for Evaluation of Large Language Models ( http://arxiv.org/abs/2312.07910v1 )

ライセンス: Link先を確認
Kaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie(参考訳) 大規模言語モデル(LLM)の評価は、その性能を評価し、潜在的なセキュリティリスクを軽減するために重要である。 本稿では,LLMを評価する統一ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプト攻撃、動的評価プロトコル、分析ツールなど、研究者が容易に使用および拡張できるいくつかの重要なコンポーネントで構成されている。 PromptBenchは、研究目的のためのオープンで汎用的で柔軟なコードベースとして設計されており、新しいベンチマークの作成、下流アプリケーションのデプロイ、新しい評価プロトコルの設計において、オリジナルの研究を促進することができる。 コードはhttps://github.com/microsoft/promptbenchで入手できる。

The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.
翻訳日:2023-12-14 16:34:20 公開日:2023-12-13
# 深層学習時代における植物病の認識データセット : 課題と機会

Plant Disease Recognition Datasets in the Age of Deep Learning: Challenges and Opportunities ( http://arxiv.org/abs/2312.07905v1 )

ライセンス: Link先を確認
Mingle Xu and Ji Eun Park and Jaehwan Lee and Jucheng Yang and Sook Yoon(参考訳) 植物病の認識は近年、深層学習で顕著な改善をみせている。 植物病データセットは必須であり、多くの関連するデータセットが公開されているが、2つの根本的な疑問が存在する。 まず、データセットを区別し、特定のアプリケーションに適したパブリックデータセットを選択する方法。 第二に、現実世界のアプリケーションで有望なパフォーマンスを達成するために、データセットのどのような特性が望ましいか? そこで本研究では,潜在的な植物病データセットを記述するための情報分類法を提案する。 さらに、チャレンジ指向データセットの作成や、現実のアプリケーションにディープラーニングを配置する究極の目的など、パフォーマンスに満足するいくつかの方向性も提供します。 さらに、既存の関連RGBイメージデータセットを要約する。 本研究は,より優れたデータセット作成に寄与し,植物種認識などの植物疾患認識を超えても寄与すると考えられる。 コミュニティを促進するために、我々のプロジェクトは、関連する公開データセットの情報を含むパブリックhttps://github.com/xml94/ppdrdです。

Plant disease recognition has witnessed a significant improvement with deep learning in recent years. Although plant disease datasets are essential and many relevant datasets are public available, two fundamental questions exist. First, how to differentiate datasets and further choose suitable public datasets for specific applications? Second, what kinds of characteristics of datasets are desired to achieve promising performance in real-world applications? To address the questions, this study explicitly propose an informative taxonomy to describe potential plant disease datasets. We further provide several directions for future, such as creating challenge-oriented datasets and the ultimate objective deploying deep learning in real-world applications with satisfactory performance. In addition, existing related public RGB image datasets are summarized. We believe that this study will contributing making better datasets and that this study will contribute beyond plant disease recognition such as plant species recognition. To facilitate the community, our project is public https://github.com/xml94/PPDRD with the information of relevant public datasets.
翻訳日:2023-12-14 16:34:07 公開日:2023-12-13
# カルトグラフィーにおける人工知能研究 : 方法、応用、倫理のレビューと合成

Artificial Intelligence Studies in Cartography: A Review and Synthesis of Methods, Applications, and Ethics ( http://arxiv.org/abs/2312.07901v1 )

ライセンス: Link先を確認
Yuhao Kang and Song Gao and Robert E. Roth(参考訳) 過去10年間、地空間人工知能(GeoAI)の急速な発展は、主にディープラーニングと機械学習における画期的な成果のために見られた。 地図学の研究者は、GeoAIが以前複雑な地図デザインタスクを加速し、新しい方法で地図作成を可能にすることを実証している。 GeoAIの約束にもかかわらず、研究者や実践者は、地図学におけるGeoAIの倫理的問題に懸念を抱いている。 本稿では,GeoAIと地図学を統合した研究の体系的内容分析と物語合成を行い,地図設計におけるGeoAIの利用に関する現在の研究動向をまとめた。 このレビューと合成に基づいて,まず,地図作成のさまざまな役割を果たすデータソース,データフォーマット,地図評価,および6つの現代ジオアイモデルなど,地図作成のためのジオア手法の次元を同定した。 これらのモデルには、決定木、知識グラフとセマンティックウェブ技術、深層畳み込みニューラルネットワーク、生成的敵ネットワーク、グラフニューラルネットワーク、強化学習が含まれる。 さらに,GeoAIが効果的に採用されている地図設計アプリケーションとして,一般化,シンボル化,タイポグラフィ,地図読影,地図解釈,地図解析,地図生成の7つをまとめた。 また、地図作成のためのGeoAIの統合において対処すべき潜在的な倫理的課題として、コモディフィケーション、責任、プライバシ、バイアス、透明性、説明可能性、証明の5つを挙げています。 今後,GeoAIによる地図研究の4つの可能性を探るため,GeoAI対応アクティブな地図シンボル,Human-in-the-loop GeoAI for cartography,GeoAI-based mapping-as-a-service,生成型GeoAI for cartographyについて検討した。

The past decade has witnessed the rapid development of geospatial artificial intelligence (GeoAI) primarily due to the ground-breaking achievements in deep learning and machine learning. A growing number of scholars from cartography have demonstrated successfully that GeoAI can accelerate previously complex cartographic design tasks and even enable cartographic creativity in new ways. Despite the promise of GeoAI, researchers and practitioners have growing concerns about the ethical issues of GeoAI for cartography. In this paper, we conducted a systematic content analysis and narrative synthesis of research studies integrating GeoAI and cartography to summarize current research and development trends regarding the usage of GeoAI for cartographic design. Based on this review and synthesis, we first identify dimensions of GeoAI methods for cartography such as data sources, data formats, map evaluations, and six contemporary GeoAI models, each of which serves a variety of cartographic tasks. These models include decision trees, knowledge graph and semantic web technologies, deep convolutional neural networks, generative adversarial networks, graph neural networks, and reinforcement learning. Further, we summarize seven cartographic design applications where GeoAI have been effectively employed: generalization, symbolization, typography, map reading, map interpretation, map analysis, and map production. We also raise five potential ethical challenges that need to be addressed in the integration of GeoAI for cartography: commodification, responsibility, privacy, bias, and (together) transparency, explainability, and provenance. We conclude by identifying four potential research directions for future cartographic research with GeoAI: GeoAI-enabled active cartographic symbolism, human-in-the-loop GeoAI for cartography, GeoAI-based mapping-as-a-service, and generative GeoAI for cartography.
翻訳日:2023-12-14 16:33:49 公開日:2023-12-13
# 深層学習時代における薬物発見の形態的プロファイリング

Morphological Profiling for Drug Discovery in the Era of Deep Learning ( http://arxiv.org/abs/2312.07899v1 )

ライセンス: Link先を確認
Qiaosi Tang, Ranjala Ratnayake, Gustavo Seabra, Zhe Jiang, Ruogu Fang, Lina Cui, Yousong Ding, Tamer Kahveci, Jiang Bian, Chenglong Li, Hendrik Luesch, Yanjun Li(参考訳) 形態学的プロファイリングは表現型薬物の発見に有用である。 高出力自動イメージングの出現により、単細胞解像度での摂動に応答して、細胞や生物の幅広い形態的特徴を捉えられるようになった。 同時に、特にコンピュータビジョンにおける機械学習とディープラーニングの大幅な進歩により、大規模な高コンテント画像の高速スループット解析が大幅に改善されている。 これらの取り組みは、複合作用機構(MOA)の理解、薬物の精製、摂動下での細胞形態動態の解明、そして最終的には新しい治療法の開発に寄与している。 本稿では, 形態素プロファイリングの分野における最近の進歩について概観する。 画像プロファイリング分析ワークフローを要約し、特徴工学とディープラーニングに基づくアプローチを含む幅広い分析戦略を調査し、公開可能なベンチマークデータセットを導入する。 我々は,このパイプラインにおける深層学習の適用に特に重点を置いており,細胞セグメンテーション,画像表現学習,マルチモーダル学習を網羅している。 さらに, 表現型薬物発見における形態学的プロファイリングの適用を照らし, この分野の潜在的な課題と機会を強調した。

Morphological profiling is a valuable tool in phenotypic drug discovery. The advent of high-throughput automated imaging has enabled the capturing of a wide range of morphological features of cells or organisms in response to perturbations at the single-cell resolution. Concurrently, significant advances in machine learning and deep learning, especially in computer vision, have led to substantial improvements in analyzing large-scale high-content images at high-throughput. These efforts have facilitated understanding of compound mechanism-of-action (MOA), drug repurposing, characterization of cell morphodynamics under perturbation, and ultimately contributing to the development of novel therapeutics. In this review, we provide a comprehensive overview of the recent advances in the field of morphological profiling. We summarize the image profiling analysis workflow, survey a broad spectrum of analysis strategies encompassing feature engineering- and deep learning-based approaches, and introduce publicly available benchmark datasets. We place a particular emphasis on the application of deep learning in this pipeline, covering cell segmentation, image representation learning, and multimodal learning. Additionally, we illuminate the application of morphological profiling in phenotypic drug discovery and highlight potential challenges and opportunities in this field.
翻訳日:2023-12-14 16:33:15 公開日:2023-12-13
# ハミルトンシミュレーションによる反応流の量子計算

Quantum computing of reacting flows via Hamiltonian simulation ( http://arxiv.org/abs/2312.07893v1 )

ライセンス: Link先を確認
Zhen Lu and Yue Yang(参考訳) 我々は,ハミルトニアンダイナミクスをシミュレートした反応流の量子計算について報告する。 反応する流れに対するスカラー輸送方程式はハミルトニアン系に変換され、物理空間における散逸および非エルミート問題と高次元空間におけるエルミート問題とをマッピングする。 この手法を用いて, 周期的および一般的に反応流をシミュレートする量子スペクトル法と有限差分法を開発した。 現在の量子コンピューティングアルゴリズムは、時間的離散化を伴わずに、反復的な量子状態の準備と測定を避けて、所定の時間に '`one-shot'' ソリューションを提供する。 量子および古典的アルゴリズムの計算複雑性を比較する。 量子スペクトル法は古典的手法と比較して指数加速度を示し、量子有限差分法は高次元問題において指数速度を達成できる。 量子アルゴリズムはQiskitパッケージを用いて量子コンピューティングシミュレータ上で検証される。 検証ケースは、1次元および2次元の反応フローを線形なソース項と周期的または入出力境界条件でカバーする。 量子スペクトル法と有限差分法から得られた結果は、解析的および古典的シミュレーション結果と一致する。 対流、拡散、反応の過程を正確に捉えている。 これは、燃焼中の反応流のシミュレーションのための効率的なツールとしての量子コンピューティングの可能性を示す。

We report the quantum computing of reacting flows by simulating the Hamiltonian dynamics. The scalar transport equation for reacting flows is transformed into a Hamiltonian system, mapping the dissipative and non-Hermitian problem in physical space to a Hermitian one in a higher-dimensional space. Using this approach, we develop the quantum spectral and finite difference methods for simulating reacting flows in periodic and general conditions, respectively. The present quantum computing algorithms offer a ``one-shot'' solution for a given time without temporal discretization, avoiding iterative quantum state preparation and measurement. We compare computational complexities of the quantum and classical algorithms. The quantum spectral method exhibits exponential acceleration relative to its classical counterpart, and the quantum finite difference method can achieve exponential speedup in high-dimensional problems. The quantum algorithms are validated on quantum computing simulators with the Qiskit package. The validation cases cover one- and two-dimensional reacting flows with a linear source term and periodic or inlet-outlet boundary conditions. The results obtained from the quantum spectral and finite difference methods agree with analytical and classical simulation results. They accurately capture the convection, diffusion, and reaction processes. This demonstrates the potential of quantum computing as an efficient tool for the simulation of reactive flows in combustion.
翻訳日:2023-12-14 16:32:56 公開日:2023-12-13
# pt対称量子センシング:利点と制約

PT-symmetric quantum sensing: advantages and restrictions ( http://arxiv.org/abs/2312.07892v1 )

ライセンス: Link先を確認
Yan-Yi Wang, Chun-Wang Wu, Wei Wu, Ping-Xing Chen(参考訳) 非エルミート系の特異な量子特性を利用して超精密測定を実現する量子センシングが注目されている。 しかしながら、非エルミート系が知覚においてエルミート系よりも優れているかどうかについての議論は未解決の問題である。 本稿では,トラップイオンプラットフォームに基づく2つの実験スキームを用いたPT対称量子センシングの量子情報について検討する。 非エルミート量子センシングの利点の存在は、pt対称量子センサを構築するために導入された余分な自由度によってもたらされる追加の情報資源に大きく依存していることが判明した。 さらに、高性能な非エルミート量子センシングの実用化は、主にポストセレクションに伴う追加資源消費によって制限される。 本研究は,非エルミート量子センサの高性能化と,量子精度測定や量子情報処理の研究分野への応用の可能性について理論的考察を行った。

Quantum sensing utilizing unique quantum properties of non-Hermitian systems to realize ultra-precision measurements has been attracting increasing attention. However, the debate on whether non-Hermitian systems are superior to Hermitian counterparts in sensing remains an open question. Here, we investigate the quantum information in PT-symmetric quantum sensing utilizing two experimental schemes based on the trapped-ion platform. It turns out that the existence of advantages of non-Hermitian quantum sensing heavily depends on additional information resources carried by the extra degrees of freedom introduced to construct PT-symmetric quantum sensors. Moreover, the practical application of non-Hermitian quantum sensing with superior performance is primarily restricted by the additional resource consumption accompanied by the post-selection. Our study provides theoretical references for the construction of non-Hermitian quantum sensors with superior performance and has potential applications in research fields of quantum precision measurement and quantum information processing.
翻訳日:2023-12-14 16:32:35 公開日:2023-12-13
# 学習かリコールか? 事前学習型言語モデルによるインクリメンタルラーニングの再検討

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models ( http://arxiv.org/abs/2312.07887v1 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Qianli Ma(参考訳) インクリメンタルラーニング(IL)は、ビジョンと自然言語処理(NLP)コミュニティにおいて長年の課題であった。 近年、PLM(Pre-trained Language Models)は様々なNLP下流タスクにおいて顕著な進歩を遂げており、最近のNLPにおけるIL研究において、PLMをバックボーンとして活用することが一般的となっている。 多くの人は、破滅的な忘れることが優れたil性能を達成するための最大の障害であると仮定し、この問題を克服するための様々な技術を提案する。 しかし、この仮定は問題である。 具体的には,4つの分類タスク(テキスト分類,インテント分類,関係抽出,名前付きエンティティ認識)について,最も一般的な2つのIL設定(クラスインクリメンタルとタスクインクリメンタル)に基づいて20以上の手法を再検討し,PLMの固有のアンチフォジット能力を著しく過小評価していることを明らかにする。 そこで本研究では,PLMを用いたILのためのSEQ*法を提案する。 その結果,SEQ* は最新式 (SOTA) の IL 法に比べて性能が優れており,トレーニング時間やトレーニング時間もかなり少ないことがわかった。 これらの知見は, ILをPLMで再考し, 今後の研究がPLMにおける破滅的な忘れを根本的に理解することを促すものである。 データ、コード、スクリプトはhttps://github.com/zzz47zzz/pretrained-lm-for-incremental-learningで公開されている。

Incremental Learning (IL) has been a long-standing problem in both vision and Natural Language Processing (NLP) communities. In recent years, as Pre-trained Language Models (PLMs) have achieved remarkable progress in various NLP downstream tasks, utilizing PLMs as backbones has become a common practice in recent research of IL in NLP. Most assume that catastrophic forgetting is the biggest obstacle to achieving superior IL performance and propose various techniques to overcome this issue. However, we find that this assumption is problematic. Specifically, we revisit more than 20 methods on four classification tasks (Text Classification, Intent Classification, Relation Extraction, and Named Entity Recognition) under the two most popular IL settings (Class-Incremental and Task-Incremental) and reveal that most of them severely underestimate the inherent anti-forgetting ability of PLMs. Based on the observation, we propose a frustratingly easy method called SEQ* for IL with PLMs. The results show that SEQ* has competitive or superior performance compared to state-of-the-art (SOTA) IL methods and requires considerably less trainable parameters and training time. These findings urge us to revisit the IL with PLMs and encourage future studies to have a fundamental understanding of the catastrophic forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/pretrained-lm-for-incremental-learning.
翻訳日:2023-12-14 16:32:21 公開日:2023-12-13
# モダリティプラグアンドプレイ:マルチモーダルLLMにおける弾力的モダリティ適応

Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI ( http://arxiv.org/abs/2312.07886v1 )

ライセンス: Link先を確認
Kai Huang, Boyuan Yang and Wei Gao(参考訳) 大規模言語モデル(LLM)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。 しかし、入力データモダリティの多様性の増大は、特に具体化されたaiアプリケーションのためにリソースに制約されたエッジデバイスにllmがデプロイされた場合に、llmにすべてのモダリティを統合することを妨げる。 代わりに、現在の環境状況やタスク要求に応じて、実行時に有用なモダリティのみを適応的に巻き込む方がよい。 このようなモダリティ適応のために、既存の研究はエンコーダとLLMの入力層の間の固定接続を採用しており、実行時のトレーニングコストが高く、非効率な相互モーダル相互作用をもたらす。 本稿では,mPnP-LLM(mPnP-LLM)という,非モードエンコーダを最後のLCMブロックのフレキシブルなセットに接続し,その遅延接続を実行時に完全にトレーニング可能にする,完全に弾力的で自動化され,迅速な実行時モダリティ適応を可能にする新しい手法を提案する。 nuScenes-QAデータセット上での実験では、mPnP-LLMは既存のスキームと同等の精度を維持しながら、最大3.7倍のFLOPと30%のGPUメモリ使用率の削減を実現可能である。 同じ計算予算の下では、mPnP-LLMはタスクの精度を最高の既存のスキームに比べて最大4%改善する。

Large Language Models (LLMs) are capable of reasoning over diverse input data modalities through pre-trained encoders. However, the growing diversity of input data modalities prevents incorporating all modalities into LLMs, especially when LLMs are deployed on resource-constrained edge devices for embodied AI applications. Instead, a better option is to adaptively involve only the useful modalities at runtime, depending on the current environmental contexts and task requirements. For such modality adaptation, existing work adopts fixed connections between encoders and the LLM's input layer, leading to high training cost at runtime and ineffective cross-modal interaction. In this paper, we address these limitations by presenting mPnP-LLM, a new technique that allows fully elastic, automated and prompt runtime modality adaptation, by connecting unimodal encoders to a flexible set of last LLM blocks and making such latent connections fully trainable at runtime. Experiments over the nuScenes-QA dataset show that mPnP-LLM can achieve up to 3.7x FLOPs reduction and 30% GPU memory usage reduction, while retaining on-par accuracy with the existing schemes. Under the same compute budget, mPnP-LLM improves the task accuracy by up to 4% compared to the best existing scheme.
翻訳日:2023-12-14 16:31:53 公開日:2023-12-13
# ロボットナビゲーションの強化:単目的および多目的強化学習戦略の評価

Enhancing Robotic Navigation: An Evaluation of Single and Multi-Objective Reinforcement Learning Strategies ( http://arxiv.org/abs/2312.07953v1 )

ライセンス: Link先を確認
Vicki Young, Jumman Hossain, Nirmalya Roy(参考訳) 本研究では,ロボットが障害を効果的に回避しつつ,目標に向かって効果的に移動できるように訓練するための単目的・多目的強化学習法の比較分析を行った。 従来の強化学習技術であるDeep Q-Network(DQN)、Deep Deterministic Policy Gradient(DDPG)、Twin Delayed DDPG(TD3)は、ランダムゴールやロボット開始位置などのパラメータを持つ様々な環境下でGazeboシミュレーションフレームワークを用いて評価されている。 これらの方法はロボットに数値的な報酬を与え、目標に関連する行動品質の指標を提供する。 しかし、それらの制限は、複数の、潜在的に矛盾する目標が存在する複雑な設定で明らかになる。 そこで本研究では,多目的強化学習(morl)を用いた手法を提案する。 報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットは、パレート最適解を達成するために、それぞれの目標を効果的にバランスさせるポリシーを学ぶ。 この比較研究は、複雑な動的ロボットナビゲーションタスクにおけるMORLの可能性を強調し、より適応性があり堅牢なロボットの動作に関する将来の研究の舞台となる。

This study presents a comparative analysis between single-objective and multi-objective reinforcement learning methods for training a robot to navigate effectively to an end goal while efficiently avoiding obstacles. Traditional reinforcement learning techniques, namely Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), and Twin Delayed DDPG (TD3), have been evaluated using the Gazebo simulation framework in a variety of environments with parameters such as random goal and robot starting locations. These methods provide a numerical reward to the robot, offering an indication of action quality in relation to the goal. However, their limitations become apparent in complex settings where multiple, potentially conflicting, objectives are present. To address these limitations, we propose an approach employing Multi-Objective Reinforcement Learning (MORL). By modifying the reward function to return a vector of rewards, each pertaining to a distinct objective, the robot learns a policy that effectively balances the different goals, aiming to achieve a Pareto optimal solution. This comparative study highlights the potential for MORL in complex, dynamic robotic navigation tasks, setting the stage for future investigations into more adaptable and robust robotic behaviors.
翻訳日:2023-12-14 16:26:19 公開日:2023-12-13
# 回帰不確かさ推定のための深いカーネルを用いたガウス過程の校正のためのメタラーニング

Meta-learning to Calibrate Gaussian Processes with Deep Kernels for Regression Uncertainty Estimation ( http://arxiv.org/abs/2312.07952v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Atsutoshi Kumagai(参考訳) 深いカーネルを持つガウス過程(GP)は回帰タスクにおけるメタラーニングに成功しているが、その不確実性評価性能は劣っている。 本稿では,深部カーネルgpsの校正による回帰不確実性推定性能向上のためのメタラーニング手法を提案する。 提案手法は,テスト期待校正誤差を最小化し,様々なタスクのデータを用いて不確かさを校正する方法をメタ学習し,未知のタスクに知識を利用する。 我々は,各タスクの適応と校正を反復的な手順なしで行えるように設計し,効果的なメタ学習を実現する。 特に、タスク固有非共役出力分布は、タスク共有エンコーダネットワークを有するgpによりモデル化され、タスク固有ガウス混合モデル(gmm)の累積密度関数を用いて校正された出力に変換される。 GPとGMMをニューラルネットワークベースモデルに統合することで、メタ学習モデルパラメータをエンドツーエンドで実現できます。 提案手法は,実世界のデータセットを用いた既存手法と比較し,回帰性能を維持しつつ不確実性推定性能を向上させることを実証した。

Although Gaussian processes (GPs) with deep kernels have been successfully used for meta-learning in regression tasks, its uncertainty estimation performance can be poor. We propose a meta-learning method for calibrating deep kernel GPs for improving regression uncertainty estimation performance with a limited number of training data. The proposed method meta-learns how to calibrate uncertainty using data from various tasks by minimizing the test expected calibration error, and uses the knowledge for unseen tasks. We design our model such that the adaptation and calibration for each task can be performed without iterative procedures, which enables effective meta-learning. In particular, a task-specific uncalibrated output distribution is modeled by a GP with a task-shared encoder network, and it is transformed to a calibrated one using a cumulative density function of a task-specific Gaussian mixture model (GMM). By integrating the GP and GMM into our neural network-based model, we can meta-learn model parameters in an end-to-end fashion. Our experiments demonstrate that the proposed method improves uncertainty estimation performance while keeping high regression performance compared with the existing methods using real-world datasets in few-shot settings.
翻訳日:2023-12-14 16:25:54 公開日:2023-12-13
# テキスト・画像合成のための意味認識データ拡張

Semantic-aware Data Augmentation for Text-to-image Synthesis ( http://arxiv.org/abs/2312.07951v1 )

ライセンス: Link先を確認
Zhaorui Tan, Xi Yang, Kaizhu Huang(参考訳) データ拡張は最近、様々な視覚言語ディープニューラルネットワークの効果的な正規化として活用されている。 しかし、テキスト・ツー・イメージ合成(T2Isyn)では、現在の拡張知恵は、拡張されたペアデータ間のセマンティックミスマッチに悩まされている。 さらに悪いことに、生成したイメージが意味的に制約されない場合にセマンティック崩壊が起こる可能性がある。 本稿では,T2Isyn専用のセマンティック・アウェア・データ拡張(SADA)フレームワークを開発する。 特に,意味空間におけるテキストの増補を暗黙のテクスト的意味保存拡張(ita$)と,生成された画像意味の保存として特別に設計された画像意味の正規化損失(l_r$)と組み合わせることで,意味的ミスマッチと崩壊にうまく対応できるように提案する。 1つの主要な貢献として、$ITA$がより良いテキストイメージの一貫性を証明できるのに対し、$L_r$は生成された画像の意味論を正規化することで、セマンティック崩壊を回避し、画像の品質を向上させることを理論的に示す。 SADAはテキスト画像の一貫性を高め、様々なバックボーンにまたがるT2Isynモデルの画質を大幅に向上する。 特に、安定拡散モデルのチューニングプロセス中にSADAを組み込むことで、性能が向上する。

Data augmentation has been recently leveraged as an effective regularizer in various vision-language deep neural networks. However, in text-to-image synthesis (T2Isyn), current augmentation wisdom still suffers from the semantic mismatch between augmented paired data. Even worse, semantic collapse may occur when generated images are less semantically constrained. In this paper, we develop a novel Semantic-aware Data Augmentation (SADA) framework dedicated to T2Isyn. In particular, we propose to augment texts in the semantic space via an Implicit Textual Semantic Preserving Augmentation ($ITA$), in conjunction with a specifically designed Image Semantic Regularization Loss ($L_r$) as Generated Image Semantic Conservation, to cope well with semantic mismatch and collapse. As one major contribution, we theoretically show that $ITA$ can certify better text-image consistency while $L_r$ regularizing the semantics of generated images would avoid semantic collapse and enhance image quality. Extensive experiments validate that SADA enhances text-image consistency and improves image quality significantly in T2Isyn models across various backbones. Especially, incorporating SADA during the tuning process of Stable Diffusion models also yields performance improvements.
翻訳日:2023-12-14 16:25:30 公開日:2023-12-13
# CBQ:大規模言語モデルのためのクロスブロック量子化

CBQ: Cross-Block Quantization for Large Language Models ( http://arxiv.org/abs/2312.07950v1 )

ライセンス: Link先を確認
Xin Ding, Xiaoyu Liu, Yun Zhang, Zhijun Tu, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang(参考訳) ポストトレーニング量子化(PTQ)は、超低コストで効率的な大規模言語モデル(LLM)を作成することに注意を向けている。 ハンドクラフト量子化パラメータは低ビット量子化において低い性能をもたらすため、最近の手法では浮動小数点モデルと量子化モデルの間のブロックワイド再構成により量子化パラメータを最適化する。 しかし、これらの手法は、独立ブロック量子化による累積誤差と、極端な重み付けとアクティベーションアウトリーによる再構成困難の2つの課題に悩まされている。 これら2つの課題に対処するために,ブロック間再構成に基づくLPMのためのPTQ手法CBQを提案する。 誤りの蓄積を減らすために,重複を伴う隣接マルチブロック間の長距離依存性を構築するための相同的再構成スキームを用いて,クロスブロック依存性を導入する。 復元の難易度を低減すべく,最適化前の重量外乱と動的にスケールする活性化外乱を解消する粗粒度前処理(cfp)と,低ランク学習可能な行列を2つ備えたlora-roundingと呼ばれる適応丸め方式を設計,重量量子化誤差をさらに修正する。 1)CBQは活性化と重量量子化の両方を低ビット設定W4A4、W4A8、W2A16にプッシュする。 2) CBQ は,様々な LLM およびベンチマークデータセット上で,既存の最先端手法よりも優れた性能を実現する。

Post-training quantization (PTQ) has driven attention to producing efficient large language models (LLMs) with ultra-low costs. Since hand-craft quantization parameters lead to low performance in low-bit quantization, recent methods optimize the quantization parameters through block-wise reconstruction between the floating-point and quantized models. However, these methods suffer from two challenges: accumulated errors from independent one-by-one block quantization and reconstruction difficulties from extreme weight and activation outliers. To address these two challenges, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. To reduce error accumulation, we introduce a cross-block dependency with the aid of a homologous reconstruction scheme to build the long-range dependency between adjacent multi-blocks with overlapping. To reduce reconstruction difficulty, we design a coarse-to-fine pre-processing (CFP) to truncate weight outliers and dynamically scale activation outliers before optimization, and an adaptive rounding scheme, called LoRA-Rounding, with two low-rank learnable matrixes to further rectify weight quantization errors. Extensive experiments demonstrate that: (1) CBQ pushes both activation and weight quantization to low-bit settings W4A4, W4A8, and W2A16. (2) CBQ achieves better performance than the existing state-of-the-art methods on various LLMs and benchmark datasets.
翻訳日:2023-12-14 16:25:04 公開日:2023-12-13
# 量子化機械学習における変分データ符号化と相関

Variational data encoding and correlations in quantum-enhanced machine learning ( http://arxiv.org/abs/2312.07949v1 )

ライセンス: Link先を確認
Ming-Hao Wang and Hua Lu(参考訳) 量子重ね合わせと量子相関という異常な現象を生かして、量子コンピューティングは古典的コンピュータの到達範囲を超えた課題に対処する前例のない可能性を提供する。 本稿では,量子コンピューティングの領域における2つの重要な課題に取り組み,まず古典的データを量子状態に変換するための効果的な符号化プロトコルの開発について述べる。 異なる符号化戦略は量子コンピュータの性能に大きな影響を及ぼす。 第二に、量子加速を妨げる必然的なノイズに対処する必要性に対処する。 我々の主な貢献は、量子回帰アルゴリズムモデルに基づく新しい変分データ符号化法の導入である。 機械学習から学習の概念を適用することで、学習可能なプロセスを符号化するデータを描画する。 様々な回帰課題の数値シミュレーションを通じて,変動データエンコーディング,特に授業データからのポストラーニングの有効性を実証する。 さらに,特に雑音環境におけるタスク性能向上における量子相関の役割について考察する。 量子相関は, 性能向上だけでなく, 雑音干渉の軽減にも寄与し, 量子コンピューティングのフロンティアを前進させる上で重要な役割を担っている。

Leveraging the extraordinary phenomena of quantum superposition and quantum correlation, quantum computing offers unprecedented potential for addressing challenges beyond the reach of classical computers. This paper tackles two pivotal challenges in the realm of quantum computing: firstly, the development of an effective encoding protocol for translating classical data into quantum states, a critical step for any quantum computation. Different encoding strategies can significantly influence quantum computer performance. Secondly, we address the need to counteract the inevitable noise that can hinder quantum acceleration. Our primary contribution is the introduction of a novel variational data encoding method, grounded in quantum regression algorithm models. By adapting the learning concept from machine learning, we render data encoding a learnable process. Through numerical simulations of various regression tasks, we demonstrate the efficacy of our variational data encoding, particularly post-learning from instructional data. Moreover, we delve into the role of quantum correlation in enhancing task performance, especially in noisy environments. Our findings underscore the critical role of quantum correlation in not only bolstering performance but also in mitigating noise interference, thus advancing the frontier of quantum computing.
翻訳日:2023-12-14 16:24:35 公開日:2023-12-13
# 無線チャネル予測のための指数移動平均の線形結合

Linear Combination of Exponential Moving Averages for Wireless Channel Prediction ( http://arxiv.org/abs/2312.07945v1 )

ライセンス: Link先を確認
Gabriele Formis, Stefano Scanzio, Gianluca Cena, Adriano Valenzano(参考訳) フレーム配信比の観点で無線チャネルの挙動を予測する能力は非常に有用であり、例えば、一般的に工業アプリケーションの特徴となる依存性とエンドツーエンドのレイテンシに関する厳密な要件を満たすために、実行時に無線ネットワークの動作パラメータを最適化したり、チャネル品質の低下に積極的に反応したりすることができる。 本研究では、指数移動平均(EMA)に基づく予測モデルについて、他の単純な統計手法よりも優れていることが証明され、その性能は人工ニューラルネットワークに匹敵するが、計算要求は劇的に低い。 本研究の革新とモチベーションについては,EMA線形結合(ELC)と呼ばれる新しいモデルを導入し,説明し,実験的に評価した。 その予測精度は、Wi-Fiデバイスに基づく実際のセットアップから取得したいくつかのデータベースでテストされ、ECLが実験条件においてEMAよりも具体的な改善をもたらすことを示した。

The ability to predict the behavior of a wireless channel in terms of the frame delivery ratio is quite valuable, and permits, e.g., to optimize the operating parameters of a wireless network at runtime, or to proactively react to the degradation of the channel quality, in order to meet the stringent requirements about dependability and end-to-end latency that typically characterize industrial applications. In this work, prediction models based on the exponential moving average (EMA) are investigated in depth, which are proven to outperform other simple statistical methods and whose performance is nearly as good as artificial neural networks, but with dramatically lower computational requirements. Regarding the innovation and motivation of this work, a new model that we called EMA linear combination (ELC), is introduced, explained, and evaluated experimentally. Its prediction accuracy, tested on some databases acquired from a real setup based on Wi-Fi devices, showed that ELC brings tangible improvements over EMA in any experimental conditions, the only drawback being a slight increase in computational complexity.
翻訳日:2023-12-14 16:24:16 公開日:2023-12-13
# リフュージョン:メタラーニングを通して学習可能な損失を伴う再構成から画像融合を学ぶ

ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning ( http://arxiv.org/abs/2312.07943v1 )

ライセンス: Link先を確認
Haowen Bai, Zixiang Zhao, Jiangshe Zhang, Yichen Wu, Lilun Deng, Yukun Cui, Shuang Xu, Baisong Jiang(参考訳) 画像融合は、複数のソースイメージからの情報と、より情報的なイメージを組み合わせることを目的としている。 深層学習に基づく画像融合アルゴリズムの大きな課題は、決定的な真実と距離測定がないことである。 したがって、モデル学習を制御しようとする手作業で指定された損失関数には、手動で必要となるハイパーパラメータが含まれており、それによってモデルの柔軟性と非認識タスクの一般化が制限される。 特定の融合タスクにおける損失関数設計の限界を克服するため、ソースコードの再構成から最適な融合損失を学習するReFusionと呼ばれる統合メタラーニングベースの融合フレームワークを提案する。 ReFusionは、融合モジュール、損失提案モジュール、再構築モジュールで構成される。 ReFusionは従来の固定化損失関数法と比較してパラメータ化損失関数を用いており、特定の融合シーンとタスクに基づいて損失提案モジュールによって動的に適応される。 核融合ネットワークがソース画像から最大情報を保存し、核融合画像から原画像の再構成を可能にするため、メタラーニング戦略を用いて、再構成損失を損失提案モジュールのパラメータを継続的に洗練させる。 適応的な更新は、inter update、outer update、fusion updateの交互に行われ、3つのコンポーネントのトレーニングが相互に促進される。 広範な実験により,本手法は赤外可視,マルチフォーカス,マルチエクスポージャー,医用画像融合といった多様な融合課題に適応できることが確認された。 コードはリリースされます。

Image fusion aims to combine information from multiple source images into a single and more informative image. A major challenge for deep learning-based image fusion algorithms is the absence of a definitive ground truth and distance measurement. Thus, the manually specified loss functions aiming to steer the model learning, include hyperparameters that need to be manually thereby limiting the model's flexibility and generalizability to unseen tasks. To overcome the limitations of designing loss functions for specific fusion tasks, we propose a unified meta-learning based fusion framework named ReFusion, which learns optimal fusion loss from reconstructing source images. ReFusion consists of a fusion module, a loss proposal module, and a reconstruction module. Compared with the conventional methods with fixed loss functions, ReFusion employs a parameterized loss function, which is dynamically adapted by the loss proposal module based on the specific fusion scene and task. To ensure that the fusion network preserves maximal information from the source images, makes it possible to reconstruct the original images from the fusion image, a meta-learning strategy is used to make the reconstruction loss continually refine the parameters of the loss proposal module. Adaptive updating is achieved by alternating between inter update, outer update, and fusion update, where the training of the three components facilitates each other. Extensive experiments affirm that our method can successfully adapt to diverse fusion tasks, including infrared-visible, multi-focus, multi-exposure, and medical image fusion problems. The code will be released.
翻訳日:2023-12-14 16:23:56 公開日:2023-12-13
# BOTH2Hands: テキストプロンプトとボディダイナミクスの両方から3Dハンドを推測する

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics ( http://arxiv.org/abs/2312.07937v1 )

ライセンス: Link先を確認
Wenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu(参考訳) 最近登場したテキスト・トゥ・モーションの進歩は、便利で対話的な人間のモーション生成に多くの試みを巻き起こした。 しかし、既存の方法は、ボディダイナミクスやテキストといった様々な条件を扱わずに、リッチな両手の動きを考慮せずに体の動きを生成することに限られている。 データボトルネックを解消するために,両手動生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。 我々のデータセットには、人体と手の動きの正確な追跡が含まれており、一対の指レベルのアノテーションと身体の記述を提供する。 さらに、暗黙の身体力学と明示的なテキストプロンプトから鮮明な両手の動きを生成する、新しいタスクのための強力なベースライン手法BOTH2Handsを提供する。 まず2つの並列体-手-テキスト-手間の拡散モデルをウォームアップし,次にクロス・アテンショントランスを動作混合に利用する。 広範にわたる実験とクロスバリデーションにより,提案手法とデータセットが,身体と文のハイブリッド条件から説得力のある2手動作を生成することの有効性を実証した。 私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。

The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research.
翻訳日:2023-12-14 16:23:31 公開日:2023-12-13
# 複雑な果樹園環境におけるオブジェクトセグメンテーションのためのYOLOv8とMask RCNNの比較

Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments ( http://arxiv.org/abs/2312.07935v1 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Manoj Karkee(参考訳) 農業における自動化のための重要な画像処理操作であるインスタンスセグメンテーションは、画像内の個々の関心対象を正確に定義するために使用され、選択的な収穫や精密な刈り取りなど、さまざまな自動化やロボットタスクの基礎情報を提供する。 本研究では,1段階のYOLOv8と2段階のMask R-CNN機械学習モデルを比較した。 休眠期に収集されたデータセット1には、木の枝と幹を並べた多目的セグメンテーションモデルのトレーニングに使用された休眠リンゴのイメージが含まれている。 初期の成長期に収集されたデータセット2には、未熟リンゴのみを規定する単一対象セグメンテーションモデルを訓練するために用いられた、緑の葉を持つリンゴの樹冠と未熟リンゴ(フルーツレットとも呼ばれる)の画像が含まれている。 その結果、yolov8はマスクr-cnnよりも優れた性能を示し、信頼しきい値0.5で両データセットをまたいだ精度とほぼ完全なリコールを達成した。 具体的には、Dataset 1ではYOLOv8が精度0.90、リコール0.95を達成した。 比較として、Mask R-CNNは0.81の精度を示し、同じデータセットに対して0.81のリコールを行った。 Dataset 2でYOLOv8は精度0.93、リコール0.97を達成した。 Mask R-CNNはこのシングルクラスのシナリオで精度0.85とリコール0.88を達成した。 さらに、YOLOv8の推論時間は、マルチクラスのセグメンテーション(データセット1)で10.9ms、シングルクラスのセグメンテーション(データセット2)で7.8msであり、Mask R-CNNが達成した15.6msと12.8msである。

Instance segmentation, an important image processing operation for automation in agriculture, is used to precisely delineate individual objects of interest within images, which provides foundational information for various automated or robotic tasks such as selective harvesting and precision pruning. This study compares the one-stage YOLOv8 and the two-stage Mask R-CNN machine learning models for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in dormant season, includes images of dormant apple trees, which were used to train multi-object segmentation models delineating tree branches and trunks. Dataset 2, collected in the early growing season, includes images of apple tree canopies with green foliage and immature (green) apples (also called fruitlet), which were used to train single-object segmentation models delineating only immature green apples. The results showed that YOLOv8 performed better than Mask R-CNN, achieving good precision and near-perfect recall across both datasets at a confidence threshold of 0.5. Specifically, for Dataset 1, YOLOv8 achieved a precision of 0.90 and a recall of 0.95 for all classes. In comparison, Mask R-CNN demonstrated a precision of 0.81 and a recall of 0.81 for the same dataset. With Dataset 2, YOLOv8 achieved a precision of 0.93 and a recall of 0.97. Mask R-CNN, in this single-class scenario, achieved a precision of 0.85 and a recall of 0.88. Additionally, the inference times for YOLOv8 were 10.9 ms for multi-class segmentation (Dataset 1) and 7.8 ms for single-class segmentation (Dataset 2), compared to 15.6 ms and 12.8 ms achieved by Mask R-CNN's, respectively.
翻訳日:2023-12-14 16:23:10 公開日:2023-12-13
# ハイブリッド分解モデルと識別器を用いた実世界ステレオ画像の超解像に向けて

Toward Real World Stereo Image Super-Resolution via Hybrid Degradation Model and Discriminator for Implied Stereo Image Information ( http://arxiv.org/abs/2312.07934v1 )

ライセンス: Link先を確認
Yuanbo Zhou, Yuyang Xue, Jiang Bi, Wenlin He, Xinlin Zhang, Jiajun Zhang, Wei Deng, Ruofeng Nie, Junlin Lan, Qinquan Gao, and Tong Tong(参考訳) 実世界のステレオ画像スーパーレゾリューションは、コンピュータビジョンシステムの性能向上に大きな影響を与える。 シングルイメージ超解像法はステレオ画像の改善に応用できるが、これらの手法は固有の相違点に顕著な修正を導入し、オリジナル画像と拡張ステレオ画像との相違点の整合性が失われることがしばしばある。 本稿では,この限界を克服するために,暗黙のステレオ情報判別器とハイブリッド分解モデルを統合する新しい手法を提案する。 この組み合わせによって、一貫性を保ちながら効果的な強化が保証される。 提案手法は, 実世界のステレオ領域における複雑な劣化と, 実世界の単一画像超解像領域における単純な劣化とのギャップを埋めるものである。 その結果, 合成データと実データでは印象的な性能を示し, 一貫性を維持しながら視覚知覚を向上できた。 完全なコードは以下の href{https://github.com/fzuzyb/SCGLANet}{link} で入手できる。

Real-world stereo image super-resolution has a significant influence on enhancing the performance of computer vision systems. Although existing methods for single-image super-resolution can be applied to improve stereo images, these methods often introduce notable modifications to the inherent disparity, resulting in a loss in the consistency of disparity between the original and the enhanced stereo images. To overcome this limitation, this paper proposes a novel approach that integrates a implicit stereo information discriminator and a hybrid degradation model. This combination ensures effective enhancement while preserving disparity consistency. The proposed method bridges the gap between the complex degradations in real-world stereo domain and the simpler degradations in real-world single-image super-resolution domain. Our results demonstrate impressive performance on synthetic and real datasets, enhancing visual perception while maintaining disparity consistency. The complete code is available at the following \href{https://github.com/fzuzyb/SCGLANet}{link}.
翻訳日:2023-12-14 16:22:33 公開日:2023-12-13
# 変分量子アルゴリズムに基づく新しい枠組み:革命的画像分類

A Novel Framework Based on Variational Quantum Algorithms: Revolutionizing Image Classification ( http://arxiv.org/abs/2312.07932v1 )

ライセンス: Link先を確認
Yixiong Chen(参考訳) 画像分類は機械学習において重要なタスクである。 近年、この分野は急速に発展し、一連の画像分類モデルが提案され、SOTA(State-of-the-art)の結果が得られた。 並行して、量子技術の発展に伴い、量子機械学習は多くの関心を集めている。 特に、古典的機械学習の性能を向上させるために、変分量子アルゴリズム(VQA)と呼ばれるアルゴリズムのクラスが広く研究されている。 本稿では,VQAを用いた新しい画像分類フレームワークを提案する。 我々のフレームワークの主な利点は、古典的な画像分類モデルの終わりに通常実行されるグローバルプーリング操作の必要性をなくすことです。 グローバルプールは計算の複雑さを減らすのに役立つが、しばしば大量の情報を失う。 出力層の前にグローバルプールモジュールを除去することにより,画像中のより識別性の高い特徴や細かな細部を効果的に捉えることができ,分類性能が向上する。 さらに、VQAsを用いることで、グローバルプールがなくても従来のフレームワークに比べてパラメータが少なくなり、オーバーフィッティングの防止に有利になる。 提案手法を異なるsoma画像分類モデルに適用し,提案する量子アーキテクチャが従来の量子アーキテクチャよりも優れていることを示す。

Image classification is a crucial task in machine learning. In recent years, this field has witnessed rapid development, with a series of image classification models being proposed and achieving state-of-the-art (SOTA) results. Parallelly, with the advancement of quantum technologies, quantum machine learning has attracted a lot of interest. In particular, a class of algorithms known as variational quantum algorithms (VQAs) has been extensively studied to improve the performance of classical machine learning. In this paper, we propose a novel image classification framework using VQAs. The major advantage of our framework is the elimination of the need for the global pooling operation typically performed at the end of classical image classification models. While global pooling can help to reduce computational complexity, it often results in a significant loss of information. By removing the global pooling module before the output layer, our approach allows for effectively capturing more discriminative features and fine-grained details in images, leading to improved classification performance. Moreover, employing VQAs enables our framework to have fewer parameters compared to the classical framework, even in the absence of global pooling, which makes it more advantageous in preventing overfitting. We apply our method to different SOTA image classification models and demonstrate the superiority of the proposed quantum architecture over its classical counterpart through a series of experiments on public datasets.
翻訳日:2023-12-14 16:22:15 公開日:2023-12-13
# ポアソン回帰を組み込んだレベンシュテイン距離のDNA貯蔵への応用

Levenshtein Distance Embedding with Poisson Regression for DNA Storage ( http://arxiv.org/abs/2312.07931v1 )

ライセンス: Link先を確認
Xiang Wei, Alan J.X. Guo, Sihan Sun, Mengyi Wei, Wei Yu(参考訳) 配列類似性を評価するために広く用いられている指標であるレベンシュテイン距離の効率的な計算や近似は、DNA保存の出現や他の生物学的応用によって大きな注目を集めている。 レヴェンシュテイン距離を埋め込みベクトル間の従来の距離にマッピングするシークエンス埋め込みは有望な解として現れた。 本稿では,ポアソン回帰を用いたニューラルネットワークに基づく新しいシーケンス埋め込み手法を提案する。 まず,埋め込み次元がモデル性能に与える影響を理論的に分析し,適切な埋め込み次元を選択するための基準を示す。 この埋め込み次元の下では、ポアソン回帰はポアソン分布に従う固定長列間のレベンシュテイン距離を仮定し、これは自然にレベンシュテイン距離の定義と一致する。 さらに、埋め込み距離の分布の観点からは、ポアソン回帰はチ-二乗分布の負の対数確率を近似し、歪性を取り除くための進歩を与える。 実際のDNA貯蔵データに関する包括的実験を通じて,提案手法の最先端手法と比較して優れた性能を示す。

Efficient computation or approximation of Levenshtein distance, a widely-used metric for evaluating sequence similarity, has attracted significant attention with the emergence of DNA storage and other biological applications. Sequence embedding, which maps Levenshtein distance to a conventional distance between embedding vectors, has emerged as a promising solution. In this paper, a novel neural network-based sequence embedding technique using Poisson regression is proposed. We first provide a theoretical analysis of the impact of embedding dimension on model performance and present a criterion for selecting an appropriate embedding dimension. Under this embedding dimension, the Poisson regression is introduced by assuming the Levenshtein distance between sequences of fixed length following a Poisson distribution, which naturally aligns with the definition of Levenshtein distance. Moreover, from the perspective of the distribution of embedding distances, Poisson regression approximates the negative log likelihood of the chi-squared distribution and offers advancements in removing the skewness. Through comprehensive experiments on real DNA storage data, we demonstrate the superior performance of the proposed method compared to state-of-the-art approaches.
翻訳日:2023-12-14 16:21:56 公開日:2023-12-13
# 最適統計透かしに向けて

Towards Optimal Statistical Watermarking ( http://arxiv.org/abs/2312.07930v1 )

ライセンス: Link先を確認
Baihe Huang and Banghua Zhu and Hanlin Zhu and Jason D. Lee and Jiantao Jiao and Michael I. Jordan(参考訳) 統計的ウォーターマーキングを仮説検定問題として定式化し,従来のすべての統計ウォーターマーキング法を仮定した。 我々の定式化の鍵は出力トークンと拒否領域の結合であり、実際には擬似ランダム生成器によって実現され、I型エラーとII型エラーの非自明なトレードオフを可能にする。 この文脈でUMP(Uniformly Most Powerful)の透かしを特徴付ける。 出力が$n$トークンのシーケンスである最も一般的なシナリオでは、小さなタイプIとタイプIIのエラーを保証するために必要なi.d.トークンの数に一致する上下境界を確立する。 我々のレートは、トークン当たりの平均エントロピーに対して$\Theta(h^{-1} \log (1/h))$としてスケールし、従って以前の作品の$O(h^{-2})$レートを大幅に改善する。 検出器がモデル分布の知識を欠くシナリオでは,モデル非依存な透かしの概念を導入し,タイプiiの誤差を増加させるためのミニマックス境界を確立する。 さらに、ユーザが生成したテキストに対して摂動のクラスを実行することを許されるロバストな透かし問題を定式化し、線形プログラミング問題を通じてロバストなUMPテストの最適なタイプIIエラーを特徴付ける。 我々の知る限りでは、これはウォーターマーキング問題に関する最初の体系的な統計処理であり、すなわち、最適に近い確率で、将来の研究への関心があるかもしれない。

We study statistical watermarking by formulating it as a hypothesis testing problem, a general framework which subsumes all previous statistical watermarking methods. Key to our formulation is a coupling of the output tokens and the rejection region, realized by pseudo-random generators in practice, that allows non-trivial trade-off between the Type I error and Type II error. We characterize the Uniformly Most Powerful (UMP) watermark in this context. In the most common scenario where the output is a sequence of $n$ tokens, we establish matching upper and lower bounds on the number of i.i.d. tokens required to guarantee small Type I and Type II errors. Our rate scales as $\Theta(h^{-1} \log (1/h))$ with respect to the average entropy per token $h$ and thus greatly improves the $O(h^{-2})$ rate in the previous works. For scenarios where the detector lacks knowledge of the model's distribution, we introduce the concept of model-agnostic watermarking and establish the minimax bounds for the resultant increase in Type II error. Moreover, we formulate the robust watermarking problem where user is allowed to perform a class of perturbation on the generated texts, and characterize the optimal type II error of robust UMP tests via a linear programming problem. To the best of our knowledge, this is the first systematic statistical treatment on the watermarking problem with near-optimal rates in the i.i.d. setting, and might be of interest for future works.
翻訳日:2023-12-14 16:21:37 公開日:2023-12-13
# 戦略エージェントを用いたマルチArmed Banditsのロバストおよび性能インセンティブ化アルゴリズム

Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents ( http://arxiv.org/abs/2312.07929v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Suho Shin, Aleksandrs Slivkins(参考訳) 確率的多重武装バンディット問題の変種を考察する。 特に、武器は報酬を改善したり吸収したりできる戦略的なエージェントである。 エージェントの効用は、より多くの報酬を受けるか、より多くの報酬を吸収するが、より多くの努力を払って報酬を改善すると減少する。 エージェントは異質な特性を持ち、特に異なる手段を持ち、報酬を異なるレベルまで改善することができる。 さらに、空でないエージェントのサブセットは'honest'であり、最悪の場合、いかなる部分も吸収せずに報酬を与える。 主な目的は、均衡においてトップレベルのパフォーマンスを刺激するメカニズムを設計することで、高い収益(累積報酬)を得ることである。 同時に、主目的は、少なくとも非平衡行動の場合に最も高い平均を持つ正直なエージェントのレベルで、堅牢で収益を得ることを望んでいる。 我々は、プロパティの集合を満たす性能インセンティブと呼ばれるMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルパフォーマンスのインセンティブとなり、任意の戦略プロファイルの下で堅牢であることを示す。 興味深いことに、UCBはそのようなMABアルゴリズムの例である。 さらに,最上位レベルが不明な場合には,第2価格オークションのアイデアと性能インセンティブアルゴリズムを組み合わせることで,少なくとも第2位レベルにおいては,ロバストであることを示す。

We consider a variant of the stochastic multi-armed bandit problem. Specifically, the arms are strategic agents who can improve their rewards or absorb them. The utility of an agent increases if she is pulled more or absorbs more of her rewards but decreases if she spends more effort improving her rewards. Agents have heterogeneous properties, specifically having different means and able to improve their rewards up to different levels. Further, a non-empty subset of agents are ''honest'' and in the worst case always give their rewards without absorbing any part. The principal wishes to obtain a high revenue (cumulative reward) by designing a mechanism that incentives top level performance at equilibrium. At the same time, the principal wishes to be robust and obtain revenue at least at the level of the honest agent with the highest mean in case of non-equilibrium behaviour. We identify a class of MAB algorithms which we call performance incentivizing which satisfy a collection of properties and show that they lead to mechanisms that incentivize top level performance at equilibrium and are robust under any strategy profile. Interestingly, we show that UCB is an example of such a MAB algorithm. Further, in the case where the top performance level is unknown we show that combining second price auction ideas with performance incentivizing algorithms achieves performance at least at the second top level while also being robust.
翻訳日:2023-12-14 16:21:06 公開日:2023-12-13
# 不確実性を考慮した地下材料評価のためのGPR波形のベイズ反転

Bayesian inversion of GPR waveforms for uncertainty-aware sub-surface material characterization ( http://arxiv.org/abs/2312.07928v1 )

ライセンス: Link先を確認
Ishfaq Aziz, Elahe Soltanaghai, Adam Watts, Mohamad Alipour(参考訳) 地下環境モニタリング, 精密農業, 効果的な山火事リスク評価などに適用するためには, 水分含量や層深などの地下特性の正確な推定が重要である。 自然界の土壌は表層材を重ねて覆うことが多いため、従来の方法によるキャラクタリゼーションは困難である。 さらに, オーバーレイ層の特性評価は, ワイルドファイア評価などのアプリケーションにとって重要である。 本研究では, 地中レーダ(gpr)波形インバージョンに対するベイズモデルに基づく手法を提案する。 材料層の誘電誘電率を, 深さ, 導電率などのパラメータとともに, 提案法で予測した。 提案したベイズモデル更新アプローチは、これらのパラメータの確率的推定をもたらし、その推定に関する信頼性と不確実性に関する情報を提供する。 本手法は, 実験および現場調査により収集した多種多様な実験データを用いて評価した。 実験室調査では土壌水分値と表層(またはオーバーレイ材)の深さの変化があり、現地調査では16日間の土壌水分の測定が行われた。 その結果,tdr(time-domain reflectometry)測定と従来の重力測定と一致した予測が得られた。 最上層の深さも妥当な精度で予測できる。 提案手法は,幅広いアプリケーションを対象としたリスクアセスメントの意思決定を可能にする不確実性を考慮したサブサーフェスパラメータ推定に有望なアプローチを提供する。

Accurate estimation of sub-surface properties like moisture content and depth of layers is crucial for applications spanning sub-surface condition monitoring, precision agriculture, and effective wildfire risk assessment. Soil in nature is often covered by overlaying surface material, making its characterization using conventional methods challenging. In addition, the estimation of the properties of the overlaying layer is crucial for applications like wildfire assessment. This study thus proposes a Bayesian model-updating-based approach for ground penetrating radar (GPR) waveform inversion to predict sub-surface properties like the moisture contents and depths of the soil layer and overlaying material accumulated above the soil. The dielectric permittivity of material layers were predicted with the proposed method, along with other parameters, including depth and electrical conductivity of layers. The proposed Bayesian model updating approach yields probabilistic estimates of these parameters that can provide information about the confidence and uncertainty related to the estimates. The methodology was evaluated for a diverse range of experimental data collected through laboratory and field investigations. Laboratory investigations included variations in soil moisture values and depth of the top layer (or overlaying material), and the field investigation included measurement of field soil moisture for sixteen days. The results demonstrated predictions consistent with time-domain reflectometry (TDR) measurements and conventional gravimetric tests. The top layer depth could also be predicted with reasonable accuracy. The proposed method provides a promising approach for uncertainty-aware sub-surface parameter estimation that can enable decision-making for risk assessment across a wide range of applications.
翻訳日:2023-12-14 16:20:25 公開日:2023-12-13
# 連続時間動的グラフに対するマルチパースペクティブフィードバック・アテンション結合モデル

Multi-perspective Feedback-attention Coupling Model for Continuous-time Dynamic Graphs ( http://arxiv.org/abs/2312.07983v1 )

ライセンス: Link先を確認
Xiaobo Zhu, Yan Wu, Zhipeng Li, Hailong Su, Jin Che, Zhanheng Chen, Liying Wang(参考訳) 近年,グラフネットワークによる表現学習が普及し,有望な結果が得られている。 それにもかかわらず、いくつかの課題が続いている。 1) ほとんどの手法は静的あるいは離散時間動的グラフ用に設計されている。 2) 既存の連続時間動的グラフアルゴリズムは、単一の進化的な視点に焦点をあてる。 3) 多くの連続時間動的グラフアプローチは、長期依存を捉えるために多くの時間的隣人を必要とする。 本稿では,MPFA(Multi-Perspective Feedback-Attention Coupling)モデルを提案する。 MPFAは進化と生の両方の観点から情報を取り入れ、観察されたプロセスのインターリーブされたダイナミクスを効率的に学習する。 進化的視点は、情報集約のために連続的に進化する時間的近傍を区別するために時間的自己注意を用いる。 動的更新を通じて、この視点は少数の時間的近傍を使用して長期的な依存関係を捉えることができる。 一方、生の視点は生の近傍情報を集約するために成長特性係数を持つフィードバックアテンションモジュールを利用する。 自己組織化データセットと7つの公開データセットの実験結果は,提案モデルの有効性と競争力を検証する。

Recently, representation learning over graph networks has gained popularity, with various models showing promising results. Despite this, several challenges persist: 1) most methods are designed for static or discrete-time dynamic graphs; 2) existing continuous-time dynamic graph algorithms focus on a single evolving perspective; and 3) many continuous-time dynamic graph approaches necessitate numerous temporal neighbors to capture long-term dependencies. In response, this paper introduces the Multi-Perspective Feedback-Attention Coupling (MPFA) model. MPFA incorporates information from both evolving and raw perspectives, efficiently learning the interleaved dynamics of observed processes. The evolving perspective employs temporal self-attention to distinguish continuously evolving temporal neighbors for information aggregation. Through dynamic updates, this perspective can capture long-term dependencies using a small number of temporal neighbors. Meanwhile, the raw perspective utilizes a feedback attention module with growth characteristic coefficients to aggregate raw neighborhood information. Experimental results on a self-organizing dataset and seven public datasets validate the efficacy and competitiveness of our proposed model.
翻訳日:2023-12-14 16:12:56 公開日:2023-12-13
# 時系列拡散法:振動信号生成のためのデノイング拡散確率モデル

Time Series Diffusion Method: A Denoising Diffusion Probabilistic Model for Vibration Signal Generation ( http://arxiv.org/abs/2312.07981v1 )

ライセンス: Link先を確認
Haiming Yi, Lei Hou, Yuhong Jin, Nasser A. Saeed(参考訳) 拡散モデルは様々な研究分野でロバストなデータ生成能力を示している。 本稿では,拡散モデルの基本原理を利用して,振動信号生成のための時系列拡散法(TSDM)を提案する。 TSDMは、注目ブロックを備えた改良されたU-netアーキテクチャを使用して、1次元時系列データから特徴を効果的に分割し抽出する。 時系列生成のための前方拡散および逆復調プロセスに基づいて動作する。 単周波・多周波データセットと断層データセットを用いて実験検証を行う。 その結果、tsdmは時系列における単周波および多周波の特徴を正確に生成でき、軸受断層系列の拡散生成結果に対する基本周波数特性を保持できることがわかった。 最後に, TSDMを3つのパブリックベアリング断層データセットの小さなサンプル断層診断に適用し, 3つのデータセットの小さなサンプル断層診断の精度を32.380%, 18.355%, 9.298%向上させた。

Diffusion models have demonstrated robust data generation capabilities in various research fields. In this paper, a Time Series Diffusion Method (TSDM) is proposed for vibration signal generation, leveraging the foundational principles of diffusion models. The TSDM uses an improved U-net architecture with attention block to effectively segment and extract features from one-dimensional time series data. It operates based on forward diffusion and reverse denoising processes for time-series generation. Experimental validation is conducted using single-frequency, multi-frequency datasets, and bearing fault datasets. The results show that TSDM can accurately generate the single-frequency and multi-frequency features in the time series and retain the basic frequency features for the diffusion generation results of the bearing fault series. Finally, TSDM is applied to the small sample fault diagnosis of three public bearing fault datasets, and the results show that the accuracy of small sample fault diagnosis of the three datasets is improved by 32.380%, 18.355% and 9.298% at most, respectively
翻訳日:2023-12-14 16:12:41 公開日:2023-12-13
# SLJP:意味抽出に基づく法的判断予測

SLJP: Semantic Extraction based Legal Judgment Prediction ( http://arxiv.org/abs/2312.07979v1 )

ライセンス: Link先を確認
Prameela Madambakam, Shathanaa Rajmohan, Himangshu Sharma, Tummepalli Anka Chandrahas Purushotham Gupta(参考訳) LJP(Lawal Judgment Prediction)は、所定の入力事例文書を分析して、該当する像、懲役、刑期などの法的構成要素を推奨する司法支援システムである。 インドの法制度は、人工知能のような技術援助を必要としており、長年にわたり、様々な裁判所で保留中の事件の渦を解決し、その日増しを図っている。 既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。 提案する意味抽出に基づくljp(sljp)モデルは、複雑な非構造化判例文書理解と埋め込み生成のための事前学習トランスフォーマーの利点を提供する。 このモデルは、与えられたFDの深い意味を複数のレベル、すなわちチャンクとケース文書のレベルで、分割と征服のアプローチに従うことによって引き出す。 原訴訟文書構造に従って抽出された意味論を用いて、与えられた事実記述の簡潔なビューを作成し、注意機構を用いて判断を予測する。 Indian Legal Documents Corpus(ILDC)とIndian Legal Statue Identification(ILSI)の2つの利用可能なインドのデータセットでモデル性能を検証し、有望な結果を得た。 また、ildcデータセットのベースモデルよりも、エポックの増加に対して高いパフォーマンスと低いパフォーマンス低下を示した。

Legal Judgment Prediction (LJP) is a judicial assistance system that recommends the legal components such as applicable statues, prison term and penalty term by analyzing the given input case document. Indian legal system is in the need of technical assistance such as artificial intelligence to solve the crores of pending cases in various courts for years and its being increased day to day. Most of the existing Indian models did not adequately concentrate on the semantics embedded in the fact description (FD) that impacts the decision. The proposed semantic extraction based LJP (SLJP) model provides the advantages of pretrained transformers for complex unstructured legal case document understanding and to generate embeddings. The model draws the in-depth semantics of the given FD at multiple levels i.e., chunk and case document level by following the divide and conquer approach. It creates the concise view of the given fact description using the extracted semantics as per the original court case document structure and predicts judgment using attention mechanism. We tested the model performance on two available Indian datasets Indian Legal Documents corpus (ILDC) and Indian Legal Statue Identification (ILSI) and got promising results. Also shown the highest performance and less performance degradation for increased epochs than base models on ILDC dataset.
翻訳日:2023-12-14 16:12:23 公開日:2023-12-13
# 貯水池計算によるセル内非ジェネティック情報ダイナミクスのモデル化

Modeling non-genetic information dynamics in cells using reservoir computing ( http://arxiv.org/abs/2312.07977v1 )

ライセンス: Link先を確認
Dipesh Niraula (1), Issam El Naqa (1), Jack Adam Tuszynski (2), and Robert A. Gatenby (3) ((1) Department of Machine Learning, Moffitt Cancer Center, Tampa, FL, USA (2) Departments of Physics and Oncology, University of Alberta, Edmonton, AB, CAN (3) Departments of Radiology and Integrated Mathematical Oncology, Moffitt Cancer Center, Tampa, FL, USA)(参考訳) 事実上、全ての細胞はエネルギーとイオン特異的膜ポンプを使用して、na$^+$、k$^+$、cl$^-$、mg$^{++}$、ca$^{++}$という大きな膜貫通勾配を維持する。 細胞のエネルギー予算の1/3を消費するが、膜貫通イオン勾配の進化的な利点はいまだ不明である。 本稿では, イオン勾配が環境情報を取得し, 分析し, 応答する動的で多用途な生体システムを実現することを提案する。 環境シグナルは、ゲートイオン特異的膜チャネルを介して、既存の勾配に沿ってイオンフラックスによって細胞に伝達される。 細胞質イオン濃度の連続的な変化は、小胞体、ミトコンドリア、核と相互作用するために、ワイヤ状のイオンフラックスを介して、局所的な応答を発生させ、全球的または局所的な応答を編成することができる。 ここでは, 細胞内イオン情報力学を, 複雑な非線形動的細胞挙動を学習可能な時空間分解型細胞応答を許容するサブセルプロセスとして扱う, 準物理モデルを用いて仮説を定式化する。 提案するイオン動力学は,実験結果と一致した情報摂動に対する応答を迅速に広めることを実証する。

Virtually all cells use energy and ion-specific membrane pumps to maintain large transmembrane gradients of Na$^+$, K$^+$, Cl$^-$, Mg$^{++}$, and Ca$^{++}$. Although they consume up to 1/3 of a cell's energy budget, the corresponding evolutionary benefit of transmembrane ion gradients remain unclear. Here, we propose that ion gradients enable a dynamic and versatile biological system that acquires, analyzes, and responds to environmental information. We hypothesize environmental signals are transmitted into the cell by ion fluxes along pre-existing gradients through gated ion-specific membrane channels. The consequent changes of cytoplasmic ion concentration can generate a local response and orchestrate global or regional responses through wire-like ion fluxes along pre-existing and self-assembling cytoskeleton to engage the endoplasmic reticulum, mitochondria, and nucleus. Here, we frame our hypothesis through a quasi-physical (Cell-Reservoir) model that treats intra-cellular ion-based information dynamics as a sub-cellular process permitting spatiotemporally resolved cellular response that is also capable of learning complex nonlinear dynamical cellular behavior. We demonstrate the proposed ion dynamics permits rapid dissemination of response to information extrinsic perturbations that is consistent with experimental observations.
翻訳日:2023-12-14 16:12:02 公開日:2023-12-13
# 極大雨における物体検出のためのyoloシリーズの課題:calraシミュレータを用いた合成評価dat aセット

Challenges of YOLO Series for Object Detection in Extremely Heavy Rain: CALRA Simulator based Synthetic Evaluation Dat a set ( http://arxiv.org/abs/2312.07976v1 )

ライセンス: Link先を確認
T. Kim, H. Jeon, Y. Lim(参考訳) 近年,4段階と5段階の自動運転車の研究が盛んに行われており,自動運転車の3つの主要な側面である認識・意思決定・制御技術の進歩への関心が高まっている。 自動運転車の信頼性の高い操作を実現する知覚技術については、さまざまなセンサ(lidar、レーダー、カメラなど)による物体検出を優先する必要がある。 これらのセンサーは、多様な気象条件下で物体を正確に素早く検出する必要があるが、雨や雪、霧といった悪天候条件下で物体を一貫して検出することは困難である。 そこで本研究では, 降水条件から得られた雨滴データに基づいて, CARLAシミュレータを用いて種々の降水条件における多様なネットワークモデルをテストする新しいデータセットを構築した。 その結果, 1段検出装置であるYOLOシリーズを用いて, 降雨条件の異なる降雨条件下での物体検出性能の低下を定量的に検証した。

Recently, as many studies of autonomous vehicles have been achieved for levels 4 and 5, there has been also increasing interest in the advancement of perception, decision, and control technologies, which are the three major aspects of autonomous vehicles. As for the perception technologies achieving reliable maneuvering of autonomous vehicles, object detection by using diverse sensors (e.g., LiDAR, radar, and camera) should be prioritized. These sensors require to detect objects accurately and quickly in diverse weather conditions, but they tend to have challenges to consistently detect objects in bad weather conditions with rain, snow, or fog. Thus, in this study, based on the experimentally obtained raindrop data from precipitation conditions, we constructed a novel dataset that could test diverse network model in various precipitation conditions through the CARLA simulator. Consequently, based on our novel dataset, YOLO series, a one-stage-detector, was used to quantitatively verify how much object detection performance could be decreased under various precipitation conditions from normal to extreme heavy rain situations.
翻訳日:2023-12-14 16:11:39 公開日:2023-12-13
# LMD:潜在性マスキング拡散を用いた高速画像再構成

LMD: Faster Image Reconstruction with Latent Masking Diffusion ( http://arxiv.org/abs/2312.07971v1 )

ライセンス: Link先を確認
Zhiyuan Ma, zhihuan yu, Jianjun Li, Bowen Zhou(参考訳) 実りあるアプローチのクラスとして、拡散確率モデル(DPM)は高分解能画像再構成において優れた利点を示している。 一方,マスク付きオートエンコーダ(maes)は,自己教師付き視覚学習者として人気であり,下流タスクにおける画像再構成と転送能力の簡易化を実証している。 しかし、これらは全て、本質的に高い時間依存性(すなわち、過度に長い拡散ステップ)または人工的に低い空間依存性(すなわち、0.75のような人型の高いマスク比)のために、非常に高いトレーニングコストを必要とする。 最後に,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD について述べる。 まず,事前学習された変分オートエンコーダを用いて,潜在空間での画像を投影し,再構成することを提案する。 次に,maes と dpms の利点を組み合わせることで,3つの異なるスケジューラによるマスキング比率を徐々に増加させ,dpms のように逐次的かつ高マスキング率で連続的にマスキング拡散を行うことなく,簡易かつ難易度から潜在特徴を再構築し,高いトレーニング時間を要するプレディショニングを緩和するプログレッシブマスキング拡散モデルを設計する。 このアプローチにより、高容量モデルを学び、(3倍以上の)トレーニングを加速し、元の精度をわずかに削減できる。 下流タスクの推論速度は、以前のアプローチよりも大幅に優れています。

As a class of fruitful approaches, diffusion probabilistic models (DPMs) have shown excellent advantages in high-resolution image reconstruction. On the other hand, masked autoencoders (MAEs), as popular self-supervised vision learners, have demonstrated simpler and more effective image reconstruction and transfer capabilities on downstream tasks. However, they all require extremely high training costs, either due to inherent high temporal-dependence (i.e., excessively long diffusion steps) or due to artificially low spatial-dependence (i.e., human-formulated high mask ratio, such as 0.75). To the end, this paper presents LMD, a faster image reconstruction framework with latent masking diffusion. First, we propose to project and reconstruct images in latent space through a pre-trained variational autoencoder, which is theoretically more efficient than in the pixel-based space. Then, we combine the advantages of MAEs and DPMs to design a progressive masking diffusion model, which gradually increases the masking proportion by three different schedulers and reconstructs the latent features from simple to difficult, without sequentially performing denoising diffusion as in DPMs or using fixed high masking ratio as in MAEs, so as to alleviate the high training time-consumption predicament. Our approach allows for learning high-capacity models and accelerate their training (by 3x or more) and barely reduces the original accuracy. Inference speed in downstream tasks also significantly outperforms the previous approaches.
翻訳日:2023-12-14 16:11:04 公開日:2023-12-13
# Divide and Conquer: 人物検索のためのハイブリッド事前学習

Divide and Conquer: Hybrid Pre-training for Person Search ( http://arxiv.org/abs/2312.07970v1 )

ライセンス: Link先を確認
Yanling Tian, Di Chen, Yunan Liu, Jian Yang, Shanshan Zhang(参考訳) 大規模事前トレーニングは、さまざまなタスクのパフォーマンスを改善する効果的な方法であることが証明されている。 現在の人物探索法では,ImageNet事前学習モデルを用いて特徴抽出を行うが,事前学習タスクと人検索タスク(下流タスクとして)のギャップのため最適ではない。 そこで本研究では,個人を同時に検出・再識別する人探索の事前学習に焦点を当てた。 人物探索のためのラベル付きデータは少ないが、2つのサブタスクの人物検出と再識別のためのデータセットは比較的豊富である。 そこで本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。 それは、さまざまな種類の監視データを扱うハイブリッド学習パラダイムと、限られたリソース下でのドメインの不一致を軽減するタスク内アライメントモジュールで構成される。 我々の知る限りでは、これはサブタスクデータを使用してフルタスク事前トレーニングをサポートする方法を研究する最初の研究である。 我々の事前学習モデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できることを示した。 例えば、我々のモデルはResNet50ベースのNAEを10.3%改善します。 私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグインとプレイの使用のためにリリースされます。

Large-scale pre-training has proven to be an effective method for improving performance across different tasks. Current person search methods use ImageNet pre-trained models for feature extraction, yet it is not an optimal solution due to the gap between the pre-training task and person search task (as a downstream task). Therefore, in this paper, we focus on pre-training for person search, which involves detecting and re-identifying individuals simultaneously. Although labeled data for person search is scarce, datasets for two sub-tasks person detection and re-identification are relatively abundant. To this end, we propose a hybrid pre-training framework specifically designed for person search using sub-task data only. It consists of a hybrid learning paradigm that handles data with different kinds of supervisions, and an intra-task alignment module that alleviates domain discrepancy under limited resources. To the best of our knowledge, this is the first work that investigates how to support full-task pre-training using sub-task data. Extensive experiments demonstrate that our pre-trained model can achieve significant improvements across diverse protocols, such as person search method, fine-tuning data, pre-training data and model backbone. For example, our model improves ResNet50 based NAE by 10.3% relative improvement w.r.t. mAP. Our code and pre-trained models are released for plug-and-play usage to the person search community.
翻訳日:2023-12-14 16:10:35 公開日:2023-12-13
# ASLseg:半監督肝腫瘍分節に対するSAMのループへの適応

ASLseg: Adapting SAM in the Loop for Semi-supervised Liver Tumor Segmentation ( http://arxiv.org/abs/2312.07969v1 )

ライセンス: Link先を確認
Shiyun Chen, Li Lin, Pujin Cheng, Xiaoying Tang(参考訳) 肝腫瘍の分節化は, コンピュータ診断, 手術計画, 予後評価に必須である。 しかし、高密度アノテーションによる大規模データセットの取得と維持は困難である。 半監督学習(SSL)はこれらの課題に対処するための一般的なテクニックである。 近年,Segment Anything Model (SAM) は,いくつかの画像分割作業において有望な性能を示したが,肝腫瘍のセグメンテーションでは不十分であった。 本稿では,新しい半教師付きフレームワークであるASLsegを提案する。これはSAMをSSL設定に効果的に適応し,肝腫瘍のドメイン固有知識と一般知識を組み合わせることができる。 具体的には、特定のSSLパラダイムでトレーニングされたセグメンテーションモデルは、微調整されたSAMへのプロンプトとして生成された擬似ラベルを提供する。 次に適応ネットワークを用いてSAM予測を洗練し、高品質な擬似ラベルを生成する。 最後に、信頼性の高い擬似ラベルを選択してラベル付きセットを拡張して反復トレーニングを行う。 LiTSデータセットの大規模な実験は、当社のASLセグの圧倒的な性能を示している。

Liver tumor segmentation is essential for computer-aided diagnosis, surgical planning, and prognosis evaluation. However, obtaining and maintaining a large-scale dataset with dense annotations is challenging. Semi-Supervised Learning (SSL) is a common technique to address these challenges. Recently, Segment Anything Model (SAM) has shown promising performance in some medical image segmentation tasks, but it performs poorly for liver tumor segmentation. In this paper, we propose a novel semi-supervised framework, named ASLseg, which can effectively adapt the SAM to the SSL setting and combine both domain-specific and general knowledge of liver tumors. Specifically, the segmentation model trained with a specific SSL paradigm provides the generated pseudo-labels as prompts to the fine-tuned SAM. An adaptation network is then used to refine the SAM-predictions and generate higher-quality pseudo-labels. Finally, the reliable pseudo-labels are selected to expand the labeled set for iterative training. Extensive experiments on the LiTS dataset demonstrate overwhelming performance of our ASLseg.
翻訳日:2023-12-14 16:10:13 公開日:2023-12-13
# 住宅活動と負荷曲線シミュレーションにおける時間利用調査を補完するマルチソースデータとエージェントベースアプローチ

A multi-sourced data and agent-based approach for complementing Time Use Surveys in the context of residential human activity and load curve simulation ( http://arxiv.org/abs/2312.07966v1 )

ライセンス: Link先を確認
Mathieu Schumann, Quentin Reynaud, Fran\c{c}ois Semp\'e (OASIS), Julien Guibourdenche (RIFT, UNIGE), Jean-Baptiste Ly (CPU), Nicolas Sabouret (CPU, CPU, CPU)(参考訳) 住宅負荷曲線のシミュレーションにTime-Use Survey (TUS) を用いた場合, 定性的・定量的なデータとエージェントベースシミュレーションを組み合わせたSMACH手法を提案する。 私たちのモデルは、日常業務を割り当てられた自律エージェントで構成されています。 エージェントは、割り当てられたタスクを最善の能力で達成しようとする。 量的データはタスクの割り当てを生成するために使用される。 定性的な研究により、エージェントが、妥当な認知原理に基づいて、コンテキストに応じて達成すべきタスクをどのように選択するかを定義することができる。 結果から,平日や週末の表現性の向上,アプライアンスとのタスクの柔軟性の向上,実データとの比較による負荷曲線のシミュレーションの改善が得られた。 Highlights $\bullet$TUS(Time-Use Surveys)制限に関する議論と、活動とエネルギーシミュレーションにおけるTUSの使用に関する議論 $\bullet$TUSデータを補完するために質的および定量的に使用される補完データのプレゼンテーション $\bullet$これらの制限を均衡させるエージェントベースのアプローチの提案

To address the major issues associated with using Time-Use Survey (TUS) for simulating residential load curves, we present the SMACH approach, which combines qualitative and quantitative data with agent-based simulation. Our model consists of autonomous agents assigned with daily tasks. The agents try to accomplish their assigned tasks to the best of their abilities. Quantitative data are used to generate tasks assignments. Qualitative studies allow us to define how agents select, based on plausible cognitive principles, the tasks to accomplish depending on the context. Our results show a better representation of weekdays and weekends, a more flexible association of tasks with appliances, and an improved simulation of load curves compared to real data. Highlights $\bullet$ Discussion about Time-Use Surveys (TUS) limits and the use of TUS in activity and energy simulation $\bullet$ Presentation of complementary data both qualitative and quantitative used to complement TUS data $\bullet$ Proposition of an agent-based approach that balances these limitations
翻訳日:2023-12-14 16:09:58 公開日:2023-12-13
# 深部畳み込みニューラルネットワークを用いた胸部X線画像上の肺炎検出

Pneumonia Detection on chest X-ray images Using Ensemble of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2312.07965v1 )

ライセンス: Link先を確認
Alhassan Mabrouk, Rebeca P. D\'iaz Redondo, Abdelghani Dahou, Mohamed Abd Elaziz, Mohammed Kayed(参考訳) 肺炎(Pneumonia)は、いくつかの異なるウイルス感染によって引き起こされる肺感染症である。 胸部X線像における肺炎の同定と治療は,他の肺疾患との類似性から困難である。 したがって、既存の肺炎の予測方法は、かなりの精度を達成できない。 そこで本研究では,胸部x線画像の診断過程を簡略化するために,アンサンブル学習(el)と呼ばれる肺炎のコンピュータ支援分類を提案する。 提案手法は,CNNモデルをスクラッチからトレーニングする代わりに,近年,多くの医療タスクのパフォーマンス向上に採用されているCNNモデルである畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)モデルに基づく。 我々は、ImageNetデータベースを用いて、よく知られた3つのCNN事前訓練(DenseNet169、MobileNetV2、Vision Transformer)を使用することを提案する。 次に、これらのモデルを細調整を用いて胸部X線データセットでトレーニングする。 最後に,これら3つのモデルから抽出した特徴を実験段階で組み合わせることで得られた。 提案したELアプローチは他の最先端手法よりも優れており、テスト段階では93.91%、F1スコアは93.88%の精度が得られる。

Pneumonia is a life-threatening lung infection resulting from several different viral infections. Identifying and treating pneumonia on chest X-ray images can be difficult due to its similarity to other pulmonary diseases. Thus, the existing methods for predicting pneumonia cannot attain substantial levels of accuracy. Therefore, this paper presents a computer-aided classification of pneumonia, coined as Ensemble Learning (EL), to simplify the diagnosis process on chest X-ray images. Our proposal is based on Convolutional Neural Network (CNN) models, which are pre-trained CNN models that have been recently employed to enhance the performance of many medical tasks instead of training CNN models from scratch. We propose to use three well-known CNN pre-trained (DenseNet169, MobileNetV2 and Vision Transformer) using the ImageNet database. Then, these models are trained on the chest X-ray data set using fine-tuning. Finally, the results are obtained by combining the extracted features from these three models during the experimental phase. The proposed EL approach outperforms other existing state-of-the-art methods, and it obtains an accuracy of 93.91% and a F1-Score of 93.88% on the testing phase.
翻訳日:2023-12-14 16:09:36 公開日:2023-12-13
# Three-Filters-to-Normal+:Depth-to-Normal翻訳における不連続判別の再検討

Three-Filters-to-Normal+: Revisiting Discontinuity Discrimination in Depth-to-Normal Translation ( http://arxiv.org/abs/2312.07964v1 )

ライセンス: Link先を確認
Jingwei Yang, Bohuan Xue, Yi Feng, Deming Wang, Rui Fan, Qijun Chen(参考訳) 本稿では,従来の3-filters-to-normal+ (3f2n+) の拡張である3-filters-to-normal+ (3f2n+) について紹介する。 3f2n+は、条件付き確率場(crfs)による深さ曲率最小化と相関係数最大化を組み合わせた新しい不連続識別モジュール(ddm)を用いてこの能力を達成する。 ノイズの多いデータに基づいてSNEのロバスト性を評価するため,20シナリオ(屋内10シナリオと屋外10シナリオ,奥行き画像にランダムなガウスノイズを加えることなく)を含む大規模合成表面正規化データセットを構築した。 大規模な実験により、3F2N+は、他の幾何ベースの表面正規分布推定器よりも高い性能を示し、平均角誤差は7.85$^\circ$, 8.95$^\circ$, 9.25$^\circ$, 11.98$^\circ$, clean-indoor, clean-outdoor, noisy-indoor, noisy-outdoorのデータセットである。 提案する3f2n+を,自由空間検出,6次元物体ポーズ推定,ポイントクラウド補完など,下流ロボット知覚タスクに組み込む効果を示すため,さらに3つの実験を行った。 ソースコードとデータセットはhttps://mias.group/3f2nplusで公開しています。

This article introduces three-filters-to-normal+ (3F2N+), an extension of our previous work three-filters-to-normal (3F2N), with a specific focus on incorporating discontinuity discrimination capability into surface normal estimators (SNEs). 3F2N+ achieves this capability by utilizing a novel discontinuity discrimination module (DDM), which combines depth curvature minimization and correlation coefficient maximization through conditional random fields (CRFs). To evaluate the robustness of SNEs on noisy data, we create a large-scale synthetic surface normal (SSN) dataset containing 20 scenarios (ten indoor scenarios and ten outdoor scenarios with and without random Gaussian noise added to depth images). Extensive experiments demonstrate that 3F2N+ achieves greater performance than all other geometry-based surface normal estimators, with average angular errors of 7.85$^\circ$, 8.95$^\circ$, 9.25$^\circ$, and 11.98$^\circ$ on the clean-indoor, clean-outdoor, noisy-indoor, and noisy-outdoor datasets, respectively. We conduct three additional experiments to demonstrate the effectiveness of incorporating our proposed 3F2N+ into downstream robot perception tasks, including freespace detection, 6D object pose estimation, and point cloud completion. Our source code and datasets are publicly available at https://mias.group/3F2Nplus.
翻訳日:2023-12-14 16:09:16 公開日:2023-12-13
# 計量調整スキュー情報に基づく不確かさ関係の和と積形式

Summation and product forms of uncertainty relations based on metric-adjusted skew information ( http://arxiv.org/abs/2312.07963v1 )

ライセンス: Link先を確認
Cong Xu, Qing-Hua Zhang and Shao-Ming Fei(参考訳) 不確実性原理は量子力学において最も重要な特徴の1つであり、量子情報処理において重要な役割を果たす。 本研究では,可観測値の演算子表現による距離調整スキュー情報に基づく不確実性関係の厳密化を図り,既存の結果を改善する。 可観測物のサンプリング座標の手法を用いて、より厳密な積形式不確実性関係を示す。 不確実性関係の利点を示す詳細な例を挙げる。

Uncertainty principle is one of the most essential features in quantum mechanics and plays profound roles in quantum information processing. We establish tighter summation form uncertainty relations based on metric-adjusted skew information via operator representation of observables, which improve the existing results. By using the methodologies of sampling coordinates of observables, we also present tighter product form uncertainty relations. Detailed examples are given to illustrate the advantages of our uncertainty relations.
翻訳日:2023-12-14 16:08:42 公開日:2023-12-13
# 境界識別と相関精製を併用したロバストファウショットによるエンティティ認識

Robust Few-Shot Named Entity Recognition with Boundary Discrimination and Correlation Purification ( http://arxiv.org/abs/2312.07961v1 )

ライセンス: Link先を確認
Xiaojun Xue, Chunxia Zhang, Tianxiang Xu, Zhendong Niu(参考訳) NER (Few-shot named entity recognition) は、既存の知識を活用して、低リソース領域における新しい名前付きエンティティを認識することを目的としている。 しかし、現在の数発のNERモデルでは、ラベル付きデータはすべてノイズや外れ値なしでクリーンであると考えられており、Few-shot NERにおけるテキスト対逆攻撃に対するクロスドメイン転送学習能力の堅牢性に焦点を当てた研究はほとんどない。 本研究では,テキスト対逆攻撃シナリオ下でのNERモデルのロバスト性を総合的に検討し,既存のNERモデルの脆弱性を見出した。 さらに,境界識別・相関浄化法(BDCP)を用いた2段連写NER法を提案する。 具体的には、スパン検出段階において、エンティティ境界判別モジュールを導入し、エンティティスパンを検出するための高度に識別された境界表現空間を提供する。 エンティティタイピングの段階では、干渉情報の最小化と相関一般化の促進により、テキストによる敵対的攻撃による混乱を軽減することにより、エンティティとコンテキストとの相関を浄化する。 さらに,公開データセットFew-NERDとCross-Datasetに基づく数ショットNERの逆例を構築した。 本手法の強靭性および優越性を示す逆例を含む2つのNERデータセットの包括的評価を行った。

Few-shot named entity recognition (NER) aims to recognize novel named entities in low-resource domains utilizing existing knowledge. However, the present few-shot NER models assume that the labeled data are all clean without noise or outliers, and there are few works focusing on the robustness of the cross-domain transfer learning ability to textual adversarial attacks in Few-shot NER. In this work, we comprehensively explore and assess the robustness of few-shot NER models under textual adversarial attack scenario, and found the vulnerability of existing few-shot NER models. Furthermore, we propose a robust two-stage few-shot NER method with Boundary Discrimination and Correlation Purification (BDCP). Specifically, in the span detection stage, the entity boundary discriminative module is introduced to provide a highly distinguishing boundary representation space to detect entity spans. In the entity typing stage, the correlations between entities and contexts are purified by minimizing the interference information and facilitating correlation generalization to alleviate the perturbations caused by textual adversarial attacks. In addition, we construct adversarial examples for few-shot NER based on public datasets Few-NERD and Cross-Dataset. Comprehensive evaluations on those two groups of few-shot NER datasets containing adversarial examples demonstrate the robustness and superiority of the proposed method.
翻訳日:2023-12-14 16:08:33 公開日:2023-12-13
# 超伝導量子ビットの時間分解状態トモグラフィーによるニューラルネットワーク

Neural network based time-resolved state tomography of superconducting qubits ( http://arxiv.org/abs/2312.07958v1 )

ライセンス: Link先を確認
Ziyang You, Jiheng Duan, Wenhui Huang, Libo Zhang, Song Liu, Youpeng Zhong, Hou Ian(参考訳) ランダムノイズとクロストークは、特にマルチキュービットシステムにおいて、超伝導量子ビットの読み出し忠実性を制限する主要な要因である。 ラベル付き測定データに基づいてトレーニングされたニューラルネットワークは、読み取り時のクロストークの影響を軽減するのに有用であることが証明されている。 本稿では,個々の量子ビットのフルステートトモグラフィに適応し,ラビ振動などの時間分解計測を可能にする時間分解型変調ニューラルネットワークを提案する。 ネットワークは、結合状態トモグラフィで検出される各キュービットとモジュールを組み合わせることでスケーラブルである。 実験の結果,低信号対雑音比での忠実度は23%向上し,rabi測定のばらつきは49%低下した。

Random noise and crosstalk are the major factors limiting the readout fidelity of superconducting qubits, especially in multi-qubit systems. Neural networks trained on labeled measurement data have proven useful in mitigating the effects of crosstalk at readout, but their effectiveness is currently limited to binary discrimination of joint-qubit states by their architectures. We propose a time-resolved modulated neural network that adapts to full-state tomography of individual qubits, enabling time-resolved measurements such as Rabi oscillations. The network is scalable by pairing a module with each qubit to be detected for joint-state tomography. Experimental results demonstrate a 23% improvement in fidelity under low signal-to-noise ratio, along with a 49% reduction in variance in Rabi measurements.
翻訳日:2023-12-14 16:08:10 公開日:2023-12-13
# クラスタアクティベーションマスキングによる自己教師付き学習バックドアの消去

Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking ( http://arxiv.org/abs/2312.07955v1 )

ライセンス: Link先を確認
Shengsheng Qian, Yifei Wang, Dizhan Xue, Shengjie Zhang, Huaiwen Zhang, Changsheng Xu(参考訳) 研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。 攻撃者はトレーニングデータセットのいくつかの有毒な例を通じて隠されたSSLバックドアを埋め込み、下流モデルの振る舞いを悪意を持って操作することができる。 SSLバックドア攻撃に対する防御策として、トレーニングセット内の有毒なサンプルを検出して除去することが考えられる。 しかし、既存のSSLバックドア防御法では、有毒なサンプルを正確に検出できない。 本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。 毒性データセットに基づいてトレーニングした脅威モデルを得た後、バックドアトリガーのマスキングが下流クラスタリングモデルの活性化を効果的に変更できるという仮定に基づいて、毒性サンプルを精度良く検出できる。 実験では,imagenet-100の最新の手法の3%と比較して,バックドアトリガー検出の96%の精度を実現した。 さらに,提案するPoisonCAMは,最先端手法と比較して,バックドア攻撃時のSSLモデルの性能を著しく向上させる。 私たちのコードはhttps://github.com/LivXue/PoisonCAMで公開されます。

Researchers have recently found that Self-Supervised Learning (SSL) is vulnerable to backdoor attacks. The attacker can embed hidden SSL backdoors via a few poisoned examples in the training dataset and maliciously manipulate the behavior of downstream models. To defend against SSL backdoor attacks, a feasible route is to detect and remove the poisonous samples in the training set. However, the existing SSL backdoor defense method fails to detect the poisonous samples precisely. In this paper, we propose to erase the SSL backdoor by cluster activation masking and propose a novel PoisonCAM method. After obtaining the threat model trained on the poisoned dataset, our method can precisely detect poisonous samples based on the assumption that masking the backdoor trigger can effectively change the activation of a downstream clustering model. In experiments, our PoisonCAM achieves 96% accuracy for backdoor trigger detection compared to 3% of the state-of-the-art method on poisoned ImageNet-100. Moreover, our proposed PoisonCAM significantly improves the performance of the trained SSL model under backdoor attacks compared to the state-of-the-art method. Our code will be available at https://github.com/LivXue/PoisonCAM.
翻訳日:2023-12-14 16:07:54 公開日:2023-12-13
# mono3dvg:単眼画像における3次元視覚接地

Mono3DVG: 3D Visual Grounding in Monocular Images ( http://arxiv.org/abs/2312.08022v1 )

ライセンス: Link先を確認
Yang Zhan, Yuan Yuan, Zhitong Xiong(参考訳) 外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。 具体的には,ChatGPTによって生成され,手動で洗練される幾何学的テキスト記述を伴う3Dオブジェクトターゲットを含む大規模データセットMono3DReferを構築した。 そこで本稿では,マルチモーダル学習と3次元オブジェクトローカライゼーションのためのテキスト埋め込みにおける外観情報と形状情報の両方を活用した,エンドツーエンドトランスフォーマティブネットワークであるmono3dvg-trを提案する。 深度予測器は、幾何学的特徴を明示的に学習するように設計されている。 参照対象物のマルチスケール視覚・幾何学的特徴を洗練するために,デュアルテキスト誘導アダプタを提案する。 デコーダは、深度テキスト-視覚的積み重ねの注意に基づいて、オブジェクトレベルの幾何学的手がかりと視覚的外観を学習可能なクエリに融合する。 総合的なベンチマークといくつかの洞察に富んだ分析がMono3DVGで提供されている。 広範な比較とアブレーション研究の結果,本手法は全ベースラインを有意に上回っていることがわかった。 データセットとコードは、https://github.com/ZhanYang-nwpu/Mono3DVGで公開される。

We introduce a novel task of 3D visual grounding in monocular RGB images using language descriptions with both appearance and geometry information. Specifically, we build a large-scale dataset, Mono3DRefer, which contains 3D object targets with their corresponding geometric text descriptions, generated by ChatGPT and refined manually. To foster this task, we propose Mono3DVG-TR, an end-to-end transformer-based network, which takes advantage of both the appearance and geometry information in text embeddings for multi-modal learning and 3D object localization. Depth predictor is designed to explicitly learn geometry features. The dual text-guided adapter is proposed to refine multiscale visual and geometry features of the referred object. Based on depth-text-visual stacking attention, the decoder fuses object-level geometric cues and visual appearance into a learnable query. Comprehensive benchmarks and some insightful analyses are provided for Mono3DVG. Extensive comparisons and ablation studies show that our method significantly outperforms all baselines. The dataset and code will be publicly available at: https://github.com/ZhanYang-nwpu/Mono3DVG.
翻訳日:2023-12-14 16:00:26 公開日:2023-12-13
# ベイジアン最適化によるAzure Cognitive Searchの検索関連性の改善

Improving search relevance of Azure Cognitive Search by Bayesian optimization ( http://arxiv.org/abs/2312.08021v1 )

ライセンス: Link先を確認
Nitin Agarwal, Ashish Kumar, Kiran R, Manish Gupta, Laurent Bou\'e(参考訳) Azure Cognitive Search (ACS) は近年,"Search as a Service" クラウド製品の主要な競争相手として登場している。 しかし、ACSユーザにとっての大きな課題の1つは、特定のユースケースに対する検索結果の関連性を改善することである。 本稿では,特定のユースケース(製品検索,文書検索)の検索関連度を最大化する最適なacs構成を求める手法を提案する。提案手法は,検索関連問題をハイパーパラメータチューニングとして定式化することにより,クリックスルー率(ctr)などのオンライン市場の主要な指標を改善する。 提案手法から得られた最適化重みを導入することにより,複数のマーケットプレースにおけるリアルタイム検索行動(CTA)レートの大幅な改善が見られた。

Azure Cognitive Search (ACS) has emerged as a major contender in "Search as a Service" cloud products in recent years. However, one of the major challenges for ACS users is to improve the relevance of the search results for their specific usecases. In this paper, we propose a novel method to find the optimal ACS configuration that maximizes search relevance for a specific usecase (product search, document search...) The proposed solution improves key online marketplace metrics such as click through rates (CTR) by formulating the search relevance problem as hyperparameter tuning. We have observed significant improvements in real-world search call to action (CTA) rate in multiple marketplaces by introducing optimized weights generated from the proposed approach.
翻訳日:2023-12-14 16:00:07 公開日:2023-12-13
# 再構成画像とマルチスケール特徴再構成ネットワークを用いた一般化ディープフェイク検出

Generalized Deepfakes Detection with Reconstructed-Blended Images and Multi-scale Feature Reconstruction Network ( http://arxiv.org/abs/2312.08020v1 )

ライセンス: Link先を確認
Yuyang Sun, Huy H. Nguyen, Chun-Shien Lu, ZhiYong Zhang, Lu Sun and Isao Echizen(参考訳) デジタル顔操作技術の多様化により、悪質な偽造によるリスクを軽減するために、普遍的で堅牢な検出技術が緊急に求められている。 未確認データセットに対する堅牢な適用性を有するブレンデッドベース検出手法を提案する。 デジタルフェース操作によって引き起こされる一般的な境界アーチファクトとノイズ分布異常を捕捉する潜在的なディープフェイク生成物とマルチスケール特徴再構成ネットワークを組み込んだ、再構成されたブレンド画像の合成トレーニングサンプルを生成する方法を組み合わせる。 実験により、この手法により、未知のデータ上でのクロスマニピュレーション検出とクロスデータセット検出の両方のパフォーマンスが向上することが示された。

The growing diversity of digital face manipulation techniques has led to an urgent need for a universal and robust detection technology to mitigate the risks posed by malicious forgeries. We present a blended-based detection approach that has robust applicability to unseen datasets. It combines a method for generating synthetic training samples, i.e., reconstructed blended images, that incorporate potential deepfake generator artifacts and a detection model, a multi-scale feature reconstruction network, for capturing the generic boundary artifacts and noise distribution anomalies brought about by digital face manipulations. Experiments demonstrated that this approach results in better performance in both cross-manipulation detection and cross-dataset detection on unseen data.
翻訳日:2023-12-14 15:59:54 公開日:2023-12-13
# AdapEdit: テキストベース連続感性画像編集のための時空間適応編集アルゴリズム

AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing ( http://arxiv.org/abs/2312.08019v1 )

ライセンス: Link先を確認
Zhiyuan Ma, Guoli Jia, Bowen Zhou(参考訳) クリエイティブテキスト・ツー・イメージ生成におけるテキスト条件拡散モデルの成功により、テキスト駆動画像編集アプローチは多くの研究者の注目を集めている。 しかし、従来の研究は、特定のオブジェクト、背景要素、グローバルスタイル(ハード編集)の追加、削除、置換といった離散性に敏感な指示に重点を置いていたが、一般的には、アクション、ポーズ、形容詞などの意味的に微妙な連続性に敏感な指示を無視している(ソフト編集)。 そこで本研究では,時間的・空間的両面から視覚的画素への誘導度を動的に変化させるソフトアテンション戦略を導入し,適応的な画像編集を実現するための時空間適応編集アルゴリズムAdapEditを提案する。 私たちのアプローチは、モデルの事前保存に大きな利点があり、モデルトレーニング、微調整、追加データ、最適化を必要としないことに注意してください。 我々は,様々な生画像と編集手順で結果を示し,競合性能を示し,従来の手法を大きく上回る結果を示した。

With the great success of text-conditioned diffusion models in creative text-to-image generation, various text-driven image editing approaches have attracted the attentions of many researchers. However, previous works mainly focus on discreteness-sensitive instructions such as adding, removing or replacing specific objects, background elements or global styles (i.e., hard editing), while generally ignoring subject-binding but semantically fine-changing continuity-sensitive instructions such as actions, poses or adjectives, and so on (i.e., soft editing), which hampers generative AI from generating user-customized visual contents. To mitigate this predicament, we propose a spatio-temporal guided adaptive editing algorithm AdapEdit, which realizes adaptive image editing by introducing a soft-attention strategy to dynamically vary the guiding degree from the editing conditions to visual pixels from both temporal and spatial perspectives. Note our approach has a significant advantage in preserving model priors and does not require model training, fine-tuning, extra data, or optimization. We present our results over a wide variety of raw images and editing instructions, demonstrating competitive performance and showing it significantly outperforms the previous approaches.
翻訳日:2023-12-14 15:59:42 公開日:2023-12-13
# 無線MECネットワークにおける動的資源配分のためのセキュア深層強化学習

Secure Deep Reinforcement Learning for Dynamic Resource Allocation in Wireless MEC Networks ( http://arxiv.org/abs/2312.08016v1 )

ライセンス: Link先を確認
Xin Hao, Phee Lep Yeoh, Changyang She, Branka Vucetic, and Yonghui Li(参考訳) 本稿では,分散化[wireless mobile edge computing(mec]ネットワークにおけるデータ管理とリソース割り当てのための,ブロックチェーンセキュアな深層強化学習(bc-drl)最適化フレームワークを提案する。 当社のフレームワークでは,信頼性の高いブロックチェーン対応のbssを選択し,mecユーザ要求をセキュアに保存し,データ改ざん攻撃を防止するために,低遅延の信頼性に基づく信頼性実証(rpos)コンセンサスプロトコルを設計します。 制約付きマルコフ決定プロセスとしてMECリソース割り当て最適化を定式化し、最小処理レイテンシとDoS(DoS)確率のバランスをとる。 { MEC集約機能をDRL入力として使用し、個々のMEC要求に対する残りのサービス処理時間の高次元入力を著しく削減します。 設計した制約付きDRLは、動的DoS要求に適合する最適なリソース割り当てを効果的に達成する。 我々は、BC-DRLフレームワークが、ベンチマークブロックチェーンコンセンサスプロトコルやリソース割り当てアルゴリズムよりも高いセキュリティ、信頼性、リソース利用効率を達成することを検証した、広範なシミュレーション結果と分析結果を提供する。

This paper proposes a blockchain-secured deep reinforcement learning (BC-DRL) optimization framework for {data management and} resource allocation in decentralized {wireless mobile edge computing (MEC)} networks. In our framework, {we design a low-latency reputation-based proof-of-stake (RPoS) consensus protocol to select highly reliable blockchain-enabled BSs to securely store MEC user requests and prevent data tampering attacks.} {We formulate the MEC resource allocation optimization as a constrained Markov decision process that balances minimum processing latency and denial-of-service (DoS) probability}. {We use the MEC aggregated features as the DRL input to significantly reduce the high-dimensionality input of the remaining service processing time for individual MEC requests. Our designed constrained DRL effectively attains the optimal resource allocations that are adapted to the dynamic DoS requirements. We provide extensive simulation results and analysis to} validate that our BC-DRL framework achieves higher security, reliability, and resource utilization efficiency than benchmark blockchain consensus protocols and {MEC} resource allocation algorithms.
翻訳日:2023-12-14 15:59:17 公開日:2023-12-13
# uSF:不確かさでニューラルネットワークを学習する

uSF: Learning Neural Semantic Field with Uncertainty ( http://arxiv.org/abs/2312.08012v1 )

ライセンス: Link先を確認
Vsevolod Skorokhodov, Darya Drozdova, Dmitry Yudin(参考訳) 近年,3次元シーンの識別可能な表現を再構成するNeRF手法への関心が高まっている。 このような方法の主な制限の1つは、予測におけるモデルの信頼度を評価することができないことである。 本稿では,拡張ベクトル表現の形成のための新たなニューラルネットワークモデルであるusfを提案する。このモデルでは,各点の色や意味のラベルだけでなく,対応する不確かさの値も推定できる。 本研究では,不確かさを定量化するモデルが,その機能を持たないモデルよりも優れた性能を発揮することを示す。 usfアプローチのコードはhttps://github.com/sevashasla/usf/で公開されている。

Recently, there has been an increased interest in NeRF methods which reconstruct differentiable representation of three-dimensional scenes. One of the main limitations of such methods is their inability to assess the confidence of the model in its predictions. In this paper, we propose a new neural network model for the formation of extended vector representations, called uSF, which allows the model to predict not only color and semantic label of each point, but also estimate the corresponding values of uncertainty. We show that with a small number of images available for training, a model quantifying uncertainty performs better than a model without such functionality. Code of the uSF approach is publicly available at https://github.com/sevashasla/usf/.
翻訳日:2023-12-14 15:58:55 公開日:2023-12-13
# EZ-CLIP:効率的なゼロショットビデオアクション認識

EZ-CLIP: Efficient Zeroshot Video Action Recognition ( http://arxiv.org/abs/2312.08010v1 )

ライセンス: Link先を確認
Shahzad Ahmad, Sukalpa Chanda, Yogesh S Rawat(参考訳) ペア画像テキストデータ上での視覚言語モデルの大規模事前学習の進歩は、ゼロショットタスクに対する印象的な一般化機能を示している。 この成功に基づいて、ビデオドメインにゼロショット機能を拡張したビデオに対して、CLIPのようなイメージベースのビジュアル言語モデルを適用する取り組みが実施された。 これらの適応は有望な結果を示しているが、計算コストが大きく、ビデオ領域に固有の重要な時間的側面を効果的にモデル化するのに苦労している。 本研究では,これらの課題に対処するCLIPの簡易かつ効率的な適応であるEZ-CLIPを提案する。 EZ-CLIPは、時間的視覚的プロンプトをシームレスな時間的適応に利用し、その顕著な一般化能力を維持しながらコアCLIPアーキテクチャに根本的な変更を加える必要はない。 さらに,映像データからの学習能力を高めるために,時間的視覚プロンプトを映像キャプチャに誘導する新しい学習目標を提案する。 我々は5つのベンチマークデータセットに関する広範な実験を行い、ゼロショット学習のためのEZ-CLIPとベース・ツー・ノーベルなビデオアクション認識の可能性を徹底的に評価し、また、数ショットの一般化の可能性を示した。

Recent advancements in large-scale pre-training of visual-language models on paired image-text data have demonstrated impressive generalization capabilities for zero-shot tasks. Building on this success, efforts have been made to adapt these image-based visual-language models, such as CLIP, for videos extending their zero-shot capabilities to the video domain. While these adaptations have shown promising results, they come at a significant computational cost and struggle with effectively modeling the crucial temporal aspects inherent to the video domain. In this study, we present EZ-CLIP, a simple and efficient adaptation of CLIP that addresses these challenges. EZ-CLIP leverages temporal visual prompting for seamless temporal adaptation, requiring no fundamental alterations to the core CLIP architecture while preserving its remarkable generalization abilities. Moreover, we introduce a novel learning objective that guides the temporal visual prompts to focus on capturing motion, thereby enhancing its learning capabilities from video data. We conducted extensive experiments on five different benchmark datasets, thoroughly evaluating EZ-CLIP for zero-shot learning and base-to-novel video action recognition, and also demonstrating its potential for few-shot generalization.Impressively, with a mere 5.2 million learnable parameters (as opposed to the 71.1 million in the prior best model), EZ-CLIP can be efficiently trained on a single GPU, outperforming existing approaches in several evaluations.
翻訳日:2023-12-14 15:58:45 公開日:2023-12-13
# 擬似ラベル再生とBEVMixを用いた半教師付きクラス非依存動作予測

Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label Regeneration and BEVMix ( http://arxiv.org/abs/2312.08009v1 )

ライセンス: Link先を確認
Kewei Wang, Yizheng Wu, Zhiyu Pan, Xingyi Li, Ke Xian, Zhe Wang, Zhiguo Cao, Guosheng Lin(参考訳) クラス非依存な動作予測手法は、オープンワールドシナリオにおける動きの理解を目標とし、自律運転システムにおける重要性を保っている。 しかし、完全に監督された方法でハイパフォーマンスモデルをトレーニングするには、常にかなりの量の手作業による注釈データが必要である。 この課題に対処するため,本研究では,クラス非依存動作予測のための半教師付き学習(ssl)の可能性を検討する。 SSLフレームワークは一貫性に基づく自己学習パラダイムを採用しており、テスト時間推論を通じて擬似ラベルを生成することにより、ラベルのないデータからモデルを学習することができる。 擬似ラベルの品質を向上させるため,新たなモーション選択・再生成モジュールを提案する。 このモジュールは信頼できる擬似ラベルを効果的に選択し、信頼性の低いラベルを再生成する。 さらに,時間的サンプリングとbevmixの2つのデータ拡張戦略を提案する。 これらの戦略はSSLにおける一貫性の規則化を促進する。 nuScenesで行った実験では,少数のラベル付きデータを活用することで,SSL手法が自己管理アプローチをはるかに超えることを示した。 さらに,本手法は弱く,完全に監視された手法に匹敵する性能を示す。 これらの結果から,アノテーションのコストと性能のバランスが良好であることを示す。 コードはhttps://github.com/kwwcv/ssmpで入手できる。

Class-agnostic motion prediction methods aim to comprehend motion within open-world scenarios, holding significance for autonomous driving systems. However, training a high-performance model in a fully-supervised manner always requires substantial amounts of manually annotated data, which can be both expensive and time-consuming to obtain. To address this challenge, our study explores the potential of semi-supervised learning (SSL) for class-agnostic motion prediction. Our SSL framework adopts a consistency-based self-training paradigm, enabling the model to learn from unlabeled data by generating pseudo labels through test-time inference. To improve the quality of pseudo labels, we propose a novel motion selection and re-generation module. This module effectively selects reliable pseudo labels and re-generates unreliable ones. Furthermore, we propose two data augmentation strategies: temporal sampling and BEVMix. These strategies facilitate consistency regularization in SSL. Experiments conducted on nuScenes demonstrate that our SSL method can surpass the self-supervised approach by a large margin by utilizing only a tiny fraction of labeled data. Furthermore, our method exhibits comparable performance to weakly and some fully supervised methods. These results highlight the ability of our method to strike a favorable balance between annotation costs and performance. Code will be available at https://github.com/kwwcv/SSMP.
翻訳日:2023-12-14 15:58:19 公開日:2023-12-13
# ゼロサムマルコフゲームにおけるnash平衡の学習 : 到達可能性の弱い単一の時間スケールアルゴリズム

Learning Nash Equilibria in Zero-Sum Markov Games: A Single Time-scale Algorithm Under Weak Reachability ( http://arxiv.org/abs/2312.08008v1 )

ライセンス: Link先を確認
Reda Ouhamma and Maryam Kamgarpour(参考訳) 我々は,ゼロサムゲームにおける分散学習について考察する。プレイヤーはペイオフ情報のみを閲覧し,相手のアクションやペイオフに非依存である。 以前の研究では、到達可能性の強い仮定の下で2倍の時間スケールアルゴリズムを用いてnash平衡に収束することを示した。 弱条件下で非結合かつ単一時間スケールのアルゴリズムを用いて,nash平衡を効率的に達成するオープン問題に対処する。 提案手法は,tsallis-entropy正規化を用いた有理収束アルゴリズムである。 このアルゴリズムは多項式時間で近似ナッシュ平衡を学習し、既約かつ非周期のマルコフ連鎖を誘導する政策対の存在のみを必要とするため、過去の仮定をかなり弱める。 本解析では, 負のドリフト不等式を活用し, 独立興味を持つツァリスエントロピーの新たな性質を導入する。

We consider decentralized learning for zero-sum games, where players only see their payoff information and are agnostic to actions and payoffs of the opponent. Previous works demonstrated convergence to a Nash equilibrium in this setting using double time-scale algorithms under strong reachability assumptions. We address the open problem of achieving an approximate Nash equilibrium efficiently with an uncoupled and single time-scale algorithm under weaker conditions. Our contribution is a rational and convergent algorithm, utilizing Tsallis-entropy regularization in a value-iteration-based approach. The algorithm learns an approximate Nash equilibrium in polynomial time, requiring only the existence of a policy pair that induces an irreducible and aperiodic Markov chain, thus considerably weakening past assumptions. Our analysis leverages negative drift inequalities and introduces novel properties of Tsallis entropy that are of independent interest.
翻訳日:2023-12-14 15:57:59 公開日:2023-12-13
# 対象以外の部分の発見:表現セグメンテーションを参考に

Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation ( http://arxiv.org/abs/2312.08007v1 )

ライセンス: Link先を確認
Wenxuan Wang, Tongtian Yue, Yisi Zhang, Longteng Guo, Xingjian He, Xinlong Wang, Jing Liu(参考訳) Referring Expression segmentation (RES)は、記述的な自然言語表現にマッチするエンティティの前景マスクのセグメンテーションを目的としている。 従来のRESタスクのデータセットとメソッドは、1つの式がオブジェクトレベルのターゲットを参照しなければならないという前提に大きく依存しています。 本稿では,より細かい部分レベルのresタスクにさらに一歩踏み出す。 より粒度の細かい視覚言語理解に向けて,オブジェクトレベルのRESタスクを促進するため,MRESタスクを新たに提案し,手動アノテーションによるRefCOCOmと呼ばれる評価ベンチマークを構築した。 自動モデル支援データエンジンを用いることで、提供された1M画像に32.2M以上の高品質のマスクとキャプションを含む、最大のビジュアルグラウンドデータセットであるMRES-32Mを構築する。 さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。 MRESのためのRefCOCOmと古典的なRESタスクのための3つのデータセット(RefCOCO(+/g))に関する大規模な実験は、従来の最先端手法よりもメソッドの優位性を示している。 私たちのベンチマークであるRefCOCOm、MRES-32Mデータセット、モデルUniRESは、将来の詳細なビジュアルグラウンドの研究を促進するためにhttps://github.com/Rubics-Xuan/MRESで公開されます。

Referring expression segmentation (RES) aims at segmenting the foreground masks of the entities that match the descriptive natural language expression. Previous datasets and methods for classic RES task heavily rely on the prior assumption that one expression must refer to object-level targets. In this paper, we take a step further to finer-grained part-level RES task. To promote the object-level RES task towards finer-grained vision-language understanding, we put forward a new multi-granularity referring expression segmentation (MRES) task and construct an evaluation benchmark called RefCOCOm by manual annotations. By employing our automatic model-assisted data engine, we build the largest visual grounding dataset namely MRES-32M, which comprises over 32.2M high-quality masks and captions on the provided 1M images. Besides, a simple yet strong model named UniRES is designed to accomplish the unified object-level and part-level grounding task. Extensive experiments on our RefCOCOm for MRES and three datasets (i.e., RefCOCO(+/g) for classic RES task demonstrate the superiority of our method over previous state-of-the-art methods. To foster future research into fine-grained visual grounding, our benchmark RefCOCOm, the MRES-32M dataset and model UniRES will be publicly available at https://github.com/Rubics-Xuan/MRES
翻訳日:2023-12-14 15:57:41 公開日:2023-12-13
# 構造優先マイニングと自己ブースティング学習を用いたインスタンス対応マルチカメラ3Dオブジェクト検出

Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning ( http://arxiv.org/abs/2312.08004v1 )

ライセンス: Link先を確認
Yang Jiao, Zequn Jie, Shaoxiang Chen, Lechao Cheng, Jingjing Chen, Lin Ma, Yu-Gang Jiang(参考訳) カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。 このようなパラダイムの下で、正確なBEV表現構成は、マルチカメラ画像の信頼性の高い深さ推定に依存する。 しかし、既存のアプローチでは、オブジェクトを優先順位付けすることなく各ピクセルの深さを徹底的に予測している。 この目的のために,画像プレーンのインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。 まず, 単眼深度生成の有効性を高めるために, カテゴリー特異的構造優先マイニング手法を提案する。 さらに,計算量増加時空間ステレオマッチングにおける課題対象の重視を促すために,自己ブースティング学習戦略も提案されている。 両者は、高品質なBEV機能構築のための高度な深度推定結果を提供し、究極の3D検出の恩恵を受ける。 提案手法は,挑戦的なnuScenesベンチマーク上での最先端性能を実現し,提案手法の有効性を実証した。

Camera-based bird-eye-view (BEV) perception paradigm has made significant progress in the autonomous driving field. Under such a paradigm, accurate BEV representation construction relies on reliable depth estimation for multi-camera images. However, existing approaches exhaustively predict depths for every pixel without prioritizing objects, which are precisely the entities requiring detection in the 3D space. To this end, we propose IA-BEV, which integrates image-plane instance awareness into the depth estimation process within a BEV-based detector. First, a category-specific structural priors mining approach is proposed for enhancing the efficacy of monocular depth generation. Besides, a self-boosting learning strategy is further proposed to encourage the model to place more emphasis on challenging objects in computation-expensive temporal stereo matching. Together they provide advanced depth estimation results for high-quality BEV features construction, benefiting the ultimate 3D detection. The proposed method achieves state-of-the-art performances on the challenging nuScenes benchmark, and extensive experimental results demonstrate the effectiveness of our designs.
翻訳日:2023-12-14 15:57:13 公開日:2023-12-13
# 有限温度における非対称二重ウェルポテンシャルにおける一般化ジョセフソン効果

Generalized Josephson effect in an asymmetric double-well potential at finite temperatures ( http://arxiv.org/abs/2312.08001v1 )

ライセンス: Link先を確認
Kateryna Korshynska and Sebastian Ulbricht(参考訳) 非相互作用多粒子ボソニック系をわずかに非対称な二重井戸電位に配置する。 まず1つの粒子の動力学を考察し、その時間依存確率がポテンシャルの左または右の井戸にあるかを決定する。 これらの確率は標準ジョセフソン方程式に従い、多粒子解釈ではボース=アインシュタイン凝縮系のような大域的なコヒーレント系も記述する。 このシステムは、井戸間の人口不均衡のジョセフソン振動を広く研究している。 本研究は, 実効密度行列に基づく形式主義を発達させることにより, グローバルコヒーレンス体制を超越した。 この形式化はジョゼフソン方程式の一般化を生じさせ、これは標準方程式とは追加のパラメータによって異なり、フラグメンテーションの度合の意味を持つ。 まず,有限温度における熱平衡の場合の一般化ジョセフソン方程式の解を考察し,その後非平衡状態まで議論を展開する。 我々のモデルは、所定の温度と粒子の総数に対するジョセフソン振動の最大振幅に制約をもたらす。 典型的な実験シナリオに対するこの制約を詳細に分析する。

We investigate a non-interacting many-particle bosonic system, placed in a slightly asymmetric double-well potential. We first consider the dynamics of a single particle and determine its time-dependent probabilities to be in the left or the right well of the potential. These probabilities obey the standard Josephson equations, which in their many-particle interpretation also describe a globally coherent system, such as a Bose-Einstein condensate. This system exhibits the widely studied Josephson oscillations of the population imbalance between the wells. In our study we go beyond the regime of global coherence by developing a formalism based on an effective density matrix. This formalism gives rise to a generalization of Josephson equations, which differ from the standard ones by an additional parameter, that has the meaning of the degree of fragmentation. We first consider the solution of the generalized Josephson equations in the particular case of thermal equilibrium at finite temperatures, and extend our discussion to the non-equilibrium regime afterwards. Our model leads to a constraint on the maximum amplitude of Josephson oscillations for a given temperature and the total number of particles. A detailed analysis of this constraint for typical experimental scenarios is given.
翻訳日:2023-12-14 15:56:56 公開日:2023-12-13
# 解集合プログラミングにおける定式化と強等価表記の一考察

A Unified View on Forgetting and Strong Equivalence Notions in Answer Set Programming ( http://arxiv.org/abs/2312.07993v1 )

ライセンス: Link先を確認
Zeynep G. Saribatur and Stefan Woltran(参考訳) Answer Set Programming (ASP)は、論理プログラミングと非単調推論のルーツを持つ知識表現と推論のための著名なルールベースの言語である。 aspプログラムで(ir)関連する詳細を取り除くという本質を捉えようとする目的は、強い永続性(sp)忘れ、忠実な抽象化、そして最近は、後者の2つがそれぞれ緩和され強化された忘れる概念と見なすことができる強固な単純化など、異なる概念の調査につながった。 これらの概念が関連していることが観察されたが、特にそれらが強い同値性のセマンティクスを通して特徴づけられることを考えると、それらが結合できるかどうかは不明である。 本研究では,最近の単純化概念の緩和であり,文献からすべての関連概念を捉えることができる新しい相対同値の概念を導入することで,このギャップを埋める。 これは、コンテキストプログラムが削除すべきすべての原子を含まない場合、難しい部分であることを示している。 次に, 射影と (sp)-forgetting の緩和を組み合わせた演算子を導入し, 相対化単純化を得る。 さらに、全体像を完成させる複雑な結果を示す。

Answer Set Programming (ASP) is a prominent rule-based language for knowledge representation and reasoning with roots in logic programming and non-monotonic reasoning. The aim to capture the essence of removing (ir)relevant details in ASP programs led to the investigation of different notions, from strong persistence (SP) forgetting, to faithful abstractions, and, recently, strong simplifications, where the latter two can be seen as relaxed and strengthened notions of forgetting, respectively. Although it was observed that these notions are related, especially given that they have characterizations through the semantics for strong equivalence, it remained unclear whether they can be brought together. In this work, we bridge this gap by introducing a novel relativized equivalence notion, which is a relaxation of the recent simplification notion, that is able to capture all related notions from the literature. We provide necessary and sufficient conditions for relativized simplifiability, which shows that the challenging part is for when the context programs do not contain all the atoms to remove. We then introduce an operator that combines projection and a relaxation of (SP)-forgetting to obtain the relativized simplifications. We furthermore present complexity results that complete the overall picture.
翻訳日:2023-12-14 15:56:39 公開日:2023-12-13
# 地域説明のグローバル・アグリゲーションの加速

Accelerating the Global Aggregation of Local Explanations ( http://arxiv.org/abs/2312.07991v1 )

ライセンス: Link先を確認
Alon Mor, Yonatan Belinkov, Benny Kimelfeld(参考訳) 局所的な説明手法は、手元にある文書の分類結果に大きな影響を与える入力トークンを強調します。 例えば、アンカーアルゴリズムはトークンの変更に対する分類器の感度の統計的分析を適用する。 データセットに局所的な説明を集約することで、モデルに関するグローバルな説明を提供する。 このような集約は、最も影響力のある単語を検出し、トレーニングで学んだことや、その弱点を明らかにする敵対的な例など、モデルに関する貴重な洞察を提供する。 しかし、標準的な集約手法は計算コストが高く、na\"ive実装は各文書の各トークンにコストのかかるアルゴリズムを適用するため、短い分析セッションの範囲内で実行される単純なユーザにとっては不可能である。 %Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。 具体的には、各アグリゲーション関数に応じて、最も高いグローバルインパクトを持つ上位k$ワードの集合を計算することを目的とする。 テクニックのいくつかは無損失で、いくつかは無損失です。 私たちは、非常に穏やかな品質低下のために、計算を最大30$\times$で加速することができ、計算を数時間から数分に短縮できることを示した。 また,アンカーアルゴリズムの雑音を考慮し,頻繁かつ影響の少ない単語に対するバイアスを減少させる確率モデルを開発し,検討する。

Local explanation methods highlight the input tokens that have a considerable impact on the outcome of classifying the document at hand. For example, the Anchor algorithm applies a statistical analysis of the sensitivity of the classifier to changes in the token. Aggregating local explanations over a dataset provides a global explanation of the model. Such aggregation aims to detect words with the most impact, giving valuable insights about the model, like what it has learned in training and which adversarial examples expose its weaknesses. However, standard aggregation methods bear a high computational cost: a na\"ive implementation applies a costly algorithm to each token of each document, and hence, it is infeasible for a simple user running in the scope of a short analysis session. % We devise techniques for accelerating the global aggregation of the Anchor algorithm. Specifically, our goal is to compute a set of top-$k$ words with the highest global impact according to different aggregation functions. Some of our techniques are lossless and some are lossy. We show that for a very mild loss of quality, we are able to accelerate the computation by up to 30$\times$, reducing the computation from hours to minutes. We also devise and study a probabilistic model that accounts for noise in the Anchor algorithm and diminishes the bias toward words that are frequent yet low in impact.
翻訳日:2023-12-14 15:56:14 公開日:2023-12-13
# SwitchHead: 専門知識の混成によるトランスフォーマーの高速化

SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention ( http://arxiv.org/abs/2312.07987v1 )

ライセンス: Link先を確認
R\'obert Csord\'as, Piotr Pi\k{e}kos, Kazuki Irie(参考訳) 現代のトランスフォーマーの高コストな自己アテンション層は、メモリとシーケンス長の2次計算を必要とする。 既存の近似法は通常、性能が低く、実際はかなりのスピードアップを得られない。 本稿では,ベースライントランスフォーマの言語モデル性能を同じパラメータの予算と一致させながら,計算量とメモリの要求量の両方を削減し,ウォールクロックの高速化を実現する新しい方法であるswitchheadを提案する。 SwitchHeadは値と出力のプロジェクションにMixture-of-Experts (MoE) レイヤを使用し、標準のTransformerの4~8倍の注意行列を必要とする。 我々の新しい注目は、MoE MLP層と組み合わせることができるので、効率の良い完全MoE "SwitchHead"変換モデルが得られる。 私たちのコードは公開されています。

The costly self-attention layers in modern Transformers require memory and compute quadratic in sequence length. Existing approximation methods usually underperform and fail to obtain significant speedups in practice. Here we present SwitchHead - a novel method that reduces both compute and memory requirements and achieves wall-clock speedup, while matching the language modeling performance of baseline Transformers with the same parameter budget. SwitchHead uses Mixture-of-Experts (MoE) layers for the value and output projections and requires 4 to 8 times fewer attention matrices than standard Transformers. Our novel attention can also be combined with MoE MLP layers, resulting in an efficient fully-MoE "SwitchHead" Transformer model. Our code is public.
翻訳日:2023-12-14 15:55:54 公開日:2023-12-13
# c-bev:クロスビュー画像検索と3次元ポーズ推定のためのコントラスト鳥眼視訓練

C-BEV: Contrastive Bird's Eye View Training for Cross-View Image Retrieval and 3-DoF Pose Estimation ( http://arxiv.org/abs/2312.08060v1 )

ライセンス: Link先を確認
Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen(参考訳) ストリートビュー画像の位置情報を見つけるために、クロスビュージオローカライズ(cvgl)法は、通常、地理参照された空中画像のデータベース上で画像検索を行い、視覚的に最も類似したマッチングから位置を決定する。 近年のアプローチでは、w.r.t.の翻訳や方向を合わせるためにストリートビューや空中画像が事前に選択されているが、異なるカメラのポーズが同じ空中画像と一致しなければならない現実のシナリオに挑戦することに苦慮している。 本稿では,実世界のシナリオで発生する多対一の曖昧さを明示的に解決し,ベクトルではなく鳥の眼図を用いた新しい学習可能な検索アーキテクチャを提案する。 BEVに基づく検索は、古典的検索と同じコントラスト設定と損失を用いて訓練される。 我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端処理を大きなマージンで上回る。 これは特に多くの対1のシナリオに挑戦するのに有効であり、例えば、ビゴールのクロスエリア分割におけるトップ1リコールを31.1%から65.0%に増加させるなどである。 このモデルは、画像ペアリングに適用される対照的な目的によってのみ監督されるが、3-DoFカメラが対応する空中画像にポーズするのを推測すること、さらにはメートル法で明示的に訓練された最近の手法よりも低い平均ポーズ誤差を生じることも学習する。

To find the geolocation of a street-view image, cross-view geolocalization (CVGL) methods typically perform image retrieval on a database of georeferenced aerial images and determine the location from the visually most similar match. Recent approaches focus mainly on settings where street-view and aerial images are preselected to align w.r.t. translation or orientation, but struggle in challenging real-world scenarios where varying camera poses have to be matched to the same aerial image. We propose a novel trainable retrieval architecture that uses bird's eye view (BEV) maps rather than vectors as embedding representation, and explicitly addresses the many-to-one ambiguity that arises in real-world scenarios. The BEV-based retrieval is trained using the same contrastive setting and loss as classical retrieval. Our method C-BEV surpasses the state-of-the-art on the retrieval task on multiple datasets by a large margin. It is particularly effective in challenging many-to-one scenarios, e.g. increasing the top-1 recall on VIGOR's cross-area split with unknown orientation from 31.1% to 65.0%. Although the model is supervised only through a contrastive objective applied on image pairings, it additionally learns to infer the 3-DoF camera pose on the matching aerial image, and even yields a lower mean pose error than recent methods that are explicitly trained with metric groundtruth.
翻訳日:2023-12-14 15:49:17 公開日:2023-12-13
# 合体確率グリーディバンド

Combinatorial Stochastic-Greedy Bandit ( http://arxiv.org/abs/2312.08057v1 )

ライセンス: Link先を確認
Fares Fourati, Christopher John Quinn, Mohamed-Slim Alouini, Vaneet Aggarwal(参考訳) 本稿では,選択した$n$のアーム群を各時間ステップ$t\in[T]$で共同報酬以外の余分な情報がない場合に,組合せ型マルチアームバンディ問題に対する新しい組合せ型確率グリーディバンディ(SGB)アルゴリズムを提案する。 SGBは、最適化された確率-探索-列-コミットアプローチを採用し、大きなベースアームを持つシナリオ向けに特別に設計されている。 選択ステップ毎に選択されていないベースアームの集合全体を探索する既存の方法とは異なり、SGBアルゴリズムは最適化されていないアームの比率だけをサンプリングし、このサブセットからアクションを選択する。 1-1/e)$-regret bound of $\mathcal{o}(n^{\frac{1}{3}} k^{\frac{2}{3}} t^{\frac{2}{3}} \log(t)^{\frac{2}{3}})$ for monotone stochastic submodular rewardsは、基数制約$k$の点で最先端を上回っている。 さらに,オンライン制約付き社会的影響最大化の文脈において,アルゴリズムの性能を実証的に評価した。 その結果,提案手法が他のアルゴリズムより一貫して優れており,$k$が大きくなるにつれて性能格差が増大することがわかった。

We propose a novel combinatorial stochastic-greedy bandit (SGB) algorithm for combinatorial multi-armed bandit problems when no extra information other than the joint reward of the selected set of $n$ arms at each time step $t\in [T]$ is observed. SGB adopts an optimized stochastic-explore-then-commit approach and is specifically designed for scenarios with a large set of base arms. Unlike existing methods that explore the entire set of unselected base arms during each selection step, our SGB algorithm samples only an optimized proportion of unselected arms and selects actions from this subset. We prove that our algorithm achieves a $(1-1/e)$-regret bound of $\mathcal{O}(n^{\frac{1}{3}} k^{\frac{2}{3}} T^{\frac{2}{3}} \log(T)^{\frac{2}{3}})$ for monotone stochastic submodular rewards, which outperforms the state-of-the-art in terms of the cardinality constraint $k$. Furthermore, we empirically evaluate the performance of our algorithm in the context of online constrained social influence maximization. Our results demonstrate that our proposed approach consistently outperforms the other algorithms, increasing the performance gap as $k$ grows.
翻訳日:2023-12-14 15:48:48 公開日:2023-12-13
# LLMプロンプティングとマルチソーススーパービジョンを用いた知識認識人工物画像合成

Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and Multi-Source Supervision ( http://arxiv.org/abs/2312.08056v1 )

ライセンス: Link先を確認
Shengguang Wu, Zhenglun Chen, Qi Su(参考訳) 古代の遺物は文化保存と修復の重要な媒体である。 しかし、アーティファクトの物理的コピーの多くは損傷または失われており、アーティファクト画像生成技術を求める考古学的・歴史的研究において空白の空間を残している。 オープンドメインのテキストから画像への合成の大幅な進歩にもかかわらず、既存のアプローチではテキスト記述で示される重要なドメイン知識を捉えられず、不正な形状やパターンのような再生成された画像にエラーが発生する。 本稿では,失われた歴史オブジェクトを視覚的形状に正確に反映する,知識対応のアーティファクト画像合成手法を提案する。 事前学習した拡散モデルをバックボーンとして使用し、テキスト・画像生成フレームワークを強化するために3つの重要なテクニックを導入します。 1)大型言語モデル(LLM)から派生した明示的な考古学的知識を持つプロンプトを構築する。 2) 関連した歴史的専門知識を対比的に追加のテキストガイダンスを取り入れる。 3) エッジや知覚的特徴に対する視覚的セマンティックな制約を導入することで, モデルがより複雑な視覚的詳細を学習できるようにする。 既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識と整合し,自動計測や人的評価において顕著な改善を達成できる,高品質なアーティファクト画像を生成する。 私たちのコードとデータはhttps://github.com/danielwusg/artifact_diffusionで入手できます。

Ancient artifacts are an important medium for cultural preservation and restoration. However, many physical copies of artifacts are either damaged or lost, leaving a blank space in archaeological and historical studies that calls for artifact image generation techniques. Despite the significant advancements in open-domain text-to-image synthesis, existing approaches fail to capture the important domain knowledge presented in the textual description, resulting in errors in recreated images such as incorrect shapes and patterns. In this paper, we propose a novel knowledge-aware artifact image synthesis approach that brings lost historical objects accurately into their visual forms. We use a pretrained diffusion model as backbone and introduce three key techniques to enhance the text-to-image generation framework: 1) we construct prompts with explicit archaeological knowledge elicited from large language models (LLMs); 2) we incorporate additional textual guidance to correlated historical expertise in a contrastive manner; 3) we introduce further visual-semantic constraints on edge and perceptual features that enable our model to learn more intricate visual details of the artifacts. Compared to existing approaches, our proposed model produces higher-quality artifact images that align better with the implicit details and historical knowledge contained within written documents, thus achieving significant improvements across automatic metrics and in human evaluation. Our code and data are available at https://github.com/danielwusg/artifact_diffusion.
翻訳日:2023-12-14 15:48:15 公開日:2023-12-13
# 沈黙を破る - ソフトウェア工学におけるLLMの使用の脅威

Breaking the Silence: the Threats of Using LLMs in Software Engineering ( http://arxiv.org/abs/2312.08055v1 )

ライセンス: Link先を確認
June Sallou, Thomas Durieux, Annibale Panichella(参考訳) 大規模言語モデル(LLM)は、コード補完からテスト生成まで、プログラムの修復からコードの要約に至るまで、様々なSEタスクに影響を与え、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。 彼らの約束にもかかわらず、多くの複雑な要因がLSMを含む実験の結果に影響を与えるため、研究者は依然として注意が必要である。 本稿では,LCM の学習データと研究評価間のデータ漏洩の可能性,LCM による研究結果の再現性など,LCM ベースの研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。 そこで本研究では,SE研究者と言語モデル提供者を対象に,これらの懸念を緩和するためのガイドラインを提案する。 このガイドラインの意義は、LLMプロバイダによる既存のベストプラクティスと、テストケース生成の文脈におけるSE研究者の実践例を用いて説明されている。

Large Language Models (LLMs) have gained considerable traction within the Software Engineering (SE) community, impacting various SE tasks from code completion to test generation, from program repair to code summarization. Despite their promise, researchers must still be careful as numerous intricate factors can influence the outcomes of experiments involving LLMs. This paper initiates an open discussion on potential threats to the validity of LLM-based research including issues such as closed-source models, possible data leakage between LLM training data and research evaluation, and the reproducibility of LLM-based findings. In response, this paper proposes a set of guidelines tailored for SE researchers and Language Model (LM) providers to mitigate these concerns. The implications of the guidelines are illustrated using existing good practices followed by LLM providers and a practical example for SE researchers in the context of test case generation.
翻訳日:2023-12-14 15:47:52 公開日:2023-12-13
# 4次元動的点雲列による意味的完全シーン予測

Semantic Complete Scene Forecasting from a 4D Dynamic Point Cloud Sequence ( http://arxiv.org/abs/2312.08054v1 )

ライセンス: Link先を確認
Zifan Wang, Zhuorui Ye, Haoran Wu, Junyu Chen, Li Yi(参考訳) 本研究では,本研究における意味的完全シーン予測(SCSF)の新たな課題について検討する。 4次元のダイナミックポイントクラウドシーケンスを前提として,将来的な次のフレームに対応するシーンを,セマンティックラベルとともに予測する。 この課題に対処するために、SCSFNetという新しいネットワークを通じて、将来の予測とセマンティックシーン完了の相乗関係を適切にモデル化する。 SCSFNetはハイレゾ完全シーン予測にハイブリッド幾何表現を利用する。 複数フレームの観察とシーンダイナミクスの理解を活用して完了作業を容易にするため、SCSFNetは注意に基づくスキップ接続方式を導入した。 閉塞変動のモデル化を容易にし、閉塞部分に集中するため、SCSFNetは補助的な可視グリッドを使用して予測タスクを誘導する。 SCSFNetの有効性を評価するため、2つの大規模屋内ベンチマークと屋外セマンティックKITTIベンチマークを含む様々なベンチマークで実験を行った。 広範な実験により、scsfnetは複数のメトリクスのベースラインメソッドを大きなマージンで上回り、将来の予測とセマンティックシーンの補完の相乗効果を証明している。

We study a new problem of semantic complete scene forecasting (SCSF) in this work. Given a 4D dynamic point cloud sequence, our goal is to forecast the complete scene corresponding to the future next frame along with its semantic labels. To tackle this challenging problem, we properly model the synergetic relationship between future forecasting and semantic scene completion through a novel network named SCSFNet. SCSFNet leverages a hybrid geometric representation for high-resolution complete scene forecasting. To leverage multi-frame observation as well as the understanding of scene dynamics to ease the completion task, SCSFNet introduces an attention-based skip connection scheme. To ease the need to model occlusion variations and to better focus on the occluded part, SCSFNet utilizes auxiliary visibility grids to guide the forecasting task. To evaluate the effectiveness of SCSFNet, we conduct experiments on various benchmarks including two large-scale indoor benchmarks we contributed and the outdoor SemanticKITTI benchmark. Extensive experiments show SCSFNet outperforms baseline methods on multiple metrics by a large margin, and also prove the synergy between future forecasting and semantic scene completion.
翻訳日:2023-12-14 15:47:36 公開日:2023-12-13
# kimad: 帯域幅を考慮した適応勾配圧縮

Kimad: Adaptive Gradient Compression with Bandwidth Awareness ( http://arxiv.org/abs/2312.08053v1 )

ライセンス: Link先を確認
Jihao Xin, Ivan Ilin, Shunkang Zhang, Marco Canini, Peter Richt\'arik(参考訳) 分散トレーニングでは、コミュニケーションがボトルネックとして現れることが多い。 これに対して,適応的な勾配圧縮を提供するKimadを導入する。 帯域幅を継続的に監視することで、Kimadは特定のニューラルネットワーク層要求に合うように圧縮比を改良する。 我々の徹底的なテストと証明は、分散ディープラーニングのための適応圧縮のベンチマークとして、Kimadの卓越した性能を確認した。

In distributed training, communication often emerges as a bottleneck. In response, we introduce Kimad, a solution that offers adaptive gradient compression. By consistently monitoring bandwidth, Kimad refines compression ratios to match specific neural network layer requirements. Our exhaustive tests and proofs confirm Kimad's outstanding performance, establishing it as a benchmark in adaptive compression for distributed deep learning.
翻訳日:2023-12-14 15:47:16 公開日:2023-12-13
# 辞書学習による説明可能な軌道表現

Explainable Trajectory Representation through Dictionary Learning ( http://arxiv.org/abs/2312.08052v1 )

ライセンス: Link先を確認
Yuanbo Tang, Zhiyuan Peng and Yang Li(参考訳) ネットワーク上での軌道表現学習は、車両交通パターンの理解を高め、多くの下流アプリケーションに恩恵をもたらす。 古典的な機械学習やディープラーニングを使った既存のアプローチは、解釈性に欠け、下流のタスクを保存および分析するのに非効率な、密度の高いベクトルとして組み込みトラジェクトリを組み込んでいる。 本稿では,辞書学習による説明可能な軌道表現学習フレームワークを提案する。 ネットワーク上の軌道の集合が与えられると、「パスレット」と呼ばれる一般的なサブパスのコンパクト辞書を抽出し、単純な連結によって各軌道を最適に再構築する。 結果として得られる表現は自然に疎外され、強い空間意味論を符号化する。 提案アルゴリズムの理論的解析により,最適辞書の推定誤差に対する確率的境界を求める。 大規模ネットワーク上でのアルゴリズムのスケーラビリティを確保するために,階層型辞書学習方式も提案されている。 本フレームワークは,2つの大規模実世界のタクシーデータを用いて評価する。 先行研究に比べ,本手法で学習した辞書はよりコンパクトであり,新しい軌跡の復元率も向上した。 また,トリップタイム予測タスクやデータ圧縮といった下流タスクにおいて,この手法の有望な性能を示す。

Trajectory representation learning on a network enhances our understanding of vehicular traffic patterns and benefits numerous downstream applications. Existing approaches using classic machine learning or deep learning embed trajectories as dense vectors, which lack interpretability and are inefficient to store and analyze in downstream tasks. In this paper, an explainable trajectory representation learning framework through dictionary learning is proposed. Given a collection of trajectories on a network, it extracts a compact dictionary of commonly used subpaths called "pathlets", which optimally reconstruct each trajectory by simple concatenations. The resulting representation is naturally sparse and encodes strong spatial semantics. Theoretical analysis of our proposed algorithm is conducted to provide a probabilistic bound on the estimation error of the optimal dictionary. A hierarchical dictionary learning scheme is also proposed to ensure the algorithm's scalability on large networks, leading to a multi-scale trajectory representation. Our framework is evaluated on two large-scale real-world taxi datasets. Compared to previous work, the dictionary learned by our method is more compact and has better reconstruction rate for new trajectories. We also demonstrate the promising performance of this method in downstream tasks including trip time prediction task and data compression.
翻訳日:2023-12-14 15:47:09 公開日:2023-12-13
# 安定拡散モデルの組成インバージョン

Compositional Inversion for Stable Diffusion Models ( http://arxiv.org/abs/2312.08048v1 )

ライセンス: Link先を確認
Xu-Lu Zhang, Xiao-Yong Wei, Jin-Lin Wu, Tian-Yi Zhang, Zhao-Xiang Zhang, Zhen Lei, Qing Li(参考訳) テキストインバージョンのようなインバージョンメソッドは、ユーザイメージが提供する関心の概念を取り入れてパーソナライズされたイメージを生成する。 しかし、既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の存在が他の望ましい概念の欠如につながっている。 インバージョンの間、ユーザイメージの無関係なセマンティクスもエンコードされ、インバージョンされた概念は埋め込み空間のコア分布から遠く離れた場所を占有せざるを得ないという事実に起因している。 この問題に対処するために,コンポジション埋め込みのためのコア分布への反転過程を導出する手法を提案する。 さらに,集合する概念に対する注意のバランスをとるための空間正規化手法を提案する。 本手法はトレーニング後のアプローチとして設計され,他のインバージョン手法とシームレスに統合することができる。 実験の結果,提案手法は,過剰フィッティング問題を緩和し,合成画像における概念のより多様でバランスの取れた構成を生成する際に有効であることが示された。 ソースコードはhttps://github.com/zhangxulu1996/compositional-inversionで入手できる。

Inversion methods, such as Textual Inversion, generate personalized images by incorporating concepts of interest provided by user images. However, existing methods often suffer from overfitting issues, where the dominant presence of inverted concepts leads to the absence of other desired concepts. It stems from the fact that during inversion, the irrelevant semantics in the user images are also encoded, forcing the inverted concepts to occupy locations far from the core distribution in the embedding space. To address this issue, we propose a method that guides the inversion process towards the core distribution for compositional embeddings. Additionally, we introduce a spatial regularization approach to balance the attention on the concepts being composed. Our method is designed as a post-training approach and can be seamlessly integrated with other inversion methods. Experimental results demonstrate the effectiveness of our proposed approach in mitigating the overfitting problem and generating more diverse and balanced compositions of concepts in the synthesized images. The source code is available at https://github.com/zhangxulu1996/Compositional-Inversion.
翻訳日:2023-12-14 15:46:46 公開日:2023-12-13
# トロッター・ストラングスプリッティングの強い誤差境界と量子化学への応用

Strong Error Bounds for Trotter & Strang-Splittings and Their Implications for Quantum Chemistry ( http://arxiv.org/abs/2312.08044v1 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Alexander Hahn, Mattias Johnsson, Kazuya Yuasa(参考訳) トロッター積公式の効率的な誤差推定は、量子コンピューティング、数理物理学、数値シミュレーションの中心である。 しかし、トロッターエラーの入力状態への依存性とその非有界演算子への応用は、まだ不明である。 本稿では,明示的な入力状態依存性を持つ高階積公式を含む誤差推定の一般理論を提案する。 本稿では,既存の演算子ノルム推定の2つの限界を克服する。 まず、前の境界は最悪のシナリオを定量化するため悲観的すぎる。 第二に、以前の境界は非有界作用素に対して自明となり、原子および分子ハミルトニアンを含む幅広い種類のトロッターシナリオに適用できない。 本手法は,水素原子のケーススタディにより,化学シミュレーションにおけるトロッター誤差の解析的処理を可能にする。 私たちの発見は i) 水素原子の低角運動状態のような脂肪尾エネルギー分布を持つ状態の場合、トロッターの誤差は、トロッターのステップ数において予想よりも(サブリニアに)悪化する。 (ii) ある状態は、高次ロータライズからのスケーリングの利点を認めておらず、したがって、水素原子の基底状態を含むこれらの状態に対して高次ロータリー階層が崩壊する。 (iii)高次トロッター境界のスケーリングは、脂肪相のエネルギー分布を持つ状態のトロッター積におけるハミルトニアンの順序に依存する可能性がある。 物理的には、トロッターの誤差はトロッターのダイナミクスによる原子のイオン化によって引き起こされる。 数学的には、ある領域の状態は、ポテンシャルと運動エネルギーの高次モーメントが分岐する状態によって満たされないことが分かる。 解析誤差解析は数値シミュレーションと一致し、状態依存のトロッター誤差スケーリングを真に推定できることを示す。

Efficient error estimates for the Trotter product formula are central in quantum computing, mathematical physics, and numerical simulations. However, the Trotter error's dependency on the input state and its application to unbounded operators remains unclear. Here, we present a general theory for error estimation, including higher-order product formulas, with explicit input state dependency. Our approach overcomes two limitations of the existing operator-norm estimates in the literature. First, previous bounds are too pessimistic as they quantify the worst-case scenario. Second, previous bounds become trivial for unbounded operators and cannot be applied to a wide class of Trotter scenarios, including atomic and molecular Hamiltonians. Our method enables analytical treatment of Trotter errors in chemistry simulations, illustrated through a case study on the hydrogen atom. Our findings reveal: (i) for states with fat-tailed energy distribution, such as low-angular-momentum states of the hydrogen atom, the Trotter error scales worse than expected (sublinearly) in the number of Trotter steps; (ii) certain states do not admit an advantage in the scaling from higher-order Trotterization, and thus, the higher-order Trotter hierarchy breaks down for these states, including the hydrogen atom's ground state; (iii) the scaling of higher-order Trotter bounds might depend on the order of the Hamiltonians in the Trotter product for states with fat-tailed energy distribution. Physically, the enlarged Trotter error is caused by the atom's ionization due to the Trotter dynamics. Mathematically, we find that certain domain conditions are not satisfied by some states so higher moments of the potential and kinetic energies diverge. Our analytical error analysis agrees with numerical simulations, indicating that we can estimate the state-dependent Trotter error scaling genuinely.
翻訳日:2023-12-14 15:46:30 公開日:2023-12-13
# 安全を守る: 公益におけるAIの整合性をいかに促進するか

Safeguarding the safeguards: How best to promote AI alignment in the public interest ( http://arxiv.org/abs/2312.08039v1 )

ライセンス: Link先を確認
Oliver Guest, Michael Aird, Se\'an \'O h\'Eigeartaigh(参考訳) AIアライメント作業は、商用レンズと安全レンズの両方から重要である。 本稿では,これらの取り組みを可能な限り効果的にするためのアライメント活動を支援する俳優の支援と,潜在的な悪影響を避けることを目的とする。 まず、公共の利益のために活動しようとする機関(政府など)は、事故や誤用リスクを低減させる具体的な調整作業を支援するべきであると提案する。 次に、アライメントの取り組みが非生産的になり、大規模なAIリスクが増大する可能性のある4つの問題を述べる。 各問題に対する緩和策を提案する。 最後に、公共の利益のために行動しようとする機関は、自分たちの協調努力を可能な限り効果的かつ有益にする方法を体系的に考えるべきだという幅広い勧告を行ないます。

AI alignment work is important from both a commercial and a safety lens. With this paper, we aim to help actors who support alignment efforts to make these efforts as effective as possible, and to avoid potential adverse effects. We begin by suggesting that institutions that are trying to act in the public interest (such as governments) should aim to support specifically alignment work that reduces accident or misuse risks. We then describe four problems which might cause alignment efforts to be counterproductive, increasing large-scale AI risks. We suggest mitigations for each problem. Finally, we make a broader recommendation that institutions trying to act in the public interest should think systematically about how to make their alignment efforts as effective, and as likely to be beneficial, as possible.
翻訳日:2023-12-14 15:46:01 公開日:2023-12-13
# CoRTEx:バイオメディカル知識グラフ構築のための説明による用語表現のコントラスト学習

CoRTEx: Contrastive Learning for Representing Terms via Explanations with Applications on Constructing Biomedical Knowledge Graphs ( http://arxiv.org/abs/2312.08036v1 )

ライセンス: Link先を確認
Huaiyuan Ying, Zhengyun Zhao, Yang Zhao, Sihang Zeng, Sheng Yu(参考訳) 目的: バイオメディカル知識グラフは、様々なバイオメディカル研究領域において重要な役割を果たす。 同時に、用語クラスタリングはこれらの知識グラフを構築する上で重要なステップとして登場し、同義語を識別することを目指している。 知識の不足により、Unified Medical Language System (UMLS) で訓練された従来のコントラスト学習モデルは、難解な用語のクラスタリングに苦慮し、UMLS の用語をはるかに越えて一般化しない。 本研究では,Large Language Models (LLMs) からの世界知識を活用し,言語表現の強化と用語クラスタリングの大幅な向上を図るために,Contrastive Learning for Representing Terms via Explanations (CoRTEx)を提案する。 Materials and Methods: モデルトレーニングでは、ChatGPTを使用してUMLS用語のクリーン化されたサブセットの説明を生成する。 用語埋め込みと説明埋め込みを同時に考慮し,対照的な学習を行い,徐々に否定的なサンプルを導入する。 さらに,ChatGPTを用いたBIRCHアルゴリズムは,新しいオントロジーの効率的なクラスタリングを目的としている。 結果: クラスタリングテストセットとハードネガティブテストセットを確立した。 CoRTExの埋め込みと改良されたBIRCHアルゴリズムを用いて,バイオメディカルインフォマティクスオントロジーシステム(BIOS)から3,580,932の用語を22,104,559のクラスタに分類し,O(N)クエリをChatGPTに適用した。 ケーススタディでは、難解なサンプルを扱うモデルの有効性が強調され、説明からの情報によって支援される。 結論: 用語を説明に合わせることにより、cortexはベンチマークモデルよりも優れた精度とトレーニングセットを超えた堅牢性を示し、大規模生物医学オントロジーのクラスタリング用語に適している。

Objective: Biomedical Knowledge Graphs play a pivotal role in various biomedical research domains. Concurrently, term clustering emerges as a crucial step in constructing these knowledge graphs, aiming to identify synonymous terms. Due to a lack of knowledge, previous contrastive learning models trained with Unified Medical Language System (UMLS) synonyms struggle at clustering difficult terms and do not generalize well beyond UMLS terms. In this work, we leverage the world knowledge from Large Language Models (LLMs) and propose Contrastive Learning for Representing Terms via Explanations (CoRTEx) to enhance term representation and significantly improves term clustering. Materials and Methods: The model training involves generating explanations for a cleaned subset of UMLS terms using ChatGPT. We employ contrastive learning, considering term and explanation embeddings simultaneously, and progressively introduce hard negative samples. Additionally, a ChatGPT-assisted BIRCH algorithm is designed for efficient clustering of a new ontology. Results: We established a clustering test set and a hard negative test set, where our model consistently achieves the highest F1 score. With CoRTEx embeddings and the modified BIRCH algorithm, we grouped 35,580,932 terms from the Biomedical Informatics Ontology System (BIOS) into 22,104,559 clusters with O(N) queries to ChatGPT. Case studies highlight the model's efficacy in handling challenging samples, aided by information from explanations. Conclusion: By aligning terms to their explanations, CoRTEx demonstrates superior accuracy over benchmark models and robustness beyond its training set, and it is suitable for clustering terms for large-scale biomedical ontologies.
翻訳日:2023-12-14 15:45:47 公開日:2023-12-13
# ニューラルネットの二重動作による個々のディープフェイク検出

Individualized Deepfake Detection Exploiting Traces Due to Double Neural-Network Operations ( http://arxiv.org/abs/2312.08034v1 )

ライセンス: Link先を確認
Mushfiqur Rahman, Runze Liu, Chau-Wai Wong, Huaiyu Dai(参考訳) 今日のデジタル・ランドスケープでは、ジャーナリストは特定の公共の人物を描いた顔画像やビデオの真正性を、ニュース記事に組み込む前に検証するツールを必要としている。 既存のディープフェイク検出器は、画像が特定の特定個人と関連付けられている場合、この検出タスクに最適化されない。 本研究では,個人の顔画像のディープフェイク検出に焦点をあてた。 提案手法は, 理論駆動シミュレーションで明らかな利点を考慮し, 同定された個体の身元を推定する。 文献中のほとんどの検出器は、ディープフェイクの顔画像に存在する知覚可能または知覚不能なアーティファクトに依存しているが、ニューラルネットワークのべき等性を利用して検出性能を向上できることを実証する。 本手法では,ディープフェイクシミュレートネットワークを2回通過する2つのニューラルネット処理を行う。 実験の結果, 提案手法は曲線下面積を0.92から0.94に改善し, 標準偏差を17\%低減することがわかった。 個々の人物の検出性能を評価するには、個人名付き顔画像データセットが必要であり、現在のdeepfakeデータセットでは満たさない基準が必要である。 これに対処するために,45人の公開人物を特徴とする32k画像からなるデータセットをキュレートした。

In today's digital landscape, journalists urgently require tools to verify the authenticity of facial images and videos depicting specific public figures before incorporating them into news stories. Existing deepfake detectors are not optimized for this detection task when an image is associated with a specific and identifiable individual. This study focuses on the deepfake detection of facial images of individual public figures. We propose to condition the proposed detector on the identity of the identified individual given the advantages revealed by our theory-driven simulations. While most detectors in the literature rely on perceptible or imperceptible artifacts present in deepfake facial images, we demonstrate that the detection performance can be improved by exploiting the idempotency property of neural networks. In our approach, the training process involves double neural-network operations where we pass an authentic image through a deepfake simulating network twice. Experimental results show that the proposed method improves the area under the curve (AUC) from 0.92 to 0.94 and reduces its standard deviation by 17\%. For evaluating the detection performance of individual public figures, a facial image dataset with individuals' names is required, a criterion not met by the current deepfake datasets. To address this, we curated a dataset comprising 32k images featuring 45 public figures, which we intend to release to the public after the paper is published.
翻訳日:2023-12-14 15:45:10 公開日:2023-12-13
# トップクラスの合意を超えて:分散シフトによるパフォーマンス予測にダイバージェンスを使う

Beyond Top-Class Agreement: Using Divergences to Forecast Performance under Distribution Shift ( http://arxiv.org/abs/2312.08033v1 )

ライセンス: Link先を確認
Mona Schirmer, Dan Zhang, Eric Nalisnick(参考訳) モデルが‘野生の’データに一般化するかどうかを知ることは、安全なデプロイメントに不可欠です。 そこで本研究では,Helinger 距離,Jensen-Shannon およびKullback-Leibler の発散に基づく完全予測分布を考慮したモデル不一致概念について検討する。 分散度に基づくスコアは,トップ1のスコアと比較して,分布外データに対するテスト誤差推定と検出率に優れることがわかった。 実験には標準的なビジョンと基礎モデルが含まれる。

Knowing if a model will generalize to data 'in the wild' is crucial for safe deployment. To this end, we study model disagreement notions that consider the full predictive distribution - specifically disagreement based on Hellinger distance, Jensen-Shannon and Kullback-Leibler divergence. We find that divergence-based scores provide better test error estimates and detection rates on out-of-distribution data compared to their top-1 counterparts. Experiments involve standard vision and foundation models.
翻訳日:2023-12-14 15:44:45 公開日:2023-12-13
# clusterddpm:拡散確率モデルを用いたemクラスタリングフレームワーク

ClusterDDPM: An EM clustering framework with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.08029v1 )

ライセンス: Link先を確認
Jie Yan, Jing Liu and Zhong-yuan Zhang(参考訳) variational autoencoder (vae) とgenerative adversarial networks (gan) はクラスタリングに広く応用されており、大きな成功を収めている。 しかしながら、これらのアプローチのポテンシャルは、VAEの中間生成能力や、GANの敵対的訓練におけるよく知られた不安定性によって制限される可能性がある。 対照的に拡散確率モデル(DDPM)は、クラスタリングにおける新しい次元を解き放つ可能性のある新しい予測モデルである。 本研究では,DDPMを用いたクラスタリングのための革新的予測最大化(EM)フレームワークを提案する。 e-ステップでは、次のm-ステップのためにガウス前駆体の混合物を導出する。 m-ステップでは,条件付きddpmを用い,ガウス前駆体の混合に潜在表現の分布を整合させることで,クラスタリングにやさしいデータの潜在表現を学習することに注力する。 本稿では,mステップにおける最適化過程の厳密な理論的解析を行い,ある制約下でのバニラemフレームワーク内のq関数の下限を最大化することと同値であることを示す。 クラスタリング, 教師なし条件生成, 潜在表現学習における優れた性能を示すため, 提案フレームワークの利点を総合的に検証した。

Variational autoencoder (VAE) and generative adversarial networks (GAN) have found widespread applications in clustering and have achieved significant success. However, the potential of these approaches may be limited due to VAE's mediocre generation capability or GAN's well-known instability during adversarial training. In contrast, denoising diffusion probabilistic models (DDPMs) represent a new and promising class of generative models that may unlock fresh dimensions in clustering. In this study, we introduce an innovative expectation-maximization (EM) framework for clustering using DDPMs. In the E-step, we aim to derive a mixture of Gaussian priors for the subsequent M-step. In the M-step, our focus lies in learning clustering-friendly latent representations for the data by employing the conditional DDPM and matching the distribution of latent representations to the mixture of Gaussian priors. We present a rigorous theoretical analysis of the optimization process in the M-step, proving that the optimizations are equivalent to maximizing the lower bound of the Q function within the vanilla EM framework under certain constraints. Comprehensive experiments validate the advantages of the proposed framework, showcasing superior performance in clustering, unsupervised conditional generation and latent representation learning.
翻訳日:2023-12-14 15:44:35 公開日:2023-12-13
# 言語モデルがより深く学ぶ手助け: ファウショットチューニングのための多次元タスクプロンプト

Helping Language Models Learn More: Multi-dimensional Task Prompt for Few-shot Tuning ( http://arxiv.org/abs/2312.08027v1 )

ライセンス: Link先を確認
Jinta Weng and Jiarui Zhang and Yue Hu and Daidong Fa and Xiaofeng Xuand and Heyan Huang(参考訳) 大きな言語モデル(llm)は、自然言語クエリを構築し、プロンプトを大きな言語モデルに直接入力することで、アクセス可能でインテリジェントなチャットボットとして使用できる。 しかし、異なるプロンプトの構造は答えの不確実性を引き起こすことが多く、そのため(ChatGPTのような)LLMの特定の知識を利用するのが難しくなる。 そこで我々は,LLMにおける素早い学習原理を説明するために,解釈可能な構造を用いて,言語モデルの有効性がタスクの関連するトークンの位置変化によって決定されることを示す。 そこで本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。 提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。 さらに,異なる実験環境とアブレーション実験において,本手法の有効性と安定性を示す。 大きな言語モデルとの相互作用において、より多くのタスク関連の情報をプロンプトに埋め込むことで、大きな言語モデルに埋め込まれた知識を刺激しやすくなる。

Large language models (LLMs) can be used as accessible and intelligent chatbots by constructing natural language queries and directly inputting the prompt into the large language model. However, different prompt' constructions often lead to uncertainty in the answers and thus make it hard to utilize the specific knowledge of LLMs (like ChatGPT). To alleviate this, we use an interpretable structure to explain the prompt learning principle in LLMs, which certificates that the effectiveness of language models is determined by position changes of the task's related tokens. Therefore, we propose MTPrompt, a multi-dimensional task prompt learning method consisting based on task-related object, summary, and task description information. By automatically building and searching for appropriate prompts, our proposed MTPrompt achieves the best results on few-shot samples setting and five different datasets. In addition, we demonstrate the effectiveness and stability of our method in different experimental settings and ablation experiments. In interaction with large language models, embedding more task-related information into prompts will make it easier to stimulate knowledge embedded in large language models.
翻訳日:2023-12-14 15:44:11 公開日:2023-12-13
# Clockwork Diffusion: モデルステップ蒸留による効率的な生成

Clockwork Diffusion: Efficient Generation With Model-Step Distillation ( http://arxiv.org/abs/2312.08128v1 )

ライセンス: Link先を確認
Amirhossein Habibian, Amir Ghodrati, Noor Fathima, Guillaume Sautiere, Risheek Garrepalli, Fatih Porikli, Jens Petersen(参考訳) 本研究の目的は,テキスト・画像拡散モデルの効率化である。 拡散モデルでは, 計算コストのかかるUNetベースの復調処理を各生成ステップで使用するが, 全ての演算が最終的な出力品質に等しく関連しているわけではない。 特に,高解像度の特徴マップ上で動作するUNet層は,小さな摂動に対して比較的敏感である。 対照的に、低解像度の特徴マップは最終画像のセマンティックなレイアウトに影響を与え、出力に顕著な変化を伴わずに摂動することができる。 そこで本研究では,前回から計算を周期的に再利用し,1つ以上のステップで低解像度特徴マップを近似する手法であるクロックワーク拡散を提案する。 複数のベースライン、およびテキスト対画像生成と画像編集の両方において、クロックワークが計算複雑性を劇的に低減した知覚スコアに匹敵する、あるいは改善をもたらすことを実証する。 例えば、8つのdpm++ステップを持つ安定した拡散v1.5では、フロップの32%を無視できるfidとクリップ変更で節約する。

This work aims to improve the efficiency of text-to-image diffusion models. While diffusion models use computationally expensive UNet-based denoising operations in every generation step, we identify that not all operations are equally relevant for the final output quality. In particular, we observe that UNet layers operating on high-res feature maps are relatively sensitive to small perturbations. In contrast, low-res feature maps influence the semantic layout of the final image and can often be perturbed with no noticeable change in the output. Based on this observation, we propose Clockwork Diffusion, a method that periodically reuses computation from preceding denoising steps to approximate low-res feature maps at one or more subsequent steps. For multiple baselines, and for both text-to-image generation and image editing, we demonstrate that Clockwork leads to comparable or improved perceptual scores with drastically reduced computational complexity. As an example, for Stable Diffusion v1.5 with 8 DPM++ steps we save 32% of FLOPs with negligible FID and CLIP change.
翻訳日:2023-12-14 15:36:35 公開日:2023-12-13
# 群集動力学における異常早期検出のためのlbsnデータのハイブリッド解析

A hybrid analysis of LBSN data to early detect anomalies in crowd dynamics ( http://arxiv.org/abs/2312.08092v1 )

ライセンス: Link先を確認
Rebeca P. D\'iaz-Redondo, Carlos Garcia-Rubio, Ana Fern\'andez Vilas, Celeste Campo, Alicia Rodriguez-Carrion(参考訳) LBSN(Location-based Social Networks)は、これまで都市部における群衆の動態パターンの収集に利用してきた、地理的位置情報の興味深い情報源を提供する。 以上の結果から,LBSNの活動は市の実際の活動を反映している。 したがって、ソーシャルメディア活動における予期せぬ行動は、市内の活動の予期せぬ変化の信頼できる証拠である。 本稿では,lbsnsから収集したデータに対して,エントロピー解析とクラスタリングの2つの手法を組み合わせることで,これらの変化を早期に検出するハイブリッドソリューションを提案する。 特に、我々はニューヨークで7ヶ月間にわたってinstagramから収集されたデータセットで実験を行い、有望な結果を得た。

Undoubtedly, Location-based Social Networks (LBSNs) provide an interesting source of geo-located data that we have previously used to obtain patterns of the dynamics of crowds throughout urban areas. According to our previous results, activity in LBSNs reflects the real activity in the city. Therefore, unexpected behaviors in the social media activity are a trustful evidence of unexpected changes of the activity in the city. In this paper we introduce a hybrid solution to early detect these changes based on applying a combination of two approaches, the use of entropy analysis and clustering techniques, on the data gathered from LBSNs. In particular, we have performed our experiments over a data set collected from Instagram for seven months in New York City, obtaining promising results.
翻訳日:2023-12-14 15:36:17 公開日:2023-12-13
# クラウドソーシングにおけるパイロット研究報告の現状--ベストプラクティスとガイドラインの検討

The State of Pilot Study Reporting in Crowdsourcing: A Reflection on Best Practices and Guidelines ( http://arxiv.org/abs/2312.08090v1 )

ライセンス: Link先を確認
Jonas Oppenlaender, Tahir Abbas, Ujwal Gadiraju(参考訳) パイロット研究は、クラウドソーシングキャンペーンの設計の基本的な基礎であるが、学術文献においてのみ言及されることが多い。 クラウドソーシング研究におけるパイロット研究に関する詳細の欠如は、研究の複製と発見の再現を妨げ、潜在的な科学的進歩を阻害する。 クラウドソーシングとhci研究の交点におけるパイロット研究の現状について体系的な文献レビューを行った。 本稿は,ACMデジタル図書館と人間計算・クラウドソーシング会議 (AAAI HCOMP) の手続で公表された171の論文を含む10年間の文献を概観する。 クラウドソーシング研究(すなわち、クラウドソーシング研究)におけるパイロット研究は、しばしば文献で報告されていない。 労働者の数や労働者への報酬などの重要な詳細は報告されないことが多い。 本研究は,実践の現状を反映し,クラウドソーシング研究において,群衆パイロット研究を報告するためのベストプラクティスのセットを策定するものである。 また,クラウドソーシングプラットフォームの設計に示唆を与え,クラウドパイロット研究報告を支援する実践的な提案を行う。

Pilot studies are an essential cornerstone of the design of crowdsourcing campaigns, yet they are often only mentioned in passing in the scholarly literature. A lack of details surrounding pilot studies in crowdsourcing research hinders the replication of studies and the reproduction of findings, stalling potential scientific advances. We conducted a systematic literature review on the current state of pilot study reporting at the intersection of crowdsourcing and HCI research. Our review of ten years of literature included 171 articles published in the proceedings of the Conference on Human Computation and Crowdsourcing (AAAI HCOMP) and the ACM Digital Library. We found that pilot studies in crowdsourcing research (i.e., crowd pilot studies) are often under-reported in the literature. Important details, such as the number of workers and rewards to workers, are often not reported. On the basis of our findings, we reflect on the current state of practice and formulate a set of best practice guidelines for reporting crowd pilot studies in crowdsourcing research. We also provide implications for the design of crowdsourcing platforms and make practical suggestions for supporting crowd pilot study reporting.
翻訳日:2023-12-14 15:36:05 公開日:2023-12-13
# マルチモーダルアスペクトに基づく感性分析のための新しいエネルギーモデル機構

A Novel Energy based Model Mechanism for Multi-modal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2312.08084v1 )

ライセンス: Link先を確認
Tianshuo Peng, Zuchao Li, Ping Wang, Lefei Zhang, Hai Zhao(参考訳) マルチモーダル・アスペクトベース感情分析(MABSA)は近年注目を集めている。 fsuieのようなスパンベースの抽出手法は、入力シーケンスとターゲットラベルの結合モデルにより感情分析において強い性能を示す。 しかし、以前の方法にはいくつかの制限がある。 (i)異なる分析対象(アスペクトまたは感情)間の視覚情報の焦点の違いを無視する。 (二)一様エンコーダの機能を組み込むことは、モダルギャップをなくすのに十分ではなく、画像テキストのペア関係を捉えるのに困難を引き起こす可能性がある。 三 既存のMABSAのスパンベース手法は、標的スパン境界の対関係を無視する。 これらの制約に対処するため,マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。 具体的には、プロンプト・アズ・デュアル・クエリ(PDQ)モジュールを視覚的クエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出し、視覚情報と分析対象との相互関係を強化する。 さらに、エネルギーベースモデルの観点から分析対象の境界ペアリングをモデル化したエネルギーベースPairwise Expert (EPE) モジュールを導入する。 この専門家は、ペアの安定性に基づいてアスペクトや感情を予測します。 広く使用されている3つのベンチマークの実験では、DQPSAは従来のアプローチより優れ、新しい最先端のパフォーマンスを実現している。

Multi-modal aspect-based sentiment analysis (MABSA) has recently attracted increasing attention. The span-based extraction methods, such as FSUIE, demonstrate strong performance in sentiment analysis due to their joint modeling of input sequences and target labels. However, previous methods still have certain limitations: (i) They ignore the difference in the focus of visual information between different analysis targets (aspect or sentiment). (ii) Combining features from uni-modal encoders directly may not be sufficient to eliminate the modal gap and can cause difficulties in capturing the image-text pairwise relevance. (iii) Existing span-based methods for MABSA ignore the pairwise relevance of target span boundaries. To tackle these limitations, we propose a novel framework called DQPSA for multi-modal sentiment analysis. Specifically, our model contains a Prompt as Dual Query (PDQ) module that uses the prompt as both a visual query and a language query to extract prompt-aware visual information and strengthen the pairwise relevance between visual information and the analysis target. Additionally, we introduce an Energy-based Pairwise Expert (EPE) module that models the boundaries pairing of the analysis target from the perspective of an Energy-based Model. This expert predicts aspect or sentiment span based on pairwise stability. Experiments on three widely used benchmarks demonstrate that DQPSA outperforms previous approaches and achieves a new state-of-the-art performance.
翻訳日:2023-12-14 15:35:46 公開日:2023-12-13
# 不確実データを用いたニューラルネットワークの学習 : 専門家の混合アプローチ

Training of Neural Networks with Uncertain Data, A Mixture of Experts Approach ( http://arxiv.org/abs/2312.08083v1 )

ライセンス: Link先を確認
Lucas Luttner(参考訳) 本稿では,ニューラルネット(nns)に基づく予測モデルの学習における学習不確実性に対処するための新しいアプローチである,uncertainty-aware mixed of experts(umoe)を提案する。 既存の手法は主に不確実性の管理に焦点を当てているが、umoeは不確実性を直接列車の運行プロセスに統合する。 uMoEアプローチでは、不確実な入力空間をより管理可能な部分空間に分割する"Divide and Conquer"パラダイムを採用している。 専門的なコンポーネントで構成され、それぞれがサブスペースに対応する入力の不確実性の部分のみに基づいてトレーニングされる。 専門家に加えて、これらの部分空間にまたがる不確定な入力の分布に関する追加の計算によって導かれるゲーティングユニットは、専門家を重み付けて基底真理からの逸脱を最小限に抑えることを学ぶ。 以上の結果から,uMoEはデータ不確実性を扱う上で,ベースライン法を著しく上回ることがわかった。 さらに,不確実性の異なるレベルに適応する能力を示し,最適なしきい値パラメータを提案するロバスト性解析を行った。 この革新的なアプローチは、バイオメディカル信号処理、自律的なドライビング、生産品質管理を含む、多様なデータ駆動ドメインに適用性を持っている。

This paper presents the "Uncertainty-aware Mixture of Experts" (uMoE), a novel approach designed to address aleatoric uncertainty in the training of predictive models based on Neural Networks (NNs). While existing methods primarily focus on managing uncertainty during infer-ence, uMoE integrates uncertainty directly into the train-ing process. The uMoE approach adopts a "Divide and Conquer" paradigm to partition the uncertain input space into more manageable subspaces. It consists of Expert components, each trained solely on the portion of input uncertainty corresponding to their subspace. On top of the Experts, a Gating Unit, guided by additional infor-mation about the distribution of uncertain inputs across these subspaces, learns to weight the Experts to minimize deviations from the ground truth. Our results highlight that uMoE significantly outperforms baseline methods in handling data uncertainty. Furthermore, we conducted a robustness analysis, illustrating its capability to adapt to varying levels of uncertainty and suggesting optimal threshold parameters. This innovative approach holds wide applicability across diverse data-driven domains, in-cluding biomedical signal processing, autonomous driv-ing, and production quality control.
翻訳日:2023-12-14 15:35:23 公開日:2023-12-13
# フロッケ非エルミート系における有向輸送、エネルギー拡散、量子スクランブルの位相変調

Phase modulation of directed transport, energy diffusion and quantum scrambling in a Floquet non-Hermitian system ( http://arxiv.org/abs/2312.08082v1 )

ライセンス: Link先を確認
Wen-Lei Zhao, Guanling Li, Jie Liu(参考訳) 周期的キック駆動ポテンシャルを持つフレケット非エルミート系の運動量空間におけるウェーブパケットのダイナミクスを理論的および数値的に検討する。 我々は、量子共鳴条件下での時間発展波束の正確な表現を推定した。 この解析式を用いて、指向輸送、エネルギー拡散、量子スクランブルの時間的挙動を徹底的に調べることができる。 We find interestingly that, by tuning the relative phase between the real part and imaginary part of the kicking potential, one can manipulate the directed propagation, energy diffusion and quantum scrambling efficiently: when the phase equals to $\pi/2$, we observe a maximum directed current and energy diffusion, while a minimum scrambling phenomenon protected by the $\mathcal{PT}$-symmetry; when the phase is $\pi$, both the directed transport and the energy diffusion are suppressed, in contrast, the quantum scrambling is enhanced by the non-Hermiticity. 本研究の応用可能性について論じる。

We investigate both theoretically and numerically the wavepacket's dynamics in momentum space for a Floquet non-Hermitian system with a periodically-kicked driven potential. We have deduced the exact expression of a time-evolving wavepacket under the condition of quantum resonance. With this analytical expression, we can investigate thoroughly the temporal behaviors of the directed transport, energy diffusion and quantum scrambling. We find interestingly that, by tuning the relative phase between the real part and imaginary part of the kicking potential, one can manipulate the directed propagation, energy diffusion and quantum scrambling efficiently: when the phase equals to $\pi/2$, we observe a maximum directed current and energy diffusion, while a minimum scrambling phenomenon protected by the $\mathcal{PT}$-symmetry; when the phase is $\pi$, both the directed transport and the energy diffusion are suppressed, in contrast, the quantum scrambling is enhanced by the non-Hermiticity. Possible applications of our findings are discussed.
翻訳日:2023-12-14 15:34:58 公開日:2023-12-13
# ターゲットスピーカASRへの即時チューニングによるWhisperの拡張

Extending Whisper with prompt tuning to target-speaker ASR ( http://arxiv.org/abs/2312.08079v1 )

ライセンス: Link先を確認
Hao Ma, Zhiyuan Peng, Mingjie Shao, Jing Li, Ju Liu(参考訳) 目標話者自動音声認識(asr)は、複数話者重複発話から目標話者の所望の音声を転写することを目的としている。 既存のts-asr(target-speaker asr)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するかのどちらかであり、大きな基礎モデルには適用できない大きなトレーニングコストをもたらしている。 この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。 実験結果から,タスク固有のモデルパラメータの約1%しか必要とせず,最先端のフル微調整手法に匹敵する性能が得られることがわかった。 特に、逆テキスト正規化やタイムスタンプ予測のような元のWhisperの特徴は、ターゲットスピーカーASRに保持され、生成された転写は自然かつ情報的である。

Target-speaker automatic speech recognition (ASR) aims to transcribe the desired speech of a target speaker from multi-talker overlapped utterances. Most of the existing target-speaker ASR (TS-ASR) methods involve either training from scratch or fully fine-tuning a pre-trained model, leading to significant training costs and becoming inapplicable to large foundation models. This work leverages prompt tuning, a parameter-efficient fine-tuning approach, to extend Whisper, a large-scale single-talker ASR model, to TS-ASR. Experimental results show that prompt tuning can achieve performance comparable to state-of-the-art full fine-tuning approaches while only requiring about 1% of task-specific model parameters. Notably, the original Whisper's features, such as inverse text normalization and timestamp prediction, are retained in target-speaker ASR, keeping the generated transcriptions natural and informative.
翻訳日:2023-12-14 15:34:46 公開日:2023-12-13
# 医用画像における細粒度画像-テキストアライメントによる周期的画像レポート生成

Fine-Grained Image-Text Alignment in Medical Imaging Enables Cyclic Image-Report Generation ( http://arxiv.org/abs/2312.08078v1 )

ライセンス: Link先を確認
Wenting Chen, Xiang Li, Linlin Shen, Yixuan Yuan(参考訳) 本稿では,胸部x線(cxr)画像領域を医療報告書中の単語に関連付ける適応パッチワードマッチング(adamatch)モデルを提案し,それをcxrレポート生成に適用し,生成過程の説明可能性を提供する。 AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。 異なるサイズと位置の異常領域をキャプチャするために、適応パッチ抽出(adapatch)モジュールを導入し、これらの領域に対する適応パッチを適応的に取得する。 本稿では,CXR-Report生成タスクの明示的な説明性を提供するために,CXR-Report生成のためのAdaMatchベースの双方向大言語モデルを提案する。 adamatchを使用して、cxrイメージのキーワードを取得し、医療レポートの‘keypatches’を、cxrレポート生成のヒントとして使用する。 利用可能な2つのCXRデータセットに対する大規模な実験により,提案手法の有効性と既存手法よりも優れた性能が証明された。

To address these issues, we propose a novel Adaptive patch-word Matching (AdaMatch) model to correlate chest X-ray (CXR) image regions with words in medical reports and apply it to CXR-report generation to provide explainability for the generation process. AdaMatch exploits the fine-grained relation between adaptive patches and words to provide explanations of specific image regions with corresponding words. To capture the abnormal regions of varying sizes and positions, we introduce the Adaptive Patch extraction (AdaPatch) module to acquire the adaptive patches for these regions adaptively. In order to provide explicit explainability for CXR-report generation task, we propose an AdaMatch-based bidirectional large language model for Cyclic CXR-report generation (AdaMatch-Cyclic). It employs the AdaMatch to obtain the keywords for CXR images and `keypatches' for medical reports as hints to guide CXR-report generation. Extensive experiments on two publicly available CXR datasets prove the effectiveness of our method and its superior performance to existing methods.
翻訳日:2023-12-14 15:34:26 公開日:2023-12-13
# TERMモデル:密度推定のためのテンソルリング混合モデル

TERM Model: Tensor Ring Mixture Model for Density Estimation ( http://arxiv.org/abs/2312.08075v1 )

ライセンス: Link先を確認
Ruituo Wu, Jiani Liu, Ce Zhu, Anh-Huy Phan, Ivan V. Oseledets, Yipeng Liu(参考訳) 確率密度の効率的な推定は統計機械学習における中核的な課題である。 テンソルに基づく確率グラフ法は、ニューラルネットワークアプローチで発生する解釈可能性と安定性の懸念に対処する。 しかし、かなりの数のポテンシャルテンソル置換は、同じ構造であるが様々な表現能力を持つテンソルネットワークにつながる可能性がある。 本稿では, 密度推定器のテンソル環分解を行い, 既存の分解に比べて表現能力を高めつつ置換候補数を大幅に削減する。 さらに、適応重み付き複数の置換候補を組み込んだ混合モデルがさらに設計され、表現性や包括性が向上する。 テンソルネットワーク構造・置換探索の主流方向と異なり,本手法はアンサンブル学習に触発された新たな視点を提供する。 このアプローチは、最適置換以外にも、最適置換が独特な情報を提供できることを認めている。 実験では、中程度の次元データセットの確率密度を推定し、複雑な詳細を捉えるためにサンプリングする手法が優れていることを示す。

Efficient probability density estimation is a core challenge in statistical machine learning. Tensor-based probabilistic graph methods address interpretability and stability concerns encountered in neural network approaches. However, a substantial number of potential tensor permutations can lead to a tensor network with the same structure but varying expressive capabilities. In this paper, we take tensor ring decomposition for density estimator, which significantly reduces the number of permutation candidates while enhancing expressive capability compared with existing used decompositions. Additionally, a mixture model that incorporates multiple permutation candidates with adaptive weights is further designed, resulting in increased expressive flexibility and comprehensiveness. Different from the prevailing directions of tensor network structure/permutation search, our approach provides a new viewpoint inspired by ensemble learning. This approach acknowledges that suboptimal permutations can offer distinctive information besides that of optimal permutations. Experiments show the superiority of the proposed approach in estimating probability density for moderately dimensional datasets and sampling to capture intricate details.
翻訳日:2023-12-14 15:34:04 公開日:2023-12-13
# PySCIPOpt-ML:学習機械学習モデルを混合整数プログラムに組み込む

PySCIPOpt-ML: Embedding Trained Machine Learning Models into Mixed-Integer Programs ( http://arxiv.org/abs/2312.08074v1 )

ライセンス: Link先を確認
Mark Turner, Antonia Chmiela, Thorsten Koch, Michael Winkler(参考訳) 実世界の最適化問題をモデル化するための標準的なツールはMIP(mixed-integer Programming)である。 しかし、これらの問題の多くは、変数関係を記述する不完全な情報か、変数間の関係が非常に複雑である。 これらのハードルを克服するために、機械学習(ML)モデルはしばしば、これらの関係を表現するための代理モデルとしてMIPに組み込まれている。 利用可能なMLフレームワークが多すぎるため、MLモデルをMIPに定式化するのは簡単ではない。 本稿では、トレーニングされたmlモデルのmip自動定式化ツールを提案し、ml制約をmipsに容易に統合する。 さらに,ML制約を組み込んだMIPインスタンスのライブラリも導入する。 このプロジェクトはhttps://github.com/Opt-Mucca/PySCIPOpt-MLで入手できる。

A standard tool for modelling real-world optimisation problems is mixed-integer programming (MIP). However, for many of these problems there is either incomplete information describing variable relations, or the relations between variables are highly complex. To overcome both these hurdles, machine learning (ML) models are often used and embedded in the MIP as surrogate models to represent these relations. Due to the large amount of available ML frameworks, formulating ML models into MIPs is highly non-trivial. In this paper we propose a tool for the automatic MIP formulation of trained ML models, allowing easy integration of ML constraints into MIPs. In addition, we introduce a library of MIP instances with embedded ML constraints. The project is available at https://github.com/Opt-Mucca/PySCIPOpt-ML.
翻訳日:2023-12-14 15:33:48 公開日:2023-12-13
# 単一画像からのビュー依存効果を用いた新しいビュー合成

Novel View Synthesis with View-Dependent Effects from a Single Image ( http://arxiv.org/abs/2312.08071v1 )

ライセンス: Link先を確認
Juan Luis Gonzalez Bello and Munchurl Kim(参考訳) 本稿では,まず,単一の画像ベース新規ビュー合成(nvs)問題に対するビュー依存効果について考察する。 そこで本研究では,nvsのカメラモーションプリエントを利用して,映像のネガティブな差としてvde(view-dependent appearance or effects)をモデル化することを提案する。 カメラの動きを「追う」特異点を認識することにより、入力画素色をエピポーラ線の負の深さ領域に沿って集約することにより、VDEを入力画像に注入する。 また, 1 回のパスでの密度計算を可能にし, 1 枚の画像からの nvs の効率を向上させる 'relaxed volumetric rendering' 近似を提案する。 本手法は,完全な自己教師あり学習法である画像シーケンスのみから,深度もカメラのポーズアノテーションも必要とせず,単一の画像nvsを学習できる。 本稿では,提案手法がVDEを用いてNVSを学習できることを示すとともに,RealEstate10kおよびMannequinChallengeデータセット上でのSOTAシングルビューNVS法よりも優れていることを示す。

In this paper, we firstly consider view-dependent effects into single image-based novel view synthesis (NVS) problems. For this, we propose to exploit the camera motion priors in NVS to model view-dependent appearance or effects (VDE) as the negative disparity in the scene. By recognizing specularities "follow" the camera motion, we infuse VDEs into the input images by aggregating input pixel colors along the negative depth region of the epipolar lines. Also, we propose a `relaxed volumetric rendering' approximation that allows computing the densities in a single pass, improving efficiency for NVS from single images. Our method can learn single-image NVS from image sequences only, which is a completely self-supervised learning method, for the first time requiring neither depth nor camera pose annotations. We present extensive experiment results and show that our proposed method can learn NVS with VDEs, outperforming the SOTA single-view NVS methods on the RealEstate10k and MannequinChallenge datasets.
翻訳日:2023-12-14 15:33:35 公開日:2023-12-13
# 分類アプリケーションにおけるデータ品質測定のための新しい指標(拡張版)

A Novel Metric for Measuring Data Quality in Classification Applications (extended version) ( http://arxiv.org/abs/2312.08066v1 )

ライセンス: Link先を確認
Jouseau Roxane, Salva S\'ebastien, Samir Chafik(参考訳) データ品質は、優れた学習モデルを構築し、最適化するための重要な要素です。 データ品質を特徴付ける多くの試みにもかかわらず、厳密な形式化と利用可能な観察からの品質の効率的な測定が必要である。 実際、トレーニングとテストプロセスの明確な理解がなければ、モデルの本質的なパフォーマンスを評価するのは難しいのです。 さらに、機械学習特有のデータ品質を測定するツールはまだ不足している。 本稿では,データ品質を測定するための新しい指標を紹介し,説明する。 この尺度は、分類性能とデータの劣化の間の相関進化に基づいている。 提案手法はモデルに依存しない大きな利点がある。 さらに、各基準の解釈と評価レベルの例を示す。 集中的な数値実験により,提案手法の有用性を確認し,制御可能かつ解釈可能な性質を有する例を詳述する。

Data quality is a key element for building and optimizing good learning models. Despite many attempts to characterize data quality, there is still a need for rigorous formalization and an efficient measure of the quality from available observations. Indeed, without a clear understanding of the training and testing processes, it is hard to evaluate the intrinsic performance of a model. Besides, tools allowing to measure data quality specific to machine learning are still lacking. In this paper, we introduce and explain a novel metric to measure data quality. This metric is based on the correlated evolution between the classification performance and the deterioration of data. The proposed method has the major advantage of being model-independent. Furthermore, we provide an interpretation of each criterion and examples of assessment levels. We confirm the utility of the proposed metric with intensive numerical experiments and detail some illustrative cases with controlled and interpretable qualities.
翻訳日:2023-12-14 15:33:15 公開日:2023-12-13
# rydberg原子を用いたハバード物理:量子スピンシミュレータを用いて強フェルミオン相関をシミュレートする

Hubbard physics with Rydberg atoms: using a quantum spin simulator to simulate strong fermionic correlations ( http://arxiv.org/abs/2312.08065v1 )

ライセンス: Link先を確認
Antoine Michel, Lo\"ic Henriet, Christophe Domain, Antoine Browaeys, and Thomas Ayral(参考訳) 本研究では, 強相関フェルミオン模型とスピン系量子プロセッサの平衡物理学とダイナミクスを研究するためのハイブリッド量子古典法を提案する。 本提案は, 自相関自由フェルミオンとスピンハミルトニアンの和に元のハミルトニアンを近似できるスレーブスピン法を用いて, フェルミオン-スピン写像の通常の落とし穴を回避する。 相互作用するスピンモデルを解くためのrydbergベースのアナログ量子プロセッサの例を挙げると、変動アルゴリズムやロータライズ手法の課題を避ける。 本手法の実験的不完全性に対するロバスト性について, 平衡内外方格子上の半充填単軌道ハバードモデルに適用して検討する。 我々は,現行のRydbergプロセッサの現実的な数値シミュレーションを通じて,不完全性が存在する場合でも定量的に実現可能な結果が得られることを示した。 この方法では、古典的なプロセッサで探索することが難しい物理状態(平衡外、ドープ、多軌道)の研究の道を開くことができる。

We propose a hybrid quantum-classical method to investigate the equilibrium physics and the dynamics of strongly correlated fermionic models with spin-based quantum processors. Our proposal avoids the usual pitfalls of fermion-to-spin mappings thanks to a slave-spin method which allows to approximate the original Hamiltonian into a sum of self-correlated free-fermions and spin Hamiltonians. Taking as an example a Rydberg-based analog quantum processor to solve the interacting spin model, we avoid the challenges of variational algorithms or Trotterization methods. We explore the robustness of the method to experimental imperfections by applying it to the half-filled, single-orbital Hubbard model on the square lattice in and out of equilibrium. We show, through realistic numerical simulations of current Rydberg processors, that the method yields quantitatively viable results even in the presence of imperfections: it allows to gain insights into equilibrium Mott physics as well as the dynamics under interaction quenches. This method thus paves the way to the investigation of physical regimes -- whether out-of-equilibrium, doped, or multiorbital -- that are difficult to explore with classical processors.
翻訳日:2023-12-14 15:33:04 公開日:2023-12-13
# レイユーザフィードバックがAIフェアネス改善に与える影響を探る

Exploring the Impact of Lay User Feedback for Improving AI Fairness ( http://arxiv.org/abs/2312.08064v1 )

ライセンス: Link先を確認
Evdoxia Taka, Yuri Nakao, Ryosuke Sonoda, Takuya Yokota, Lin Luo, Simone Stumpf(参考訳) AIにおける公正さは、高い意思決定に対する関心が高まっている。 公平なAI開発において利害関係者、特にレイユーザを増やすことは、まだ見過ごされがちだ。 近年の取り組みでは,レイユーザによるAIフェアネス関連のフィードバックの提供が検討されているが,ユーザからのフィードバックをAIモデルに統合する方法や,その影響についてはまだ理解されていない。 このギャップを埋めるために,ホームクレジットデータセット上でトレーニングされたxgboostモデルの公平性に関する58 layユーザからのフィードバックを収集し,リトレーニングモデルが正確性,個人的および集団的公平性に与える影響を調査するためにオフライン実験を行った。 我々の研究は、XGBoostにユーザフェアネスフィードバックを統合することのベースライン結果に貢献し、AIフェアネスにおける利害関係者の研究をブートストラップするデータセットとコードフレームワークを提供しています。 我々の議論は、AIフェアネスにユーザフィードバックを採用する際の課題を強調し、対話型機械学習の将来の応用分野への道を示す。

Fairness in AI is a growing concern for high-stakes decision making. Engaging stakeholders, especially lay users, in fair AI development is promising yet overlooked. Recent efforts explore enabling lay users to provide AI fairness-related feedback, but there is still a lack of understanding of how to integrate users' feedback into an AI model and the impacts of doing so. To bridge this gap, we collected feedback from 58 lay users on the fairness of a XGBoost model trained on the Home Credit dataset, and conducted offline experiments to investigate the effects of retraining models on accuracy, and individual and group fairness. Our work contributes baseline results of integrating user fairness feedback in XGBoost, and a dataset and code framework to bootstrap research in engaging stakeholders in AI fairness. Our discussion highlights the challenges of employing user feedback in AI fairness and points the way to a future application area of interactive machine learning.
翻訳日:2023-12-14 15:32:40 公開日:2023-12-13
# 不確かさに注意すべき概念記述の推定

Estimation of Concept Explanations Should be Uncertainty Aware ( http://arxiv.org/abs/2312.08063v1 )

ライセンス: Link先を確認
Vihari Piratla, Juyeon Heo, Sukriti Singh, Adrian Weller(参考訳) モデル説明は予測モデルの解釈とデバッグに非常に有用である。 本研究では,人間の理解可能な概念を用いてモデルを解釈することを目的として,概念説明と呼ばれる特定のグローバルな説明について研究する。 マルチモーダル学習の最近の進歩により、概念説明への関心が再燃し、いくつかのラベル効率の高い推定提案が導かれた。 しかし、既存の推定手法は、計算説明に使用される概念やデータセットの選択に不安定である。 説明の不安定性は、重要度スコアの点推定のばらつきが大きいためである。 本研究では,概念説明の信頼性が向上するベイズ推定手法を提案する。 本手法により計算された説明はラベル効率が高く忠実であると同時に,より信頼性が高いことを理論的に解析し,実証的に評価する。

Model explanations are very valuable for interpreting and debugging prediction models. We study a specific kind of global explanations called Concept Explanations, where the goal is to interpret a model using human-understandable concepts. Recent advances in multi-modal learning rekindled interest in concept explanations and led to several label-efficient proposals for estimation. However, existing estimation methods are unstable to the choice of concepts or dataset that is used for computing explanations. We observe that instability in explanations is due to high variance in point estimation of importance scores. We propose an uncertainty aware Bayesian estimation method, which readily improved reliability of the concept explanations. We demonstrate with theoretical analysis and empirical evaluation that explanations computed by our method are more reliable while also being label-efficient and faithful.
翻訳日:2023-12-14 15:32:22 公開日:2023-12-13
# 深部ニューラルネットワークにおける活性化空間の効率的な表現

Efficient Representation of the Activation Space in Deep Neural Networks ( http://arxiv.org/abs/2312.08143v1 )

ライセンス: Link先を確認
Tanya Akumu, Celia Cintas, Girmaw Abebe Tadesse, Adebayo Oshingbesan, Skyler Speakman, Edward McFowland III(参考訳) ディープニューラルネットワーク(DNN)の活性化空間の表現は、自然言語処理、異常検出、音声認識といったタスクに広く利用されている。 これらのタスクの多様性とDNNの大規模化により、アクティベーションの効率的かつタスクに依存しない表現が重要となる。 経験的なp-値は、既知の入力によって生成される活性化と比較して観測されたノードの活性化の相対的な強度を定量化するために用いられる。 それでも、これらの計算の生データを保持すれば、メモリリソースの消費が増加し、プライバシーの懸念が高まる。 そこで本研究では,ノード固有ヒストグラムを用いたDNNにおけるアクティベーションの表現を生成するためのモデルに依存しないフレームワークを提案する。 提案手法は,ダウンストリームタスクにまたがる複数のネットワークアーキテクチャを検証し,カーネル密度推定やブルートフォース経験ベースラインと比較し,有望な可能性を示す。 さらに、このフレームワークは、逆攻撃の検出や合成コンテンツなどの下流タスクにおける最先端検出能力を維持しながら、p値計算時間の最大4倍の速度で、メモリ使用量を30%削減する。 さらに、生データを推論時に保持しないため、攻撃やプライバシ問題に対する感受性を低減できる可能性がある。

The representations of the activation space of deep neural networks (DNNs) are widely utilized for tasks like natural language processing, anomaly detection and speech recognition. Due to the diverse nature of these tasks and the large size of DNNs, an efficient and task-independent representation of activations becomes crucial. Empirical p-values have been used to quantify the relative strength of an observed node activation compared to activations created by already-known inputs. Nonetheless, keeping raw data for these calculations increases memory resource consumption and raises privacy concerns. To this end, we propose a model-agnostic framework for creating representations of activations in DNNs using node-specific histograms to compute p-values of observed activations without retaining already-known inputs. Our proposed approach demonstrates promising potential when validated with multiple network architectures across various downstream tasks and compared with the kernel density estimates and brute-force empirical baselines. In addition, the framework reduces memory usage by 30% with up to 4 times faster p-value computing time while maintaining state of-the-art detection power in downstream tasks such as the detection of adversarial attacks and synthesized content. Moreover, as we do not persist raw data at inference time, we could potentially reduce susceptibility to attacks and privacy issues.
翻訳日:2023-12-14 15:26:56 公開日:2023-12-13
# ProNeRF:細粒入射性ニューラルラジタンス場のための学習効率の良い投影型光サンプリング

ProNeRF: Learning Efficient Projection-Aware Ray Sampling for Fine-Grained Implicit Neural Radiance Fields ( http://arxiv.org/abs/2312.08136v1 )

ライセンス: Link先を確認
Juan Luis Gonzalez Bello, Minh-Quan Viet Bui, and Munchurl Kim(参考訳) 近年のニューラルレンダリングの進歩は、遅くて暗黙のコンパクトモデルが複数の視点からシーンのジオメトリとビュー依存の外観を学習できることを示している。 このような少ないメモリフットプリントを維持しつつ、より高速な推論時間を達成するために、近年の研究では、暗黙の神経放射野で各光線に沿った点の小さなサブセットを適応的にサンプリングする ‘sampler’ ネットワークが採用されている。 これらの手法はレンダリング時間を最大10$\times$で削減できるが、バニラのNeRFに比べてかなり品質が劣化している。 対照的に、メモリフットプリント(NeRFに似ている)、スピード(HyperReelより速い)、品質(K-Planesより速い)の最適なトレードオフを提供するProNeRFを提案する。 ProNeRFは、新しいプロジェクション・アウェア・サンプリング(PAS)ネットワークと、光線探査と利用のための新しいトレーニング戦略を備えており、より効率的な粒度粒子サンプリングを可能にしている。 我々のProNeRFは最先端の計測値であり、最も優れたサンプルベース手法であるHyperReelよりも15-23倍高速で、PSNRは0.65dB高く、PSNRは0.95dB高い。 探索・搾取訓練戦略により,プロナーフは高濃度領域に着目した効率的なレイサンプリングを学習しながら,全シーンの色と密度分布を学習できる。 提案手法が広く採用されている前向きデータセットと360データセット,llffおよびblender上で有効であることを示す実験結果を提供する。

Recent advances in neural rendering have shown that, albeit slow, implicit compact models can learn a scene's geometries and view-dependent appearances from multiple views. To maintain such a small memory footprint but achieve faster inference times, recent works have adopted `sampler' networks that adaptively sample a small subset of points along each ray in the implicit neural radiance fields. Although these methods achieve up to a 10$\times$ reduction in rendering time, they still suffer from considerable quality degradation compared to the vanilla NeRF. In contrast, we propose ProNeRF, which provides an optimal trade-off between memory footprint (similar to NeRF), speed (faster than HyperReel), and quality (better than K-Planes). ProNeRF is equipped with a novel projection-aware sampling (PAS) network together with a new training strategy for ray exploration and exploitation, allowing for efficient fine-grained particle sampling. Our ProNeRF yields state-of-the-art metrics, being 15-23x faster with 0.65dB higher PSNR than NeRF and yielding 0.95dB higher PSNR than the best published sampler-based method, HyperReel. Our exploration and exploitation training strategy allows ProNeRF to learn the full scenes' color and density distributions while also learning efficient ray sampling focused on the highest-density regions. We provide extensive experimental results that support the effectiveness of our method on the widely adopted forward-facing and 360 datasets, LLFF and Blender, respectively.
翻訳日:2023-12-14 15:26:18 公開日:2023-12-13
# 最適輸送に基づくDenoisingの新しい視点

A New Perspective On Denoising Based On Optimal Transport ( http://arxiv.org/abs/2312.08135v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos and Bodhisattva Sen(参考訳) デノナイジング問題の標準的な定式化では、潜在変数 $\Theta \in \Omega \subset \mathbb{R}^m \; (m\ge 1)$ と観測値 $Z \mid \mathbb{R}^d$ に関する確率モデルが与えられる: $Z \mid \Theta \Theta \sim p(\cdot\mid \Theta)$ と $\Theta \sim G^*$ とすると、観測値から潜在変数を復元する写像を構築することが目的である。 後辺平均は、$\Theta$を$Z$から推定する自然な候補であり、最小ベイズリスク(二乗誤差損失の下で)を達成するが、$Z$を過度に削減する費用がかかると、一般には以前の分布の幾何的特徴(例えば、低次元性、離散性、空間性など)を捉えることができない。 これらの欠点を正すため,本稿では,最適輸送 (ot) 理論に着想を得た,このデノイジング問題に対する新たな視点を取り,人口レベルでの新しい ot ベースのデノイザー を提案する。 我々は、モデル上の一般的な仮定の下で、OTベースのデノイザは明確に定義され、一意であり、Monge OT問題の解と密接に関連していることを厳密に証明する。 モデル上の適切な識別可能性仮定の下では、標準の多元数 ot (mot) 問題を想起する適切な結合空間上の線形緩和問題を解いた後に、モデルの限界分布である$z$ と後平均の情報のみからotベースのデノイザーを回収できることを証明できる。 特に、ツイーディの公式により、確率モデル $\{ p(\cdot \mid \theta) \}_{\theta \in \Omega}$ が分布の指数族であるとき、OTベースのデノイザーは、Z$の辺分布からのみ回復することができる。 一般に、我々のotライクな緩和の族はそれ自体に興味を持ち、分母問題に対して計算 ot の豊かな文献に触発された別の数値的手法を提案する。

In the standard formulation of the denoising problem, one is given a probabilistic model relating a latent variable $\Theta \in \Omega \subset \mathbb{R}^m \; (m\ge 1)$ and an observation $Z \in \mathbb{R}^d$ according to: $Z \mid \Theta \sim p(\cdot\mid \Theta)$ and $\Theta \sim G^*$, and the goal is to construct a map to recover the latent variable from the observation. The posterior mean, a natural candidate for estimating $\Theta$ from $Z$, attains the minimum Bayes risk (under the squared error loss) but at the expense of over-shrinking the $Z$, and in general may fail to capture the geometric features of the prior distribution $G^*$ (e.g., low dimensionality, discreteness, sparsity, etc.). To rectify these drawbacks, in this paper we take a new perspective on this denoising problem that is inspired by optimal transport (OT) theory and use it to propose a new OT-based denoiser at the population level setting. We rigorously prove that, under general assumptions on the model, our OT-based denoiser is well-defined and unique, and is closely connected to solutions to a Monge OT problem. We then prove that, under appropriate identifiability assumptions on the model, our OT-based denoiser can be recovered solely from information of the marginal distribution of $Z$ and the posterior mean of the model, after solving a linear relaxation problem over a suitable space of couplings that is reminiscent of a standard multimarginal OT (MOT) problem. In particular, thanks to Tweedie's formula, when the likelihood model $\{ p(\cdot \mid \theta) \}_{\theta \in \Omega}$ is an exponential family of distributions, the OT-based denoiser can be recovered solely from the marginal distribution of $Z$. In general, our family of OT-like relaxations is of interest in its own right and for the denoising problem suggests alternative numerical methods inspired by the rich literature on computational OT.
翻訳日:2023-12-14 15:25:29 公開日:2023-12-13
# MToP: 進化的マルチタスクのためのMATLAB最適化プラットフォーム

MToP: A MATLAB Optimization Platform for Evolutionary Multitasking ( http://arxiv.org/abs/2312.08134v1 )

ライセンス: Link先を確認
Yanchi Li, Wenyin Gong, Fei Ming, Tingyu Zhang, Shuijia Li, Qiong Gu(参考訳) 進化的マルチタスキング(EMT)はここ数年で注目されている。 タスク間知識伝達技術によって支援される限られたコンピューティングリソース内で、複数の最適化タスクを同時に処理することを目的としている。 マルチタスク最適化(MTO)問題を解くためのMTEA(Multipletask Evolution Algorithm)がEMTの分野で提案されているが、研究者がベンチマークMTOでMTEAのパフォーマンスを評価するための包括的なソフトウェアプラットフォームが欠如している。 この問題に対処するため,EMT 向けに MTO-Platform (MTOP) というオープンソースの最適化プラットフォームを導入する。 30以上のmtea、実世界のアプリケーションで150以上のmto問題、および10以上のパフォーマンスメトリクスを組み込んでいる。 さらに、MTEAを従来の進化アルゴリズムと比較するために、MTOPのMTO問題を解決するために、30以上の人気のあるシングルタスク進化アルゴリズムを変更した。 MToPはグラフィカルなユーザインターフェースを備えたユーザフレンドリーなツールで、結果を分析し、データをエクスポートし、スキーマをプロットする。 さらに重要なのは、MToPは拡張可能で、ユーザーは新しいアルゴリズムを開発し、新しい問題を定義することができる。 MToPのソースコードはhttps://github.com/intLyc/MTO-Platformで入手できる。

Evolutionary multitasking (EMT) has been attracting much attention over the past years. It aims to handle multiple optimization tasks simultaneously within limited computing resources assisted by inter-task knowledge transfer techniques. Numerous multitask evolutionary algorithms (MTEAs) for solving multitask optimization (MTO) problems have been proposed in the EMT field, but there lacks a comprehensive software platform to help researchers evaluate MTEA performance on benchmark MTO problems as well as explore real-world applications. To address this issue, we introduce the first open-source optimization platform, named MTO-Platform (MToP), for EMT. It incorporates more than 30 MTEAs, more than 150 MTO problem cases with real-world applications, and more than 10 performance metrics. Moreover, for comparing MTEAs with traditional evolutionary algorithms, we modified more than 30 popular single-task evolutionary algorithms to be able to solve MTO problems in MToP. MToP is a user-friendly tool with a graphical user interface that makes it easy to analyze results, export data, and plot schematics. More importantly, MToP is extensible, allowing users to develop new algorithms and define new problems. The source code of MToP is available at https://github.com/intLyc/MTO-Platform.
翻訳日:2023-12-14 15:23:51 公開日:2023-12-13
# 超低複雑性深層学習に基づく雑音抑圧

Ultra Low Complexity Deep Learning Based Noise Suppression ( http://arxiv.org/abs/2312.08132v1 )

ライセンス: Link先を確認
Shrishti Saha Shetu, Soumitro Chakrabarty, Oliver Thiergart, Edwin Mabande(参考訳) 本稿では,資源制約されたデバイス上でのリアルタイム音声強調におけるディープニューラルネットワークの計算複雑性を低減するための革新的な手法を提案する。 提案手法は,畳み込み処理の計算負荷を低減するためにチャネルワイズ特徴の方向転換を用いた2段階処理フレームワークを用いる。 これと改良された電力法圧縮技術を組み合わせて知覚品質を向上させることにより、計算要求が大幅に少ない最先端の手法に匹敵するノイズ抑圧性能を実現する。 特に,我々のアルゴリズムは,従来の最先端手法の3倍から4倍の計算量とメモリ使用量を示す。

This paper introduces an innovative method for reducing the computational complexity of deep neural networks in real-time speech enhancement on resource-constrained devices. The proposed approach utilizes a two-stage processing framework, employing channelwise feature reorientation to reduce the computational load of convolutional operations. By combining this with a modified power law compression technique for enhanced perceptual quality, this approach achieves noise suppression performance comparable to state-of-the-art methods with significantly less computational requirements. Notably, our algorithm exhibits 3 to 4 times less computational complexity and memory usage than prior state-of-the-art approaches.
翻訳日:2023-12-14 15:23:24 公開日:2023-12-13
# 視覚ハルを用いた透明物体の神経放射場

Neural Radiance Fields for Transparent Object Using Visual Hull ( http://arxiv.org/abs/2312.08118v1 )

ライセンス: Link先を確認
Heechan Yoon, Seungkyu Lee(参考訳) 不透明な物体とは異なり、透明な物体の新規な視線合成は、視線変化に伴う透明な物体表面に視覚的歪みを引き起こす背景の光を屈折させるため、困難な作業である。 最近導入されたNeural Radiance Fields (NeRF) はビュー合成法である。 優れた性能向上により、様々なトピックにおいて、nrfに基づくアプリケーションが多く開発されている。 しかし、透明物体などのシーンに異なる屈折率の物体が含まれている場合、透明物体の表面の屈折光が適切に考慮されていないため、NeRFは限られた性能を示す。 そこで本研究では, 透明物体の3次元形状を視覚ハルを用いて再構成する3つのステップからなる, nerfに基づく手法を提案する。 第二に、スネルの法則に従って、透明な物体内部の光線の屈折をシミュレートする。 最後に、屈折光線を通して点をサンプリングし、それをNeRFに挿入する。 実験により, 透過性物体による従来のNeRFの限界に対処できることを示す。

Unlike opaque object, novel view synthesis of transparent object is a challenging task, because transparent object refracts light of background causing visual distortions on the transparent object surface along the viewpoint change. Recently introduced Neural Radiance Fields (NeRF) is a view synthesis method. Thanks to its remarkable performance improvement, lots of following applications based on NeRF in various topics have been developed. However, if an object with a different refractive index is included in a scene such as transparent object, NeRF shows limited performance because refracted light ray at the surface of the transparent object is not appropriately considered. To resolve the problem, we propose a NeRF-based method consisting of the following three steps: First, we reconstruct a three-dimensional shape of a transparent object using visual hull. Second, we simulate the refraction of the rays inside of the transparent object according to Snell's law. Last, we sample points through refracted rays and put them into NeRF. Experimental evaluation results demonstrate that our method addresses the limitation of conventional NeRF with transparent objects.
翻訳日:2023-12-14 15:22:45 公開日:2023-12-13
# ゴースト・アーティファクトを伴わない顔画像の改良に向けて

Towards Better Morphed Face Images without Ghosting Artifacts ( http://arxiv.org/abs/2312.08111v1 )

ライセンス: Link先を確認
Clemens Seibold, Anna Hilsmann, Peter Eisert(参考訳) 顔画像の自動生成は、入力画像に不整合構造があるため、しばしばゴーストアーティファクトを生成する。 手動処理はこれらのアーティファクトを軽減できる。 しかしこれは、ロバストなモーフィング攻撃検出器のトレーニングと評価に必要な大規模なデータセットの生成には実現不可能である。 本稿では,モルフ生成時の画素方向アライメントに基づくゴースト生成の自動防止手法を提案する。 提案手法を最先端検出器で評価し,特に低レベル画像特性のスタイル変換に基づく改善と組み合わせて検出することが困難であることを示す。 さらに, 本手法は, バイオメトリック品質を損なうことなく, 高品質な形態に必須であることを示した。

Automatic generation of morphed face images often produces ghosting artifacts due to poorly aligned structures in the input images. Manual processing can mitigate these artifacts. However, this is not feasible for the generation of large datasets, which are required for training and evaluating robust morphing attack detectors. In this paper, we propose a method for automatic prevention of ghosting artifacts based on a pixel-wise alignment during morph generation. We evaluate our proposed method on state-of-the-art detectors and show that our morphs are harder to detect, particularly, when combined with style-transfer-based improvement of low-level image characteristics. Furthermore, we show that our approach does not impair the biometric quality, which is essential for high quality morphs.
翻訳日:2023-12-14 15:22:29 公開日:2023-12-13
# 量子入力を用いた配位及び外部補正結合クラスタ

Tailored and Externally Corrected Coupled Cluster with Quantum Inputs ( http://arxiv.org/abs/2312.08110v1 )

ライセンス: Link先を確認
Maximilian Scheurer, Gian-Luca R. Anselmetti, Oumarou Oumarou, Christian Gogolin, Nicholas C. Rubin(参考訳) 本稿では,分子電子構造シミュレーションにおける静的および動的相関効果の平衡処理を実現するために,量子コンピュータから得られる波動関数の重なりを古典的分割振幅法,調整および外部修正結合クラスタの入力として用いることを提案する。 量子的試行状態の重なりを測るために用いられるマッチゲート影の統計的性質と古典的相関診断から得られる知見を組み合わせることで、量子的資源推定を古典的に解決不可能な状態に適切に適用することができる。 比較的不完全な波動関数と驚くほど低いショットカウントは、平結合クラスタシングルの定性的故障を2倍にし、化学的に正確な動的相関エネルギー補正を得るのに十分である。 提案手法は,google の sycamore デバイスで測定した重なりを用いて,提案手法を検証した。

We propose to use wavefunction overlaps obtained from a quantum computer as inputs for the classical split-amplitude techniques, tailored and externally corrected coupled cluster, to achieve balanced treatment of static and dynamic correlation effects in molecular electronic structure simulations. By combining insights from statistical properties of matchgate shadows, which are used to measure quantum trial state overlaps, with classical correlation diagnostics, we are able to provide quantum resource estimates well into the classically no longer exactly solvable regime. We find that rather imperfect wavefunctions and remarkably low shot counts are sufficient to cure qualitative failures of plain coupled cluster singles doubles and to obtain chemically precise dynamic correlation energy corrections. We provide insights into which wavefunction preparation schemes have a chance of yielding quantum advantage, and we test our proposed method using overlaps measured on Google's Sycamore device.
翻訳日:2023-12-14 15:22:16 公開日:2023-12-13
# 抽象化の因果的最適輸送

Causal Optimal Transport of Abstractions ( http://arxiv.org/abs/2312.08107v1 )

ライセンス: Link先を確認
Yorgos Felekis, Fabio Massimo Zennaro, Nicola Branchini and Theodoros Damoulas(参考訳) 因果抽象(CA)理論は、複数の構造因果モデル(SCM)を、それらの間の写像を定義することによって、異なるレベルの粒度で関連付けるための公式な基準を確立する。 これらのマップは、複数の実験環境からの因果的証拠の合成、異なる解像度での因果的一貫した表現の学習、複数のSCM間の介入のリンクなど、現実世界の課題に大きく関連している。 本研究では,基礎となるSCMの完全な知識を前提とせず,観測データや介入データから抽象地図を学習する最初の方法であるCOTAを提案する。 特に,do-calculus 因果制約を強制するマルチマルジナル最適輸送(ot)定式化と,介入情報に依存するコスト関数を導入する。 合成および実世界の問題に対してCOTAを広範囲に評価し,非因果的・独立的・集合的COTA定式化に対するCOTAの優位性を示す。 最後に,本手法を実世界のダウンストリームタスクにおいて,scmを前提とした最先端ca学習フレームワークと比較することにより,データ拡張ツールとしての有効性を示す。

Causal abstraction (CA) theory establishes formal criteria for relating multiple structural causal models (SCMs) at different levels of granularity by defining maps between them. These maps have significant relevance for real-world challenges such as synthesizing causal evidence from multiple experimental environments, learning causally consistent representations at different resolutions, and linking interventions across multiple SCMs. In this work, we propose COTA, the first method to learn abstraction maps from observational and interventional data without assuming complete knowledge of the underlying SCMs. In particular, we introduce a multi-marginal Optimal Transport (OT) formulation that enforces do-calculus causal constraints, together with a cost function that relies on interventional information. We extensively evaluate COTA on synthetic and real world problems, and showcase its advantages over non-causal, independent and aggregated COTA formulations. Finally, we demonstrate the efficiency of our method as a data augmentation tool by comparing it against the state-of-the-art CA learning framework, which assumes fully specified SCMs, on a real-world downstream task.
翻訳日:2023-12-14 15:21:59 公開日:2023-12-13
# 交互遠絡型UCCアンサッツのバレンプラトー

Barren Plateaus of Alternated Disentangled UCC Ansatzs ( http://arxiv.org/abs/2312.08105v1 )

ライセンス: Link先を確認
Rui Mao, Guojing Tian, Xiaoming Sun(参考訳) 転位型UCCアンサッツ(Trotterized UCC ansatz)の緩和版である交替型UCCアンサッツ(dUCC)に対するBarren Plateausの存在に関する理論的検討を行った。 無限深度極限において、単一の励起のみが関与すると、任意の電子構造のエネルギーランドスケープが多項式に集中することが証明される。 対照的に、二重励起がある場合、エネルギーランドスケープは指数関数的に集中し、BPの存在を示す。 さらに,有限深度シナリオを研究するために数値シミュレーションを行う。 数値的な結果から, $k$ が bp に苦しむ場合, 広く使用される一階ロータライズ uccsd と $k$-upccgsd を推定する。 従来の見方とは対照的に,ケミカルインスパイアされたアンザッツもBPの影響を受けやすいことが示唆された。 また, ansatz に二重励振を組み込むことは, 精度向上に不可欠であるが, トレーニング難易度を悪化させる可能性がある。

We conduct a theoretical investigation on the existence of Barren Plateaus for alternated disentangled UCC (dUCC) ansatz, a relaxed version of Trotterized UCC ansatz. In the infinite depth limit, we prove that if only single excitations are involved, the energy landscape of any electronic structure Hamiltonian concentrates polynomially. In contrast, if there are additionally double excitations, the energy landscape concentrates exponentially, which indicates the presence of BP. Furthermore, we perform numerical simulations to study the finite depth scenario. Based on the numerical results, we conjecture that the widely used first-order Trotterized UCCSD and $k$-UpCCGSD when $k$ is a constant suffer from BP. Contrary to previous perspectives, our results suggest that chemically inspired ansatz can also be susceptible to BP. Furthermore, our findings indicate that while the inclusion of double excitations in the ansatz is essential for improving accuracy, it may concurrently exacerbate the training difficulty.
翻訳日:2023-12-14 15:21:38 公開日:2023-12-13
# 多次元ビンパッキング問題のための機械学習:文献レビューと経験的評価

Machine Learning for the Multi-Dimensional Bin Packing Problem: Literature Review and Empirical Evaluation ( http://arxiv.org/abs/2312.08103v1 )

ライセンス: Link先を確認
Wenjie Wu, Changjun Fan, Jincai Huang, Zhong Liu and Junchi Yan(参考訳) Bin Packing Problem (BPP) は、よく確立された組合せ最適化(CO)問題である。 物流やリソース割り当てなど、日々の生活に多くのアプリケーションがありますので、効率的なビンパッキングアルゴリズムを求めています。 一方で研究者は、機械学習(ml)の効率性で有名な、絶え間ない進歩を遂げている。 本稿では、まずBPPを定式化し、その変種と実用的制約を導入する。 次に,多次元BPPのためのMLに関する総合的な調査を行う。 さらに3D BPPの公開ベンチマークを収集し、Cutting Stock Dataset上でオンライン手法を評価する。 最後に、BPPにおける課題と今後の方向性についての見解を共有します。 我々の知る限りでは、BPPにおけるML関連手法の体系的レビューはこれが初めてである。

The Bin Packing Problem (BPP) is a well-established combinatorial optimization (CO) problem. Since it has many applications in our daily life, e.g. logistics and resource allocation, people are seeking efficient bin packing algorithms. On the other hand, researchers have been making constant advances in machine learning (ML), which is famous for its efficiency. In this article, we first formulate BPP, introducing its variants and practical constraints. Then, a comprehensive survey on ML for multi-dimensional BPP is provided. We further collect some public benchmarks of 3D BPP, and evaluate some online methods on the Cutting Stock Dataset. Finally, we share our perspective on challenges and future directions in BPP. To the best of our knowledge, this is the first systematic review of ML-related methods for BPP.
翻訳日:2023-12-14 15:21:19 公開日:2023-12-13
# 構造情報原理に基づく対立型ソーシャルボットモデリング

Adversarial Socialbots Modeling Based on Structural Information Principles ( http://arxiv.org/abs/2312.08098v1 )

ライセンス: Link先を確認
Xianghua Zeng, Hao Peng, Angsheng Li(参考訳) 効果的な検出の重要性は、ソーシャルボットが人間の行動を模倣して誤った情報を広めるという事実によって強調されている。 反応検出器の急速な進歩にもかかわらず、対向型社会ボットモデリングの探索は不完全であり、プロアクティブ検出器の開発を著しく妨げている。 この問題に対処するため,我々は,より正確かつ効果的な敵行動のモデル化を可能にするために,数学的構造的情報原則に基づく対向型ソーシャルボットモデリングフレームワーク,siasmを提案する。 まず、多様なユーザやリッチなアクティビティを元のソーシャルネットワークに統合し、その動的不確実性を構造エントロピーとして測定する異種グラフを提示する。 高次元構造エントロピーを最小化することにより、ソーシャルネットワークの階層的コミュニティ構造を生成し、最適なエンコーディングツリーと呼ぶ。 第二に, 割り当てられた構造エントロピーを利用して影響を定量化する手法を考案し, 非影響ユーザをフィルタリングすることにより, siasmの計算コストを削減する。 さらに、ソーシャルボットと他のユーザの間で新しい条件構造エントロピーを定義し、ネットワーク影響の最大化のためのフォロワー選択をガイドする。 SIASMフレームワークは、最先端のベースラインと比較して、ネットワークの影響(最大16.32%)と持続的なステルスネス(最大16.29%)において、90%の精度でロバスト検出器に対して評価すると、大幅な性能改善が達成されることを示した。

The importance of effective detection is underscored by the fact that socialbots imitate human behavior to propagate misinformation, leading to an ongoing competition between socialbots and detectors. Despite the rapid advancement of reactive detectors, the exploration of adversarial socialbot modeling remains incomplete, significantly hindering the development of proactive detectors. To address this issue, we propose a mathematical Structural Information principles-based Adversarial Socialbots Modeling framework, namely SIASM, to enable more accurate and effective modeling of adversarial behaviors. First, a heterogeneous graph is presented to integrate various users and rich activities in the original social network and measure its dynamic uncertainty as structural entropy. By minimizing the high-dimensional structural entropy, a hierarchical community structure of the social network is generated and referred to as the optimal encoding tree. Secondly, a novel method is designed to quantify influence by utilizing the assigned structural entropy, which helps reduce the computational cost of SIASM by filtering out uninfluential users. Besides, a new conditional structural entropy is defined between the socialbot and other users to guide the follower selection for network influence maximization. Extensive and comparative experiments on both homogeneous and heterogeneous social networks demonstrate that, compared with state-of-the-art baselines, the proposed SIASM framework yields substantial performance improvements in terms of network influence (up to 16.32%) and sustainable stealthiness (up to 16.29%) when evaluated against a robust detector with 90% accuracy.
翻訳日:2023-12-14 15:21:09 公開日:2023-12-13
# 複数資源交換に基づく連合学習のインセンティブ機構

An Incentive Mechanism for Federated Learning Based on Multiple Resource Exchange ( http://arxiv.org/abs/2312.08096v1 )

ライセンス: Link先を確認
Ruonan Dong, Hui Xu, Han Zhang, GuoPeng Zhang(参考訳) Federated Learning(FL)は、マシンラーニングにおけるプライバシの問題に対処し、高いテスト精度を保証する分散機械学習パラダイムである。 しかし、クライアントローカルコンピューティングリソースの制約を考えると、すべてのクライアントがFLに参加することで必要な精度を達成することは現実的ではない。 本稿では,ユーザをモデルオーナ(MO)とデータオーナ(DO)の2つの役割に分類する,マルチユーザ協調コンピューティングフレームワークを提案する。 金銭的なインセンティブを使わずに、dosが余分なローカルコンピューティングタスクをmoにオフロードすることで、より多くのdosがflに参加することを奨励することができる。 この「データ」と「計算資源」の交換は、クライアントがより効率的にflに関与するためのインセンティブを合理化する。 最適化問題としてMOとDOの相互作用を定式化し,その目的は,MOとDOの通信・計算資源を有効活用し,FLタスクの完了までの時間を最小化することである。 提案する問題は、計算複雑性の高い混合整数非線形プログラミング(MINLP)である。 まず、これをクライアント選択問題とリソース割り当て問題という2つの異なるサブプロブレムに分解し、連続変数から整数変数を分離する。 そこで,問題を解くために効率的な反復アルゴリズムを提案する。 シミュレーションの結果,提案する協調計算フレームワークは,flタスクの完了までの全体の時間を最小にしつつ,95\%以上の精度を達成できることがわかった。

Federated Learning (FL) is a distributed machine learning paradigm that addresses privacy concerns in machine learning and still guarantees high test accuracy. However, achieving the necessary accuracy by having all clients participate in FL is impractical, given the constraints of client local computing resource. In this paper, we introduce a multi-user collaborative computing framework, categorizing users into two roles: model owners (MOs) and data owner (DOs). Without resorting to monetary incentives, an MO can encourage more DOs to join in FL by allowing the DOs to offload extra local computing tasks to the MO for execution. This exchange of "data" for "computing resources" streamlines the incentives for clients to engage more effectively in FL. We formulate the interaction between MO and DOs as an optimization problem, and the objective is to effectively utilize the communication and computing resource of the MO and DOs to minimize the time to complete an FL task. The proposed problem is a mixed integer nonlinear programming (MINLP) with high computational complexity. We first decompose it into two distinct subproblems, namely the client selection problem and the resource allocation problem to segregate the integer variables from the continuous variables. Then, an effective iterative algorithm is proposed to solve problem. Simulation results demonstrate that the proposed collaborative computing framework can achieve an accuracy of more than 95\% while minimizing the overall time to complete an FL task.
翻訳日:2023-12-14 15:20:39 公開日:2023-12-13
# 3DGEN:画像データから新しい3Dモデルを生成するGANベースのアプローチ

3DGEN: A GAN-based approach for generating novel 3D models from image data ( http://arxiv.org/abs/2312.08094v1 )

ライセンス: Link先を確認
Antoine Schnepf, Flavian Vasile and Ugo Tanielian(参考訳) テキストと画像合成の最近の進歩は、創造的分野における生成モデルの将来に大きな期待を示している。 しかし、あまり研究されていない分野は3dモデル生成の分野であり、ゲームデザイン、ビデオ制作、物理製品デザインに多くの応用が考えられる。 本稿では,オブジェクト再構成とganに基づく画像生成の両方において,最近のニューラルラミアンスフィールドを利用したモデルである3dgenを提案する。 提案するアーキテクチャは,トレーニング画像と同じカテゴリのオブジェクトに対して妥当なメッシュを生成し,その結果のメッシュと最先端のベースラインを比較して,生成品質の目に見える向上につながることを示す。

The recent advances in text and image synthesis show a great promise for the future of generative models in creative fields. However, a less explored area is the one of 3D model generation, with a lot of potential applications to game design, video production, and physical product design. In our paper, we present 3DGEN, a model that leverages the recent work on both Neural Radiance Fields for object reconstruction and GAN-based image generation. We show that the proposed architecture can generate plausible meshes for objects of the same category as the training images and compare the resulting meshes with the state-of-the-art baselines, leading to visible uplifts in generation quality.
翻訳日:2023-12-14 15:20:15 公開日:2023-12-13
# PAD:赤外線画像用パッチワイド適応器による自己監督型事前訓練

PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for Infrared Images ( http://arxiv.org/abs/2312.08192v1 )

ライセンス: Link先を確認
Tao Zhang, Kun Ding, Jinyong Wen, Yu Xiong, Zeyu Zhang, Shiming Xiang, Chunhong Pan(参考訳) RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLに関する研究は依然として限られている。 1) 適切な大規模赤外線前訓練データセットの欠如。 2)マスク画像モデリング(mim)などの一般的な事前学習課題を再現する非超音速赤外線画像の識別性,及び 3) きめ細かいテクスチャの不足は, 一般画像の特徴の学習を特に困難にしている。 これらの問題に対処するために,178,756枚の画像からなる多段階赤外線前訓練(msip)データセットを構築し,画像前処理法である物体感性ランダムroiクロッピングを導入し,非音響画像による課題に取り組む。 そこで本研究では,imagenetで事前トレーニングされたパラメータを凍結しながら,アダプタを用いてドメイン固有の特徴を学習し,汎用的な特徴抽出能力を維持するプリトレーニングパラダイムであるpre-training with adapter (pad)を提案する。 この新しいパラダイムは、トランスフォーマーベースのSSLメソッドに適用できる。 さらに,事前学習された特徴と新たに学習した特徴を異なるレイヤやパッチでより柔軟に調整するために,動的に学習可能なスケールファクタを備えたパッチワイズスケールアダプタを導入する。 3つの下流タスクに関する大規模な実験では、PADは1.23万の事前トレーニング可能なパラメータしか持たず、MSIP上での完全な事前トレーニングを含む他のベースラインパラダイムよりも優れていた。 私たちのコードとデータセットはhttps://github.com/casiatao/padで利用可能です。

Self-supervised learning (SSL) for RGB images has achieved significant success, yet there is still limited research on SSL for infrared images, primarily due to three prominent challenges: 1) the lack of a suitable large-scale infrared pre-training dataset, 2) the distinctiveness of non-iconic infrared images rendering common pre-training tasks like masked image modeling (MIM) less effective, and 3) the scarcity of fine-grained textures making it particularly challenging to learn general image features. To address these issues, we construct a Multi-Scene Infrared Pre-training (MSIP) dataset comprising 178,756 images, and introduce object-sensitive random RoI cropping, an image preprocessing method, to tackle the challenge posed by non-iconic images. To alleviate the impact of weak textures on feature learning, we propose a pre-training paradigm called Pre-training with ADapter (PAD), which uses adapters to learn domain-specific features while freezing parameters pre-trained on ImageNet to retain the general feature extraction capability. This new paradigm is applicable to any transformer-based SSL method. Furthermore, to achieve more flexible coordination between pre-trained and newly-learned features in different layers and patches, a patchwise-scale adapter with dynamically learnable scale factors is introduced. Extensive experiments on three downstream tasks show that PAD, with only 1.23M pre-trainable parameters, outperforms other baseline paradigms including continual full pre-training on MSIP. Our code and dataset are available at https://github.com/casiatao/PAD.
翻訳日:2023-12-14 15:13:09 公開日:2023-12-13
# GuardRails: あいまいな目的を明確化するための自動提案

GuardRails: Automated Suggestions for Clarifying Ambiguous Purpose Statements ( http://arxiv.org/abs/2312.08189v1 )

ライセンス: Link先を確認
Mrigank Pawagi, Viraj Kumar(参考訳) 関数を実装する前に、プログラマは目的のステートメント、すなわち関数が何を計算するかの短い自然言語による説明を書くことを奨励される。 目的文は曖昧な場合があり、例えば、2つ以上の等価でない計算が特定の入力で可能であれば意図した動作を指定できない場合がある。 私たちの論文は4つの貢献がある。 まず,Large Language Models (LLM) を用いてそのような入力を提案する新しいヒューリスティックを提案する。 これらの提案を使用することで、プログラマは目的のステートメントを明確にする(例えば、そのような入力で意図された振る舞いを特定する機能的な例を提供することによって)。 第2に、ヒューリスティックによって提案される入力の品質を評価し、将来の研究を促進するために、既知のあいまいさを持つ目的ステートメントのオープンデータセットを作成します。 第三に、私たちはGitHub CopilotのChat機能に対するヒューリスティックを比較しています。 第4に、pythonプログラミング言語用のvisual studio codeの拡張として、私たちのヒューリスティックのオープンソース実装を提供しています。 このツールは初心者プログラマやインストラクターにとって特に役立つと思います。

Before implementing a function, programmers are encouraged to write a purpose statement i.e., a short, natural-language explanation of what the function computes. A purpose statement may be ambiguous i.e., it may fail to specify the intended behaviour when two or more inequivalent computations are plausible on certain inputs. Our paper makes four contributions. First, we propose a novel heuristic that suggests such inputs using Large Language Models (LLMs). Using these suggestions, the programmer may choose to clarify the purpose statement (e.g., by providing a functional example that specifies the intended behaviour on such an input). Second, to assess the quality of inputs suggested by our heuristic, and to facilitate future research, we create an open dataset of purpose statements with known ambiguities. Third, we compare our heuristic against GitHub Copilot's Chat feature, which can suggest similar inputs when prompted to generate unit tests. Fourth, we provide an open-source implementation of our heuristic as an extension to Visual Studio Code for the Python programming language, where purpose statements and functional examples are specified as docstrings and doctests respectively. We believe that this tool will be particularly helpful to novice programmers and instructors.
翻訳日:2023-12-14 15:12:42 公開日:2023-12-13
# c-fos直後遺伝子発現による神経活動検出のための高度な画像分割技術

Advanced Image Segmentation Techniques for Neural Activity Detection via C-fos Immediate Early Gene Expression ( http://arxiv.org/abs/2312.08177v1 )

ライセンス: Link先を確認
Peilin Cai(参考訳) 本稿では,神経活動の重要なマーカーであるC-fos即時初期遺伝子発現解析への高度な画像分割手法の適用について検討する。 神経回路の複雑さと高い可変性のため、C-fos画像の正確なセグメンテーションは神経機能に関する新たな洞察を生み出す上で最重要である。 本研究の目的は,CNNとUnetモデルの能力を活用し,C-fos画像分割における精度の向上と手動介入の最小化である。 本稿では,畳み込みニューラルネットワーク(cnns)とunetモデルを用いたセグメンテーションプロセスのための新しいワークフローの開発について述べる。 ワークフローには、クロップ、画像特徴抽出、トレーニングデータセット選択のためのクラスタリングなどの前処理ステップが組み込まれています。 我々はAutoEncoderモデルを用いて特徴を抽出し、制約付きクラスタリングを実装し、画像の類似点と相違点を特定する。 さらに,手作業および自動ラベリング手法を用いて,モデルの性能を向上させる。 正常組織領域からc-fos発現の有意な領域を識別する手法の有効性を実証した。 最後に,c-fos 表現検出のための修正 unet ネットワークを実装した。 本研究は、より効率的かつ自動化された画像分割法の開発に寄与し、神経科学研究における神経機能の理解を深める。

This paper investigates the application of advanced image segmentation techniques to analyze C-fos immediate early gene expression, a crucial marker for neural activity. Due to the complexity and high variability of neural circuits, accurate segmentation of C-fos images is paramount for the development of new insights into neural function. Amidst this backdrop, this research aims to improve accuracy and minimize manual intervention in C-fos image segmentation by leveraging the capabilities of CNNs and the Unet model. We describe the development of a novel workflow for the segmentation process involving Convolutional Neural Networks (CNNs) and the Unet model, demonstrating their efficiency in various image segmentation tasks. Our workflow incorporates pre-processing steps such as cropping, image feature extraction, and clustering for the training dataset selection. We used an AutoEncoder model to extract features and implement constrained clustering to identify similarities and differences in image types. Additionally, we utilized manual and automatic labeling approaches to enhance the performance of our model. We demonstrated the effectiveness of our method in distinguishing areas with significant C-fos expression from normal tissue areas. Lastly, we implemented a modified Unet network for the detection of C-fos expressions. This research contributes to the development of more efficient and automated image segmentation methods, advancing the understanding of neural function in neuroscience research.
翻訳日:2023-12-14 15:12:21 公開日:2023-12-13
# asc:深層ニューラルネットワークのための適応的スケール特徴マップ圧縮

ASC: Adaptive Scale Feature Map Compression for Deep Neural Network ( http://arxiv.org/abs/2312.08176v1 )

ライセンス: Link先を確認
Yuan Yao and Tian-Sheuan Chang(参考訳) ディープラーニングアクセラレータはますます需要が増しているが、そのパフォーマンスはフィーチャーマップのサイズによって制約され、高い帯域幅要求と大きなバッファサイズにつながる。 本稿では,特徴マップのユニークな特性を利用した適応的スケール特徴マップ圧縮手法を提案する。 この手法は弱チャネル相関を考慮した独立チャネルインデクシングを採用し、立方体のようなブロック形状を利用して強い局所相関の恩恵を受ける。 この方法はさらに、スイッチ可能なエンドポイントモードと適応的スケール補間を使用して圧縮を最適化し、異常値の有無に関わらずユニモーダルデータ分布を処理する。 その結果、16ビットのデータは定数と可変ビットレートでそれぞれ4$\times$と7.69$\times$の圧縮レートとなる。 ハードウェア設計は補間スケールを調整することで面積コストを最小化し,補間ポイント間のハードウェア共有を容易にする。 さらに,簡単な補間のためのしきい値概念を導入し,複雑なハードウェアの必要性を回避した。 TSMC 28nmの実装では、8ビット版のゲート数は6135である。 さらに、ハードウェアアーキテクチャは、面積コストのサブ線形増加のみで、効果的にスケールする。 32$\times$スループットの向上は、DDR5-6400の理論的帯域幅をわずか7.65$\times$ハードウェアコストで達成する。

Deep-learning accelerators are increasingly in demand; however, their performance is constrained by the size of the feature map, leading to high bandwidth requirements and large buffer sizes. We propose an adaptive scale feature map compression technique leveraging the unique properties of the feature map. This technique adopts independent channel indexing given the weak channel correlation and utilizes a cubical-like block shape to benefit from strong local correlations. The method further optimizes compression using a switchable endpoint mode and adaptive scale interpolation to handle unimodal data distributions, both with and without outliers. This results in 4$\times$ and up to 7.69$\times$ compression rates for 16-bit data in constant and variable bitrates, respectively. Our hardware design minimizes area cost by adjusting interpolation scales, which facilitates hardware sharing among interpolation points. Additionally, we introduce a threshold concept for straightforward interpolation, preventing the need for intricate hardware. The TSMC 28nm implementation showcases an equivalent gate count of 6135 for the 8-bit version. Furthermore, the hardware architecture scales effectively, with only a sublinear increase in area cost. Achieving a 32$\times$ throughput increase meets the theoretical bandwidth of DDR5-6400 at just 7.65$\times$ the hardware cost.
翻訳日:2023-12-14 15:11:57 公開日:2023-12-13
# 固定効果を有する静的パネルモデルのダブル機械学習

Double Machine Learning for Static Panel Models with Fixed Effects ( http://arxiv.org/abs/2312.08174v1 )

ライセンス: Link先を確認
Paul Clarke, Annalivia Polselli(参考訳) 機械学習(ML)アルゴリズムは、予測子の真の機能形式が未知であるため、実際に有用な高次元または非線形ニュアンス関数を近似するための強力なデータ駆動ツールである。 本稿では,集合レグレッサの非線形効果を許容するパネルデータからの政策介入の推定器を開発し,これら推定器の性能について,ラスソ,分類・回帰木,ランダム林の3つのよく知られたmlアルゴリズムを用いて検討する。 我々はDouble Machine Learning (DML) (Chernozhukov et al., 2018) を用いて、不均一な個々の不均一性(固定効果)と、Robinson (1988) の部分的に線形回帰モデルを拡張することによる不均一な共振の因果効果を推定する。 非線形モデルに対するグループ内推定器,ファーストディファレンス推定器,相関付きランダム効果推定器(mundlak,1978)の拡張に基づく,観測不能な個人不均一性を扱うための3つの方法を開発した。 モンテカルロシミュレーションを用いて、データ生成プロセスが非線形であっても従来の最小二乗推定器は良好に動作可能であるが、回帰器の真の効果が非線形で不連続なプロセスではバイアス低減の点でかなりの性能向上がある。 しかし、同じシナリオでは、広範なハイパーパラメータチューニングにもかかわらず、これらが極めて非正規な推定値分布をもたらし、推定値の分散が著しく過小評価されているため、両方の学習者にとって問題となる。 これは他の状況での樹木のパフォーマンスと矛盾し、さらなる調査が必要である。 最後に、英国における全国最低賃金導入の影響を示す観測パネルデータに対するDMLの例を示す。

Machine Learning (ML) algorithms are powerful data-driven tools for approximating high-dimensional or non-linear nuisance functions which are useful in practice because the true functional form of the predictors is ex-ante unknown. In this paper, we develop estimators of policy interventions from panel data which allow for non-linear effects of the confounding regressors, and investigate the performance of these estimators using three well-known ML algorithms, specifically, LASSO, classification and regression trees, and random forests. We use Double Machine Learning (DML) (Chernozhukov et al., 2018) for the estimation of causal effects of homogeneous treatments with unobserved individual heterogeneity (fixed effects) and no unobserved confounding by extending Robinson (1988)'s partially linear regression model. We develop three alternative approaches for handling unobserved individual heterogeneity based on extending the within-group estimator, first-difference estimator, and correlated random effect estimator (Mundlak, 1978) for non-linear models. Using Monte Carlo simulations, we find that conventional least squares estimators can perform well even if the data generating process is non-linear, but there are substantial performance gains in terms of bias reduction under a process where the true effect of the regressors is non-linear and discontinuous. However, for the same scenarios, we also find -- despite extensive hyperparameter tuning -- inference to be problematic for both tree-based learners because these lead to highly non-normal estimator distributions and the estimator variance being severely under-estimated. This contradicts the performance of trees in other circumstances and requires further investigation. Finally, we provide an illustrative example of DML for observational panel data showing the impact of the introduction of the national minimum wage in the UK.
翻訳日:2023-12-14 15:11:36 公開日:2023-12-13
# 多体局所化系におけるテンソルネットワーク表現と絡み合い拡大:新しいアプローチ

Tensor Network Representation and Entanglement Spreading in Many-Body Localized Systems: A Novel Approach ( http://arxiv.org/abs/2312.08170v1 )

ライセンス: Link先を確認
Z. Gholami, Z. Noorinejad, M. Amini, E. Ghanbari-Adivi(参考訳) 1次元多体局所化系に対する局所運動積分(liom)を計算する新しい方法が考案された。 このアプローチでは、最適なユニタリ変換のクラスは、特定のシステムのハミルトニアンを対角化するためにテンソルネットワーク形式論で導かれる。 テンソルネットワークを構築するために、サブシステムハミルトンの固有状態を利用して、所望のユニタリ変換を達成する。 その後、固有状態を最適化し、LIOMsテンソルネットワークを表す適切なユニタリ局所化演算子を取得する。 この手法の効率を評価した結果, 高速かつほぼ正確であることが判明した。 導入したテンソルネットワーク表現の枠組みでは, 絡み合いが多体局所化システムに沿ってどのように広がり, このアプローチにおける近似の結果を評価する。 重要かつ興味深い結果は、提案されたテンソルネットワーク近似において、ブロックの長さが局所化の長さよりも大きい場合、エントロピー成長は対数時間の観点から線形となることである。 また、与えられたテンソルネットワーク表現によるユニタリ変換を用いてハミルトニアンが対角化されている場合、エンタングルメントは隣り合う2ブロックのみを考慮すれば計算できることが示されている。

A novel method has been devised to compute the Local Integrals of Motion (LIOMs) for a one-dimensional many-body localized system. In this approach, a class of optimal unitary transformations is deduced in a tensor-network formalism to diagonalize the Hamiltonian of the specified system. To construct the tensor network, we utilize the eigenstates of the subsystems Hamiltonian to attain the desired unitary transformations. Subsequently, we optimize the eigenstates and acquire appropriate unitary localized operators that will represent the LIOMs tensor network. The efficiency of the method was assessed and found to be both fast and almost accurate. In framework of the introduced tensor-network representation, we examine how the entanglement spreads along the considered many-body localized system and evaluate the outcomes of the approximations employed in this approach. The important and interesting result is that in the proposed tensor network approximation, if the length of the blocks is greater than the length of localization, then the entropy growth will be linear in terms of the logarithmic time. Also, it has been demonstrated that, the entanglement can be calculated by only considering two blocks next to each other, if the Hamiltonian has been diagonalized using the unitary transformation made by the provided tensor-network representation.
翻訳日:2023-12-14 15:11:03 公開日:2023-12-13
# Chat-3D v2:オブジェクト識別子を用いた3Dシーンと大規模言語モデルのブリッジ

Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers ( http://arxiv.org/abs/2312.08168v1 )

ライセンス: Link先を確認
Haifeng Huang, Zehan Wang, Rongjie Huang, Luping Liu, Xize Cheng, Yang Zhao, Tao Jin, Zhou Zhao(参考訳) 近年の研究では,3次元シーンにおける課題処理において,Large Language Models (LLMs) が重要な可能性を示している。 しかしながら、現在のモデルは、各問合せペアが個々のオブジェクトにのみフォーカスする、オブジェクト中心のタスクに対処することに制約されている。 現実世界のアプリケーションでは、複数のオブジェクトに関するクエリをポーズしたり、さまざまなオブジェクトを正確に参照する回答を期待したりできる。 会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。 このソリューションは単純に見えるが、主な課題は2つある。 1)各オブジェクトとその識別子間の信頼性の高い1対1対応を確立するには? 2)多数の物体間の複雑な空間的関係をllmの埋め込み空間にどのように組み込むか? これらの課題に対処するために,各オブジェクトに対する属性認識トークンと関係認識トークンを学習する2段階アライメント手法を提案する。 これらのトークンは、オブジェクトの属性と周囲のオブジェクトとの空間的関係を3Dシーンでキャプチャする。 アライメントが確立すれば、インストラクションチューニングを使用して、さまざまな下流タスクでモデルを微調整することができます。 ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。 さらに,GPT-4の補助として,リッチオブジェクト識別子を付加した3次元シーンキャプションデータセットを作成する。 このデータセットは、効果的なオブジェクト参照と正確なシーン理解におけるオブジェクト識別子の能力をさらに探求することを目的としている。

Recent research has evidenced the significant potentials of Large Language Models (LLMs) in handling challenging tasks within 3D scenes. However, current models are constrained to addressing object-centric tasks, where each question-answer pair focuses solely on an individual object. In real-world applications, users may pose queries involving multiple objects or expect for answers that precisely reference various objects. We introduce the use of object identifiers to freely reference objects during a conversation. While this solution appears straightforward, it presents two main challenges: 1) How to establish a reliable one-to-one correspondence between each object and its identifier? 2) How to incorporate complex spatial relationships among dozens of objects into the embedding space of the LLM? To address these challenges, we propose a two-stage alignment method, which involves learning an attribute-aware token and a relation-aware token for each object. These tokens capture the object's attributes and spatial relationships with surrounding objects in the 3D scene. Once the alignment is established, we can fine-tune our model on various downstream tasks using instruction tuning. Experiments conducted on traditional datasets like ScanQA, ScanRefer, and Nr3D/Sr3D showcase the effectiveness of our proposed method. Additionally, we create a 3D scene captioning dataset annotated with rich object identifiers, with the assistant of GPT-4. This dataset aims to further explore the capability of object identifiers in effective object referencing and precise scene understanding.
翻訳日:2023-12-14 15:10:42 公開日:2023-12-13
# パラメトリック駆動tavis-cummingsモデルによる量子メトリックとメトロロジー

Quantum metric and metrology with parametrically-driven Tavis-Cummings models ( http://arxiv.org/abs/2312.08164v1 )

ライセンス: Link先を確認
Jia-Hao L\"u, Pei-Rong Han, Wen Ning, Xin Zhu, Fan Wu, Li-Tuo Shen, Zhen-Biao Yang, Shi-Biao Zheng(参考訳) 量子化フォトニック場と相互作用する複数の量子ビットからなるTavis-Cummingsモデルを用いて量子計量を研究する。 フォトニック場のパラメトリック駆動は系のU(1)対称性を${\rm Z}_2$対称性に分解し、自発的破壊は超ラジカル相転移を開始する。 固有エネルギーと固有状態を解析的に解き、臨界点付近の系の挙動を数値シミュレーションした。 超ラジカル相転移の近傍の臨界挙動は、制御パラメータの変動に対する量子状態の応答の観点から定義される量子計量によって特徴づけられる。 さらに,超ラジアント相転移近傍の量子メトリックの臨界挙動に基づく量子メトロロジープロトコルを提案し,実現可能な測定精度が大幅に向上した。

We study the quantum metric in a driven Tavis-Cummings model, comprised of multiple qubits interacting with a quantized photonic field. The parametrical driving of the photonic field breaks the system's U(1) symmetry down to a ${\rm Z}_2$ symmetry, whose spontaneous breaking initiates a superradiant phase transition. We analytically solved the eigenenergies and eigenstates, and numerically simulated the system behaviors near the critical point. The critical behaviors near the superradiant phase transition are characterized by the quantum metric, defined in terms of the response of the quantum state to variation of the control parameter. In addition, a quantum metrological protocol based on the critical behaviors of the quantum metric near the superradiant phase transition is proposed, which enables greatly the achievable measurement precision.
翻訳日:2023-12-14 15:10:22 公開日:2023-12-13
# 自閉症スペクトラム障害者に対するメンターチャイルドパラダイム

The mentor-child paradigm for individuals with autism spectrum disorders ( http://arxiv.org/abs/2312.08161v1 )

ライセンス: Link先を確認
Marion Dubois-Sage, Baptiste Jacquet, Frank Jamet and Jean Baratgin(参考訳) 本研究の目的は,自閉症スペクトラム障害者に対するロボットによるメンタチャイルドパラダイムの関連性とその適応性を明らかにすることである。 この方法では、自閉症者の社会認知能力をより信頼性の高い評価が可能となり、それは実用的要因によって過小評価された可能性がある。

Our aim is to analyze the relevance of the mentor-child paradigm with a robot for individuals with Autism Spectrum Disorders, and the adaptations required. This method could allow a more reliable evaluation of the socio-cognitive abilities of individuals with autism, which may have been underestimated due to pragmatic factors.
翻訳日:2023-12-14 15:10:08 公開日:2023-12-13
# 蹴られたボース・ハバードダイマーにおける量子カオスの統計的および動的側面

Statistical and dynamical aspects of quantum chaos in a kicked Bose-Hubbard dimer ( http://arxiv.org/abs/2312.08159v1 )

ライセンス: Link先を確認
Chenguang Liang, Yu Zhang, Shu Chen(参考訳) 2点ボース・ハバードモデルによってモデル化された二重ウェルポテンシャルにおける相互作用ボソンの系は、理論的および実験的に重要な関心を持ち、多体物理学や量子力学から量子カオスの開始まで幅広い文脈で集中的に研究されている。 本研究では,オンサイト電位差を周期的に変調した2サイトボスボバードモデル(bose-hubbard dimer)を体系的に検討した。 本モデルは蹴りリプキン・メシュコフ・グリックモデルとして等価に表現できるので、蹴り上げられたトップモデルと異なる動的挙動を示すことができる。 Floquet演算子のスペクトル統計を解析することにより、システムは相互作用強度を増大させ、規則性からカオスへ遷移することを明らかにする。 次に、Floquet演算子固有状態に基づく半古典近似とR\'{e}nyiエントロピーの解析に基づいて、我々のモデルにおける局所的なカオス的特徴を明らかにする。 半古典的分析はまた、カオス状態における系が初期状態の選択によって異なる動的挙動を示すことも示唆している。 最後に,カオスの動的シグネチャは,局所作用素の動的進化と時間外相関関数,および絡み合いエントロピーを研究することによって現れることを示す。 この数値結果から, 初期状態が相空間の異なる位置にあるコヒーレントスピン状態として選択されるとき, 通常の状態とカオス状態の両方において, キックしたボース・ハッバードダイマーの動的特性のリッチ性を示す。

Systems of interacting bosons in double-well potentials, modeled by two-site Bose-Hubbard models, are of significant theoretical and experimental interest and attracted intensive studies in contexts ranging from many-body physics and quantum dynamics to the onset of quantum chaos. In this work we systematically study a kicked two-site Bose-Hubbard model (Bose-Hubbard dimer) with the on-site potential difference being periodically modulated. Our model can be equivalently represented as a kicked Lipkin-Meshkov-Glick model and thus displays different dynamical behaviors from the kicked top model. By analyzing spectral statistics of Floquet operator, we unveil that the system undergoes a transition from regularity to chaos with increasing the interaction strength. Then based on semiclassical approximation and the analysis of R\'{e}nyi entropy of coherent states in the basis of Floquet operator eigenstates, we reveal the local chaotic features of our model, which indicate the existence of integrable islands even in the deep chaotic regime. The semiclassical analysis also suggests that the system in chaotic regime may display different dynamical behavior depending on the choice of initial states. Finally, we demonstrate that dynamical signatures of chaos can be manifested by studying dynamical evolution of local operators and out of time order correlation function as well as the entanglement entropy. Our numerical results exhibit the richness of dynamics of the kicked Bose-Hubbard dimer in both regular and chaotic regimes as the initial states are chosen as coherent spin states located in different locations of phase space.
翻訳日:2023-12-14 15:10:02 公開日:2023-12-13
# cidr : 最小特徴除去問題に対する協調的統合動的精錬法

CIDR: A Cooperative Integrated Dynamic Refining Method for Minimal Feature Removal Problem ( http://arxiv.org/abs/2312.08157v1 )

ライセンス: Link先を確認
Qian Chen, Taolin Zhang, Dongyang Li, Xiaofeng He(参考訳) ポストホックな説明領域における最小機能除去問題は、最小機能セット(MFS)を特定することを目的としている。 グリーディアルゴリズムを用いた最小特徴集合の計算以前の研究は、一般的なシナリオでは満足できない単調な仮定の下での特徴相互作用の探索を欠いている。 上記の制約に対処するため,最小限の機能集合を効率的に発見するための協調型動的精錬法 (CIDR) を提案する。 具体的には、特徴間の相互作用を検出するために協調統合勾配(CIG)を設計する。 CIGと最小特徴集合の特性を取り入れることで、最小特徴除去問題をknapsack問題に変換する。 さらに,多数の候補集合から最小特徴集合を決定するために,補助的最小特徴リファインメントアルゴリズムを考案する。 私たちの知る限りでは、自然言語処理の分野における最小限の機能削除問題に対処するのは、私たちの仕事が初めてです。 大規模な実験では、CIDRはさまざまなモデルやデータセット間の解釈性を改善した、代表最小限の機能セットをトレースできることを示した。

The minimal feature removal problem in the post-hoc explanation area aims to identify the minimal feature set (MFS). Prior studies using the greedy algorithm to calculate the minimal feature set lack the exploration of feature interactions under a monotonic assumption which cannot be satisfied in general scenarios. In order to address the above limitations, we propose a Cooperative Integrated Dynamic Refining method (CIDR) to efficiently discover minimal feature sets. Specifically, we design Cooperative Integrated Gradients (CIG) to detect interactions between features. By incorporating CIG and characteristics of the minimal feature set, we transform the minimal feature removal problem into a knapsack problem. Additionally, we devise an auxiliary Minimal Feature Refinement algorithm to determine the minimal feature set from numerous candidate sets. To the best of our knowledge, our work is the first to address the minimal feature removal problem in the field of natural language processing. Extensive experiments demonstrate that CIDR is capable of tracing representative minimal feature sets with improved interpretability across various models and datasets.
翻訳日:2023-12-14 15:09:31 公開日:2023-12-13
# $\rho$-diffusion:計算物理学のための拡散に基づく密度推定フレームワーク

$\rho$-Diffusion: A diffusion-based density estimation framework for computational physics ( http://arxiv.org/abs/2312.08153v1 )

ライセンス: Link先を確認
Maxwell X. Cai, Kin Long Kelvin Lee(参考訳) 物理学において、密度$\rho(\cdot)$は、物理的過程を管理するスカラー場または確率密度関数を記述するため、モデルに対する基本的な重要なスカラー関数である。 しかし、$\rho(\cdot)$のモデリングは通常パラメータ空間ではスケールが悪く、急速に困難で計算コストがかかる。 これを回避するための有望な方法の1つは、高忠実度画像生成でよく使われる拡散モデルを推論し、既存の科学データから$\rho(\cdot)$をパラメータ化する能力を利用することである。 本稿では,物理における多次元密度推定のための拡散確率モデルの実装である$\rho$-Diffusionを提案する。 さらに, 任意の数の物理パラメータで$\rho$-diffusionを条件づける新しいハッシュ手法を提案する。

In physics, density $\rho(\cdot)$ is a fundamentally important scalar function to model, since it describes a scalar field or a probability density function that governs a physical process. Modeling $\rho(\cdot)$ typically scales poorly with parameter space, however, and quickly becomes prohibitively difficult and computationally expensive. One promising avenue to bypass this is to leverage the capabilities of denoising diffusion models often used in high-fidelity image generation to parameterize $\rho(\cdot)$ from existing scientific data, from which new samples can be trivially sampled from. In this paper, we propose $\rho$-Diffusion, an implementation of denoising diffusion probabilistic models for multidimensional density estimation in physics, which is currently in active development and, from our results, performs well on physically motivated 2D and 3D density functions. Moreover, we propose a novel hashing technique that allows $\rho$-Diffusion to be conditioned by arbitrary amounts of physical parameters of interest.
翻訳日:2023-12-14 15:09:15 公開日:2023-12-13
# ラベル要求に対する非応答バイアスによるアクティブラーニング

Active learning with biased non-response to label requests ( http://arxiv.org/abs/2312.08150v1 )

ライセンス: Link先を確認
Thomas Robinson, Niek Tax, Richard Mudd, and Ido Guy(参考訳) アクティブラーニングは、獲得する最も有益な新しいラベルを識別することで、予測モデルのトレーニング効率を向上させることができる。 しかしながら、ラベルリクエストに対する非応答は、現実世界のコンテキストにおけるアクティブラーニングの有効性に影響を与える可能性がある。 この劣化を,データ内に存在する非応答の種類を考慮し,非応答バイアスが特にモデル性能に有害であることを示すことで概念化する。 この種の非応答は、本質的にはユーザインタラクションに依存するラベリングプロセスのコンテキストにおいて特に顕著である、と我々は主張する。 偏りのある非応答の影響を軽減するため,本研究では,任意のアクティブラーニングアルゴリズムに適用可能な,期待効用(ucb-eu)の上位信頼範囲のサンプリング戦略に対するコストベース補正を提案する。 実験により,提案手法は,多くの環境において非応答のラベル付けによる害を軽減できることが実証された。 しかし、このアノテーションの非応答バイアスが、特定のサンプリング方法やデータ生成プロセスにおいて UCB-EU の下で有害であるような設定も特徴付ける。 最後に,eコマースプラットフォームであるTaobaoから実世界のデータセットを評価する。 UCB-EUは、クリックインプレッションに基づいてトレーニングされた変換モデルに対して、大幅な性能向上をもたらすことを示す。 一般的に、この研究は、非応答型とアクティブラーニングによるモデル改善の相互作用をより概念化し、モデルの劣化を緩和する実用的な、容易に実装できる補正を提供するのに役立つ。

Active learning can improve the efficiency of training prediction models by identifying the most informative new labels to acquire. However, non-response to label requests can impact active learning's effectiveness in real-world contexts. We conceptualise this degradation by considering the type of non-response present in the data, demonstrating that biased non-response is particularly detrimental to model performance. We argue that this sort of non-response is particularly likely in contexts where the labelling process, by nature, relies on user interactions. To mitigate the impact of biased non-response, we propose a cost-based correction to the sampling strategy--the Upper Confidence Bound of the Expected Utility (UCB-EU)--that can, plausibly, be applied to any active learning algorithm. Through experiments, we demonstrate that our method successfully reduces the harm from labelling non-response in many settings. However, we also characterise settings where the non-response bias in the annotations remains detrimental under UCB-EU for particular sampling methods and data generating processes. Finally, we evaluate our method on a real-world dataset from e-commerce platform Taobao. We show that UCB-EU yields substantial performance improvements to conversion models that are trained on clicked impressions. Most generally, this research serves to both better conceptualise the interplay between types of non-response and model improvements via active learning, and to provide a practical, easy to implement correction that helps mitigate model degradation.
翻訳日:2023-12-14 15:08:55 公開日:2023-12-13
# 量子計測エンジンの基礎的限界

Fundamental limits on quantum measurement engines ( http://arxiv.org/abs/2312.08148v1 )

ライセンス: Link先を確認
Guillermo Perna and Esteban Calzetta(参考訳) 量子測定は、測定対象のシステムと測定装置との間のエネルギー交換を含む。 例えば、エネルギーは環境に放出されるか、測定結果を記録するのに費やされるためである。 さらに、これらのプロセスには時間がかかる。 このため、これらの交換は量子測定エンジンの解析において考慮され、その効率とパワーに限界を設定する必要がある。 磁場中のスピン1/2粒子に基づく量子エンジンを提案し,進化の量子的性質による基本的な限界について検討する。 電磁真空とのカップリングを考慮に入れ、測定装置の役割を果たす。 我々はその力学、仕事、力、効率を完全に研究する。

A quantum measurement involves energy exchanges between the system to be measured and the measuring apparatus. Some of them involve energy losses, for example because energy is dissipated into the environment or is spent in recording the measurement outcome. Moreover, these processes take time. For this reason, these exchanges must be taken into account in the analysis of a quantum measurement engine, and set limits to its efficiency and power. We propose a quantum engine based on a spin 1/2 particle in a magnetic field and study its fundamental limitations due to the quantum nature of the evolution. The coupling with the electromagnetic vacuum is taken into account and plays the role of a measurement apparatus. We fully study its dynamics, work, power and efficiency.
翻訳日:2023-12-14 15:08:32 公開日:2023-12-13
# 航空機シミュレータ用高精度視覚ベース姿勢推定システム

High-accuracy Vision-Based Attitude Estimation System for Air-Bearing Spacecraft Simulators ( http://arxiv.org/abs/2312.08146v1 )

ライセンス: Link先を確認
Fabio Ornati, Gianfranco Di Domenico, Paolo Panicucci, Francesco Topputo(参考訳) 衛星の回転力学をシミュレートする空気を持つプラットフォームは、非常に正確な地上真実システムを必要とする。 残念ながら、このスコープで使用される商用モーションキャプチャシステムは複雑で高価である。 本稿では,単眼カメラとfiducial markerのセットを用いて,回転式空気保持プラットフォームの姿勢を計算する新しい多用途な手法を提案する。 本研究は,遠近法n点問題の解法を含む他の文献法よりもかなり精度の高い幾何学的反復アルゴリズムを提案する。 さらに、システムパラメータの予備的な推定を行う自動校正手順を示す。 開発された方法論はRaspberry Pi 4マイクロコンピュータにデプロイされ、LEDマーカーのセットでテストされる。 この設定で得られたデータは、同じシステムのコンピュータシミュレーションと比較し、姿勢推定性能を理解し検証する。 シミュレーションの結果,約12arcsecと$\sim$37arcsecの順に1-sigmaの精度が期待され,平均遅延時間は6msであった。

Air-bearing platforms for simulating the rotational dynamics of satellites require highly precise ground truth systems. Unfortunately, commercial motion capture systems used for this scope are complex and expensive. This paper shows a novel and versatile method to compute the attitude of rotational air-bearing platforms using a monocular camera and sets of fiducial markers. The work proposes a geometry-based iterative algorithm that is significantly more accurate than other literature methods that involve the solution of the Perspective-n-Point problem. Additionally, auto-calibration procedures to perform a preliminary estimation of the system parameters are shown. The developed methodology is deployed onto a Raspberry Pi 4 micro-computer and tested with a set of LED markers. Data obtained with this setup are compared against computer simulations of the same system to understand and validate the attitude estimation performances. Simulation results show expected 1-sigma accuracies in the order of $\sim$ 12 arcsec and $\sim$ 37 arcsec for about- and cross-boresight rotations of the platform, and average latency times of 6 ms.
翻訳日:2023-12-14 15:08:23 公開日:2023-12-13
# 非パラメトリック生成モデルのためのスライスワッサースタイン距離に基づく微分プライベート勾配流れ

Differentially Private Gradient Flow based on the Sliced Wasserstein Distance for Non-Parametric Generative Modeling ( http://arxiv.org/abs/2312.08227v1 )

ライセンス: Link先を確認
Ilana Sebag, Muni Sreenivas PYDI, Jean-Yves Franceschi, Alain Rakotomamonjy, Mike Gartrell, Jamal Atif, Alexandre Allauzen(参考訳) センシティブなトレーニングデータにおけるプライバシーの保護は、特に生成モデリングの文脈において最重要である。 これは、微分プライベート確率勾配降下またはモデルやジェネレータを訓練するための微分プライベート計量によって行われる。 本稿では,確率測度の空間におけるパラメータフリー勾配流に基づく微分プライベート生成モデリング手法を提案する。 提案アルゴリズムは,スライスされたワッサーシュタイン距離から導出されるドリフトを利用して,粒子スキームを介して動作し,プライベートに計算する新しい離散流である。 提案モデルでは, ジェネレータベースモデルと比較して, プライバシの低い予算で高忠実度データを生成することができ, ジェネレータベースのアプローチに代わる有効な代替手段を提供する。

Safeguarding privacy in sensitive training data is paramount, particularly in the context of generative modeling. This is done through either differentially private stochastic gradient descent, or with a differentially private metric for training models or generators. In this paper, we introduce a novel differentially private generative modeling approach based on parameter-free gradient flows in the space of probability measures. The proposed algorithm is a new discretized flow which operates through a particle scheme, utilizing drift derived from the sliced Wasserstein distance and computed in a private manner. Our experiments show that compared to a generator-based model, our proposed model can generate higher-fidelity data at a low privacy budget, offering a viable alternative to generator-based approaches.
翻訳日:2023-12-14 15:03:14 公開日:2023-12-13
# GLOP:大規模ルーティング問題を解決するためのグローバルパーティションとローカル構築の学習

GLOP: Learning Global Partition and Local Construction for Solving Large-scale Routing Problems in Real-time ( http://arxiv.org/abs/2312.08224v1 )

ライセンス: Link先を確認
Haoran Ye, Jiarui Wang, Helan Liang, Zhiguang Cao, Yong Li, Fanzhang Li(参考訳) 最近のエンドツーエンドのニューラルソルバは、小規模ルーティング問題への期待を示しているが、リアルタイムのスケーリングパフォーマンスの制限に悩まされている。 本稿では,大規模ルーティング問題に対して効率よくスケール可能な統一階層型フレームワークであるGLOP(Global and Local Optimization Policies)を提案する。 glopは大きな経路問題をトラベルセールスマン問題(tsps)とtspsに分割し、最短ハミルトニアン経路問題に分類する。 まず, 粗粒度問題分割のための非自己回帰型ニューラルヒューリスティックスと, 細粒度ルート構築のための自己回帰型ニューラルヒューリスティックスをハイブリダイズし, 前者のスケーラビリティと後者の繊細さを活用する。 実験結果から,TSP,ATSP,CVRP,PCTSPなどの大規模ルーティング問題に対して,GLOPは競合的かつ最先端のリアルタイム性能を実現することがわかった。

The recent end-to-end neural solvers have shown promise for small-scale routing problems but suffered from limited real-time scaling-up performance. This paper proposes GLOP (Global and Local Optimization Policies), a unified hierarchical framework that efficiently scales toward large-scale routing problems. GLOP partitions large routing problems into Travelling Salesman Problems (TSPs) and TSPs into Shortest Hamiltonian Path Problems. For the first time, we hybridize non-autoregressive neural heuristics for coarse-grained problem partitions and autoregressive neural heuristics for fine-grained route constructions, leveraging the scalability of the former and the meticulousness of the latter. Experimental results show that GLOP achieves competitive and state-of-the-art real-time performance on large-scale routing problems, including TSP, ATSP, CVRP, and PCTSP.
翻訳日:2023-12-14 15:03:00 公開日:2023-12-13
# 画像翻訳のためのパッチワイズグラフコントラスト学習

Patch-wise Graph Contrastive Learning for Image Translation ( http://arxiv.org/abs/2312.08223v1 )

ライセンス: Link先を確認
Chanyong Jung, Gihyun Kwon, Jong Chul Ye(参考訳) 近年,入力画像と出力画像のセマンティック対応を探索することにより,画像翻訳のパッチワイドコントラスト学習が注目されている。 高レベルの意味理解のためのパッチワイドトポロジをさらに探求するため、グラフニューラルネットワークを用いてトポロジ対応の特徴を捉える。 具体的には,入力と出力のパッチワイド関係の整合性を高めるために,隣接行列を共用した事前学習エンコーダから,パッチワイド類似性に基づくグラフを構築する。 そして、グラフニューラルネットワークからノード特徴を取得し、コントラスト損失を用いて相互情報を増大させることにより、ノード間の対応性を高める。 階層的な意味構造を捉えるために,さらにグラフプーリングを提案する。 構築したグラフのセマンティックエンコーディングにより,画像翻訳の最先端性を示す実験結果が得られた。

Recently, patch-wise contrastive learning is drawing attention for the image translation by exploring the semantic correspondence between the input and output images. To further explore the patch-wise topology for high-level semantic understanding, here we exploit the graph neural network to capture the topology-aware features. Specifically, we construct the graph based on the patch-wise similarity from a pretrained encoder, whose adjacency matrix is shared to enhance the consistency of patch-wise relation between the input and the output. Then, we obtain the node feature from the graph neural network, and enhance the correspondence between the nodes by increasing mutual information using the contrastive loss. In order to capture the hierarchical semantic structure, we further propose the graph pooling. Experimental results demonstrate the state-of-art results for the image translation thanks to the semantic encoding by the constructed graphs.
翻訳日:2023-12-14 15:02:37 公開日:2023-12-13
# 深層gnnにおける残差ソフトアンソトロピック正規化のカリキュラム化

Curriculum-Enhanced Residual Soft An-Isotropic Normalization for Over-smoothness in Deep GNNs ( http://arxiv.org/abs/2312.08221v1 )

ライセンス: Link先を確認
Jin Li, Qirong Zhang, Shuling Xu, Xinlong Chen, Longkun Guo, Yang-Geng Fu(参考訳) グラフニューラルネットワークは、様々なグラフ関連下流タスクにおける多くの古典的テクニックよりも顕著なパフォーマンス向上を達成しているが、その成功は過度な滑らかさや最適化の難しさなど、浅いモデルに制限されている。 本稿では,過密化問題を軽減するために,ノード埋め込みの多様性を保ち,過密化による差別を防止するソフトグラフ正規化法を提案する。 残差接続と組み合わせることで,ディープネットワークにおいても,入力グラフ構造とノード特徴の両方の知識を効果的に取得できる理由を解析する。 さらに,難解な例を学習するカリキュラム学習に触発されて,補助グラフ内のラベルを反復的に平滑化し,複雑化する知識を抽出し,ノードを徐々に粗いものから細かいものへと識別する多くの段階的非スムースタスクを構築する,深層gnnの最適化を強化するための新しいラベルスムーシング学習フレームワークを提案する。 この方法は、オーバーフィッティングのリスクを低減し、より良い結果を一般化する。 最後に,実世界12ノード分類ベンチマークにおける最先端手法を含む既存12のベースラインとの比較により,提案モデルと学習フレームワークの有効性と可能性を示すために,広範な実験を行った。

Despite Graph neural networks' significant performance gain over many classic techniques in various graph-related downstream tasks, their successes are restricted in shallow models due to over-smoothness and the difficulties of optimizations among many other issues. In this paper, to alleviate the over-smoothing issue, we propose a soft graph normalization method to preserve the diversities of node embeddings and prevent indiscrimination due to possible over-closeness. Combined with residual connections, we analyze the reason why the method can effectively capture the knowledge in both input graph structures and node features even with deep networks. Additionally, inspired by Curriculum Learning that learns easy examples before the hard ones, we propose a novel label-smoothing-based learning framework to enhance the optimization of deep GNNs, which iteratively smooths labels in an auxiliary graph and constructs many gradual non-smooth tasks for extracting increasingly complex knowledge and gradually discriminating nodes from coarse to fine. The method arguably reduces the risk of overfitting and generalizes better results. Finally, extensive experiments are carried out to demonstrate the effectiveness and potential of the proposed model and learning framework through comparison with twelve existing baselines including the state-of-the-art methods on twelve real-world node classification benchmarks.
翻訳日:2023-12-14 15:02:23 公開日:2023-12-13
# EventAid: リアルタイムハイブリッドデータセットを用いたイベント支援画像/ビデオ強調アルゴリズムのベンチマーク

EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms with Real-captured Hybrid Dataset ( http://arxiv.org/abs/2312.08220v1 )

ライセンス: Link先を確認
Peiqi Duan, Boyu Li, Yixin Yang, Hanyue Lou, Minggui Teng, Yi Ma, Boxin Shi(参考訳) イベントカメラは、従来のフレームベースの撮像センサーよりもダイナミックレンジとセンシング速度の利点を提供する新しい撮像技術である。 従来の画像フレームのテクスチャと色知覚を補完する、イベントとフレームベースのカメラのハイブリッドカメラシステムは、高性能な撮像を可能にする。 イベントカメラの助けを借りて、高品質な画像/ビデオエンハンスメント手法により、従来のフレームベースのカメラ、特に露出時間、解像度、ダイナミックレンジ、フレームレートの制限を破ることができる。 本稿では,5つのイベント支援画像と映像強調タスク(イベントベースビデオ再構成,イベント支援高フレームレートビデオ再構成,画像デブリ,画像超解像,高ダイナミックレンジ画像再構成)に焦点を当て,異なるイベント特性の影響の分析,リアルタイムおよび地上真実ラベル付きベンチマークデータセット,最先端手法の統一ベンチマーク,および2つの主流イベントシミュレータの評価を行う。 本稿では,シーンの多様性と時空間同期を考慮した"Event-RGB"マルチカメラハイブリッドシステムを用いて,5つのイベント支援画像/映像強調タスクのためのリアルタイム評価データセットEventAidを収集する。 さらに,最先端アルゴリズムの定量的および視覚的比較を行い,イベント支援画像デブラリング法の性能限界を分析するための制御実験を行い,今後の研究を刺激するオープン問題について議論する。

Event cameras are emerging imaging technology that offers advantages over conventional frame-based imaging sensors in dynamic range and sensing speed. Complementing the rich texture and color perception of traditional image frames, the hybrid camera system of event and frame-based cameras enables high-performance imaging. With the assistance of event cameras, high-quality image/video enhancement methods make it possible to break the limits of traditional frame-based cameras, especially exposure time, resolution, dynamic range, and frame rate limits. This paper focuses on five event-aided image and video enhancement tasks (i.e., event-based video reconstruction, event-aided high frame rate video reconstruction, image deblurring, image super-resolution, and high dynamic range image reconstruction), provides an analysis of the effects of different event properties, a real-captured and ground truth labeled benchmark dataset, a unified benchmarking of state-of-the-art methods, and an evaluation for two mainstream event simulators. In detail, this paper collects a real-captured evaluation dataset EventAid for five event-aided image/video enhancement tasks, by using "Event-RGB" multi-camera hybrid system, taking into account scene diversity and spatiotemporal synchronization. We further perform quantitative and visual comparisons for state-of-the-art algorithms, provide a controlled experiment to analyze the performance limit of event-aided image deblurring methods, and discuss open problems to inspire future research.
翻訳日:2023-12-14 15:01:58 公開日:2023-12-13
# 量子制限増幅器と減衰器チャネルを通したグラウバー・スダルシャン・ウィグナー・フシミ準確率分布の関連

Relating the Glauber-Sudarshan, Wigner and Husimi quasiprobability distributions operationally through the quantum limited amplifier and attenuator channels ( http://arxiv.org/abs/2312.08216v1 )

ライセンス: Link先を確認
Tomasz Linowski, {\L}ukasz Rudnicki(参考訳) グラウバー・スダルシャン、ウィグナー、フシミ準確率分布は量子光学において不可欠である。 しかし、それらの間の数学的関係はよく確立されているものの、その運用上の関係についてはあまり知られていない。 本稿では、有限強度量子制限増幅器と減衰器チャネルの1つの構成が雑音付加特性で知られており、任意の入力作用素のグラウバー・スダルシャン分布をウィグナー分布、そのウィグナー分布をフジミ分布に変換することを証明する。 このように、相対的に容易な量子光学実験室で行うことができる検討プロセスは、量子-古典遷移を実現するものとして解釈できる。

The Glauber-Sudarshan, Wigner and Husimi quasiprobability distributions are indispensable tools in quantum optics. However, although mathematical relations between them are well established, not much is known about their operational connection. In this paper, we prove that a single composition of finite-strength quantum limited amplifier and attenuator channels, known for their noise-adding properties, turns the Glauber-Sudarshan distribution of any input operator into its Wigner distribution, and its Wigner distribution into its Husimi distribution. As we dissect, the considered process, which can be performed in a quantum optical laboratory with relative ease, may be interpreted as realizing a quantum-to-classical transition.
翻訳日:2023-12-14 15:01:28 公開日:2023-12-13
# 監視ビデオシステムにおけるイベントベース特徴検出と圧縮の高速化

Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems ( http://arxiv.org/abs/2312.08213v1 )

ライセンス: Link先を確認
Andrew C. Freeman, Ketan Mayer-Patel, Montek Singh(参考訳) 監視ビデオの時間的一貫性が強いため、従来の方法では圧縮性能が向上するが、ダウンストリームビジョンアプリケーションは高いデータレートでデコードされた画像フレームで動作する。 圧縮された映像表現から時間的冗長性に関する情報を抽出するのは簡単ではないため、スパース圧縮された表現内で時間的冗長性を伝える新しいシステムを提案する。 我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。 本稿では、古典視覚アルゴリズムのコンテンツ適応、損失圧縮、非同期形式のメカニズムを紹介する。 VIRAT監視ビデオデータセットを用いて本システムの評価を行い,OpenCVと比較してFAST特徴の検出速度が43.7%向上したことを示す。 OpenCVと同じアルゴリズムを実行していますが、画像フレーム内のすべてのピクセルを処理するのではなく、新しい非同期イベントを受け取るピクセルのみを処理します。 我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。

The strong temporal consistency of surveillance video enables compelling compression performance with traditional methods, but downstream vision applications operate on decoded image frames with a high data rate. Since it is not straightforward for applications to extract information on temporal redundancy from the compressed video representations, we propose a novel system which conveys temporal redundancy within a sparse decompressed representation. We leverage a video representation framework called ADDER to transcode framed videos to sparse, asynchronous intensity samples. We introduce mechanisms for content adaptation, lossy compression, and asynchronous forms of classical vision algorithms. We evaluate our system on the VIRAT surveillance video dataset, and we show a median 43.7% speed improvement in FAST feature detection compared to OpenCV. We run the same algorithm as OpenCV, but only process pixels that receive new asynchronous events, rather than process every pixel in an image frame. Our work paves the way for upcoming neuromorphic sensors and is amenable to future applications with spiking neural networks.
翻訳日:2023-12-14 15:01:14 公開日:2023-12-13
# lamm: マルチモーダルプロンプト学習のためのラベルアライメント

LAMM: Label Alignment for Multi-Modal Prompt Learning ( http://arxiv.org/abs/2312.08212v1 )

ライセンス: Link先を確認
Jingsheng Gao, Jiacheng Ruan, Suncheng Xiang, Zefang Yu, Ke Ji, Mingye Xie, Ting Liu, Yuzhuo Fu(参考訳) 視覚表現タスクにおけるCLIPのような事前学習された視覚言語(VL)モデルの成功により、事前学習されたモデルを下流タスクに転送することが重要なパラダイムとなっている。 近年,自然言語処理(NLP)からインスピレーションを得たプロンプトチューニングパラダイムが,VL分野において大きな進歩を遂げている。 しかし、先行する手法は主にテキストと視覚入力のためのプロンプトテンプレートの構築に重点を置いており、VLモデルと下流タスク間のクラスラベル表現のギャップを無視している。 この課題に対処するために,エンド・ツー・エンドのトレーニングを通じて下流データセットのカテゴリ埋め込みを動的に調整できる,革新的なラベルアライメント手法である \textbf{lamm} を導入する。 さらに,より適切なラベル分布を実現するために,パラメータ空間,特徴空間,ロジット空間のアライメントを含む階層的損失を提案する。 提案手法は,11個のダウンストリームビジョンデータセットを用いて実験を行い,提案手法が既存マルチモーダルプロンプト学習モデルの性能を大幅に向上し,16ショットの最先端手法と比較して平均精度が2.31(\%)向上することを示した。 さらに,本手法は,他手法と比較して連続学習の優位性を示す。 重要なことに,本手法は既存のプロンプトチューニング手法と相乗効果があり,その上で性能を向上させることができる。 私たちのコードとデータセットはhttps://github.com/gaojingsheng/LAMMで公開されます。

With the success of pre-trained visual-language (VL) models such as CLIP in visual representation tasks, transferring pre-trained models to downstream tasks has become a crucial paradigm. Recently, the prompt tuning paradigm, which draws inspiration from natural language processing (NLP), has made significant progress in VL field. However, preceding methods mainly focus on constructing prompt templates for text and visual inputs, neglecting the gap in class label representations between the VL models and downstream tasks. To address this challenge, we introduce an innovative label alignment method named \textbf{LAMM}, which can dynamically adjust the category embeddings of downstream datasets through end-to-end training. Moreover, to achieve a more appropriate label distribution, we propose a hierarchical loss, encompassing the alignment of the parameter space, feature space, and logits space. We conduct experiments on 11 downstream vision datasets and demonstrate that our method significantly improves the performance of existing multi-modal prompt learning models in few-shot scenarios, exhibiting an average accuracy improvement of 2.31(\%) compared to the state-of-the-art methods on 16 shots. Moreover, our methodology exhibits the preeminence in continual learning compared to other prompt tuning methods. Importantly, our method is synergistic with existing prompt tuning methods and can boost the performance on top of them. Our code and dataset will be publicly available at https://github.com/gaojingsheng/LAMM.
翻訳日:2023-12-14 15:00:57 公開日:2023-12-13
# プロジェクション演算子測定による量子コンピューティングの差分プライバシー保護

Differential Privacy Preserving Quantum Computing via Projection Operator Measurements ( http://arxiv.org/abs/2312.08210v1 )

ライセンス: Link先を確認
Yuqing Li, Yusheng Zhao, Xinyue Zhang, Hui Zhong, Miao Pan, Chi Zhang(参考訳) 量子コンピューティングは、量子物理学のシミュレーション、量子機械学習、ビッグデータ分析など、様々な分野に広く適用されている。 しかし、データ駆動パラダイムの領域では、データベースのプライバシを確保する方法が重要な問題になっている。 古典コンピューティングでは、ノイズを手動で追加することで、プライバシー保護の標準を満たすために差分プライバシー(DP)の概念を組み込むことができる。 量子コンピューティングのシナリオでは、研究者は量子ノイズを考慮して古典DPを量子微分プライバシー(QDP)に拡張した。 本稿では,プロジェクション演算子測定によって発生する誤差をショットノイズとして考慮し,QDP定義を満たす新しい手法を提案する。 次に、ショットノイズで達成できるプライバシー予算の量について議論し、プライバシー保護のレベルを測る指標となる。 さらに、分極雑音を伴う量子回路におけるショットノイズのQDPを提供する。 数値シミュレーションにより,量子コンピューティングにおいてショットノイズが効果的にプライバシー保護を提供できることを示す。

Quantum computing has been widely applied in various fields, such as quantum physics simulations, quantum machine learning, and big data analysis. However, in the domains of data-driven paradigm, how to ensure the privacy of the database is becoming a vital problem. For classical computing, we can incorporate the concept of differential privacy (DP) to meet the standard of privacy preservation by manually adding the noise. In the quantum computing scenario, researchers have extended classic DP to quantum differential privacy (QDP) by considering the quantum noise. In this paper, we propose a novel approach to satisfy the QDP definition by considering the errors generated by the projection operator measurement, which is denoted as shot noises. Then, we discuss the amount of privacy budget that can be achieved with shot noises, which serves as a metric for the level of privacy protection. Furthermore, we provide the QDP of shot noise in quantum circuits with depolarizing noise. Through numerical simulations, we show that shot noise can effectively provide privacy protection in quantum computing.
翻訳日:2023-12-14 15:00:30 公開日:2023-12-13
# 多パラメータ複素行列アンサンブルのスペクトルゆらぎ:単一パラメータ依存性の証明

Spectral fluctuations of multi-parametric complex matrix ensembles: evidence of a single parameter dependence ( http://arxiv.org/abs/2312.08203v1 )

ライセンス: Link先を確認
Mohd. Gayas Ansari and Pragya Shukla(参考訳) 平均値がゼロな複素行列のマルチパラメトリックガウスアンサンブルのスペクトル統計と、対角線から離れる異なる減衰経路を持つ分散のスペクトル統計を数値的に解析した。 後者は行列要素間の異なる有効空間の程度を模倣するので、そのようなアンサンブルは、例えば非エルミート系における非エルミート系への局在化や非エルミート系へのエルミート系への非局在化など、幅広い位相遷移のモデルとして機能する。 分析の結果、ポアソンからジニブレの普遍性クラスへのスペクトル統計量の交叉、有限行列サイズのばらつきの変化、無限行列サイズの急激な遷移、および全てのシステムパラメータの単一機能である複雑性パラメータの役割など、スペクトル統計量の下に隠れたリッチな振る舞いが、臨界点を決定する基準として明らかとなった。 また, 複雑性パラメータを特徴とする非エルミート系の非平衡状態におけるスペクトル統計の普遍性について, \cite{psnh} における理論的予測を確認した。

We numerically analyze the spectral statistics of the multiparametric Gaussian ensembles of complex matrices with zero mean and variances with different decay routes away from the diagonals. As the latter mimics different degree of effective sparsity among the matrix elements, such ensembles can serve as good models for a wide range of phase transitions e.g. localization to delocalization in non-Hermitian systems or Hermitian to non-Hermitian one. Our analysis reveals a rich behavior hidden beneath the spectral statistics e.g. a crossover of the spectral statistics from Poisson to Ginibre universality class with changing variances for finite matrix size, an abrupt transition for infinite matrix size and the role of complexity parameter, a single functional of all system parameters, as a criteria to determine critical point. We also confirm the theoretical predictions in \cite{psnh}, regarding the universality of the spectral statistics in non-equilibrium regime of non-Hermitian systems characterized by the complexity parameter.
翻訳日:2023-12-14 15:00:14 公開日:2023-12-13
# SPD-DDPM:対称正定値空間における拡散確率モデル

SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space ( http://arxiv.org/abs/2312.08200v1 )

ライセンス: Link先を確認
Yunchen Li, Zhou Yu, Gaoqi He, Yunhang Shen, Ke Li, Xing Sun, Shaohui Lin(参考訳) 対称正定値~(SPD)行列は、統計学や機械学習、例えばFMRI分析や交通予測において重要な価値と応用を示している。 以前のSPD行列の研究は主に差別モデルに焦点を当てており、予測は$E(X|y)$で直接行われ、$y$はベクトル、$X$はSPD行列である。 しかし、これらの手法はデータ全体にアクセスし処理する必要があるため、大規模なデータを扱うのが難しい。 本稿では,拡散確率モデル~(DDPM)に着想を得て,SPD空間にガウス分布を導入して$E(X|y)$を推定することにより,SPD-DDPMと呼ばれる新しい生成モデルを提案する。 さらに、我々のモデルは$y$を与えることなく、無条件で柔軟に$p(X)$を推定することができる。 一方、モデルは条件付きで$p(X|y)$を学習し、サンプルの平均を利用して予測として$E(X|y)$を得る。 一方、モデルは無条件にデータ$p(x)$の確率分布を学習し、この分布に準拠したサンプルを生成する。 さらに,従来のネットワークよりもはるかに深く,条件要因を組み込むことのできる新しいSPDネットを提案する。 おもちゃのデータと実際のタクシーデータによる実験結果から,モデルが無条件と無条件の両方でデータ分布に効果的に適合し,正確な予測が得られた。

Symmetric positive definite~(SPD) matrices have shown important value and applications in statistics and machine learning, such as FMRI analysis and traffic prediction. Previous works on SPD matrices mostly focus on discriminative models, where predictions are made directly on $E(X|y)$, where $y$ is a vector and $X$ is an SPD matrix. However, these methods are challenging to handle for large-scale data, as they need to access and process the whole data. In this paper, inspired by denoising diffusion probabilistic model~(DDPM), we propose a novel generative model, termed SPD-DDPM, by introducing Gaussian distribution in the SPD space to estimate $E(X|y)$. Moreover, our model is able to estimate $p(X)$ unconditionally and flexibly without giving $y$. On the one hand, the model conditionally learns $p(X|y)$ and utilizes the mean of samples to obtain $E(X|y)$ as a prediction. On the other hand, the model unconditionally learns the probability distribution of the data $p(X)$ and generates samples that conform to this distribution. Furthermore, we propose a new SPD net which is much deeper than the previous networks and allows for the inclusion of conditional factors. Experiment results on toy data and real taxi data demonstrate that our models effectively fit the data distribution both unconditionally and unconditionally and provide accurate predictions.
翻訳日:2023-12-14 14:59:53 公開日:2023-12-13
# 主観的マルチタスクNLP問題に対するモデルベースデータ獲得に向けて

Towards Model-Based Data Acquisition for Subjective Multi-Task NLP Problems ( http://arxiv.org/abs/2312.08198v1 )

ライセンス: Link先を確認
Kamil Kanclerz, Julita Bielaniewicz, Marcin Gruza, Jan Kocon, Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko(参考訳) 人間によって注釈付けされたデータは、問題の特異性を記述することによって知識の源であり、したがって訓練されたモデルの決定プロセスを促進する。 残念ながら、攻撃性や感情検出といった主観的自然言語処理(NLP)問題に対するアノテーションプロセスは非常に高価で時間を要することが多い。 避けられないリスクの1つは、特定のタスクに関する追加の知識を提供しないアノテーションに資金と注釈の努力を費やすことである。 これらのコストを最小限に抑えるために,マルチタスクシナリオにおける各テキストに対して個別にアノテートされたタスクの選択を可能にする,新しいモデルベースアプローチを提案する。 実験では3つのデータセット,数十のNLPタスク,数千のアノテーションを用いて,知識の喪失を無視できるアノテーションの数を最大40%削減できることを示す。 また,アノテーションタスクの主観性に応じて,モデルの効率的なトレーニングに必要な多種多様なデータ収集の必要性も強調した。 また,単タスクシナリオとマルチタスクシナリオにおけるモデル評価による主観的タスク間関係の測定にも焦点を当てた。 また,いくつかのデータセットでは,モデルが予測するラベルのみを学習することで,自己教師付き学習正規化手法としてのタスク選択の効率が向上した。

Data annotated by humans is a source of knowledge by describing the peculiarities of the problem and therefore fueling the decision process of the trained model. Unfortunately, the annotation process for subjective natural language processing (NLP) problems like offensiveness or emotion detection is often very expensive and time-consuming. One of the inevitable risks is to spend some of the funds and annotator effort on annotations that do not provide any additional knowledge about the specific task. To minimize these costs, we propose a new model-based approach that allows the selection of tasks annotated individually for each text in a multi-task scenario. The experiments carried out on three datasets, dozens of NLP tasks, and thousands of annotations show that our method allows up to 40% reduction in the number of annotations with negligible loss of knowledge. The results also emphasize the need to collect a diverse amount of data required to efficiently train a model, depending on the subjectivity of the annotation task. We also focused on measuring the relation between subjective tasks by evaluating the model in single-task and multi-task scenarios. Moreover, for some datasets, training only on the labels predicted by our model improved the efficiency of task selection as a self-supervised learning regularization technique.
翻訳日:2023-12-14 14:59:23 公開日:2023-12-13
# 大規模拡散前の概念中心のパーソナライゼーション

Concept-centric Personalization with Large-scale Diffusion Priors ( http://arxiv.org/abs/2312.08195v1 )

ライセンス: Link先を確認
Pu Cao, Lu Yang, Feng Zhou, Tianrui Huang, Qing Song(参考訳) 大規模な拡散モデルは多様なオープンワールドコンテンツを生成する能力が高いが、コンセプト固有のジェネレータのフォトリアリズムと忠実さに相応しい。 本稿では,概念中心のパーソナライゼーションとして,特定の概念に対する大規模拡散優先をカスタマイズするタスクを提案する。 私たちの目標は、オープンワールドモデルに固有の多彩な制御性を維持しつつ、高品質なコンセプト中心のイメージを生成し、概念中心のスタイライゼーションや画像翻訳といったさまざまなタスクでアプリケーションを可能にすることです。 これらの課題に対処するために、拡散前の誘導予測の破滅的な忘れを基本課題として挙げる。 そこで我々は,この課題に特化するためのガイダンス分離型パーソナライズフレームワークを開発した。 本稿では,フレームワークの基本理論として一般化分類器フリーガイダンス(GCFG)を提案する。 このアプローチは、様々な条件やモデルから得られる任意の数のガイダンスに対応するために、分類器フリーガイダンス(CFG)を拡張する。 GCFGを利用することで、条件付きガイダンスを2つの異なるコンポーネント、すなわち、忠実性のための概念ガイダンスと制御可能性のための制御ガイダンスに分けることができる。 この部門は、制御と無条件誘導の両方をそのまま維持しながら、コンセプトガイダンスのための特別なモデルを訓練することができる。 次に,テキストアノテーションを必要とせずに概念指導を学ぶための概念特定生成器として,ヌルテキスト概念中心拡散モデルを提案する。 コードはhttps://github.com/PRIV-Creation/Concept-centric-Personalizationで入手できる。

Despite large-scale diffusion models being highly capable of generating diverse open-world content, they still struggle to match the photorealism and fidelity of concept-specific generators. In this work, we present the task of customizing large-scale diffusion priors for specific concepts as concept-centric personalization. Our goal is to generate high-quality concept-centric images while maintaining the versatile controllability inherent to open-world models, enabling applications in diverse tasks such as concept-centric stylization and image translation. To tackle these challenges, we identify catastrophic forgetting of guidance prediction from diffusion priors as the fundamental issue. Consequently, we develop a guidance-decoupled personalization framework specifically designed to address this task. We propose Generalized Classifier-free Guidance (GCFG) as the foundational theory for our framework. This approach extends Classifier-free Guidance (CFG) to accommodate an arbitrary number of guidances, sourced from a variety of conditions and models. Employing GCFG enables us to separate conditional guidance into two distinct components: concept guidance for fidelity and control guidance for controllability. This division makes it feasible to train a specialized model for concept guidance, while ensuring both control and unconditional guidance remain intact. We then present a null-text Concept-centric Diffusion Model as a concept-specific generator to learn concept guidance without the need for text annotations. Code will be available at https://github.com/PRIV-Creation/Concept-centric-Personalization.
翻訳日:2023-12-14 14:58:46 公開日:2023-12-13
# SVInvNet:地震波速度インバージョンのための密結合エンコーダデコーダアーキテクチャ

SVInvNet: A Densely Connected Encoder-Decoder Architecture for Seismic Velocity Inversion ( http://arxiv.org/abs/2312.08194v1 )

ライセンス: Link先を確認
Mojtaba Najafi Khatounabad, Hacer Yalim Keles, Selma Kadioglu(参考訳) 本研究では,地震波速度インバージョン問題に対する深層学習に基づくアプローチを提案する。 我々の地震波速度インバージョンネットワーク(SVInvNet)は、高密度ブロックで強化されたマルチコネクションエンコーダデコーダ構造を含む新しいアーキテクチャを導入している。 この設計は複雑な情報を効果的に処理するために特に調整されており、非線形地震波速度反転の課題に対処するのに不可欠である。 トレーニングとテストのために,多層,欠陥,塩ドームを含む多様な地震波速度モデルを構築した。 また,環境騒音の種類,コヒーレントおよび確率的,トレーニングデータセットのサイズが学習結果に与える影響についても検討した。 svinvnetは750から6000のサンプルのデータセットでトレーニングされ、12,000のサンプルからなる大規模なベンチマークデータセットを使ってテストされる。 SVInvNetはベースラインに比べてパラメータが小さいが、このデータセットでは優れたパフォーマンスを実現している。 SVInvNetの結果はFull Waveform Inversion (FWI)法と比較される。 比較分析の結果,提案モデルの有効性が明らかとなった。

This study presents a deep learning-based approach to seismic velocity inversion problem, focusing on both noisy and noiseless training datasets of varying sizes. Our Seismic Velocity Inversion Network (SVInvNet) introduces a novel architecture that contains a multi-connection encoder-decoder structure enhanced with dense blocks. This design is specifically tuned to effectively process complex information, crucial for addressing the challenges of non-linear seismic velocity inversion. For training and testing, we created diverse seismic velocity models, including multi-layered, faulty, and salt dome categories. We also investigated how different kinds of ambient noise, both coherent and stochastic, and the size of the training dataset affect learning outcomes. SVInvNet is trained on datasets ranging from 750 to 6,000 samples and is tested using a large benchmark dataset of 12,000 samples. Despite its fewer parameters compared to the baseline, SVInvNet achieves superior performance with this dataset. The outcomes of the SVInvNet are additionally compared to those of the Full Waveform Inversion (FWI) method. The comparative analysis clearly reveals the effectiveness of the proposed model.
翻訳日:2023-12-14 14:58:06 公開日:2023-12-13
# 糖尿病網膜症検出のためのユニバーサル・アドバーサリー・フレームワーク

Universal Adversarial Framework to Improve Adversarial Robustness for Diabetic Retinopathy Detection ( http://arxiv.org/abs/2312.08193v1 )

ライセンス: Link先を確認
Samrat Mukherjee, Dibyanayan Bandyopadhyay, Baban Gain, Asif Ekbal(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、糖尿病に合併した疾患である。 深層学習に基づくシステムは、臨床診断の自動化支援として徐々に導入されている。 医療は常に極めて重要なドメインであり、エラーのないパフォーマンスを要求するため、いかなる敵もシステムの適用性に大きな脅威となる可能性がある。 本研究では,DR検出のための医用深部ニューラルネットワーク(DNN)の脆弱性を定量化するために,UAP(Universal Adversarial Perturbations)を用いている。 また、この研究の一環として、トレーニングされたモデルの微調整にUAPを使用し、敵のサンプルを防御します。 我々はいくつかのモデルで実験を行い、不審な敵攻撃に対するそのようなモデルの性能が平均3.41ドルコーエンカッパ値、最大31.92ドルコーエンカッパ値で向上することを示した。 微調整モデルによる正規データの性能劣化は, t-test を用いて統計的に重要ではなく, UAP を用いた逆微調整の利点を強調した。

Diabetic Retinopathy (DR) is a prevalent illness associated with Diabetes which, if left untreated, can result in irreversible blindness. Deep Learning based systems are gradually being introduced as automated support for clinical diagnosis. Since healthcare has always been an extremely important domain demanding error-free performance, any adversaries could pose a big threat to the applicability of such systems. In this work, we use Universal Adversarial Perturbations (UAPs) to quantify the vulnerability of Medical Deep Neural Networks (DNNs) for detecting DR. To the best of our knowledge, this is the very first attempt that works on attacking complete fine-grained classification of DR images using various UAPs. Also, as a part of this work, we use UAPs to fine-tune the trained models to defend against adversarial samples. We experiment on several models and observe that the performance of such models towards unseen adversarial attacks gets boosted on average by $3.41$ Cohen-kappa value and maximum by $31.92$ Cohen-kappa value. The performance degradation on normal data upon ensembling the fine-tuned models was found to be statistically insignificant using t-test, highlighting the benefits of UAP-based adversarial fine-tuning.
翻訳日:2023-12-14 14:57:04 公開日:2023-12-13
# 共形接合における熱的絡み合い

Thermal entanglement in conformal junctions ( http://arxiv.org/abs/2312.08275v1 )

ライセンス: Link先を確認
Luca Capizzi, Andrei Rotaru(参考訳) 1+1次元境界共形場理論(BCFT)により記述される量子接合を考える。 解析は, 絡み合いの計算によって達成される有限温度での相関に着目した。 提案手法は,BCFT法によるツイスト場の相関関数の特徴付けに依存する。 我々は,低温と高温の交叉を非摂動予測する。 上記フィールドのバルク/境界スケーリング次元に関連するバルク効果と境界効果の興味深い相互作用が発見された。 特に、絡み合いエントロピーは、主にバルク熱ゆらぎの影響を受けており、欠陥の散乱特性に依存せず、大きなシステムサイズに対して広範囲性を示す。 対照的に、負性は絡み合う点のみのゆらぎによって支配され、その値は欠陥に非自明に依存し、温度が低下するにつれて対数的に発散する。 予測を検証するため,格子上の自由フェルミオンを数値的に検証し,良好な一致を求める。

We consider a quantum junction described by a 1+1-dimensional boundary conformal field theory (BCFT). Our analysis focuses on correlations emerging at finite temperature, achieved through the computation of entanglement measures. Our approach relies on characterizing correlation functions of twist fields using BCFT techniques. We provide non-perturbative predictions for the crossover between low and high temperatures. An intriguing interplay between bulk and boundary effects, associated with the bulk/boundary scaling dimensions of the fields above, is found. In particular, the entanglement entropy is primarily influenced by bulk thermal fluctuations, exhibiting extensiveness for large system sizes with a prefactor independent of the scattering properties of the defect. In contrast, negativity is governed by fluctuations across the entangling points only, adhering to an area law; its value depends non-trivially on the defect, and it diverges logarithmically as the temperature is decreased. To validate our predictions, we numerically check them for free fermions on the lattice, finding good agreement.
翻訳日:2023-12-14 14:50:46 公開日:2023-12-13
# 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出

High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models ( http://arxiv.org/abs/2312.08274v1 )

ライセンス: Link先を確認
Songchi Zhou, Sheng Yu(参考訳) 目的:大規模言語モデル(llms)の読解能力と生物医学的世界知識をスケーラブルかつ実証的に活用した高スループットな生物医学的関係抽出システムを開発すること。 方法:ChatGPTのような大規模言語モデルの単純なバイナリ分類問題として関係抽出タスクを定式化する。 具体的には、llmは、外部コーパスとその世界知識に基づいて意思決定を行い、事実検証への判断の理由を与える。 本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。 さらに、長い内容はテキストチャンクに分割して埋め込み、追加の埋め込みモデルで検索し、利用可能なオープンソースLCMのコンテキストウィンドウサイズ制約との互換性を確保する。 結果: オープンソースのLCMを用いて, 4つのバイオメディカルウェブサイトから, 3つの異なる関係型の304315の関連トリプレットを抽出した。 バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。 評価の結果,パイプラインはGPT-4に匹敵する性能を示した。 半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。 結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に有効であることを示す。 多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、様々な生物医学関係の抽出を容易にするので、適応性は明らかである。

Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models' (LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as a simple binary classification problem for large language models such as ChatGPT. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment to factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models, ensuring compatibility with the context window size constraints of available open-source LLMs. Results: Using an open-source LLM, we extracted 304315 relation triplets of three distinct relation types from four reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease.
翻訳日:2023-12-14 14:50:28 公開日:2023-12-13
# マルチリゾリューションデフォルマブルアテンションとクエリアグリゲーションを用いた効率的なマルチオブジェクトポーズ推定

Efficient Multi-Object Pose Estimation using Multi-Resolution Deformable Attention and Query Aggregation ( http://arxiv.org/abs/2312.08268v1 )

ライセンス: Link先を確認
Arul Selvam Periyasamy, Vladimir Tsaturyan, Sven Behnke(参考訳) オブジェクトのポーズ推定はコンピュータビジョンにおける長年の問題である。 近年,多くのコンピュータビジョン応用において注目型視覚変換器モデルが最先端の成果を上げている。 アテンション機構の置換不変性を利用して、視覚トランスフォーマーのファミリーは、集合予測問題として多目的ポーズ推定を定式化する。 しかし、マルチオブジェクトポーズ推定のための既存のビジョントランスフォーマーモデルは注意機構にのみ依存している。 一方、畳み込みニューラルネットワークは、そのアーキテクチャに様々な帰納的バイアスをハードワイヤ化する。 本稿では,多目的ポーズ推定のための視覚トランスフォーマーモデルに帰納バイアスを組み込むことで,コストのかかるグローバルな注意を回避しつつ,長距離依存の学習を容易にする。 特にマルチレゾリューションの変形可能な注意(英語版)を用い、いくつかの変形した参照点間でのみ注意操作を行う。 さらに,計算複雑性を増大させることなく,オブジェクトクエリ数を増大させるクエリ集約機構を提案する。 課題となるYCB-Videoデータセットについて提案したモデルを評価し,その結果を報告する。

Object pose estimation is a long-standing problem in computer vision. Recently, attention-based vision transformer models have achieved state-of-the-art results in many computer vision applications. Exploiting the permutation-invariant nature of the attention mechanism, a family of vision transformer models formulate multi-object pose estimation as a set prediction problem. However, existing vision transformer models for multi-object pose estimation rely exclusively on the attention mechanism. Convolutional neural networks, on the other hand, hard-wire various inductive biases into their architecture. In this paper, we investigate incorporating inductive biases in vision transformer models for multi-object pose estimation, which facilitates learning long-range dependencies while circumventing the costly global attention. In particular, we use multi-resolution deformable attention, where the attention operation is performed only between a few deformed reference points. Furthermore, we propose a query aggregation mechanism that enables increasing the number of object queries without increasing the computational complexity. We evaluate the proposed model on the challenging YCB-Video dataset and report state-of-the-art results.
翻訳日:2023-12-14 14:49:58 公開日:2023-12-13
# TABSurfer: 皮質下セグメンテーションのためのハイブリッドディープラーニングアーキテクチャ

TABSurfer: a Hybrid Deep Learning Architecture for Subcortical Segmentation ( http://arxiv.org/abs/2312.08267v1 )

ライセンス: Link先を確認
Aaron Cao, Vishwanatha M. Rao, Kejia Liu, Xinru Liu, Andrew F. Laine, Jia Guo(参考訳) 脳MRIスキャンの定量的構造解析に重要な応用があるにもかかわらず、皮質下セグメンテーションは依然として困難である。 最も正確な方法は手動セグメンテーションであり、非常に労力がかかるため、freesurferのような自動化ツールがこのタスクに採用されている。 しかし、これらの従来のパイプラインは大きなデータセットを処理するのに遅くて非効率です。 本研究では,新しい3DパッチベースのCNN-TransformerハイブリッドディープラーニングモデルであるTABSurferを提案する。 評価のために、まず、さまざまなT1w MRIデータセットにまたがるTABSurferの一貫性性能を、FreeSurferと比較して大幅に短い処理時間で示す。 そして、手動セグメンテーションに対して検証を行い、TABSurferは手動地上真実に基づいてFreeSurferより優れています。 各テストでは、主要なディープラーニングベンチマークであるFastSurferVINNに対して、TABSurferの優位性を確立する。 これらの研究は、TABSurferの高忠実度で完全自動化された皮質下セグメンテーションのための強力なツールとしての有用性を強調した。

Subcortical segmentation remains challenging despite its important applications in quantitative structural analysis of brain MRI scans. The most accurate method, manual segmentation, is highly labor intensive, so automated tools like FreeSurfer have been adopted to handle this task. However, these traditional pipelines are slow and inefficient for processing large datasets. In this study, we propose TABSurfer, a novel 3D patch-based CNN-Transformer hybrid deep learning model designed for superior subcortical segmentation compared to existing state-of-the-art tools. To evaluate, we first demonstrate TABSurfer's consistent performance across various T1w MRI datasets with significantly shorter processing times compared to FreeSurfer. Then, we validate against manual segmentations, where TABSurfer outperforms FreeSurfer based on the manual ground truth. In each test, we also establish TABSurfer's advantage over a leading deep learning benchmark, FastSurferVINN. Together, these studies highlight TABSurfer's utility as a powerful tool for fully automated subcortical segmentation with high fidelity.
翻訳日:2023-12-14 14:49:42 公開日:2023-12-13
# emph{lifted} rdtによる1-hidden layer treelike \emph{sign} perceptronsニューラルネットワークのキャパシティ解析

\emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike \emph{sign} perceptrons neural networks ( http://arxiv.org/abs/2312.08257v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 本稿では,多層型 \emph{sign} Perceptrons Neural Network (SPNN) の記憶機能について考察する。 Random Duality Theory (RDT) を用いて \cite{Stojnictcmspnncaprdt23} で得られた最近の厳密な上界キャパシティ特性は、ネットワーク構成にニューロンを追加することが本当に有益であることを示した。 さらに、隠された層に$d\leq 5$のニューロンを持つ特定の \emph{treelike Committee Machine} (TCM) アーキテクチャに対して、 \cite{Stojnictcmspnncaprdt23} は、これまで最もよく知られた容量境界を下げることにより、30年以上で初めて数学的に厳密な進歩を行った。 ここでは、 RDT 境界が \cite{Stojnictcmspnncaprdt23} スケールから $\sim \sqrt{d}$ と定義され、($d$の全範囲にわたって) 自身の \emph{universally} では、最もよく知られた $\sim \log(d)$ のスケーリングを \cite{MitchDurb89} から行うことができない。 したがって、 \cite{Stojnictcmspnncaprdt23} の進行は有望であるが、完全な包括化がなければ、最近開発された完全持ち上げ RDT (fl RDT) を代替として検討する。 fl RDTは確かに強力なジャガーノートだが、通常は重い数値評価に依存している。 このような重い数値を避けるため、我々は単純化された変種である 'emph{partially lifted} に注目し、非常に巧妙でクローズドな形式、分析能力のキャラクタリゼーションを可能にすることを示す。 さらに、最もよく知られた \cite{MitchDurb89} 上の \emph{any} $d$ に対して \emph{universally} が改善する具体的な容量境界を得る。

We consider the memorization capabilities of multilayered \emph{sign} perceptrons neural networks (SPNNs). A recent rigorous upper-bounding capacity characterization, obtained in \cite{Stojnictcmspnncaprdt23} utilizing the Random Duality Theory (RDT), demonstrated that adding neurons in a network configuration may indeed be very beneficial. Moreover, for particular \emph{treelike committee machines} (TCM) architectures with $d\leq 5$ neurons in the hidden layer, \cite{Stojnictcmspnncaprdt23} made a very first mathematically rigorous progress in over 30 years by lowering the previously best known capacity bounds of \cite{MitchDurb89}. Here, we first establish that the RDT bounds from \cite{Stojnictcmspnncaprdt23} scale as $\sim \sqrt{d}$ and can not on their own \emph{universally} (over the entire range of $d$) beat the best known $\sim \log(d)$ scaling of the bounds from \cite{MitchDurb89}. After recognizing that the progress from \cite{Stojnictcmspnncaprdt23} is therefore promising, but yet without a complete concretization, we then proceed by considering the recently developed fully lifted RDT (fl RDT) as an alternative. While the fl RDT is indeed a powerful juggernaut, it typically relies on heavy numerical evaluations. To avoid such heavy numerics, we here focus on a simplified, \emph{partially lifted}, variant and show that it allows for very neat, closed form, analytical capacity characterizations. Moreover, we obtain the concrete capacity bounds that \emph{universally} improve for \emph{any} $d$ over the best known ones of \cite{MitchDurb89}.
翻訳日:2023-12-14 14:49:25 公開日:2023-12-13
# 縮小・制御可能な画像編集のためのコンパクトでセマンティックな潜在空間

A Compact and Semantic Latent Space for Disentangled and Controllable Image Editing ( http://arxiv.org/abs/2312.08256v1 )

ライセンス: Link先を確認
Gwilherm Lesn\'e, Yann Gousseau, Sa\"id Ladjal, Alasdair Newson(参考訳) 生成モデルと特にgans(generative adversarial network)の分野における最近の進歩は、特に深層学習以前の時代と比較して、画像編集の制御が大幅に進歩している。 画像に現実的な修正を施す能力は強かったが、これらの方法にはしばしば絡み合い(属性を個別に編集する能力)のような特性が欠けている。 本稿では,スタイルガンの潜在空間を再編成する自動エンコーダを提案し,我々が編集したい各属性が新たな潜在空間の軸に対応し,さらに潜在軸が非相関であり,絡み合いを助長する。 我々は、主成分分析を用いて、潜在空間の圧縮バージョンで作業し、オートエンコーダのパラメータの複雑さを減らし、短いトレーニング時間(45分)に繋がる。 定性的かつ定量的な結果は,同一性に関して元の画像への忠実さを維持しつつ,競合する手法よりも大きな歪みを伴って,我々のアプローチの編集能力を示すものである。 私たちのautoencoderアーキテクチャはシンプルで簡単な実装です。

Recent advances in the field of generative models and in particular generative adversarial networks (GANs) have lead to substantial progress for controlled image editing, especially compared with the pre-deep learning era. Despite their powerful ability to apply realistic modifications to an image, these methods often lack properties like disentanglement (the capacity to edit attributes independently). In this paper, we propose an auto-encoder which re-organizes the latent space of StyleGAN, so that each attribute which we wish to edit corresponds to an axis of the new latent space, and furthermore that the latent axes are decorrelated, encouraging disentanglement. We work in a compressed version of the latent space, using Principal Component Analysis, meaning that the parameter complexity of our autoencoder is reduced, leading to short training times ($\sim$ 45 mins). Qualitative and quantitative results demonstrate the editing capabilities of our approach, with greater disentanglement than competing methods, while maintaining fidelity to the original image with respect to identity. Our autoencoder architecture simple and straightforward, facilitating implementation.
翻訳日:2023-12-14 14:48:38 公開日:2023-12-13
# OCTDL:画像に基づく深層学習のための光コヒーレンストモグラフィデータセット

OCTDL: Optical Coherence Tomography Dataset for Image-Based Deep Learning Methods ( http://arxiv.org/abs/2312.08255v1 )

ライセンス: Link先を確認
Mikhail Kulyabin, Aleksei Zhdanov, Anastasia Nikiforova, Andrey Stepichev, Anna Kuznetsova, Mikhail Ronkin, Vasilii Borisov, Alexander Bogachev, Sergey Korotkich, Paul A Constable, and Andreas Maier(参考訳) 光コヒーレンス断層撮影(OCT)は、眼科領域に広く応用された非侵襲的イメージング技術である。 OCTは網膜層の可視化を可能にし、網膜疾患の早期発見とモニタリングにおいて重要な役割を果たす。 octは、光干渉の原理を用いて網膜の微細構造の詳細な画像を作成し、眼の状態の診断に有用である。 本研究は,1600以上の高分解能CT画像からなるオープンアクセスOCTデータセット(OCTDL)を提案する。 このデータセットは、加齢関連黄斑変性症(AMD)、糖尿病黄斑浮腫(DME)、網膜膜(ERM)、網膜動脈閉塞症(RAO)、網膜静脈閉塞症(RVO)、およびVID患者のOCT記録からなる。 これらの画像は、動的スキャン長と画像解像度を持つラスタ走査プロトコルを用いて、Optovue Avanti RTVue XRで取得された。 各網膜b-scanはfoveaを中心に獲得され、経験豊富な網膜スペシャリストによって解釈されカタログ化されている。 本研究では,この新しいオープンアクセスデータセットにディープラーニング分類手法を適用した。

Optical coherence tomography (OCT) is a non-invasive imaging technique with extensive clinical applications in ophthalmology. OCT enables the visualization of the retinal layers, playing a vital role in the early detection and monitoring of retinal diseases. OCT uses the principle of light wave interference to create detailed images of the retinal microstructures, making it a valuable tool for diagnosing ocular conditions. This work presents an open-access OCT dataset (OCTDL) comprising over 1600 high-resolution OCT images labeled according to disease group and retinal pathology. The dataset consists of OCT records of patients with Age-related Macular Degeneration (AMD), Diabetic Macular Edema (DME), Epiretinal Membrane (ERM), Retinal Artery Occlusion (RAO), Retinal Vein Occlusion (RVO), and Vitreomacular Interface Disease (VID). The images were acquired with an Optovue Avanti RTVue XR using raster scanning protocols with dynamic scan length and image resolution. Each retinal b-scan was acquired by centering on the fovea and interpreted and cataloged by an experienced retinal specialist. In this work, we applied Deep Learning classification techniques to this new open-access dataset.
翻訳日:2023-12-14 14:48:17 公開日:2023-12-13
# 室温炭化ケイ素メーザー:量子増幅と冷却を披露

Room-Temperature Silicon Carbide Maser: Unveiling Quantum Amplification and Cooling ( http://arxiv.org/abs/2312.08251v1 )

ライセンス: Link先を確認
Andreas Gottscholl, Maximilian Wagenh\"ofer, Valentin Baianov, Vladimir Dyakonov, Andreas Sperlich(参考訳) 4H炭化ケイ素 (SiC) 内におけるシリコン空孔(VSi)を利用したメーザーの最初の実演を行った。 革新的なフィードバックループ技術を利用して、共振器の品質係数を高め、室温以上でもメーザー動作を可能にする。 sicメーザーの幅広線幅は例外的な予増幅器としての可能性を示し、10dbを超える測定利得と30dbを超える増幅を示すシミュレーションを示す。 SiCのVSiの比較的小さなゼロフィールド分割(ZFS)を利用することで、増幅器は光ポンピングされたマイクロ波光子吸収器に切り替えることができ、動作条件下では共振器のモード温度を35K削減できる。 このブレークスルーは、量子コンピューティングの進歩とキャビティ量子電気力学の基礎研究に期待を持てる。 本研究は, SiCのマイクロ波技術の革新的可能性を示すものである。

We present the very first demonstration of a maser utilizing silicon vacancies (VSi) within 4H silicon carbide (SiC). Leveraging an innovative feedback-loop technique, we elevate the resonator's quality factor, enabling maser operation even above room temperature. The SiC maser's broad linewidth showcases its potential as an exceptional preamplifier, displaying measured gain surpassing 10dB and simulations indicating potential amplification exceeding 30dB. By exploiting the relatively small zero-field splitting (ZFS) of VSi in SiC, the amplifier can be switched into an optically-pumped microwave photon absorber, reducing the resonator's mode temperature by 35 K below operating conditions. This breakthrough holds promise for quantum computing advancements and fundamental studies in cavity quantum electrodynamics. Our findings highlight SiC's transformative potential in revolutionizing contemporary microwave technologies.
翻訳日:2023-12-14 14:47:55 公開日:2023-12-13
# インテリジェントトランスポートシステムのための生成AIに関する調査

A Survey of Generative AI for Intelligent Transportation Systems ( http://arxiv.org/abs/2312.08248v1 )

ライセンス: Link先を確認
Huan Yan and Yong Li(参考訳) インテリジェント交通システムは交通管理と最適化において重要な役割を担い、交通効率と安全性を大幅に向上させる。 画像生成と自然言語処理の分野における生成人工知能(Generative AI)技術の急速な発展に伴い、生成AIは、データ空間、異常シナリオの観察の難しさ、データ不確実性のモデル化など、インテリジェントな輸送システムにおける重要な問題に対処する上でも重要な役割を担っている。 本稿では,知的輸送システムにおける様々なタスクにおける重要な問題に対処する上で,生成AI技術に関する文献を体系的に検討する。 まず、異なる生成AI技術の原則とその潜在的な応用について紹介する。 次に,知的交通システムのタスクを,交通知覚,交通予測,交通シミュレーション,交通意思決定の4つのタイプに分類する。 我々は、これらの4種類のタスクにおいて、生成AI技術がどのように重要な問題に対処するかを体系的に説明する。 最後に、インテリジェントトランスポートシステムに生成AIを適用する際の課題を要約し、異なるアプリケーションシナリオに基づいて将来の研究方向性について議論する。

Intelligent transportation systems play a crucial role in modern traffic management and optimization, greatly improving traffic efficiency and safety. With the rapid development of generative artificial intelligence (Generative AI) technologies in the fields of image generation and natural language processing, generative AI has also played a crucial role in addressing key issues in intelligent transportation systems, such as data sparsity, difficulty in observing abnormal scenarios, and in modeling data uncertainty. In this review, we systematically investigate the relevant literature on generative AI techniques in addressing key issues in different types of tasks in intelligent transportation systems. First, we introduce the principles of different generative AI techniques, and their potential applications. Then, we classify tasks in intelligent transportation systems into four types: traffic perception, traffic prediction, traffic simulation, and traffic decision-making. We systematically illustrate how generative AI techniques addresses key issues in these four different types of tasks. Finally, we summarize the challenges faced in applying generative AI to intelligent transportation systems, and discuss future research directions based on different application scenarios.
翻訳日:2023-12-14 14:47:40 公開日:2023-12-13
# 木状標識の容量は1つの隠れ層を持つニューラルネットワークを知覚する -- RDT に基づく上界

Capacity of the treelike sign perceptrons neural networks with one hidden layer -- RDT based upper bounds ( http://arxiv.org/abs/2312.08244v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 本稿では,ニューラルネットワーク(SPNN)の能力について検討し,特にTCMアーキテクチャに焦点をあてる。 単一パーセプトロンニューロンの場合と同様に、統計的には、複数の \emph{sign} パーセプトロンからなる対応する多層ネットワークアーキテクチャの容量も、いわゆる位相遷移(pt)現象の下にあることが分かる。 これが意味する。 i) 入力データセットの \emph{all} 要素を正確に記憶するために、特定のシステムパラメータ(データのサイズ、ニューロン数)に対して、ネットワークを適切に訓練することができる。 (二)そのような訓練は地域外にはない。 明らかに、これらの領域を分離する相転移曲線を決定することは異例の課題であり、ネットワークの性能に関する最も基本的な問題である。 ランダム双対性理論 (rdt) と呼ばれる強力な数学エンジンを用いて, 1-隠れ層 tcm spnn の上限を決定する汎用フレームワークを構築した。 さらに、ニューロンの数(odd)が与えられた 'emph{any} に対しても同様である。 さらに, 得られた結果は, \cite{ektvz92,bhs92} のレプリカ対称性予測と一致し, 統計物理学に基づく結果は, 優れた推定値だけでなく, 数学的に厳密な境界でもあることを証明した。 さらに、$d\leq 5$ の場合、最もよく知られた \cite{MitchDurb89} の厳密な値を改善するキャパシティ値を得る。

We study the capacity of \emph{sign} perceptrons neural networks (SPNN) and particularly focus on 1-hidden layer \emph{treelike committee machine} (TCM) architectures. Similarly to what happens in the case of a single perceptron neuron, it turns out that, in a statistical sense, the capacity of a corresponding multilayered network architecture consisting of multiple \emph{sign} perceptrons also undergoes the so-called phase transition (PT) phenomenon. This means: (i) for certain range of system parameters (size of data, number of neurons), the network can be properly trained to accurately memorize \emph{all} elements of the input dataset; and (ii) outside the region such a training does not exist. Clearly, determining the corresponding phase transition curve that separates these regions is an extraordinary task and among the most fundamental questions related to the performance of any network. Utilizing powerful mathematical engine called Random Duality Theory (RDT), we establish a generic framework for determining the upper bounds on the 1-hidden layer TCM SPNN capacity. Moreover, we do so for \emph{any} given (odd) number of neurons. We further show that the obtained results \emph{exactly} match the replica symmetry predictions of \cite{EKTVZ92,BHS92}, thereby proving that the statistical physics based results are not only nice estimates but also mathematically rigorous bounds as well. Moreover, for $d\leq 5$, we obtain the capacity values that improve on the best known rigorous ones of \cite{MitchDurb89}, thereby establishing a first, mathematically rigorous, progress in well over 30 years.
翻訳日:2023-12-14 14:47:20 公開日:2023-12-13
# 量子場のリサイクリングと単一量子ビット回転に対する最適状態

Recycling of a quantum field and optimal states for single-qubit rotations ( http://arxiv.org/abs/2312.08242v1 )

ライセンス: Link先を確認
Shanon Vuglar and Julio Gea-Banacloche(参考訳) ブロッホ球面上の特定の状態から2段階の原子の正確な回転(エンタングルメントおよびエラーフリー)を行うことのできる量子化場状態の族を導入する。 これらの状態と最近導入された「トランスコヒーレントな状態」の類似性と相違について論じる。 我々の場状態は、それらが回転の後に不変に残される性質を持ち、それらは磁場が同一に合成された環状原子の置換と相互作用するときに得られる漸近状態である。 このようなスキームは、[npj量子情報3:17 (2017)]2レベル原子との相互作用後にフィールド状態を「記憶」し、その後に再利用することで、連続する量子論理演算のエネルギー要件を減少させる方法として最近提案された。 このスキームを一般化し、任意の回転に最適なパルスを求めるとともに、純粋な状態ではなく混合状態のアシラがどうなるかを解析的に研究する。 原案の数値的な結果と一致して、アンシラ準備誤差が小さい限り(1/\bar n$、ここで$\bar n$は検討されたパルス中の原子の平均数)、復元されたパルスの性能に高次誤差のみをもたらす。

We introduce a family of quantized field states that can perform exact (entanglement- and error-free) rotations of a two-level atom starting from a specific state on the Bloch sphere. We discuss the similarities and differences between these states and the recently-introduced "transcoherent states." Our field states have the property that they are left unchanged after the rotation, and we find they are the asymptotic states obtained when a field interacts with a succession of identically prepared ancillary atoms. Such a scheme was recently proposed [npj Quantum Information 3:17 (2017)] as a way to "restore" a field state after its interaction with a two-level atom, so as to reuse it afterwards, thus reducing the energy requirements for successive quantum logical operations. We generalize this scheme to find optimal pulses for arbitrary rotations, and also study analytically what happens if the ancillas are in a mixed, rather than a pure state. Consistent with the numerical results in the original proposal, we find that as long as the ancilla preparation error is small (of the order of $1/\bar n$, where $\bar n$ is the average number of atoms in the pulses considered) it will introduce only higher-order errors in the performance of the restored pulse.
翻訳日:2023-12-14 14:46:45 公開日:2023-12-13
# CenterGrasp:同時形状再構成と6-DoFグラフ推定のためのオブジェクト認識命令表現学習

CenterGrasp: Object-Aware Implicit Representation Learning for Simultaneous Shape Reconstruction and 6-DoF Grasp Estimation ( http://arxiv.org/abs/2312.08240v1 )

ライセンス: Link先を確認
Eugenio Chisari, Nick Heppert, Tim Welschehold, Wolfram Burgard, Abhinav Valada(参考訳) 信頼できる物体把握は自律ロボットにとって重要な能力である。 しかし、既存の多くの把持アプローチでは、オブジェクトを明示的にモデル化することなく、一般的なクラッター除去に焦点を当てているため、可視的な局所幾何学のみに依存する。 対象認識と全体的把握を組み合わせた新しいフレームワークであるCenterGraspを紹介する。 CenterGraspは、形を符号化する前に一般的なオブジェクトを学習し、連続的な潜伏空間で有効な把握を行う。 RGB-D画像エンコーダは、最近の進歩を活用して、オブジェクトを検出し、ポーズと潜在コードを推測し、デコーダによってシーンの各オブジェクトの形状と把握を予測する。 シミュレーションと実世界のごちゃごちゃしたシーンを広範囲に実験し,強いシーン再構成と6自由度把握・推定性能を示す。 芸術の状況と比較して、CenterGraspは形状復元における38.5mm、把握成功における平均33パーセントの改善を実現している。 コードとトレーニングされたモデルをhttp://centergrasp.cs.uni-freiburg.deで公開しています。

Reliable object grasping is a crucial capability for autonomous robots. However, many existing grasping approaches focus on general clutter removal without explicitly modeling objects and thus only relying on the visible local geometry. We introduce CenterGrasp, a novel framework that combines object awareness and holistic grasping. CenterGrasp learns a general object prior by encoding shapes and valid grasps in a continuous latent space. It consists of an RGB-D image encoder that leverages recent advances to detect objects and infer their pose and latent code, and a decoder to predict shape and grasps for each object in the scene. We perform extensive experiments on simulated as well as real-world cluttered scenes and demonstrate strong scene reconstruction and 6-DoF grasp-pose estimation performance. Compared to the state of the art, CenterGrasp achieves an improvement of 38.5 mm in shape reconstruction and 33 percentage points on average in grasp success. We make the code and trained models publicly available at http://centergrasp.cs.uni-freiburg.de.
翻訳日:2023-12-14 14:46:22 公開日:2023-12-13
# ブリュッセル効果から重力支援へ:中国におけるGDPRに触発された個人情報保護法の進化を理解する

From Brussels Effect to Gravity Assists: Understanding the Evolution of the GDPR-Inspired Personal Information Protection Law in China ( http://arxiv.org/abs/2312.08237v1 )

ライセンス: Link先を確認
Wenlong Li and Jiahong Chen(参考訳) 本稿では,中国の個人情報保護法(PIPL)の進化を考察し,グローバルデータ保護開発の文脈に位置づける。 ブルッセル効果」の理論とその先例からインスピレーションを得て、EU規制の治外法的な影響を記述している。 我々の目標は、中国の法的発展に関する注釈を提供するのではなく、中国法とEUのGDPRの間の複雑なダイナミクスを照らすことです。 中国の個人情報保護法の軌跡はブリュッセル効果の適用性に疑問を投げかけていると論じられている:GDPRのPIPLへのインプリントは明らかであるが、より深い分析は、ブリュッセル効果の多くの前提と類似した理論から分岐する中国の無秩序で非線形な採用を明らかにしている。 GDPRにインスパイアされたPIPLの進化はブリュッセル効果の直接的な結果ではなく、外的影響と内的ダイナミクスの複雑な相互作用である。 本稿では,中国がGDPRを独自のデータ保護環境を形成するためのテンプレートとして戦略的な機器化を図った「重力支援」の補完理論を紹介する。 我々の概念的枠組みは、中国が内部の考慮事項、国際標準、戦略的選択のパッチワークを通じてどのようにナビゲートするかを強調し、最終的にGDPRに類似した外観を持つが、その政治的、文化的、法的背景と一致したデータ保護体制を彫刻する。 これは、欧州が法の支配、民主主義、人権を大事にし、データ保護を基本的権利として評価するために本質的に構築されたデータ保護の基礎的前提に中国がどのように取り込まれているかについて多くのことを明らかにする。

This paper explores the evolution of China's Personal Information Protection Law (PIPL) and situates it within the context of global data protection development. It draws inspiration from the theory of 'Brussels Effect' and its precedents, that describes the extraterritorial influence of EU regulations. Our objective is not to provide a commentary on China's legal development but to illuminate the intricate dynamics between the Chinese law and the EU's GDPR. It is argued that the trajectory of China's Personal Information Protection Law calls into question the applicability of the Brussels Effect: while the GDPR's imprint on the PIPL is evident, a deeper analysis unveils China's nuanced, non-linear adoption that diverges from many assumptions of the Brussels Effect and similar theories. The evolution of the GDPR-inspired PIPL is not as a straightforward outcome of the Brussels Effect but as a nuanced, intricate interplay of external influence and domestic dynamics. We introduce a complementary theory of 'gravity assist' which portrays China's strategic instrumentalisation of the GDPR as a template to shape its unique data protection landscape. Our conceptual framework highlights how China navigates through a patchwork of internal considerations, international standards, and strategic choices, ultimately sculpting a data protection regime that has a similar appearance to the GDPR but aligns with its distinct political, cultural and legal landscape. This reveals much about how China takes in the foundational premises of data protection that are inherently built in Europe's cherishment of the rule of law, democracy and human rights on the one hand, and the evaluation of data protection as a fundamental right.
翻訳日:2023-12-14 14:46:05 公開日:2023-12-13
# ラベルを超えて:潜在ラベルは半教師付きポイントクラウドのパオプティクセグメンテーションを強化する

Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point Cloud Panoptic Segmentation ( http://arxiv.org/abs/2312.08234v1 )

ライセンス: Link先を確認
Yujun Chen, Xin Tan, Zhizhong Zhang, Yanyun Qu, Yuan Xie(参考訳) 自動パイロットデータセットのラベリングやラベルなしデータの利用が増加するにつれて、ポイントクラウド上の半教師ありセグメンテーションがますます重要になっている。 直感的には、ラベル自身よりももっと‘unspoken words’(すなわち潜在インスタンス情報)を見つけることは、パフォーマンスを改善するのに役立ちます。 本稿では,lidarと画像データに埋め込まれた表示ラベルの背後に潜むラベルを2種類発見する。 まず、LiDARブランチにおいて、より信頼性の高いトレーニング用サンプルを拡張可能な新しい拡張 Cylinder-Mix を提案する。 第2に,イメージブランチでは,2次元事前学習検出器と3次元から2次元投影から得られた潜在ラベルのタイプである,インスタンス位置とスケールの情報の学習と融合を行う IPSL (Instance Position-scale Learning) モジュールを提案する。 最後に、2つの潜在ラベルをマルチモーダルのpanopticセグメンテーションネットワークに組み込む。 IPSLモジュールのアブレーションは、その堅牢な適応性を示し、SemanticKITTIとnuScenesで評価された実験は、我々のモデルが最先端のLaserMixよりも優れていることを示した。

As the exorbitant expense of labeling autopilot datasets and the growing trend of utilizing unlabeled data, semi-supervised segmentation on point clouds becomes increasingly imperative. Intuitively, finding out more ``unspoken words'' (i.e., latent instance information) beyond the label itself should be helpful to improve performance. In this paper, we discover two types of latent labels behind the displayed label embedded in LiDAR and image data. First, in the LiDAR Branch, we propose a novel augmentation, Cylinder-Mix, which is able to augment more yet reliable samples for training. Second, in the Image Branch, we propose the Instance Position-scale Learning (IPSL) Module to learn and fuse the information of instance position and scale, which is from a 2D pre-trained detector and a type of latent label obtained from 3D to 2D projection. Finally, the two latent labels are embedded into the multi-modal panoptic segmentation network. The ablation of the IPSL module demonstrates its robust adaptability, and the experiments evaluated on SemanticKITTI and nuScenes demonstrate that our model outperforms the state-of-the-art method, LaserMix.
翻訳日:2023-12-14 14:45:33 公開日:2023-12-13
# 測地点雲パッチを用いたコントラスト学習による3次元形状の部分対称性検出

Partial Symmetry Detection for 3D Geometry using Contrastive Learning with Geodesic Point Cloud Patches ( http://arxiv.org/abs/2312.08230v1 )

ライセンス: Link先を確認
Gregor Kobsik, Isaak Lim, Leif Kobbelt(参考訳) 対称性検出、特に部分的および外在対称性は、3次元幾何の完成、セグメンテーション、圧縮、構造認識形状の符号化や生成といった様々な下流タスクに不可欠である。 本研究では, 測地点雲パッチの回転, 反射, 翻訳, スケール不変な局所形状特徴を, 複数のクラスにまたがって頑健で, 異なるデータセットにまたがって一般化するコントラスト学習により学習することを提案する。 この曖昧な問題に対して,複数の有効な解を抽出できることを示す。 さらに,本手法を評価するために,部分固有対称性検出のための新しいベンチマークテストを導入する。 最後に,検出された対称性を領域成長アルゴリズムと組み合わせて,3次元形状の対称性を考慮した分割計算を目標とする下流課題を示す。 我々は,部分的外部対称性検出のための自己教師付きデータ駆動手法を最初に提案する。

Symmetry detection, especially partial and extrinsic symmetry, is essential for various downstream tasks, like 3D geometry completion, segmentation, compression and structure-aware shape encoding or generation. In order to detect partial extrinsic symmetries, we propose to learn rotation, reflection, translation and scale invariant local shape features for geodesic point cloud patches via contrastive learning, which are robust across multiple classes and generalize over different datasets. We show that our approach is able to extract multiple valid solutions for this ambiguous problem. Furthermore, we introduce a novel benchmark test for partial extrinsic symmetry detection to evaluate our method. Lastly, we incorporate the detected symmetries together with a region growing algorithm to demonstrate a downstream task with the goal of computing symmetry-aware partitions of 3D shapes. To our knowledge, we are the first to propose a self-supervised data-driven method for partial extrinsic symmetry detection.
翻訳日:2023-12-14 14:45:10 公開日:2023-12-13
# LD-SDM:言語駆動型階層型種分布モデリング

LD-SDM: Language-Driven Hierarchical Species Distribution Modeling ( http://arxiv.org/abs/2312.08334v1 )

ライセンス: Link先を確認
Srikumar Sastry, Xin Xing, Aayush Dhakal, Subash Khanal, Adeel Ahmad, Nathan Jacobs(参考訳) グローバルスケールのプレゼンスオンリーデータを用いた種分布モデルの問題に着目する。 以前のほとんどの研究は、地理的および環境的特徴だけで特定の種の範囲をマッピングした。 種間のより強い暗黙的な関係を捉えるため、大きな言語モデルを用いて種の分類体系をコードする。 これにより、いかなる分類学的階級や見当たらない種についても、追加の監督なしに範囲マッピングが可能である。 さらに,地上種範囲マップの画素レベル表現を用いた種分布モデルの評価を可能にする新しい近接認識評価指標を提案する。 提案した計量は、その基底真理に近いことに基づいて、モデルの予測をペナルティ化する。 本モデルの有効性を,種範囲予測,ゼロショット予測,地表面回帰といった課題に基づいて体系的に評価することで述べる。 その結果,複数ラベルの学習損失のトレーニングでは,モデルが強いベースラインを上回っていることがわかった。

We focus on the problem of species distribution modeling using global-scale presence-only data. Most previous studies have mapped the range of a given species using geographical and environmental features alone. To capture a stronger implicit relationship between species, we encode the taxonomic hierarchy of species using a large language model. This enables range mapping for any taxonomic rank and unseen species without additional supervision. Further, we propose a novel proximity-aware evaluation metric that enables evaluating species distribution models using any pixel-level representation of ground-truth species range map. The proposed metric penalizes the predictions of a model based on its proximity to the ground truth. We describe the effectiveness of our model by systematically evaluating on the task of species range prediction, zero-shot prediction and geo-feature regression against the state-of-the-art. Results show our model outperforms the strong baselines when trained with a variety of multi-label learning losses.
翻訳日:2023-12-14 14:38:51 公開日:2023-12-13
# PnPNet:境界拡散を伴う体積分割のためのプル・アンド・プッシュネットワーク

PnPNet: Pull-and-Push Networks for Volumetric Segmentation with Boundary Confusion ( http://arxiv.org/abs/2312.08323v1 )

ライセンス: Link先を確認
Xin You, Ming Ding, Minghui Zhang, Hanxiao Zhang, Yi Yu, Jie Yang, Yun Gu(参考訳) ボリューム画像の正確な境界分割は画像誘導診断とコンピュータ支援介入、特に臨床における境界混乱にとって重要な課題である。 しかし、境界形状制約の欠如により、U字型ネットワークはこの問題を効果的に解決できない。 さらに、境界を精製する既存の方法は細い構造を過度に強調し、小さな物体をモデル化するネットワークの限られた能力のために過度に適合する現象をもたらす。 本稿では,隣接領域との相互作用ダイナミクスを包含することで境界生成機構を再認識する。 さらに,混在境界領域の形状特性をモデル化するためのPnPNetと呼ばれる統一ネットワークを提案する。 PnPNetの中核成分は、プッシュとプルの分岐を含む。 具体的には、拡散理論に基づいて、押出し枝から意味差分モジュール(SDM)を考案し、境界領域を絞る。 SDM内の明示的および暗黙的な差分情報はクラス間境界の表現能力を著しく向上させる。 さらに、K-meansアルゴリズムによって動機付けられたプル分岐からのクラスクラスタリングモジュール(CCM)を導入し、交差する境界領域を拡大する。 したがって、プッシュ分岐とプル分岐はそれぞれ境界の不確かさを縮小し、拡大する。 彼らは2つの敵の力を与え、より正確な境界線を出力するモデルを推進した。 モデル予測における3種類の境界混乱を含む,3つの難解な公開データセットと1つの社内データセットについて実験を行った。 実験の結果、pnpnetは他のセグメンテーションネットワーク、特にhdとasdの評価指標よりも優れていることが示された。 さらに、ブランチのプッシュとプルはプラグアンドプレイモジュールとして機能し、古典的なu字型のベースラインモデルを強化する。 コードは利用可能。

Precise boundary segmentation of volumetric images is a critical task for image-guided diagnosis and computer-assisted intervention, especially for boundary confusion in clinical practice. However, U-shape networks cannot effectively resolve this challenge due to the lack of boundary shape constraints. Besides, existing methods of refining boundaries overemphasize the slender structure, which results in the overfitting phenomenon due to networks' limited abilities to model tiny objects. In this paper, we reconceptualize the mechanism of boundary generation by encompassing the interaction dynamics with adjacent regions. Moreover, we propose a unified network termed PnPNet to model shape characteristics of the confused boundary region. Core ingredients of PnPNet contain the pushing and pulling branches. Specifically, based on diffusion theory, we devise the semantic difference module (SDM) from the pushing branch to squeeze the boundary region. Explicit and implicit differential information inside SDM significantly boost representation abilities for inter-class boundaries. Additionally, motivated by the K-means algorithm, the class clustering module (CCM) from the pulling branch is introduced to stretch the intersected boundary region. Thus, pushing and pulling branches will shrink and enlarge the boundary uncertainty respectively. They furnish two adversarial forces to promote models to output a more precise delineation of boundaries. We carry out experiments on three challenging public datasets and one in-house dataset, containing three types of boundary confusion in model predictions. Experimental results demonstrate the superiority of PnPNet over other segmentation networks, especially on evaluation metrics of HD and ASSD. Besides, pushing and pulling branches can serve as plug-and-play modules to enhance classic U-shape baseline models. Codes are available.
翻訳日:2023-12-14 14:38:36 公開日:2023-12-13
# デコヒーレンスフリー部分空間による量子誤り訂正符号の連結とその逆

Concatenating quantum error correcting codes with decoherence-free subspaces, and vice versa ( http://arxiv.org/abs/2312.08322v1 )

ライセンス: Link先を確認
Nihar Ranjan Dash, Sanjoy Dutta, R. Srikanth and Subhashish Banerjee(参考訳) QECC(Quantum error correcting code)とDFS(Decoherence-free subspace)は、それぞれ量子計算中に発生する特定のエラーに対処するための能動的および受動的手段を提供する。 後者の手法は特定の対称性で相関誤差を補正するのに適しており、前者は独立誤差を補正する。 QECC と DFS のコードが結合すると、縮退したコードがアクティブかつ受動的に修正された部分に分割され、縮退がどちらの部分にも影響を与え、縮退したエラーと縮退した安定化器となる。 この2種類のコードの結合は、相関と独立なエラーの混合が発生した場合、普遍的なフォールトトレラント量子計算に役立つ。 特に、十分に相関の取れた誤りに対しては、内部符号としてのDSFとの結合がより良好な絡み合いの忠実度を提供する一方、十分な独立誤差に対しては、内部符号としてのQECCとの結合が好ましいことを示す。 具体例として、2ビットのDSS符号と3ビットの繰り返し符号または5ビットのKnill-Laflamme符号の独立および相関誤差の下での結合について詳細に検討する。

Quantum error correcting codes (QECCs) and decoherence-free subspace (DFS) codes provide active and passive means, respectively, to address certain errors that arise during quantum computation. The latter technique is suitable to correct correlated errors with certain symmetries, whilst the former to correct independent errors. The concatenation of a QECC and DFS code results in a degenerate code that splits into actively and passively correcting parts, with the degeneracy impacting either part, leading to degenerate errors as well as degenerate stabilizers. The concatenation of the two types of code can aid universal fault-tolerant quantum computation when a mix of correlated and independent errors is encountered. In particular, we show that for sufficiently strongly correlated errors, the concatenation with the DFS as the inner code provides better entanglement fidelity, whereas for sufficiently independent errors, the concatenation with QECC as the inner code is preferable. As illustrative examples, we examine in detail the concatenation of a 2-qubit DFS code and a 3-qubit repetition code or 5-qubit Knill-Laflamme code, under independent and correlated errors.
翻訳日:2023-12-14 14:38:09 公開日:2023-12-13
# gpt-4を用いたプロンプトエンジニアリング支援マルウェア動的解析

Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 ( http://arxiv.org/abs/2312.08317v1 )

ライセンス: Link先を確認
Pei Yan, Shunquan Tan, Miaohui Wang and Jiwu Huang(参考訳) 動的解析手法は、貝殻、包まれ、あるいは難解なマルウェアを効果的に識別し、侵入するコンピュータを阻止する。 動的マルウェアの挙動の顕著な表現として、連続的なAPI呼び出しからなるAPI (Application Programming Interface) シーケンスが、動的解析手法の主要な特徴となっている。 APIシーケンスに基づくマルウェア検出のための多くのディープラーニングモデルがあるが、これらのモデルによって生成されたAPIコール表現の品質は限られている。 これらのモデルは未知のAPI呼び出しの表現を生成することができず、検出性能と一般化の両方を弱める。 さらにapi呼び出しの概念ドリフト現象も顕著である。 そこで本研究では,gpt-4を用いた迅速工学支援マルウェア動的解析を提案する。 この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。 その後、事前訓練された言語モデルBERTを用いてテキストの表現を取得し、そこからAPIシーケンスの表現を導出する。 理論的には,提案手法は生成過程におけるデータセットトレーニングの必要性を除いて,すべてのAPI呼び出しの表現を生成することができる。 この表現を利用して、cnnベースの検出モデルを特徴抽出のために設計する。 提案モデルの性能評価には,5つのベンチマークデータセットを採用する。 実験の結果,提案手法は最先端手法(TextCNN)よりも優れた性能を示した。 具体的には, クロスデータベース実験やマイナショット学習実験において, マルウェアの検出性能, ほぼ100%のリコール率を達成し, 高い一般化性能を検証した。 コードは、github.com/yan-scnu/Prompted_Dynamic_Detectionで入手できる。

Dynamic analysis methods effectively identify shelled, wrapped, or obfuscated malware, thereby preventing them from invading computers. As a significant representation of dynamic malware behavior, the API (Application Programming Interface) sequence, comprised of consecutive API calls, has progressively become the dominant feature of dynamic analysis methods. Though there have been numerous deep learning models for malware detection based on API sequences, the quality of API call representations produced by those models is limited. These models cannot generate representations for unknown API calls, which weakens both the detection performance and the generalization. Further, the concept drift phenomenon of API calls is prominent. To tackle these issues, we introduce a prompt engineering-assisted malware dynamic analysis using GPT-4. In this method, GPT-4 is employed to create explanatory text for each API call within the API sequence. Afterward, the pre-trained language model BERT is used to obtain the representation of the text, from which we derive the representation of the API sequence. Theoretically, this proposed method is capable of generating representations for all API calls, excluding the necessity for dataset training during the generation process. Utilizing the representation, a CNN-based detection model is designed to extract the feature. We adopt five benchmark datasets to validate the performance of the proposed model. The experimental results reveal that the proposed detection algorithm performs better than the state-of-the-art method (TextCNN). Specifically, in cross-database experiments and few-shot learning experiments, the proposed model achieves excellent detection performance and almost a 100% recall rate for malware, verifying its superior generalization performance. The code is available at: github.com/yan-scnu/Prompted_Dynamic_Detection.
翻訳日:2023-12-14 14:37:45 公開日:2023-12-13
# 短期デバイスのための高振動多体ハミルトンの量子シミュレーション

Quantum simulation of highly-oscillatory many-body Hamiltonians for near-term devices ( http://arxiv.org/abs/2312.08310v1 )

ライセンス: Link先を確認
Guannan Chen, Mohammadali Foroozandeh, Chris Budd, Pranav Singh(参考訳) 時間依存ハミルトニアンを持つ2レベル量子系を含む多体問題をシミュレーションするための4階マグナス展開に基づく量子アルゴリズム,$\mathcal{H}(t)$を開発した。 マグヌス展開の利用における大きなハードルは、制限的に長い回路につながる整流子項の出現である。 我々は,このコンピュレータを除去する手法を提案し,得られたアルゴリズムの1つの時間ステップが,時間非依存のハミルトニアンの時間ステッピングに必要な時間よりもわずかに費用がかかることを発見した。 液体原子核磁気共鳴(NMR)の応用に現れる多くのハミルトニアンは、さらにハミルトニアンの対称性を利用して、拡張の驚くほどの削減を実現し、我々の4階法では、時間に依存しないハミルトニアンの四階化時間ステッピング手順に必要な回路構造とコストが同じである。 さらに,本アルゴリズムは時間依存ハミルトニアンの振動の波長よりも大きな時間ステップを取ることができ,特に高い振動制御に適している。 得られた量子回路は、第1次および第2次トロッター化法および他の第4次トロッター化法と比較して、全てのレベルの精度が低いため、提案アルゴリズムは、短期量子デバイス上での時間依存ハミルトニアンのシミュレーションに適した候補となる。

We develop a fourth-order Magnus expansion based quantum algorithm for the simulation of many-body problems involving two-level quantum systems with time-dependent Hamiltonians, $\mathcal{H}(t)$. A major hurdle in the utilization of the Magnus expansion is the appearance of a commutator term which leads to prohibitively long circuits. We present a technique for eliminating this commutator and find that a single time-step of the resulting algorithm is only marginally costlier than that required for time-stepping with a time-independent Hamiltonian, requiring only three additional single-qubit layers. For a large class of Hamiltonians appearing in liquid-state nuclear magnetic resonance (NMR) applications, we further exploit symmetries of the Hamiltonian and achieve a surprising reduction in the expansion, whereby a single time-step of our fourth-order method has a circuit structure and cost that is identical to that required for a fourth-order Trotterized time-stepping procedure for time-independent Hamiltonians. Moreover, our algorithms are able to take time-steps that are larger than the wavelength of oscillation of the time-dependent Hamiltonian, making them particularly suited for highly-oscillatory controls. The resulting quantum circuits have shorter depths for all levels of accuracy when compared to first and second-order Trotterized methods, as well as other fourth-order Trotterized methods, making the proposed algorithm a suitable candidate for simulation of time-dependent Hamiltonians on near-term quantum devices.
翻訳日:2023-12-14 14:37:20 公開日:2023-12-13
# EquiReact: 化学反応のための同種のニューラルネットワーク

EquiReact: An equivariant neural network for chemical reactions ( http://arxiv.org/abs/2312.08307v1 )

ライセンス: Link先を確認
Puck van Gerwen, Ksenia R. Briling, Charlotte Bunne, Vignesh Ram Somnath, Ruben Laplaza, Andreas Krause, Clemence Corminboeuf(参考訳) 等価ニューラルネットワークは、分子特性の予測の精度とデータ効率を大幅に改善した。 この成功を踏まえ,反応物と生成物の3次元構造から構築した化学反応の性質を推定する等変ニューラルネットワークであるequireactを導入した。 本稿では,GDB7-22-TS,Cyclo-23-TS,Proparg-21-TSのアクティベーションバリアの予測における競合性能について述べる。 反応特性予測のための最先端モデルと比較すると、equireactは次のように示す。 (i)原子マッピングの感度を低下させたフレキシブルモデル。 (II)見当たらない化学薬品の補間能力の向上。 (iii)反応物/生成物の3次元幾何学における微妙な変動を示すデータセットの印象的な予測誤差 (四)幾何学的品質及び感度の低下 (iv)優れたデータ効率。

Equivariant neural networks have considerably improved the accuracy and data-efficiency of predictions of molecular properties. Building on this success, we introduce EquiReact, an equivariant neural network to infer properties of chemical reactions, built from three-dimensional structures of reactants and products. We illustrate its competitive performance on the prediction of activation barriers on the GDB7-22-TS, Cyclo-23-TS and Proparg-21-TS datasets with different regimes according to the inclusion of atom-mapping information. We show that, compared to state-of-the-art models for reaction property prediction, EquiReact offers: (i) a flexible model with reduced sensitivity between atom-mapping regimes, (ii) better extrapolation capabilities to unseen chemistries, (iii) impressive prediction errors for datasets exhibiting subtle variations in three-dimensional geometries of reactants/products, (iv) reduced sensitivity to geometry quality and (iv) excellent data efficiency.
翻訳日:2023-12-14 14:36:43 公開日:2023-12-13
# 大規模言語モデルのブートストラップと蒸留による効率的な毒性検出

Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models ( http://arxiv.org/abs/2312.08303v1 )

ライセンス: Link先を確認
Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis(参考訳) 有害なコンテンツ検出は、オンラインサービスがコミュニティ標準に違反する不適切なコンテンツを削除するために不可欠である。 検出プロセスを自動化するために、従来の研究では有害なコンテンツ検出のための言語モデル(LM)を訓練するための機械学習(ML)アプローチが提案されている。 しかし、データセット間の精度と転送性には制限がある。 近年、Large Language Models (LLMs) は、優れたゼロショットと少数ショットのインコンテキスト学習能力とMLタスクの広範な転送性により、有害なコンテンツ検出の可能性を示している。 しかし、LLMのプロンプトを効率的に設計することは依然として困難である。 さらに、LLMの高ランタイムコストは、本番環境におけるデプロイメントを妨げる可能性がある。 これらの課題に対処するため,本研究では,有害なコンテンツ検出のためのブートストラップおよび蒸留LLMの新規かつ効率的なアプローチであるBD-LLMを提案する。 具体的には,LLMの検出性能をブートストラップし,高品質な論理式を抽出する,DTOT(Decision-Tree-of-Thought)と呼ばれる新しいプロンプトを設計する。 DToTは、よりきめ細かなコンテキストを自動選択して、応答に自信がない場合に再起動する。 さらに,dtotで抽出した理論を用いて学生lmsを微調整する。 各種データセットに対する実験結果から,DToTはLLMの精度を最大4.6%向上できることが示された。 さらに、DToTによって抽出された有理性で微調整された学生LMは、従来のLLMの60倍以上の精度で16.9倍の精度で全てのデータセットのベースラインを上回ります。 最後に,合理性で微調整された学生lmsが,より優れたクロスデータセット転送性を示すことを観察した。

Toxic content detection is crucial for online services to remove inappropriate content that violates community standards. To automate the detection process, prior works have proposed varieties of machine learning (ML) approaches to train Language Models (LMs) for toxic content detection. However, both their accuracy and transferability across datasets are limited. Recently, Large Language Models (LLMs) have shown promise in toxic content detection due to their superior zero-shot and few-shot in-context learning ability as well as broad transferability on ML tasks. However, efficiently designing prompts for LLMs remains challenging. Moreover, the high run-time cost of LLMs may hinder their deployments in production. To address these challenges, in this work, we propose BD-LLM, a novel and efficient approach to Bootstrapping and Distilling LLMs for toxic content detection. Specifically, we design a novel prompting method named Decision-Tree-of-Thought (DToT) to bootstrap LLMs' detection performance and extract high-quality rationales. DToT can automatically select more fine-grained context to re-prompt LLMs when their responses lack confidence. Additionally, we use the rationales extracted via DToT to fine-tune student LMs. Our experimental results on various datasets demonstrate that DToT can improve the accuracy of LLMs by up to 4.6%. Furthermore, student LMs fine-tuned with rationales extracted via DToT outperform baselines on all datasets with up to 16.9\% accuracy improvement, while being more than 60x smaller than conventional LLMs. Finally, we observe that student LMs fine-tuned with rationales exhibit better cross-dataset transferability.
翻訳日:2023-12-14 14:36:32 公開日:2023-12-13
# 自殺行動の概念化:予測結果の説明を活用した縦断的ソーシャルメディア分析

Conceptualizing Suicidal Behavior: Utilizing Explanations of Predicted Outcomes to Analyze Longitudinal Social Media Data ( http://arxiv.org/abs/2312.08299v1 )

ライセンス: Link先を確認
Van Minh Nguyen, Nasheen Nur, William Stern, Thomas Mercer, Chiradeep Sen, Siddhartha Bhattacharyya, Victor Tumbiolo, Seng Jhing Goh(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中のメンタルヘルスの危機をエスカレートし、社会的孤立と経済的不安定が自殺行動の増大に寄与している。 自殺は、恥、虐待、放棄、うつ病、外傷後ストレス障害(PTSD)、注意欠陥/多動性障害(ADHD)、不安障害、双極性障害などの社会的要因によって引き起こされる。 これらの状況が発展するにつれて、自殺の兆候がソーシャルメディアの相互作用に現れる可能性がある。 人工知能(AI)技術を用いてソーシャルメディアデータを分析することは自殺行為のパターンを識別し、自殺予防機関、専門家、およびより広いコミュニティ意識のイニシアチブに貴重な洞察を与えるのに役立つ。 この目的の機械学習アルゴリズムは、大量の正確なラベル付きデータを必要とする。 これまでの研究では、縦断的なソーシャルメディアデータの解析とラベル付けに説明を取り込む可能性を十分に検討していない。 本研究は,redditユーザの投稿から各トークンを分類し,自殺イデオロギーを予測するための帰属スコアを付与する手法として,最先端言語モデルの上に,モデル記述法である層統合勾配を用いた。 データからトークンの属性を抽出し分析することにより、推論中に大きな言語モデルを用いることなく、自殺思考のためのソーシャルメディア投稿の事前スクリーニングを行う手法を提案する。

The COVID-19 pandemic has escalated mental health crises worldwide, with social isolation and economic instability contributing to a rise in suicidal behavior. Suicide can result from social factors such as shame, abuse, abandonment, and mental health conditions like depression, Post-Traumatic Stress Disorder (PTSD), Attention-Deficit/Hyperactivity Disorder (ADHD), anxiety disorders, and bipolar disorders. As these conditions develop, signs of suicidal ideation may manifest in social media interactions. Analyzing social media data using artificial intelligence (AI) techniques can help identify patterns of suicidal behavior, providing invaluable insights for suicide prevention agencies, professionals, and broader community awareness initiatives. Machine learning algorithms for this purpose require large volumes of accurately labeled data. Previous research has not fully explored the potential of incorporating explanations in analyzing and labeling longitudinal social media data. In this study, we employed a model explanation method, Layer Integrated Gradients, on top of a fine-tuned state-of-the-art language model, to assign each token from Reddit users' posts an attribution score for predicting suicidal ideation. By extracting and analyzing attributions of tokens from the data, we propose a methodology for preliminary screening of social media posts for suicidal ideation without using large language models during inference.
翻訳日:2023-12-14 14:36:00 公開日:2023-12-13
# venn: フェデレーション学習ジョブ全体のリソース管理

Venn: Resource Management Across Federated Learning Jobs ( http://arxiv.org/abs/2312.08298v1 )

ライセンス: Link先を確認
Jiachen Liu, Fan Lai, Ding Ding, Yiwen Zhang, Mosharaf Chowdhury(参考訳) 近年、分散エッジデバイス間で機械学習(ml)とデータサイエンスに有望なアプローチとして連合学習(fl)が登場している。 flの普及に伴い、同じデバイス人口での複数のflジョブトレーニング間のリソース競合も増加している。 複数のFLジョブ間のエッジリソースのスケジューリングは、さまざまなFLジョブの重なり合うリソース要件だけでなく、参加するデバイスの短命な性質と惑星スケールのため、クラウドMLのGPUスケジューリングとは異なる。 flジョブの既存のリソースマネージャは、デバイスのランダムな割り当てをflジョブに選択することで、シンプルさとスケーラビリティが向上し、パフォーマンスが低下する。 本稿では,多くのflジョブにおいて,一時的異種デバイスを効率的にスケジュールするflリソースマネージャであるvennについて,その平均ジョブ完了時間(jct)を短縮することを目的とした。 Vennは、複数のFLジョブ間の複雑なリソース競合を特定するために、Intersection Resource Scheduling (IRS) 問題を定式化する。 次に、vennは、平均スケジューリング遅延を最小限に抑えるための競合対応スケジューリングヒューリスティックを提案する。 さらに,ストラグラーの緩和による応答収集時間の最適化に着目した,リソース対応型デバイス対ジョブマッチングヒューリスティックを提案する。 現状のFLリソースマネージャと比較して,Vennは平均JCTを最大1.88倍改善している。

In recent years, federated learning (FL) has emerged as a promising approach for machine learning (ML) and data science across distributed edge devices. With the increasing popularity of FL, resource contention between multiple FL jobs training on the same device population is increasing as well. Scheduling edge resources among multiple FL jobs is different from GPU scheduling for cloud ML because of the ephemeral nature and planetary scale of participating devices as well as the overlapping resource requirements of diverse FL jobs. Existing resource managers for FL jobs opt for random assignment of devices to FL jobs for simplicity and scalability, which leads to poor performance. In this paper, we present Venn, an FL resource manager, that efficiently schedules ephemeral, heterogeneous devices among many FL jobs, with the goal of reducing their average job completion time (JCT). Venn formulates the Intersection Resource Scheduling (IRS) problem to identify complex resource contention among multiple FL jobs. Then, Venn proposes a contention-aware scheduling heuristic to minimize the average scheduling delay. Furthermore, it proposes a resource-aware device-to-job matching heuristic that focuses on optimizing response collection time by mitigating stragglers. Our evaluation shows that, compared to the state-of-the-art FL resource managers, Venn improves the average JCT by up to 1.88X.
翻訳日:2023-12-14 14:35:34 公開日:2023-12-13
# フローマッチングとニューラルインパタンスサンプリングによる太陽系外惑星の大気特性の推定

Inferring Atmospheric Properties of Exoplanets with Flow Matching and Neural Importance Sampling ( http://arxiv.org/abs/2312.08295v1 )

ライセンス: Link先を確認
Timothy D. Gebhard and Jonas Wildberger and Maximilian Dax and Daniel Angerhausen and Sascha P. Quanz and Bernhard Sch\"olkopf(参考訳) 大気探査(AR)は、観測された光スペクトルから大気パラメータを推定することで外惑星を特徴づける。 しかし、ネストサンプリングのような従来の手法は計算コストがかかるため、機械学習(ML)に基づくソリューションへの関心が高まっている。 本研究は,まず,ニューラル・後方推定(npe)よりも精度が高いが,ネストサンプリングよりも精度が低いことを明らかにするために,新しい機械学習に基づくar法として,フローマッチング後方推定(fmpe)について検討した。 次に,fmpe と npe の双方を重要サンプリングと組み合わせ,その手法がネストサンプリングよりも精度とシミュレーション効率で優れていることを示す。 分析の結果,シミュレーションに基づく重要度推定は,既存の望遠鏡からの観測データの解析だけでなく,新たなミッションや機器の開発にも有用であると考えられる,正確かつ効率的なARのためのフレームワークを提供する可能性が示唆された。

Atmospheric retrievals (AR) characterize exoplanets by estimating atmospheric parameters from observed light spectra, typically by framing the task as a Bayesian inference problem. However, traditional approaches such as nested sampling are computationally expensive, thus sparking an interest in solutions based on machine learning (ML). In this ongoing work, we first explore flow matching posterior estimation (FMPE) as a new ML-based method for AR and find that, in our case, it is more accurate than neural posterior estimation (NPE), but less accurate than nested sampling. We then combine both FMPE and NPE with importance sampling, in which case both methods outperform nested sampling in terms of accuracy and simulation efficiency. Going forward, our analysis suggests that simulation-based inference with likelihood-based importance sampling provides a framework for accurate and efficient AR that may become a valuable tool not only for the analysis of observational data from existing telescopes, but also for the development of new missions and instruments.
翻訳日:2023-12-14 14:35:12 公開日:2023-12-13
# VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定

VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space ( http://arxiv.org/abs/2312.08291v1 )

ライセンス: Link先を確認
Gu\'enol\'e Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo and Francesc Moreno-Noguer(参考訳) RGB画像からのHuman Pose and Shape Estimation (HPSE)は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。 近年の非パラメトリック手法は, 人体の3次元座標を直接回帰することにより, 高精度化を実現している。 統計的体モデルのパラメータは回帰目標として課題を提起し、3次元座標の予測は計算複雑性と滑らか性に関連する問題をもたらす。 本稿では,HPSE問題に対処するための新しいアプローチを提案する。 本稿では,ヒトメッシュの低次元離散潜在表現を分類タスクとしてhseをフレーミングする一意な手法を提案する。 身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現を予測し、それを登録された人間のメッシュにデコードする。 第一に、低次元の離散表現を予測することは、人為的ポーズと形状の空間に我々の予測を閉じ込める。第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。 提案するモデルであるVQ-HPSは,メッシュの離散遅延表現を予測し,クロスエントロピー損失を最小限に抑えて学習する。 以上の結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,パラメトリック手法よりもリアルであることがわかった。 このことはHPSEの分類アプローチの重要な可能性を強調している。

Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body. Despite their strengths, both approaches face limitations: the parameters of statistical body models pose challenges as regression targets, and predicting 3D coordinates introduces computational complexities and issues related to smoothness. In this work, we take a novel approach to address the HPSE problem. We introduce a unique method involving a low-dimensional discrete latent representation of the human mesh, framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, our focus is on forecasting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages: firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes; secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. Our proposed model, VQ-HPS, a transformer-based architecture, forecasts the discrete latent representation of the mesh, trained through minimizing a cross-entropy loss. Our results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods. This highlights the significant potential of the classification approach for HPSE.
翻訳日:2023-12-14 14:34:52 公開日:2023-12-13
# PhenDiff: 条件付き拡散モデルによる見えない現象の発見

PhenDiff: Revealing Invisible Phenotypes with Conditional Diffusion Models ( http://arxiv.org/abs/2312.08290v1 )

ライセンス: Link先を確認
Anis Bourou, Thomas Boyer, K\'evin Daupin, V\'eronique Dubreuil, Aur\'elie De Thonel, Val\'erie Mezger and Auguste Genovesio(参考訳) 過去5年間で、生物研究における様々なタスクに深層生成モデルが徐々に採用されてきた。 特に、画像から画像への翻訳は、人間の目に見えない微妙な表現型細胞の変異を明らかにするのに有効であることが示されている。 この目標を達成するための現在の手法は主にGAN(Generative Adversarial Networks)に依存している。 しかし、これらのモデルはトレーニング不安定やモード崩壊といったいくつかの欠点に苦しむことが知られている。 さらに、訓練されたganの潜在性に実画像を反転させるロバスト性の欠如は、実画像のフレキシブルな編集を防止する。 本研究では,顕微鏡画像中の微妙な表現型を識別するための条件拡散モデルに基づく画像から画像への変換法phendiffを提案する。 バイオデータセットにおけるこのアプローチをcycleganのような以前の研究と対比して評価する。 PhenDiffは、生成した画像の品質と多様性において、このベースラインよりも優れていることを示す。 次に, 臓器の顕微鏡像に, 稀な神経発達障害によって引き起こされる異常な表現型変化を示すために本手法を適用した。 さらに、PhenDiffは、実画像に微妙な表現型変化を見出すことができる高品質の生物学的画像-画像変換を行うことができることを示した。

Over the last five years, deep generative models have gradually been adopted for various tasks in biological research. Notably, image-to-image translation methods showed to be effective in revealing subtle phenotypic cell variations otherwise invisible to the human eye. Current methods to achieve this goal mainly rely on Generative Adversarial Networks (GANs). However, these models are known to suffer from some shortcomings such as training instability and mode collapse. Furthermore, the lack of robustness to invert a real image into the latent of a trained GAN prevents flexible editing of real images. In this work, we propose PhenDiff, an image-to-image translation method based on conditional diffusion models to identify subtle phenotypes in microscopy images. We evaluate this approach on biological datasets against previous work such as CycleGAN. We show that PhenDiff outperforms this baseline in terms of quality and diversity of the generated images. We then apply this method to display invisible phenotypic changes triggered by a rare neurodevelopmental disorder on microscopy images of organoids. Altogether, we demonstrate that PhenDiff is able to perform high quality biological image-to-image translation allowing to spot subtle phenotype variations on a real image.
翻訳日:2023-12-14 14:34:25 公開日:2023-12-13
# ハイブリッドサンプル合成による限定データ設定における分類器の劣化

Hybrid Sample Synthesis-based Debiasing of Classifier in Limited Data Setting ( http://arxiv.org/abs/2312.08288v1 )

ライセンス: Link先を確認
Piyush Arora, Pratik Mazumder(参考訳) ディープラーニングモデルはバイアスの問題に苦しむことが知られており、研究者たちはこの問題に対処する方法を模索している。 しかし、これらの手法の多くはバイアスの事前知識を必要とし、必ずしも実用的ではない。 本稿では,バイアスに関する事前情報のない,より実践的な設定に焦点を当てる。 一般に、この設定では、モデルにバイアス付き予測を生じさせるバイアス整合サンプルと、バイアスに適合しないいくつかのバイアス競合サンプルが多数存在する。 トレーニングデータに制限がある場合,バイアスアライメントサンプルの影響がモデル予測にさらに強くなる可能性があり,その場合,既存のデバイアス化手法が苦しむことを実験的に実証する。 本稿では,小規模データセットにおける未知バイアスの影響を検証し,この問題を緩和するための新しいアプローチを提案する。 提案手法は, バイアス効果の低減に有効なハイブリッドサンプルを合成することにより, 限られたデータ環境下でのバイアス競合サンプルの発生が極端に低い問題に対処する。 いくつかのベンチマークデータセットで広範な実験を行い、限られたデータの存在下で未知のバイアスに対処するための提案手法の有効性を実験的に実証した。 具体的には, 崩壊したCIFAR-10 Type 1データセットの10%しか使用できない場合, バニラ, LfF, LDD, デビアンデバイアス法を10.39%, 9.08%, 8.07%, 9.67%で上回り, バイアス分散サンプル比0.05で利用できる。

Deep learning models are known to suffer from the problem of bias, and researchers have been exploring methods to address this issue. However, most of these methods require prior knowledge of the bias and are not always practical. In this paper, we focus on a more practical setting with no prior information about the bias. Generally, in this setting, there are a large number of bias-aligned samples that cause the model to produce biased predictions and a few bias-conflicting samples that do not conform to the bias. If the training data is limited, the influence of the bias-aligned samples may become even stronger on the model predictions, and we experimentally demonstrate that existing debiasing techniques suffer severely in such cases. In this paper, we examine the effects of unknown bias in small dataset regimes and present a novel approach to mitigate this issue. The proposed approach directly addresses the issue of the extremely low occurrence of bias-conflicting samples in limited data settings through the synthesis of hybrid samples that can be used to reduce the effect of bias. We perform extensive experiments on several benchmark datasets and experimentally demonstrate the effectiveness of our proposed approach in addressing any unknown bias in the presence of limited data. Specifically, our approach outperforms the vanilla, LfF, LDD, and DebiAN debiasing methods by absolute margins of 10.39%, 9.08%, 8.07%, and 9.67% when only 10% of the Corrupted CIFAR-10 Type 1 dataset is available with a bias-conflicting sample ratio of 0.05.
翻訳日:2023-12-14 14:34:05 公開日:2023-12-13
# ハイブリッドマルコフ論理を用いた埋め込みの検証について

On the verification of Embeddings using Hybrid Markov Logic ( http://arxiv.org/abs/2312.08287v1 )

ライセンス: Link先を確認
Anup Shakya, Abisha Thapa Magar, Somdeb Sarkhel and Deepak Venugopal(参考訳) Deep Neural Networksが学習した表現を検証するための標準的なアプローチは、分類や回帰といった特定のタスクで使用し、それらのタスクの精度に基づいてパフォーマンスを測定することである。 しかし、多くの場合、私たちは学習した表現のより複雑な性質を検証したいです。 そこで本研究では,確率的一階言語であるハイブリッドマルコフ論理ネットワーク(hmlns)に基づくフレームワークを提案する。 このフレームワーク内のプロパティのパラメータを学習するためのアプローチを提案する。 さらに,このタスクを混合整数線形プログラムとして符号化することにより,このフレームワークの組込みをテストするための検証手法を開発した。 本稿では,グラフニューラルネットワーク,ディープナレッジトレース,インテリジェントチュータシステムによる検証を行い,このアプローチの汎用性を示す。

The standard approach to verify representations learned by Deep Neural Networks is to use them in specific tasks such as classification or regression, and measure their performance based on accuracy in such tasks. However, in many cases, we would want to verify more complex properties of a learned representation. To do this, we propose a framework based on a probabilistic first-order language, namely, Hybrid Markov Logic Networks (HMLNs) where we specify properties over embeddings mixed with symbolic domain knowledge. We present an approach to learn parameters for the properties within this framework. Further, we develop a verification method to test embeddings in this framework by encoding this task as a Mixed Integer Linear Program for which we can leverage existing state-of-the-art solvers. We illustrate verification in Graph Neural Networks, Deep Knowledge Tracing and Intelligent Tutoring Systems to demonstrate the generality of our approach.
翻訳日:2023-12-14 14:33:36 公開日:2023-12-13
# 科学論文の要約を強化するコンテンツプラン付きLCMの試作

Prompting LLMs with content plans to enhance the summarization of scientific articles ( http://arxiv.org/abs/2312.08282v1 )

ライセンス: Link先を確認
Aldan Creo (1), Manuel Lama (1), Juan C. Vidal (1) ((1) Singular Research Center on Intelligent Technologies (CiTIUS), Universidade de Santiago de Compostela, Santiago de Compostela, Spain)(参考訳) 本稿では,学術論文の自動要約システムの性能向上のための新しいプロンプト技術を提案する。 これらの文書の長さと複雑さのため、科学論文の要約は非常に困難である。 我々は,要約システムのための追加の文脈情報を提供するプロンプト手法を想定し,実装し,評価する。 具体的には、著者キーワードや自動生成キーワードなどの記事から抽出したキーワードのリストを要約する。 本手法は,様々な要約モデルと入力テキストを用いて検証する。 結果,特に分割を個別に要約する小さなモデルでは,性能が向上した。 この証拠は、プロンプトがより強力なシステムの限界を克服するための有望なアプローチであることを示している。 本研究は,小モデル支援にプロンプトを用いた新たな研究方向を提案する。

This paper presents novel prompting techniques to improve the performance of automatic summarization systems for scientific articles. Scientific article summarization is highly challenging due to the length and complexity of these documents. We conceive, implement, and evaluate prompting techniques that provide additional contextual information to guide summarization systems. Specifically, we feed summarizers with lists of key terms extracted from articles, such as author keywords or automatically generated keywords. Our techniques are tested with various summarization models and input texts. Results show performance gains, especially for smaller models summarizing sections separately. This evidences that prompting is a promising approach to overcoming the limitations of less powerful systems. Our findings introduce a new research direction of using prompts to aid smaller models.
翻訳日:2023-12-14 14:33:21 公開日:2023-12-13
# 3次元インスタンス分割のためのSAM誘導グラフカット

SAM-guided Graph Cut for 3D Instance Segmentation ( http://arxiv.org/abs/2312.08372v1 )

ライセンス: Link先を確認
Haoyu Guo, He Zhu, Sida Peng, Yuang Wang, Yujun Shen, Ruizhen Hu, Xiaowei Zhou(参考訳) 本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。 これまで多くの研究が3Dポイントクラウドにディープラーニング技術を適用してきた。 しかし,これらの手法は,ラベル付き3Dポイントクラウドデータの不足と低多様性のため,様々な場面に一般化できなかった。 最近、ボトムアップフレームワーク内で2dインスタンスのセグメンテーションを3dに引き上げようと試みている。 ビュー間の2Dインスタンスセグメンテーションの不整合は、3Dセグメンテーションの性能を著しく低下させる。 本研究では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。 具体的には、シーンを3dで複数のスーパーポイントに事前セグメンテーションし、タスクをグラフカット問題に定式化する。 スーパーポイントグラフは2次元セグメンテーションモデルに基づいて構築され、マルチビュー画像特徴からノード特徴を取得し、マルチビューセグメンテーション結果に基づいてエッジ重みを算出し、より汎用性を高めることができる。 グラフを処理するために、2Dセグメンテーションモデルから擬似3Dラベルを用いてグラフニューラルネットワークを訓練する。 ScanNet, ScanNet++, KITTI-360データセットによる実験結果から, 本手法がロバストなセグメンテーション性能を実現し, 様々な場面にまたがって一般化可能であることが示された。 プロジェクトページはhttps://zju3dv.github.io/sam_graphで閲覧できます。

This paper addresses the challenge of 3D instance segmentation by simultaneously leveraging 3D geometric and multi-view image information. Many previous works have applied deep learning techniques to 3D point clouds for instance segmentation. However, these methods often failed to generalize to various types of scenes due to the scarcity and low-diversity of labeled 3D point cloud data. Some recent works have attempted to lift 2D instance segmentations to 3D within a bottom-up framework. The inconsistency in 2D instance segmentations among views can substantially degrade the performance of 3D segmentation. In this work, we introduce a novel 3D-to-2D query framework to effectively exploit 2D segmentation models for 3D instance segmentation. Specifically, we pre-segment the scene into several superpoints in 3D, formulating the task into a graph cut problem. The superpoint graph is constructed based on 2D segmentation models, where node features are obtained from multi-view image features and edge weights are computed based on multi-view segmentation results, enabling the better generalization ability. To process the graph, we train a graph neural network using pseudo 3D labels from 2D segmentation models. Experimental results on the ScanNet, ScanNet++ and KITTI-360 datasets demonstrate that our method achieves robust segmentation performance and can generalize across different types of scenes. Our project page is available at https://zju3dv.github.io/sam_graph.
翻訳日:2023-12-14 14:27:09 公開日:2023-12-13
# PTT:高能率時間3次元物体検出のためのポイントトラジェクトリ変換器

PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection ( http://arxiv.org/abs/2312.08371v1 )

ライセンス: Link先を確認
Kuan-Chih Huang, Weijie Lyu, Ming-Hsuan Yang, Yi-Hsuan Tsai(参考訳) 近年の時空間LiDARを用いた3Dオブジェクト検出器は,2段階提案に基づく提案手法により有望な性能を実現している。 それらは第1段階の高密度検出器から3Dボックス候補を生成し、その後に異なる時間的集約法を生成する。 しかし、これらのアプローチはフレーム単位のオブジェクトまたは全ポイントのクラウドを必要とするため、メモリバンクの利用に関する課題となる。 さらに、点雲と軌道特徴は結合のみに基づいて結合され、それら間の効果的な相互作用を無視する可能性がある。 本稿では,時間的3次元物体検出を効率的に行うために,長期記憶が可能なポイントトラジェクトリトランスを提案する。 この目的のために、メモリバンクストレージの必要量を最小限に抑えるために、現在のフレームオブジェクトとその履歴トラジェクトリのポイントクラウドのみを入力として利用する。 さらに,軌道特徴をエンコードするモジュールを導入し,短期的および将来的な視点に着目し,ポイントクラウド機能を効果的に集約する。 我々は,大規模waymoデータセットに関する広範囲な実験を行い,最先端手法に対するアプローチが有効であることを示す。 コードとモデルはhttps://github.com/kuanchihhuang/PTT.comで公開される。

Recent temporal LiDAR-based 3D object detectors achieve promising performance based on the two-stage proposal-based approach. They generate 3D box candidates from the first-stage dense detector, followed by different temporal aggregation methods. However, these approaches require per-frame objects or whole point clouds, posing challenges related to memory bank utilization. Moreover, point clouds and trajectory features are combined solely based on concatenation, which may neglect effective interactions between them. In this paper, we propose a point-trajectory transformer with long short-term memory for efficient temporal 3D object detection. To this end, we only utilize point clouds of current-frame objects and their historical trajectories as input to minimize the memory bank storage requirement. Furthermore, we introduce modules to encode trajectory features, focusing on long short-term and future-aware perspectives, and then effectively aggregate them with point cloud features. We conduct extensive experiments on the large-scale Waymo dataset to demonstrate that our approach performs well against state-of-the-art methods. Code and models will be made publicly available at https://github.com/kuanchihhuang/PTT.
翻訳日:2023-12-14 14:26:40 公開日:2023-12-13
# ゼーマン状態からの光シフトと光子散乱に対する状態非感受性波長

State-insensitive wavelengths for light shifts and photon scattering from Zeeman states ( http://arxiv.org/abs/2312.08370v1 )

ライセンス: Link先を確認
Stuart J. Masson, Zhenjie Yan, Jacquelyn Ho, Yue-Hui Lu, Dan M. Stamper-Kurn and Ana Asenjo-Garcia(参考訳) 原子は2レベル系ではなく、そのリッチな内部構造はしばしば光の存在下で複雑な現象を引き起こす。 本稿では、全超微細構造と磁気構造を含むオフ共振光散乱の解析を行う。 我々は、原子誘導双極子が磁気状態に関係なく同じであり、原子状態を変化させる2光子遷移が停止する周波数デチューニングのセットを見つける。 アルカリ原子とアルカリ-アースイオンでは、超微細な分裂が磁気双極子モーメントの寄与によって支配される場合、これらの脱調はほぼ一致する。 したがって、与えられた `magical'' のデチューニングにおいて、超微細多様体のすべての磁気状態はほぼ同じ振る舞いをしており、近似に追従することができる。 この特徴は、量子光学実験や量子情報応用に影響を与える光散乱による状態のデコヒーレンスを防ぐ。

Atoms are not two-level systems, and their rich internal structure often leads to complex phenomena in the presence of light. Here, we analyze off-resonant light scattering including the full hyperfine and magnetic structure. We find a set of frequency detunings where the atomic induced dipole is the same irrespective of the magnetic state, and where two-photon transitions that alter the atomic state turn off. For alkali atoms and alkaline-earth ions, if the hyperfine splitting is dominated by the magnetic dipole moment contribution, these detunings approximately coincide. Therefore, at a given ``magical'' detuning, all magnetic states in a hyperfine manifold behave almost identically, and can be traced out to good approximation. This feature prevents state decoherence due to light scattering, which impacts quantum optics experiments and quantum information applications.
翻訳日:2023-12-14 14:26:21 公開日:2023-12-13
# 確率環境における深部RL性能の効果的説明

The Effective Horizon Explains Deep RL Performance in Stochastic Environments ( http://arxiv.org/abs/2312.08369v1 )

ライセンス: Link先を確認
Cassidy Laidlaw and Banghua Zhu and Stuart Russell and Anca Dragan(参考訳) 強化学習(Reinforcement Learning, RL)理論は主にミニマックスサンプルの複雑性境界の証明に重点を置いている。 これらは、ポリシーや値関数を表現するために比較的限られた関数クラスを使用する戦略的探索アルゴリズムを必要とする。 我々のゴールは、なぜディープRLアルゴリズムがランダム探索やニューラルネットワークのようなより表現力のある関数クラスを使用して、実際によく機能するのかを説明することである。 我々の研究は、ランダムポリシーのQ関数上で数ステップの値反復を実行し、厳密に振る舞うことで、多くの確率的MDPを解くことができることを示す。 これが真実であれば、rlの探索と学習のコンポーネントを分離することが可能で、解析がずっと簡単になります。 本稿では,RLアルゴリズムであるSQIRLを導入し,ランダムに探索してロールアウトを収集し,それらのロールアウトに対して適応Qイテレーションの限られたステップを実行することで,ほぼ最適ポリシーを反復的に学習する。 基本的な分布内一般化特性を満たす回帰アルゴリズムは、SQIRL で一般的な MDP を効率的に解くことができる。 このことは、ディープRLがニューラルネットワークを動作させる理由を説明することができる。 さらにsqirlは、ランダムポリシーのq関数を推定し、0または数ステップの反復を適用することで、多くの環境を解決できることを示したので、ランダム探索が実際にうまく機能する理由を説明している。 我々はSQIRLを利用して、ルックアヘッドの「効果的な地平線」にのみ指数関数的なRLのインスタンス依存サンプル複雑性境界と、関数近似に使用されるクラスの複雑性を導出する。 また,SQIRLの性能は様々な確率環境におけるPPOおよびDQN性能と強く相関し,我々の理論解析が実用性能の予測可能であることを実証的に示す。

Reinforcement learning (RL) theory has largely focused on proving minimax sample complexity bounds. These require strategic exploration algorithms that use relatively limited function classes for representing the policy or value function. Our goal is to explain why deep RL algorithms often perform well in practice, despite using random exploration and much more expressive function classes like neural networks. Our work arrives at an explanation by showing that many stochastic MDPs can be solved by performing only a few steps of value iteration on the random policy's Q function and then acting greedily. When this is true, we find that it is possible to separate the exploration and learning components of RL, making it much easier to analyze. We introduce a new RL algorithm, SQIRL, that iteratively learns a near-optimal policy by exploring randomly to collect rollouts and then performing a limited number of steps of fitted-Q iteration over those rollouts. Any regression algorithm that satisfies basic in-distribution generalization properties can be used in SQIRL to efficiently solve common MDPs. This can explain why deep RL works neural networks, since it is empirically established that neural networks generalize well in-distribution. Furthermore, SQIRL explains why random exploration works well in practice, since we show many environments can be solved by estimating the random policy's Q-function and then applying zero or a few steps of value iteration. We leverage SQIRL to derive instance-dependent sample complexity bounds for RL that are exponential only in an "effective horizon" of lookahead and on the complexity of the class used for function approximation. Empirically, we also find that SQIRL performance strongly correlates with PPO and DQN performance in a variety of stochastic environments, supporting that our theoretical analysis is predictive of practical performance.
翻訳日:2023-12-14 14:26:07 公開日:2023-12-13
# VLAP:ビデオ質問応答のためのフレームプロンプティングと蒸留による効率的なビデオ言語アライメント

VLAP: Efficient Video-Language Alignment via Frame Prompting and Distilling for Video Question Answering ( http://arxiv.org/abs/2312.08367v1 )

ライセンス: Link先を確認
Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang(参考訳) 本稿では,vlap(frame-prompting and distilling)ネットワークを用いた効率的な映像言語アライメントを提案する。 我々のVLAPモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方を統一的に処理する。 VLAPネットワークでは,学習可能な新しいフレームプロンプタと,新しいクロスモーダル蒸留(QFormer-Distiller)モジュールを設計する。 事前訓練された大規模画像言語モデルは、視覚的質問応答のような問題に対して有望な結果を示した。 しかし,ビデオ言語アライメントに事前学習した大規模画像言語モデルを適応させる場合,画像フレームを効率的に効率的にサンプリングする方法が大きな課題である。 従来の作業と比較して,VLAPモデルは重要な内容を持つキーフレームを選択する能力を示し,推論遅延を低減し,映像のアライメント精度を向上する(NExT-QAのテンポラルでは3倍の速度で+3.3%)。 全体として、VLAPネットワークは、STARインタラクションでは+4.6%、STAR平均では+2.2%、VLEPではSeViLA 4フレームでは4.2倍、VLEPではSeViLA 4フレームでは4.2倍)、ビデオ質問応答ベンチマークでは最先端の手法よりも優れています。

In this work, we propose an efficient Video-Language Alignment via Frame-Prompting and Distilling (VLAP) network. Our VLAP model addresses both efficient frame sampling and effective cross-modal alignment in a unified way. In our VLAP network, we design a new learnable question-aware Frame-Prompter together with a new cross-modal distillation (QFormer-Distiller) module. Pre-trained large image-language models have shown promising results on problems such as visual question answering. However, how to efficiently and effectively sample image frames when adapting pre-trained large image-language model to video-language alignment is still the major challenge. Compared with prior work, our VLAP model demonstrates the capability of selecting key frames with critical contents, thus improving the video-language alignment accuracy while reducing the inference latency (+3.3% on NExT-QA Temporal with 3.0X speed up). Overall, our VLAP network outperforms (e.g. +4.6% on STAR Interaction and +2.2% on STAR average with 3.0X speed up, ours 2-frames out-perform SeViLA 4-frames on VLEP with 4.2X speed up) the state-of-the-art methods on the video question-answering benchmarks.
翻訳日:2023-12-14 14:25:33 公開日:2023-12-13
# See, Say, and Segment: 偽のプリミスを克服するためにLMMを教える

See, Say, and Segment: Teaching LMMs to Overcome False Premises ( http://arxiv.org/abs/2312.08366v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Giscard Biamby, David Chan, Lisa Dunlap, Ritwik Gupta, Xudong Wang, Joseph E. Gonzalez, Trevor Darrell(参考訳) 現在のオープンソースのLMM(Large Multimodal Models)は、オープンボキャブラリ言語基底やセグメンテーションといったタスクに優れていますが、クエリが実際に画像に存在しないものが存在することを暗示している場合、誤った前提で悩まされます。 画像の分割にLMMを微調整する既存の手法は、物体が存在するかどうかを確実に判断し、人間と自然に対話する能力(例えば、破滅的な忘れ方)を著しく低下させる。 本研究では,この課題を解決するためのlmmsのカスケードと合同トレーニング手法を提案する。 結果として得られたモデルは、画像にオブジェクトが存在するかどうかを検知することで"見る"ことができ、そうではないかどうかをユーザに伝え、クエリ内の代替クエリを提案するか、あるいは意味的エラーを修正することで"測定"できます。 さらに,既存のRefCOCO(+/g)参照セグメンテーションデータセット(FP-RefCO(+/g)と呼ぶ)の拡張であるFalse Premise Correctionベンチマークデータセットを導入する。 その結果,提案手法は,既存の手法よりも最大55%の精度で偽の前提条件を検出するだけでなく,前提条件下では,ベースラインよりも31%以上の相対的なcIOU改善が得られ,その67%が自然言語によるフィードバックが得られた。

Current open-source Large Multimodal Models (LMMs) excel at tasks such as open-vocabulary language grounding and segmentation but can suffer under false premises when queries imply the existence of something that is not actually present in the image. We observe that existing methods that fine-tune an LMM to segment images significantly degrade their ability to reliably determine ("see") if an object is present and to interact naturally with humans ("say"), a form of catastrophic forgetting. In this work, we propose a cascading and joint training approach for LMMs to solve this task, avoiding catastrophic forgetting of previous skills. Our resulting model can "see" by detecting whether objects are present in an image, "say" by telling the user if they are not, proposing alternative queries or correcting semantic errors in the query, and finally "segment" by outputting the mask of the desired objects if they exist. Additionally, we introduce a novel False Premise Correction benchmark dataset, an extension of existing RefCOCO(+/g) referring segmentation datasets (which we call FP-RefCOCO(+/g)). The results show that our method not only detects false premises up to 55% better than existing approaches, but under false premise conditions produces relative cIOU improvements of more than 31% over baselines, and produces natural language feedback judged helpful up to 67% of the time.
翻訳日:2023-12-14 14:25:08 公開日:2023-12-13
# 深層強化学習への招待

An Invitation to Deep Reinforcement Learning ( http://arxiv.org/abs/2312.08365v1 )

ライセンス: Link先を確認
Bernhard Jaeger and Andreas Geiger(参考訳) ターゲット目標を最大化するためにディープニューラルネットワークをトレーニングすることは、過去10年間のマシンラーニングの成功の標準的なレシピとなっている。 これらのネットワークは、対象目標が微分可能であれば、教師付き学習で最適化することができる。 多くの興味深い問題に対して、これはそうではない。 共通目的として、連合(IoU)、二言語評価(BLEU)スコア、報酬は教師付き学習では最適化できない。 一般的な回避策は、微分可能な代理損失を定義し、実際の目的に関して最適でない解へと導くことである。 強化学習(rl)は、近年、非微分可能目標を最大化するためにディープニューラルネットワークを最適化するための有望な代替手段として登場している。 例えば、人間のフィードバック、コード生成、オブジェクト検出、制御問題による大規模な言語モデルの調整などだ。 これにより、より大きな機械学習オーディエンスにRLテクニックが関係する。 しかし、その主題は、多くの方法としばしば非常に理論的な提示のために、アプローチに時間を要する。 本導入では,古典的な強化学習教科書とは異なる,別のアプローチをとる。 表的な問題に注目するのではなく,教師付き学習の一般化として強化学習を導入する。 教師付き学習の基本知識のみを仮定すると、このチュートリアルを読んでから、近ポリシー最適化(PPO)のような最先端のRLアルゴリズムを理解することができる。

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.
翻訳日:2023-12-14 14:24:37 公開日:2023-12-13
# 手続き型合成データのための非有界シーンにおけるビュー依存オクターベースメッシュ抽出

View-Dependent Octree-based Mesh Extraction in Unbounded Scenes for Procedural Synthetic Data ( http://arxiv.org/abs/2312.08364v1 )

ライセンス: Link先を確認
Zeyu Ma, Alexander Raistrick, Lahav Lipson, Jia Deng(参考訳) 手続き型合成データ生成はコンピュータビジョンにおいて注目を集めている。 手続き署名距離関数(SDF)は、大規模な詳細なシーンをモデル化するための強力なツールであるが、既存のメッシュ抽出手法には、合成データの使用を制限するアーティファクトやパフォーマンスプロファイルがある。 OcMesherというメッシュ抽出アルゴリズムは,下流のリアルタイムエンジンに容易にエクスポート可能な完全ビュー一貫性を持つ高精細非バウンドシーンを効率的に処理する。 我々のソリューションの主な新規性は、与えられたSDFと複数のカメラビューに基づいてオクツリーを構築するアルゴリズムである。 我々は広範な実験を行い,コンピュータビジョンモデルのトレーニングと評価のために,より良い合成データを生成する方法を示した。

Procedural synthetic data generation has received increasing attention in computer vision. Procedural signed distance functions (SDFs) are a powerful tool for modeling large-scale detailed scenes, but existing mesh extraction methods have artifacts or performance profiles that limit their use for synthetic data. We propose OcMesher, a mesh extraction algorithm that efficiently handles high-detail unbounded scenes with perfect view-consistency, with easy export to downstream real-time engines. The main novelty of our solution is an algorithm to construct an octree based on a given SDF and multiple camera views. We performed extensive experiments, and show our solution produces better synthetic data for training and evaluation of computer vision models.
翻訳日:2023-12-14 14:24:14 公開日:2023-12-13
# 量子ワンウェイネスの計算硬度について

On the Computational Hardness of Quantum One-Wayness ( http://arxiv.org/abs/2312.08363v1 )

ライセンス: Link先を確認
Bruno Cavalar, Eli Goldin, Matthew Gray, Peter Hall, Yanyi Liu, Angelos Pelecanos(参考訳) 古典的暗号を実現するのにどのような計算の困難さが必要かを研究する多くの研究がある。 特に、一方通行関数と擬似乱数発生器は互いに組み合わさり、それを実現するには等価な計算仮定が必要である。 さらに、これらのプリミティブのいずれかの存在は、$\rm{P} \neq \rm{NP}$ であり、必要な硬さの低い境界を与えることを意味する。 また、それぞれのプリミティブのバージョンを量子出力で定義することもできる:それぞれ一方通行状態生成器と擬似ランダム状態生成器である。 古典的な設定とは異なり、どちらのプリミティブも他方から構築できるかどうかは不明である。 擬似乱数状態生成器が一方向状態生成器を構築するのに利用できることが示されているが、その影響は一般には知られていない。 さらに、我々の知る限りでは、一方向状態生成器の存在は複雑性理論において既知の意味を持たない。 我々は、$n$bitsを$\log n + 1$ qubitsに圧縮する擬似ランダム状態が片道状態発生器や擬似ランダム状態の生成に利用でき、$n$bitsを$\omega(\log n)$ qubitsは片道状態発生器であることを示す。 これは、$c \log n$-qubit 出力未満の擬ランダム状態が無条件に存在することを示すため、ほぼ最適な結果である。 また、任意の一方向状態生成器は、$\rm{pp}$ oracle への古典的なアクセスを持つ量子アルゴリズムによって破壊される。 この結果の興味深い意味は、すべての$t(n) = o(n/\log n)$ に対して、$t(n)$-copy one-way state generator が無条件に存在するということである。 これは、$O(n)$-copy 1-way状態生成器が計算の困難さを必要とするという事実とよく対照的である。 また、一方の状態発生器と量子ビットのコミットメントの間のブラックボックス分離に向けた新たな経路を概説する。

There is a large body of work studying what forms of computational hardness are needed to realize classical cryptography. In particular, one-way functions and pseudorandom generators can be built from each other, and thus require equivalent computational assumptions to be realized. Furthermore, the existence of either of these primitives implies that $\rm{P} \neq \rm{NP}$, which gives a lower bound on the necessary hardness. One can also define versions of each of these primitives with quantum output: respectively one-way state generators and pseudorandom state generators. Unlike in the classical setting, it is not known whether either primitive can be built from the other. Although it has been shown that pseudorandom state generators for certain parameter regimes can be used to build one-way state generators, the implication has not been previously known in full generality. Furthermore, to the best of our knowledge, the existence of one-way state generators has no known implications in complexity theory. We show that pseudorandom states compressing $n$ bits to $\log n + 1$ qubits can be used to build one-way state generators and pseudorandom states compressing $n$ bits to $\omega(\log n)$ qubits are one-way state generators. This is a nearly optimal result since pseudorandom states with fewer than $c \log n$-qubit output can be shown to exist unconditionally. We also show that any one-way state generator can be broken by a quantum algorithm with classical access to a $\rm{PP}$ oracle. An interesting implication of our results is that a $t(n)$-copy one-way state generator exists unconditionally, for every $t(n) = o(n/\log n)$. This contrasts nicely with the previously known fact that $O(n)$-copy one-way state generators require computational hardness. We also outline a new route towards a black-box separation between one-way state generators and quantum bit commitments.
翻訳日:2023-12-14 14:24:00 公開日:2023-12-13
# インターネット上の大規模言語モデルの分散推論と微調整

Distributed Inference and Fine-tuning of Large Language Models Over The Internet ( http://arxiv.org/abs/2312.08361v1 )

ライセンス: Link先を確認
Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, Colin Raffel(参考訳) 大規模言語モデル(LLM)は多くのNLPタスクで有用であり、500億以上のパラメータを持つ最高のオープンソースモデルにより、サイズが向上する。 しかし、これらの50B+モデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。 本研究では,LLMのコスト効率と微調整手法について検討し,ローカル戦略と分散戦略を比較した。 コンシューマグレードネットワークにおいて,地理的に分散したデバイス上でも,十分なモデル(50B+)を効率的に動作させることができる。 これにより、複数の研究グループとボランティアのアイドル計算リソースをまとめてLLMを効率的に実行することができる。 我々は,(1) デバイスが突然切断可能な場合に,推論と微調整を確実に行う方法,(2) ハードウェアの不均一なデバイス間でLSMを分割し,結合し,自由に去る方法の2つに対処する。 そこで我々は,システムスループットの最大化のためにデバイスを自動的に割り当てる特別なフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発した。 我々はこれらのアルゴリズムを,インターネット上でLlama 2 (70B) とBLOOM (176B) を動作させる分散システムである Petals で紹介する。 シミュレーション条件と2大陸にまたがる実環境におけるシステムの性能評価を行った。

Large language models (LLMs) are useful in many NLP tasks and become more capable with size, with the best open-source models having over 50 billion parameters. However, using these 50B+ models requires high-end hardware, making them inaccessible to most researchers. In this work, we investigate methods for cost-efficient inference and fine-tuning of LLMs, comparing local and distributed strategies. We observe that a large enough model (50B+) can run efficiently even on geodistributed devices in a consumer-grade network. This could allow running LLM efficiently by pooling together idle compute resources of multiple research groups and volunteers. We address two open problems: (1) how to perform inference and fine-tuning reliably if any device can disconnect abruptly and (2) how to partition LLMs between devices with uneven hardware, joining and leaving at will. In order to do that, we develop special fault-tolerant inference algorithms and load-balancing protocols that automatically assign devices to maximize the total system throughput. We showcase these algorithms in Petals - a decentralized system that runs Llama 2 (70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for interactive generation. We evaluate the performance of our system in simulated conditions and a real-world setup spanning two continents.
翻訳日:2023-12-14 14:23:23 公開日:2023-12-13
# 分布選好学習:RLHFにおける隠れコンテキストの理解と説明

Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF ( http://arxiv.org/abs/2312.08358v1 )

ライセンス: Link先を確認
Anand Siththaranjan and Cassidy Laidlaw and Dylan Hadfield-Menell(参考訳) 実際には、人間のフィードバックによる選好学習は、隠れたコンテキストを持つ不完全なデータに依存する。 隠れたコンテキストとは、受信したフィードバックに影響を与えるデータを指すが、嗜好モデルのトレーニングに使用されるデータには表現されない。 これは、人間のアノテータに様々な好みを持たせること、不合理な振る舞いをもたらす認知プロセス、異なる基準に従ってラベル付けされたデータの組み合わせなど、データ収集の一般的な問題を捉えている。 人間のフィードバックからの強化学習(RLHF)を含む嗜好学習の標準的な応用は、ボルダカウントと呼ばれるよく知られた投票規則に従って暗黙的に隠れた文脈を集約することを証明する。 これは、暗黙的に期待するユーティリティを介して集約される他のメソッドとは全く異なる直観的な結果を生み出すことができる。 さらに,多様な価値を持つユーザからの選好学習が社会的選択機能を実現する方法を定式化する。 この結果の重要な意味は、アノテータが学習モデルに影響を与えるために好みを誤って報告するインセンティブを持ち、RLHFのデプロイに脆弱性をもたらすことである。 これらの問題を緩和するためのステップとして,分布選好学習(DPL)と呼ばれる手法を導入する。 DPL法は、隠れたコンテキストをよりよく考慮するために、それぞれの選択肢に対して可能なスコア値の分布を推定する。 LLMチャットボットにDPLをRLHFに適用すると、データ中の隠れコンテキストが識別され、その後のジェイルブレイクの脆弱性が大幅に減少することを示す。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/hidden-contextで利用可能です。

In practice, preference learning from human feedback depends on incomplete data with hidden context. Hidden context refers to data that affects the feedback received, but which is not represented in the data used to train a preference model. This captures common issues of data collection, such as having human annotators with varied preferences, cognitive processes that result in seemingly irrational behavior, and combining data labeled according to different criteria. We prove that standard applications of preference learning, including reinforcement learning from human feedback (RLHF), implicitly aggregate over hidden contexts according to a well-known voting rule called Borda count. We show this can produce counter-intuitive results that are very different from other methods which implicitly aggregate via expected utility. Furthermore, our analysis formalizes the way that preference learning from users with diverse values tacitly implements a social choice function. A key implication of this result is that annotators have an incentive to misreport their preferences in order to influence the learned model, leading to vulnerabilities in the deployment of RLHF. As a step towards mitigating these problems, we introduce a class of methods called distributional preference learning (DPL). DPL methods estimate a distribution of possible score values for each alternative in order to better account for hidden context. Experimental results indicate that applying DPL to RLHF for LLM chatbots identifies hidden context in the data and significantly reduces subsequent jailbreak vulnerability. Our code and data are available at https://github.com/cassidylaidlaw/hidden-context
翻訳日:2023-12-14 14:23:01 公開日:2023-12-13
# 回路QEDにおける非相互分散モデルのためのツールボックス

Toolbox for nonreciprocal dispersive models in circuit QED ( http://arxiv.org/abs/2312.08354v1 )

ライセンス: Link先を確認
Lautaro Labarca, Othmane Benhayoune-Khadraoui, Alexandre Blais, Adrian Parra-Rodriguez(参考訳) 本稿では, カプラを特徴付け, 有効結合パラメータと減衰率を用いて, 一般散逸のない非相反線形系に結合した弱非調和超伝導回路を記述するために, 効果的分散型リンドブラッドマスター方程式を構築する方法を提案する。 本稿では, インピーダンス応答によって記述された線形相互結合子に対する Solgun et al. (2019) の基礎的作業を拡張する。 ここでは,非相反的な要素を組み込むために既存のツールボックスを拡張し,イミタンスポート間の直接の層結合や回避可能な特異点を考慮し,共通の浴槽との相互作用から生じる散逸的相互作用を含む。 本研究は, マルチポート非相互環境と消散ポートに結合した弱非調和ジョセフソン接合回路を用いて, 実験結果について述べる。 ここで得られた結果は、量子情報の非自明なルーティングを持つ複雑な超伝導量子プロセッサの設計や、凝縮物質系のアナログ量子シミュレータの設計に利用できる。

We provide a systematic method for constructing effective dispersive Lindblad master equations to describe weakly-anharmonic superconducting circuits coupled by a generic dissipationless nonreciprocal linear system, with effective coupling parameters and decay rates written in terms of the immittance parameters characterizing the coupler. This article extends the foundational work of Solgun et al. (2019) for linear reciprocal couplers described by an impedance response. Here, we expand the existing toolbox to incorporate nonreciprocal elements, account for direct stray coupling between immittance ports, circumvent potential singularities, and include dissipative interactions arising from interaction with a common bath. We illustrate the use of our results with a circuit of weakly-anharmonic Josephson junctions coupled to a multiport nonreciprocal environment and a dissipative port. The results obtained here can be used for the design of complex superconducting quantum processors with non-trivial routing of quantum information, as well as analog quantum simulators of condensed matter systems.
翻訳日:2023-12-14 14:22:34 公開日:2023-12-13
# FoundationPose:新しいオブジェクトの6D Pose推定と追跡を統一化

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects ( http://arxiv.org/abs/2312.08344v1 )

ライセンス: Link先を確認
Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield(参考訳) 本稿では,6次元オブジェクトのポーズ推定と追跡のための統合基盤モデルであるFoundationPoseについて述べる。 cadモデルが与えられたり、あるいは少数の参照画像がキャプチャされたりする限り、このアプローチはテスト時に、微調整することなく、新しいオブジェクトに即座に適用できます。 これら2つのセットアップ間のギャップをニューラルネットワークによる暗黙的な表現で橋渡しし、効果的な新しいビュー合成を可能にし、下流のポーズ推定モジュールを同じ統一フレームワーク下で不変に保つ。 強い一般化性は、大規模合成訓練によって達成され、大きな言語モデル(LLM)、新しいトランスフォーマーベースのアーキテクチャ、対照的な学習形式によって支援される。 挑戦的なシナリオとオブジェクトを含む複数のパブリックデータセットの広範な評価は、我々の統一アプローチが各タスクに特化した既存のメソッドを大きなマージンで上回っていることを示している。 さらに、仮定が減っているにもかかわらず、インスタンスレベルのメソッドと同等の結果を得ることもできる。 プロジェクトページ: https://nvlabs.github.io/FoundationPose/

We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/
翻訳日:2023-12-14 14:22:17 公開日:2023-12-13
# マルチタスクニューラルネットワークフレームワークを用いたマルチモーダルMRIデータからのCT画像合成の高速化

Ehancing CT Image synthesis from multi-modal MRI data based on a multi-task neural network framework ( http://arxiv.org/abs/2312.08343v1 )

ライセンス: Link先を確認
Zhuoyao Xin, Christopher Wu, Dong Liu, Chunming Gu, Jia Guo, Jun Hua(参考訳) 画像分割, 実値予測, クロスモーダル変換は, 医療画像における重要な課題である。 本研究では,これらの医療画像タスクを同時に,選択的,適応的に処理可能な,拡張型Transformer U-Netアーキテクチャに基づく多目的マルチタスクニューラルネットワークフレームワークを提案する。 検証はヒト脳MRIおよびCT画像の公開リポジトリで行われる。 頭蓋骨分割, ハウンズフィールド単位(HU)値予測, 画像シーケンシャル再構成など, CT画像を個別のサブタスクに分解する従来の課題について述べる。 マルチモーダルデータを扱うフレームワークの汎用性を高めるため、複数のイメージチャネルでモデルを拡張します。 T1強調画像とT2フレア画像の合成CT画像の比較を行い、形態的・画素的両面から多モード情報を統合する能力を評価した。

Image segmentation, real-value prediction, and cross-modal translation are critical challenges in medical imaging. In this study, we propose a versatile multi-task neural network framework, based on an enhanced Transformer U-Net architecture, capable of simultaneously, selectively, and adaptively addressing these medical image tasks. Validation is performed on a public repository of human brain MR and CT images. We decompose the traditional problem of synthesizing CT images into distinct subtasks, which include skull segmentation, Hounsfield unit (HU) value prediction, and image sequential reconstruction. To enhance the framework's versatility in handling multi-modal data, we expand the model with multiple image channels. Comparisons between synthesized CT images derived from T1-weighted and T2-Flair images were conducted, evaluating the model's capability to integrate multi-modal information from both morphological and pixel value perspectives.
翻訳日:2023-12-14 14:21:59 公開日:2023-12-13
# グローバル潜在型ニューラルレンダリング

Global Latent Neural Rendering ( http://arxiv.org/abs/2312.08338v1 )

ライセンス: Link先を確認
Thomas Tanay and Matteo Maggioni(参考訳) 一般化可能な新しいビュー合成手法の最近のトレンドは、単一のカメラ線に作用するレンダリング演算子を学ぶことである。 このアプローチは、明示的なボリュームレンダリングの必要性をなくすため、有望であるが、ターゲットイメージを独立したピクセルのコレクションとして効果的に扱う。 ここでは,全カメラ光線に作用するグローバルレンダリング演算子を共同で学習することを提案する。 このようなレンダリングを可能にするための正しい表現は、ターゲットカメラに面した平面上の入力画像の投影からなる5次元平面スイープボリュームであることを示す。 この理解に基づいて,低解像度のラテント空間でグローバルにレンダリング操作を行う効率的な畳み込みアーキテクチャであるConvGLR(Convolutional Global Latent Renderer)を紹介した。 スパースおよび一般化可能な設定下での各種データセットの実験は、我々のアプローチが既存の手法を著しく上回っていることを示している。

A recent trend among generalizable novel view synthesis methods is to learn a rendering operator acting over single camera rays. This approach is promising because it removes the need for explicit volumetric rendering, but it effectively treats target images as collections of independent pixels. Here, we propose to learn a global rendering operator acting over all camera rays jointly. We show that the right representation to enable such rendering is the 5-dimensional plane sweep volume, consisting of the projection of the input images on a set of planes facing the target camera. Based on this understanding, we introduce our Convolutional Global Latent Renderer (ConvGLR), an efficient convolutional architecture that performs the rendering operation globally in a low-resolution latent space. Experiments on various datasets under sparse and generalizable setups show that our approach consistently outperforms existing methods by significant margins.
翻訳日:2023-12-14 14:21:43 公開日:2023-12-13
# SGNet:Depth Map Super-Resolutionのための勾配周波数認識による構造案内ネットワーク

SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolution ( http://arxiv.org/abs/2312.05799v3 )

ライセンス: Link先を確認
Zhengxue Wang and Zhiqiang Yan and Jian Yang(参考訳) 深度超解像(DSR)は、高分解能(HR)深度を低分解能(LR)深度から復元することを目的としており、RGB画像がこの課題を促進するためにしばしば使用される。 最近の画像誘導型DSRアプローチは主に深度構造を再構築するための空間領域に焦点を当てている。 しかし、LR深度の構造は通常曖昧であるため、空間領域のみを考えると十分な結果を得るには不十分である。 本稿では、高次構造を捕捉する固有の能力を有する勾配領域と周波数領域により注意を払う構造ガイドネットワーク(SGNet)を提案する。 具体的には,まず,lr深度構造を研削するために,rgb前の正確な勾配を用いた勾配キャリブレーションモジュール(gcm)を導入する。 次に、複数のスペクトル差分ブロック(SDB)を再帰的に実行し、RGBの正確な高周波成分をLR深さに伝播する周波数認識モジュール(FAM)を提案する。 実データと合成データの両方に関する広範な実験結果は、sgnetの優位性を示し、最先端に到達しています。 コードと事前学習されたモデルはhttps://github.com/yanzq95/sgnetで入手できる。

Depth super-resolution (DSR) aims to restore high-resolution (HR) depth from low-resolution (LR) one, where RGB image is often used to promote this task. Recent image guided DSR approaches mainly focus on spatial domain to rebuild depth structure. However, since the structure of LR depth is usually blurry, only considering spatial domain is not very sufficient to acquire satisfactory results. In this paper, we propose structure guided network (SGNet), a method that pays more attention to gradient and frequency domains, both of which have the inherent ability to capture high-frequency structure. Specifically, we first introduce the gradient calibration module (GCM), which employs the accurate gradient prior of RGB to sharpen the LR depth structure. Then we present the Frequency Awareness Module (FAM) that recursively conducts multiple spectrum differencing blocks (SDB), each of which propagates the precise high-frequency components of RGB into the LR depth. Extensive experimental results on both real and synthetic datasets demonstrate the superiority of our SGNet, reaching the state-of-the-art. Codes and pre-trained models are available at https://github.com/yanzq95/SGNet.
翻訳日:2023-12-14 12:40:57 公開日:2023-12-13
# 仮想道路シーンにおけるオブジェクトインタラクションの効率的な生成のための自然言語駆動シミュレーションベンチマークとコパイロット

Natural-language-driven Simulation Benchmark and Copilot for Efficient Production of Object Interactions in Virtual Road Scenes ( http://arxiv.org/abs/2312.04008v3 )

ライセンス: Link先を確認
Kairui Yang, Zihao Guo, Gengjie Lin, Haotian Dong, Die Zuo, Jibin Peng, Zhao Huang, Zhecheng Xu, Fupeng Li, Ziyun Bai, Di Lin(参考訳) 自然言語駆動(nld)シミュレーションのアイデアを提唱し、仮想道路シーンにおける複数の物体間のオブジェクトインタラクションを効率的に生成し、予測不能な動きを伴う障害物との衝突を避けるために素早く行動すべき自律運転システムを指導し、テストする。 NLDシミュレーションにより、簡単な自然言語記述でオブジェクトの相互作用を制御でき、大量の対話データを作成するための人間の労力を大幅に削減できる。 NLDシミュレーションの研究を容易にするため、6種類の道路トポロジで12万の自然言語によるオブジェクトの相互作用を記述したL2Iベンチマークデータセットを収集した。 各記述はプログラムコードに関連付けられ、グラフィックレンダリングは仮想シーンのオブジェクトインタラクションを視覚的に再構築するために使用できる。 方法論的なコントリビューションとして,対話記述をレンダリング可能なコードに変換するためにSimCopilotを設計する。 我々はL2Iデータセットを用いて、SimCopilotの能力を評価し、オブジェクトの動きを制御し、複雑な相互作用を生成し、道路トポロジ間の相互作用を一般化する。 L2Iデータセットと評価結果はNLDシミュレーションの関連研究を動機付けている。

We advocate the idea of the natural-language-driven(NLD) simulation to efficiently produce the object interactions between multiple objects in the virtual road scenes, for teaching and testing the autonomous driving systems that should take quick action to avoid collision with obstacles with unpredictable motions. The NLD simulation allows the brief natural-language description to control the object interactions, significantly reducing the human efforts for creating a large amount of interaction data. To facilitate the research of NLD simulation, we collect the Language-to-Interaction(L2I) benchmark dataset with 120,000 natural-language descriptions of object interactions in 6 common types of road topologies. Each description is associated with the programming code, which the graphic render can use to visually reconstruct the object interactions in the virtual scenes. As a methodology contribution, we design SimCopilot to translate the interaction descriptions to the renderable code. We use the L2I dataset to evaluate SimCopilot's abilities to control the object motions, generate complex interactions, and generalize interactions across road topologies. The L2I dataset and the evaluation results motivate the relevant research of the NLD simulation.
翻訳日:2023-12-14 12:40:36 公開日:2023-12-13
# キャッシュを活用して小さなデバイスでSLUを実現する

Leveraging cache to enable SLU on tiny devices ( http://arxiv.org/abs/2311.18188v3 )

ライセンス: Link先を確認
Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin (University of Virginia)(参考訳) 本稿では,マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)について述べる。 我々は,デバイスの音声入力における時間的局所性を活用し,近年のslu推論を再利用する。 私たちのアイデアは単純で、デバイスがキャッシュされた結果に対して新しい入力をマッチングさせ、完全な推論のために未マッチの入力だけをクラウドにオフロードする。 しかし、このアイデアの実現は簡単ではない。デバイスは頑丈で低コストな方法で音響特性を比較する必要がある。 この目的のために,小型デバイス向け音声キャッシュXYZを提案する。 音声入力は、2つのレベルの表現で一致します。まずは生音ユニットのクラスタ化されたシーケンス、次に音素のシーケンスです。 2つの表現は相補的なコスト/精度のトレードオフを提供する。 さらに精度を高めるために、私たちのキャッシュは学習している。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出器を(クラウドの助けを借りて)継続的に微調整する。 市販STM32マイクロコントローラにXYZを実装した。 その結果、メモリフットプリントが2MBになった。 課題のある音声ベンチマークに基づいて、当社のシステムは、デバイス上の入力の45%--90%を解決し、一般的なクラウド音声サービスへのオフロードと比較して平均遅延を最大80%削減します。当社のメリットは、ノイズの多い環境、コールドキャッシュ、あるいは多数のユーザによって共有される1つのデバイスにおいてさえ発音されます。

This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We exploit temporal locality in a device's speech inputs and accordingly reuse recent SLU inferences. Our idea is simple: let the device match new inputs against cached results, and only offload unmatched inputs to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust, low-cost way. To this end, we present XYZ, a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by clustered sequences of raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary cost/accuracy tradeoffs. To further boost accuracy, our cache is learning: with the mismatched and then offloaded inputs, it continuously finetunes the device's feature extractors (with the assistance of the cloud). We implement XYZ on an off-the-shelf STM32 microcontroller. The resultant implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%--90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech services. Our benefit is pronounced even in adversarial settings -- noisy environments, cold cache, or one device shared by a number of users.
翻訳日:2023-12-14 12:40:13 公開日:2023-12-13
# 形式的定理提示に対する言語エージェント的アプローチ

A Language-Agent Approach to Formal Theorem-Proving ( http://arxiv.org/abs/2310.04353v3 )

ライセンス: Link先を確認
Amitayush Thakur, Yeming Wen, Swarat Chaudhuri(参考訳) 言語エージェントは、コンテキスト内学習で外部環境と対話できる大規模言語モデル(LLM)を使用しており、タスクを制御するための有望なアプローチとして最近登場した。 フォーマルな定理証明への最初の言語エージェントアプローチを示す。 COPRAは,高容量のブラックボックスLCM (GPT-4) をステートフルなバックトラック検索のポリシーの一部として用いる。 検索中、ポリシーは証明戦術を選択し、外部データベースから補題や定義を取得することができる。 各選択した戦術は基礎となる証明フレームワークで実行され、次のポリシー実行のプロンプトを構築するために実行フィードバックが使用される。 検索はまた、選択した情報を履歴から追跡し、幻覚や不要なllmクエリを減らすために利用する。 我々は、LeanのminiF2FベンチマークとCompcertプロジェクトからのCoqタスクセットに対するCOPRAの実装を評価した。 これらのベンチマークでは、COPRAはGPT-4のワンショット実行と、証明データに微調整された最先端モデルよりも、迅速に正しい証明を見つけることができる。 私たちのコードとデータはhttps://github.com/trishullab/copraで入手できます。

Language agents, which use a large language model (LLM) capable of in-context learning to interact with an external environment, have recently emerged as a promising approach to control tasks. We present the first language-agent approach to formal theorem-proving. Our method, COPRA, uses a high-capacity, black-box LLM (GPT-4) as part of a policy for a stateful backtracking search. During the search, the policy can select proof tactics and retrieve lemmas and definitions from an external database. Each selected tactic is executed in the underlying proof framework, and the execution feedback is used to build the prompt for the next policy invocation. The search also tracks selected information from its history and uses it to reduce hallucinations and unnecessary LLM queries. We evaluate our implementation of COPRA on the miniF2F benchmark for Lean and a set of Coq tasks from the Compcert project. On these benchmarks, COPRA significantly outperforms one-shot invocations of GPT-4, as well as state-of-the-art models fine-tuned on proof data, at finding correct proofs quickly. Our code and data are available at https://github.com/trishullab/copra.
翻訳日:2023-12-14 12:39:46 公開日:2023-12-13
# DifAttack: 分散機能空間によるクエリ効率の良いブラックボックス攻撃

DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature Space ( http://arxiv.org/abs/2309.14585v3 )

ライセンス: Link先を確認
Liu Jun, Zhou Jiantao, Zeng Jiandian, Jinyu Tian(参考訳) 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。 本研究では,DifAttackと呼ばれる,DifAttackと呼ばれる不整形特徴空間に基づく新たな攻撃手法を設計する。 具体的には、ディファタックはまず、画像の潜伏した特徴を敵対的特徴と視覚的特徴に切り離し、前者が画像の敵対的能力を支配し、後者が視覚的な外観を大々的に決定する。 我々は,ホワイトボックス攻撃法を用いて,利用可能なサロゲートモデルから生成した一対のクリーンイメージとその逆例(aes)を用いて,乱れに対するオートエンコーダを訓練する。 最終的に、DifAttackは、視覚的特徴を変更せずに、成功しているAEが生成されるまで、被害者モデルからのクエリフィードバックに従って、敵機能を反復的に最適化する。 さらに,ブラックボックスモデルにaesを最適化する際のサロゲートモデルの勾配情報の使用を避けるため,本提案手法は,被害者モデルのトレーニングデータセットが不明なオープンセットシナリオにおいて,本質的により優れた攻撃能力を有する。 広範な実験結果から,本手法はasrとクエリの効率を,特にターゲット攻撃とオープンセットシナリオにおいて同時に大幅に改善できることが判明した。 コードはhttps://github.com/csjunjun/DifAttack.gitで入手できる。

This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (ASR) and good generalizability. We design a novel attack method based on a Disentangled Feature space, called DifAttack, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack firstly disentangles an image's latent feature into an adversarial feature and a visual feature, where the former dominates the adversarial capability of an image, while the latter largely determines its visual appearance. We train an autoencoder for the disentanglement by using pairs of clean images and their Adversarial Examples (AEs) generated from available surrogate models via white-box attack methods. Eventually, DifAttack iteratively optimizes the adversarial feature according to the query feedback from the victim model until a successful AE is generated, while keeping the visual feature unaltered. In addition, due to the avoidance of using surrogate models' gradient information when optimizing AEs for black-box models, our proposed DifAttack inherently possesses better attack capability in the open-set scenario, where the training dataset of the victim model is unknown. Extensive experimental results demonstrate that our method achieves significant improvements in ASR and query efficiency simultaneously, especially in the targeted attack and open-set scenarios. The code is available at https://github.com/csjunjun/DifAttack.git.
翻訳日:2023-12-14 12:39:27 公開日:2023-12-13
# unsupervised word sense disambiguationにおける文脈認識意味類似度測定

Context-Aware Semantic Similarity Measurement for Unsupervised Word Sense Disambiguation ( http://arxiv.org/abs/2305.03520v4 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 単語感覚の曖昧さの問題は、自然言語処理において、この課題に直面するために機械学習モデルを供給するための注釈付きデータが不足しているために、大きな課題となっている。 そのため、注釈付きデータに頼らずにこの課題を克服するために、教師なしの単語認識曖昧化手法が開発されている。 本研究は、文脈情報を類似度測定プロセスに組み込む柔軟なメカニズムを提供する、教師なし単語感覚曖昧化に対する新しい文脈認識アプローチを提案する。 提案手法を評価するために,人気のあるベンチマークデータセットを用いて実験を行い,その性能を教師なし語義不曖昧化手法と比較した。 実験結果から,本手法は曖昧さの精度を大幅に向上させ,既存技術の性能をはるかに上回ることを示す。 本研究は,意味的類似度測定における文脈情報の統合の重要性を明らかにし,教師なしシナリオにおける単語感覚の曖昧さを効果的に管理する。

The issue of word sense ambiguity poses a significant challenge in natural language processing due to the scarcity of annotated data to feed machine learning models to face the challenge. Therefore, unsupervised word sense disambiguation methods have been developed to overcome that challenge without relying on annotated data. This research proposes a new context-aware approach to unsupervised word sense disambiguation, which provides a flexible mechanism for incorporating contextual information into the similarity measurement process. We experiment with a popular benchmark dataset to evaluate the proposed strategy and compare its performance with state-of-the-art unsupervised word sense disambiguation techniques. The experimental results indicate that our approach substantially enhances disambiguation accuracy and surpasses the performance of several existing techniques. Our findings underscore the significance of integrating contextual information in semantic similarity measurements to manage word sense ambiguity in unsupervised scenarios effectively.
翻訳日:2023-12-14 12:39:01 公開日:2023-12-13
# 教師なしおよび半教師なしの新インテント発見のためのクラスタリングフレームワーク

A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery ( http://arxiv.org/abs/2304.07699v3 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Xin Wang, Fei Long, Kai Gao(参考訳) 新しい意図発見は自然言語処理にとって大きな価値があり、ユーザニーズをよりよく理解し、フレンドリーなサービスを提供する。 しかし、既存のほとんどの手法は、ラベル付きデータの事前知識が限られている場合、離散テキスト表現の複雑な意味を捉えるのに苦労している。 この問題に対処するために,3つの重要な技術を持つ非教師付き半教師付き新規意図発見のための新しいクラスタリングフレームワークUSNIDを提案する。 まず、教師なしまたは半教師なしのデータを完全に活用して、浅い意味的類似関係を発掘し、クラスタ化のための初期化表現を提供する。 第2に,クラスタ割り当ての不整合の問題に対処し,表現学習のための高品質な自己教師付き目標を提供するために,centroid-guided clustering機構を設計する。 第3に、クラスタレベルとインスタンスレベルの両方の目的を最適化することにより、教師なしまたは半教師付きデータのハイレベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを検出する。 また,新しいインテントの数を事前に知ることなく,オープンワールドシナリオにおけるクラスタ数を効果的に推定する方法を提案する。 usnidはいくつかのベンチマークインテントデータセットで非常によく機能し、教師なしで半教師なしの新しいインテント発見を行い、異なるクラスタ番号で堅牢なパフォーマンスを示す。

New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel clustering framework, USNID, for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it fully utilizes unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several benchmark intent datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers.
翻訳日:2023-12-14 12:38:44 公開日:2023-12-13
# ROBUSfT: C++ライブラリのテンプレートによるロバストリアルタイムシェイプ

ROBUSfT: Robust Real-Time Shape-from-Template, a C++ Library ( http://arxiv.org/abs/2301.04037v3 )

ライセンス: Link先を確認
Mohammadreza Shetab-Bushehri, Miguel Aranda, Youcef Mezouar, Adrien Bartoli, Erol Ozgur(参考訳) 単眼2次元視覚のみを用いて変形物体の3次元形状を追跡することは難しい課題である。 これは、あるべきであるからである (i)過度に制約された問題である2次元画像から3次元形状を推定し、 (ii)ソリューションパイプライン全体をリアルタイムで実装する。 パイプラインは通常、特徴検出とマッチング、ミスマッチフィルタリング、3次元形状推論、特徴追跡アルゴリズムを必要とする。 本稿では,物体の静止形状,テクスチャマップ,変形法則を含むテンプレートに基づく従来のパイプラインであるROBUSfTを提案する。 ROBUSfTは、大きな変形を処理でき、30fpsまで高速で、トレーニングなしで、ビデオフレームにおける部分的な閉塞や不連続に対して堅牢である。 挑戦的なデータセットでは最先端の手法よりも優れています。 ROBUSfTはC++ライブラリとして実装されており、https://github.com/mrshetab/ROBUSfTで使用するためのチュートリアルを提供している。

Tracking the 3D shape of a deforming object using only monocular 2D vision is a challenging problem. This is because one should (i) infer the 3D shape from a 2D image, which is a severely underconstrained problem, and (ii) implement the whole solution pipeline in real-time. The pipeline typically requires feature detection and matching, mismatch filtering, 3D shape inference and feature tracking algorithms. We propose ROBUSfT, a conventional pipeline based on a template containing the object's rest shape, texturemap and deformation law. ROBUSfT is ready-to-use, wide-baseline, capable of handling large deformations, fast up to 30 fps, free of training, and robust against partial occlusions and discontinuity in video frames. It outperforms the state-of-the-art methods in challenging datasets. ROBUSfT is implemented as a publicly available C++ library and we provide a tutorial on how to use it in https://github.com/mrshetab/ROBUSfT
翻訳日:2023-12-14 12:38:18 公開日:2023-12-13
# 最適化量子$f$分割の単調性

Monotonicity of optimized quantum $f$-divergence ( http://arxiv.org/abs/2104.12890v3 )

ライセンス: Link先を確認
Haojian Li(参考訳) 最適化された量子 $f$-divergence は、wildeによって \cite{wil18} で最初に導入された。 ワイルドは最適化された量子 $f$-divergence の単調性が量子チャネルでない写像に一般化できるかどうかという疑問を提起した。 我々は、シュワルツの不等式を満たす正のトレース保存写像に最適化された量子$f$-divergencesの単調性一般化により、この疑問に答える。

Optimized quantum $f$-divergence was first introduced by Wilde in \cite{Wil18}. Wilde raised the question of whether the monotonicity of optimized quantum $f$-divergence can be generalized to maps that are not quantum channels. We answer this question by generalizing the monotonicity of optimized quantum $f$-divergences to positive trace preserving maps satisfying a Schwarz inequality.
翻訳日:2023-12-14 12:37:57 公開日:2023-12-13
# MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception ( http://arxiv.org/abs/2312.07472v2 )

ライセンス: Link先を確認
Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao(参考訳) 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。 しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。 この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。 具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。 大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成した。 さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。

It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel.
翻訳日:2023-12-14 12:33:31 公開日:2023-12-13
# birb:バイオ音響における情報検索の一般化ベンチマーク

BIRB: A Generalization Benchmark for Information Retrieval in Bioacoustics ( http://arxiv.org/abs/2312.07439v2 )

ライセンス: Link先を確認
Jenny Hamer, Eleni Triantafillou, Bart van Merri\"enboer, Stefan Kahl, Holger Klinck, Tom Denton, Vincent Dumoulin(参考訳) 機械学習モデルがトレーニングと展開条件の相違に対処できる能力(例えば、分布シフトや新しいクラスへの完全に一般化が存在する場合)は、現実世界のユースケースにとって不可欠である。 しかし、この分野の実証研究のほとんどは、一般化の個々の側面を測定するために構築された人工ベンチマークによる画像領域に焦点を当てている。 本研究では,受動的に記録されたデータセットから鳥の鳴き声の検索を目的とした複雑なベンチマークであるBIRBについて述べる。 本稿では,表象学習と最近中心探索を用いたタスク集合のためのベースラインシステムを提案する。 我々の徹底的な経験的評価と分析は、BIRBがより現実的で複雑なベンチマークの必要性を埋め、分散シフトへの堅牢性やMLモデルの一般化を促進することを示唆している。

The ability for a machine learning model to cope with differences in training and deployment conditions--e.g. in the presence of distribution shift or the generalization to new classes altogether--is crucial for real-world use cases. However, most empirical work in this area has focused on the image domain with artificial benchmarks constructed to measure individual aspects of generalization. We present BIRB, a complex benchmark centered on the retrieval of bird vocalizations from passively-recorded datasets given focal recordings from a large citizen science corpus available for training. We propose a baseline system for this collection of tasks using representation learning and a nearest-centroid search. Our thorough empirical evaluation and analysis surfaces open research directions, suggesting that BIRB fills the need for a more realistic and complex benchmark to drive progress on robustness to distribution shifts and generalization of ML models.
翻訳日:2023-12-14 12:33:08 公開日:2023-12-13
# GPT-4V(ision)は分布シフトにどの程度適応するか? 予備調査

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation ( http://arxiv.org/abs/2312.07424v2 )

ライセンス: Link先を確認
Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang(参考訳) 機械学習では、特に気候モデリング、バイオメディシン、自動運転といった分野において、デプロイメント条件がトレーニングシナリオから逸脱する分散シフトに対する一般化が重要である。 基礎モデルの出現は、その広範な事前訓練とタスクの汎用性によって区別され、分布シフトへの適応性への関心が高まった。 GPT-4V(ision)は最も先進的な多モード基盤モデルとして機能し、異常検出、ビデオ理解、画像生成、医療診断など様々な分野に応用されている。 しかし、そのデータ分布に対する堅牢性は、ほとんど未調査のままである。 このギャップに対処するため、GPT-4Vの動的環境における適応性と一般化能力を評価し、CLIPやLLaVAといった著名なモデルと比較した。 GPT-4Vのゼロショット一般化は、自然領域、医学領域、分子領域にまたがる13の多様なデータセットにまたがる。 さらに、制御されたデータ摂動に対する適応性について検討し、適応性を高めるツールとして、文脈内学習の有効性を検討する。 本研究は, GPT-4Vの分散シフトにおける機能境界を明確化し, その強度と限界を様々なシナリオで明らかにした。 この調査は、AIファンデーションモデルが分散シフトにどのように一般化するかの理解に寄与し、適応性と堅牢性に関する重要な洞察を提供する。 コードはhttps://github.com/jameszhou-gl/gpt-4v-distribution-shiftで公開されている。

In machine learning, generalization against distribution shifts -- where deployment conditions diverge from the training scenarios -- is crucial, particularly in fields like climate modeling, biomedicine, and autonomous driving. The emergence of foundation models, distinguished by their extensive pretraining and task versatility, has led to an increased interest in their adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced publicly accessible multimodal foundation model, with extensive applications across various domains, including anomaly detection, video understanding, image generation, and medical diagnosis. However, its robustness against data distributions remains largely underexplored. Addressing this gap, this study rigorously evaluates GPT-4V's adaptability and generalization capabilities in dynamic environments, benchmarking against prominent models like CLIP and LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse datasets spanning natural, medical, and molecular domains. We further investigate its adaptability to controlled data perturbations and examine the efficacy of in-context learning as a tool to enhance its adaptation. Our findings delineate GPT-4V's capability boundaries in distribution shifts, shedding light on its strengths and limitations across various scenarios. Importantly, this investigation contributes to our understanding of how AI foundation models generalize to distribution shifts, offering pivotal insights into their adaptability and robustness. Code is publicly available at https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
翻訳日:2023-12-14 12:32:55 公開日:2023-12-13
# バンディット問題における強制探索

Forced Exploration in Bandit Problems ( http://arxiv.org/abs/2312.07285v2 )

ライセンス: Link先を確認
Han Qi, Fei Guo, Li Zhu(参考訳) マルチアームバンディット(MAB)は古典的な逐次決定問題である。 ほとんどの研究は報酬分布(例えば有界)に関する仮定を必要とするが、実践者はこれらの分布に関する情報を得るのが困難であり、問題のモデル、特に非定常MAB問題の設計を行う。 本稿では,報酬分布に関する情報を使わずに実装できるマルチアームバンディットアルゴリズムを設計することを目的としている。 そこで本研究では,欲求規則と強制探索を交互に行う新しいアルゴリズムを提案する。 本手法はガウス分布,ベルヌーイ分布,その他のガウス分布に適用でき,追加情報を必要としない。 我々は,異なる強制探索戦略のための統一的な分析手法を採用し,定常的および区分的定常的設定に対して問題依存的な後悔の上限を提供する。 さらに,提案アルゴリズムを,報酬分布の異なる一般的な帯域幅アルゴリズムと比較した。

The multi-armed bandit(MAB) is a classical sequential decision problem. Most work requires assumptions about the reward distribution (e.g., bounded), while practitioners may have difficulty obtaining information about these distributions to design models for their problems, especially in non-stationary MAB problems. This paper aims to design a multi-armed bandit algorithm that can be implemented without using information about the reward distribution while still achieving substantial regret upper bounds. To this end, we propose a novel algorithm alternating between greedy rule and forced exploration. Our method can be applied to Gaussian, Bernoulli and other subgaussian distributions, and its implementation does not require additional information. We employ a unified analysis method for different forced exploration strategies and provide problem-dependent regret upper bounds for stationary and piecewise-stationary settings. Furthermore, we compare our algorithm with popular bandit algorithms on different reward distributions.
翻訳日:2023-12-14 12:32:29 公開日:2023-12-13
# ベクトル値正規化最小二乗アルゴリズムのための最適ソボレフノルム率に向けて

Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm ( http://arxiv.org/abs/2312.07186v2 )

ライセンス: Link先を確認
Zhu Li, Dimitri Meunier, Mattes Mollenhauer and Arthur Gretton(参考訳) L_2$と仮説空間の間を補間するノルムの連続スケール上で、無限次元ベクトル値リッジ回帰の最初の最適速度を示し、これはベクトル値再生核ヒルベルト空間と考える。 これらのレートは、真の回帰関数が仮説空間に含まれない不特定の場合を扱うことができる。 仮説空間のキャパシティに関する標準的な仮定とベクトル値補間空間の新たなテンソル積の構成を組み合わせることにより、回帰関数の滑らかさを特徴づける。 我々の上限は実値のカーネルリッジ回帰と同じ速度に達するだけでなく、対象の回帰関数が有界であるという仮定も取り除く。 下限については、プロジェクション引数を使って問題をスカラー設定に還元する。 これらの値はほとんどの場合最適であり、出力空間の次元に依存しないことを示す。 ベクトル値ソボレフ空間の特別な場合に対する結果を示す。

We present the first optimal rates for infinite-dimensional vector-valued ridge regression on a continuous scale of norms that interpolate between $L_2$ and the hypothesis space, which we consider as a vector-valued reproducing kernel Hilbert space. These rates allow to treat the misspecified case in which the true regression function is not contained in the hypothesis space. We combine standard assumptions on the capacity of the hypothesis space with a novel tensor product construction of vector-valued interpolation spaces in order to characterize the smoothness of the regression function. Our upper bound not only attains the same rate as real-valued kernel ridge regression, but also removes the assumption that the target regression function is bounded. For the lower bound, we reduce the problem to the scalar setting using a projection argument. We show that these rates are optimal in most cases and independent of the dimension of the output space. We illustrate our results for the special case of vector-valued Sobolev spaces.
翻訳日:2023-12-14 12:32:14 公開日:2023-12-13
# 効率的なオプティカルフロー推定のためのコンテキストアウェア・イテレーション・ポリシーネットワーク

Context-Aware Iteration Policy Network for Efficient Optical Flow Estimation ( http://arxiv.org/abs/2312.07180v2 )

ライセンス: Link先を確認
Ri Cheng, Ruian He, Xuhao Jiang, Shili Zhou, Weimin Tan, Bo Yan(参考訳) 既存のリカレント光フロー推定ネットワークは、各サンプルのフローフィールドを更新するために固定された多数のイテレーションを使用するため、計算コストが高い。 効率的なネットワークは、フロー改善が制限されたときにイテレーションをスキップすべきである。 本稿では,サンプルあたりの最適イテレーション数を決定する効率的な光フロー推定のための文脈認識型イテレーションポリシーネットワークを開発した。 ポリシーネットワークは、コンテキスト情報を学習して、フロー改善がボトルネックになっているか、最小限であるかを認識する。 一方で、過去のイテレーション情報を含むイテレーション埋め込みと歴史的な隠れたセルを使用して、フローが以前のイテレーションからどのように変わったかを伝える。 一方で、ポリシーネットワークにインクリメンタルな損失を利用して、その後のイテレーションにおける光フロー改善の大きさを暗黙的に認識します。 さらに、我々の動的ネットワークにおける計算複雑性は制御可能であり、単一の訓練されたモデルで様々なリソースの選好を満たすことができる。 我々のポリシネットワークは、最先端の光フローネットワークに容易に統合できる。 Sintel/KITTIデータセットのFLOPを約40%/20%削減しながら,本手法が性能を維持することを示す。

Existing recurrent optical flow estimation networks are computationally expensive since they use a fixed large number of iterations to update the flow field for each sample. An efficient network should skip iterations when the flow improvement is limited. In this paper, we develop a Context-Aware Iteration Policy Network for efficient optical flow estimation, which determines the optimal number of iterations per sample. The policy network achieves this by learning contextual information to realize whether flow improvement is bottlenecked or minimal. On the one hand, we use iteration embedding and historical hidden cell, which include previous iterations information, to convey how flow has changed from previous iterations. On the other hand, we use the incremental loss to make the policy network implicitly perceive the magnitude of optical flow improvement in the subsequent iteration. Furthermore, the computational complexity in our dynamic network is controllable, allowing us to satisfy various resource preferences with a single trained model. Our policy network can be easily integrated into state-of-the-art optical flow networks. Extensive experiments show that our method maintains performance while reducing FLOPs by about 40%/20% for the Sintel/KITTI datasets.
翻訳日:2023-12-14 12:31:58 公開日:2023-12-13
# ドクサスティック戦略の論理

The Logic of Doxastic Strategies ( http://arxiv.org/abs/2312.07107v2 )

ライセンス: Link先を確認
Junli Jiang and Pavel Naumov(参考訳) 多くの現実世界の状況では、ある戦略が目標を達成するのに成功すると知るのに十分な情報がないことが多いが、それを信じる十分な理由がある。 本稿では,このような戦略に対して 'doxastic' という用語を導入している。 主な技術的貢献は、ドクサスティックな戦略と信念のモダリティの間の相互作用を記述する健全で完全な論理システムである。

In many real-world situations, there is often not enough information to know that a certain strategy will succeed in achieving the goal, but there is a good reason to believe that it will. The paper introduces the term ``doxastic'' for such strategies. The main technical contribution is a sound and complete logical system that describes the interplay between doxastic strategy and belief modalities.
翻訳日:2023-12-14 12:31:38 公開日:2023-12-13
# MWSIS: 自律運転のための2Dボックスアノテーション付きマルチモーダル弱修正インスタンスセグメンテーション

MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous Driving ( http://arxiv.org/abs/2312.06988v2 )

ライセンス: Link先を確認
Guangfeng Jiang, Jun Liu, Yuzhi Wu, Wenlong Liao, Tao He, Pai Peng(参考訳) インスタンス分割はコンピュータビジョン、特に自動運転における基本的な研究である。 しかし、インスタンスセグメンテーションのための手動マスクアノテーションはかなり時間がかかり、コストがかかる。 この問題に対処するために、いくつかの先行研究は2dまたは3dボックスを探索することで、弱い監督の方法を適用しようとする。 しかし、誰も2Dボックスアノテーションだけで2Dと3Dのインスタンスを同時に分割することに成功していないため、アノテーションのコストは桁違いに削減できる。 そこで,本稿では,mwsis(multimodal weakly supervised instance segmentation)と呼ばれる新しいフレームワークを提案する。このフレームワークは,疑似ラベルの品質を向上させるために,様々な細粒度ラベル生成および修正モジュールを2dおよび3dモダリティの両方に組み込んで,一貫性スパースクロスモーダル監督(consistency sparse cross-modal supervisor, cscs)という新しい手法とともに,応答蒸留によるマルチモーダル予測の不一致を低減する。 特に、3dバックボーンを下流タスクに移すと、3d検出器の性能が向上するだけでなく、5%の完全教師付きアノテーションで完全に教師付きインスタンスセグメンテーションを上回ってしまう。 Waymoデータセットでは、提案されたフレームワークがベースラインを大幅に改善し、特に2Dと3Dのインスタンスセグメンテーションタスクで2.59%のmAPと12.75%のmAPを達成した。 コードはhttps://github.com/jiangxb98/mwsis-pluginで入手できる。

Instance segmentation is a fundamental research in computer vision, especially in autonomous driving. However, manual mask annotation for instance segmentation is quite time-consuming and costly. To address this problem, some prior works attempt to apply weakly supervised manner by exploring 2D or 3D boxes. However, no one has ever successfully segmented 2D and 3D instances simultaneously by only using 2D box annotations, which could further reduce the annotation cost by an order of magnitude. Thus, we propose a novel framework called Multimodal Weakly Supervised Instance Segmentation (MWSIS), which incorporates various fine-grained label generation and correction modules for both 2D and 3D modalities to improve the quality of pseudo labels, along with a new multimodal cross-supervision approach, named Consistency Sparse Cross-modal Supervision (CSCS), to reduce the inconsistency of multimodal predictions by response distillation. Particularly, transferring the 3D backbone to downstream tasks not only improves the performance of the 3D detectors, but also outperforms fully supervised instance segmentation with only 5% fully supervised annotations. On the Waymo dataset, the proposed framework demonstrates significant improvements over the baseline, especially achieving 2.59% mAP and 12.75% mAP increases for 2D and 3D instance segmentation tasks, respectively. The code is available at https://github.com/jiangxb98/mwsis-plugin.
翻訳日:2023-12-14 12:30:55 公開日:2023-12-13
# CLASS-M: 組織像分類のための擬似ラベルを用いた適応的染色分離に基づくコントラスト学習

CLASS-M: Adaptive stain separation-based contrastive learning with pseudo-labeling for histopathological image classification ( http://arxiv.org/abs/2312.06978v2 )

ライセンス: Link先を確認
Bodong Zhang, Hamid Manoochehri, Man Minh Ho, Fahimeh Fooladgar, Yosep Chong, Beatrice S. Knudsen, Deepika Sirohi, Tolga Tasdizen(参考訳) 病理組織学的画像分類は医用画像解析における重要な側面の一つである。 モデルトレーニングにおけるラベル付きデータに関連するコストが高いため、広範囲にラベル付きデータセットの必要性を軽減するために、半教師付き学習手法が提案されている。 本研究では,デジタル病理組織学的ヘマトキシリンおよびエオシン(H&E)画像に基づく半教師付き分類タスクのモデルを提案する。 我々は新しいモデルContrastive Learning with Adaptive Stain Separation and MixUp (CLASS-M) と呼ぶ。 本モデルは,分離したヘマトキシリン画像とエオシン画像との対比学習と,MixUpを用いた擬似ラベリングの2つの主要部分から構成される。 当院のclear cell renal cell carcinoma (ccrcc) データセットと癌ゲノムアトラスプログラム (tcga) の他モデルとの比較を行った。 我々はCLASS-Mモデルが両方のデータセット上で最高の性能を持つことを示す。 モデルにおけるさまざまな部分の貢献も分析されます。

Histopathological image classification is one of the critical aspects in medical image analysis. Due to the high expense associated with the labeled data in model training, semi-supervised learning methods have been proposed to alleviate the need of extensively labeled datasets. In this work, we propose a model for semi-supervised classification tasks on digital histopathological Hematoxylin and Eosin (H&E) images. We call the new model Contrastive Learning with Adaptive Stain Separation and MixUp (CLASS-M). Our model is formed by two main parts: contrastive learning between adaptively stain separated Hematoxylin images and Eosin images, and pseudo-labeling using MixUp. We compare our model with other state-of-the-art models on clear cell renal cell carcinoma (ccRCC) datasets from our institution and The Cancer Genome Atlas Program (TCGA). We demonstrate that our CLASS-M model has the best performance on both datasets. The contributions of different parts in our model are also analyzed.
翻訳日:2023-12-14 12:30:25 公開日:2023-12-13
# マルチモーダル大言語モデルのためのHalucination Augmented Contrastive Learning

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model ( http://arxiv.org/abs/2312.06968v2 )

ライセンス: Link先を確認
Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang(参考訳) マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理する。 しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。 本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。 まず,MLLMにおけるテキストトークンと視覚トークンの表現分布を解析し,2つの重要な知見を明らかにした。 1) テキスト表現と視覚表現の間には大きなギャップがあり, 満足のいくクロスモーダル表現の整合性を示す。 2)幻覚を含まないテキストの表現は絡み合っており,区別が困難である。 これらの2つの観察は、幻覚を緩和するためのシンプルで効果的な方法をもたらした。 具体的には,mllmにコントラスト学習を導入し,幻覚付きテキストを難解な例とし,非幻覚性テキストと視覚的サンプルの表現を自然に近づけながら,非幻覚性テキストと幻覚性テキストの表現をプッシュする。 本手法を定量的かつ定性的に評価し,幻覚発生の低減と複数のベンチマークにおける性能向上に有効であることを示す。 MMhal-Benchベンチマークでは,ベースラインのMiniGPT-4/LLaVAよりも34.66%/29.5%改善した。

Multi-modal large language models (MLLMs) have been shown to efficiently integrate natural language with visual information to handle multi-modal tasks. However, MLLMs still face a fundamental limitation of hallucinations, where they tend to generate erroneous or fabricated information. In this paper, we address hallucinations in MLLMs from a novel perspective of representation learning. We first analyzed the representation distribution of textual and visual tokens in MLLM, revealing two important findings: 1) there is a significant gap between textual and visual representations, indicating unsatisfactory cross-modal representation alignment; 2) representations of texts that contain and do not contain hallucinations are entangled, making it challenging to distinguish them. These two observations inspire us with a simple yet effective method to mitigate hallucinations. Specifically, we introduce contrastive learning into MLLMs and use text with hallucination as hard negative examples, naturally bringing representations of non-hallucinative text and visual samples closer while pushing way representations of non-hallucinating and hallucinative text. We evaluate our method quantitatively and qualitatively, showing its effectiveness in reducing hallucination occurrences and improving performance across multiple benchmarks. On the MMhal-Bench benchmark, our method obtains a 34.66% /29.5% improvement over the baseline MiniGPT-4/LLaVA.
翻訳日:2023-12-14 12:30:10 公開日:2023-12-13
# LLF-Bench: 言語フィードバックからの対話型学習のためのベンチマーク

LLF-Bench: Benchmark for Interactive Learning from Language Feedback ( http://arxiv.org/abs/2312.06853v2 )

ライセンス: Link先を確認
Ching-An Cheng, Andrey Kolobov, Dipendra Misra, Allen Nie, Adith Swaminathan(参考訳) 我々は,aiエージェントが自然言語からのフィードバックや指示から対話的に学習する能力を評価するために,新しいベンチマークであるllf-bench(learning from language feedback benchmark; elf-bench)を導入する。 言語フィードバック(LLF)からの学習は、主に、このフィードバックが提供する豊富な情報が、学習者が試行錯誤の多くを回避し、学習プロセスのスピードアップに役立つため、人々にとって不可欠である。 大規模言語モデル(LLM)は、最近、AIエージェントが自然言語を理解することを可能にした。 しかし、既存のインタラクティブなベンチマークは、この重要な能力を評価していない: 数値的な報酬フィードバックを使うか、(計画や情報検索のみ)学習を全く必要としない。 LLF-Benchはこの省略を埋めるように設計されている。 LLF-Benchは、ユーザの推薦、詩の執筆、ナビゲーション、ロボット制御を含む、シーケンシャルな意思決定タスクのコレクションである。 エージェントの目的は、自然言語の指示と行動後のフィードバックに基づいて、これらのタスクを対話的に解決することである。 重要なことに、エージェントがフィードバックから実際に「学習する」ことを保証するため、LLF-Benchは、タスクがエージェントに馴染みがなく、エージェントが様々な言語化に対して堅牢であることを保証するために、いくつかのランダム化手法(パラフレーズや環境ランダム化など)を実装している。 さらに、LLF-Benchは、すべてのタスクに対して統一されたOpenAI Gymインターフェースを提供し、フィードバックが伝達する情報(提案、説明、即時的なパフォーマンス)を簡単に設定して、エージェントが異なるタイプのフィードバックにどのように反応するかを研究することができる。 これらの機能により、LLF-BenchはLLFエージェントの開発とテストのためのユニークな研究プラットフォームとなる。

We introduce a new benchmark, LLF-Bench (Learning from Language Feedback Benchmark; pronounced as "elf-bench"), to evaluate the ability of AI agents to interactively learn from natural language feedback and instructions. Learning from language feedback (LLF) is essential for people, largely because the rich information this feedback provides can help a learner avoid much of trial and error and thereby speed up the learning process. Large Language Models (LLMs) have recently enabled AI agents to comprehend natural language -- and hence AI agents can potentially benefit from language feedback during learning like humans do. But existing interactive benchmarks do not assess this crucial capability: they either use numeric reward feedback or require no learning at all (only planning or information retrieval). LLF-Bench is designed to fill this omission. LLF-Bench is a diverse collection of sequential decision-making tasks that includes user recommendation, poem writing, navigation, and robot control. The objective of an agent is to interactively solve these tasks based on their natural-language instructions and the feedback received after taking actions. Crucially, to ensure that the agent actually "learns" from the feedback, LLF-Bench implements several randomization techniques (such as paraphrasing and environment randomization) to ensure that the task isn't familiar to the agent and that the agent is robust to various verbalizations. In addition, LLF-Bench provides a unified OpenAI Gym interface for all its tasks and allows the users to easily configure the information the feedback conveys (among suggestion, explanation, and instantaneous performance) to study how agents respond to different types of feedback. Together, these features make LLF-Bench a unique research platform for developing and testing LLF agents.
翻訳日:2023-12-14 12:29:47 公開日:2023-12-13
# 予測非相関推論

Prediction De-Correlated Inference ( http://arxiv.org/abs/2312.06478v2 )

ライセンス: Link先を確認
Feng Gan, Wanfeng Liang(参考訳) 機械学習手法を利用してラベルのないデータセットの結果を予測し、その後の統計的推論で擬似アウトカムを使用することは、現代のデータ分析では一般的である。 この設定での推論はしばしばポスト述語推論と呼ばれる。 本稿では,ポストプレディション設定下での推論のための新しい仮定型フレームワークを,PDC (emph{Prediction De-Correlated inference}) と呼ぶ。 我々の手法は、任意のブラックボックス機械学習モデルに自動的に適応し、教師付き手法を一貫して上回る。 PDCフレームワークはまた、複数の予測モデルに容易に拡張できる。 数値結果と実世界のデータ分析の両方が理論的結果を支持する。

Leveraging machine-learning methods to predict outcomes on some unlabeled datasets and then using these pseudo-outcomes in subsequent statistical inference is common in modern data analysis. Inference in this setting is often called post-prediction inference. We propose a novel, assumption-lean framework for inference under post-prediction setting, called \emph{Prediction De-Correlated inference} (PDC). Our approach can automatically adapt to any black-box machine-learning model and consistently outperforms supervised methods. The PDC framework also offers easy extensibility for accommodating multiple predictive models. Both numerical results and real-world data analysis support our theoretical results.
翻訳日:2023-12-14 12:28:58 公開日:2023-12-13
# メモリ拡張ニューラルネットワークに関する調査:AIアプリケーションに対する認知的洞察

Survey on Memory-Augmented Neural Networks: Cognitive Insights to AI Applications ( http://arxiv.org/abs/2312.06141v2 )

ライセンス: Link先を確認
Savya Khosla, Zhen Zhu, Yifei He(参考訳) 本稿では,人間の記憶過程をaiに融合する方法を考察し,記憶提示型ニューラルネットワーク(manns)について検討する。 感覚、短期記憶、長期記憶など、さまざまな記憶タイプをカバーし、心理学理論とAI応用を結びつける。 この研究は、Hopfield Networks、Neural Turing Machines、Relation Matrix Memories、Memformer、Neural Attention Memoryといった先進的なアーキテクチャを調査し、それらがどのように機能し、どこでエキサイティングであるかを説明する。 自然言語処理、コンピュータビジョン、マルチモーダル学習、検索モデルにまたがるMANNの現実的な利用に潜り込み、メモリブースターがAIタスクの正確性、効率、信頼性を高める方法を示している。 全体として、この調査はMANNの総合的なビューを提供し、メモリベースのAIシステムにおける将来の研究に対する洞察を提供する。

This paper explores Memory-Augmented Neural Networks (MANNs), delving into how they blend human-like memory processes into AI. It covers different memory types, like sensory, short-term, and long-term memory, linking psychological theories with AI applications. The study investigates advanced architectures such as Hopfield Networks, Neural Turing Machines, Correlation Matrix Memories, Memformer, and Neural Attention Memory, explaining how they work and where they excel. It dives into real-world uses of MANNs across Natural Language Processing, Computer Vision, Multimodal Learning, and Retrieval Models, showing how memory boosters enhance accuracy, efficiency, and reliability in AI tasks. Overall, this survey provides a comprehensive view of MANNs, offering insights for future research in memory-based AI systems.
翻訳日:2023-12-14 12:28:48 公開日:2023-12-13