このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231211となっている論文です。

PDF登録状況(公開日: 20231211)

TitleAuthorsAbstract論文公表日・翻訳日
# InferDPT:ブラックボックス大言語モデルのプライバシ保護推論

InferDPT: Privacy-Preserving Inference for Black-box Large Language Model ( http://arxiv.org/abs/2310.12214v5 )

ライセンス: Link先を確認
Meng Tong, Kejiang Chen, Jie Zhang, Yuang Qi, Weiming Zhang, Nenghai Yu, (参考訳) 大型言語モデル(LLM)は、ChatGPTと同様、テキスト生成タスクを非常に単純化している。 しかし、データ漏洩や不正なデータ収集などのプライバシーリスクへの懸念も持ち上がっている。 既存のプライバシ保護推論のソリューションは、計算時間と通信コストに関連する現実的な課題に直面している。 本稿では,テキスト生成における差分プライバシーを実装した,ブラックボックスLLMのプライバシ保護のための最初の実践的フレームワークであるInferDPTを提案する。 InferDPTは、2つの主要なモジュールから構成される:「摂動モジュール」は、指数的なメカニズムを利用して摂動的なプロンプトを生成し、ブラックボックスのLCMとのプライバシー保護推論を容易にし、"抽出モジュール"は知識の蒸留と検索拡張生成にインスパイアされ、摂動生成結果から一貫性のある一貫性のあるテキストを抽出し、テキスト生成を成功させる。 InferDPTの摂動モジュールに組み込まれた新たな差分プライバシー機構であるRANTEXTを導入し、そのプロンプト内でのTEXT摂動に対する「ランダム・アジャクティ」の概念を導入する。 3つのデータセットにわたる実験結果から、InferDPTのテキスト生成品質は非プライベートなGPT-4と同等であり、プライバシとユーティリティのトレードオフにおいて、RANTEXTは既存の最先端メカニズムであるSANTEXT+とCUSTEXT+を上回っていることが示されている。 プライバシーパラメータのepsilon値が6.0であっても、RANTEXTは埋め込みリビジョン攻撃に対して90%を超える平均プライバシー保護率を達成する。

Large language models (LLMs), like ChatGPT, have greatly simplified text generation tasks. However, they have also raised concerns about privacy risks such as data leakage and unauthorized data collection. Existing solutions for privacy-preserving inference face practical challenges related to computation time and communication costs. In this paper, we propose InferDPT, the first practical framework for the privacy-preserving Inference of black-box LLMs, implementing Differential Privacy in Text generation. InferDPT comprises two key modules: the "perturbation module" utilizes the exponential mechanism to generate a perturbed prompt, facilitating privacy-preserving inference with black-box LLMs, and the "extraction module", inspired by knowledge distillation and retrieval-augmented generation, extracts coherent and consistent text from the perturbed generation result, ensuring successful text generation completion. To address privacy concerns related to previous exponential mechanisms' susceptibility to embedding revision attacks, we introduce RANTEXT, a novel differential privacy mechanism integrated into the perturbation module of InferDPT, which introduces the concept of "RANdom adjacency" for TEXT perturbation within the prompt. Experimental results across three datasets demonstrate that the text generation quality of InferDPT is comparable to that of non-private GPT-4, and RANTEXT surpasses existing state-of-the-art mechanisms, namely, SANTEXT+ and CUSTEXT+ in the trade-off between privacy and utility. Even with an privacy parameter epsilon value of 6.0, RANTEXT achieves an average privacy protection rate exceeding 90% against embedding revision attacks, which is 0.58 times higher than that of SANTEXT+ and 3.35 times higher than that of CUSTEXT+.
翻訳日:2024-03-19 02:03:55 公開日:2023-12-11
# FLの高効率安全な凝集に向けて:コスト圧縮のための部分ベクトル凍結

Towards Efficient Secure Aggregation in FL: Partial Vector Freezing for Cost Compression ( http://arxiv.org/abs/2312.04920v2 )

ライセンス: Link先を確認
Siqing Zhang, Yong Liao, Pengyuan Zhou, (参考訳) ユーザベクトルのセキュアな集約は、連合学習の分野で重要な問題となっている。 多くのセキュアアグリゲーションプロトコル(SAP)は、その適用性を著しく制限するエクサビタントな計算コストに直面している。 SAPの計算負担のかなりの部分は、プライベートベクトルの各エントリを処理することに起因する。 本稿では,計算コストを圧縮するポータブルモジュールPVFを提案する。 PVF は、特定の線形変換を通じてプライベートベクトルのかなりの部分を ``freeze'' することができ、SAP に参加するために元のベクトルの $\frac{1}{\lambda}$ しか必要としない。 最終的には、ユーザは、SAPの結果として ``凍結エントリ' の公開合計を ``thaw' にすることができる。 機能強化のために,ユーザ元のベクトルに対する一貫性の制約を強制し,集計結果を検証し,サーバにプライベートベクトルの一部が知られている場合にセキュリティを強化する拡張を導入する。 PVFが様々なSAPとシームレスに統合できることを実証し、半正直でアクティブな敵の設定においてユーザのプライバシに脅威を与えないことを証明する。 我々は,SAPの異なるタイプを6ドルで含むベースラインを8ドルで選択し,これらのSAPに対するPVFの加速効果について検討する。 実証的な調査によると、$\lambda=100$のとき、PVFは99.5\times$スピードアップと$32.3\times$通信の削減を達成し、$\lambda$の増加とともに$000\times$アクセラレーションに近づく可能性がある。

Secure aggregation of user vectors has become a critical issue in the field of federated learning. Many Secure Aggregation Protocols (SAP) face exorbitant computation costs, which severely limit their applicability. We uncover that current endeavors to reduce computation costs tend to overlook a crucial fact: a considerable portion of SAP's computation burden stems from processing each entry in the private vectors. Given this observation, we propose PVF, a portable module for compressing computation costs. PVF is able to ``freeze'' a substantial portion of the private vector through specific linear transformations, only requiring $\frac{1}{\lambda}$ of the original vector to participate in SAP. Eventually, users can ``thaw'' the public sum of the ``frozen entries" by the result of SAP. To enhance functionality, we introduce extensions that can enforce consistency constraints on users' original vectors, verify aggregated results, and enhance security when a portion of the private vector is known to the server. We demonstrate that PVF can seamlessly integrate with various SAP and prove that it poses no threat to user privacy in the semi-honest and active adversary settings. We select $8$ baselines, encompassing $6$ distinct types of SAP, and explore the acceleration effects of PVF on these SAP. Empirical investigations indicate that when $\lambda=100$, PVF yields up to $99.5\times$ speedup and up to $32.3\times$ communication reduction, with the potential to approach nearly $1000\times$ acceleration as $\lambda$ increases.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-11
# AHSecAggとTSKG: 妥協のないフェデレーション学習のための軽量セキュアアグリゲーション

AHSecAgg and TSKG: Lightweight Secure Aggregation for Federated Learning Without Compromise ( http://arxiv.org/abs/2312.04937v2 )

ライセンス: Link先を確認
Siqing Zhang, Yong Liao, Pengyuan Zhou, (参考訳) ドメイン間プライバシに敏感なデータマイニングを可能にするためにフェデレーション学習(FL)を活用することは、プライバシ保護学習を実現する上で重要なブレークスルーとなる。 しかし、アタッカーは、アグリゲーションプロセス中にアップロードされた中間パラメータを分析して、元のユーザデータを推測することができる。 したがって、安全凝集はFLの分野において重要な問題となっている。 多くのセキュアアグリゲーションプロトコルは高い計算コストの問題に直面しており、適用性が著しく制限されている。 この目的のために,加法的同型マスクを用いた軽量なセキュアアグリゲーションプロトコルであるAHSecAggを提案する。 AHSecAggは、ドロップアウト処理能力やモデルの精度を損なうことなく、計算オーバーヘッドを大幅に削減する。 AHSecAggのセキュリティを半正直かつアクティブな敵設定で証明する。 また,各ラウンドで参加者群が比較的固定されたクロスサイロシナリオでは,ライトウェイトなThreshold Signatureベースのマスキングキー生成手法であるTSKGを提案する。 TSKGは、初期キーを使用して異なるアグリゲーションラウンドのための異なる一時的な秘密と共有を生成することができ、これにより、秘密共有と鍵契約のコストを効果的に排除できる。 TSKGがセキュリティを犠牲にしていないことを証明します。 AHSecAggは、計算効率の点で最先端のマスクベースのセキュアアグリゲーションプロトコルを著しく上回り、TSKGは既存のセキュアアグリゲーションプロトコルの計算と通信コストを効果的に削減する。

Leveraging federated learning (FL) to enable cross-domain privacy-sensitive data mining represents a vital breakthrough to accomplish privacy-preserving learning. However, attackers can infer the original user data by analyzing the uploaded intermediate parameters during the aggregation process. Therefore, secure aggregation has become a critical issue in the field of FL. Many secure aggregation protocols face the problem of high computation costs, which severely limits their applicability. To this end, we propose AHSecAgg, a lightweight secure aggregation protocol using additive homomorphic masks. AHSecAgg significantly reduces computation overhead without compromising the dropout handling capability or model accuracy. We prove the security of AHSecAgg in semi-honest and active adversary settings. In addition, in cross-silo scenarios where the group of participants is relatively fixed during each round, we propose TSKG, a lightweight Threshold Signature based masking key generation method. TSKG can generate different temporary secrets and shares for different aggregation rounds using the initial key and thus effectively eliminates the cost of secret sharing and key agreement. We prove TSKG does not sacrifice security. Extensive experiments show that AHSecAgg significantly outperforms state-of-the-art mask-based secure aggregation protocols in terms of computational efficiency, and TSKG effectively reduces the computation and communication costs for existing secure aggregation protocols.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-11
# ICS-Sniper:暗号化ICSトラフィックを標的としたブラックホール攻撃

ICS-Sniper: A Targeted Blackhole Attack on Encrypted ICS Traffic ( http://arxiv.org/abs/2312.06140v1 )

ライセンス: Link先を確認
Gargi Mitra, Pritam Dash, Yingao Elaine Yao, Aastha Mehta, Karthik Pattabiraman, (参考訳) 産業制御システム(ICS)のオペレーショナル・テクノロジー(OT)ネットワークは、ICSが強力なセキュリティ対策(例えば、認証と暗号化)を実装し、エンドツーエンドの制御通信を保護している。 セキュリティ対策にもかかわらず、ICSの通信経路におけるインターネットの敵がICSに侵入することなくダメージを与える可能性があることを示す。 我々は、ICSコマンドやデータを運ぶパケットを識別するためにパケットメタデータ(サイズ、タイミング)を分析し、ICSの操作を妨害するためにクリティカルパケットをドロップするターゲットのブラックホール攻撃であるICS-Sniperを提案する。 我々は,ICSの運転安全性を損なう可能性のある安全水処理プラント(SWaT)のエミュレーションに対する2つの攻撃を,最先端の検知システムを避けながら実証した。

Operational Technology (OT) networks of industrial control systems (ICS) are increasingly connected to the public Internet, which has prompted ICSes to implement strong security measures (e.g., authentication and encryption) to protect end-to-end control communication. Despite the security measures, we show that an Internet adversary in the path of an ICS's communication can cause damage to the ICS without infiltrating it. We present ICS-Sniper, a targeted blackhole attack that analyzes the packet metadata (sizes, timing) to identify the packets carrying critical ICS commands or data, and drops the critical packets to disrupt the ICS's operations. We demonstrate two attacks on an emulation of a Secure Water Treatment (SWaT) plant that can potentially violate the operational safety of the ICS while evading state-of-the-art detection systems.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# Maggieの秘密を盗む - FPGAリバースエンジニアリングによるIP盗難の課題について

Stealing Maggie's Secrets -- On the Challenges of IP Theft Through FPGA Reverse Engineering ( http://arxiv.org/abs/2312.06195v1 )

ライセンス: Link先を確認
Simon Klix, Nils Albartus, Julian Speith, Paul Staat, Alice Verstege, Annika Wilde, Daniel Lammers, Jörn Langheinrich, Christian Kison, Sebastian Sester, Daniel Holcomb, Christof Paar, (参考訳) 知的財産権(IP: Intellectual Property)は、アメリカだけでも毎年数十億ドルの損害を被ったとされる、金融と評判の大きな損害の原因である。 フィールドプログラマブルゲートアレイ(FPGA)はIP盗難に特に影響を受けており、その構成ファイルはIPを適度な努力でゲートレベルのネットリストにマップできるプロプライエタリなフォーマットで含んでいる。 この脅威にもかかわらず、この問題の科学的理解は現実に欠けており、学界におけるFPGAからのIP盗難の詳細な評価を妨げている。 iPhone 7で見つかったLattice iCE40 FPGAのケーススタディを通じて、この問題に対処する。 AppleはこのFPGAをMaggieと呼んでいる。 マギーに実装されたプロプライエタリな信号処理アルゴリズムをリバースエンジニアリングすることで、FPGAのIP盗難に要する実際の取り組みと、攻撃者が途中で直面している課題について、新たな洞察を得られる。 ケーススタディにより、我々は、必要な手作業を大幅に削減し、FPGAの実装やアーキテクチャの多種多様な範囲に適用できる一般化されたネットリストリバースエンジニアリング技術を導入しました。 これらの手法は, Xilinx と Lattice FPGA 向けに合成された,異なるFPGAアプリケーションに代表される7つのベンチマークで評価されている。 最後に,ネットリストのリバースエンジニアリング手法を包括したオープンソースツールを提供し,今後の研究を奨励し,コミュニティが現実的な脅威評価を行えるようにし,新たな対策の評価を容易にする。

Intellectual Property (IP) theft is a cause for major financial and reputational damage, reportedly in the range of hundreds of billions of dollars annually in the U.S. alone. Field Programmable Gate Arrays (FPGAs) are particularly exposed to IP theft, because their configuration file contains the IP in a proprietary format that can be mapped to a gate-level netlist with moderate effort. Despite this threat, the scientific understanding of this issue lacks behind reality, thereby preventing an in-depth assessment of IP theft from FPGAs in academia. We address this discrepancy through a real-world case study on a Lattice iCE40 FPGA found inside iPhone 7. Apple refers to this FPGA as Maggie. By reverse engineering the proprietary signal-processing algorithm implemented on Maggie, we generate novel insights into the actual efforts required to commit FPGA IP theft and the challenges an attacker faces on the way. Informed by our case study, we then introduce generalized netlist reverse engineering techniques that drastically reduce the required manual effort and are applicable across a diverse spectrum of FPGA implementations and architectures. We evaluate these techniques on seven benchmarks that are representative for different FPGA applications and have been synthesized for Xilinx and Lattice FPGAs. Finally, we provide a comprehensive open-source tool-suite of netlist reverse engineering techniques to foster future research, enable the community to perform realistic threat assessments, and facilitate the evaluation of novel countermeasures.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# Poisoned ChatGPTは、アイドルハンドの作業を見つける: 汚染されたAIモデルから安全でない提案で開発者のコーディングプラクティスを探索する

Poisoned ChatGPT Finds Work for Idle Hands: Exploring Developers' Coding Practices with Insecure Suggestions from Poisoned AI Models ( http://arxiv.org/abs/2312.06227v1 )

ライセンス: Link先を確認
Sanghak Oh, Kiho Lee, Seonhye Park, Doowon Kim, Hyoungshick Kim, (参考訳) AIを利用したコーディングアシスタントツールは、ソフトウェアエンジニアリングエコシステムに革命をもたらした。 しかし、以前の研究では、これらのツールが毒殺攻撃に弱いことが示されている。 毒攻撃では、攻撃者は故意に悪意ある不正なコードスニペットをトレーニングデータセットに注入し、これらのツールを操作する。 有毒なツールは開発者に対してコードの安全性を損なう可能性があるため、攻撃者が悪用できる製品に脆弱性が生じる可能性がある。 しかし、こうしたツールに対する毒殺攻撃が現実世界の環境で実用的かどうか、そしてソフトウェア開発における毒殺攻撃にどのように対処するかは、いまだに分かっていない。 AIを利用したコーディングアシスタントを利用する開発者に対する毒殺攻撃の現実的影響を理解するために、オンライン調査とインラボ調査という2つのユーザースタディを実施しました。 オンライン調査には、ソフトウェア開発者やコンピュータサイエンスの学生を含む238人の参加者が参加した。 調査の結果、主にコーディング速度の向上、繰り返しの排除、ボイラープレートコード獲得など、参加者の間でこれらのツールが広く採用されていることが明らかとなった。 しかし調査では、開発者は毒攻撃の危険性を見落としているため、これらのツールへの信頼を誤っている可能性があることも判明した。 研究は30人のプロの開発者によって行われた。 開発者は、Visual Studio Code上で動作するAIベースのコーディングアシスタントツールの代表型を使って、3つのプログラミングタスクを完了するよう求められた。 実験結果によると、有毒なChatGPTライクなツールを使用する開発者は、IntelliCodeライクなツールを使う場合やツールを使わない場合よりも、安全でないコードを含める傾向がある。 これは、生成されたコードのセキュリティに対するこれらのツールの強い影響を示しています。 本研究は,AIを利用したコーディングアシスタントツールが導入する新たなセキュリティ問題に対処するために,教育の必要性とコーディングプラクティスの改善を強調した。

AI-powered coding assistant tools have revolutionized the software engineering ecosystem. However, prior work has demonstrated that these tools are vulnerable to poisoning attacks. In a poisoning attack, an attacker intentionally injects maliciously crafted insecure code snippets into training datasets to manipulate these tools. The poisoned tools can suggest insecure code to developers, resulting in vulnerabilities in their products that attackers can exploit. However, it is still little understood whether such poisoning attacks against the tools would be practical in real-world settings and how developers address the poisoning attacks during software development. To understand the real-world impact of poisoning attacks on developers who rely on AI-powered coding assistants, we conducted two user studies: an online survey and an in-lab study. The online survey involved 238 participants, including software developers and computer science students. The survey results revealed widespread adoption of these tools among participants, primarily to enhance coding speed, eliminate repetition, and gain boilerplate code. However, the survey also found that developers may misplace trust in these tools because they overlooked the risk of poisoning attacks. The in-lab study was conducted with 30 professional developers. The developers were asked to complete three programming tasks with a representative type of AI-powered coding assistant tool, running on Visual Studio Code. The in-lab study results showed that developers using a poisoned ChatGPT-like tool were more prone to including insecure code than those using an IntelliCode-like tool or no tool. This demonstrates the strong influence of these tools on the security of generated code. Our study results highlight the need for education and improved coding practices to address new security issues introduced by AI-powered coding assistant tools.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出

Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks ( http://arxiv.org/abs/2312.06230v1 )

ライセンス: Link先を確認
Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu, (参考訳) この研究は、ディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす、データ中毒ベースのバックドア攻撃に対する防御に焦点を当てている。 具体的には、信頼できないトレーニングデータセットを考慮し、潜在的に有毒なサンプルであるShaie、有毒なサンプル検出(PSD)をフィルタリングすることを目的としている。 この課題の鍵となる解決策は、潜在的に有毒な試料に関する情報がないにもかかわらず、清潔な試料と有毒な試料の識別基準を見つけることである。 本研究では,信頼できないデータセットでトレーニングしたバックドアモデルにおいて,各サンプルの勾配 \wrt 活性化(\ie, アクティベーション 勾配方向, AGD)の観点から,革新的な検出手法を開発する。 対象クラスの全サンプルにおけるAGDの円周分布は, 1つのクリーンクラスよりもはるかに分散している,という興味深い観察結果が得られた。 この観測により,まず,各クラスの円分布の分散を測定するために,CVBT(Cosine similarity Variation to Basis Transition)と呼ばれる新しい尺度を設計した。 そこで本研究では,すべてのクラスにおけるCVBTスコアの外れ値検出を用いて,対象クラス(es)を同定する簡単なアルゴリズムを設計し,各サンプルと追加のクリーンサンプルとのAGDのコサイン類似性に応じて,有害サンプルを段階的にフィルタリングする手法を提案する。 様々な環境下での広範囲な実験により、各クラスの清浄なサンプルがほとんどない場合には、ほとんどの有毒なサンプルをろ過し、清浄なサンプルをろ過することを避け、PSDタスクにおけるその有効性を検証することができる。 コードはhttps://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.pyで公開されている。

This work focuses on defending against the data poisoning based backdoor attacks, which bring in serious security threats to deep neural networks (DNNs). Specifically, given a untrustworthy training dataset, we aim to filter out potential poisoned samples, \ie, poisoned sample detection (PSD). The key solution for this task is to find a discriminative metric between clean and poisoned samples, even though there is no information about the potential poisoned samples (\eg, the attack method, the poisoning ratio). In this work, we develop an innovative detection approach from the perspective of the gradient \wrt activation (\ie, activation gradient direction, AGD) of each sample in the backdoored model trained on the untrustworthy dataset. We present an interesting observation that the circular distribution of AGDs among all samples of the target class is much more dispersed than that of one clean class. Motivated by this observation, we firstly design a novel metric called Cosine similarity Variation towards Basis Transition (CVBT) to measure the circular distribution's dispersion of each class. Then, we design a simple yet effective algorithm with identifying the target class(es) using outlier detection on CVBT scores of all classes, followed by progressively filtering of poisoned samples according to the cosine similarities of AGDs between every potential sample and a few additional clean samples. Extensive experiments under various settings verify that given very few clean samples of each class, the proposed method could filter out most poisoned samples, while avoiding filtering out clean samples, verifying its effectiveness on the PSD task. Codes are available at https://github.com/SCLBD/bdzoo2/blob/dev/detection_pretrain/agpd.py.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# ランダム化キャッシュアーキテクチャのセキュリティに対する置換ポリシーの影響について

On The Effect of Replacement Policies on The Security of Randomized Cache Architectures ( http://arxiv.org/abs/2312.06235v1 )

ライセンス: Link先を確認
Moritz Peters, Nicolas Gaudin, Jan Philipp Thoma, Vianney Lapôtre, Pascal Cotret, Guy Gogniat, Tim Güneysu, (参考訳) アドレスのキャッシュエントリへのマッピングのランダム化は、Prime+Promeのような競合ベースの攻撃に対してキャッシュを硬化させる効果的なテクニックであることが証明されている。 攻撃と防御はまだ進化を続けているが、ランダム化されたキャッシュがこのような攻撃に対するセキュリティを著しく向上させることは明らかである。 しかし、ランダム化されたキャッシュアーキテクチャのほとんどの分析から欠落している側面は、置換ポリシーの選択である。 多くの場合、ランダムおよびLRU置換ポリシーのみが検討される。 しかし、LRUはハードウェアのオーバーヘッドが大きいためランダム化されたキャッシュには適用できないが、ランダムな置換ポリシーはパフォーマンスとセキュリティの観点からは理想的ではない。 本稿では,ランダム化キャッシュの代替ポリシーについて検討する。 我々は2つの新しい代替政策を開発し、Prime+Prune+Probe攻撃者に対するセキュリティに関して、合計5つの代替政策を評価する。 さらに、置換ポリシーがシステムの性能に与える影響を分析し、導入したハードウェアのオーバーヘッドを定量化する。 我々は,ソフトウェアとハードウェアに,独自のキャッシュシミュレータ gem5 と CV32E40P RISC-V コアを用いたランダム化キャッシュを実装した。 中でも,新たなポリシであるVARP-64では,ランダムな置換ポリシよりも25回以上のキャッシュアクセスが必要であり,全体的な性能も向上することを示す。

Randomizing the mapping of addresses to cache entries has proven to be an effective technique for hardening caches against contention-based attacks like Prime+Prome. While attacks and defenses are still evolving, it is clear that randomized caches significantly increase the security against such attacks. However, one aspect that is missing from most analyses of randomized cache architectures is the choice of the replacement policy. Often, only the random- and LRU replacement policies are investigated. However, LRU is not applicable to randomized caches due to its immense hardware overhead, while the random replacement policy is not ideal from a performance and security perspective. In this paper, we explore replacement policies for randomized caches. We develop two new replacement policies and evaluate a total of five replacement policies regarding their security against Prime+Prune+Probe attackers. Moreover, we analyze the effect of the replacement policy on the system's performance and quantify the introduced hardware overhead. We implement randomized caches with configurable replacement policies in software and hardware using a custom cache simulator, gem5, and the CV32E40P RISC-V core. Among others, we show that the construction of eviction sets with our new policy, VARP-64, requires over 25-times more cache accesses than with the random replacement policy while also enhancing overall performance.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# 高レベル合成による対策の安全性と信頼性評価

Security and Reliability Evaluation of Countermeasures implemented using High-Level Synthesis ( http://arxiv.org/abs/2312.06268v1 )

ライセンス: Link先を確認
Amalia Artemis Koufopoulou, Kalliopi Xevgeni, Athanasios Papadimitriou, Mihalis Psarakis, David Hely, (参考訳) デジタル回路の複雑さが増大するにつれて、高レベル合成(HLS)は、アプリケーション専用集積回路(ASIC)やフィールドプログラムゲートアレイ(FPGA)など、関連する電子設計自動化(EDA)フローを活用することにより、生産性と設計の再利用を高める貴重なツールになりつつある。 サイドチャネル分析(SCA)とフォールトインジェクション(FI)攻撃は強力なハードウェア攻撃であり、安全な実装の理論的セキュリティレベルを大幅に弱めることができる。 さらに、クリティカルなアプリケーションには、耐障害性を含む高いレベルの信頼性が要求される。 HLSツールにセキュリティと信頼性による最適化が欠如しているため、HLSベースの設計では、アルゴリズムの特性と対策がHLSフローのために損なわれていないことを検証する必要がある。 本研究では、前述の脅威に対するHLSベースのFPGA実装のレジリエンス評価結果を提供する。 テストケースとして、C言語で書かれ、Vivado HLSを用いて実装された、さまざまな対策(隠蔽とマスキング)を統合したオンザフライSBOXアルゴリズムの複数バージョンを使用する。 全ての設計と最適化シナリオについて広範な評価を行う。 この結果から,HLS最適化による暗号実装の安全性と信頼性の証明が得られた。 さらに、HLSアルゴリズムはセキュアなアクセラレータを設計するテストにも適用され、セキュアで信頼性の高い暗号実装の領域における生産性向上という目標に向けて改善につながる可能性がある。

As the complexity of digital circuits increases, High-Level Synthesis (HLS) is becoming a valuable tool to increase productivity and design reuse by utilizing relevant Electronic Design Automation (EDA) flows, either for Application-Specific Integrated Circuits (ASIC) or for Field Programmable Gate Arrays (FPGA). Side Channel Analysis (SCA) and Fault Injection (FI) attacks are powerful hardware attacks, capable of greatly weakening the theoretical security levels of secure implementations. Furthermore, critical applications demand high levels of reliability including fault tolerance. The lack of security and reliability driven optimizations in HLS tools makes it necessary for the HLS-based designs to validate that the properties of the algorithm and the countermeasures have not been compromised due to the HLS flow. In this work, we provide results on the resilience evaluation of HLS-based FPGA implementations for the aforementioned threats. As a test case, we use multiple versions of an on-the-fly SBOX algorithm integrating different countermeasures (hiding and masking), written in C and implemented using Vivado HLS. We perform extensive evaluations for all the designs and their optimization scenarios. The results provide evidence of issues arising due to HLS optimizations on the security and the reliability of cryptographic implementations. Furthermore, the results put HLS algorithms to the test of designing secure accelerators and can lead to improving them towards the goal of increasing productivity in the domain of secure and reliable cryptographic implementations.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# 性能ロスレスブラックボックスモデル透かし

Performance-lossless Black-box Model Watermarking ( http://arxiv.org/abs/2312.06488v1 )

ライセンス: Link先を確認
Na Zhao, Kejiang Chen, Weiming Zhang, Nenghai Yu, (参考訳) ディープラーニングの発展に伴い、高価値・高コストのモデルが価値ある資産となり、関連する知的財産保護技術がホットな話題となっている。 しかしながら、ブラックボックスシナリオにおける既存のモデル透かしの作業は、主にトレーニングベースのバックドア手法に由来する。 そこで本研究では,メッセージ認証方式に基づく構築を分岐指標として採用した,モデル知的財産権保護のためのブランチバックドア方式のモデル透かしプロトコルを提案する。 我々は、プロトコルの損失のない性能を削減によって証明する。 言語生成タスクを例に、提案プロトコルの有効性を示す。

With the development of deep learning, high-value and high-cost models have become valuable assets, and related intellectual property protection technologies have become a hot topic. However, existing model watermarking work in black-box scenarios mainly originates from training-based backdoor methods, which probably degrade original task performance. To address this, we propose a branch backdoor-based model watermarking protocol to protect model intellectual property, where a construction based on a message authentication scheme is adopted as the branch indicator. We prove the lossless performance of the protocol by reduction. Taking the language generation task as an instance, we show the effectiveness of the proposed protocol.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# オーナーを信頼するスマートコントラクトを信頼する - 集中化リスクを理解する

Trusting a Smart Contract Means Trusting Its Owners: Understanding Centralization Risk ( http://arxiv.org/abs/2312.06510v1 )

ライセンス: Link先を確認
Metin Lamby, Valentin Zieglmeier, Christian Ziegler, (参考訳) スマートコントラクトアクセス制御機構は、おそらく分散化されたエコシステムに中央集権化を導入することができる。 私たちの見解では、このような集中化は、よく知られたスマートコントラクトセキュリティインシデントに根ざした、スマートコントラクトの見過ごされるリスクである。 重要なことは、認証パターンを実装することによって、既知の許可証の欠如の脆弱性を軽減し、結果的に集中化を導入することができる。 この問題を明確にするために、集中化リスクを定義し、EthereumとAlgorandのスマートコントラクトに導入可能なスマートコントラクトソースコードパターンを記述します。 中央集権化を活用できる状況について説明する。 最後に、異なるスマートコントラクトステークホルダーに対する集中化リスクの影響について論じる。

Smart contract access control mechanisms can introduce centralization into supposedly decentralized ecosystems. In our view, such centralization is an overlooked risk of smart contracts that underlies well-known smart contract security incidents. Critically, mitigating the known vulnerability of missing permission verification by implementing authorization patterns can in turn introduce centralization. To delineate the issue, we define centralization risk and describe smart contract source code patterns for Ethereum and Algorand that can introduce it to smart contracts. We explain under which circumstances the centralization can be exploited. Finally, we discuss implications of centralization risk for different smart contract stakeholders.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# 非干渉加速器におけるトロイの木馬検出のためのゴールデンフリー形式法

A Golden-Free Formal Method for Trojan Detection in Non-Interfering Accelerators ( http://arxiv.org/abs/2312.06515v1 )

ライセンス: Link先を確認
Anna Lena Duque Antón, Johannes Müller, Lucas Deutschmann, Mohammad Rahmani Fadiheh, Dominik Stoffel, Wolfgang Kunz, (参考訳) 暗号アクセラレータのようなセキュリティクリティカルなIPにおけるハードウェアTrojans(HTs)の脅威は、深刻なセキュリティリスクを引き起こす。 今日入手可能なHT検出方法は、主にゴールデンモデルと詳細な回路仕様に依存している。 多くの場合、特定のHTペイロードタイプに特化しており、プレシリコン検証が難しくなり、セキュリティのギャップが生じる。 本稿では、標準の形式的プロパティチェックを用いて、レジスタ転送レベル(RTL)における非干渉型アクセラレータにおけるHT検出のための新しい形式的検証手法を提案する。 本手法は,物理チャネルを含むペイロードの挙動とは無関係に,シーケンシャルHTの徹底的な検出を保証している。 黄金のモデルや設計の機能的な仕様は必要ありません。 実験結果は、複雑なトリガやペイロードを含むTrust-Hubで利用可能なアクセラレーターにおいて、すべてのシーケンシャルHTを効率的かつ効果的に検出することを示した。

The threat of hardware Trojans (HTs) in security-critical IPs like cryptographic accelerators poses severe security risks. The HT detection methods available today mostly rely on golden models and detailed circuit specifications. Often they are specific to certain HT payload types, making pre-silicon verification difficult and leading to security gaps. We propose a novel formal verification method for HT detection in non-interfering accelerators at the Register Transfer Level (RTL), employing standard formal property checking. Our method guarantees the exhaustive detection of any sequential HT independently of its payload behavior, including physical side channels. It does not require a golden model or a functional specification of the design. The experimental results demonstrate efficient and effective detection of all sequential HTs in accelerators available on Trust-Hub, including those with complex triggers and payloads.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# RFフィンガープリントにおけるCDLおよびTDL増強の効果について

On the Impact of CDL and TDL Augmentation for RF Fingerprinting under Impaired Channels ( http://arxiv.org/abs/2312.06555v1 )

ライセンス: Link先を確認
Omer Melih Gul, Michel Kulhandjian, Burak Kantarci, Claude D'Amours, Azzedine Touazi, Cliff Ellement, (参考訳) サイバー物理システムは最近、高い操作性のため、いくつかの領域(コネクテッドカーや自動運転車など)で使用されている。 一方、サイバー攻撃を受けやすい。 無線周波数(RF)フィンガープリントは有望なアプローチとして現れる。 本研究の目的は、タップした遅延線とクラスタ化された遅延線(TDL+CDL)の分離が送信者固有の指紋に与える影響を分析し、悪意のあるユーザを正当なユーザと区別することである。 この作業では、5GのみのCDL、WiFiのみのTDL拡張アプローチも検討している。 RFフィンガープリントモデルは、チャネルや環境の変化に敏感である。 そのため、DLモデルのデプロイ時に考慮すべきである。 データ取得も選択肢のひとつだ。 それでも、様々な条件下でサンプルを集めることは非常に困難である。 そのため、データ取得は不可能である。 この研究は、5G、4G、WiFiサンプルを含むデータセットを使用し、DLモデルの学習性能を高めるために、CDL+TDLベースの拡張技術を強化する。 CDL+TDL, 5G-only-CDL, WiFi-only-TDL Augmentation approach は, 未観測データに対して 87.59%, 81.63%, 79.21%, TDL/CDL Augmentation Technique では 77.81%, 74.84% の精度が得られた。

Cyber-physical systems have recently been used in several areas (such as connected and autonomous vehicles) due to their high maneuverability. On the other hand, they are susceptible to cyber-attacks. Radio frequency (RF) fingerprinting emerges as a promising approach. This work aims to analyze the impact of decoupling tapped delay line and clustered delay line (TDL+CDL) augmentation-driven deep learning (DL) on transmitter-specific fingerprints to discriminate malicious users from legitimate ones. This work also considers 5G-only-CDL, WiFi-only-TDL augmentation approaches. RF fingerprinting models are sensitive to changing channels and environmental conditions. For this reason, they should be considered during the deployment of a DL model. Data acquisition can be another option. Nonetheless, gathering samples under various conditions for a train set formation may be quite hard. Consequently, data acquisition may not be feasible. This work uses a dataset that includes 5G, 4G, and WiFi samples, and it empowers a CDL+TDL-based augmentation technique in order to boost the learning performance of the DL model. Numerical results show that CDL+TDL, 5G-only-CDL, and WiFi-only-TDL augmentation approaches achieve 87.59%, 81.63%, 79.21% accuracy on unobserved data while TDL/CDL augmentation technique and no augmentation approach result in 77.81% and 74.84% accuracy on unobserved data, respectively.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# フィンガープリント協調型ロボット交通の可能性について

On the Feasibility of Fingerprinting Collaborative Robot Traffic ( http://arxiv.org/abs/2312.06802v1 )

ライセンス: Link先を確認
Cheng Tang, Diogo Barradas, Urs Hengartner, Yue Hu, (参考訳) 本研究では, 協調ロボットにおけるプライバシーリスクについて検討し, 暗号化ロボット通信における交通分析の可能性に着目した。 従来,低レベルのコマンドリカバリについて検討してきたが,コマンドメッセージシーケンスからの高レベルのモーションリカバリについて検討した。 従来のWebサイトフィンガープリント技術(k-FP,KNN,CUMUL)の有効性と,詳細な時間的関係を捉えることができないため,ロボット動作を正確に識別する際の限界について検討した。 これを解決するために,信号処理技術を用いたトラフィック分類手法を導入し,行動識別の精度を高め,プライバシー侵害に対する暗号化通信の脆弱性を強調した。 さらに,パケットパディングやタイミング操作などの防御策についても検討し,トラヒック解析抵抗とネットワーク効率のバランスをとる上での課題を明らかにした。 本研究は,ロボットのプライバシとセキュリティにおける実用的防御の継続的な開発の必要性を強調した。

This study examines privacy risks in collaborative robotics, focusing on the potential for traffic analysis in encrypted robot communications. While previous research has explored low-level command recovery, our work investigates high-level motion recovery from command message sequences. We evaluate the efficacy of traditional website fingerprinting techniques (k-FP, KNN, and CUMUL) and their limitations in accurately identifying robotic actions due to their inability to capture detailed temporal relationships. To address this, we introduce a traffic classification approach using signal processing techniques, demonstrating high accuracy in action identification and highlighting the vulnerability of encrypted communications to privacy breaches. Additionally, we explore defenses such as packet padding and timing manipulation, revealing the challenges in balancing traffic analysis resistance with network efficiency. Our findings emphasize the need for continued development of practical defenses in robotic privacy and security.
翻訳日:2024-03-18 12:36:38 公開日:2023-12-11
# グラフニューラルネットワークを用いたHLS設計のハードウェアセキュリティ特性の予測について

On the Prediction of Hardware Security Properties of HLS Designs Using Graph Neural Networks ( http://arxiv.org/abs/2312.07594v1 )

ライセンス: Link先を確認
Amalia Artemis Koufopoulou, Athanasios Papadimitriou, Aggelos Pikrakis, Mihalis Psarakis, David Hely, (参考訳) 高レベル合成(HLS)ツールは、近年、デジタルシステムの設計フローを大幅に向上させ、領域とレイテンシの点で高度に最適化された回路を生み出している。 ハードウェアアタックの進化によって脆弱性が生じることを考えると、セキュリティをHLS設計フローの重要な側面と考えることが不可欠である。 しかし、HLS設計空間の多くの機能的に等価なデサインを評価する必要性は、ハードウェアセキュリティ評価手法(例えば、フォールトインジェクション - FIキャンペーン)に挑戦する。 本研究では,従来の評価手法(FIなど)よりも優れた高速化とスケーラビリティを実現する,最先端のグラフニューラルネットワーク(GNN)アプローチを用いたHLS設計のハードウェアセキュリティ特性の評価手法を提案する。 本稿では, AES SBox実装に適用したDouble Modular Redundancy (DMR) コーウンタロメータについて, HLSディレクティブによる冗長モジュールの多様化を図り,提案手法を実証する。 実験結果から,GNNは回帰を用いて,故障攻撃(臨界・検出誤差率など)に関する重要なハードウェアセキュリティ脅威の予測を効率的に行うことができることがわかった。 提案手法は,高いR二乗スコアを持つHLS設計の欠陥脆弱性メトリクスを予測し,GNNの訓練が完了すると,故障注入と比較して大幅に高速化される。

High-level synthesis (HLS) tools have provided significant productivity enhancements to the design flow of digital systems in recent years, resulting in highly-optimized circuits, in terms of area and latency. Given the evolution of hardware attacks, which can render them vulnerable, it is essential to consider security as a significant aspect of the HLS design flow. Yet the need to evaluate a huge number of functionally equivalent de-signs of the HLS design space challenges hardware security evaluation methods (e.g., fault injection - FI campaigns). In this work, we propose an evaluation methodology of hardware security properties of HLS-produced designs using state-of-the-art Graph Neural Network (GNN) approaches that achieves significant speedup and better scalability than typical evaluation methods (such as FI). We demonstrate the proposed methodology on a Double Modular Redundancy (DMR) coun-termeasure applied on an AES SBox implementation, en-hanced by diversifying the redundant modules through HLS directives. The experimental results show that GNNs can be efficiently trained to predict important hardware security met-rics concerning fault attacks (e.g., critical and detection error rates), by using regression. The proposed method predicts the fault vulnerability metrics of the HLS-based designs with high R-squared scores and achieves huge speedup compared to fault injection once the training of the GNN is completed.
翻訳日:2024-03-18 12:26:52 公開日:2023-12-11
# メタボリックオペレーティングシステムにおけるセキュリティ,拡張性,冗長性

Security, extensibility, and redundancy in the Metabolic Operating System ( http://arxiv.org/abs/2401.01357v1 )

ライセンス: Link先を確認
Samuel T. King, (参考訳) 1型糖尿病患者(T1D)は自然にインスリンを産生する能力を失う。 補うために、合成インスリンを注入する。 インスリンを注入する一般的な方法は、インスリンの代謝状態を監視するセンサーと、インスリンを適応させるためにインスリンポンプ装置を使用する自動インスリンデリバリーシステムである。 本稿では,新しい自動インスリンデリバリーシステムであるメタボリック・オペレーティング・システムについて述べる。 アーキテクチャの観点から、コアシステムを単純化し、コアクローズドループアルゴリズムから非クリティカルな機能を分離するために分離原理を適用します。 アルゴリズムの観点から、我々はインスリン技術のトレンドを評価し、最先端の状況から、単純だが効果的なアルゴリズムを定式化する。 安全性の観点からは、システムを使用している人が安全であることを保証するために、複数の冗長性層を構築します。 本論文は,インスリン自動配送システムの構築と運用に関する実体験に関する論文である。 私たちは、システムを使って1人の個人と仕事をした経験に基づいて、デザインイテレーションを報告します。 我々の評価は、セキュリティ第一原則を用いてゼロから構築された自動インスリンデリバリーシステムが、T1Dを効果的に管理できることを示している。 ソースコードはオープンソースで、GitHubから入手可能です(リンクは省略されています)。

People living with Type 1 Diabetes (T1D) lose the ability to produce insulin naturally. To compensate, they inject synthetic insulin. One common way to inject insulin is through automated insulin delivery systems, which use sensors to monitor their metabolic state and an insulin pump device to adjust insulin to adapt. In this paper, we present the Metabolic Operating System, a new automated insulin delivery system that we designed from the ground up using security first principles. From an architecture perspective, we apply separation principles to simplify the core system and isolate non-critical functionality from the core closed-loop algorithm. From an algorithmic perspective, we evaluate trends in insulin technology and formulate a simple, but effective, algorithm given the state-of-the-art. From a safety perspective, we build in multiple layers of redundancy to ensure that the person using our system remains safe. Fundamentally, this paper is a paper on real-world experiences building and running an automated insulin delivery system. We report on the design iterations we make based on experiences working with one individual using our system. Our evaluation shows that an automated insulin delivery system built from the ground up using security first principles can still help manage T1D effectively. Our source code is open source and available on GitHub (link omitted).
翻訳日:2024-03-18 10:39:12 公開日:2023-12-11
# WISE:地下拡張によるフルウェーブフォーム変動推論

WISE: full-Waveform variational Inference via Subsurface Extensions ( http://arxiv.org/abs/2401.06230v1 )

ライセンス: Link先を確認
Ziyi Yin and Rafael Orozco and Mathias Louboutin and Felix J. Herrmann(参考訳) 本稿では,移動速度モデルにおける不確実性とその画像への影響を定量化するために,変分推論と条件正規化フローを用いたフルウェーブフォームインバージョンのための確率的手法を提案する。 提案手法は、生成人工知能と物理インフォームド・コモンイメージ・コレクションを統合し、正確な初期速度モデルへの依存を減らす。 検討されたケーススタディは、データによって条件づけられた移行速度モデルの実現性を示す。 これらのモデルは、後続の撮像中に振幅および位置決め効果を定量化するために使用される。

We introduce a probabilistic technique for full-waveform inversion, employing variational inference and conditional normalizing flows to quantify uncertainty in migration-velocity models and its impact on imaging. Our approach integrates generative artificial intelligence with physics-informed common-image gathers, reducing reliance on accurate initial velocity models. Considered case studies demonstrate its efficacy producing realizations of migration-velocity models conditioned by the data. These models are used to quantify amplitude and positioning effects during subsequent imaging.
翻訳日:2024-01-22 12:37:57 公開日:2023-12-11
# 普遍量子場のゆらぎの謎

The Enigmas of Fluctuations of the Universal Quantum Fields ( http://arxiv.org/abs/2401.08638v1 )

ライセンス: Link先を確認
Mani L. Bhaumik(参考訳) 現実の主な要素は普遍量子場であり、永続的に、自発的に、ランダムに変動する。 科学コミュニティの一般的な認識は、これらの量子揺らぎは不確実性原理によるものであるということである。 ここでは、不確実性原理が量子ゆらぎの結果であり、その原因ではないことを示すコジェントな議論を示す。 このことは、普遍体が予想値で不変であり続けることに関して顕著な謎を浮き彫りにしており、実験結果が1兆分の1に正確である。 我々は、この謎に対する十分な解決策が存在しない場合の合理的な可能性について議論する。

The primary ingredients of reality are the universal quantum fields, which fluctuate persistently, spontaneously, and randomly. The general perception of the scientific community is that these quantum fluctuations are due to the uncertainty principle. Here, we present cogent arguments to show that the uncertainty principle is a consequence of the quantum fluctuations, but not their cause. This poses a conspicuous enigma as to how the universal fields remain immutable with an expectation value so accurate that it leads to experimental results, which are precise to one part in a trillion. We discuss some reasonable possibilities in the absence of a satisfactory solution to this enigma.
翻訳日:2024-01-22 09:52:21 公開日:2023-12-11
# mcus上の小型aiアクセラレータの動的構成による協調推論

Collaborative Inference via Dynamic Composition of Tiny AI Accelerators on MCUs ( http://arxiv.org/abs/2401.08637v1 )

ライセンス: Link先を確認
Taesik Gong, Si Young Jang, Utku G\"unay Acer, Fahim Kawsar, Chulhong Min(参考訳) 小さなAIアクセラレータの出現は、極端にディープニューラルネットワークをデプロイする機会を開放し、レイテンシを低減し、電力コストを低減し、オンデバイスML推論におけるプライバシを改善する。 これらの進歩にもかかわらず、オンボードメモリの制限やシングルデバイスフォーカスなど、これらのアクセラレータの固有の制限により、課題は継続する。 本稿では,マルチテナントモデル用の小型AIアクセラレータを動的に構成するシステムであるSynergyを紹介する。 Synergyの重要な特徴は、その仮想コンピューティング空間であり、リソースの統一された仮想ビューを提供し、物理デバイスへの効率的なタスクマッピングを可能にする。 Synergyのランタイムオーケストレーションモジュールは、動的および異種アクセラレータ間の最適な推論を保証する。 7つのベースラインと8つのモデルで評価した結果,Synergyはベースラインと比較して平均8.0倍のスループット向上を実現している。

The advent of tiny AI accelerators opens opportunities for deep neural network deployment at the extreme edge, offering reduced latency, lower power cost, and improved privacy in on-device ML inference. Despite these advancements, challenges persist due to inherent limitations of these accelerators, such as restricted onboard memory and single-device focus. This paper introduces Synergy, a system that dynamically composes tiny AI accelerators for multi-tenant models, effectively addressing tinyML's critical challenges for the increasing demand for on-device AI. A key feature of Synergy is its virtual computing space, providing a unified, virtualized view of resources and enabling efficient task mapping to physical devices. Synergy's runtime orchestration module ensures optimal inference across dynamic and heterogeneous accelerators. Our evaluations with 7 baselines and 8 models demonstrate that Synergy improves throughput by an average of 8.0X compared to baselines.
翻訳日:2024-01-22 09:52:11 公開日:2023-12-11
# mlcommonsのクラウドマスクベンチマークが早期停止

MLCommons Cloud Masking Benchmark with Early Stopping ( http://arxiv.org/abs/2401.08636v1 )

ライセンス: Link先を確認
Varshitha Chennamsetti and Gregor von Laszewski and Ruochen Gu and Laiba Mehnaz and Juri Papay and Samuel Jackson and Jeyan Thiyagalingam and Sergey V. Samsonau and Geoffrey C. Fox(参考訳) 本稿では,MLCommons Science Working Groupが行ったクラウドマスキングベンチマークについて報告する。 MLCommonsは、AIの開発を支援するために、いくつかの科学的ベンチマークを開発し、維持するコンソーシアムである。 ベンチマークは、ニューヨーク大学とバージニア大学のハイパフォーマンスコンピューティング(hpc)クラスタとコモディティデスクトップで実施されている。 クラウドマスキングベンチマークについての説明や,実施したベンチマーク実験に関するMLCommonsへの提出の概要について紹介する。 早期停止を可能にするcloud masking benchmarkのリファレンス実装の変更が含まれている。 このベンチマークはNYU HPC上で、バッチキューシステムを通じてさまざまな実験を実行するカスタムバッチスクリプトを通じて実行され、トレーニングされたエポック数の変動を許容する。 提案には、修正コード、エポックを修正するカスタムバッチスクリプト、ドキュメント、ベンチマーク結果が含まれています。 我々は,NYU HPC Greeneで達成したトレーニングおよび推論において,最高精度(科学的指標)と平均時間(性能指標)を報告する。 また,ベンチマークを1時間毎に実行することで,異なるシステム間の計算能力の比較を行う。 我々の提出は、MLCommons Science Working Groupにアクセス可能なGlobusリポジトリで確認できます。

In this paper, we report on work performed for the MLCommons Science Working Group on the cloud masking benchmark. MLCommons is a consortium that develops and maintains several scientific benchmarks that aim to benefit developments in AI. The benchmarks are conducted on the High Performance Computing (HPC) Clusters of New York University and University of Virginia, as well as a commodity desktop. We provide a description of the cloud masking benchmark, as well as a summary of our submission to MLCommons on the benchmark experiment we conducted. It includes a modification to the reference implementation of the cloud masking benchmark enabling early stopping. This benchmark is executed on the NYU HPC through a custom batch script that runs the various experiments through the batch queuing system while allowing for variation on the number of epochs trained. Our submission includes the modified code, a custom batch script to modify epochs, documentation, and the benchmark results. We report the highest accuracy (scientific metric) and the average time taken (performance metric) for training and inference that was achieved on NYU HPC Greene. We also provide a comparison of the compute capabilities between different systems by running the benchmark for one epoch. Our submission can be found in a Globus repository that is accessible to MLCommons Science Working Group.
翻訳日:2024-01-22 09:51:54 公開日:2023-12-11
# ニューラル・ラジアンス・フィールドによる視覚効果の創出

Creating Visual Effects with Neural Radiance Fields ( http://arxiv.org/abs/2401.08633v1 )

ライセンス: Link先を確認
Cyrus Vachha(参考訳) 本稿では、nerfsのトレーニングとレンダリングのためのオープンソースのフレームワークであるnerfstudioを使用して、従来の構成vfxパイプラインにnerfを統合するパイプラインを提案する。 私たちのアプローチでは、広く使用されているオープンソースの3D生成ソフトウェアであるBlenderを使用して、カメラパスと複合NeRFレンダリングをメッシュや他のNeRFと整列させ、従来のVFXパイプラインにNeRFをシームレスに統合することが可能になる。 我々のNeRFブレンダーアドオンは、フォトリアリスティックシーンのより制御されたカメラトラジェクトリ、メッシュや他の環境効果の合成、複数のNeRFを一つのシーンで合成することを可能にする。このNeRF対応カメラパスを生成するアプローチは、他の3Dツールセットやワークフローに適応することができ、NeRFを視覚効果や映画制作にシームレスに統合することができる。 ドキュメンテーションは以下の通り: https://docs.nerf.studio/extensions/blender_addon.html

We present a pipeline for integrating NeRFs into traditional compositing VFX pipelines using Nerfstudio, an open-source framework for training and rendering NeRFs. Our approach involves using Blender, a widely used open-source 3D creation software, to align camera paths and composite NeRF renders with meshes and other NeRFs, allowing for seamless integration of NeRFs into traditional VFX pipelines. Our NeRF Blender add-on allows for more controlled camera trajectories of photorealistic scenes, compositing meshes and other environmental effects with NeRFs, and compositing multiple NeRFs in a single scene.This approach of generating NeRF aligned camera paths can be adapted to other 3D tool sets and workflows, enabling a more seamless integration of NeRFs into visual effects and film production. Documentation can be found here: https://docs.nerf.studio/extensions/blender_addon.html
翻訳日:2024-01-22 09:51:36 公開日:2023-12-11
# 野生動物におけるフェア・メディカル・イメージング・aiの限界

The Limits of Fair Medical Imaging AI In The Wild ( http://arxiv.org/abs/2312.10083v1 )

ライセンス: Link先を確認
Yuzhe Yang, Haoran Zhang, Judy W Gichoya, Dina Katabi, Marzyeh Ghassemi(参考訳) 人工知能(AI)は、医療画像における人間のレベルパフォーマンスに急速にアプローチしているため、医療格差を悪化させ、伝播させることは不可欠である。 以前の研究では、胸部x線から人口統計データを推測するaiの能力を確立しており、重要な懸念となっている。 本研究では,医療用AIが人口統計エンコーディングをどのように利用するかについて,分布内トレーニングセットと外部テストセットの両方において,潜在的公正性の違いに着目し,徹底的な調査を行う。 対象は放射線科,皮膚科,眼科の3分野であり,6つの胸部x線データからのデータを取り入れた。 医療画像AIは、疾患分類における人口動態のショートカットを活用する。 ショートカットの修正は、元のデータ分散内で「局所的に最適な」モデルを作成するためにフェアネスギャップを効果的に解決するが、新しいテスト設定ではこの最適性は当てはまらない。 驚くべきことに、人口統計属性のエンコーディングが少ないモデルは、新しいテスト環境でのモデル評価において、最も「グローバルに最適」であることが多い。 我々の研究は、最初のトレーニングコンテキストを超えて、デプロイメントのパフォーマンスと公平性を維持する医療画像モデルのベストプラクティスを確立し、人口やサイトをまたがるAI臨床展開における重要な考慮事項を明らかにする。

As artificial intelligence (AI) rapidly approaches human-level performance in medical imaging, it is crucial that it does not exacerbate or propagate healthcare disparities. Prior research has established AI's capacity to infer demographic data from chest X-rays, leading to a key concern: do models using demographic shortcuts have unfair predictions across subpopulations? In this study, we conduct a thorough investigation into the extent to which medical AI utilizes demographic encodings, focusing on potential fairness discrepancies within both in-distribution training sets and external test sets. Our analysis covers three key medical imaging disciplines: radiology, dermatology, and ophthalmology, and incorporates data from six global chest X-ray datasets. We confirm that medical imaging AI leverages demographic shortcuts in disease classification. While correcting shortcuts algorithmically effectively addresses fairness gaps to create "locally optimal" models within the original data distribution, this optimality is not true in new test settings. Surprisingly, we find that models with less encoding of demographic attributes are often most "globally optimal", exhibiting better fairness during model evaluation in new test environments. Our work establishes best practices for medical imaging models which maintain their performance and fairness in deployments beyond their initial training contexts, underscoring critical considerations for AI clinical deployments across populations and sites.
翻訳日:2024-01-15 13:50:36 公開日:2023-12-11
# 説明可能なMOOCレコメンデーションのためのパスを見つける:学習者の視点

Finding Paths for Explainable MOOC Recommendation: A Learner Perspective ( http://arxiv.org/abs/2312.10082v1 )

ライセンス: Link先を確認
Jibril Frej and Neel Shah and Marta Kne\v{z}evi\'c and Tanya Nazaretsky and Tanja K\"aser(参考訳) MOOC(Massive Open Online Courses)の利用が増加し、パーソナライズされたコースレコメンデーションシステムの必要性が高まった。 これらのシステムはニューラルネットワークと知識グラフ(KG)を組み合わせて、学習者とコースのより豊かな表現を実現する。 これらの豊かな表現はより正確でパーソナライズされたレコメンデーションを可能にするが、教育やオンライン学習などの重要な影響を持つ特定の領域で特に問題となる説明容易性は重要な課題である。 近年,KG上での強化学習とグラフ推論を用いて,KG上の経路の形で説明可能なレコメンデーションを生成する新しいレコメンデーションシステムが提案されている。 電子商取引データセットの精度と解釈性にもかかわらず、これらのアプローチは教育領域にはほとんど適用されておらず、実際は研究されていない。 本稿では,グラフ推論を用いたmoocsのための説明可能なレコメンデーションシステムを提案する。 提案手法の実際的意義を検証するために,新しい説明可能なレコメンデーションのユーザ知覚を検証した。 我々は,COCOとXuetangという2つの教育データセットで実験を行うことにより,我々のアプローチの一般化可能性を示す。

The increasing availability of Massive Open Online Courses (MOOCs) has created a necessity for personalized course recommendation systems. These systems often combine neural networks with Knowledge Graphs (KGs) to achieve richer representations of learners and courses. While these enriched representations allow more accurate and personalized recommendations, explainability remains a significant challenge which is especially problematic for certain domains with significant impact such as education and online learning. Recently, a novel class of recommender systems that uses reinforcement learning and graph reasoning over KGs has been proposed to generate explainable recommendations in the form of paths over a KG. Despite their accuracy and interpretability on e-commerce datasets, these approaches have scarcely been applied to the educational domain and their use in practice has not been studied. In this work, we propose an explainable recommendation system for MOOCs that uses graph reasoning. To validate the practical implications of our approach, we conducted a user study examining user perceptions of our new explainable recommendations. We demonstrate the generalizability of our approach by conducting experiments on two educational datasets: COCO and Xuetang.
翻訳日:2024-01-15 13:50:12 公開日:2023-12-11
# 量子およびai技術のビジネス採用が倫理的になる理由

Why Business Adoption of Quantum and AI Technology Must Be Ethical ( http://arxiv.org/abs/2312.10081v1 )

ライセンス: Link先を確認
Christian Hugo Hoffmann, Frederik F. Fl\"other(参考訳) 人工知能(AI)は最近'iPhoneの瞬間'を持ち、採用が大幅に加速した。 量子コンピューティングは、今後数年にわたって続くだろう。 しかし、AIを責任を持って使う方法については議論があるが、これらの新興技術の交差によって引き起こされる幅広い倫理的問題や影響について、幹部、マネージャ、実践者の間では、まだ感謝と認識がほとんどない。 この記事では、量子コンピューティングとAI倫理がビジネスパーソンによって真剣に取られる必要がある理由と、これらの技術が戦略的決定にどう影響するかを強調します。

Artificial intelligence (AI) recently had its 'iPhone moment' and adoption has drastically accelerated. Quantum computing appears poised to follow suit over the next years. However, while there has been discourse about how to use AI responsibly, there is still little appreciation and awareness among executives, managers, and practitioners about the broader ethical questions and implications raised by the intersection of these emerging technologies. In this article, it is highlighted why quantum computing and AI ethics must be taken seriously by businesspersons and how these technologies affect strategic decisions; moreover, recommendations and action areas are formulated.
翻訳日:2024-01-15 13:49:52 公開日:2023-12-11
# AIによる意思決定における説明可能な人工知能の役割に関する人間中心レビュー

Explain To Decide: A Human-Centric Review on the Role of Explainable Artificial Intelligence in AI-assisted Decision Making ( http://arxiv.org/abs/2312.11507v1 )

ライセンス: Link先を確認
Milad Rogha(参考訳) 近年の機械学習モデル、特にディープラーニングとトランスフォーマーモデルにおける前例のないパフォーマンスは、金融、医療、教育など様々な分野に応用されている。 しかしながら、モデルはエラーを起こしやすく、特に技術的または倫理的にエラーのコストが高い意思決定シナリオでは、自律的に使用できない。 さらに、これらのモデルのブラックボックスの性質から、エンドユーザーがモデルの成果を理解したり、モデルの結果を信頼したり、決定に使ったりするプロセスを理解することは、しばしば困難である。 説明可能な人工知能(XAI)は、可視化技術を含むアプローチを利用して、モデルの内部動作と結果の到達方法を説明し、解釈することで、モデルのエンドユーザーによる理解を支援する。 近年、モデルの性能とXAIアプローチに焦点をあてた研究が数多く行われているが、人間-AIチームパフォーマンスに対する説明の影響についての説明は少ない。 本稿では、XAIの人間-AI意思決定への影響に関する最近の実証的研究を調査し、課題を特定し、今後の研究方向性を提案する。

The unprecedented performance of machine learning models in recent years, particularly Deep Learning and transformer models, has resulted in their application in various domains such as finance, healthcare, and education. However, the models are error-prone and cannot be used autonomously, especially in decision-making scenarios where, technically or ethically, the cost of error is high. Moreover, because of the black-box nature of these models, it is frequently difficult for the end user to comprehend the models' outcomes and underlying processes to trust and use the model outcome to make a decision. Explainable Artificial Intelligence (XAI) aids end-user understanding of the model by utilizing approaches, including visualization techniques, to explain and interpret the inner workings of the model and how it arrives at a result. Although numerous research studies have been conducted recently focusing on the performance of models and the XAI approaches, less work has been done on the impact of explanations on human-AI team performance. This paper surveyed the recent empirical studies on XAI's impact on human-AI decision-making, identified the challenges, and proposed future research directions.
翻訳日:2024-01-15 13:24:15 公開日:2023-12-11
# ビスカリネットワーク プリンシペ(priincipe)の略。

Biscari Network. Tutti gli uomini del principe ( http://arxiv.org/abs/2312.11505v1 )

ライセンス: Link先を確認
Salvatore Spina(参考訳) その多様性のおかげで、シチリアで最も代表的な家族のアーカイブの一つであるビスカリアーカイブは、新しいデジタル歴史研究において、歴史家がカタニア市とシチリア市の歴史を再構築できる貴重な計算可能なデータのセットとなった。 イグナツィオ・パテルノ・カステッロ(Ignazio Paterno' Castello)とその妻アナ(Biscari の王子)は1693年の地震の後、政治的にも文化的にも再建の推進者であった。 デジタル歴史方法論は、この高貴な家族がいかに強大に構築したかという伝統的な歴史学のギャップを補うことができるだろうか? 私たちが知っているように、人間性は理解可能な数や名前に簡単にカプセル化できない。 しかし、トランスクリバスのような人工知能を促進し、歴史的なネットワーク分析を適用した歴史家は、コンピュータがデジタル化された歴史的一次資料から計算可能な意味を推測するのに役立つ。 チューリング・マシンは、歴史学者が過去の出来事を理解し、都市や場所の文化や政治のリニューアルにおける俳優を特定するのに役立つ最も強力なツールとなった。

Thanks to its heterogeneity, the Biscari Archive, one of the most representative family's archives in Sicily, in a new digital historical study, became a valuable set of computable data that can lead historians to reconstruct the history of the city of Catania and Sicily. Ignazio Paterno' Castello and his wife Anna, princes of Biscari, were the promoters of the city's reconstruction after the 1693 earthquake, both politically and culturally. How could the digital historical methodology fulfil the traditional Historiography gap about how this noble family built its mighty? As we know, Humanities cannot easily be encapsulated in a few understandable numbers and names. However, historians, boosting Artificial Intelligence, such as Transkribus, and applying Historical Networks Analysis could help computers infer computable meaning from the digitised historical primary source. The Turing Machine became the most powerful tool to help historians understand what happened in the Past and identify the actors in cities and places' cultural and political renewal.
翻訳日:2024-01-15 13:23:56 公開日:2023-12-11
# ゲームとしてのニューロモルフィックコデザイン

Neuromorphic Co-Design as a Game ( http://arxiv.org/abs/2312.14954v1 )

ライセンス: Link先を確認
Craig M. Vineyard, William M. Severa, James B. Aimone(参考訳) 共同設計は、現在コンピューティングにおいて顕著なトピックであり、テクノロジスタック内の複数のレイヤの設計選択をコーディネートすることによる相互の利益について話している。 例えば、あるアーキテクチャの加速特性を最も効率的に活用できるアルゴリズムを設計すると同時に、計算のクラスの構造的ニーズをサポートするハードウェアを設計できる。 これらの設計決定の意味は、宝くじと見なすのに十分な影響力があり、個々のメリットに関係なく、アイデアが他人に勝つことができる。 コーディネーション(Coordination)は、ゲーム理論の数学においてよく研究されているトピックであり、コーディネーション機構を持たない場合の多くは、結果が準最適である。 ここでは,insights game theoretic analysisがコンピュータアーキテクチャの共同設計に何を提供できるかを検討する。 特に,ニューロモルフィックコンピューティングの分野におけるアルゴリズムとアーキテクチャの相互作用について考察する。 スパイクニューラルネットワークアルゴリズムとニューロモルフィックハードウェアを共設計ゲームとして分析し、我々はStag Huntモデルを用いて、スパイクアルゴリズムやアーキテクチャが独立してフィールドを前進させ、ニューロモルフィックコンピューティングを前進させる戦略的追求を提唱する課題を説明する。

Co-design is a prominent topic presently in computing, speaking to the mutual benefit of coordinating design choices of several layers in the technology stack. For example, this may be designing algorithms which can most efficiently take advantage of the acceleration properties of a given architecture, while simultaneously designing the hardware to support the structural needs of a class of computation. The implications of these design decisions are influential enough to be deemed a lottery, enabling an idea to win out over others irrespective of the individual merits. Coordination is a well studied topic in the mathematics of game theory, where in many cases without a coordination mechanism the outcome is sub-optimal. Here we consider what insights game theoretic analysis can offer for computer architecture co-design. In particular, we consider the interplay between algorithm and architecture advances in the field of neuromorphic computing. Analyzing developments of spiking neural network algorithms and neuromorphic hardware as a co-design game we use the Stag Hunt model to illustrate challenges for spiking algorithms or architectures to advance the field independently and advocate for a strategic pursuit to advance neuromorphic computing.
翻訳日:2024-01-15 13:03:54 公開日:2023-12-11
# U-SWIM: メモリ内ニューラルネットワークのためのユニバーサル選択書き込み検証

U-SWIM: Universal Selective Write-Verify for Computing-in-Memory Neural Accelerators ( http://arxiv.org/abs/2401.05357v1 )

ライセンス: Link先を確認
Zheyu Yan, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 新たな非揮発性メモリ(NVM)デバイスを使用したComputer-in-Memory(CiM)を組み込んだアーキテクチャは、その印象的なエネルギー効率のため、ディープニューラルネットワーク(DNN)アクセラレーションの強力な競争相手となっている。 しかし、これらの新興デバイスを使用する際には、重大な課題が生じる。 これはDNNの精度に悪影響を及ぼす可能性がある。 不完全な重みマッピングに対する広く受け入れられている治療法は、コンダクタンス値の検証と必要に応じてデバイスを調整する反復書き込み検証アプローチである。 既存のすべての出版物において、この手順は各デバイスに適用され、結果としてプログラミングのオーバーヘッドが大幅に増大する。 本研究では,対応するデバイスに対する書き込み検証処理が必要な重みのごく一部に過ぎず,dnn精度を維持でき,プログラミングの高速化が期待できることを示す。 これに基づいて、第2微分に基づく新しい方法であるUSWIMを紹介する。 フォワードとバックプロパゲーションの1イテレーションを活用して、書き込み検証を必要とする重みを特定できる。 多様なDNNの設計とデータセットに関する広範なテストを通じて、USWIMは、同じ精度を維持しながら、従来の徹底的な書き込み検証手法に対して、最大10倍のプログラムアクセラレーションを示す。 さらに、以前のSWIM技術と比較して、USWIMは7倍のスピードアップを示し、非均一なばらつきを示すデバイスを扱う。

Architectures that incorporate Computing-in-Memory (CiM) using emerging non-volatile memory (NVM) devices have become strong contenders for deep neural network (DNN) acceleration due to their impressive energy efficiency. Yet, a significant challenge arises when using these emerging devices: they can show substantial variations during the weight-mapping process. This can severely impact DNN accuracy if not mitigated. A widely accepted remedy for imperfect weight mapping is the iterative write-verify approach, which involves verifying conductance values and adjusting devices if needed. In all existing publications, this procedure is applied to every individual device, resulting in a significant programming time overhead. In our research, we illustrate that only a small fraction of weights need this write-verify treatment for the corresponding devices and the DNN accuracy can be preserved, yielding a notable programming acceleration. Building on this, we introduce USWIM, a novel method based on the second derivative. It leverages a single iteration of forward and backpropagation to pinpoint the weights demanding write-verify. Through extensive tests on diverse DNN designs and datasets, USWIM manifests up to a 10x programming acceleration against the traditional exhaustive write-verify method, all while maintaining a similar accuracy level. Furthermore, compared to our earlier SWIM technique, USWIM excels, showing a 7x speedup when dealing with devices exhibiting non-uniform variations.
翻訳日:2024-01-15 08:55:58 公開日:2023-12-11
# 構文的類似論理プログラムと逐次分解について

On syntactically similar logic programs and sequential decompositions ( http://arxiv.org/abs/2109.05300v3 )

ライセンス: Link先を確認
Christian Antic(参考訳) ルールベースの推論は、論理プログラムを通じて人工知能研究において顕著に形式化された人間の知能の重要な部分である。 複雑なオブジェクトを初等的なオブジェクトの合成として記述することは、コンピュータ科学および科学全般において共通の戦略である。 著者らは最近、論理プログラミングにおけるアナログ推論と学習の文脈において、論理プログラムの逐次合成を導入した。 本稿では,これらの応用に動機づけられ,プログラムの逐次分解による構文論理プログラムの類似性に関する定性的・代数的概念を構築する。 次に、一段階の還元により、異なるドメインにわたるクエリにどのように類似性を使って答えるかを示す。 より広い意味では、この論文は論理プログラミングの代数的理論へのさらなる一歩である。

Rule-based reasoning is an essential part of human intelligence prominently formalized in artificial intelligence research via logic programs. Describing complex objects as the composition of elementary ones is a common strategy in computer science and science in general. The author has recently introduced the sequential composition of logic programs in the context of logic-based analogical reasoning and learning in logic programming. Motivated by these applications, in this paper we construct a qualitative and algebraic notion of syntactic logic program similarity from sequential decompositions of programs. We then show how similarity can be used to answer queries across different domains via a one-step reduction. In a broader sense, this paper is a further step towards an algebraic theory of logic programming.
翻訳日:2023-12-16 05:40:12 公開日:2023-12-11
# R-FCN:領域ベース完全畳み込みネットワークによる物体検出

R-FCN: Object Detection via Region-based Fully Convolutional Networks ( http://arxiv.org/abs/1605.06409v3 )

ライセンス: Link先を確認
Jifeng Dai, Yi Li, Kaiming He, Jian Sun(参考訳) 我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。 Fast/Faster R-CNNのような従来の領域ベース検出器とは対照的に、我々の領域ベース検出器は画像全体に共有されるほぼ全ての計算と完全に畳み合っている。 この目的を達成するために,画像分類における翻訳不変性と物体検出における翻訳分散とのジレンマに対処するために,位置感応スコアマップを提案する。 これにより、オブジェクト検出にResidual Networks(ResNets)のような、完全な畳み込み画像分類器のバックボーンを自然に採用することができる。 PASCAL VOCデータセット(2007年版では83.6% mAP)と101層ResNetとの競合結果を示す。 一方、テスト時間は1枚当たり170msで、Faster R-CNNの2.5-20倍高速です。 コードは、https://github.com/daijifeng001/r-fcnで公開されている。

We present region-based, fully convolutional networks for accurate and efficient object detection. In contrast to previous region-based detectors such as Fast/Faster R-CNN that apply a costly per-region subnetwork hundreds of times, our region-based detector is fully convolutional with almost all computation shared on the entire image. To achieve this goal, we propose position-sensitive score maps to address a dilemma between translation-invariance in image classification and translation-variance in object detection. Our method can thus naturally adopt fully convolutional image classifier backbones, such as the latest Residual Networks (ResNets), for object detection. We show competitive results on the PASCAL VOC datasets (e.g., 83.6% mAP on the 2007 set) with the 101-layer ResNet. Meanwhile, our result is achieved at a test-time speed of 170ms per image, 2.5-20x faster than the Faster R-CNN counterpart. Code is made publicly available at: https://github.com/daijifeng001/r-fcn
翻訳日:2023-12-16 05:39:03 公開日:2023-12-11
# 年齢予測の改善:多変量時系列解析におけるデータ拡張のためのLSTMに基づく動的予測の利用

Improving age prediction: Utilizing LSTM-based dynamic forecasting for data augmentation in multivariate time series analysis ( http://arxiv.org/abs/2312.08383v1 )

ライセンス: Link先を確認
Yutong Gao, Charles A. Ellis, Vince D. Calhoun and Robyn L. Miller(参考訳) 神経画像データの高次元と複雑さは、強固で高パフォーマンスなディープラーニングモデルを開発するために大きなデータセットを必要とする。 しかし、そのようなデータセットの不足により、神経イメージングの分野は明らかに妨げられている。 本研究では,Long Short-Term Memory (LSTM) ネットワークを用いた動的予測を利用したデータ拡張検証フレームワークを提案する。 独立成分ネットワーク(ICN)の1ステップ構成と再帰構成の両方で時間経過を予測することで,多変量時系列データを拡張した。 これらの拡張データセットの有効性を、時系列年齢予測タスク用に設計された様々なディープラーニングモデルを用いて、元のデータと比較した。 その結果,本手法はモデルの性能を向上し,脳画像データセットのサイズ制限による課題を克服するためのロバストなソリューションであることが示唆された。

The high dimensionality and complexity of neuroimaging data necessitate large datasets to develop robust and high-performing deep learning models. However, the neuroimaging field is notably hampered by the scarcity of such datasets. In this work, we proposed a data augmentation and validation framework that utilizes dynamic forecasting with Long Short-Term Memory (LSTM) networks to enrich datasets. We extended multivariate time series data by predicting the time courses of independent component networks (ICNs) in both one-step and recursive configurations. The effectiveness of these augmented datasets was then compared with the original data using various deep learning models designed for chronological age prediction tasks. The results suggest that our approach improves model performance, providing a robust solution to overcome the challenges presented by the limited size of neuroimaging datasets.
翻訳日:2023-12-16 03:07:05 公開日:2023-12-11
# 卵巣癌の正確な診断のための説明可能な機械学習フレームワーク

An Explainable Machine Learning Framework for the Accurate Diagnosis of Ovarian Cancer ( http://arxiv.org/abs/2312.08381v1 )

ライセンス: Link先を確認
Asif Newaz, Abdullah Taharat, Md Sakibul Islam, A.G.M. Fuad Hasan Akanda(参考訳) 卵巣癌(Ovarian cancer、OC)は、女性において最も多いがんの1つである。 早期かつ正確な診断は患者の生存に不可欠である。 しかし、ほとんどの女性は、効果的なバイオマーカーと正確なスクリーニングツールがないため、高度な段階で診断される。 これまでの研究では共通のバイオマーカーが求められていたが,閉経前と閉経後では異なるバイオマーカーが提案されている。 これは、OCの効果的な診断のための新しい予測器の探索において、新しい視点を提供することができる。 説明責任の欠如は、現在のAIシステムの大きな制限のひとつだ。 mlアルゴリズムの確率的性質は、決定の背後にある理由を解釈することが困難であるため、システムの信頼性に関する懸念を引き起こす。 診断システムの信頼性と説明責任を高め、予測の背後にある透明性と説明を提供するために、説明可能なAIがMLフレームワークに組み込まれている。 SHAPは、選択されたバイオマーカーの寄与を定量化し、最も識別性の高い特徴を決定するために使用される。 安全で信頼性の高いAIツールを提供するMLアルゴリズムのブラックボックスの性質に起因するボトルネックを解消できるハイブリッドな意思決定支援システムが確立されている。 提案システムから得られた診断精度は,既存の手法と最先端のROMAアルゴリズムを,OCの鑑別診断において有効なツールとなる可能性を示すかなりのマージンで上回る。

Ovarian cancer (OC) is one of the most prevalent types of cancer in women. Early and accurate diagnosis is crucial for the survival of the patients. However, the majority of women are diagnosed in advanced stages due to the lack of effective biomarkers and accurate screening tools. While previous studies sought a common biomarker, our study suggests different biomarkers for the premenopausal and postmenopausal populations. This can provide a new perspective in the search for novel predictors for the effective diagnosis of OC. Lack of explainability is one major limitation of current AI systems. The stochastic nature of the ML algorithms raises concerns about the reliability of the system as it is difficult to interpret the reasons behind the decisions. To increase the trustworthiness and accountability of the diagnostic system as well as to provide transparency and explanations behind the predictions, explainable AI has been incorporated into the ML framework. SHAP is employed to quantify the contributions of the selected biomarkers and determine the most discriminative features. A hybrid decision support system has been established that can eliminate the bottlenecks caused by the black-box nature of the ML algorithms providing a safe and trustworthy AI tool. The diagnostic accuracy obtained from the proposed system outperforms the existing methods as well as the state-of-the-art ROMA algorithm by a substantial margin which signifies its potential to be an effective tool in the differential diagnosis of OC.
翻訳日:2023-12-16 03:06:50 公開日:2023-12-11
# VoxelKP:LiDARデータにおける人間のキーポイント推定のためのVoxelベースのネットワークアーキテクチャ

VoxelKP: A Voxel-based Network Architecture for Human Keypoint Estimation in LiDAR Data ( http://arxiv.org/abs/2312.08871v1 )

ライセンス: Link先を確認
Jian Shi, Peter Wonka(参考訳) 本稿では,lidarデータにおける人間のキーポイント推定に適した,完全スパースネットワークアーキテクチャである \textit{voxelkp} を提案する。 鍵となる課題は、オブジェクトがわずかに3D空間に分散されているのに対して、人間のキーポイント検出には、人間がいる場所の詳細なローカル情報が必要であることだ。 本稿では4つの新しいアイデアを提案する。 まず、マルチスケールコンテキストをキャプチャするスパース選択カーネルを提案する。 次に,人間の各インスタンスにおけるキーポイント間の空間相関を学習するために,スパースボックスアテンションを導入する。 第3に,3次元ボクセルを鳥の目視をエンコードする2次元グリッドに投影する際に,絶対3次元座標を利用するように空間符号化を導入する。 最後に,voxel単位の処理と疎結合を組み合わせるハイブリッド機能学習を提案する。 我々は、Waymoデータセット上での手法を評価し、同じデータに基づいてトレーニングされた最先端の \textit{HUM3DIL} と比較すると、MPJPEメトリックで27ドル%の改善を実現し、25ドル以上のデータセットで事前トレーニングされた最先端の \textit{GC-KPL} に対して12ドル%の改善を実現した。 我々の知る限りでは、 \textit{VoxelKP} は、LiDARデータからの3Dキーポイント推定の困難な課題に対処し、最先端のパフォーマンスを達成するために特別に設計された、最初のシングルステージで完全にスパースなネットワークである。 我々のコードは \url{https://github.com/shijianjian/VoxelKP} で入手できる。

We present \textit{VoxelKP}, a novel fully sparse network architecture tailored for human keypoint estimation in LiDAR data. The key challenge is that objects are distributed sparsely in 3D space, while human keypoint detection requires detailed local information wherever humans are present. We propose four novel ideas in this paper. First, we propose sparse selective kernels to capture multi-scale context. Second, we introduce sparse box-attention to focus on learning spatial correlations between keypoints within each human instance. Third, we incorporate a spatial encoding to leverage absolute 3D coordinates when projecting 3D voxels to a 2D grid encoding a bird's eye view. Finally, we propose hybrid feature learning to combine the processing of per-voxel features with sparse convolution. We evaluate our method on the Waymo dataset and achieve an improvement of $27\%$ on the MPJPE metric compared to the state-of-the-art, \textit{HUM3DIL}, trained on the same data, and $12\%$ against the state-of-the-art, \textit{GC-KPL}, pretrained on a $25\times$ larger dataset. To the best of our knowledge, \textit{VoxelKP} is the first single-staged, fully sparse network that is specifically designed for addressing the challenging task of 3D keypoint estimation from LiDAR data, achieving state-of-the-art performances. Our code is available at \url{https://github.com/shijianjian/VoxelKP}.
翻訳日:2023-12-15 22:38:49 公開日:2023-12-11
# 拡散におけるスタイル注入:大規模拡散モデルに適応する訓練不要アプローチ

Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer ( http://arxiv.org/abs/2312.09008v1 )

ライセンス: Link先を確認
Jiwoo Chung, Sangeek Hyun, Jae-Pil Heo(参考訳) 拡散モデルの素晴らしい生成能力にもかかわらず、既存の拡散モデルに基づくスタイル転送手法は、時間を要するか、大規模拡散モデルの生成能力を活用できない推論段階最適化(例えば、スタイルの微調整やテキスト反転)を必要とする。 そこで本研究では,事前学習した大規模拡散モデルに基づく新しい芸術的スタイル伝達法を提案する。 具体的には,クロスアテンション機構として自己アテンション層の特徴を操作し,生成過程において,コンテンツのキーと値とスタイル画像とを置換する。 このアプローチはスタイル転送にいくつかの望ましい特性を提供する。 1)類似のスタイルを類似のイメージパッチに転送し,内容の保存 2)コンテンツとスタイルイメージ間の局所的なテクスチャ(エッジなど)の類似性に基づくスタイルの転送。 さらに、クエリの保存と注意温度のスケーリングにより、オリジナルコンテンツの中断の問題を軽減するとともに、初期潜在適応インスタンス正規化(adain)を行い、不調和な色(スタイルの色を転送する障害)に対処する。 実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。

Despite the impressive generative capabilities of diffusion models, existing diffusion model-based style transfer methods require inference-stage optimization (e.g. fine-tuning or textual inversion of style) which is time-consuming, or fails to leverage the generative ability of large-scale diffusion models. To address these issues, we introduce a novel artistic style transfer method based on a pre-trained large-scale diffusion model without any optimization. Specifically, we manipulate the features of self-attention layers as the way the cross-attention mechanism works; in the generation process, substituting the key and value of content with those of style image. This approach provides several desirable characteristics for style transfer including 1) preservation of content by transferring similar styles into similar image patches and 2) transfer of style based on similarity of local texture (e.g. edge) between content and style images. Furthermore, we introduce query preservation and attention temperature scaling to mitigate the issue of disruption of original content, and initial latent Adaptive Instance Normalization (AdaIN) to deal with the disharmonious color (failure to transfer the colors of style). Our experimental results demonstrate that our proposed method surpasses state-of-the-art methods in both conventional and diffusion-based style transfer baselines.
翻訳日:2023-12-15 21:39:50 公開日:2023-12-11
# 均一電子ガスのためのメッセージパージング型ニューラル量子状態

Message-Passing Neural Quantum States for the Homogeneous Electron Gas ( http://arxiv.org/abs/2305.07240v3 )

ライセンス: Link先を確認
Gabriel Pescia, Jannes Nys, Jane Kim, Alessandro Lovato, Giuseppe Carleo(参考訳) 連続空間における強相互作用フェルミオンをシミュレートするメッセージパッシングニューラルネットワークベースの波動関数Ansatzを導入する。 連続翻訳対称性のような対称性の制約はモデルに容易に組み込むことができる。 密度や系の大きさの異なる3次元における均一電子ガスの基底状態のシミュレーションにより、その精度を実証する。 最先端のニューラルネットワーク波動関数よりも桁違いに少ないパラメータで、より良いあるいは同等な基底状態エネルギーを示す。 パラメータの複雑さを減らすことで、以前は連続空間におけるニューラル・ネットワーク波動関数に到達できない128$電子へのスケーリングが可能となり、熱力学極限に対する有限サイズの外挿の今後の研究が可能になる。 また,異なる物質の相を定量的に表現するアンサッツの能力を示す。

We introduce a message-passing-neural-network-based wave function Ansatz to simulate extended, strongly interacting fermions in continuous space. Symmetry constraints, such as continuous translation symmetries, can be readily embedded in the model. We demonstrate its accuracy by simulating the ground state of the homogeneous electron gas in three spatial dimensions at different densities and system sizes. With orders of magnitude fewer parameters than state-of-the-art neural-network wave functions, we demonstrate better or comparable ground-state energies. Reducing the parameter complexity allows scaling to $N=128$ electrons, previously inaccessible to neural-network wave functions in continuous space, enabling future work on finite-size extrapolations to the thermodynamic limit. We also show the Ansatz's capability of quantitatively representing different phases of matter.
翻訳日:2023-12-14 23:32:51 公開日:2023-12-11
# jarzynski等式を用いたエネルギーベースモデルの効率的な学習

Efficient Training of Energy-Based Models Using Jarzynski Equality ( http://arxiv.org/abs/2305.19414v2 )

ライセンス: Link先を確認
Davide Carbone, Mengjian Hua, Simon Coste, Eric Vanden-Eijnden(参考訳) エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルであり、教師なし学習に幅広い応用がある。 それらの性能は、データ分布に対するモデル分布のクロスエントロピー(CE)によって最もよく測定される。 しかし、モデルパラメータに対する勾配の計算にはモデル分布をサンプリングする必要があるため、CEをトレーニングの目的として使用することは難しい。 ここでは,jarzynski等式に基づく非平衡熱力学の計算結果と逐次モンテカルロサンプリングのツールを用いて,この計算を効率的に行う方法を示し,標準コントラスト発散アルゴリズムを用いた非制御近似を回避できることを示す。 具体的には、各歩行者がGD中の任意のステップでクロスエントロピーの勾配を推定できる重みを取得でき、ULAの緩やかな混合によるサンプリングバイアスを回避できる未調整ランゲヴィンアルゴリズム(ULA)の修正を導入する。 これらの結果は、ガウス混合分布とMNISTデータセットに関する数値実験で説明する。 提案手法は,すべての状況において,コントラスト発散アルゴリズムに基づく手法よりも優れていることを示す。

Energy-based models (EBMs) are generative models inspired by statistical physics with a wide range of applications in unsupervised learning. Their performance is best measured by the cross-entropy (CE) of the model distribution relative to the data distribution. Using the CE as the objective for training is however challenging because the computation of its gradient with respect to the model parameters requires sampling the model distribution. Here we show how results for nonequilibrium thermodynamics based on Jarzynski equality together with tools from sequential Monte-Carlo sampling can be used to perform this computation efficiently and avoid the uncontrolled approximations made using the standard contrastive divergence algorithm. Specifically, we introduce a modification of the unadjusted Langevin algorithm (ULA) in which each walker acquires a weight that enables the estimation of the gradient of the cross-entropy at any step during GD, thereby bypassing sampling biases induced by slow mixing of ULA. We illustrate these results with numerical experiments on Gaussian mixture distributions as well as the MNIST dataset. We show that the proposed approach outperforms methods based on the contrastive divergence algorithm in all the considered situations.
翻訳日:2023-12-14 23:20:19 公開日:2023-12-11
# attention2minority:salient instance inferenceに基づく複数インスタンス学習によるスライド画像中の小病変の分類

Attention2Minority: A salient instance inference-based multiple instance learning for classifying small lesions in whole slide images ( http://arxiv.org/abs/2301.07700v2 )

ライセンス: Link先を確認
Ziyu Su, Mostafa Rezapour, Usama Sajjad, Metin Nafi Gurcan, Muhammad Khalid Khan Niazi(参考訳) 多発性インスタンス学習(MIL)モデルは、疾患分類問題に対するスライド画像全体(WSI)解析において顕著な成功を収めた。 しかし, ギガピクセルWSI分類問題では, 現在のMILモデルでは, 極めて小さな腫瘍病変を有するWSIを識別できないことが多い。 ミルバッグ内の微小な腫瘍対正常面積比は、小腫瘍病変に対応する領域を適切に重み付けすることを注意機構を阻害する。 この課題を克服するために、WSI分類のための弱教師付きMILモデルであるSiliMIL(SiliMIL)を提案する。 提案手法は最初,通常のWSIの表現を学習し,通常のWSIの表現とすべての入力パッチを比較して,入力されたWSIの健全なインスタンスを推測する。 最後に、注意に基づくMILを用いて、WSIの選択したパッチに基づいてスライドレベルの分類を行う。 以上の結果から,シイミルはwsiの1%未満しか摂取できない腫瘍の症例を正確に同定でき,バッグ内の正常例に対する腫瘍の比率を2~4倍に増やせることを示唆した。 大きな腫瘍の病変に対して等しく機能する点に注意が必要だ。 その結果、SiiMILは最先端のMIL法よりも性能が大幅に向上した。

Multiple instance learning (MIL) models have achieved remarkable success in analyzing whole slide images (WSIs) for disease classification problems. However, with regard to gigapixel WSI classification problems, current MIL models are often incapable of differentiating a WSI with extremely small tumor lesions. This minute tumor-to-normal area ratio in a MIL bag inhibits the attention mechanism from properly weighting the areas corresponding to minor tumor lesions. To overcome this challenge, we propose salient instance inference MIL (SiiMIL), a weakly-supervised MIL model for WSI classification. Our method initially learns representations of normal WSIs, and it then compares the normal WSIs representations with all the input patches to infer the salient instances of the input WSI. Finally, it employs attention-based MIL to perform the slide-level classification based on the selected patches of the WSI. Our experiments imply that SiiMIL can accurately identify tumor instances, which could only take up less than 1% of a WSI, so that the ratio of tumor to normal instances within a bag can increase by two to four times. It is worth mentioning that it performs equally well for large tumor lesions. As a result, SiiMIL achieves a significant improvement in performance over the state-of-the-art MIL methods.
翻訳日:2023-12-14 21:14:19 公開日:2023-12-11
# 視覚インストラクションチューニング

Visual Instruction Tuning ( http://arxiv.org/abs/2304.08485v2 )

ライセンス: Link先を確認
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee(参考訳) 機械による命令追従データを用いた大規模言語モデル(LLM)のチューニングは、新しいタスクにおけるゼロショット機能を改善したが、マルチモーダル分野においては、そのアイデアは研究されていない。 本稿では,言語のみの GPT-4 を用いたマルチモーダル言語画像追跡データ生成の試みについて述べる。 By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. 科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。 我々は,GPT-4生成したビジュアルインストラクションチューニングデータ,モデルとコードベースを一般公開する。

Instruction tuning large language models (LLMs) using machine-generated instruction-following data has improved zero-shot capabilities on new tasks, but the idea is less explored in the multimodal field. In this paper, we present the first attempt to use language-only GPT-4 to generate multimodal language-image instruction-following data. By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. When fine-tuned on Science QA, the synergy of LLaVA and GPT-4 achieves a new state-of-the-art accuracy of 92.53%. We make GPT-4 generated visual instruction tuning data, our model and code base publicly available.
翻訳日:2023-12-14 21:05:03 公開日:2023-12-11
# VCD: クロスモーダルな質問推論のための視覚的因果発見

VCD: Visual Causality Discovery for Cross-Modal Question Reasoning ( http://arxiv.org/abs/2304.08083v2 )

ライセンス: Link先を確認
Yang Liu, Ying Tan, Jingzhou Luo, Weixing Chen(参考訳) 既存の視覚的疑問推論手法は、通常、固有の因果メカニズムを明示的に発見せず、異種事象の時間性と因果性を共同でモデル化しない。 本稿では,時間的因果構造を発見し,因果的介入による視覚的スプリアス相関を緩和する,クロスモーダル問題推論(cmqr)という視覚的質問推論フレームワークを提案する。 視覚的因果構造を明らかにするために,視覚因果関係発見(vcd)アーキテクチャを提案する。 言語意味論と空間-時間表現の細かな相互作用を調整するために,視覚と言語コンテンツの共起相互作用を構築する対話型視覚言語トランスフォーマ(ivlt)を構築した。 4つのデータセットに対する大規模な実験は、視覚因果構造を発見し、堅牢な質問推論を達成するためのCMQRの優位性を示している。

Existing visual question reasoning methods usually fail to explicitly discover the inherent causal mechanism and ignore jointly modeling cross-modal event temporality and causality. In this paper, we propose a visual question reasoning framework named Cross-Modal Question Reasoning (CMQR), to discover temporal causal structure and mitigate visual spurious correlation by causal intervention. To explicitly discover visual causal structure, the Visual Causality Discovery (VCD) architecture is proposed to find question-critical scene temporally and disentangle the visual spurious correlations by attention-based front-door causal intervention module named Local-Global Causal Attention Module (LGCAM). To align the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build an Interactive Visual-Linguistic Transformer (IVLT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on four datasets demonstrate the superiority of CMQR for discovering visual causal structures and achieving robust question reasoning.
翻訳日:2023-12-14 21:04:47 公開日:2023-12-11
# 地中海アルプス弧における古代フレスコ画の塗装前の深部像

Deep image prior inpainting of ancient frescoes in the Mediterranean Alpine arc ( http://arxiv.org/abs/2306.14209v2 )

ライセンス: Link先を確認
Fabio Merizzi, Perrine Saillard, Oceane Acquier, Elena Morotti, Elena Loli Piccolomini, Luca Calatroni and Rosa Maria Dess\`i(参考訳) ディープニューラルネットワークに基づく画像再構成アプローチの成功は、いくつかの応用分野における処理と分析パラダイムの両方に革命をもたらした。 デジタル・ヒューマニティの分野において、古き良きフレスコ画のデジタル復元の課題は、時間とともに老化、摩耗、破断、そしてリタッチによって得られる訓練データが少ないため、特に困難である。 これらの難しさを克服するために,訓練されていない畳み込みニューラルネットワークの漸進的な更新を頼りに適切な再構成を計算し,手元の画像内の信頼できる情報と一致させながら、他の場所での正規化を促進するdip(deep image prior)インパインティング手法を検討する。 最先端のアプローチ(変分/PDEとパッチベースの手法に基づく)と比較すると、DIPベースのインパインティングはアーティファクトを減らし、コンテキスト/非ローカル情報に適応し、美術史家にとって価値があり効果的なツールを提供する。 本研究では,地中海アルプス弧のいくつかの礼拝堂に収蔵されている中世絵画の高度に損傷を受けたデジタル画像のデータセットを再構成し,損傷した画像領域の識別と再構成にどのように可視・不可視(赤外)情報を統合できるかを詳述する。

The unprecedented success of image reconstruction approaches based on deep neural networks has revolutionised both the processing and the analysis paradigms in several applied disciplines. In the field of digital humanities, the task of digital reconstruction of ancient frescoes is particularly challenging due to the scarce amount of available training data caused by ageing, wear, tear and retouching over time. To overcome these difficulties, we consider the Deep Image Prior (DIP) inpainting approach which computes appropriate reconstructions by relying on the progressive updating of an untrained convolutional neural network so as to match the reliable piece of information in the image at hand while promoting regularisation elsewhere. In comparison with state-of-the-art approaches (based on variational/PDEs and patch-based methods), DIP-based inpainting reduces artefacts and better adapts to contextual/non-local information, thus providing a valuable and effective tool for art historians. As a case study, we apply such approach to reconstruct missing image contents in a dataset of highly damaged digital images of medieval paintings located into several chapels in the Mediterranean Alpine Arc and provide a detailed description on how visible and invisible (e.g., infrared) information can be integrated for identifying and reconstructing damaged image regions.
翻訳日:2023-12-14 20:38:11 公開日:2023-12-11
# APPRAISE:AIシステムによるイノベーションのためのガバナンスフレームワーク

APPRAISE: a governance framework for innovation with AI systems ( http://arxiv.org/abs/2309.14876v2 )

ライセンス: Link先を確認
Diptish Dey and Debarati Bhaumik(参考訳) 人工知能(AI)システムが社会にますます影響を及ぼす中、EU人工知能法(AIA)は、AIシステムの有害な影響を封じ込めようとする最初の深刻な立法の試みである。 本稿では,AIイノベーションのためのガバナンスフレームワークを提案する。 このフレームワークは戦略変数と責任ある価値創造のギャップを埋め、監査を執行メカニズムとして推奨する。 戦略変数には、組織のサイズ、探究と搾取 - 、ビルドとジレンマの購入 - などが含まれる。 提案されたフレームワークは、プライマリとセカンダリリサーチに基づいており、後者は、組織がAI経験を革新する4つのプレッシャーを記述している。 主要な研究には実験的なセットアップが含まれており、そこではオランダの34の組織が調査され、続いて2つの検証面接が行われる。 この調査は、組織がAIシステムの技術的要素を最終的にAIAに適合させる程度を測定する。 バリデーションのインタビューは、さらなる深い洞察と根本原因を生み出した。 戦略変数のモデレーション効果を検証し、組織サイズなどの変数に対して統計的に有意であることを示した。 プライマリ・セカンダリリサーチからの関連知見をまとめてAPPRAISEフレームワークを提案する。

As artificial intelligence (AI) systems increasingly impact society, the EU Artificial Intelligence Act (AIA) is the first serious legislative attempt to contain the harmful effects of AI systems. This paper proposes a governance framework for AI innovation. The framework bridges the gap between strategic variables and responsible value creation, recommending audit as an enforcement mechanism. Strategic variables include, among others, organization size, exploration versus exploitation -, and build versus buy dilemmas. The proposed framework is based on primary and secondary research; the latter describes four pressures that organizations innovating with AI experience. Primary research includes an experimental setup, using which 34 organizations in the Netherlands are surveyed, followed up by 2 validation interviews. The survey measures the extent to which organizations coordinate technical elements of AI systems to ultimately comply with the AIA. The validation interviews generated additional in-depth insights and provided root causes. The moderating effect of the strategic variables is tested and found to be statistically significant for variables such as organization size. Relevant insights from primary and secondary research are eventually combined to propose the APPRAISE framework.
翻訳日:2023-12-14 20:29:28 公開日:2023-12-11
# 非接触型マルチモーダル室内人間モニタリングシステム:調査

Non-contact Multimodal Indoor Human Monitoring Systems: A Survey ( http://arxiv.org/abs/2312.07601v1 )

ライセンス: Link先を確認
Le Ngu Nguyen and Praneeth Susarla and Anirban Mukherjee and Manuel Lage Ca\~nellas and Constantino \'Alvarez Casado and Xiaoting Wu and Olli~Silv\'en and Dinesh Babu Jayagopi and Miguel Bordallo L\'opez(参考訳) 室内の人間監視システムは、カメラ、無線装置、慣性測定装置を含む幅広いセンサーを活用し、ユーザーや環境から広範囲のデータを収集する。 これらのセンサは、カメラからの映像フィード、受信信号強度インジケータ、WiFiデバイスからのチャネル状態情報、慣性測定ユニットからの3軸加速度データなど、多様なデータモダリティを提供する。 そこで本研究では,高齢者ケアにおけるマルチモーダルアプローチの包括的調査を行い,その妥当性について考察する。 本調査では,室内の人体監視システム開発における重要な要素として,非接触技術,特にカメラと無線デバイスに注目した。 本稿では,マルチモーダルデータソースから特徴を抽出する手法について概説する。 我々の探索は、これらの特徴を融合させ、機械学習モデルの精度と堅牢性を改善するために複数のモダリティを活用する手法にまで拡張されている。 さらに,多様な監視タスクにおける異なるデータモダリティの比較分析を行い,既存のマルチモーダルデータセットの包括的検証を行う。 この広範な調査は、室内における人体監視システムの重要性だけでなく、その汎用的応用を裏付けるものである。 特に高齢者ケアの質を高める上で重要な役割を強調し,高齢者のニーズに適応できる非接触型モニタリングソリューションの開発に有用な知見を提供する。

Indoor human monitoring systems leverage a wide range of sensors, including cameras, radio devices, and inertial measurement units, to collect extensive data from users and the environment. These sensors contribute diverse data modalities, such as video feeds from cameras, received signal strength indicators and channel state information from WiFi devices, and three-axis acceleration data from inertial measurement units. In this context, we present a comprehensive survey of multimodal approaches for indoor human monitoring systems, with a specific focus on their relevance in elderly care. Our survey primarily highlights non-contact technologies, particularly cameras and radio devices, as key components in the development of indoor human monitoring systems. Throughout this article, we explore well-established techniques for extracting features from multimodal data sources. Our exploration extends to methodologies for fusing these features and harnessing multiple modalities to improve the accuracy and robustness of machine learning models. Furthermore, we conduct comparative analysis across different data modalities in diverse human monitoring tasks and undertake a comprehensive examination of existing multimodal datasets. This extensive survey not only highlights the significance of indoor human monitoring systems but also affirms their versatile applications. In particular, we emphasize their critical role in enhancing the quality of elderly care, offering valuable insights into the development of non-contact monitoring solutions applicable to the needs of aging populations.
翻訳日:2023-12-14 18:14:51 公開日:2023-12-11
# 両プラットフォーム間の記事やつぶやきに対するBERTを用いたコントラストニュースとソーシャルメディアリンク

Contrastive News and Social Media Linking using BERT for Articles and Tweets across Dual Platforms ( http://arxiv.org/abs/2312.07599v1 )

ライセンス: Link先を確認
Jan Piotrowski, Marek Wachnicki, Mateusz Perlik, Jakub Podolak, Grzegorz Rucki, Micha{\l} Brzozowski, Pawe{\l} Olejnik, Julian Koz{\l}owski, Tomasz Noco\'n, Jakub Kozie{\l}, Stanis{\l}aw Gizi\'nski and Piotr Sankowski(参考訳) x(旧twitter)は現代のアゴラへと進化し、個人が現在の出来事についての意見や見解を表現できるプラットフォームを提供している。 Twitterで議論されたトピックの大部分は、進行中のイベントに直接関連しており、公開談話を監視する上で重要なソースとなっている。 しかし、ツイートを特定のニュースにリンクすることは、その簡潔で非公式な性質のために大きな課題となる。 トピックモデル、グラフベースモデル、教師付き分類器など、従来のアプローチでは、ツイートや記事のユニークな特徴を効果的に捉えられなかった。 画像とキャプションの類似性をモデル化するためにコントラスト学習を利用するコンピュータビジョンにおけるCLIPモデルの成功に触発された本研究では,リンク記事やつぶやきが近接する表現空間をトレーニングするためのコントラスト学習手法を提案する。 比較学習手法であるCATBERT(Contrastive Articles Tweets BERT)を提案する。 このモデルは、手動で英語とポーランド語のツイートと、ロシア・ウクライナ戦争に関連する記事を含むデータセットで訓練され、テストされている。 我々は,従来のLDAのような手法に対するCATBERTの性能評価と,これまでは適用されていなかったOpenAI埋め込みに基づく新しい手法について述べる。 以上の結果から,CATBERTは,関連ニュース記事とツイートの関連付けにおいて,優れた性能を示した。 さらに,本論文に代表されるメイントピックの検索に適用されたモデルの性能を,全ツイートのカスケードで示す。 本課題では,カスケードサイズに依存する異なるモデルの性能について報告する。

X (formerly Twitter) has evolved into a contemporary agora, offering a platform for individuals to express opinions and viewpoints on current events. The majority of the topics discussed on Twitter are directly related to ongoing events, making it an important source for monitoring public discourse. However, linking tweets to specific news presents a significant challenge due to their concise and informal nature. Previous approaches, including topic models, graph-based models, and supervised classifiers, have fallen short in effectively capturing the unique characteristics of tweets and articles. Inspired by the success of the CLIP model in computer vision, which employs contrastive learning to model similarities between images and captions, this paper introduces a contrastive learning approach for training a representation space where linked articles and tweets exhibit proximity. We present our contrastive learning approach, CATBERT (Contrastive Articles Tweets BERT), leveraging pre-trained BERT models. The model is trained and tested on a dataset containing manually labeled English and Polish tweets and articles related to the Russian-Ukrainian war. We evaluate CATBERT's performance against traditional approaches like LDA, and the novel method based on OpenAI embeddings, which has not been previously applied to this task. Our findings indicate that CATBERT demonstrates superior performance in associating tweets with relevant news articles. Furthermore, we demonstrate the performance of the models when applied to finding the main topic -- represented by an article -- of the whole cascade of tweets. In this new task, we report the performance of the different models in dependence on the cascade size.
翻訳日:2023-12-14 18:14:28 公開日:2023-12-11
# 質問応答システムとしてのChatGPTの評価 : 包括的分析と既存モデルとの比較

Evaluating ChatGPT as a Question Answering System: A Comprehensive Analysis and Comparison with Existing Models ( http://arxiv.org/abs/2312.07592v1 )

ライセンス: Link先を確認
Hossein Bahak, Farzaneh Taheri, Zahra Zojaji, Arefeh Kazemi(参考訳) 現代では、多くの言語モデルがユーザからの問い合わせに対応して現れている。 特に、GPT-3.5 Turbo言語モデルはChatGPTの基盤技術として注目されている。 広範囲なパラメータを活用することで、このモデルは幅広い質問に順応する。 しかしながら、内部知識に依存するため、応答の正確さは絶対的ではないかもしれない。 本稿では、ChatGPTを質問応答システム(QAS)として検討し、その性能を既存のQASと比較する。 主な焦点は、提供された段落から応答を抽出するChatGPTの能力、コアQAS能力を評価することである。 さらに、性能比較は周囲の通路のないシナリオで行われる。 ChatGPTでは、応答幻覚と質問の複雑さを考慮した複数の実験が行われた。 評価には、SQuAD、NewsQA、ペルシャQuADなど、英語とペルシア語で有名なQAデータセットが使用されている。 評価にはFスコア、正確な一致、精度などの指標が用いられた。 この研究は、ChatGPTが生成モデルとしての能力を示す一方で、タスク固有のモデルに比べて質問応答の効率が低いことを示した。 コンテキストの提供は、そのパフォーマンスを改善し、プロンプトエンジニアリングは、特に、与えられた段落に明示的な回答がない質問に対して、精度を高める。 ChatGPTは、"How"と"Why"の質問タイプと比較して、より単純な事実質問に優れています。 この評価は、ChatGPTが提供された文脈で回答が得られない質問に対する応答を提供する幻覚の発生に焦点を当てている。

In the current era, a multitude of language models has emerged to cater to user inquiries. Notably, the GPT-3.5 Turbo language model has gained substantial attention as the underlying technology for ChatGPT. Leveraging extensive parameters, this model adeptly responds to a wide range of questions. However, due to its reliance on internal knowledge, the accuracy of responses may not be absolute. This article scrutinizes ChatGPT as a Question Answering System (QAS), comparing its performance to other existing QASs. The primary focus is on evaluating ChatGPT's proficiency in extracting responses from provided paragraphs, a core QAS capability. Additionally, performance comparisons are made in scenarios without a surrounding passage. Multiple experiments, exploring response hallucination and considering question complexity, were conducted on ChatGPT. Evaluation employed well-known Question Answering (QA) datasets, including SQuAD, NewsQA, and PersianQuAD, across English and Persian languages. Metrics such as F-score, exact match, and accuracy were employed in the assessment. The study reveals that, while ChatGPT demonstrates competence as a generative model, it is less effective in question answering compared to task-specific models. Providing context improves its performance, and prompt engineering enhances precision, particularly for questions lacking explicit answers in provided paragraphs. ChatGPT excels at simpler factual questions compared to "how" and "why" question types. The evaluation highlights occurrences of hallucinations, where ChatGPT provides responses to questions without available answers in the provided context.
翻訳日:2023-12-14 18:14:00 公開日:2023-12-11
# ConvD:知識グラフ補完のための動的畳み込みの注意力強化

ConvD: Attention Enhanced Dynamic Convolutional Embeddings for Knowledge Graph Completion ( http://arxiv.org/abs/2312.07589v1 )

ライセンス: Link先を確認
Wenbin Guo, Zhao Li, Xin Wang, Zirui Chen(参考訳) 知識グラフは一般に不完全性に苦しめられ、欠落した情報を完遂することで軽減される。 ニューラルネットワークに基づく深層知識畳み込みモデルは現在、知識グラフ補完の一般的な方法である。 しかしながら、既存のほとんどのメソッドは外部の畳み込みカーネルと従来の平めの畳み込みプロセスを使用し、モデルの特徴的相互作用能力を制限する。 本稿では,従来の畳み込みモデルの外部畳み込みカーネルを改善するために,複数の畳み込みカーネルへの組込みを直接形作る知識グラフ補完のための新しい動的畳み込みモデルを提案する。 内部畳み込みカーネルは、関係埋め込みとエンティティ埋め込みとの間の機能相互作用を効果的に増強し、モデル埋め込み性能を向上させる。 さらに,複数の関係畳み込みカーネルに異なる寄与重み係数を割り当てて動的畳み込みを行い,モデルの表現性をさらに向上する事前知識最適化型注意機構を設計する。 各種データセットに対する大規模な実験により,提案したモデルは,各モデル評価指標の11.30\%から16.92\%まで,最先端のベースライン法よりも一貫して優れていた。 アブレーション実験は、ConvDモデルの各コンポーネントモジュールの有効性を検証する。

Knowledge graphs generally suffer from incompleteness, which can be alleviated by completing the missing information. Deep knowledge convolutional embedding models based on neural networks are currently popular methods for knowledge graph completion. However, most existing methods use external convolution kernels and traditional plain convolution processes, which limits the feature interaction capability of the model. In this paper, we propose a novel dynamic convolutional embedding model ConvD for knowledge graph completion, which directly reshapes the relation embeddings into multiple internal convolution kernels to improve the external convolution kernels of the traditional convolutional embedding model. The internal convolution kernels can effectively augment the feature interaction between the relation embeddings and entity embeddings, thus enhancing the model embedding performance. Moreover, we design a priori knowledge-optimized attention mechanism, which can assign different contribution weight coefficients to multiple relation convolution kernels for dynamic convolution to improve the expressiveness of the model further. Extensive experiments on various datasets show that our proposed model consistently outperforms the state-of-the-art baseline methods, with average improvements ranging from 11.30\% to 16.92\% across all model evaluation metrics. Ablation experiments verify the effectiveness of each component module of the ConvD model.
翻訳日:2023-12-14 18:13:37 公開日:2023-12-11
# ddpmの大規模点検における非線形補正の特性

Characteristic Guidance: Non-linear Correction for DDPM at Large Guidance Scale ( http://arxiv.org/abs/2312.07586v1 )

ライセンス: Link先を確認
Candi Zheng, Yuan Lan(参考訳) 拡散確率モデル(ddpm, denoising diffusion probabilistic model)は、異なる条件モデルを線形に組み合わせ、サンプルに対する制御を強化する。 しかし,本手法は誘導スケールが大きいと重要になる非線形効果を無視する。 この問題に対処するために,分類器のないDDPMに対して非線形補正を行う新しい手法である特徴ガイダンスを提案する。 このような補正により、DDPMは、基礎となる拡散過程のフォッカー・プランク方程式を、第一原理、訓練なし、微分なし、既存のサンプリング法と互換性のある方法で尊重せざるを得なくなる。 実験により,様々な用途に対して特性誘導が堅牢であること,サンプル生成に対する制御の強化,潜時空間サンプリングにおいても色や露光の問題を抑えること,相転移などの物理問題に対処できることが示されている。

Popular guidance for denoising diffusion probabilistic model (DDPM) linearly combines distinct conditional models together to provide enhanced control over samples. However, this approach overlooks nonlinear effects that become significant when guidance scale is large. To address this issue, we propose characteristic guidance, a novel method that provides non-linear correction for classifier-free guided DDPMs. Such correction forces the guided DDPMs to respect the Fokker-Planck equation of their underlying diffusion process, in a way that is first-principle, training-free, derivative-free, and compatible with existing sampling methods. Experiments show that characteristic guidance is robust to various applications, offers enhanced control over sample generation, suppresses color and exposure issues even for latent space sampling, and can handle physics problems such as the phase transitions.
翻訳日:2023-12-14 18:13:15 公開日:2023-12-11
# DFGET: Gland Instance Segmentationのための変位場支援グラフエネルギー送信装置

DFGET: Displacement-Field Assisted Graph Energy Transmitter for Gland Instance Segmentation ( http://arxiv.org/abs/2312.07584v1 )

ライセンス: Link先を確認
Caiqing Jian, Yongbin Qin, and Lihui Wang(参考訳) 腺癌の診断と治療には, Gland instance segmentation が必須だが難しい課題である。 既存のモデルは通常、マルチタスク学習と境界損失制約を通じて腺インスタンスセグメンテーションを達成する。 しかし, 複雑な試料の分節化における腺接着と不正確な境界の問題点をどう扱うかは依然として課題である。 本研究では,これらの問題を解決するために,変位場支援グラフエネルギー送信(dfget)フレームワークを提案する。 具体的には,異方性拡散に基づく新しいメッセージパッシング手法を開発し,異方性グラフを識別し,複雑なサンプルに対するグラフノードの表現性を向上させる。 このようなグラフフレームワークを用いて、2つのグラフネットワーク分岐を用いて、腺意味セグメンテーションマップとグラフノードの変位場(df)を推定する。 DFの制約により,拡散理論に基づくグラフクラスタモジュールが提示され,クラス内特徴の整合性とクラス間特徴の相違が向上し,セマンティックセグメンテーションマップから付着腺を分離する。 GlaSデータセットの大規模比較とアブレーション実験により,DFGETの優位性と異方性メッセージパッシング手法の有効性が示された。 最高の比較モデルと比較すると、DFGETはオブジェクトダイスとオブジェクトF1スコアをそれぞれ2.5%、オブジェクトF1スコアは3.4%増加し、オブジェクトHDは32.4%減少し、最先端のパフォーマンスを達成する。

Gland instance segmentation is an essential but challenging task in the diagnosis and treatment of adenocarcinoma. The existing models usually achieve gland instance segmentation through multi-task learning and boundary loss constraint. However, how to deal with the problems of gland adhesion and inaccurate boundary in segmenting the complex samples remains a challenge. In this work, we propose a displacement-field assisted graph energy transmitter (DFGET) framework to solve these problems. Specifically, a novel message passing manner based on anisotropic diffusion is developed to update the node features, which can distinguish the isomorphic graphs and improve the expressivity of graph nodes for complex samples. Using such graph framework, the gland semantic segmentation map and the displacement field (DF) of the graph nodes are estimated with two graph network branches. With the constraint of DF, a graph cluster module based on diffusion theory is presented to improve the intra-class feature consistency and inter-class feature discrepancy, as well as to separate the adherent glands from the semantic segmentation maps. Extensive comparison and ablation experiments on the GlaS dataset demonstrate the superiority of DFGET and effectiveness of the proposed anisotropic message passing manner and clustering method. Compared to the best comparative model, DFGET increases the object-Dice and object-F1 score by 2.5% and 3.4% respectively, while decreases the object-HD by 32.4%, achieving state-of-the-art performance.
翻訳日:2023-12-14 18:12:57 公開日:2023-12-11
# 部分的私的特徴の分類

Classification with Partially Private Features ( http://arxiv.org/abs/2312.07583v1 )

ライセンス: Link先を確認
Zeyu Shen, Anilesh Krishnaswamy, Janardhan Kulkarni, Kamesh Munagala(参考訳) 本稿では,一部の特徴が敏感である場合と,他の特徴やラベルがそうでない場合の個人分類について考察する。 私たちはこの設定に自然に差分プライバシーの定義を適用します。 私たちの主な貢献は、AdaBoostの新規な適応であり、これは証明可能な差分プライベートであるだけでなく、個々のデータが実験に敏感であると仮定する自然なベンチマークよりもはるかに優れています。 驚くべき観察として,ランダムに生成された分類器を増加させることで精度が向上することを示す。 提案手法は,すべての特徴がセンシティブな古典的設定に容易に適応し,より単純なプライバシー証明と,実世界のデータセットにおける微分プライベートロジスティック回帰よりも高い精度で,微分プライベートな線形分類のための代替アルゴリズムを提供する。

In this paper, we consider differentially private classification when some features are sensitive, while the rest of the features and the label are not. We adapt the definition of differential privacy naturally to this setting. Our main contribution is a novel adaptation of AdaBoost that is not only provably differentially private, but also significantly outperforms a natural benchmark that assumes the entire data of the individual is sensitive in the experiments. As a surprising observation, we show that boosting randomly generated classifiers suffices to achieve high accuracy. Our approach easily adapts to the classical setting where all the features are sensitive, providing an alternate algorithm for differentially private linear classification with a much simpler privacy proof and comparable or higher accuracy than differentially private logistic regression on real-world datasets.
翻訳日:2023-12-14 18:12:31 公開日:2023-12-11
# 動的シーン理解のための時空間イベントグラフ

Spatiotemporal Event Graphs for Dynamic Scene Understanding ( http://arxiv.org/abs/2312.07621v1 )

ライセンス: Link先を確認
Salman Khan(参考訳) ダイナミックシーン理解(dynamic scene understanding)とは、コンピュータシステムが実世界のシーンの映像に存在する視覚情報を解釈し、理解する能力である。 本稿では,自律運転の観点からの道路イベント検出から複雑な映像活動検出まで,動的シーン理解のための一連のフレームワークについて述べる。 まず,自動運転のための道路イベントアウェアネスデータセット(road)を,その1つ目の知識として紹介する。 また、公式に指定された論理的な要件を満たしたデータセットが不足していることから、この領域における神経シンボリックな研究を駆動するためのツールとして、論理的な制約として表現された、自動運転のための最初の公開データセットであるroad-r(way event awareness dataset with logical requirements)も紹介する。 次に,2つの複雑なアクティビティ検出手法を提案することにより,イベント検出を全体的シーン理解に拡張する。 第1の方法は,動作管検出,構成作用管の柔軟で変形可能な形状を学習するための3次元変形可能なroiプーリング層,すべての部分をノードとして考慮し,異なるセマンティクスに基づいてそれらを接続したシーングラフの3つの主要ビルディングブロックからなる変形可能な時空間的シーングラフアプローチを提案する。 第1のアプローチから進化した第2のアプローチでは、局所的な(短期的な)ダイナミックシーンのグラフエンコーディングに注意を向けるハイブリッドグラフニューラルネットワークと、全体の長期活動をモデル化した時間グラフを併用する。 最後に、論文の最後の部分は、新しい継続半教師付き学習(CSSL)パラダイムの提示である。

Dynamic scene understanding is the ability of a computer system to interpret and make sense of the visual information present in a video of a real-world scene. In this thesis, we present a series of frameworks for dynamic scene understanding starting from road event detection from an autonomous driving perspective to complex video activity detection, followed by continual learning approaches for the life-long learning of the models. Firstly, we introduce the ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge the first of its kind. Due to the lack of datasets equipped with formally specified logical requirements, we also introduce the ROad event Awareness Dataset with logical Requirements (ROAD-R), the first publicly available dataset for autonomous driving with requirements expressed as logical constraints, as a tool for driving neurosymbolic research in the area. Next, we extend event detection to holistic scene understanding by proposing two complex activity detection methods. In the first method, we present a deformable, spatiotemporal scene graph approach, consisting of three main building blocks: action tube detection, a 3D deformable RoI pooling layer designed for learning the flexible, deformable geometry of the constituent action tubes, and a scene graph constructed by considering all parts as nodes and connecting them based on different semantics. In a second approach evolving from the first, we propose a hybrid graph neural network that combines attention applied to a graph encoding of the local (short-term) dynamic scene with a temporal graph modelling the overall long-duration activity. Finally, the last part of the thesis is about presenting a new continual semi-supervised learning (CSSL) paradigm.
翻訳日:2023-12-14 17:58:41 公開日:2023-12-11
# 自己教師付き神経対称性埋め込みを用いた自由度推定の最適化

Optimizing Likelihood-free Inference using Self-supervised Neural Symmetry Embeddings ( http://arxiv.org/abs/2312.07615v1 )

ライセンス: Link先を確認
Deep Chatterjee, Philip C. Harris, Maanas Goel, Malina Desai, Michael W. Coughlin and Erik Katsavounidis(参考訳) 高速かつ効率的なパラメータ推定を行う強力なツールとして、Likelihood-free推論が急速に現れている。 物理問題における対称性の辺縁化により、確率自由推論を最適化し、さらに高速にする手法を実証する。 このアプローチでは、例えば物理対称性は、対称性データ拡張を伴う自己教師付き学習を通じて、共同埋め込みを用いて学習される。 その後、パラメータを条件付ける前に、埋め込みネットワークを使用してデータを要約する正規化フローを用いてパラメータ推論を行う。 本手法は2つの単純な物理問題に対して提案し、事前学習された対称性情報表現を使用しない正規化流れと比較して、より少ないパラメータの収束性を示す。

Likelihood-free inference is quickly emerging as a powerful tool to perform fast/effective parameter estimation. We demonstrate a technique of optimizing likelihood-free inference to make it even faster by marginalizing symmetries in a physical problem. In this approach, physical symmetries, for example, time-translation are learned using joint-embedding via self-supervised learning with symmetry data augmentations. Subsequently, parameter inference is performed using a normalizing flow where the embedding network is used to summarize the data before conditioning the parameters. We present this approach on two simple physical problems and we show faster convergence in a smaller number of parameters compared to a normalizing flow that does not use a pre-trained symmetry-informed representation.
翻訳日:2023-12-14 17:58:14 公開日:2023-12-11
# IndoorGNN: WiFi RSSIを用いた屋内局所化のためのグラフニューラルネットワークによるアプローチ

IndoorGNN: A Graph Neural Network based approach for Indoor Localization using WiFi RSSI ( http://arxiv.org/abs/2312.07609v1 )

ライセンス: Link先を確認
Rahul Vishwakarma, Rucha Bhalchandra Joshi, Subhankar Mishra(参考訳) 屋内ローカライゼーション(Indoor Localization)は、建物内の人や物体の位置を決定するプロセスである。 屋内ローカライゼーションの潜在的利用には、ナビゲーション、パーソナライゼーション、安全とセキュリティ、資産追跡が含まれる。 一般的な屋内ローカライズ技術としては、WiFi、Bluetooth、RFID、Ultra-widebandなどがある。 これらのうち、WiFiの受信信号強度指標(RSSI)ベースのローカライゼーションは、広く利用可能なWiFiアクセスポイント(AP)のために好まれる。 主な貢献は2つあります。 まず、グラフニューラルネットワーク(GNN)に基づくアルゴリズムを用いて、その位置で収集されたRSSI値に基づいて、特定の位置を特定の領域に分類する手法「屋内GNN」を開発した。 この分類を行うMLアルゴリズムの多くは、多数のラベル付きデータポイント(位置情報を持つRSSIベクトル)を必要とする。 このようなデータポイントの収集は、労働集約的で時間のかかる作業です。 この課題を克服するため,第2の貢献として,制約付きデータセットにおける indoorgnn の性能を実証する。 これは完全なデータセットと同等の予測精度を示す。 実世界標準屋内ローカライゼーションデータセットであるUJIIndoorLocおよびMNAVデータセットについて実験を行った。 実験の結果,IndoorGNNは従来の手法やGNNに基づく手法と比較して,位置予測精度が向上していることがわかった。 制限付きデータセットでも、これらのアルゴリズムを上回っています。 利用可能なデータポイントの数を減少させることで、パフォーマンスがあまり低下しない点が注目に値する。 本手法は,複雑な屋内環境におけるナビゲーションやウェイフィンディング,資産追跡とビル管理,位置情報サービスによるモバイルアプリケーションの拡張,緊急時の安全性とセキュリティ向上に有効である。

Indoor localization is the process of determining the location of a person or object inside a building. Potential usage of indoor localization includes navigation, personalization, safety and security, and asset tracking. Commonly used technologies for indoor localization include WiFi, Bluetooth, RFID, and Ultra-wideband. Among these, WiFi's Received Signal Strength Indicator (RSSI)-based localization is preferred because of widely available WiFi Access Points (APs). We have two main contributions. First, we develop our method, 'IndoorGNN' which involves using a Graph Neural Network (GNN) based algorithm in a supervised manner to classify a specific location into a particular region based on the RSSI values collected at that location. Most of the ML algorithms that perform this classification require a large number of labeled data points (RSSI vectors with location information). Collecting such data points is a labor-intensive and time-consuming task. To overcome this challenge, as our second contribution, we demonstrate the performance of IndoorGNN on the restricted dataset. It shows a comparable prediction accuracy to that of the complete dataset. We performed experiments on the UJIIndoorLoc and MNAV datasets, which are real-world standard indoor localization datasets. Our experiments show that IndoorGNN gives better location prediction accuracies when compared with state-of-the-art existing conventional as well as GNN-based methods for this same task. It continues to outperform these algorithms even with restricted datasets. It is noteworthy that its performance does not decrease a lot with a decrease in the number of available data points. Our method can be utilized for navigation and wayfinding in complex indoor environments, asset tracking and building management, enhancing mobile applications with location-based services, and improving safety and security during emergencies.
翻訳日:2023-12-14 17:58:00 公開日:2023-12-11
# 歩行者と自動走行車との相互作用:横断歩道シナリオにおけるフィールドスタディ

Pedestrian and Passenger Interaction with Autonomous Vehicles: Field Study in a Crosswalk Scenario ( http://arxiv.org/abs/2312.07606v1 )

ライセンス: Link先を確認
Rub\'en Izquierdo, Javier Alonso, Ola Benderius, Miguel \'Angel Sotelo, David Fern\'andez Llorca(参考訳) 本研究は、横断歩道のシナリオにおいて、内外対人機械インタフェース(hmis)を備えた自律走行車による人間と車両の相互作用に関する経験的調査の結果を示す。 内部および外部のHMIは暗黙の通信技術と統合され、横断歩道に緩やかで攻撃的なブレーキ操作を組み合わせた。 データは、車両距離と速度を横断する歩行者決定を含む、アンケートと定量的指標を組み合わせて収集された。 アンケートの結果,外的HMIと緩やかなブレーキ操作を併用すると,歩行者の安全感が向上することがわかった。 対照的に、測定された変数は、緩やかなブレーキ操作によって補完された場合、外部HMIが有効であることを示す。 また,本アンケートでは,アグレッシブブレーキ操作とペアリングした場合のみ,内部hmiが乗客の信頼度を高めることを強調した。

This study presents the outcomes of empirical investigations pertaining to human-vehicle interactions involving an autonomous vehicle equipped with both internal and external Human Machine Interfaces (HMIs) within a crosswalk scenario. The internal and external HMIs were integrated with implicit communication techniques, incorporating a combination of gentle and aggressive braking maneuvers within the crosswalk. Data were collected through a combination of questionnaires and quantifiable metrics, including pedestrian decision to cross related to the vehicle distance and speed. The questionnaire responses reveal that pedestrians experience enhanced safety perceptions when the external HMI and gentle braking maneuvers are used in tandem. In contrast, the measured variables demonstrate that the external HMI proves effective when complemented by the gentle braking maneuver. Furthermore, the questionnaire results highlight that the internal HMI enhances passenger confidence only when paired with the aggressive braking maneuver.
翻訳日:2023-12-14 17:57:33 公開日:2023-12-11
# 分数量子ホール状態の絡み合いスペクトルに対するビソグナーノ・ウィッチマン・ハミルトニアン

Bisognano-Wichmann Hamiltonian for the entanglement spectroscopy of fractional quantum Hall states ( http://arxiv.org/abs/2312.07604v1 )

ライセンス: Link先を確認
A. Nardin, R. Lopes, M. Rizzi, L. Mazza, S. Nascimbene(参考訳) 球面上に定義される分数量子ホール状態に対するビソグナーノ・ウィッチマン・ハミルトニアンを研究し、その状態に関連する絡み合いハミルトニアンとの関係を探究する。 本研究では,接触2体相互作用により安定するボソニック・ラーリン状態と,3体または2体相互作用によるボソニック・ムーア・リード状態について,いくつかの例を示す。 この結果は、ビソニャーノ・ヴィヒマン・ハミルトニアンが、特定の状態について事前の知識がなければ書ける完全局所作用素として、エンタングルメント・ハミルトニアンの信頼性の高い近似を提供することを示した。

We study the Bisognano-Wichmann Hamiltonian for fractional quantum Hall states defined on a sphere and explore its relationship with the entanglement Hamiltonian associated to the state. We present results for several examples, namely the bosonic Laughlin state stabilized by contact two-body interactions and the bosonic Moore-Read state by either three- or two-body interactions. Our findings demonstrate that the Bisognano-Wichmann Hamiltonian provides a reliable approximation of the entanglement Hamiltonian as a fully-local operator that can be written without any prior knowledge of the specific state under consideration.
翻訳日:2023-12-14 17:57:16 公開日:2023-12-11
# sense, predict, adapt, repeat:新しい適応型aiセンシングシステムの設計のための青写真

Sense, Predict, Adapt, Repeat: A Blueprint for Design of New Adaptive AI-Centric Sensing Systems ( http://arxiv.org/abs/2312.07602v1 )

ライセンス: Link先を確認
Soheil Hor, Amin Arbabian(参考訳) ムーアの法則が勢いを失うにつれて、プロセッサのサイズ、性能、効率の向上はますます難しくなり、ハードウェア性能の予測可能な改善の時代が終わる。 一方、消費者デバイスや自動運転技術に高解像度センサーが広く採用され、センサーデータの急増が加速している。 現在のグローバルなトレンドは、生成されたデータの量は既に人間の消費能力を超えており、AIアルゴリズムが世界中のデータの主要な消費者となっていることを示している。 これを解決するには、高精細度センサーの能力の増大とAIプロセッサの限界とのギャップを埋めることのできる、AI中心のセンサーシステムを設計するための新しいアプローチが必要である。 本稿では、AIアルゴリズムと動的知覚のためのセンシングシステムの必要性を強調し、AIと知覚領域の両方における効率的なセンシングおよび知覚手法の概要を示す。 提案手法は、動的AI-in-the-loopセンシングシステムの設計と解析のためのフレームワークを伴い、推論時AI-to-Sensorフィードバックとエンドツーエンド効率と性能最適化による適応型センシングシステムを設計するための根本的に新しい手法を提案する。

As Moore's Law loses momentum, improving size, performance, and efficiency of processors has become increasingly challenging, ending the era of predictable improvements in hardware performance. Meanwhile, the widespread incorporation of high-definition sensors in consumer devices and autonomous technologies has fueled a significant upsurge in sensory data. Current global trends reveal that the volume of generated data already exceeds human consumption capacity, making AI algorithms the primary consumers of data worldwide. To address this, a novel approach to designing AI-centric sensing systems is needed that can bridge the gap between the increasing capabilities of high-definition sensors and the limitations of AI processors. This paper provides an overview of efficient sensing and perception methods in both AI and sensing domains, emphasizing the necessity of co-designing AI algorithms and sensing systems for dynamic perception. The proposed approach involves a framework for designing and analyzing dynamic AI-in-the-loop sensing systems, suggesting a fundamentally new method for designing adaptive sensing systems through inference-time AI-to-sensor feedback and end-to-end efficiency and performance optimization.
翻訳日:2023-12-14 17:57:00 公開日:2023-12-11
# Deep Image Priorの早期停止

Early Stopping for Deep Image Prior ( http://arxiv.org/abs/2112.06074v4 )

ライセンス: Link先を確認
Hengkang Wang, Taihui Li, Zhong Zhuang, Tiancong Chen, Hengyue Liang, Ju Sun(参考訳) deep image prior (dip) とその変種は、余分なトレーニングデータなしでコンピュータビジョンの逆問題を解く顕著な可能性を示した。 実用的なDIPモデルは、しばしば実質的に過パラメータ化される。 適合プロセスの間、これらのモデルはまず所望の視覚コンテンツを学習し、次に潜在的なモデリングと観測ノイズ、すなわち過剰フィットをピックアップする。 したがって、ディップの実用性は遷移期を捉えた良い早期停止(es)に依存することが多い。 この点に関して、視覚タスクのディップ作業の大部分は、モデルの可能性を示すのみである -- 基礎的真理に対するピークパフォーマンスを報告しているが、基盤にアクセスせずに操作的にニアピーク性能を得る方法の手がかりは提供していない。 本稿では,ディップの実用性障壁を克服し,複数のビジョンタスクとディップ変種において,ピーク付近の性能を一貫して検出する効率的なes戦略を提案する。 連続したDIP再構成の分散の単純な尺度に基づいて、ES法は既存の手法を上回り、非常に狭い領域でのみ機能するだけでなく、オーバーフィッティングを緩和しようとする多くの手法と組み合わせても有効である。 コードはhttps://github.com/sun-umn/Early_Stopping_for_DIPで公開されている。

Deep image prior (DIP) and its variants have showed remarkable potential for solving inverse problems in computer vision, without any extra training data. Practical DIP models are often substantially overparameterized. During the fitting process, these models learn mostly the desired visual content first, and then pick up the potential modeling and observational noise, i.e., overfitting. Thus, the practicality of DIP often depends critically on good early stopping (ES) that captures the transition period. In this regard, the majority of DIP works for vision tasks only demonstrates the potential of the models -- reporting the peak performance against the ground truth, but provides no clue about how to operationally obtain near-peak performance without access to the groundtruth. In this paper, we set to break this practicality barrier of DIP, and propose an efficient ES strategy, which consistently detects near-peak performance across several vision tasks and DIP variants. Based on a simple measure of dispersion of consecutive DIP reconstructions, our ES method not only outpaces the existing ones -- which only work in very narrow domains, but also remains effective when combined with a number of methods that try to mitigate the overfitting. The code is available at https://github.com/sun-umn/Early_Stopping_for_DIP.
翻訳日:2023-12-13 21:16:47 公開日:2023-12-11
# 資源制約付きネットワークにおけるフェデレーション学習の促進

Boosting Federated Learning in Resource-Constrained Networks ( http://arxiv.org/abs/2110.11486v2 )

ライセンス: Link先を確認
Mohamed Yassine Boukhari, Akash Dhasade, Anne-Marie Kermarrec, Rafael Pires, Othmane Safsafi and Rishi Sharma(参考訳) フェデレートラーニング(FL)は、クライアントデバイスが生データを共有せずに協調的にモデルをトレーニングすることを可能にする。 しかし、このプロセスはエッジデバイスの制約付き計算と通信リソースの下で実行される。 これらの制約とシステムの不均一性が組み合わさって、一部のクライアントはサーバが期待するよりもローカル更新を少なくし、コンバージェンスを遅くする。 さらに、FLにおけるハイパーパラメータの排他的チューニングは資源集約的であり、収束が悪影響を及ぼさない。 本研究では,推測学習アルゴリズムであるGeLを提案する。 GeLは制約のあるエッジデバイスに対して,勾配ベースのステップ上での推測更新を通じて,さらなる学習を可能にする。 これらの推測は無勾配で、参加するクライアントはそれらを無料で利用します。 一般的な推測アルゴリズムは (i)feedprox、feednova、feedyogiなど、最先端のアルゴリズムを柔軟に組み合わせることができる。 (ii)学習率の調整が最善でない場合には,性能が著しく向上する。 実験により,GeLが資源制約付きネットワークにおいて最大40%の収束を促進できることを示すとともに,学習速度調整の必要性を軽減できることを示す。

Federated learning (FL) enables a set of client devices to collaboratively train a model without sharing raw data. This process, though, operates under the constrained computation and communication resources of edge devices. These constraints combined with systems heterogeneity force some participating clients to perform fewer local updates than expected by the server, thus slowing down convergence. Exhaustive tuning of hyperparameters in FL, furthermore, can be resource-intensive, without which the convergence is adversely affected. In this work, we propose GeL, the guess and learn algorithm. GeL enables constrained edge devices to perform additional learning through guessed updates on top of gradient-based steps. These guesses are gradientless, i.e., participating clients leverage them for free. Our generic guessing algorithm (i) can be flexibly combined with several state-of-the-art algorithms including FedProx, FedNova or FedYogi; and (ii) achieves significantly improved performance when the learning rates are not best tuned. We conduct extensive experiments and show that GeL can boost empirical convergence by up to 40% in resource-constrained networks while relieving the need for exhaustive learning rate tuning.
翻訳日:2023-12-13 21:16:25 公開日:2023-12-11
# 最適化量子$f$分割の単調性

Monotonicity of optimized quantum $f$-divergence ( http://arxiv.org/abs/2104.12890v2 )

ライセンス: Link先を確認
Haojian Li(参考訳) 最適化された量子 $f$-divergence は、wildeによって \cite{wil18} で最初に導入された。 ワイルドは最適化された量子 $f$-divergence の単調性が量子チャネルでない写像に一般化できるかどうかという疑問を提起した。 我々は、シュワルツの不等式を満たす正のトレース保存写像に最適化された量子$f$-divergencesの単調性一般化により、この疑問に答える。 さらに、petz $\alpha$-r\'enyi の単調性が正のトレース保存写像の下で確立され、その結果は $\alpha\in(0,1)$ となる。

Optimized quantum $f$-divergence was first introduced by Wilde in \cite{Wil18}. Wilde raised the question of whether the monotonicity of optimized quantum $f$-divergence can be generalized to maps that are not quantum channels. We answer this question by generalizing the monotonicity of optimized quantum $f$-divergences to positive trace preserving maps satisfying a Schwarz inequality. Furthermore, we establish the monotonicity of Petz $\alpha$-R\'enyi divergence under positive trace-preserving maps, and our results hold for $\alpha\in(0,1)$.
翻訳日:2023-12-13 21:15:31 公開日:2023-12-11
# 神経形態の遺伝的特徴に対する因子的判別分析

Factorized Discriminant Analysis for Genetic Signatures of Neuronal Phenotypes ( http://arxiv.org/abs/2010.02171v7 )

ライセンス: Link先を確認
Mu Qiao(参考訳) 単細胞転写データの複雑な景観をナビゲートすることは大きな課題である。 この課題の中心は、細胞タイプの構造的および機能的特性に光を当てる高次元遺伝子発現パターンの有意義な表現の同定である。 モデル解釈性と計算の単純さを追求し、しばしば細胞の重要な表現型の特徴と整合する元のデータの線形変換を求める。 そこで本稿では,このニーズに対応するために,新しい線形次元低減法である因子化線形判別分析(flda)を提案する。 FLDAのくちばしは、他の影響を最小限に抑えつつ、1つの表現型の特徴と高い相関を持つ遺伝子発現レベルの線形機能を特定することである。 本研究では,この手法をスパーシティーベース正規化アルゴリズムと統合する。 この統合は、特定の表現型の特徴またはそれらの組み合わせに欠かせない遺伝子のサブセットを選択するために重要である。 fldaの有効性を説明するために,ショウジョウバエ視葉の神経細胞からの転写学的データセットに適用する。 FLDAは表現型の特徴に沿った構造パターンを捉えるだけでなく,各表現型に関連する重要な遺伝子を明らかにする。

Navigating the complex landscape of single-cell transcriptomic data presents significant challenges. Central to this challenge is the identification of a meaningful representation of high-dimensional gene expression patterns that sheds light on the structural and functional properties of cell types. Pursuing model interpretability and computational simplicity, we often look for a linear transformation of the original data that aligns with key phenotypic features of cells. In response to this need, we introduce factorized linear discriminant analysis (FLDA), a novel method for linear dimensionality reduction. The crux of FLDA lies in identifying a linear function of gene expression levels that is highly correlated with one phenotypic feature while minimizing the influence of others. To augment this method, we integrate it with a sparsity-based regularization algorithm. This integration is crucial as it selects a subset of genes pivotal to a specific phenotypic feature or a combination thereof. To illustrate the effectiveness of FLDA, we apply it to transcriptomic datasets from neurons in the Drosophila optic lobe. We demonstrate that FLDA not only captures the inherent structural patterns aligned with phenotypic features but also uncovers key genes associated with each phenotype.
翻訳日:2023-12-13 21:14:24 公開日:2023-12-11
# Manifold hypothesis による逆行性精製

Adversarial Purification with the Manifold Hypothesis ( http://arxiv.org/abs/2210.14404v4 )

ライセンス: Link先を確認
Zhaoyuan Yang, Zhiwei Xu, Jing Zhang, Richard Hartley, Peter Tu(参考訳) 本研究では, 多様体仮説を用いて, 対向ロバスト性に関する新しい枠組みを定式化する。 この枠組みは敵の例に対する防御に十分な条件を提供する。 この枠組みを用いた逆浄化法を開発した。 本手法は,高額な対向訓練を必要とせずに,多様体学習と変分推論を組み合わせることで,対向ロバスト性を提供する。 実験的に,攻撃者が防御の存在を認識している場合でも,敵の堅牢性を提供することができる。 また,本手法は可変オートエンコーダのテスト時間防御機構としても機能する。

In this work, we formulate a novel framework for adversarial robustness using the manifold hypothesis. This framework provides sufficient conditions for defending against adversarial examples. We develop an adversarial purification method with this framework. Our method combines manifold learning with variational inference to provide adversarial robustness without the need for expensive adversarial training. Experimentally, our approach can provide adversarial robustness even if attackers are aware of the existence of the defense. In addition, our method can also serve as a test-time defense mechanism for variational autoencoders.
翻訳日:2023-12-13 21:06:16 公開日:2023-12-11
# Detect, Retrieve, Comprehend: ゼロショット文書レベルの質問回答のための柔軟なフレームワーク

Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot Document-Level Question Answering ( http://arxiv.org/abs/2210.01959v3 )

ライセンス: Link先を確認
Tavish McDonald, Brian Tsan, Amar Saini, Juanita Ordonez, Luis Gutierrez, Phan Nguyen, Blake Mason, Brenda Ng(参考訳) 研究者は貴重な技術知識を含む何千もの学術文書を作成した。 コミュニティはこれらの文書を読み、情報を識別し、抽出し、合成する手間のかかる業務に直面している。 情報収集を自動化するために、文書レベルの質問応答(QA)は、人為的な質問に適応して多様な知識を抽出できる柔軟なフレームワークを提供する。 微調整されたQAシステムはラベル付きデータ(コンテキスト、質問、回答のタプル)にアクセスする必要がある。 しかし、文書QAのデータキュレーションは、コンテキスト(すなわち、答えのエビデンスパス)が、潜在的に長く、未フォーマットの文書から取り出さなければならないため、独特に難しい。 既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。 本稿では,(1)PDFからのテキスト抽出,(2)抽出したテキストから証拠を抽出して適切な文脈を形成する,(3)文脈から知識を抽出して高品質な回答を返す,という3段階の文書QAアプローチを提案する。 評価にQASPERを用いることで,既存のベースラインに対するAnswer-F1の+7.19の改善を実現し,コンテキスト選択に優れる。 以上の結果から,DRCは実用科学的文書QAの柔軟な枠組みとして非常に有望であることが示された。

Researchers produce thousands of scholarly documents containing valuable technical knowledge. The community faces the laborious task of reading these documents to identify, extract, and synthesize information. To automate information gathering, document-level question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question and answer). However, data curation for document QA is uniquely challenging because the context (i.e. answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers -- extractive, abstractive, or Boolean. Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system achieves a +7.19 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical scientific document QA.
翻訳日:2023-12-13 21:04:48 公開日:2023-12-11
# 回折データの深層ニューラルネットワークによる弱信号抽出

Weak-signal extraction enabled by deep-neural-network denoising of diffraction data ( http://arxiv.org/abs/2209.09247v3 )

ライセンス: Link先を確認
Jens Oppliger, M. Michael Denner, Julia K\"uspert, Ruggero Frison, Qisi Wang, Alexander Morawietz, Oleh Ivashko, Ann-Christin Dippel, Martin von Zimmermann, Izabela Bia{\l}o, Leonardo Martinelli, Beno\^it Fauqu\'e, Jaewon Choi, Mirian Garcia-Fernandez, Ke-Jin Zhou, Niels B. Christensen, Tohru Kurosawa, Naoki Momono, Migaku Oda, Fabian D. Natterer, Mark H. Fischer, Titus Neupert, Johan Chang(参考訳) ノイズの除去やキャンセルは、画像や音響に広く応用されている。 日常のアプリケーションでは、デノイジングは根底の真実に不利な生成的な側面さえ含んでいる可能性がある。 しかし、科学的に利用するためには、真理を正確に再現する必要がある。 本稿では,弱い信号が定量的な精度で現れるように,深い畳み込みニューラルネットワークを用いてデータを分節化する方法を示す。 特に結晶材料のX線回折について検討する。 本研究では,ノイズデータにおける電荷秩序に起因する弱信号の可視性と正確性を示す。 この成功は、測定された低ノイズデータと高ノイズデータのペアによるディープニューラルネットワークの教師付きトレーニングによって実現される。 人工雑音は, 定量的に正確な結果が得られないことを示す。 提案手法は,難解な取得問題に適用可能なノイズフィルタリングの実践的戦略を示すものである。

Removal or cancellation of noise has wide-spread applications for imaging and acoustics. In every-day-life applications, denoising may even include generative aspects, which are unfaithful to the ground truth. For scientific use, however, denoising must reproduce the ground truth accurately. Here, we show how data can be denoised via a deep convolutional neural network such that weak signals appear with quantitative accuracy. In particular, we study X-ray diffraction on crystalline materials. We demonstrate that weak signals stemming from charge ordering, insignificant in the noisy data, become visible and accurate in the denoised data. This success is enabled by supervised training of a deep neural network with pairs of measured low- and high-noise data. We demonstrate that using artificial noise does not yield such quantitatively accurate results. Our approach thus illustrates a practical strategy for noise filtering that can be applied to challenging acquisition problems.
翻訳日:2023-12-13 21:04:10 公開日:2023-12-11
# 命題krom論理プログラムの最小モデルと一様等価性の代数的特徴付け

Algebraic characterizations of least model and uniform equivalence of propositional Krom logic programs ( http://arxiv.org/abs/2302.04664v2 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) この研究ノートは、命題krom論理プログラムの最小モデル、仮定、一様同値の代数的特徴付けを提供する。

This research note provides algebraic characterizations of the least model, subsumption, and uniform equivalence of propositional Krom logic programs.
翻訳日:2023-12-13 20:54:28 公開日:2023-12-11
# ROBUSfT: C++ライブラリのテンプレートによるロバストリアルタイムシェイプ

ROBUSfT: Robust Real-Time Shape-from-Template, a C++ Library ( http://arxiv.org/abs/2301.04037v2 )

ライセンス: Link先を確認
Mohammadreza Shetab-Bushehri, Miguel Aranda, Youcef Mezouar, Adrien Bartoli, Erol Ozgur(参考訳) 単眼2次元視覚のみを用いて変形物体の3次元形状を追跡することは難しい課題である。 これは、あるべきであるからである (i)過度に制約された問題である2次元画像から3次元形状を推定し、 (ii)ソリューションパイプライン全体をリアルタイムで実装する。 パイプラインは通常、特徴検出とマッチング、ミスマッチフィルタリング、3次元形状推論、特徴追跡アルゴリズムを必要とする。 本稿では,物体の静止形状,テクスチャマップ,変形法則を含むテンプレートに基づく従来のパイプラインであるROBUSfTを提案する。 ROBUSfTは、大きな変形を処理でき、30fpsまで高速で、トレーニングなしで、ビデオフレームにおける部分的な閉塞や不連続に対して堅牢である。 挑戦的なデータセットでは最先端の手法よりも優れています。 ROBUSfTはC++ライブラリとして実装されており、https://github.com/mrshetab/ROBUSfTで使用するためのチュートリアルを提供している。

Tracking the 3D shape of a deforming object using only monocular 2D vision is a challenging problem. This is because one should (i) infer the 3D shape from a 2D image, which is a severely underconstrained problem, and (ii) implement the whole solution pipeline in real-time. The pipeline typically requires feature detection and matching, mismatch filtering, 3D shape inference and feature tracking algorithms. We propose ROBUSfT, a conventional pipeline based on a template containing the object's rest shape, texturemap and deformation law. ROBUSfT is ready-to-use, wide-baseline, capable of handling large deformations, fast up to 30 fps, free of training, and robust against partial occlusions and discontinuity in video frames. It outperforms the state-of-the-art methods in challenging datasets. ROBUSfT is implemented as a publicly available C++ library and we provide a tutorial on how to use it in https://github.com/mrshetab/ROBUSfT
翻訳日:2023-12-13 20:53:31 公開日:2023-12-11
# 3次元位相秩序の境界状態と解圧量子臨界点

Boundary states of Three Dimensional Topological Order and the Deconfined Quantum Critical Point ( http://arxiv.org/abs/2212.09754v2 )

ライセンス: Link先を確認
Wenjie Ji, Nathanan Tantivasadakarn, Cenke Xu(参考訳) 本研究では, 3次元位相秩序,すなわち3次元$\mathbb{z}_2$ toric符号の境界状態について検討する。 本研究で検討する境界状態には,3つの異なる基本型が存在する。 3つの初等的境界を含む位相図では、いわゆる解圧量子臨界点(dqcp)に「容易軸」な異方性を持つ多重臨界点が存在する可能性がある。 さらに、2つの境界型を交換する創発的な$\mathbb{Z}_{2,\text{d}}$対称性があり、これはDQCPの大域対称性の一部となる。 境界上の創発的な$\mathbb{Z}_{2,\text{d}}$対称性は、バルクの表面欠陥の一種に由来する。 さらに、創発対称性の下で不変な曲面位相秩序を持つギャップ付き境界が見つかる。

We study the boundary states of the archetypal three-dimensional topological order, i.e. the three-dimensional $\mathbb{Z}_2$ toric code. There are three distinct elementary types of boundary states that we will consider in this work. In the phase diagram that includes the three elementary boundaries there may exist a multi-critical point, which is captured by the so-called deconfined quantum critical point (DQCP) with an "easy-axis" anisotropy. Moreover, there is an emergent $\mathbb{Z}_{2,\text{d}}$ symmetry that swaps two of the boundary types, and it becomes part of the global symmetry of the DQCP. The emergent $\mathbb{Z}_{2,\text{d}}$ symmetry on the boundary is originated from a type of surface defect in the bulk. We further find a gapped boundary with a surface topological order that is invariant under the emergent symmetry.
翻訳日:2023-12-13 20:52:26 公開日:2023-12-11
# 自律ロボットのロバスト検証のためのベイズ学習

Bayesian Learning for the Robust Verification of Autonomous Robots ( http://arxiv.org/abs/2303.08476v2 )

ライセンス: Link先を確認
Xingyu Zhao, Simos Gerasimou, Radu Calinescu, Calum Imrie, Valentin Robu, David Flynn(参考訳) インフラ検査、宇宙探査、その他の重要なミッションで使用される自律ロボットは、高度にダイナミックな環境で動作する。 そのため、これらのミッションに関連するタスクを安全かつ効果的に完了させる能力を継続的に検証する必要がある。 本稿では,自律ロボットのランタイム検証を可能にするベイズ学習フレームワークを提案する。 このフレームワークは、検証されたロボットの事前の知識と観察を使用して、正規および特異な(破滅的な失敗など)事象の発生率の予測範囲を学習する。 これらの範囲で定義された区間連続時間マルコフモデルを分析し、ミッション継続時間や成功確率などのシステム特性の変動の期待間隔を求める。 この枠組みを水中インフラ検査と修理のための自律ロボットミッションに適用する。 論文で提示された形式的証明と実験により,実世界の多くの系に内在する不確実性を反映した結果が得られ,パラメトリック不確実性下での定量的特性の堅牢な検証が可能となった。

Autonomous robots used in infrastructure inspection, space exploration and other critical missions operate in highly dynamic environments. As such, they must continually verify their ability to complete the tasks associated with these missions safely and effectively. Here we present a Bayesian learning framework that enables this runtime verification of autonomous robots. The framework uses prior knowledge and observations of the verified robot to learn expected ranges for the occurrence rates of regular and singular (e.g., catastrophic failure) events. Interval continuous-time Markov models defined using these ranges are then analysed to obtain expected intervals of variation for system properties such as mission duration and success probability. We apply the framework to an autonomous robotic mission for underwater infrastructure inspection and repair. The formal proofs and experiments presented in the paper show that our framework produces results that reflect the uncertainty intrinsic to many real-world systems, enabling the robust verification of their quantitative properties under parametric uncertainty.
翻訳日:2023-12-13 20:42:32 公開日:2023-12-11
# フリップチップパッケージ中のフルオキソニウム量

Fluxonium Qubits in a Flip-Chip Package ( http://arxiv.org/abs/2303.01481v2 )

ライセンス: Link先を確認
Aaron Somoroff, Patrick Truitt, Adam Weis, Jacob Bernhardt, Daniel Yohannes, Jason Walter, Konstantin Kalashnikov, Mario Renzullo, Raymond A. Mencia, Maxim G. Vavilov, Vladimir E. Manucharyan, Igor V. Vernik, and Oleg Mukhanov(参考訳) 量子情報処理において,磁束ニウム超伝導回路固有の強い非調和性と高いコヒーレンス時間が有益である。 高品質な物理キュービットを必要とすることに加えて、クロストークとデコヒーレンスを最小化する方法で量子プロセッサを組み立てる必要がある。 本稿では,flip-chipアーキテクチャでパッケージ化されたfluxonium qubitsについて,従来の制御および読み出しチップを量子チップにバウンドし,マルチチップモジュール(mcm)を形成する。 モジュラーアプローチにより、キュービットと制御/読み出し要素間の接続性が向上し、別々の製造プロセスが可能になる。 個々のフラックスニウム量子ビットのコヒーレンス特性を特徴付け,6nsマイクロ波パルスの高忠実度単一量子ビットゲートを(ドラッグ無しで)示し,報告結果を改善するための主なデコヒーレンス機構を同定した。

The strong anharmonicity and high coherence times inherent to fluxonium superconducting circuits are beneficial for quantum information processing. In addition to requiring high-quality physical qubits, a quantum processor needs to be assembled in a manner that minimizes crosstalk and decoherence. In this paper, we report work on fluxonium qubits packaged in a flip-chip architecture, where a classical control and readout chip is bump-bonded to the quantum chip, forming a multi-chip module (MCM). The modular approach allows for improved connectivity between the qubits and control/readout elements, and separate fabrication processes. We characterize the coherence properties of the individual fluxonium qubits, demonstrate high fidelity single-qubit gates with 6 ns microwave pulses (without DRAG), and identify the main decoherence mechanisms to improve on the reported results.
翻訳日:2023-12-13 20:41:58 公開日:2023-12-11
# grounded decoding: 具体化エージェントのための grounded model によるテキスト生成の誘導

Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents ( http://arxiv.org/abs/2303.00855v2 )

ライセンス: Link先を確認
Wenlong Huang, Fei Xia, Dhruv Shah, Danny Driess, Andy Zeng, Yao Lu, Pete Florence, Igor Mordatch, Sergey Levine, Karol Hausman, Brian Ichter(参考訳) 大規模言語モデル(llms)の最近の進歩は、自己回帰モデルによる事前学習を通じて、インターネット規模の知識を学習し、活用する能力を示している。 残念ながら、ロボットのようなエンボディエージェントを用いた設定にそのようなモデルを適用することは、物理的世界の経験の欠如、非言語的な観察を解析できないこと、ロボットが要求する報酬や安全制約の無知により困難である。 一方で、対話データから学習する言語条件付ロボットポリシーは、エージェントが現実世界に正しく配置できるために必要な基盤を提供することができるが、そのようなポリシーは、トレーニングに利用可能な対話データの幅が限られているため、高度な意味理解の欠如によって制限される。 したがって、言語モデルにおける意味的知識を具体化しながら利用したい場合は、言語モデルに従って、また、環境の接地モデルに従って実現可能なアクションシーケンスを構築しなければならない。 我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。 3つのシミュレーションと実世界のドメインをまたがって,そのような基盤モデルがどのように得られるのかを実証し,提案するデコーディング戦略は,ロボット環境において,両モデルの知識を生かして,複雑で長方形の具体化課題を解決できることを示す。 プロジェクトのウェブサイトは grounded-decoding.github.io にある。

Recent progress in large language models (LLMs) has demonstrated the ability to learn and leverage Internet-scale knowledge through pre-training with autoregressive models. Unfortunately, applying such models to settings with embodied agents, such as robots, is challenging due to their lack of experience with the physical world, inability to parse non-language observations, and ignorance of rewards or safety constraints that robots may require. On the other hand, language-conditioned robotic policies that learn from interaction data can provide the necessary grounding that allows the agent to be correctly situated in the real world, but such policies are limited by the lack of high-level semantic understanding due to the limited breadth of the interaction data available for training them. Thus, if we want to make use of the semantic knowledge in a language model while still situating it in an embodied setting, we must construct an action sequence that is both likely according to the language model and also realizable according to grounded models of the environment. We frame this as a problem similar to probabilistic filtering: decode a sequence that both has high probability under the language model and high probability under a set of grounded model objectives. We demonstrate how such grounded models can be obtained across three simulation and real-world domains, and that the proposed decoding strategy is able to solve complex, long-horizon embodiment tasks in a robotic setting by leveraging the knowledge of both models. The project's website can be found at grounded-decoding.github.io.
翻訳日:2023-12-13 20:41:15 公開日:2023-12-11
# 潜在拡散モデルによる空間的限定測定による大気境界層のアンサンブル流れの再構成

Ensemble flow reconstruction in the atmospheric boundary layer from spatially limited measurements through latent diffusion models ( http://arxiv.org/abs/2303.00836v2 )

ライセンス: Link先を確認
Alex Rybchuk, Malik Hassanaly, Nicholas Hamilton, Paula Doubrawa, Mitchell J. Fulton, Luis A. Mart\'inez-Tossas(参考訳) コストと実用上の制約のため、大気境界層でのフィールドキャンペーンは、通常、関心の大気体積のほんの一部しか測定しない。 機械学習技術は, 従来, 標準流体力学問題や二次元物理流の未観測領域の再構築に成功していたが, 大気境界層ではまだ実証されていない。 そこで我々は,大規模渦流シミュレーションを用いて,空間的に限られた測定値を持つフィールドキャンペーンの数値的な類似を行う。 本研究では, 流れの再現を塗装問題とし, 潜伏拡散モデルを用いて乱流3次元流れの現実的なサンプルを再構成する。 拡散モデルは、入力観測が体積の1%未満を占める場合でも、より大きな空間スケールで物理的に妥当な乱流構造を生成する。 定性的可視化と定量的評価を組み合わせることで, 拡散モデルが有意義に多様な試料を生成できることを示す。 これらのサンプルは大規模なシミュレーションコードの初期条件としてうまく機能する。 拡散モデルは,他の乱流再生問題に対する他の応用への期待と可能性を示す。

Due to costs and practical constraints, field campaigns in the atmospheric boundary layer typically only measure a fraction of the atmospheric volume of interest. Machine learning techniques have previously successfully reconstructed unobserved regions of flow in canonical fluid mechanics problems and two-dimensional geophysical flows, but these techniques have not yet been demonstrated in the three-dimensional atmospheric boundary layer. Here, we conduct a numerical analogue of a field campaign with spatially limited measurements using large-eddy simulation. We pose flow reconstruction as an inpainting problem, and reconstruct realistic samples of turbulent, three-dimensional flow with the use of a latent diffusion model. The diffusion model generates physically plausible turbulent structures on larger spatial scales, even when input observations cover less than 1% of the volume. Through a combination of qualitative visualization and quantitative assessment, we demonstrate that the diffusion model generates meaningfully diverse samples when conditioned on just one observation. These samples successfully serve as initial conditions for a large-eddy simulation code. We find that diffusion models show promise and potential for other applications for other turbulent flow reconstruction problems.
翻訳日:2023-12-13 20:40:48 公開日:2023-12-11
# オンライン討論におけるヘイト、毒性、過激な集団的モデレーション

Collective moderation of hate, toxicity, and extremity in online discussions ( http://arxiv.org/abs/2303.00357v4 )

ライセンス: Link先を確認
Jana Lasser and Alina Herderich and Joshua Garland and Segun Taofeek Aroyehun and David Garcia and Mirta Galesic(参考訳) 市民はどうやって憎しみに対処できるのか? 4年間でtwitter上で13万件を超える議論のコーパスを分析した。 人間のアノテータ、言語モデル、機械学習分類器の助けを借りて、後続のつぶやきにおけるヘイトスピーチの確率と関係のある言論の異なる次元を識別する。 我々は,マイクロレベル(個別ツイート対),メソレベル(判断木),マクロレベル(日)の会話における異なる対声戦略の有効性を明らかにするために,マッチングアプローチと縦断統計分析を用いた。 事実によって必ずしも支持されるのではなく、侮辱のない単純な意見を表現することは、その後の議論において最も憎悪に関係している。 サルカズムはまた、特に組織化された極端な群の存在においても役立つ。 アウトグループまたはイングループへの言及は、典型的には談話の劣化に関連している。 怒りや恐怖などの否定的な感情のトーンや、熱意やプライドのような肯定的な感情のトーンも、会話の質を悪化させる。 また, ヘイトスピーチ以外にも, 有害性, 発話の極端性, 極端な話者の存在など, 発話の質に関する他の指標についても同様の結果を得た。 会話の小さなサンプルをワンショット分析するだけでなく,集合的市民モデレーションによるオンラインコモンズの管理が成功に繋がる可能性が示唆された。

How can citizens address hate in online discourse? We analyze a large corpus of more than 130,000 discussions on Twitter over four years. With the help of human annotators, language models and machine learning classifiers, we identify different dimensions of discourse that might be related to the probability of hate speech in subsequent tweets. We use a matching approach and longitudinal statistical analyses to discern the effectiveness of different counter speech strategies on the micro-level (individual tweet pairs), meso-level (discussion trees) and macro-level (days) of discourse. We find that expressing simple opinions, not necessarily supported by facts, but without insults, relates to the least hate in subsequent discussions. Sarcasm can be helpful as well, in particular in the presence of organized extreme groups. Mentioning either outgroups or ingroups is typically related to a deterioration of discourse. A pronounced emotional tone, either negative such as anger or fear, or positive such as enthusiasm and pride, also leads to worse discourse quality. We obtain similar results for other measures of quality of discourse beyond hate speech, including toxicity, extremity of speech, and the presence of extreme speakers. Going beyond one-shot analyses on smaller samples of discourse, our findings have implications for the successful management of online commons through collective civic moderation.
翻訳日:2023-12-13 20:40:32 公開日:2023-12-11
# splitout: outlier detectionによる分割学習におけるトレーニングハイジャック検出

SplitOut: Out-of-the-Box Training-Hijacking Detection in Split Learning via Outlier Detection ( http://arxiv.org/abs/2302.08618v2 )

ライセンス: Link先を確認
Ege Erdogan, Unat Teksen, Mehmet Salih Celiktenyildiz, Alptekin Kupcu, A. Ercument Cicek(参考訳) 分割学習は、ニューラルネットワークを分割して、クライアント(データホルダ)が最初のレイヤを計算し、中間出力を中央の計算重サーバとのみ共有するようにすることで、ディープニューラルネットワークの効率的かつプライバシ対応なトレーニングを可能にする。 このパラダイムは、サーバがクライアントモデルが何を学習するかを完全にコントロールできる新しい攻撃媒体を導入し、クライアントのプライベートデータを推測し、クライアントモデルにバックドアを実装するために既に利用されています。 これまでの研究では、クライアントがこのようなトレーニングハイジャック攻撃をうまく検出できることが示されているが、提案手法はヒューリスティックスに依存し、多くのハイパーパラメータのチューニングを必要とし、クライアントの能力を十分に活用していない。 本研究では,クライアントの計算能力に関する控えめな仮定を前提として,既往のトレーニングハイジャック攻撃をほぼゼロの偽陽性率で検出するアウト・オブ・ボックス・アウト・ザ・ボックス・アウトリーバー検出法を提案する。 異なるタスクの実験を通じて、splitoutと名づけたアプローチの単純さが、以前の検出方法よりも実用的で信頼性の高い代替手段となることを結論付けました。

Split learning enables efficient and privacy-aware training of a deep neural network by splitting a neural network so that the clients (data holders) compute the first layers and only share the intermediate output with the central compute-heavy server. This paradigm introduces a new attack medium in which the server has full control over what the client models learn, which has already been exploited to infer the private data of clients and to implement backdoors in the client models. Although previous work has shown that clients can successfully detect such training-hijacking attacks, the proposed methods rely on heuristics, require tuning of many hyperparameters, and do not fully utilize the clients' capabilities. In this work, we show that given modest assumptions regarding the clients' compute capabilities, an out-of-the-box outlier detection method can be used to detect existing training-hijacking attacks with almost-zero false positive rates. We conclude through experiments on different tasks that the simplicity of our approach we name SplitOut makes it a more viable and reliable alternative compared to the earlier detection methods.
翻訳日:2023-12-13 20:39:24 公開日:2023-12-11
# DIFFender: 拡散に基づくパッチ攻撃に対する敵防衛

DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks ( http://arxiv.org/abs/2306.09124v3 )

ライセンス: Link先を確認
Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Yubo Chen, Hang Su, Xingxing Wei(参考訳) 敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に大きな脅威をもたらす。 パッチ攻撃に対する信頼性の高い防御を開発することは、現実世界のアプリケーションには不可欠だが、この分野における現在の研究は不十分である。 本稿では,テキスト誘導拡散モデルを用いた新たな防御手法であるdiffenderを提案する。 DIFFenderには、パッチローカライゼーションとパッチ復元の2つの主要なステージが含まれている。 ローカライゼーションの段階では,拡散モデルの興味深い性質を見つけ,利用することにより,敵パッチの位置を正確に同定する。 回復段階では,画像の対向領域を再構成するために拡散モデルを用い,視覚的内容の完全性を維持した。 前者の発見により、これらの2つの段階は統一拡散モデルによって同時に導かれる。 これにより、それら間の密接な相互作用を利用して、防御性能全体を改善することができる。 さらに, 拡散モデルを微調整し, 事前学習した拡散モデルが防御タスクに容易に適応できる数ショットプロンプトチューニングアルゴリズムを提案する。 画像分類,顔認識,さらに物理世界でのさらなる実験を行い,提案手法が強い適応攻撃下で優れたロバスト性を示し,様々なシナリオ,多様な分類器,複数のパッチ攻撃法にまたがる汎用性を示すことを実証した。

Adversarial attacks, particularly patch attacks, pose significant threats to the robustness and reliability of deep learning models. Developing reliable defenses against patch attacks is crucial for real-world applications, yet current research in this area is unsatisfactory. In this paper, we propose DIFFender, a novel defense method that leverages a text-guided diffusion model to defend against adversarial patches. DIFFender includes two main stages: patch localization and patch restoration. In the localization stage, we find and exploit an intriguing property of the diffusion model to precisely identify the locations of adversarial patches. In the restoration stage, we employ the diffusion model to reconstruct the adversarial regions in the images while preserving the integrity of the visual content. Thanks to the former finding, these two stages can be simultaneously guided by a unified diffusion model. Thus, we can utilize the close interaction between them to improve the whole defense performance. Moreover, we propose a few-shot prompt-tuning algorithm to fine-tune the diffusion model, enabling the pre-trained diffusion model to adapt to the defense task easily. We conduct extensive experiments on image classification, face recognition, and further in the physical world, demonstrating that our proposed method exhibits superior robustness under strong adaptive attacks and generalizes well across various scenarios, diverse classifiers, and multiple patch attack methods.
翻訳日:2023-12-13 20:21:04 公開日:2023-12-11
# LLM事前学習における学習速度の早期平均化

Early Weight Averaging meets High Learning Rates for LLM Pre-training ( http://arxiv.org/abs/2306.03241v2 )

ライセンス: Link先を確認
Sunny Sanyal, Atula Neerkaje, Jean Kaddour, Abhishek Kumar and Sujay Sanghavi(参考訳) 大規模言語モデル(llm)のトレーニングにはかなりのコストがかかります。 本稿では,訓練中の収束と一般化の両方を改善するために,訓練実行の軌跡に沿って平均化される単純なアイデアチェックポイントの能力について検討する。 ここでは,高い学習率で訓練されたモデルが,チェックポイント平均化による高利得を観察することを示す。 さらに、チェックポイントをトレーニングステップでかなりの間隔でサンプリングすると、これらのゲインが増幅される。 トレーニングレシピは,指数的移動平均 (EMA) や確率的移動平均 (SWA) といった,従来のトレーニングや一般的なチェックポイント平均ベースラインよりも優れている。 我々は,非常に大きなバッチサイズのため,学習率が本質的に好まれるLLMを事前学習することで,トレーニングのレシピを評価する。 具体的には,9BトークンからなるOpenWebTextデータセット上で,様々なサイズ (125M), 中 (335M), 大 (770M) のナノGPT-2モデルを事前訓練した。 さらに,207Bトークンを含むPILE-dedupedデータセットをトレーニングした1Bから12Bまで,公開可能なPythia LLMの結果も提示した。

Training Large Language Models (LLMs) incurs significant cost; hence, any strategy that accelerates model convergence is helpful. In this paper, we investigate the ability of a simple idea checkpoint averaging along the trajectory of a training run to improve both convergence and generalization quite early on during training. Here we show that models trained with high learning rates observe higher gains due to checkpoint averaging. Furthermore, these gains are amplified when checkpoints are sampled with considerable spacing in training steps. Our training recipe outperforms conventional training and popular checkpoint averaging baselines such as exponential moving average (EMA) and stochastic moving average (SWA). We evaluate our training recipe by pre-training LLMs, where high learning rates are inherently preferred due to extremely large batch sizes. Specifically, we pre-trained nanoGPT-2 models of varying sizes, small (125M), medium (335M), and large (770M)on the OpenWebText dataset, comprised of 9B tokens. Additionally, we present results for publicly available Pythia LLMs, ranging from 1B to 12B, which were trained on the PILE-deduped dataset containing 207B tokens.
翻訳日:2023-12-13 20:19:33 公開日:2023-12-11
# SPRING: 論文の勉強とゲームへの推論

SPRING: Studying the Paper and Reasoning to Play Games ( http://arxiv.org/abs/2305.15486v3 )

ライセンス: Link先を確認
Yue Wu, Shrimai Prabhumoye, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li(参考訳) オープンワールドサバイバルゲームは,マルチタスクや深い探索,目標優先といった要件から,aiアルゴリズムにとって大きな課題となる。 強化学習(rl)はゲームを解くために人気があるが、その高いサンプル複雑性はcrafterやminecraftのような複雑なオープンワールドゲームでの効果を制限している。 本稿では,ゲームオリジナルの学術論文を読むための新しいアプローチであるSPRINGを提案し,大言語モデル(LLM)を用いてゲームの説明とプレイの知識を利用する。 ゲームコンテキストとしてのLaTeXソースとエージェントの現在の観察を記述したSPRingフレームワークでは,ゲーム関連質問をノードとして,依存関係をエッジとして有向非巡回グラフ(DAG)を採用している。 dagをトラバースし、各ノードのllm応答を位相順に計算し、最終ノードに対するllmの応答を環境動作に直接翻訳することで、環境における最適な動作を特定する。 実験では,クラフトオープンワールド環境の設定の下で,異なる種類のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。 我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。 定量的には、GPT-4によるSPRingは、トレーニングなしで100万歩のトレーニングを受けたすべての最先端のRLベースラインを上回ります。 最後に,LLMのテストベッドとしてゲームの可能性を示す。

Open-world survival games pose significant challenges for AI algorithms due to their multi-tasking, deep exploration, and goal prioritization requirements. Despite reinforcement learning (RL) being popular for solving games, its high sample complexity limits its effectiveness in complex open-world games like Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's original academic paper and use the knowledge learned to reason and play the game through a large language model (LLM). Prompted with the LaTeX source as game context and a description of the agent's current observation, our SPRING framework employs a directed acyclic graph (DAG) with game-related questions as nodes and dependencies as edges. We identify the optimal action to take in the environment by traversing the DAG and calculating LLM responses for each node in topological order, with the LLM's answer to final node directly translating to environment actions. In our experiments, we study the quality of in-context "reasoning" induced by different forms of prompts under the setting of the Crafter open-world environment. Our experiments suggest that LLMs, when prompted with consistent chain-of-thought, have great potential in completing sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4 outperforms all state-of-the-art RL baselines, trained for 1M steps, without any training. Finally, we show the potential of games as a test bed for LLMs.
翻訳日:2023-12-13 20:16:37 公開日:2023-12-11
# RoMa:ロバストなDense機能マッチング

RoMa: Robust Dense Feature Matching ( http://arxiv.org/abs/2305.15404v2 )

ライセンス: Link先を確認
Johan Edstedt, Qiyu Sun, Georg B\"okman, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) 特徴マッチングは、3次元シーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクであり、密集した手法はこれらすべての対応を推定する。 目標は、現実世界の変化に挑戦してマッチ可能な、堅牢なモデル、すなわちモデルを学ぶことだ。 本研究では, 基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。 これらの機能は、スクラッチからトレーニングされたローカル機能よりもはるかに堅牢だが、本質的に粗い。 したがって、これらを特別なConvNet機能と組み合わせて、正確にローカライズ可能な機能ピラミッドを作成します。 さらにロバスト性を向上させるために, アンカー確率を予測し, マルチモーダル性を表現する変換器マッチングデコーダを提案する。 最後に,後続のロバスト回帰を伴う回帰別分類による損失定式化の改善を提案する。 我々は、RoMaという手法が大きな成果を上げ、新たな最先端を実現するための包括的な実験を行う。 特に、非常に難しいwxbsベンチマークで36%の改善を達成しました。 コードはhttps://github.com/Parskatt/RoMaで提供されている。

Feature matching is an important computer vision task that involves estimating correspondences between two images of a 3D scene, and dense methods estimate all such correspondences. The aim is to learn a robust model, i.e., a model able to match under challenging real-world changes. In this work, we propose such a model, leveraging frozen pretrained features from the foundation model DINOv2. Although these features are significantly more robust than local features trained from scratch, they are inherently coarse. We therefore combine them with specialized ConvNet fine features, creating a precisely localizable feature pyramid. To further improve robustness, we propose a tailored transformer match decoder that predicts anchor probabilities, which enables it to express multimodality. Finally, we propose an improved loss formulation through regression-by-classification with subsequent robust regression. We conduct a comprehensive set of experiments that show that our method, RoMa, achieves significant gains, setting a new state-of-the-art. In particular, we achieve a 36% improvement on the extremely challenging WxBS benchmark. Code is provided at https://github.com/Parskatt/RoMa
翻訳日:2023-12-13 20:16:11 公開日:2023-12-11
# PIGEON:画像位置情報の予測

PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v3 )

ライセンス: Link先を確認
Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn(参考訳) 惑星規模の画像のジオローカライゼーションは、世界中のどこから来た画像の多様性のため、依然として困難な問題である。 視覚変換器をベースとした手法は地理的局所化の精度を大幅に向上させたが、先行文学の成功はランドマークの画像の狭い分布に制約され、性能は目に見えない場所に一般化されていない。 本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 さらに,推定精度向上のため,位置情報クラスタ上での検索を初めて実施した。 まず,Geoguessrのゲームから得られたデータに基づいてトレーニングを行い,目標地点から25km以内に推定値の40%以上を世界規模で配置することができる。 また、ロボットを開発し、人間に対する盲点実験でPIGEONをデプロイし、プレイヤーの上位0.01%にランク付けした。 我々はまた、世界有数のプロであるGeoguessrプレーヤーの1人に対して、数百万人の視聴者と6試合に挑戦し、6試合全てで勝利した。 第2のモデルである pigeotto は,flickr と wikipedia の画像データセット上でトレーニングを行い,広範な画像ジオロカライズベンチマークで最新結果を達成し,都市の正確度レベルでは最大 7.7 ポイント,国レベルでは 38.8 ポイントの sota を上回っている点が異なる。 この結果から,PIGEOTTOは未知の場所に効果的に一般化する最初の画像ジオローカライゼーションモデルであり,高精度で惑星規模の画像ジオローカライゼーションシステムを実現するための道を開くことができることが示唆された。 コードはgithubから入手できます。

Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
翻訳日:2023-12-13 20:07:38 公開日:2023-12-11
# DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing ( http://arxiv.org/abs/2306.14435v5 )

ライセンス: Link先を確認
Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai(参考訳) 正確かつ制御可能な画像編集は、最近大きな注目を集めている課題である。 dragganはインタラクティブなポイントベースの画像編集フレームワークで、ピクセルレベルの精度で印象的な編集結果を実現する。 しかしながら、GAN(Generative Adversarial Network)に依存しているため、その一般化は事前訓練されたGANモデルの能力によって制限される。 本研究では,この編集フレームワークを拡散モデルに拡張し,新しいアプローチDragDiffusionを提案する。 大規模事前学習された拡散モデルを用いることで,実画像と拡散画像の両方に対するインタラクティブなポイントベース編集の適用性が大幅に向上する。 本手法では,空間制御の精度を高めるために拡散潜時を最適化する。 この最適化プロセスの監督信号は拡散モデルのUNet特徴からであり、リッチな意味情報と幾何学的情報を含んでいることが知られている。 さらに、元の画像のアイデンティティをより保存するために、LoRAファインチューニングと潜在MasaCtrlという2つの追加技術を導入する。 最後に,インタラクティブなポイントベース画像編集手法の性能評価を行う最初のベンチマークであるdragbenchという,難易度の高いベンチマークデータセットを提案する。 様々な挑戦的なケース(例えば、複数のオブジェクトを持つ画像、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる実験は、dragdiffusionの汎用性と汎用性を示している。 コード: https://github.com/yujun-shi/dragdiffusion。

Accurate and controllable image editing is a challenging task that has attracted significant attention recently. Notably, DragGAN is an interactive point-based image editing framework that achieves impressive editing results with pixel-level precision. However, due to its reliance on generative adversarial networks (GANs), its generality is limited by the capacity of pretrained GAN models. In this work, we extend this editing framework to diffusion models and propose a novel approach DragDiffusion. By harnessing large-scale pretrained diffusion models, we greatly enhance the applicability of interactive point-based editing on both real and diffusion-generated images. Our approach involves optimizing the diffusion latents to achieve precise spatial control. The supervision signal of this optimization process is from the diffusion model's UNet features, which are known to contain rich semantic and geometric information. Moreover, we introduce two additional techniques, namely LoRA fine-tuning and latent-MasaCtrl, to further preserve the identity of the original image. Lastly, we present a challenging benchmark dataset called DragBench -- the first benchmark to evaluate the performance of interactive point-based image editing methods. Experiments across a wide range of challenging cases (e.g., images with multiple objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. Code: https://github.com/Yujun-Shi/DragDiffusion.
翻訳日:2023-12-13 20:06:29 公開日:2023-12-11
# 放送プロトコルの学習

Learning Broadcast Protocols ( http://arxiv.org/abs/2306.14284v2 )

ライセンス: Link先を確認
Dana Fisman, Noa Izsak, Swen Jacobs(参考訳) 実例から計算モデルを学習する問題は注目されている。 分散システムの学習モデルにおける特に難しい問題として、既存の結果は一定の数の相互作用プロセスを持つモデルに限定されている。 この作業では、任意の数のプロセスで分散システムを学習する問題、すなわち、すべての観察可能な振る舞いを生み出すのに十分な多数のプロセスが存在することを仮定して、初めて(私たちの知識を最大限に活用するために)検討します。 具体的には、細かなブロードキャストプロトコルを考慮し、これらは有限カットオフと隠蔽状態のないブロードキャストプロトコル(BP)である。 試料が十分に完成すれば、微細なBPと一致する試料から正しいBPを推測し、最小の等価BPを推定できる学習アルゴリズムを提供する。 負の面では、 (a)指数サイズの特性集合は避けられない。 b)微細BPの整合性問題はNP困難であり、 (c)細いBPは多項式的に予測できない。

The problem of learning a computational model from examples has been receiving growing attention. For the particularly challenging problem of learning models of distributed systems, existing results are restricted to models with a fixed number of interacting processes. In this work we look for the first time (to the best of our knowledge) at the problem of learning a distributed system with an arbitrary number of processes, assuming only that there exists a cutoff, i.e., a number of processes that is sufficient to produce all observable behaviors. Specifically, we consider fine broadcast protocols, these are broadcast protocols (BPs) with a finite cutoff and no hidden states. We provide a learning algorithm that can infer a correct BP from a sample that is consistent with a fine BP, and a minimal equivalent BP if the sample is sufficiently complete. On the negative side we show that (a) characteristic sets of exponential size are unavoidable, (b) the consistency problem for fine BPs is NP hard, and (c) that fine BPs are not polynomially predictable.
翻訳日:2023-12-13 20:06:07 公開日:2023-12-11
# 不正確なニューラルネットワークを用いた分布ロバストな統計的検証

Distributionally Robust Statistical Verification with Imprecise Neural Networks ( http://arxiv.org/abs/2308.14815v3 )

ライセンス: Link先を確認
Souradeep Dutta, Michele Caprio, Vivian Lin, Matthew Cleaveland, Kuk Jin Jang, Ivan Ruchkin, Oleg Sokolsky, Insup Lee(参考訳) AI安全性における特に困難な問題は、高次元自律システムの振る舞いを保証することだ。 到達可能性分析を中心とした検証アプローチはスケールに失敗し、純粋に統計的アプローチはサンプリングプロセスに関する分布仮定によって制約される。 代わりに、ブラックボックスシステムに対する統計的検証問題の分布的に堅牢なバージョンを、我々の性能保証が大きな分布群を抑えるようにしている。 本稿では,アクティブラーニングと不確実性定量化,ニューラルネットワークの検証を組み合わせた新しい手法を提案する。 私たちのアプローチの中心となるのは、能動的学習を導く不確実性を提供するImprecise Neural Networksと呼ばれるアンサンブル技術です。 アクティブラーニングは、徹底的なニューラルネットワーク検証ツールsherlockを使用してサンプルを収集する。 openai gym mujoco環境における複数の物理シミュレータの強化学習制御による評価により,高次元システムに対する有用でスケーラブルな保証を提供することができることを示した。

A particularly challenging problem in AI safety is providing guarantees on the behavior of high-dimensional autonomous systems. Verification approaches centered around reachability analysis fail to scale, and purely statistical approaches are constrained by the distributional assumptions about the sampling process. Instead, we pose a distributionally robust version of the statistical verification problem for black-box systems, where our performance guarantees hold over a large family of distributions. This paper proposes a novel approach based on a combination of active learning, uncertainty quantification, and neural network verification. A central piece of our approach is an ensemble technique called Imprecise Neural Networks, which provides the uncertainty to guide active learning. The active learning uses an exhaustive neural-network verification tool Sherlock to collect samples. An evaluation on multiple physical simulators in the openAI gym Mujoco environments with reinforcement-learned controllers demonstrates that our approach can provide useful and scalable guarantees for high-dimensional systems.
翻訳日:2023-12-13 19:56:38 公開日:2023-12-11
# 大きな負の有効範囲を持つ3つの同一ボソンの普遍性

Universality of Three Identical Bosons with Large, Negative Effective Range ( http://arxiv.org/abs/2308.01394v2 )

ライセンス: Link先を確認
Harald W. Griesshammer (George Washington U.) and Ubirajara van Kolck (CNRS/IN2P3 and U. of Arizona)(参考訳) 「再帰効果場理論」は、大きな散乱長$a$と有効範囲$r_0$大の負の接触相互作用に関する一貫した非相対論的有効場理論である。 主秩序は非摂動的である。 可観測性は普遍的であり、----それらは次元のない比 $\xi:=2r_0/a$ のみに依存し、全体の距離スケールは $|r_0|$ である。 2体セクターでは、複素平面内の2つの浅い$S$波の極の位置は$\xi$によって決定される。 1つのバウンドと1つの仮想状態 (\xi\le0$) または2つの仮想状態 (0\le\xi<1$) を持つ2体システムの先頭順序で3つの同一ボソンを調査する。 このような条件は、例えば重い中間子の系で見られる。 LOで再正常化(および安定化)するための3体相互作用は不要である。 よく定義された基底状態は$0.366\ldots\ge\xi\ge-8.72\ldots$である。 三体励起は ``quasi-unitarity point''' $\xi=0$$|r_0|\ll|a|\to\infty$' の周りのより小さな範囲に現れ、離散スケーリング関係に従う。 3体および2体結合エネルギーがゼロの3体結合と同一である最も浅い2b状態のうち、基底状態と最低3つの励起を詳細に検討し、それらの軌道を{\xi$ および結合運動量 $\kappa_2^-$ の関数としてパラメータ化する。 a|$|r_0|\ll|a|$が摂動的になると、このバージョンは安定な3体相互作用を必要とし、エフィモフの離散スケール不変性を示す '`Short-Range EFT'' となる。 Efimov のスケールブレーキングパラメータ $\Lambda_*$ を ``hard'' カットオフによる再正規化スキームで決定するために、EFT を低エネルギー版 Resummed-Range EFT と解釈することでスペクトルをマッチングする。 最後に、2ボソン境界状態におけるボソン散乱の位相シフトと等価なエフィモフ系の位相シフトを比較する。

"Resummed-Range Effective Field Theory'' is a consistent nonrelativistic effective field theory of contact interactions with large scattering length $a$ and an effective range $r_0$ large in magnitude but negative. Its leading order is non-perturbative. Its observables are universal, i.e.~they depend only on the dimensionless ratio $\xi:=2r_0/a$, with the overall distance scale set by $|r_0|$. In the two-body sector, the position of the two shallow $S$-wave poles in the complex plane is determined by $\xi$. We investigate three identical bosons at leading order for a two-body system with one bound and one virtual state ($\xi\le0$), or with two virtual states ($0\le\xi<1$). Such conditions might, for example, be found in systems of heavy mesons. We find that no three-body interaction is needed to renormalise (and stabilise) Resummed-Range EFT at LO. A well-defined ground state exists for $0.366\ldots\ge\xi\ge-8.72\ldots$. Three-body excitations appear for even smaller ranges of $\xi$ around the ``quasi-unitarity point'' $\xi=0$ ($|r_0|\ll|a|\to\infty$) and obey discrete scaling relations. We explore in detail the ground state and the lowest three excitations and parametrise their trajectories as function of $\xi$ and of the binding momentum $\kappa_2^-$ of the shallowest \twoB state from where three-body and two-body binding energies are identical to zero three-body binding. As $|r_0|\ll|a|$ becomes perturbative, this version turns into the ``Short-Range EFT'' which needs a stabilising three-body interaction and exhibits Efimov's Discrete Scale Invariance. By interpreting that EFT as a low-energy version of Resummed-Range EFT, we match spectra to determine Efimov's scale-breaking parameter $\Lambda_*$ in a renormalisation scheme with a ``hard'' cutoff. Finally, we compare phase shifts for scattering a boson on the two-boson bound state with that of the equivalent Efimov system.
翻訳日:2023-12-13 19:52:45 公開日:2023-12-11
# ハイブリッドテンソルネットワークにおけるノイズ伝搬

Noise propagation in hybrid tensor networks ( http://arxiv.org/abs/2309.15761v2 )

ライセンス: Link先を確認
Hiroyuki Harada, Yasunari Suzuki, Bo Yang, Yuuki Tokunaga, Suguru Endo(参考訳) ハイブリッドテンソルネットワーク(hybrid tensor network, htn)法は、古典テンソルと量子テンソル、すなわち量子状態の振幅の組み合わせによる有効な波動関数の構成を可能にする一般的なフレームワークである。 特に、ハイブリッドツリーテンソルネットワーク(httns)は、利用可能な量子ハードウェアのサイズを超える大きなシステムをシミュレートするのに非常に有用である。 しかしながら、NISQハードウェアの現実的な量子状態はノイズが多い可能性が高いが、このフレームワークは純粋な状態に対して定式化されている。 本研究は,HTTNの枠組みの下でのディープVQEと絡み合わさった鍛造の手法について議論するとともに,シミュレーション量子系の大きさの膨張とノイズ伝搬を記述するための拡張演算子を導入することで,ノイズの多いHTN状態について検討する。 この枠組みにより、一般木 HTN 状態が明示的に表現され、それらの物理性が議論される。 また、測定可能な観測値の期待値は、収縮した量子テンソルの数で指数関数的に消えることを示す。 我々の研究は、htn状態のノイズ耐性の構築に繋がる。

The hybrid tensor network (HTN) method is a general framework allowing for the construction of an effective wavefunction with the combination of classical tensors and quantum tensors, i.e., amplitudes of quantum states. In particular, hybrid tree tensor networks (HTTNs) are very useful for simulating larger systems beyond the available size of the quantum hardware. However, while the realistic quantum states in NISQ hardware are highly likely to be noisy, this framework is formulated for pure states. In this work, as well as discussing the relevant methods, i.e., Deep VQE and entanglement forging under the framework of HTTNs, we investigate the noisy HTN states by introducing the expansion operator for providing the description of the expansion of the size of simulated quantum systems and the noise propagation. This framework enables the general tree HTN states to be explicitly represented and their physicality to be discussed. We also show that the expectation value of a measured observable exponentially vanishes with the number of contracted quantum tensors. Our work will lead to providing the noise-resilient construction of HTN states.
翻訳日:2023-12-13 19:44:51 公開日:2023-12-11
# ニューラル予測とアライメントのスペクトル理論

A Spectral Theory of Neural Prediction and Alignment ( http://arxiv.org/abs/2309.12821v2 )

ライセンス: Link先を確認
Abdulkadir Canatar, Jenelle Feather, Albert Wakhloo, SueYeon Chung(参考訳) ニューラルネットワークの表現は、ニューラルネットワーク応答と生体システムからの測定値の間の回帰を行うことで、生体システムの表現と比較されることが多い。 最先端のディープニューラルネットの多くは、類似のニューラル予測を生成するが、ニューラル応答の予測に等しく優れたモデル間を区別する方法はまだ不明である。 これについて考察するために、回帰からモデルと対象のスペクトル特性への一般化誤差を関連付けた最近の理論的枠組みを用いる。 本理論は,モデルアクティベーションとニューラルレスポンスの回帰の場合に適用し,モデル固有スペクトル,モデル固有ベクトルとニューラルレスポンスのアライメント,トレーニングセットサイズの観点からニューラル予測誤差を分解する。 この分解を用いて,神経予測誤差を解釈するための幾何学的尺度を提案する。 我々は、視覚皮質活動を予測するディープニューラルネットワークを多数テストし、回帰によって測定された低ニューラルネットワーク予測誤差をもたらす複数のタイプのジオメトリーが存在することを示す。 この研究は、表現的メトリクスを慎重に分解することで、モデルがどのように神経活動を取り込むかの解釈可能性を提供し、神経活動のモデルを改善する方法を示している。

The representations of neural networks are often compared to those of biological systems by performing regression between the neural network responses and those measured from biological systems. Many different state-of-the-art deep neural networks yield similar neural predictions, but it remains unclear how to differentiate among models that perform equally well at predicting neural responses. To gain insight into this, we use a recent theoretical framework that relates the generalization error from regression to the spectral properties of the model and the target. We apply this theory to the case of regression between model activations and neural responses and decompose the neural prediction error in terms of the model eigenspectra, alignment of model eigenvectors and neural responses, and the training set size. Using this decomposition, we introduce geometrical measures to interpret the neural prediction error. We test a large number of deep neural networks that predict visual cortical activity and show that there are multiple types of geometries that result in low neural prediction error as measured via regression. The work demonstrates that carefully decomposing representational metrics can provide interpretability of how models are capturing neural activity and points the way towards improved models of neural activity.
翻訳日:2023-12-13 19:43:33 公開日:2023-12-11
# 拡散モデルによるCMB観測からのダスト除去

Removing Dust from CMB Observations with Diffusion Models ( http://arxiv.org/abs/2310.16285v2 )

ライセンス: Link先を確認
David Heurtel-Depeiges, Blakesley Burkhart, Ruben Ohana, Bruno R\'egaldo-Saint Blancard(参考訳) 宇宙論において、宇宙マイクロ波背景観測(CMB)における原始的B$-modesの探索は、銀河ダストフォアグラウンドの洗練されたモデルの必要性を強調している。 粉塵の前景の拡散モデルと成分分離への応用について検討した。 既知の宇宙論(あるいは共分散行列)を持つガウス CMB の仮定の下では、拡散モデルがダストエミッションマップの例に基づいて訓練され、それらのサンプリングプロセスは、成分分離の文脈における後続サンプリングと直接一致することを示す。 ダストエミッションとCMBのシミュレーション混合物について説明する。 このプロセスにより,成分の共通要約統計(パワースペクトル,ミンコフスキー汎関数)が回復することを示す。 また、CMB宇宙論によって規定されたモデルを導入し、成分分離に関する単一宇宙論を用いて訓練されたモデルより優れる。 このようなモデルは、拡散に基づく宇宙論的推論のために将来の研究に使用される。

In cosmology, the quest for primordial $B$-modes in cosmic microwave background (CMB) observations has highlighted the critical need for a refined model of the Galactic dust foreground. We investigate diffusion-based modeling of the dust foreground and its interest for component separation. Under the assumption of a Gaussian CMB with known cosmology (or covariance matrix), we show that diffusion models can be trained on examples of dust emission maps such that their sampling process directly coincides with posterior sampling in the context of component separation. We illustrate this on simulated mixtures of dust emission and CMB. We show that common summary statistics (power spectrum, Minkowski functionals) of the components are well recovered by this process. We also introduce a model conditioned by the CMB cosmology that outperforms models trained using a single cosmology on component separation. Such a model will be used in future work for diffusion-based cosmological inference.
翻訳日:2023-12-13 19:35:23 公開日:2023-12-11
# 医学におけるグラフAI

Graph AI in Medicine ( http://arxiv.org/abs/2310.13767v2 )

ライセンス: Link先を確認
Ruth Johnson, Michelle M. Li, Ayush Noori, Owen Queen, Marinka Zitnik(参考訳) 臨床人工知能(AI)では、グラフ表現学習は、主にグラフニューラルネットワーク(GNN)を通して、構造化された臨床データセット内の複雑な関係を捉える能力で際立っている。 患者記録から画像まで、さまざまなデータによって、GNNは、関係によって相互に接続されたノードとして、モダリティを視聴することで、データを一様に処理する。 graph aiは、臨床タスク間のモデル転送を促進し、追加パラメータや最小限の再トレーニングなしで、患者集団をまたがるモデルを一般化する。 しかし, 臨床意思決定における人間中心設計とモデル解釈の重要性は誇張できない。 グラフAIモデルは、グラフ関係で定義された局所的なニューラルネットワーク変換を通じて情報をキャプチャするので、モデル論理を解明する機会と課題の両方を提供する。 知識グラフは、モデル駆動の洞察と医療知識を一致させることで、解釈可能性を高めることができる。 新興グラフモデルは、事前トレーニングを通じて多様なデータモダリティを統合し、インタラクティブなフィードバックループを促進し、ヒトとAIのコラボレーションを促進する。

In clinical artificial intelligence (AI), graph representation learning, mainly through graph neural networks (GNNs), stands out for its capability to capture intricate relationships within structured clinical datasets. With diverse data -- from patient records to imaging -- GNNs process data holistically by viewing modalities as nodes interconnected by their relationships. Graph AI facilitates model transfer across clinical tasks, enabling models to generalize across patient populations without additional parameters or minimal re-training. However, the importance of human-centered design and model interpretability in clinical decision-making cannot be overstated. Since graph AI models capture information through localized neural transformations defined on graph relationships, they offer both an opportunity and a challenge in elucidating model rationale. Knowledge graphs can enhance interpretability by aligning model-driven insights with medical knowledge. Emerging graph models integrate diverse data modalities through pre-training, facilitate interactive feedback loops, and foster human-AI collaboration, paving the way to clinically meaningful predictions.
翻訳日:2023-12-13 19:34:00 公開日:2023-12-11
# 一般化クロスカー光機械回路における光子遮断、絡み合い、メカニカルキャット状態生成の改善

Improving photon blockade, entanglement and mechanical-cat-state generation in a generalized cross-Kerr optomechanical circuit ( http://arxiv.org/abs/2310.02443v2 )

ライセンス: Link先を確認
Hossein Solki, Ali Motazedifard, Mohammad Hossein Naderi(参考訳) 本稿では,光子遮断やメカニカル・シュロディンガー・キャットステート発生,トリパルタイトマイクロ波光学回路におけるフォトン・フォノンの絡み合いなど,光子数光子の光学効果を改善するための実験手法を提案する。 検討中のシステムは、シングルクーパペアトランジスタ、マイクロ波lc共振器、マイクロメカニカル共振器によって構成される。 本方式は,クーパー・ペアトランジスタのゲート電荷を調節することで実現可能な機械式フォノン1を二次的に依存しながら,光子数に線形に依存する高次(一般化)非線形クロスカー結合方式に基づいている。 解析的にも数値的にも、クロスカー非線形性と一般化クロスカー非線形性の両方の存在が、1光子および2光子によるトンネルトンネルの強化をもたらすだけでなく、それらに対する制御性も向上することを示した。 さらに, 一般クロスカー非線形性の支援により, ゼロ光機械的カップリング法では, 系散逸に対するロバスト性を示す多成分機械的重ね合わせ状態が生成できることが示されている。 また,マイクロ波モードとメカニカルモードの定常的絡み合いについても検討し,大赤のデチューニングにおける絡み合い強化における一般化クロスカー非線形性の役割を示す。 提案する一般クロスカー光力学系は、マイクロ波量子センシング、量子通信、量子情報プロトコルにおいて潜在的に応用できる。

We propose a feasible experimental scheme to improve the few-photon optomechanical effects, including photon blockade and mechanical-Schrodinger cat-state generation, as well as photon-phonon entanglement in a tripartite microwave optomechanical circuit. The system under consideration is formed by a single-Cooper-pair transistor, a microwave LC resonator, and a micromechanical resonator. Our scheme is based on an additional higher-order (generalized) nonlinear cross-Kerr type of coupling, linearly dependent on photon number while quadratically dependent on mechanical phonon one, which can be realized via adjusting the gate charge of the Cooper-pair transistor. We show, both analytically and numerically, that the presence of both cross-Kerr and generalized cross-Kerr nonlinearities not only may give rise to the enhancement of one- and two-photon blockades as well as photon induced tunneling but can also provide more controllability over them. Furthermore, it is shown that in the regime of zero optomechanical coupling, with the aid of generalized cross-Kerr nonlinearity, one can generate multi-components mechanical superposition states which exhibit robustness against system dissipations. We also study the steady-state entanglement between the microwave and mechanical modes, the results of which signify the role of generalized cross-Kerr nonlinearity in enhancing the entanglement in the regime of large-red detuning. The proposed generalized cross-Kerr optomechanical system can be found potential applications in microwave quantum sensing, quantum telecommunication, and quantum information protocols.
翻訳日:2023-12-13 19:30:35 公開日:2023-12-11
# スコアダイナミクス:条件拡散モデルによるピコ秒時間ステップによる分子動力学のスケーリング

Score dynamics: scaling molecular dynamics with picosecond timesteps via conditional diffusion model ( http://arxiv.org/abs/2310.01678v2 )

ライセンス: Link先を確認
Tim Hsu, Babak Sadigh, Vasily Bulatov, Fei Zhou(参考訳) 分子動力学シミュレーションから大きな時間ステップを持つ加速進化演算子を学習するための一般的なフレームワークであるスコアダイナミクスを提案する。 sdは、動的自由度に関する遷移ログ確率のスコア、または導関数を中心に構成される。 後者はmdの力場と同じ役割を担っているが、拡散確率モデルを推論し、典型的なmd時間ステップよりも桁違いに大きいsd時間ステップ内の力学変数の離散遷移を生成するのに用いられる。 本研究では10psの時間ステップで進化した現実的な分子系のグラフニューラルネットワークに基づくスコアダイナミクスモデルを構築する。 水溶液中におけるアラニンジペプチドおよび短いアルカンのケーススタディにおいてスコアダイナミクスの有効性を示す。 条件付き確率の定常分布から導かれる平衡予測と遷移速度と遷移経路の速度論的予測の両方がMDとよく一致している。 現在のSD実装は,本研究で研究したシステムに対して,MDよりも約2桁高速である。 オープンチャレンジと、スコアダイナミクスを改善するための将来の改善の可能性についても論じる。

We propose score dynamics, a general framework for learning accelerated evolution operators with large timesteps from molecular-dynamics simulations. SD is centered around scores, or derivatives of the transition log-probability with respect to the dynamical degrees of freedom. The latter play the same role as force fields in MD but are used in denoising diffusion probability models to generate discrete transitions of the dynamical variables in an SD timestep, which can be orders of magnitude larger than a typical MD timestep. In this work, we construct graph neural network based score dynamics models of realistic molecular systems that are evolved with 10 ps timesteps. We demonstrate the efficacy of score dynamics with case studies of alanine dipeptide and short alkanes in aqueous solution. Both equilibrium predictions derived from the stationary distributions of the conditional probability and kinetic predictions for the transition rates and transition paths are in good agreement with MD. Our current SD implementation is about two orders of magnitude faster than the MD counterpart for the systems studied in this work. Open challenges and possible future remedies to improve score dynamics are also discussed.
翻訳日:2023-12-13 19:29:46 公開日:2023-12-11
# Adaptive Image Registration: 精度向上のためのディープラーニングと最適化機能を統合するハイブリッドアプローチ

Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning and Optimization Functions for Enhanced Precision ( http://arxiv.org/abs/2311.15497v2 )

ライセンス: Link先を確認
Gabriel De Araujo, Shanlin Sun, Xiaohui Xie(参考訳) 画像登録は伝統的に2つの異なるアプローチを用いて行われてきた: 学習ベースの手法、堅牢なディープニューラルネットワークに依存し、最適化ベースの手法。 もちろん、どちらのパラダイムも長所と短所を提供しており、本研究では、最大の損失をもたらす画像対の計算パワーを優先しながら、学習ベース手法の出力を最適化のための初期パラメータとして使用し、それぞれの強みを単一の合理化フレームワークに組み合わせようとしている。 本研究は, フレームワークのバックボーンとして最高性能の最先端モデルを用いた場合の試験における1.5%の改善と, 同一の推論時間を維持しつつ, 変形場平滑性における実質0.94%のパフォーマンス向上を示した。

Image registration has traditionally been done using two distinct approaches: learning based methods, relying on robust deep neural networks, and optimization-based methods, applying complex mathematical transformations to warp images accordingly. Of course, both paradigms offer advantages and disadvantages, and, in this work, we seek to combine their respective strengths into a single streamlined framework, using the outputs of the learning based method as initial parameters for optimization while prioritizing computational power for the image pairs that offer the greatest loss. Our investigations showed that an improvement of 1.5% in testing when utilizing the best performing state-of-the-art model as the backbone of the framework, while maintaining the same inference time and a substantial 0.94% points performance gain in deformation field smoothness.
翻訳日:2023-12-13 19:23:04 公開日:2023-12-11
# TrojanedCM:Trojaned Large Language Models of Codeのリポジトリ

TrojanedCM: A Repository of Trojaned Large Language Models of Code ( http://arxiv.org/abs/2311.14850v2 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour(参考訳) ソースコードの深層神経モデルのトロイの木馬研究の急速な成長に伴い、様々なトロイの木馬検出とアンラーニング技術をテストするためのベンチマークトロイの木馬モデルの開発が必要であることが観察された。 本研究の目的は,様々な最先端アーキテクチャをカバーする多種多様なトロイの木馬コードモデルを提供し,その手法を検証できるようにすることである。 そこで我々は,ソースコードの清潔で有毒なモデルの公開リポジトリであるtrojanedcmを提案する。 2つのコード分類タスク(欠陥検出とクローン検出)とコード生成タスク(テキストからコード生成)に対して有毒なモデルを提供する。 上記のタスクのベンチマークデータセット(Devign、BigCloneBench、ConCODE)から生成された有毒なデータセットに対して、CodeBERT、PLBART、CodeT5、CodeT5+といった、トレーニング済みの一般的なコードモデルを微調整しました。 リポジトリはまた、モデルのアーキテクチャとパラメータへの完全なアクセスを提供し、実践者は異なるホワイトボックス分析技術を調べることができる。 有毒モデルに加えて,ソースコードのさまざまなタスクやモデルに対して,実践者が様々な有毒化戦略を展開可能な,有毒化フレームワークも提供する。 すべての資料はこのリンクを通じてアクセス可能である。

With the rapid growth of research in trojaning deep neural models of source code, we observe that there is a need of developing a benchmark trojaned models for testing various trojan detection and unlearning techniques. In this work, we aim to provide the scientific community with diverse trojaned code models, that cover a variety of state-of-the-art architectures, on which they can examine such techniques. We thus present TrojanedCM, a publicly available repository of clean and poisoned models of source code. We provide poisoned models for two code classification tasks (defect detection and clone detection) and a code generation task (text-to-code generation). We finetuned popular pretrained code models such as CodeBERT, PLBART, CodeT5, CodeT5+, on poisoned datasets that we generated from benchmark datasets (Devign, BigCloneBench, CONCODE) for the above mentioned tasks. The repository also provides full access to the architecture and parameters of the models, allowing practitioners to investigate different white-box analysis techniques. In addition to the poisoned models, we also provide a poisoning framework using which practitioners can deploy various poisoning strategies for the different tasks and models of source code. All the material are accessible via this link: https://github.com/UH-SERG/TrojanedCM.
翻訳日:2023-12-13 19:22:47 公開日:2023-12-11
# 抽象・推論課題におけるヒト, GPT-4, GPT-4Vの比較

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks ( http://arxiv.org/abs/2311.09247v3 )

ライセンス: Link先を確認
Melanie Mitchell, Alessandro B. Palmarini, Arseny Moskvichev(参考訳) GPT-4のテキストのみおよびマルチモーダル版の抽象的推論能力について,コア知識の概念による堅牢な理解と推論の評価を目的としたConceptARCベンチマーク[10]を用いて検討する。 我々はmoskvichevらの仕事を拡大する。 [10]概念ARCタスクのテキストバージョンでGPT-4をより詳細に評価し(単純なゼロショットプロンプトではなく)、最も単純なタスクの画像バージョンを用いてGPT-4のマルチモーダルバージョンであるGPT-4Vを評価する。 実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。

We explore the abstract reasoning abilities of text-only and multimodal versions of GPT-4, using the ConceptARC benchmark [10], which is designed to evaluate robust understanding and reasoning with core-knowledge concepts. We extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed, one-shot prompting (rather than simple, zero-shot prompts) with text versions of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4, on zero- and one-shot prompts using image versions of the simplest tasks. Our experimental results support the conclusion that neither version of GPT-4 has developed robust abstraction abilities at humanlike levels.
翻訳日:2023-12-13 19:21:27 公開日:2023-12-11
# 変圧器における創発的文脈学習の過渡的性質

The Transient Nature of Emergent In-Context Learning in Transformers ( http://arxiv.org/abs/2311.08360v3 )

ライセンス: Link先を確認
Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant, Andrew M. Saxe, Felix Hill(参考訳) トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。 以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。 しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。 ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。 iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。 まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。 iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。 l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。 最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。

Transformer neural networks can exhibit a surprising capacity for in-context learning (ICL) despite not being explicitly trained for it. Prior work has provided a deeper understanding of how ICL emerges in transformers, e.g. through the lens of mechanistic interpretability, Bayesian inference, or by examining the distributional properties of training data. However, in each of these cases, ICL is treated largely as a persistent phenomenon; namely, once ICL emerges, it is assumed to persist asymptotically. Here, we show that the emergence of ICL during transformer training is, in fact, often transient. We train transformers on synthetic data designed so that both ICL and in-weights learning (IWL) strategies can lead to correct predictions. We find that ICL first emerges, then disappears and gives way to IWL, all while the training loss decreases, indicating an asymptotic preference for IWL. The transient nature of ICL is observed in transformers across a range of model sizes and datasets, raising the question of how much to "overtrain" transformers when seeking compact, cheaper-to-run models. We find that L2 regularization may offer a path to more persistent ICL that removes the need for early stopping based on ICL-style validation tasks. Finally, we present initial evidence that ICL transience may be caused by competition between ICL and IWL circuits.
翻訳日:2023-12-13 19:21:11 公開日:2023-12-11
# 画素観察によるステートワイズ安全な強化学習

State-Wise Safe Reinforcement Learning With Pixel Observations ( http://arxiv.org/abs/2311.02227v2 )

ライセンス: Link先を確認
Simon Sinong Zhan, Yixuan Wang, Qingyuan Wu, Ruochen Jiao, Chao Huang, Qi Zhu(参考訳) 安全な探索の文脈において、強化学習(RL)は、特に接触リッチまたは非滑らかなダイナミックスを持つ複雑な環境で、特に高次元のピクセル観測を扱う場合、報酬の最大化と安全違反の最小化のトレードオフのバランスをとるという課題に長い間取り組んできた。 さらに、探索学習プロセスに国家の安全上の制約を組み込むことで、エージェントは事前の知識なしに安全でない地域を避ける必要がある。 本稿では,新たに導入された潜在障壁型関数学習機構を用いて,未知の危険領域に対する状態的安全性制約を効率的に符号化する,新しい画素オブザーバセーフなRLアルゴリズムを提案する。 共同学習フレームワークとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から始める。 そして、潜在ダイナミクスの上に潜在障壁のような機能を構築、学習し、同時にポリシー最適化を行い、安全性と全体的な期待値の両方を改善します。 評価実験の結果,提案手法はトレーニング過程を通じて安全性違反を著しく低減し,既存の手法と比較して安全性の収束性の向上を図りつつ,競争結果の報奨を達成できた。

In the context of safe exploration, Reinforcement Learning (RL) has long grappled with the challenges of balancing the tradeoff between maximizing rewards and minimizing safety violations, particularly in complex environments with contact-rich or non-smooth dynamics, and when dealing with high-dimensional pixel observations. Furthermore, incorporating state-wise safety constraints in the exploration and learning process, where the agent must avoid unsafe regions without prior knowledge, adds another layer of complexity. In this paper, we propose a novel pixel-observation safe RL algorithm that efficiently encodes state-wise safety constraints with unknown hazard regions through a newly introduced latent barrier-like function learning mechanism. As a joint learning framework, our approach begins by constructing a latent dynamics model with low-dimensional latent spaces derived from pixel observations. We then build and learn a latent barrier-like function on top of the latent dynamics and conduct policy optimization simultaneously, thereby improving both safety and the total expected return. Experimental evaluations on the safety-gym benchmark suite demonstrate that our proposed method significantly reduces safety violations throughout the training process, and demonstrates faster safety convergence compared to existing methods while achieving competitive results in reward return.
翻訳日:2023-12-13 19:19:30 公開日:2023-12-11
# LiDARによる人物再識別

LiDAR-based Person Re-identification ( http://arxiv.org/abs/2312.03033v2 )

ライセンス: Link先を確認
Wenxuan Guo, Zhiyu Pan, Yingping Liang, Ziheng Xi, Zhi Chen Zhong, Jianjiang Feng, Jie Zhou(参考訳) カメラベースの人物識別(ReID)システムは、公共セキュリティの分野で広く応用されている。 しかしながら、カメラは人間の3次元形態情報の認識を欠くことが多く、不適切な照明、複雑な背景、個人のプライバシーなど、様々な制限を受けやすい。 本稿では,3次元形状の特徴の抽出に事前学習戦略を用いたlidarベースのreidフレームワークであるreid3dを提案し,包括的特徴の抽出にグラフに基づく補完的強調エンコーダを導入する。 LiDARデータセットが不足しているため、LiDARベースの最初の人物ReIDデータセットであるLReIDを構築し、自然条件の異なる屋外シーンで収集する。 さらに,lreid-sync(lreid-sync)という,ポイントクラウド補完や形状パラメータ学習といったタスクを事前にトレーニングするために設計された歩行者データセットも紹介する。 LReIDに関する大規模な実験により、ReID3Dは94.0のランク1の精度で例外的な性能を達成し、人物のReIDタスクに対処するLiDARの有意義な可能性を強調している。 我々の知る限り、私たちはLiDARベースのReIDのためのソリューションを最初に提案しました。 コードとデータセットは間もなくリリースされる。

Camera-based person re-identification (ReID) systems have been widely applied in the field of public security. However, cameras often lack the perception of 3D morphological information of human and are susceptible to various limitations, such as inadequate illumination, complex background, and personal privacy. In this paper, we propose a LiDAR-based ReID framework, ReID3D, that utilizes pre-training strategy to retrieve features of 3D body shape and introduces Graph-based Complementary Enhancement Encoder for extracting comprehensive features. Due to the lack of LiDAR datasets, we build LReID, the first LiDAR-based person ReID dataset, which is collected in several outdoor scenes with variations in natural conditions. Additionally, we introduce LReID-sync, a simulated pedestrian dataset designed for pre-training encoders with tasks of point cloud completion and shape parameter learning. Extensive experiments on LReID show that ReID3D achieves exceptional performance with a rank-1 accuracy of 94.0, highlighting the significant potential of LiDAR in addressing person ReID tasks. To the best of our knowledge, we are the first to propose a solution for LiDAR-based ReID. The code and datasets will be released soon.
翻訳日:2023-12-13 19:11:13 公開日:2023-12-11
# slice3d:マルチスライス、オクルージョンリビアリング、single view 3d reconstruction

Slice3D: Multi-Slice, Occlusion-Revealing, Single View 3D Reconstruction ( http://arxiv.org/abs/2312.02221v2 )

ライセンス: Link先を確認
Yizhi Wang, Wallace Lira, Wenqi Wang, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 複数視点合成が単一視点と3次元の最も自然なコンジットであるという、現在および一般的な信念に挑戦する、単一視点3次元再構成の新しい概念であるマルチスライス推論を導入する。 私たちのキーとなる観察は、オブジェクトスライシングは、隠された構造を明らかにするためにビューを変更するよりも有利であるということです。 特に、スライシングは閉塞のない咬合器を剥がすことができるため、閉塞防止効果が高い。 限界、すなわち無限に多くのスライスを持つ場合、すべての隠されたオブジェクトの部品を明かすことが保証される。 本研究では,単一のrgb画像から複数のスライス画像を最初に予測し,そのスライスを座標系トランスフォーマーネットワークを用いて3dモデルに統合し,符号付き距離予測を行う,slice3dを開発した。 スライス画像は、U-Netベースのネットワークを介して、後退または生成することができる。 前者の場合、学習可能なスライスインジケータコードを挿入して、各デコードされた画像を空間的なスライスロケーションに指定し、スライス生成器は入力チャネルに積み重ねられたスライスイメージの全体で動作するデノージング拡散モデルである。 本手法の優位性を示すために, 現状の代替案に対して広範囲に評価を行い, あいまいさの中, 複雑かつ厳密な形状構造を復元する。 slice3dの結果はすべて、単一のnvidia a40 gpuでトレーニングされたネットワークが生成し、推論時間は20秒未満だった。

We introduce multi-slice reasoning, a new notion for single-view 3D reconstruction which challenges the current and prevailing belief that multi-view synthesis is the most natural conduit between single-view and 3D. Our key observation is that object slicing is more advantageous than altering views to reveal occluded structures. Specifically, slicing is more occlusion-revealing since it can peel through any occluders without obstruction. In the limit, i.e., with infinitely many slices, it is guaranteed to unveil all hidden object parts. We realize our idea by developing Slice3D, a novel method for single-view 3D reconstruction which first predicts multi-slice images from a single RGB image and then integrates the slices into a 3D model using a coordinate-based transformer network for signed distance prediction. The slice images can be regressed or generated, both through a U-Net based network. For the former, we inject a learnable slice indicator code to designate each decoded image into a spatial slice location, while the slice generator is a denoising diffusion model operating on the entirety of slice images stacked on the input channels. We conduct extensive evaluation against state-of-the-art alternatives to demonstrate superiority of our method, especially in recovering complex and severely occluded shape structures, amid ambiguities. All Slice3D results were produced by networks trained on a single Nvidia A40 GPU, with an inference time less than 20 seconds.
翻訳日:2023-12-13 19:10:37 公開日:2023-12-11
# ノイズ量子コンピュータによる散逸エネルギー伝達の量子シミュレーション

Quantum Simulation of Dissipative Energy Transfer via Noisy Quantum Computer ( http://arxiv.org/abs/2312.01401v2 )

ライセンス: Link先を確認
Chin-Yi Lin, Li-Chai Shih, Shin Sun, Yuan-Chung Cheng(参考訳) 近年では、量子コンピューティングは計算理論の強大な可能性から、非常に人気のある研究トピックとなっている。 しかし、現実の問題を解決する可能性を秘めている実用的な量子アルゴリズムの実装は、量子ゲートと量子ビットの限られた可用性に関連する大きなエラー率によってしばしば妨げられる。 そこで本研究では,一般に有用な特徴を包含する,ノイズの多いコンピュータ上でのオープン量子システムの力学をシミュレートする実践的手法を提案する。 特に,本手法はIBM-Q実機におけるゲートノイズを利用して,2量子ビットのみを用いて計算を行う。 提案手法がIBM-Qジャカルタで行った結果は,古典的数値エクササイズ法である階層運動方程式(HEOM)で計算した結果と一致し,シミュレーション手法は計算の複雑さをはるかに向上させる。 最後に、トロッター展開を行う際の量子回路の深さの増大に対処するため、短期力学シミュレーションを拡張するために転送テンソル法(TTM)を導入した。 量子シミュレータに基づいて、比較的短い量子回路を用いてより長いシミュレーションを行うことができるTTMの拡張能力を示す。

In recent years, due to its formidable potential in computational theory, quantum computing has become a very popular research topic. However, the implementation of practical quantum algorithms, which hold the potential to solve real-world problems, is often hindered by the significant error rates associated with quantum gates and the limited availability of qubits. In this study, we propose a practical approach to simulate the dynamics of an open quantum system on a noisy computer, which encompasses general and valuable characteristics. Notably, our method leverages gate noises on the IBM-Q real device, enabling us to perform calculations using only two qubits. The results generated by our method performed on IBM-Q Jakarta aligned with the those calculated by hierarchical equations of motion (HEOM), which is a classical numerically-exact method, while our simulation method runs with a much better computing complexity. In the last, to deal with the increasing depth of quantum circuits when doing Trotter expansion, we introduced the transfer tensor method(TTM) to extend our short-term dynamics simulation. Based on quantum simulator, we show the extending ability of TTM, which allows us to get a longer simulation using a relatively short quantum circuits.
翻訳日:2023-12-13 19:09:23 公開日:2023-12-11
# ref$^2$-nerf:反射と屈折を考慮した神経放射場

REF$^2$-NeRF: Reflection and Refraction aware Neural Radiance Field ( http://arxiv.org/abs/2311.17116v3 )

ライセンス: Link先を確認
Wooseok Kim, Taiki Fukiage, Takeshi Oishi(参考訳) 近年,neural radiance field (nerf) 法による暗黙的神経表現を用いた複数画像からの3次元再構成法の研究において有意な進歩がみられた。 ボリュームレンダリングに基づくこのような手法は様々な光現象をモデル化することができ、様々な場面や状況に対応するために様々な拡張手法が提案されている。 しかし、複数のガラスオブジェクト(例えばガラスショーケースのオブジェクト)でシーンを扱う場合、複数の反射や屈折効果があるため、ターゲットシーンを正確にモデル化することは困難である。 そこで本研究では,ガラスケースを含むシーンのNeRFモデリング手法を提案する。 提案手法では, 屈折と反射を, ビューアの視点に依存し, 独立な要素を用いてモデル化する。 このアプローチにより、屈折が発生する表面、すなわちガラス表面を推定することができ、直接および反射光成分の分離とモデリングを可能にする。 既存の手法と比較して,ガラス屈折率と全体像のより正確なモデリングが可能である。

Recently, significant progress has been made in the study of methods for 3D reconstruction from multiple images using implicit neural representations, exemplified by the neural radiance field (NeRF) method. Such methods, which are based on volume rendering, can model various light phenomena, and various extended methods have been proposed to accommodate different scenes and situations. However, when handling scenes with multiple glass objects, e.g., objects in a glass showcase, modeling the target scene accurately has been challenging due to the presence of multiple reflection and refraction effects. Thus, this paper proposes a NeRF-based modeling method for scenes containing a glass case. In the proposed method, refraction and reflection are modeled using elements that are dependent and independent of the viewer's perspective. This approach allows us to estimate the surfaces where refraction occurs, i.e., glass surfaces, and enables the separation and modeling of both direct and reflected light components. Compared to existing methods, the proposed method enables more accurate modeling of both glass refraction and the overall scene.
翻訳日:2023-12-13 19:06:53 公開日:2023-12-11
# 単調性の欠如によるchambolle-pockアルゴリズムの収束

Convergence of the Chambolle-Pock Algorithm in the Absence of Monotonicity ( http://arxiv.org/abs/2312.06540v1 )

ライセンス: Link先を確認
Brecht Evens and Puya Latafat and Panagiotis Patrinos(参考訳) Chambolle-Pockアルゴリズム(CPA)は、原始双対ハイブリッド勾配法(PDHG)としても知られ、凸・単トン構造問題の解法の成功により、過去10年間に人気が高まっている。 この研究は、関連する原始双対作用素上のいわゆる斜め弱ミント条件によって定量化される、(非)単調性の異なる問題に対する収束結果を提供する。 この結果から,線形写像のノルムに依存せず,他の特異値にも依存する新たなステップサイズと緩和パラメータの範囲が明らかになった。 特に、モノトーン以外の設定では、cpaの古典的なステップ化条件に加えて、ステップ化と緩和パラメータの余分な境界が必要である。 一方、強い単調な設定では、緩和パラメータは古典的な2つの上限を超えることが許される。 さらに、個々の作用素が最近導入された半単調作用素のクラスに属する場合に十分な収束条件が得られる。 この演算子のクラスは(hypo)-やco(hypo)monotone演算子を含む多くの従来の演算子クラスを含んでいるので、この分析はCPAの既存の結果を回復し拡張する。 上記の問題クラスに対して、提案した段差範囲の厳密性を実証し、確立するためのいくつかの例を提供する。

The Chambolle-Pock algorithm (CPA), also known as the primal-dual hybrid gradient method (PDHG), has surged in popularity in the last decade due to its success in solving convex/monotone structured problems. This work provides convergence results for problems with varying degrees of (non)monotonicity, quantified through a so-called oblique weak Minty condition on the associated primal-dual operator. Our results reveal novel stepsize and relaxation parameter ranges which do not only depend on the norm of the linear mapping, but also on its other singular values. In particular, in nonmonotone settings, in addition to the classical stepsize conditions for CPA, extra bounds on the stepsizes and relaxation parameters are required. On the other hand, in the strongly monotone setting, the relaxation parameter is allowed to exceed the classical upper bound of two. Moreover, sufficient convergence conditions are obtained when the individual operators belong to the recently introduced class of semimonotone operators. Since this class of operators encompasses many traditional operator classes including (hypo)- and co(hypo)monotone operators, this analysis recovers and extends existing results for CPA. Several examples are provided for the aforementioned problem classes to demonstrate and establish tightness of the proposed stepsize ranges.
翻訳日:2023-12-13 18:56:21 公開日:2023-12-11
# 予測非相関推論

Prediction De-Correlated Inference ( http://arxiv.org/abs/2312.06478v1 )

ライセンス: Link先を確認
Feng Gan, Wanfeng Liang(参考訳) 機械学習手法を利用してラベルのないデータセットの結果を予測し、その後の統計的推論で擬似アウトカムを使用することは、現代のデータ分析では一般的である。 この設定での推論はしばしばポスト述語推論と呼ばれる。 本稿では,ポストプレディション設定下での推論のための新しい仮定型フレームワークを,PDC (emph{Prediction De-Correlated inference}) と呼ぶ。 我々の手法は、任意のブラックボックス機械学習モデルに自動的に適応し、教師付き手法を一貫して上回る。 PDCフレームワークはまた、複数の予測モデルに容易に拡張できる。 数値結果と実世界のデータ分析の両方が理論的結果を支持する。

Leveraging machine-learning methods to predict outcomes on some unlabeled datasets and then using these pseudo-outcomes in subsequent statistical inference is common in modern data analysis. Inference in this setting is often called post-prediction inference. We propose a novel, assumption-lean framework for inference under post-prediction setting, called \emph{Prediction De-Correlated inference} (PDC). Our approach can automatically adapt to any black-box machine-learning model and consistently outperforms supervised methods. The PDC framework also offers easy extensibility for accommodating multiple predictive models. Both numerical results and real-world data analysis support our theoretical results.
翻訳日:2023-12-13 18:55:56 公開日:2023-12-11
# 大規模言語モデルにおけるプライバシ問題:調査

Privacy Issues in Large Language Models: A Survey ( http://arxiv.org/abs/2312.06717v1 )

ライセンス: Link先を確認
Seth Neel and Peter Chang(参考訳) これは、大規模言語モデル(LLM)のプライバシー問題に焦点を当てたAI研究の活発な領域に関する最初の調査である。 具体的には、プライバシのリスクを強調し、トレーニングや推論プロセスにプライバシを構築し、トレーニングされたモデルから効率的なデータ削除を可能にし、既存のプライバシ規則に準拠する作業に重点を置いています。 我々の焦点は、アルゴリズムを開発し、定理を証明し、実証的な評価を行う技術研究の要約である。 これらの課題に異なる角度から対処する広範な法的・政策的な取り組みがあるが、これは我々の調査の焦点ではない。 しかしながら、これらの研究は、近年の法的発展とともに、これらの技術的問題がどのように形式化されているかを知らせるものである。 我々は、関連するすべての作業を含めるために最善を尽くしてきたが、この研究の急速な移動性のため、最近の研究を見逃しているかもしれない。 あなたの仕事の一部が見逃されている場合は、この調査を比較的最新に保ちたいので、ご連絡ください。 この調査で取り上げたドキュメントのリストと、https://github.com/safr-ml-lab/survey-llm.comで公開されていた関連コードとともに、リポジトリを維持しています。

This is the first survey of the active area of AI research that focuses on privacy issues in Large Language Models (LLMs). Specifically, we focus on work that red-teams models to highlight privacy risks, attempts to build privacy into the training or inference process, enables efficient data deletion from trained models to comply with existing privacy regulations, and tries to mitigate copyright issues. Our focus is on summarizing technical research that develops algorithms, proves theorems, and runs empirical evaluations. While there is an extensive body of legal and policy work addressing these challenges from a different angle, that is not the focus of our survey. Nevertheless, these works, along with recent legal developments do inform how these technical problems are formalized, and so we discuss them briefly in Section 1. While we have made our best effort to include all the relevant work, due to the fast moving nature of this research we may have missed some recent work. If we have missed some of your work please contact us, as we will attempt to keep this survey relatively up to date. We are maintaining a repository with the list of papers covered in this survey and any relevant code that was publicly available at https://github.com/safr-ml-lab/survey-llm.
翻訳日:2023-12-13 18:49:40 公開日:2023-12-11
# 層分散ニューラル表現のスペクトルクラスタリングによる「何」「何」視覚経路の解読

Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations ( http://arxiv.org/abs/2312.06716v1 )

ライセンス: Link先を確認
Xiao Zhang, David Yunis, Michael Maire(参考訳) 本稿では,ニューラルネットワークのアクティベーションに含まれるグループ化情報を解析し,事前学習した大規模視覚モデルの行動から空間レイアウトと意味セグメンテーションを抽出する手法を提案する。 従来の作業とは異なり,本手法ではネットワークのアクティベーション状態のヒューリスティックな解析を行い,全層の特徴を活用し,モデルのどの部分が関連する情報を含んでいるかを推測する必要がある。 古典的スペクトルクラスタリングに動機づけられ、この分析をアフィニティ行列の組を含む最適化対象として定式化し、それぞれ異なる層内の特徴を比較して構成する。 この最適化問題を勾配降下を用いて解くことで,単一画像からデータセットレベルの解析まで,画像内および画像間関係を含む拡張が可能となる。 事前学習された生成変換器の分析は、そのようなモデルによって学習された計算戦略に関する洞察を提供する。 注目層にまたがるキー-クエリの類似性と親和性はシーン空間レイアウトを符号化する固有ベクトルを与えるが、値ベクトル類似性によって親和性を定義すると、オブジェクトアイデンティティを符号化する固有ベクトルが得られる。 この結果は、キーベクトルとクエリベクトルが空間的近接(where経路)に従って注意的情報フローを調整し、値ベクトルが意味圏表現(what経路)を洗練することを示唆する。

We present an approach for analyzing grouping information contained within a neural network's activations, permitting extraction of spatial layout and semantic segmentation from the behavior of large pre-trained vision models. Unlike prior work, our method conducts a wholistic analysis of a network's activation state, leveraging features from all layers and obviating the need to guess which part of the model contains relevant information. Motivated by classic spectral clustering, we formulate this analysis in terms of an optimization objective involving a set of affinity matrices, each formed by comparing features within a different layer. Solving this optimization problem using gradient descent allows our technique to scale from single images to dataset-level analysis, including, in the latter, both intra- and inter-image relationships. Analyzing a pre-trained generative transformer provides insight into the computational strategy learned by such models. Equating affinity with key-query similarity across attention layers yields eigenvectors encoding scene spatial layout, whereas defining affinity by value vector similarity yields eigenvectors encoding object identity. This result suggests that key and query vectors coordinate attentional information flow according to spatial proximity (a `where' pathway), while value vectors refine a semantic category representation (a `what' pathway).
翻訳日:2023-12-13 18:49:13 公開日:2023-12-11
# 量子計測における 'Schr\"odinger c.q. Liouville-von Neumann 方程式の適用可能性と有用性について

On the feasibility and usefulness of applying the `Schr\"odinger c.q. Liouville-von Neumann equation' to quantum measurement ( http://arxiv.org/abs/2312.06735v1 )

ライセンス: Link先を確認
W.M. de Muynck(参考訳) 本論文は,近年の「量子計測」問題に対処する論文の続編である。 本稿では,「量子力学の応用領域内における測定」を,「(sub)マイクロスコープオブジェクト$(o)$」の「emph{quantum Mechanical} \emph{interaction}」と測定器の「equally(sub)マイクロスコープ部分$(a)$」として扱う。 Stern-Gerlach実験はパラダイム的な例である。 ハイゼンベルクの不等式の代わりに、オブジェクト $(o)$' \emph{and} `interaction of object $(o)$ \emph{and} measure instrument/probe $(a)$' の初期状態の準備の \emph{independent} の寄与を示す。 Liouville-von Neumann方程式の適用性は強調される。

The present paper is a sequel to papers dealing with recent developments on the issue of `quantum measurement'. In this paper `measurement within the domain of application of quantum mechanics' is treated as a \emph{quantum mechanical} \emph{interaction} of a `(sub)microscopic object $(o)$' and an `equally (sub)microscopic part of the measuring instrument $(a)$ being sensitive to the (sub)microscopic information', that interaction to be described by a Schr\"odinger equation. The Stern-Gerlach experiment is used as a paradigmatic example. An alternative to the Heisenberg inequality is found, exhibiting the \emph{independent} contributions of `preparation of the initial state of object $(o)$' \emph{and} `interaction of object $(o)$ \emph{and} measuring instrument/probe $(a)$'. Applicability of the Liouville-von Neumann equation is stressed.
翻訳日:2023-12-13 18:36:49 公開日:2023-12-11
# DiffCast: 降水開始のための残留拡散による統一フレームワーク

DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting ( http://arxiv.org/abs/2312.06734v1 )

ライセンス: Link先を確認
Demin Yu, Xutao Li, Yunming Ye, Baoquan Zhang, Chuyao Luo, Kuai Dai, Rui Wang, Xunlai Chen(参考訳) 降水ノキャスティングは、現在の観測に基づいてレーダーエコーシーケンスを予測する重要な時空間予測タスクであり、気象学とスマートシティの両方の応用に役立つ。 降水系のカオス的な進化の性質から、これは非常に難しい問題である。 従来の研究では、決定論的モデリングや確率論的モデリングの観点からこの問題に対処している。 しかし、それらの予測はぼやけ、高値のエコーが消え、位置が不正確な問題に苦しむ。 これらの問題の根本原因は、カオス的な進化的降水系が適切にモデル化されていないことである。 システムの性質に触発されて,大域的な決定論的運動と局所的な確率的変動の観点から,それらを分解しモデル化することを提案する。 従来の手法の欠点を効果的に解決する,残差拡散に基づく任意の種類の時空間モデルを装備できる統一的かつ柔軟なフレームワークを提案する。 4つの公開レーダデータセットの大規模な実験結果は、最先端技術と比較して提案フレームワークの有効性と優位性を示している。 私たちのコードはまもなく公開されます。

Precipitation nowcasting is an important spatio-temporal prediction task to predict the radar echoes sequences based on current observations, which can serve both meteorological science and smart city applications. Due to the chaotic evolution nature of the precipitation systems, it is a very challenging problem. Previous studies address the problem either from the perspectives of deterministic modeling or probabilistic modeling. However, their predictions suffer from the blurry, high-value echoes fading away and position inaccurate issues. The root reason of these issues is that the chaotic evolutionary precipitation systems are not appropriately modeled. Inspired by the nature of the systems, we propose to decompose and model them from the perspective of global deterministic motion and local stochastic variations with residual mechanism. A unified and flexible framework that can equip any type of spatio-temporal models is proposed based on residual diffusion, which effectively tackles the shortcomings of previous methods. Extensive experimental results on four publicly available radar datasets demonstrate the effectiveness and superiority of the proposed framework, compared to state-of-the-art techniques. Our code will be made publicly available soon.
翻訳日:2023-12-13 18:36:23 公開日:2023-12-11
# TULIP: LiDAR Point Cloudのアップサンプリング用トランスフォーマー

TULIP: Transformer for Upsampling of LiDAR Point Cloud ( http://arxiv.org/abs/2312.06733v1 )

ライセンス: Link先を確認
Bin Yang, Patrick Pfreundschuh, Roland Siegwart, Marco Hutter, Peyman Moghadam, Vaishakh Patil(参考訳) LiDAR Upsamplingは、大規模なシーンコンテキストのスパースで不規則な構造のため、ロボットや自動運転車の認識システムにとって困難なタスクである。 近年,lidarデータを3次元ユークリッド空間から2次元画像空間における画像超解像問題に変換する手法が提案されている。 これらの手法は細かな詳細で高解像度のレンジ画像を生成することができるが、3Dポイントの雲は詳細を曖昧にし、無効な点を予測する。 本稿では,低分解能LiDAR入力から高分解能LiDAR点雲を再構成する新しい方法であるTULIPを提案する。 また、範囲画像に基づくアプローチも踏襲するが、範囲画像の特性に適合するように、スウィントランスフォーマベースのネットワークのパッチとウィンドウジオメトリを特に修正する。 3つの異なる実世界とシミュレーションデータセットについて,いくつかの実験を行った。 TULIPはすべての関連するメトリクスにおいて最先端の手法より優れており、以前の作業よりも堅牢で現実的な点雲を生成する。

LiDAR Upsampling is a challenging task for the perception systems of robots and autonomous vehicles, due to the sparse and irregular structure of large-scale scene contexts. Recent works propose to solve this problem by converting LiDAR data from 3D Euclidean space into an image super-resolution problem in 2D image space. Although their methods can generate high-resolution range images with fine-grained details, the resulting 3D point clouds often blur out details and predict invalid points. In this paper, we propose TULIP, a new method to reconstruct high-resolution LiDAR point clouds from low-resolution LiDAR input. We also follow a range image-based approach but specifically modify the patch and window geometries of a Swin-Transformer-based network to better fit the characteristics of range images. We conducted several experiments on three different public real-world and simulated datasets. TULIP outperforms state-of-the-art methods in all relevant metrics and generates robust and more realistic point clouds than prior works.
翻訳日:2023-12-13 18:36:05 公開日:2023-12-11
# Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator ( http://arxiv.org/abs/2312.06731v1 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou(参考訳) 大規模言語モデル(LLM)は人間の指示を理解する上で優れており、命令チューニングを備えたマルチモーダルLLM(MLLM)の開発を推進している。 しかし、高品質なマルチモーダル命令チューニングデータを取得することは大きな課題となる。 データ生成にGPT-4を頼っていた従来のアプローチは高価であり、特定のタスクに不満足な性能を示した。 そこで我々は,様々なタスクに対して高品質なマルチモーダル命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを提案する。 genixerは10の一般的なマルチモーダルタスク用のデータセットを収集し、これらのデータセットを命令チューニングデータに変換するための命令テンプレートを設計する。 その後、事前訓練されたMLLMを訓練してタスク固有の命令データを生成し、高品質なデータフィルタリング戦略を提案する。 Genixerを評価するために、基本的なMLLMモデルであるKakapoが構築され、複数のデータセットにわたる画像キャプションと視覚的質問応答(VQA)タスクにおいて、SoTAのパフォーマンスを達成する。 実験結果から,Genixerのフィルタリングデータにより,画像キャプションやVQAタスクのカカポが継続的に改善されていることがわかった。 画像領域関連タスク(例えば、地域キャプションや検出)におけるSoTAシクラMLLMモデルでは、Genixerは対応するデータの生成にも成功し、その性能を向上させる。 Genixerは、さまざまなタスクのための高品質なマルチモーダル命令データを生成するための道を開いた。 コードとモデルはまもなくリリースされる予定だ。

Large Language Models (LLMs) excel in understanding human instructions, driving the development of Multimodal LLMs (MLLMs) with instruction tuning. However, acquiring high-quality multimodal instruction tuning data poses a significant challenge. Previous approaches relying on GPT-4 for data generation proved expensive and exhibited unsatisfactory performance for certain tasks. To solve this, we present Genixer, an innovative data generation pipeline producing high-quality multimodal instruction tuning data for various tasks. Genixer collects datasets for ten prevalent multimodal tasks and designs instruction templates to transform these datasets into instruction-tuning data. It then trains pretrained MLLMs to generate task-specific instruction data and proposes an effective data filtering strategy to ensure high quality. To evaluate Genixer, a base MLLM model, Kakapo, is built and achieves SoTA performance in image captioning and visual question answering (VQA) tasks across multiple datasets. Experimental results show that filtered data from Genixer continually improves Kakapo for image captioning and VQA tasks. For the SoTA Shikra MLLM model on the image-region-related tasks, e.g., region caption and detection, Genixer also successfully generates corresponding data and improves its performance. Genixer opens avenues for generating high-quality multimodal instruction data for diverse tasks, enabling innovative applications across domains. The code and models will be released soon.
翻訳日:2023-12-13 18:35:44 公開日:2023-12-11
# RGNet:ロングビデオのための統合検索とグラウンドネットワーク

RGNet: A Unified Retrieval and Grounding Network for Long Videos ( http://arxiv.org/abs/2312.06729v1 )

ライセンス: Link先を確認
Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius(参考訳) 本稿では,自然言語クエリによって記述された特定のモーメントを特定するために,映像の時間的グラウンド化のための新しいエンドツーエンド手法を提案する。 このタスクの事前のロングビデオメソッドは、通常、提案の選択と回帰の2つの段階を含む。 しかし,提案手法の選定はグラウンドネットワークとは相容れないため,エンド・ツー・エンドの訓練は行わないため,提案手法の有効性は制限される。 さらに、これらの手法は時間的ウィンドウ全体にわたって均一に動作し、長編ビデオでは冗長で無関係な特徴が与えられた。 従来のアプローチとは対照的に,時間長ビデオから提案を共同で選択し,その中の自然言語クエリによって指定されたモーメントを特定できる統一ネットワークであるRGNetを導入する。 これを実現するために,提案手法をビデオテキスト検索タスクとして再定義する。 RGNetのコアコンポーネントはクロスモーダルなRGエンコーダで、2つのステージを共通の特徴と相互最適化でブリッジする。 エンコーダはスパースサンプリング技術を用いて,関連時間フレームを戦略的に重視する。 RGNetは従来の手法より優れており、長いビデオ時間的グラウンドデータセットMADとEgo4Dで最先端のパフォーマンスを示している。 コードはhttps://github.com/Tanveer81/RGNetで公開されている。

We present a novel end-to-end method for long-form video temporal grounding to locate specific moments described by natural language queries. Prior long-video methods for this task typically contain two stages: proposal selection and grounding regression. However, the proposal selection of these methods is disjoint from the grounding network and is not trained end-to-end, which limits the effectiveness of these methods. Moreover, these methods operate uniformly over the entire temporal window, which is suboptimal given redundant and irrelevant features in long videos. In contrast to these prior approaches, we introduce RGNet, a unified network designed for jointly selecting proposals from hour-long videos and locating moments specified by natural language queries within them. To achieve this, we redefine proposal selection as a video-text retrieval task, i.e., retrieving the correct candidate videos given a text query. The core component of RGNet is a unified cross-modal RG-Encoder that bridges the two stages with shared features and mutual optimization. The encoder strategically focuses on relevant time frames using a sparse sampling technique. RGNet outperforms previous methods, demonstrating state-of-the-art performance on long video temporal grounding datasets MAD and Ego4D. The code is released at https://github.com/Tanveer81/RGNet
翻訳日:2023-12-13 18:35:17 公開日:2023-12-11
# ラジオギャラクシーと赤外線ホスト検出のためのマルチモーダルデータセットとベンチマーク

A Multimodal Dataset and Benchmark for Radio Galaxy and Infrared Host Detection ( http://arxiv.org/abs/2312.06728v1 )

ライセンス: Link先を確認
Nikhel Gupta, Zeeshan Hayder, Ray P. Norris, Minh Hyunh and Lars Petersson(参考訳) 専門的な天文学者によって開発された新しいマルチモーダルデータセットは、多成分拡張電波銀河とその対応する赤外線ホストの検出と位置決めを自動化する。 データセットは4,155個の銀河からなり、2,800枚の画像にラジオと赤外線の両方のモダリティがある。 それぞれのインスタンスには、拡張無線銀河クラス、その全てのコンポーネントを含む対応する境界ボックス、ピクセルレベルのセグメンテーションマスク、対応する赤外線ホスト銀河の位置に関する情報が含まれている。 私たちのデータセットは、高感度の電波望遠鏡、赤外線衛星、およびそれらの識別のためのインスタンスレベルのアノテーションの画像を含む、初めて公開されたデータセットです。 本稿では,複数の物体検出アルゴリズムをベンチマークし,電波銀河と赤外線ホストの位置を同時に同定するための新しいマルチモーダル手法を提案する。

We present a novel multimodal dataset developed by expert astronomers to automate the detection and localisation of multi-component extended radio galaxies and their corresponding infrared hosts. The dataset comprises 4,155 instances of galaxies in 2,800 images with both radio and infrared modalities. Each instance contains information on the extended radio galaxy class, its corresponding bounding box that encompasses all of its components, pixel-level segmentation mask, and the position of its corresponding infrared host galaxy. Our dataset is the first publicly accessible dataset that includes images from a highly sensitive radio telescope, infrared satellite, and instance-level annotations for their identification. We benchmark several object detection algorithms on the dataset and propose a novel multimodal approach to identify radio galaxies and the positions of infrared hosts simultaneously.
翻訳日:2023-12-13 18:34:56 公開日:2023-12-11
# 行動パターンの検出とオートエンコーダの利用に基づく多次元時系列復元法

A method for recovery of multidimensional time series based on the detection of behavioral patterns and the use of autoencoders ( http://arxiv.org/abs/2312.06727v1 )

ライセンス: Link先を確認
Alexey Yurtin(参考訳) 本稿では,多次元時系列における欠落値の復元手法を提案する。 この方法は、ニューラルネットワーク技術とスニペット検索アルゴリズム(時系列のビヘイビアパターン)を組み合わせたものである。 データ前処理、認識と再構築の段階を含み、畳み込みと繰り返しのニューラルネットワークを使用する。 実験により,SOTA法よりも高い回収精度と手法の利点が示された。

This article presents a method for recovering missing values in multidimensional time series. The method combines neural network technologies and an algorithm for searching snippets (behavioral patterns of a time series). It includes the stages of data preprocessing, recognition and reconstruction, using convolutional and recurrent neural networks. Experiments have shown high accuracy of recovery and the advantage of the method over SOTA methods.
翻訳日:2023-12-13 18:34:42 公開日:2023-12-11
# Compress & Align: 人間の知識による画像テキストデータのキュレーション

Compress & Align: Curating Image-Text Data with Human Knowledge ( http://arxiv.org/abs/2312.06726v1 )

ライセンス: Link先を確認
Lei Zhang, Fangxun Shu, Sucheng Ren, Bingchen Zhao, Hao Jiang, Cihang Xie(参考訳) ウェブクローリングによる画像テキストデータの膨大な増加は、本質的にデータ品質の変動性の課題を示している。 本稿では,人間の知識に根ざした新しいアルゴリズムを導入し,この膨大な画像テキストデータセットのコーパスを,コンパクトで高品質な形式に圧縮する。 我々の方法は3つの大きなステップで展開する。 まず、画像テキストデータセットを収集し、各画像に多様な起源から派生した複数のキャプションを関連付ける。 そして,各画像と組み合わせた最適なキャプションに関する人間の嗜好を体系的に把握するために,ラベルからアライメント評価を批判的に導くための主観的基準と客観的基準の包括的セットを確立する。 最後に、アノテートデータセット上の報酬モデルをトレーニングし、画像テキストアライメントに関する人間の微妙な理解を内部化する。 結果として得られる報酬モデルは、不整合/低品質の画像テキストペアをフィルタする人間のようなレフェリーとして機能する。 広範な実験によって、画像テキストデータセットを90%まで圧縮することで、モデルパフォーマンスを確保(あるいは改善)できることが示されています。 例えば、我々のBLIP-B/16モデルは、130Mから15.5Mに積極的に縮小することで、画像テキスト検索(Flickr30K、COCO)で約2.5%、CIDErで約10.0%、SPICEで約2.7%のフルサイズデータセットよりも優れたパフォーマンスを示している。

The massive growth of image-text data through web crawling inherently presents the challenge of variability in data quality. This paper introduces a novel algorithm, rooted in human knowledge, to compress this vast corpus of web-crawled image-text datasets to a compact and high-quality form. Our method unfolds in three major steps. First, we collect an image-text dataset, wherein each image is associated with multiple captions sourced from diverse origins. Then, to systemically capture human preferences regarding the best caption paired with each image, we establish a comprehensive set of both subjective and objective criteria for critically guiding the alignment assessment from labelers. Lastly, we train a reward model on the annotated dataset to internalize the nuanced human understanding of image-text alignment. The resulting reward model thus can act as a human-like referee to filter misaligned/low-quality image-text pairs. Extensive experiments demonstrate that we are able to secure (or even improve) model performance by compressing the image-text datasets up to ~90%. An impressive example is that, by aggressively reducing the total training sample from 130M to 15.5M (e.g., ~9x smaller), our BLIP-B/16 models still consistently show superior performance compared with the full-size-dataset counterpart on image-text retrieval (Flickr30K, COCO) by ~2.5% in Recall@1, and on image-captioning (Nocaps, COCO) by ~10.0% in CIDEr and ~2.7% in SPICE.
翻訳日:2023-12-13 18:34:36 公開日:2023-12-11
# EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion ( http://arxiv.org/abs/2312.06725v1 )

ライセンス: Link先を確認
Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng(参考訳) 単一のビューからマルチビュー画像を生成することで、単一のイメージに条件付けられた3dメッシュの迅速な生成が容易になる。 拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。 本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。 提案手法の核心は、凍結拡散モデルに軽量なエピポーラ注意ブロックを挿入し、エピポーラ制約を利用して隣り合うビューの特徴マップ間のクロスビューインタラクションを可能にすることである。 新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。 実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。 さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。 プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。

Generating multiview images from a single view facilitates the rapid generation of a 3D mesh conditioned on a single image. Recent methods that introduce 3D global representation into diffusion models have shown the potential to generate consistent multiviews, but they have reduced generation speed and face challenges in maintaining generalizability and quality. To address this issue, we propose EpiDiff, a localized interactive multiview diffusion model. At the core of the proposed approach is to insert a lightweight epipolar attention block into the frozen diffusion model, leveraging epipolar constraints to enable cross-view interaction among feature maps of neighboring views. The newly initialized 3D modeling module preserves the original feature distribution of the diffusion model, exhibiting compatibility with a variety of base diffusion models. Experiments show that EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS. Additionally, EpiDiff can generate a more diverse distribution of views, improving the reconstruction quality from generated multiviews. Please see our project page at https://huanngzh.github.io/EpiDiff/.
翻訳日:2023-12-13 18:34:03 公開日:2023-12-11
# 特徴領域適応による低照度画像の学習

Learning to See Low-Light Images via Feature Domain Adaptation ( http://arxiv.org/abs/2312.06723v1 )

ライセンス: Link先を確認
Qirui Yang, cheng qihua, Huanjing Yue, Le Zhang, Yihao Liu, Jingyu Yang(参考訳) raw low light image enhancement (llie) は生データの利点により、srgbドメイン拡張法よりもはるかに優れた性能を達成している。 しかし、ノイズとクリーンと生とsRGBマッピングのあいまいさは、シングルステージエンハンスメントネットワークを誤解させる可能性がある。 2段階のネットワークは、2つのマッピングを分離することで曖昧さを避けるが、計算の複雑さは大きい。 そこで本研究では,特徴領域適応 (FDA) によって強化された単一段階ネットワークを提案し,生のLLIEにおけるデノイングとカラーマッピングのタスクを分離する。 清浄な生画像によって復調エンコーダを監督し、その復調された特徴をFDAモジュールによるカラーマッピングタスクに適合させる。 本稿では,fdaとして機能するラインフォーマを提案する。ラインバッファの少ないグローバルおよびローカル相関を(ラインベースの撮像プロセスに好適な)検討できる。 推測中、生の監視ブランチを除去する。 このようにして、我々のネットワークは、2段階拡張プロセスの利点と1段階推論の効率を組み合わせている。 4つのベンチマークデータセットを用いた実験により,2段法DNFの60 % FLOP) の計算コストを削減し,最先端の性能を実現することができた。 この作業の受理後、 \textit{Our codes がリリースされる。 }

Raw low light image enhancement (LLIE) has achieved much better performance than the sRGB domain enhancement methods due to the merits of raw data. However, the ambiguity between noisy to clean and raw to sRGB mappings may mislead the single-stage enhancement networks. The two-stage networks avoid ambiguity by decoupling the two mappings but usually have large computing complexity. To solve this problem, we propose a single-stage network empowered by Feature Domain Adaptation (FDA) to decouple the denoising and color mapping tasks in raw LLIE. The denoising encoder is supervised by the clean raw image, and then the denoised features are adapted for the color mapping task by an FDA module. We propose a Lineformer to serve as the FDA, which can well explore the global and local correlations with fewer line buffers (friendly to the line-based imaging process). During inference, the raw supervision branch is removed. In this way, our network combines the advantage of a two-stage enhancement process with the efficiency of single-stage inference. Experiments on four benchmark datasets demonstrate that our method achieves state-of-the-art performance with fewer computing costs (60\% FLOPs of the two-stage method DNF). \textit{Our codes will be released after the acceptance of this work.}
翻訳日:2023-12-13 18:33:42 公開日:2023-12-11
# egoplan-bench:マルチモーダル大規模言語モデルによるegocentricembodied planningのベンチマーク

EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models ( http://arxiv.org/abs/2312.06722v1 )

ライセンス: Link先を確認
Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu(参考訳) MLLM(Multimodal Large Language Models)は、強力なLarge Language Models(LLMs)を基盤として、例外的な推論と一般化能力を持つシステムである。 MLLMは、リアルタイムタスクの進捗、視覚観察、オープンフォーム言語指示といった、実行可能タスク計画に不可欠な多様な環境入力を統合する能力に優れています。 本研究では,実世界のシナリオにおいて,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。 このベンチマークは,実世界の映像から得られる現実的なタスク,数百の異なるオブジェクトとのインタラクションを含む多様なアクション,さまざまな環境からの複雑な視覚観察によって区別される。 各種オープンソースMLLMを評価し,これらのモデルがまだ具体的計画ジェネリスト(GPT-4V)に進化していないことを明らかにした。 さらに,人間とオブジェクトのインタラクションのビデオから,インストラクションチューニングデータセット egoplan-it を構築し,複雑な実環境におけるハイレベルなタスク計画の学習を容易にする。 実験の結果,EgoPlan-ITで調整したモデルでは,ベンチマークの性能が大幅に向上するだけでなく,シミュレーションにおける具体的プランナーとして効果的に機能することが示された。

Multimodal Large Language Models (MLLMs), building upon the powerful Large Language Models (LLMs) with exceptional reasoning and generalization capability, have opened up new avenues for embodied task planning. MLLMs excel in their ability to integrate diverse environmental inputs, such as real-time task progress, visual observations, and open-form language instructions, which are crucial for executable task planning. In this work, we introduce a benchmark with human annotations, EgoPlan-Bench, to quantitatively investigate the potential of MLLMs as embodied task planners in real-world scenarios. Our benchmark is distinguished by realistic tasks derived from real-world videos, a diverse set of actions involving interactions with hundreds of different objects, and complex visual observations from varied environments. We evaluate various open-source MLLMs, revealing that these models have not yet evolved into embodied planning generalists (even GPT-4V). We further construct an instruction-tuning dataset EgoPlan-IT from videos of human-object interactions, to facilitate the learning of high-level task planning in intricate real-world situations. The experiment results demonstrate that the model tuned on EgoPlan-IT not only significantly improves performance on our benchmark, but also effectively acts as embodied planner in simulations.
翻訳日:2023-12-13 18:33:25 公開日:2023-12-11
# 物理力学理解のための実世界モデリング

Counterfactual World Modeling for Physical Dynamics Understanding ( http://arxiv.org/abs/2312.06721v1 )

ライセンス: Link先を確認
Rahul Venkatesh, Honglin Chen, Kevin Feigelis, Khaled Jedoui, Klemen Kotar, Felix Binder, Wanhee Lee, Sherry Liu, Kevin A. Smith, Judith E. Fan, Daniel L. K. Yamins(参考訳) 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。 本稿では,物理力学理解のための純粋視覚基盤モデルとして,CWM(Counterfactual World Modeling)を提案する。 cwmは3つの基本的な概念からなる。 まず,映像データのマスキング予測のための簡易かつ強力な時間分解型マスキングポリシーを提案する。 第二に、CWMは、数個のパッチ埋め込みを操作してシーンダイナミクスを有意義に制御することで、偽の次フレーム予測を生成することができる。 第3に、逆ファクトモデリング機能により、動的理解に有用なキーポイント、光学フロー、セグメンテーションに似た視覚構造を抽出できる反ファクトクエリの設計が可能となる。 実世界のデータセットにおける先行手法に対して,反事実クエリによって抽出された構造をゼロショットで読み出すことにより,性能が向上することを示す。 最後に、CWMが物理力学の理解を評価するための挑戦的なPhyssionベンチマークにおいて、最先端の性能を達成することを実証する。

The ability to understand physical dynamics is essential to learning agents acting in the world. This paper presents Counterfactual World Modeling (CWM), a candidate pure vision foundational model for physical dynamics understanding. CWM consists of three basic concepts. First, we propose a simple and powerful temporally-factored masking policy for masked prediction of video data, which encourages the model to learn disentangled representations of scene appearance and dynamics. Second, as a result of the factoring, CWM is capable of generating counterfactual next-frame predictions by manipulating a few patch embeddings to exert meaningful control over scene dynamics. Third, the counterfactual modeling capability enables the design of counterfactual queries to extract vision structures similar to keypoints, optical flows, and segmentations, which are useful for dynamics understanding. We show that zero-shot readouts of these structures extracted by the counterfactual queries attain competitive performance to prior methods on real-world datasets. Finally, we demonstrate that CWM achieves state-of-the-art performance on the challenging Physion benchmark for evaluating physical dynamics understanding.
翻訳日:2023-12-13 18:32:58 公開日:2023-12-11
# 映像理解のためのLLM

Audio-Visual LLM for Video Understanding ( http://arxiv.org/abs/2312.06720v1 )

ライセンス: Link先を確認
Fangxun Shu, Lei Zhang, Hao Jiang, Cihang Xie(参考訳) 本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 鍵となる設計は、適切な視覚および/または聴覚エンコーダを選択的に活性化するように設計されたモダリティ固有のトークンの統合を含むモダリティ提示トレーニングである。 このメカニズムは、視覚のみ、オーディオオンリー、オーディオ-ビジュアルフォーマットなど、さまざまなモードでビデオデータとエンドツーエンドのジョイントトレーニングを可能にする上で重要なものだ。 さらに,gpt-4から派生した高品質ビデオ命令データセットを提案する。 このデータセットは、マルチターン会話やオーディオ視覚物語から複雑な推論タスクまで、様々なタスク指向のビデオ命令を順応的に処理することを可能にする。 広範にわたる実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。 例えば、Audio-Visual LLMはMSRVTT-QAで53.7%の精度を達成し、非LLMベースのInterVideoを6.6%、LLMベースのValleyを4.4%上回った。 さらに、私たちのAudio-Visual LLMはオーディオタスク(例えばAudioCaps)の競合性能も達成しています。

This paper presents Audio-Visual LLM, a Multimodal Large Language Model that takes both visual and auditory inputs for holistic video understanding. A key design is the modality-augmented training, which involves the integration of modality-specific tokens engineered to activate the appropriate visual and/or auditory encoder selectively. This mechanism is pivotal in enabling end-to-end joint training with video data at different modalities, including visual-only, audio-only, and audio-visual formats. Moreover, we introduce a high-quality video instruction dataset, derived from GPT-4. This dataset allows Audio-Visual LLM to adeptly process a variety of task-oriented video instructions, ranging from multi-turn conversations and audio-visual narratives to complex reasoning tasks. Extensive experiments demonstrate that Audio-Visual LLM impressively achieves strong zero-shot results across a range of video understanding tasks. For example, Audio-Visual LLM achieves an accuracy of 53.7% on MSRVTT-QA, outperforming non-LLM-based InterVideo by 6.6% and LLM-based Valley by 4.4%, respectively. Additionally, our Audio-Visual LLM also achieves competitive performance on audio tasks (e.g., AudioCaps).
翻訳日:2023-12-13 18:32:42 公開日:2023-12-11
# SkyScenes: 航空シーン理解のための合成データセット

SkyScenes: A Synthetic Dataset for Aerial Scene Understanding ( http://arxiv.org/abs/2312.06719v1 )

ライセンス: Link先を確認
Sahil Khose, Anisha Pal, Aayushi Agarwal, Deepanshi, Judy Hoffman, Prithvijit Chattopadhyay(参考訳) 実世界の航空シーンの理解は、様々な条件の下でキュレーションされた濃密な注釈付き画像を含むデータセットの不足によって制限される。 そこで,本研究では,無人航空機(uav)の視点から撮影した高濃度アノテートされた空中画像の合成データセットであるskyscenesを提案する。 我々は、CARLAのSkyScenes画像を慎重にキュレートし、レイアウト(アーバンマップと農村マップ)、気象条件、日時、ピッチ角、高度を、対応する意味、例、深さアノテーションで包括的に把握する。 1)SkyScenesを用いた実験により,(1)SkyScenesで訓練されたモデルが現実のシナリオに順応し,(2)SkyScenesデータによる実画像のトレーニングが実世界のパフォーマンスを向上させること,(3)SkyScenesの制御されたバリエーションが,視点条件の変化にモデルがどのように反応するか,(4)追加のセンサモード(深度)を組み込むことで空間の理解が向上すること,などが示されている。

Real-world aerial scene understanding is limited by a lack of datasets that contain densely annotated images curated under a diverse set of conditions. Due to inherent challenges in obtaining such images in controlled real-world settings, we present SkyScenes, a synthetic dataset of densely annotated aerial images captured from Unmanned Aerial Vehicle (UAV) perspectives. We carefully curate SkyScenes images from CARLA to comprehensively capture diversity across layout (urban and rural maps), weather conditions, times of day, pitch angles and altitudes with corresponding semantic, instance and depth annotations. Through our experiments using SkyScenes, we show that (1) Models trained on SkyScenes generalize well to different real-world scenarios, (2) augmenting training on real images with SkyScenes data can improve real-world performance, (3) controlled variations in SkyScenes can offer insights into how models respond to changes in viewpoint conditions, and (4) incorporating additional sensor modalities (depth) can improve aerial scene understanding.
翻訳日:2023-12-13 18:32:18 公開日:2023-12-11
# インテリジェントな製造アプリケーションのための大規模基盤モデル:調査

Large Scale Foundation Models for Intelligent Manufacturing Applications: A Survey ( http://arxiv.org/abs/2312.06718v1 )

ライセンス: Link先を確認
Haotian Zhang, Semujju Stuart Dereck, Zhicheng Wang, Xianwei Lv, Kang Xu, Liang Wu, Ye Jia, Jing Wu, Zhuo Long, Wensheng Liang, X.G. Ma, and Ruiyan Zhuang(参考訳) 人工知能の応用、特に深層学習は知的製造の様々な側面を大幅に改善したが、一般化能力の貧弱さ、高品質なトレーニングデータセットの確立の困難、ディープラーニング手法の不満足な性能など、幅広い雇用の課題に直面した。 大規模な基礎モデル(LSFM)の出現は、人工知能の分野で波を巻き起こし、ディープラーニングモデルをシングルタスク、シングルモーダル、限定データパターンから、多様なタスクを含むパラダイム、マルチモーダル、大規模データセットの事前トレーニングへとシフトさせた。 LSFMは、強力な一般化能力、自動高品質のトレーニングデータセット生成、様々な領域での優れた性能を示したが、LSFMの知能製造への応用はまだ初期段階にあった。 このトピックの体系的な概要は欠如しており、特に深層学習の課題がLSFMによってどのように対処され、これらの課題が体系的に取り組まれるかについてである。 このギャップを埋めるため,本稿では,現在のlsfm像とその知的製造における利点を体系的に提示した。 そして、さまざまなインテリジェントな製造アプリケーションにおいて、現在のディープラーニングモデルが直面する課題と包括的に比較する。 LSFMを利用してこれらの課題に対処するためのロードマップも概説した。 最後に、LSFMを実世界のインテリジェントな製造シナリオに適用する事例研究を行い、LSFMが産業にどのように貢献し、その効率を向上するかを示した。

Although the applications of artificial intelligence especially deep learning had greatly improved various aspects of intelligent manufacturing, they still face challenges for wide employment due to the poor generalization ability, difficulties to establish high-quality training datasets, and unsatisfactory performance of deep learning methods. The emergence of large scale foundational models(LSFMs) had triggered a wave in the field of artificial intelligence, shifting deep learning models from single-task, single-modal, limited data patterns to a paradigm encompassing diverse tasks, multimodal, and pre-training on massive datasets. Although LSFMs had demonstrated powerful generalization capabilities, automatic high-quality training dataset generation and superior performance across various domains, applications of LSFMs on intelligent manufacturing were still in their nascent stage. A systematic overview of this topic was lacking, especially regarding which challenges of deep learning can be addressed by LSFMs and how these challenges can be systematically tackled. To fill this gap, this paper systematically expounded current statue of LSFMs and their advantages in the context of intelligent manufacturing. and compared comprehensively with the challenges faced by current deep learning models in various intelligent manufacturing applications. We also outlined the roadmaps for utilizing LSFMs to address these challenges. Finally, case studies of applications of LSFMs in real-world intelligent manufacturing scenarios were presented to illustrate how LSFMs could help industries, improve their efficiency.
翻訳日:2023-12-13 18:31:49 公開日:2023-12-11
# ADOD:水中環境に対する残留注意を用いた適応型ドメイン認識オブジェクト検出

ADOD: Adaptive Domain-Aware Object Detection with Residual Attention for Underwater Environments ( http://arxiv.org/abs/2312.06801v1 )

ライセンス: Link先を確認
Lyes Saad Saoud, Zhenwei Niu, Atif Sultan, Lakmal Seneviratne and Irfan Hussain(参考訳) 本研究では,水中物体検出における領域一般化のための新しいアプローチであるADODを提案する。 本手法は, 様々な水中環境下での堅牢性を確保するため, 多様な領域にまたがってモデルを一般化する能力を高める。 最初の重要な貢献は、残留注意モジュールによって強化されたyolov3フレームワークの新しい変種である、残留注意モジュールであるyolov3である。 これらのモジュールにより、モデルはバックグラウンドノイズを抑えながら情報的特徴に集中することができ、検出精度と異なるドメインへの適応性が改善される。 第2の貢献は、トレーニング中に必須となる、注意に基づくドメイン分類モジュールである。 このモジュールは、モデルがドメイン固有の情報を識別し、ドメイン不変の機能の学習を促進するのに役立つ。 その結果、ADODは視覚特性の異なる水中環境に効果的に一般化することができる。 多様な水中データセットに関する大規模な実験は、特に挑戦的なシナリオにおいて、最先端のドメイン一般化手法と比較してADODの優れた性能を示す。 提案手法は, 水中物体検出作業における領域シフト処理の有効性を示すとともに, 目に見える領域と目に見えない領域の両方において異常検出性能を実現する。 ADODは適応オブジェクト検出の大幅な進歩を示し、水中環境における現実世界の応用に有望なソリューションを提供する。 このような状況下でのドメインシフトが広まると、モデルの強力な一般化能力は実用的な水中監視と海洋研究の努力にとって貴重な資産となる。

This research presents ADOD, a novel approach to address domain generalization in underwater object detection. Our method enhances the model's ability to generalize across diverse and unseen domains, ensuring robustness in various underwater environments. The first key contribution is Residual Attention YOLOv3, a novel variant of the YOLOv3 framework empowered by residual attention modules. These modules enable the model to focus on informative features while suppressing background noise, leading to improved detection accuracy and adaptability to different domains. The second contribution is the attention-based domain classification module, vital during training. This module helps the model identify domain-specific information, facilitating the learning of domain-invariant features. Consequently, ADOD can generalize effectively to underwater environments with distinct visual characteristics. Extensive experiments on diverse underwater datasets demonstrate ADOD's superior performance compared to state-of-the-art domain generalization methods, particularly in challenging scenarios. The proposed model achieves exceptional detection performance in both seen and unseen domains, showcasing its effectiveness in handling domain shifts in underwater object detection tasks. ADOD represents a significant advancement in adaptive object detection, providing a promising solution for real-world applications in underwater environments. With the prevalence of domain shifts in such settings, the model's strong generalization ability becomes a valuable asset for practical underwater surveillance and marine research endeavors.
翻訳日:2023-12-13 18:25:23 公開日:2023-12-11
# densify your labels: 弱教師付きポイントクラウドセグメンテーションのための2部マッチングによる教師なしクラスタリング

Densify Your Labels: Unsupervised Clustering with Bipartite Matching for Weakly Supervised Point Cloud Segmentation ( http://arxiv.org/abs/2312.06799v1 )

ライセンス: Link先を確認
Shaobo Xia, Jun Yue, Kacper Kania, Leyuan Fang, Andrea Tagliasacchi, Kwang Moo Yi, Weiwei Sun(参考訳) 我々は,近年の完全教師付きアプローチの性能を達成しつつ,単に「全シーン」アノテーションから「ポイント毎」ラベルを予測する,ポイントクラウドに対する弱教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。 私たちの中核となる考え方は、擬似ラベルを保守的な方法で作成することで、シーンレベルのラベルをポイントクラウドの各ポイントに伝播させることです。 具体的には、教師なしクラスタリングによるオーバーセグメントポイントクラウド機能と、バイパーティイトマッチングによるシーンレベルのラベルをクラスタに関連付けることで、シーンラベルを最も関連性の高いクラスタにのみ伝搬し、残りの部分は教師なしクラスタリングのみでガイドする。 オーバーセグメンテーションと二部配置が重要な役割を果たすことを実証的に実証する。 本手法はscannetとs3disのデータセット上で評価し,その性能を上回っており,全教師付き手法に匹敵する結果が得られることを示す。

We propose a weakly supervised semantic segmentation method for point clouds that predicts "per-point" labels from just "whole-scene" annotations while achieving the performance of recent fully supervised approaches. Our core idea is to propagate the scene-level labels to each point in the point cloud by creating pseudo labels in a conservative way. Specifically, we over-segment point cloud features via unsupervised clustering and associate scene-level labels with clusters through bipartite matching, thus propagating scene labels only to the most relevant clusters, leaving the rest to be guided solely via unsupervised clustering. We empirically demonstrate that over-segmentation and bipartite assignment plays a crucial role. We evaluate our method on ScanNet and S3DIS datasets, outperforming state of the art, and demonstrate that we can achieve results comparable to fully supervised methods.
翻訳日:2023-12-13 18:25:02 公開日:2023-12-11
# 人間の3次元姿勢推定のロバスト性向上:騒音入力からのベンチマークと学習

Improving the Robustness of 3D Human Pose Estimation: A Benchmark and Learning from Noisy Input ( http://arxiv.org/abs/2312.06797v1 )

ライセンス: Link先を確認
Trung-Hieu Hoang, Mona Zehni, Huy Phan, Minh N. Do(参考訳) 現在の3Dポーズ推定技術の有望な性能にもかかわらず、挑戦する映像の理解と一般化は未解決の問題である。 本研究では,2次元から3次元のポーズリフタのロバスト性に着目した。 そこで本研究では,2つのベンチマークデータセット,human3.6m-cとhumaneva-i-cを開発し,ビデオベースの3dポーズリフトのロバスト性について検討した。 我々は,汚職の存在下での最先端の3dポーズリフトの一般化が貧弱であることを観察し,この問題に取り組むための2つの手法を確立した。 まず,時間付加型ガウスノイズ(TAGN)を簡単な2次元入力ポーズデータ拡張として導入する。 さらに、2次元ポーズ検出器が出力する信頼度スコアを組み込むため、信頼度対応畳み込み(ca-conv)ブロックを設計する。 腐敗したビデオで徹底的にテストされ、提案された戦略は一貫して3Dポーズリフトの堅牢性を高め、将来の研究の新たなベースラインとなる。

Despite the promising performance of current 3D human pose estimation techniques, understanding and enhancing their generalization on challenging in-the-wild videos remain an open problem. In this work, we focus on the robustness of 2D-to-3D pose lifters. To this end, we develop two benchmark datasets, namely Human3.6M-C and HumanEva-I-C, to examine the robustness of video-based 3D pose lifters to a wide range of common video corruptions including temporary occlusion, motion blur, and pixel-level noise. We observe the poor generalization of state-of-the-art 3D pose lifters in the presence of corruption and establish two techniques to tackle this issue. First, we introduce Temporal Additive Gaussian Noise (TAGN) as a simple yet effective 2D input pose data augmentation. Additionally, to incorporate the confidence scores output by the 2D pose detectors, we design a confidence-aware convolution (CA-Conv) block. Extensively tested on corrupted videos, the proposed strategies consistently boost the robustness of 3D pose lifters and serve as new baselines for future research.
翻訳日:2023-12-13 18:24:46 公開日:2023-12-11
# Model Breadcrumbs: スパースマスクによるマルチタスクモデルマージのスケールアップ

Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks ( http://arxiv.org/abs/2312.06795v1 )

ライセンス: Link先を確認
MohammadReza Davari and Eugene Belilovsky(参考訳) AIシステムの急速な発展は、基礎モデルの出現に大きく影響されている。 ターゲット問題に対する一般的なアプローチは、これらのトレーニング済み基礎モデルを特定のターゲットタスクのために微調整することであり、その結果、様々なタスクに微調整されたモデルの急速な拡散をもたらす。 この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。 本稿では,事前学習したモデルの重み空間内の軌跡を彫り出し,トラバース時のタスク性能を向上させる,疎定義された重みの集合からなる,新しい簡易な方法,Model Breadcrumbsを提案する。 これらのパンくずは、微調整前後の事前訓練されたモデルから重量を減じ、その後、重量の異常や不可分な摂動をなくすスパーシフィケーションプロセスによって構成される。 実験では,複数のタスクにまたがる性能向上のためのモデルパンクラムの有効性を実証した。 この貢献は、アップダスタブルな機械学習の進化パラダイム、基盤となるオープンソースソフトウェア開発の協調原則を思い起こさせ、機械学習モデルを確実に更新するためのコミュニティ主導の努力を育む。 提案手法はより効率的であることが示されており,従来の提案では追加タスク毎にハイパーパラメータチューニングを必要としない。 さまざまなモデル、タスク、モダリティを含む広範囲な実験を通じて、モデルパンクラムの統合は、マルチタスクモデルの構築と基盤モデルのアップデートを促進するために、シンプルで効率的で、非常に効果的なアプローチを提供する。

The rapid development of AI systems has been greatly influenced by the emergence of foundation models. A common approach for targeted problems involves fine-tuning these pre-trained foundation models for specific target tasks, resulting in a rapid spread of models fine-tuned across a diverse array of tasks. This work focuses on the problem of merging multiple fine-tunings of the same foundation model derived from a spectrum of auxiliary tasks. We introduce a new simple method, Model Breadcrumbs, which consists of a sparsely defined set of weights that carve out a trajectory within the weight space of a pre-trained model, enhancing task performance when traversed. These breadcrumbs are constructed by subtracting the weights from a pre-trained model before and after fine-tuning, followed by a sparsification process that eliminates weight outliers and negligible perturbations. Our experiments demonstrate the effectiveness of Model Breadcrumbs to simultaneously improve performance across multiple tasks. This contribution aligns with the evolving paradigm of updatable machine learning, reminiscent of the collaborative principles underlying open-source software development, fostering a community-driven effort to reliably update machine learning models. Our method is shown to be more efficient and unlike previous proposals does not require hyperparameter tuning for each new task added. Through extensive experimentation involving various models, tasks, and modalities we establish that integrating Model Breadcrumbs offers a simple, efficient, and highly effective approach for constructing multi-task models and facilitating updates to foundation models.
翻訳日:2023-12-13 18:24:21 公開日:2023-12-11
# 物理オブジェクトの多項式表現の学習と正しいパッキング構成の証明への応用

Learning Polynomial Representations of Physical Objects with Application to Certifying Correct Packing Configurations ( http://arxiv.org/abs/2312.06791v1 )

ライセンス: Link先を確認
Morgan Jones(参考訳) 本稿では,物理オブジェクトの多項式表現を学習するための新しいアプローチを提案する。 物理オブジェクトに関連付けられた点クラウドデータセットが与えられた場合、一級分類問題を解くことで、SOS(Sum-of-Squares)プログラミングを活用しながら、多項式サブレベルセットでデータポイントをバインドする。 オブジェクトを多項式部分レベル集合として表現することにより、オブジェクトが正しくパッケージされているか、オブジェクト境界が重複せず、コンテナセットの内部にあるかを証明するための二次的なSOSプログラムを構築することができることを示す。 本研究には強化学習 (RL) を用いないが, 提案する二次SOSプログラムは, RLアルゴリズムに対して潜在的な代用報酬関数を提供し, オブジェクトの回転や, オブジェクトを所定のコンテナセット内に正しくパックする翻訳を提案する自律報酬エージェントを提供する。

This paper introduces a novel approach for learning polynomial representations of physical objects. Given a point cloud data set associated with a physical object, we solve a one-class classification problem to bound the data points by a polynomial sublevel set while harnessing Sum-of-Squares (SOS) programming to enforce prior shape knowledge constraints. By representing objects as polynomial sublevel sets we further show it is possible to construct a secondary SOS program to certify whether objects are packed correctly, that is object boundaries do not overlap and are inside some container set. While not employing reinforcement learning (RL) in this work, our proposed secondary SOS program does provide a potential surrogate reward function for RL algorithms, autonomously rewarding agents that propose object rotations and translations that correctly pack objects within a given container set.
翻訳日:2023-12-13 18:23:52 公開日:2023-12-11
# 長期時系列予測のための混合線形専門家

Mixture-of-Linear-Experts for Long-term Time Series Forecasting ( http://arxiv.org/abs/2312.06786v1 )

ライセンス: Link先を確認
Ronghao Ni, Zinan Lin, Shuaiqi Wang, Giulia Fanti(参考訳) 長期時系列予測(LTSF)は、過去の値から時系列の将来値を予測することを目的としている。 この問題に対する現在の最先端(SOTA)は、主に線形写像層を特徴とする線形中心モデルによって達成されている。 しかし、本質的に単純であるため、予測ルールを時系列パターンの周期的変化に適応することはできない。 この課題に対処するために、線形中心モデルに対するMixture-of-Expertsスタイルの拡張を提案し、Mixture-of-Linear-Experts (MoLE)を提案する。 単一のモデルをトレーニングする代わりに、MoLEは複数の線形中心モデル(専門家など)とルータモデルを訓練し、出力を重み付け、混合する。 フレームワーク全体がエンドツーエンドでトレーニングされている間、各専門家は特定の時間パターンを専門的に学習し、ルータモデルは専門家を適応的に構成することを学ぶ。 実験の結果, DLinear, RLinear, RMLPを含む線形中心モデルの予測誤差を, 評価したデータセットと設定の78%以上で低減することがわかった。 既存の線形中心モデルを用いることで、PatchTSTが報告した実験の68%でSOTA LTSFを達成でき、一方、既存の単頭線形中心モデルではわずか25%のケースでSOTAを達成できる。 さらに、MoLEモデルは新たにリリースされたWeather2Kデータセットのすべての設定でSOTAを達成する。

Long-term time series forecasting (LTSF) aims to predict future values of a time series given the past values. The current state-of-the-art (SOTA) on this problem is attained in some cases by linear-centric models, which primarily feature a linear mapping layer. However, due to their inherent simplicity, they are not able to adapt their prediction rules to periodic changes in time series patterns. To address this challenge, we propose a Mixture-of-Experts-style augmentation for linear-centric models and propose Mixture-of-Linear-Experts (MoLE). Instead of training a single model, MoLE trains multiple linear-centric models (i.e., experts) and a router model that weighs and mixes their outputs. While the entire framework is trained end-to-end, each expert learns to specialize in a specific temporal pattern, and the router model learns to compose the experts adaptively. Experiments show that MoLE reduces forecasting error of linear-centric models, including DLinear, RLinear, and RMLP, in over 78% of the datasets and settings we evaluated. By using MoLE existing linear-centric models can achieve SOTA LTSF results in 68% of the experiments that PatchTST reports and we compare to, whereas existing single-head linear-centric models achieve SOTA results in only 25% of cases. Additionally, MoLE models achieve SOTA in all settings for the newly released Weather2K datasets.
翻訳日:2023-12-13 18:23:34 公開日:2023-12-11
# Anomalous Floquet Phases の略。 共鳴現象

Anomalous Floquet Phases. A resonance phenomena ( http://arxiv.org/abs/2312.06778v1 )

ライセンス: Link先を確認
\'Alvaro G\'omez-Le\'on(参考訳) フロケトポロジカル相は、システムが周期的に平衡外に駆動されるときに現れる。 それらは外部制御のために注目され、高周波領域で外部磁場をチューニングするだけで様々な静的システムをシミュレートできるようになった。 しかし、その関連性はすぐに明らかとなり、低い周波数の場合、静的な対応のない異常位相が存在し、バルク・ツー・バウンダリー対応が失敗する可能性がある。 本研究では,フロッケ相における共鳴の重要な役割について論じる。 そこで本研究では,Floquetシステムにおいて,駆動周波数が帯域ギャップと一致する場合の解析解を求める手法を提案する。 この形式論により、フロッケ相の位相を解析的に正確に捉えることができることを示した。 また、有限系におけるエッジ状態の数と参照の異なるフレームにおける位相不変量の集合との間のバルク・ツー・バウンダリ対応も、決定的にマイクロモーションを明示的に含まない。 そこで本研究では,周期的に駆動されるSSH連鎖と周期的に駆動される$\pi$-flux格子について考察した。 また,非駆動系が半金属である場合には,回転項と反回転項の競合を慎重に扱う必要がある。 結論として,異常位相位相の直接検出やその不変量の測定など,実験的な構成への影響について考察する。

Floquet topological phases emerge when systems are periodically driven out-of-equilibrium. They gained attention due to their external control, which allows to simulate a wide variety of static systems by just tuning the external field in the high frequency regime. However, it was soon clear that their relevance goes beyond that, as for lower frequencies, anomalous phases without a static counterpart are present and the bulk-to-boundary correspondence can fail. In this work we discuss the important role of resonances in Floquet phases. For that, we introduce a method to find analytical solutions when the frequency of the drive matches the band gap, extending the well-known high frequency analysis of Floquet systems. With this formalism, we show that the topology of Floquet phases can be accurately captured in analytical terms. We also find a bulk-to-boundary correspondence between the number of edge states in finite systems and a set of topological invariants in different frames of reference, which crucially, does not explicitly involve the micromotion. To illustrate our results, we consider a periodically driven SSH chain and a periodically driven $\pi$-flux lattice, showing that our findings remain valid in different systems and dimensions. In addition, we notice that the competition between rotating and counter-rotating terms must be carefully treated when the undriven system is a semi-metal. To conclude, we discuss the implications to experimental setups, including the direct detection of anomalous topological phases and the measurement of their invariants.
翻訳日:2023-12-13 18:23:06 公開日:2023-12-11
# 量子光学における次元還元

Dimensional Reduction in Quantum Optics ( http://arxiv.org/abs/2312.06764v1 )

ライセンス: Link先を確認
Jannik Str\"ohle and Richard Lopp(参考訳) 1次元の量子光学モデルは、例えば準1次元の原子動力学を研究する際に、大きな分離や異なる空間次元に関連する凍結力学の直観に基づいており、3+1D$マクスウェルの理論に違反する可能性がある。 ここでは,光間相互作用による近似の厳密な基礎を提供する。 我々は、量子化された電磁場を、光ファイバー、レーザービーム、導波路などの軸対称な構成を研究する際に、低次元のサブ空間に住み、スペクトルの全体を含む無限個のサブフィールドに正確に$-$$で分解できることを示す。 次元還元近似はそのようなサブフィールドの数の切り込みに対応し、例えば原子との相互作用を考えるとき、原子の空間プロファイルの修正に対応する。 我々は,標準アプローチの正当性や,無視された空間次元によるダイナミクスを考慮に入れた修正が必要な状況について検討する。 特に, 真空揺らぎと構造レーザモードが近似の妥当性に果たす役割について検討する。

One-dimensional quantum optical models usually rest on the intuition of large scale separation or frozen dynamics associated with the different spatial dimensions, for example when studying quasi one-dimensional atomic dynamics, potentially resulting in the violation of $3+1D$ Maxwell's theory. Here, we provide a rigorous foundation for this approximation by means of the light-matter interaction. We show how the quantized electromagnetic field can be decomposed $-$ exactly $-$ into an infinite number of subfields living on a lower dimensional subspace and containing the entirety of the spectrum when studying axially symmetric setups, such as with an optical fiber, a laser beam or a waveguide. The dimensional reduction approximation then corresponds to a truncation in the number of such subfields that in turn, when considering the interaction with for instance an atom, corresponds to a modification to the atomic spatial profile. We explore under what conditions the standard approach is justified and when corrections are necessary in order to account for the dynamics due to the neglected spatial dimensions. In particular we will examine what role vacuum fluctuations and structured laser modes play in the validity of the approximation.
翻訳日:2023-12-13 18:22:43 公開日:2023-12-11
# パラメトリック量子回路の対称性微分

Symmetric derivatives of parametrized quantum circuits ( http://arxiv.org/abs/2312.06752v1 )

ライセンス: Link先を確認
David Wierichs and Richard D. P. East and Mart\'in Larocca and M. Cerezo and Nathan Killoran(参考訳) パラメータ化量子回路を応用に合わせるためには、物理系の本質を捉える能力があるため、対称性が不可欠である。 本研究では,回路設計における対称性の導入から,変分量子アルゴリズムの対称性を考慮したトレーニングへと焦点を移す。 このために、パラメタライズド量子回路の射影微分、特に同変および共変微分の概念を導入する。 共変微分が量子フィッシャー情報と量子自然勾配をもたらすことを示す。 これは共変微分の操作的意味を与え、全ての連続対称性群に量子自然勾配を拡張することができる。 従来の粒子物理学と結びついて、我々の共変微分は物理ゲージ理論で導入されたものと同じであることを確認した。 この研究は、変分量子アルゴリズムを、回路の設計に代えて、導関数に局所的に組み込むことで対称性に合わせるためのツールを提供する。

Symmetries are crucial for tailoring parametrized quantum circuits to applications, due to their capability to capture the essence of physical systems. In this work, we shift the focus away from incorporating symmetries in the circuit design and towards symmetry-aware training of variational quantum algorithms. For this, we introduce the concept of projected derivatives of parametrized quantum circuits, in particular the equivariant and covariant derivatives. We show that the covariant derivative gives rise to the quantum Fisher information and quantum natural gradient. This provides an operational meaning for the covariant derivative, and allows us to extend the quantum natural gradient to all continuous symmetry groups. Connecting to traditional particle physics, we confirm that our covariant derivative is the same as the one introduced in physical gauge theory. This work provides tools for tailoring variational quantum algorithms to symmetries by incorporating them locally in derivatives, rather than into the design of the circuit.
翻訳日:2023-12-13 18:22:24 公開日:2023-12-11
# Honeybee:マルチモーダルLDMの局所性向上プロジェクター

Honeybee: Locality-enhanced Projector for Multimodal LLM ( http://arxiv.org/abs/2312.06742v1 )

ライセンス: Link先を確認
Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh(参考訳) MLLM(Multimodal Large Language Models)では、学習済みの視覚エンコーダをLLMでブリッジする上で、視覚プロジェクタが重要な役割を果たす。 視覚プロジェクタの重要性にもかかわらず、比較的探索が進んでいない。 本研究では,まず2つの重要なプロジェクタ特性を同定する。 一 視覚トークンの個数管理の柔軟性、MLLMの全体的な効率に欠かせないこと、及び (ii)空間理解に欠かせない視覚特徴からの局所的文脈の保存 これらの結果に基づき, 2つの望ましい特性を効果的に満たし, 柔軟性と局所性を兼ね備えた新しいプロジェクタ設計を提案する。 さらに,複数の命令データセットを効果的に活用するための包括的戦略を提案する。 広範な実験を通じて,個々の設計選択の影響について検討する。 最後に,提案するMLLM,Honeybeeは,MME,MMBench,SEED-Bench,LLaVA-Benchなど,様々なベンチマークにおいて従来の最先端手法よりも優れ,高い効率を実現している。 コードとモデルはhttps://github.com/kakaobrain/honeybeeで入手できる。

In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.
翻訳日:2023-12-13 18:22:09 公開日:2023-12-11
# ガウス散乱SLAM

Gaussian Splatting SLAM ( http://arxiv.org/abs/2312.06741v1 )

ライセンス: Link先を確認
Hidenobu Matsuki, Riku Murai, Paul H.J. Kelly, Andrew J. Davison(参考訳) 移動単眼カメラとRGB-Dカメラを用いて3次元ガウススプラッティングをインクリメンタルな3次元再構成に適用した。 3fpsで動作する同時ローカライズ・マッピング(slam)法は,gaussianを唯一の3d表現として活用し,正確な,効率的なトラッキング,マッピング,高品質レンダリングのために必要な表現を統合する。 ライブカメラから高い忠実度で3dシーンを連続的に再構築するには、いくつかの革新が必要となる。 まず、オフラインのStructure from Motion (SfM)システムから正確なポーズを必要とする元の3DGSアルゴリズムを超えて、3Dガウスに対する直接最適化を用いて3DGSのカメラトラッキングを定式化し、より広範囲の収束で高速で堅牢なトラッキングを可能にすることを示す。 第二に,ガウスの明示的な性質を活かし,漸進的3次元濃密な再構築において生じる曖昧さに対処するために幾何学的検証と正規化を導入する。 最後に,新しい視点合成と軌道推定により最先端の成果を得られるだけでなく,小型で透明な物体の再構築も行うフルスラムシステムを提案する。

We present the first application of 3D Gaussian Splatting to incremental 3D reconstruction using a single moving monocular or RGB-D camera. Our Simultaneous Localisation and Mapping (SLAM) method, which runs live at 3fps, utilises Gaussians as the only 3D representation, unifying the required representation for accurate, efficient tracking, mapping, and high-quality rendering. Several innovations are required to continuously reconstruct 3D scenes with high fidelity from a live camera. First, to move beyond the original 3DGS algorithm, which requires accurate poses from an offline Structure from Motion (SfM) system, we formulate camera tracking for 3DGS using direct optimisation against the 3D Gaussians, and show that this enables fast and robust tracking with a wide basin of convergence. Second, by utilising the explicit nature of the Gaussians, we introduce geometric verification and regularisation to handle the ambiguities occurring in incremental 3D dense reconstruction. Finally, we introduce a full SLAM system which not only achieves state-of-the-art results in novel view synthesis and trajectory estimation, but also reconstruction of tiny and even transparent objects.
翻訳日:2023-12-13 18:21:47 公開日:2023-12-11
# MonoNPHM:モノクロビデオからの動的頭部再構成

MonoNPHM: Dynamic Head Reconstruction from Monocular Videos ( http://arxiv.org/abs/2312.06740v1 )

ライセンス: Link先を確認
Simon Giebenhain, Tobias Kirschstein, Markos Georgopoulos, Martin R\"unz, Lourdes Agapito, Matthias Nie{\ss}ner(参考訳) モノクラーRGBビデオからの動的3次元頭部再構成のためのモノクラーニューラルパラメトリックヘッドモデル(MonoNPHM)を提案する。 そこで本研究では,神経パラメトリックモデル上にテクスチャ場をパラメータ化する潜在外観空間を提案する。 我々は、RGBからの勾配が逆レンダリング中の潜時幾何学符号に効果的に影響を及ぼすような、下層の幾何学と相関する予測色値を制約する。 表現空間の表現能力を高めるために,超次元で後方変形場を拡大し,位相的に困難な表現における色や幾何学的表現を改善する。 先行学習としてMonoNPHMを用いて,符号付き距離場に基づくボリュームレンダリングを用いた3次元頭部再構成の課題にアプローチする。 後ろ向きの変形場を数値的に反転させることで,我々の正準幾何学的表現と密接な結びつきを持つ顔アンカーポイントを用いたランドマークロスを組み込んだ。 単眼RGBビデオからの動的顔再構成の課題を評価するために,カジュアル条件下でのKinectシークエンスを20個記録する。 MonoNPHMはすべてのベースラインを大きなマージンで上回り、RGBトラッキングを通じて容易にアクセス可能なニューラルパラメトリック顔モデルに向けた重要なステップとなる。

We present Monocular Neural Parametric Head Models (MonoNPHM) for dynamic 3D head reconstructions from monocular RGB videos. To this end, we propose a latent appearance space that parameterizes a texture field on top of a neural parametric model. We constrain predicted color values to be correlated with the underlying geometry such that gradients from RGB effectively influence latent geometry codes during inverse rendering. To increase the representational capacity of our expression space, we augment our backward deformation field with hyper-dimensions, thus improving color and geometry representation in topologically challenging expressions. Using MonoNPHM as a learned prior, we approach the task of 3D head reconstruction using signed distance field based volumetric rendering. By numerically inverting our backward deformation field, we incorporated a landmark loss using facial anchor points that are closely tied to our canonical geometry representation. To evaluate the task of dynamic face reconstruction from monocular RGB videos we record 20 challenging Kinect sequences under casual conditions. MonoNPHM outperforms all baselines with a significant margin, and makes an important step towards easily accessible neural parametric face models through RGB tracking.
翻訳日:2023-12-13 18:21:26 公開日:2023-12-11
# SmartEdit: マルチモーダル大言語モデルによる複雑な命令ベースの画像編集の探索

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models ( http://arxiv.org/abs/2312.06739v1 )

ライセンス: Link先を確認
Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, Ying Shan(参考訳) InstructPix2Pixのような現在の命令ベースの編集手法は、拡散モデルにおける単純なCLIPテキストエンコーダに依存しているため、複雑なシナリオで十分な結果が得られないことが多い。 そこで本稿では,マルチモーダル大言語モデル(multimodal large language model, mllms)を活用した命令ベースの画像編集手法であるsmarteditを提案する。 しかし、これらの要素の直接統合は、複雑な推論を必要とする状況において依然として課題に直面している。 これを軽減するために,入力画像とMLLM出力間の双方向情報包括的インタラクションを可能にする双方向インタラクションモジュールを提案する。 トレーニング中は、まず知覚データを組み込んで、拡散モデルの知覚と理解能力を高める。 続いて、より複雑な命令に対するSmartEditの編集機能を効果的に刺激できる、少量の複雑な命令編集データを実証する。 さらに、複雑な命令ベースの画像編集に適した新しい評価データセットReason-Editを構築した。 この評価データセットの定量的および定性的な結果から、我々のsmarteditは従来の手法を上回っており、複雑な命令ベースの画像編集の実用的応用への道筋を示している。

Current instruction-based editing methods, such as InstructPix2Pix, often fail to produce satisfactory results in complex scenarios due to their dependence on the simple CLIP text encoder in diffusion models. To rectify this, this paper introduces SmartEdit, a novel approach to instruction-based image editing that leverages Multimodal Large Language Models (MLLMs) to enhance their understanding and reasoning capabilities. However, direct integration of these elements still faces challenges in situations requiring complex reasoning. To mitigate this, we propose a Bidirectional Interaction Module that enables comprehensive bidirectional information interactions between the input image and the MLLM output. During training, we initially incorporate perception data to boost the perception and understanding capabilities of diffusion models. Subsequently, we demonstrate that a small amount of complex instruction editing data can effectively stimulate SmartEdit's editing capabilities for more complex instructions. We further construct a new evaluation dataset, Reason-Edit, specifically tailored for complex instruction-based image editing. Both quantitative and qualitative results on this evaluation dataset indicate that our SmartEdit surpasses previous methods, paving the way for the practical application of complex instruction-based image editing.
翻訳日:2023-12-13 18:21:06 公開日:2023-12-11
# InstructAny2Pix: マルチモーダルインストラクションによるフレキシブルなビジュアル編集

InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following ( http://arxiv.org/abs/2312.06738v1 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover(参考訳) 視覚画像の生成と編集のためのきめ細かい制御を提供する能力は、コンピュータビジョンとその応用に大きな影響を及ぼす。 以前の研究では、テキストベースのプロンプトによる命令チューニングとマルチモーダルコンディショニングという2つの方向の制御可能性の拡張を検討している。 しかし、これらの研究は、可制御性を表現するために使われる数および/またはモダリティ入力のタイプについて1つ以上の不自然な仮定を下している。 instructany2pixは,音声,画像,テキストを含む命令を用いて入力画像を編集可能な,柔軟なマルチモーダル命令追従システムである。 instructany2pixは3つのビルディングブロックで構成されており、画像やオーディオなどの異なるモダリティを統一された潜在空間にエンコードするマルチモーダルエンコーダ、この潜在空間の表現を画像にデコードすることを学ぶ拡散モデル、複数の画像やオーディオピースを含む命令を理解し、所望の出力の条件付き埋め込みを生成するマルチモーダルllmである。 さらに,学習効率の向上と生成品質の向上を図るため,LCM出力の視覚的品質を高めるための事前モジュールを付加する。 これらの設計はシステムの性能に極めて重要である。 本システムは,一連の新しい命令誘導編集タスクを実行できることを実証する。 コードはhttps://github.com/jacklishufan/instructany2pix.gitで入手できる。

The ability to provide fine-grained control for generating and editing visual imagery has profound implications for computer vision and its applications. Previous works have explored extending controllability in two directions: instruction tuning with text-based prompts and multi-modal conditioning. However, these works make one or more unnatural assumptions on the number and/or type of modality inputs used to express controllability. We propose InstructAny2Pix, a flexible multi-modal instruction-following system that enables users to edit an input image using instructions involving audio, images, and text. InstructAny2Pix consists of three building blocks that facilitate this capability: a multi-modal encoder that encodes different modalities such as images and audio into a unified latent space, a diffusion model that learns to decode representations in this latent space into images, and a multi-modal LLM that can understand instructions involving multiple images and audio pieces and generate a conditional embedding of the desired output, which can be used by the diffusion decoder. Additionally, to facilitate training efficiency and improve generation quality, we include an additional refinement prior module that enhances the visual quality of LLM outputs. These designs are critical to the performance of our system. We demonstrate that our system can perform a series of novel instruction-guided editing tasks. The code is available at https://github.com/jacklishufan/InstructAny2Pix.git
翻訳日:2023-12-13 18:20:46 公開日:2023-12-11
# SqueezeSAM: ユーザフレンドリーなモバイルインタラクティブセグメンテーション

SqueezeSAM: User friendly mobile interactive segmentation ( http://arxiv.org/abs/2312.06736v1 )

ライセンス: Link先を確認
Balakrishnan Varadarajan, Bilge Soran, Forrest Iandola, Xiaoyu Xiang, Yunyang Xiong, Chenchen Zhu, Raghuraman Krishnamoorthi, Vikas Chandra(参考訳) Segment Anything Model (SAM) はインタラクティブなセグメンテーションの基礎モデルであり、生成AI、計算写真、医療画像などの大きな進歩を触媒している。 このモデルは任意のユーザ入力を受け取り、対応するオブジェクトのセグメンテーションマスクを提供する。 写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。 オリジナルのSAMモデルは、この設定でいくつかの課題があります。 第一に、オリジナルのSAMはViT-Hに基づく6億のパラメータを持ち、その計算コストが高く、現在のモバイルハードウェアには適さない大きなモデルサイズである。 これは、50倍高速で、samより100倍小さいspuspersamモデルアーキテクチャを提案することで対処します。 次に、ユーザーが携帯電話で写真を撮ると、画像のクリックやマスクの取得は起こらないかもしれない。 私たちの解決策は、saient object detectionを使って最初の数クリックを生成することです。 これにより、ユーザがインタラクティブに編集できる最初のセグメンテーションマスクが生成される。 最後に、ユーザがオブジェクトをクリックすると、通常、関連するすべてのオブジェクトがセグメント化されることを期待します。 例えば、ユーザーが写真のTシャツをクリックすると、全体はセグメント化されますが、SAMは通常、Tシャツだけにセグメント化されます。 私たちは、新しいデータ拡張スキームでこの問題に対処し、最終的に、ユーザーがバスケットボールを持っている人をクリックすると、その人とバスケットボールがすべてセグメンテーションされる。

Segment Anything Model (SAM) is a foundation model for interactive segmentation, and it has catalyzed major advances in generative AI, computational photography, and medical imaging. This model takes in an arbitrary user input and provides segmentation masks of the corresponding objects. It is our goal to develop a version of SAM that is appropriate for use in a photography app. The original SAM model has a few challenges in this setting. First, original SAM a 600 million parameter based on ViT-H, and its high computational cost and large model size that are not suitable for todays mobile hardware. We address this by proposing the SqueezeSAM model architecture, which is 50x faster and 100x smaller than SAM. Next, when a user takes a photo on their phone, it might not occur to them to click on the image and get a mask. Our solution is to use salient object detection to generate the first few clicks. This produces an initial segmentation mask that the user can interactively edit. Finally, when a user clicks on an object, they typically expect all related pieces of the object to be segmented. For instance, if a user clicks on a person t-shirt in a photo, they expect the whole person to be segmented, but SAM typically segments just the t-shirt. We address this with a new data augmentation scheme, and the end result is that if the user clicks on a person holding a basketball, the person and the basketball are all segmented together.
翻訳日:2023-12-13 18:20:20 公開日:2023-12-11
# 医療時系列のマルチモーダルプリトレーニングとノート

Multimodal Pretraining of Medical Time Series and Notes ( http://arxiv.org/abs/2312.06855v1 )

ライセンス: Link先を確認
Ryan King, Tianbao Yang, Bobak Mortazavi(参考訳) 集中治療室(ICU)内では、臨床測定や臨床ノートを含む豊富な患者データが容易に入手できる。 このデータは、患者の健康を理解し、医療上の決定を伝える上で貴重なリソースであるが、分析の課題も数多く含まれている。 ディープラーニングモデルは有意義なパターンを抽出することには期待できるが、広範なラベル付きデータが必要である。 そこで本研究では,臨床計測とノートのアライメントに着目し,自己指導型事前学習を用いた新しいアプローチを提案する。 我々のアプローチは、事前訓練中に、コントラストとマスク付きトークン予測タスクを組み合わせる。 mimic-iiiデータセットにおける半教師付き実験は,自己教師付き事前学習の有効性を示す。 in-hospital death predictionやphenotypepingを含む下流タスクでは、トレーニング済みのモデルは、データのほんの一部しかラベル付けされていない設定でベースラインを上回っており、icuデータ分析を強化する能力を強調しています。 特に, 本手法は, 病院内死亡率0.17のauc-rocと, 1%のラベルしかアクセスできない場合の表現型化のauc-prの増加により, ラベルがほとんど使用できない状況において優れている。 この研究は、医療領域における自己教師型学習を推進し、豊富なICUデータから臨床知見を最適化する。

Within the intensive care unit (ICU), a wealth of patient data, including clinical measurements and clinical notes, is readily available. This data is a valuable resource for comprehending patient health and informing medical decisions, but it also contains many challenges in analysis. Deep learning models show promise in extracting meaningful patterns, but they require extensive labeled data, a challenge in critical care. To address this, we propose a novel approach employing self-supervised pretraining, focusing on the alignment of clinical measurements and notes. Our approach combines contrastive and masked token prediction tasks during pretraining. Semi-supervised experiments on the MIMIC-III dataset demonstrate the effectiveness of our self-supervised pretraining. In downstream tasks, including in-hospital mortality prediction and phenotyping, our pretrained model outperforms baselines in settings where only a fraction of the data is labeled, emphasizing its ability to enhance ICU data analysis. Notably, our method excels in situations where very few labels are available, as evidenced by an increase in the AUC-ROC for in-hospital mortality by 0.17 and in AUC-PR for phenotyping by 0.1 when only 1% of labels are accessible. This work advances self-supervised learning in the healthcare domain, optimizing clinical insights from abundant yet challenging ICU data.
翻訳日:2023-12-13 18:13:43 公開日:2023-12-11
# 自己教師付き機械学習による軌道モデリングの宇宙交通管理への応用

Self-supervised Machine Learning Based Approach to Orbit Modelling Applied to Space Traffic Management ( http://arxiv.org/abs/2312.06854v1 )

ライセンス: Link先を確認
Emma Stevenson, Victor Rodriguez-Fernandez, Hodei Urrutxua, Vincent Morand, David Camacho(参考訳) 本稿では,事前学習軌道モデルを用いて,機械学習に基づく空間交通管理タスクの性能向上のための新しい手法を提案する。 自然言語処理分野におけるBERTのような自己教師型言語モデルからインスピレーションを得て、ORBERTを導入し、そのようなモデルが大量の利用可能な軌道データを活用して、下流のタスクに役立つ有意義な表現を学習できることを実証する。 このアプローチの概念の実証として、ここでは機械学習時系列分類タスクと表現される、すべての共同スクリーニングのタスクについて検討する。 提案手法は,ラベルなしの軌道データを利用することで性能が向上し,ラベル付きデータの可用性が制限されたタスクに特に有用であることを示す。

This paper presents a novel methodology for improving the performance of machine learning based space traffic management tasks through the use of a pre-trained orbit model. Taking inspiration from BERT-like self-supervised language models in the field of natural language processing, we introduce ORBERT, and demonstrate the ability of such a model to leverage large quantities of readily available orbit data to learn meaningful representations that can be used to aid in downstream tasks. As a proof of concept of this approach we consider the task of all vs. all conjunction screening, phrased here as a machine learning time series classification task. We show that leveraging unlabelled orbit data leads to improved performance, and that the proposed approach can be particularly beneficial for tasks where the availability of labelled data is limited.
翻訳日:2023-12-13 18:13:19 公開日:2023-12-11
# LLF-Bench: 言語フィードバックからの対話型学習のためのベンチマーク

LLF-Bench: Benchmark for Interactive Learning from Language Feedback ( http://arxiv.org/abs/2312.06853v1 )

ライセンス: Link先を確認
Ching-An Cheng, Andrey Kolobov, Dipendra Misra, Allen Nie, Adith Swaminathan(参考訳) 我々は,aiエージェントが自然言語からのフィードバックや指示から対話的に学習する能力を評価するために,新しいベンチマークであるllf-bench(learning from language feedback benchmark; elf-bench)を導入する。 言語フィードバック(LLF)からの学習は、主に、このフィードバックが提供する豊富な情報が、学習者が試行錯誤の多くを回避し、学習プロセスのスピードアップに役立つため、人々にとって不可欠である。 大規模言語モデル(LLM)は、最近、AIエージェントが自然言語を理解することを可能にした。 しかし、既存のインタラクティブなベンチマークは、この重要な能力を評価していない: 数値的な報酬フィードバックを使うか、(計画や情報検索のみ)学習を全く必要としない。 LLF-Benchはこの省略を埋めるように設計されている。 LLF-Benchは、ユーザの推薦、詩の執筆、ナビゲーション、ロボット制御を含む、シーケンシャルな意思決定タスクのコレクションである。 エージェントの目的は、自然言語の指示と行動後のフィードバックに基づいて、これらのタスクを対話的に解決することである。 重要なことに、エージェントがフィードバックから実際に「学習する」ことを保証するため、LLF-Benchは、タスクがエージェントに馴染みがなく、エージェントが様々な言語化に対して堅牢であることを保証するために、いくつかのランダム化手法(パラフレーズや環境ランダム化など)を実装している。 さらに、LLF-Benchは、すべてのタスクに対して統一されたOpenAI Gymインターフェースを提供し、フィードバックが伝達する情報(提案、説明、即時的なパフォーマンス)を簡単に設定して、エージェントが異なるタイプのフィードバックにどのように反応するかを研究することができる。 これらの機能により、LLF-BenchはLLFエージェントの開発とテストのためのユニークな研究プラットフォームとなる。

We introduce a new benchmark, LLF-Bench (Learning from Language Feedback Benchmark; pronounced as "elf-bench"), to evaluate the ability of AI agents to interactively learn from natural language feedback and instructions. Learning from language feedback (LLF) is essential for people, largely because the rich information this feedback provides can help a learner avoid much of trial and error and thereby speed up the learning process. Large Language Models (LLMs) have recently enabled AI agents to comprehend natural language -- and hence AI agents can potentially benefit from language feedback during learning like humans do. But existing interactive benchmarks do not assess this crucial capability: they either use numeric reward feedback or require no learning at all (only planning or information retrieval). LLF-Bench is designed to fill this omission. LLF-Bench is a diverse collection of sequential decision-making tasks that includes user recommendation, poem writing, navigation, and robot control. The objective of an agent is to interactively solve these tasks based on their natural-language instructions and the feedback received after taking actions. Crucially, to ensure that the agent actually "learns" from the feedback, LLF-Bench implements several randomization techniques (such as paraphrasing and environment randomization) to ensure that the task isn't familiar to the agent and that the agent is robust to various verbalizations. In addition, LLF-Bench provides a unified OpenAI Gym interface for all its tasks and allows the users to easily configure the information the feedback conveys (among suggestion, explanation, and instantaneous performance) to study how agents respond to different types of feedback. Together, these features make LLF-Bench a unique research platform for developing and testing LLF agents.
翻訳日:2023-12-13 18:12:40 公開日:2023-12-11
# ndels: 夜間の消光、低光度エンハンスメント、光抑制のための新しいアプローチ

NDELS: A Novel Approach for Nighttime Dehazing, Low-Light Enhancement, and Light Suppression ( http://arxiv.org/abs/2312.06850v1 )

ライセンス: Link先を確認
Silvano A. Bernabel and Sos S. Agaian(参考訳) 本論文は,夜間の夜間画像の品質向上にむけての課題である。 均一でない照明、テクスチャのぼかし、光の効果、色歪み、ノイズ障害、そして全体的な低照度といった課題が解決された。 固有の困難にもかかわらず,本論文ではNighttime Dehazing, Low-Light Enhancement, Light Suppression (NDELS) という先駆的なソリューションを導入する。 NDELSは3つの重要なプロセスを組み合わせて可視性を高め、低照度領域を明るくし、明るい光源からのグレアを効果的に抑制する。 夜間デハジングの進行が限られているのとは対照的に、NDELSは夜間デハジングと異なり、包括的で革新的なアプローチを提示する。 NDELSの有効性は、4つの多様なデータセットにわたる8つの最先端アルゴリズムとの広範な比較を通じて厳密に検証されている。 実験の結果,色やエッジの強化など,画像の全体的な品質の面で,優れた性能を示すことができた。 定量(PSNR, SSIM)および定性的指標(CLIPIQA, MANIQA, TRES)はこれらの結果を測定する。

This paper tackles the intricate challenge of improving the quality of nighttime images under hazy and low-light conditions. Overcoming issues including nonuniform illumination glows, texture blurring, glow effects, color distortion, noise disturbance, and overall, low light have proven daunting. Despite the inherent difficulties, this paper introduces a pioneering solution named Nighttime Dehazing, Low-Light Enhancement, and Light Suppression (NDELS). NDELS utilizes a unique network that combines three essential processes to enhance visibility, brighten low-light regions, and effectively suppress glare from bright light sources. In contrast to limited progress in nighttime dehazing, unlike its daytime counterpart, NDELS presents a comprehensive and innovative approach. The efficacy of NDELS is rigorously validated through extensive comparisons with eight state-of-the-art algorithms across four diverse datasets. Experimental results showcase the superior performance of our method, demonstrating its outperformance in terms of overall image quality, including color and edge enhancement. Quantitative (PSNR, SSIM) and qualitative metrics (CLIPIQA, MANIQA, TRES), measure these results.
翻訳日:2023-12-13 18:12:07 公開日:2023-12-11
# memorais:光学的文字認識と規則に基づく薬剤摂取リマインダー生成ソリューション

memorAIs: an Optical Character Recognition and Rule-Based Medication Intake Reminder-Generating Solution ( http://arxiv.org/abs/2312.06841v1 )

ライセンス: Link先を確認
Eden Shaveet, Utkarsh Singh, Nicholas Assaderaghi, Maximo Librandi(参考訳) メモリベースの薬物非依存は未解決の問題であり、米国では病気の重荷を負う。 デジタル医薬品の摂取を最小限に抑えたリマインダーソリューションは、人々が薬を飲んだことを思い出すための障壁の低い方法を提供することで、この問題を軽減するのに役立つかもしれない。 本稿では,医薬品ボトルからのテキスト抽出のための光学的文字認識戦略とテキスト処理のための規則に基づく表現を活用し,局所的なデバイスカレンダー招待として設定された薬剤リマインダーを作成することで,乗車摩擦を軽減するデジタル医薬品摂取リマインダーソリューションであるmemoraisを提案する。 我々は、イデオレーションと開発プロセス、および現在の実装の制限について説明する。 MemorAIsは、ピッツバーグ地域医療イニシアチブが主催する、患者安全技術チャレンジが主催する2023年のコロンビア大学DivHacks Hackathonで、患者安全賞の受賞者となった。

Memory-based medication non-adherence is an unsolved problem that is responsible for considerable disease burden in the United States. Digital medication intake reminder solutions with minimal onboarding requirements that are usable at the point of medication acquisition may help to alleviate this problem by offering a low barrier way to help people remember to take their medications. In this paper, we propose memorAIs, a digital medication intake reminder solution that mitigates onboarding friction by leveraging optical character recognition strategies for text extraction from medication bottles and rule based expressions for text processing to create configured medication reminders as local device calendar invitations. We describe our ideation and development process, as well as limitations of the current implementation. memorAIs was the winner of the Patient Safety award at the 2023 Columbia University DivHacks Hackathon, presented by the Patient Safety Technology Challenge, sponsored by the Pittsburgh Regional Health Initiative.
翻訳日:2023-12-13 18:11:46 公開日:2023-12-11
# スペクトル状態空間モデル

Spectral State Space Models ( http://arxiv.org/abs/2312.06837v1 )

ライセンス: Link先を確認
Naman Agarwal, Daniel Suo, Xinyi Chen, Elad Hazan(参考訳) 本稿では,長距離依存型予測タスクのシーケンスモデリングについて検討する。 スペクトルフィルタリングアルゴリズム(HSZ17)を用いた線形力学系の学習に基づく状態空間モデルの新しい定式化を提案する。 これにより、スペクトル状態空間モデルと呼ばれる新しいシーケンス予測アーキテクチャが生まれます。 得られたモデルは合成力学系で評価される。 これらの評価は、非常に長いメモリを必要とするタスクに対するスペクトルフィルタリングの理論的利点を支持する。

This paper studies sequence modeling for prediction tasks with long range dependencies. We propose a new formulation for state space models based on learning linear dynamical systems with the spectral filtering algorithm [HSZ17]. This gives rise to a novel sequence prediction architecture we call spectral state space models. The resulting models are evaluated on synthetic dynamical systems. These evaluations support the theoretical benefits of spectral filtering for tasks requiring very long range memory.
翻訳日:2023-12-13 18:11:26 公開日:2023-12-11
# 新しい国に一般化するAI CADeポリプ検出器の理にかなわない効果

The unreasonable effectiveness of AI CADe polyp detectors to generalize to new countries ( http://arxiv.org/abs/2312.06833v1 )

ライセンス: Link先を確認
Joel Shor, Hiro-o Yamano, Daisuke Tsurumaru, Yotami Intrator, Hiroki Kayama, Joe Ledsam, Atsushi Hamabe, Koji Ando, Mitsuhiko Ota, Haruei Ogino, Hiroshi Nakase, Kaho Kobayashi, Eiji Oki, Roman Goldenberg, Ehud Rivlin, Ichiro Takemasa(参考訳) $\textbf{Background and aim}$: Artificial Intelligence (AI) Computer-Aided Detection (CADe) は一般的にポリープ検出に使用されるが、臨床設定で見られるデータはモデルトレーニングとは異なる場合がある。 CADe検出器がトレーニング中に見られていない国々の大腸内視鏡にどの程度効果があるかを評価する研究はほとんどなく、高価で時間を要するラベルを収集することなく性能を評価することはできない。 イスラエルの大腸内視鏡ビデオ(5004本、1106時間)でCADeポリープ検出装置を訓練し、日本の動画(354本、128時間)で1分あたりの真陽性率(TPR)と偽アラーム(FAPM)を測定した。 大腸内視鏡検査の異同度尺度であるmace(masked medical embedded distance)を施行し,大腸内視鏡検査を施行した。 本研究は,全日本動画および最も高いMACE動画でCADeを評価した。 $\textbf{Results}$: MACEは、狭帯域イメージング(NBI)とクロモエンドスコープ(CE)フレームが日本のホワイトライト(bootstrapped z-test, |z| > 690, p < 10^{-8}$)よりもイスラエルのデータに似ていないことを正確に定量化する。 このデータの違いにもかかわらず、日本におけるコロンコピーのCADの成績は、追加訓練を伴わないイスラエルの成績(0.5 FAPM:0.957と0.972、1.0 FAPM:0.972と0.989、優越試験 t > 45.2, p < 10^{-8}$)には劣っていた。 NBIやCEで訓練を受けていないにもかかわらず、これらのサブセットのTPRは日本全体の非劣等試験である(非劣等試験 t > 47.3, p < 10^{-8}$, $\delta$ = 1.5%)。 $\textbf{Conclusion}$: 医療的でない環境でCADe検出器が正常に動作することを防ぐ差異は、新しい国のデータに適用した場合、私たちのAI CADeポリプ検出器のパフォーマンスを低下させません。 MACEは、モデルを評価する上で最も「異なる」データを特定することで、医療AIモデルを国際化するのに役立つ。

$\textbf{Background and aims}$: Artificial Intelligence (AI) Computer-Aided Detection (CADe) is commonly used for polyp detection, but data seen in clinical settings can differ from model training. Few studies evaluate how well CADe detectors perform on colonoscopies from countries not seen during training, and none are able to evaluate performance without collecting expensive and time-intensive labels. $\textbf{Methods}$: We trained a CADe polyp detector on Israeli colonoscopy videos (5004 videos, 1106 hours) and evaluated on Japanese videos (354 videos, 128 hours) by measuring the True Positive Rate (TPR) versus false alarms per minute (FAPM). We introduce a colonoscopy dissimilarity measure called "MAsked mediCal Embedding Distance" (MACE) to quantify differences between colonoscopies, without labels. We evaluated CADe on all Japan videos and on those with the highest MACE. $\textbf{Results}$: MACE correctly quantifies that narrow-band imaging (NBI) and chromoendoscopy (CE) frames are less similar to Israel data than Japan whitelight (bootstrapped z-test, |z| > 690, p < $10^{-8}$ for both). Despite differences in the data, CADe performance on Japan colonoscopies was non-inferior to Israel ones without additional training (TPR at 0.5 FAPM: 0.957 and 0.972 for Israel and Japan; TPR at 1.0 FAPM: 0.972 and 0.989 for Israel and Japan; superiority test t > 45.2, p < $10^{-8}$). Despite not being trained on NBI or CE, TPR on those subsets were non-inferior to Japan overall (non-inferiority test t > 47.3, p < $10^{-8}$, $\delta$ = 1.5% for both). $\textbf{Conclusion}$: Differences that prevent CADe detectors from performing well in non-medical settings do not degrade the performance of our AI CADe polyp detector when applied to data from a new country. MACE can help medical AI models internationalize by identifying the most "dissimilar" data on which to evaluate models.
翻訳日:2023-12-13 18:11:20 公開日:2023-12-11
# 物体・解剖学的推論のための潜時空間グラフとしての手術映像の符号化

Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and Anatomy-Driven Reasoning ( http://arxiv.org/abs/2312.06829v1 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy(参考訳) 近年,ビデオクリップをオブジェクト中心で表現する簡潔でエレガントな方法として時空間グラフが登場し,アクション認識などの下流作業に有用であることが示されている。 本研究は, 解剖学的構造とツール, 経時的変化について, 外科的ビデオの表現に潜時時空間グラフを用いた場合について検討する。 まず,事前学習モデルを用いてフレームワイズグラフを予測し,空間的コヒーレンスと視覚的・意味的類似性に基づいてノード間の時間的エッジを追加する。 従来のアプローチとは異なり,手術場面の進化をモデル化し,一時的咬合に対するロバスト性を高めるために,長期的時間的エッジをグラフに組み込む。 また,従来の知識と時間的コヒーレンスを取り入れたグラフ編集モジュールを導入して,グラフの誤りを訂正し,下流タスクのパフォーマンスを向上させる。 グラフ表現を用いて,安全予測の批判的視点と外科的位相認識の2つの下流タスクを評価し,学習した表現の質と柔軟性を示す強力な結果を得た。 コードはgithub.com/CAMMA-public/SurgLatentGraphで入手できる。

Recently, spatiotemporal graphs have emerged as a concise and elegant manner of representing video clips in an object-centric fashion, and have shown to be useful for downstream tasks such as action recognition. In this work, we investigate the use of latent spatiotemporal graphs to represent a surgical video in terms of the constituent anatomical structures and tools and their evolving properties over time. To build the graphs, we first predict frame-wise graphs using a pre-trained model, then add temporal edges between nodes based on spatial coherence and visual and semantic similarity. Unlike previous approaches, we incorporate long-term temporal edges in our graphs to better model the evolution of the surgical scene and increase robustness to temporary occlusions. We also introduce a novel graph-editing module that incorporates prior knowledge and temporal coherence to correct errors in the graph, enabling improved downstream task performance. Using our graph representations, we evaluate two downstream tasks, critical view of safety prediction and surgical phase recognition, obtaining strong results that demonstrate the quality and flexibility of the learned representations. Code is available at github.com/CAMMA-public/SurgLatentGraph.
翻訳日:2023-12-13 18:10:03 公開日:2023-12-11
# 壊れたエルボをリセットする

Resetting a fixed broken ELBO ( http://arxiv.org/abs/2312.06828v1 )

ライセンス: Link先を確認
Robert I. Cukier(参考訳) 変分オートエンコーダ(VAEs)は、既知のデータに基づく推論のために設計された生成確率潜在変数モデルの一種である。 彼らは再建と正規化の条件のバランスをとる。 変分近似はエビデンス下限(elbo)を生成する。 ベータで正規化子項を乗算すると、β-VAE/ELBOが提供され、潜在空間のゆがみが改善される。 しかし、ユニティとは異なるベータ値は条件付き確率の法則に違反する。 同様にパラメータ化されたVAEを提供するために、同様のパラメータを導入したRenyiエントロピーVAEと変分近似RELBOを開発した。 Renyi VAEは、学習されていない条件分布を持つRenyi regularizerのような追加の項を持つ。 この用語は特異値分解法を用いて本質的に解析的に評価される。

Variational autoencoders (VAEs) are one class of generative probabilistic latent-variable models designed for inference based on known data. They balance reconstruction and regularizer terms. A variational approximation produces an evidence lower bound (ELBO). Multiplying the regularizer term by beta provides a beta-VAE/ELBO, improving disentanglement of the latent space. However, any beta value different than unity violates the laws of conditional probability. To provide a similarly-parameterized VAE, we develop a Renyi (versus Shannon) entropy VAE, and a variational approximation RELBO that introduces a similar parameter. The Renyi VAE has an additional Renyi regularizer-like term with a conditional distribution that is not learned. The term is evaluated essentially analytically using a Singular Value Decomposition method.
翻訳日:2023-12-13 18:09:42 公開日:2023-12-11
# ユーザフレンドリーで適応可能な識別ai: llmと画像生成モデルの成功から学んだこと

User Friendly and Adaptable Discriminative AI: Using the Lessons from the Success of LLMs and Image Generation Models ( http://arxiv.org/abs/2312.06826v1 )

ライセンス: Link先を確認
Son The Nguyen, Theja Tulabandhula, Mary Beth Watson-Manheim(参考訳) 特定のMLアプリケーションの汎用モデルとして生成AIツールを使用することに大きな関心があるが、差別モデルは現在より広くデプロイされている。 既にデプロイされているこれらの差別的AIツールの重要な欠点の1つは、生成的AIツール(例えば、GPT4、安定拡散、バードなど)と比較して適応可能でユーザフレンドリでないことである。 この新たなコラボレーティブワークフローにインスパイアされた私たちは,生成型AIツールと同じような方法で,識別モデル(オブジェクト検出や感情分類など)を扱うことのできる,新たなシステムアーキテクチャを開発しました。 このアプローチは、信頼度、ユーザフレンドリー性、およびこれら多彩だが従来の予測モデルの適応性の向上に影響を与えます。

While there is significant interest in using generative AI tools as general-purpose models for specific ML applications, discriminative models are much more widely deployed currently. One of the key shortcomings of these discriminative AI tools that have been already deployed is that they are not adaptable and user-friendly compared to generative AI tools (e.g., GPT4, Stable Diffusion, Bard, etc.), where a non-expert user can iteratively refine model inputs and give real-time feedback that can be accounted for immediately, allowing users to build trust from the start. Inspired by this emerging collaborative workflow, we develop a new system architecture that enables users to work with discriminative models (such as for object detection, sentiment classification, etc.) in a fashion similar to generative AI tools, where they can easily provide immediate feedback as well as adapt the deployed models as desired. Our approach has implications on improving trust, user-friendliness, and adaptability of these versatile but traditional prediction models.
翻訳日:2023-12-13 18:09:28 公開日:2023-12-11
# ヒューマン・ロボットインタラクションの授業における非言語行動とソーシャル・ゲイズの利用

Utilization of Non-verbal Behaviour and Social Gaze in Classroom Human-Robot Interaction Communications ( http://arxiv.org/abs/2312.06825v1 )

ライセンス: Link先を確認
Sahand Shaghaghi, Pourya Aliasghari, Bryan Tripp, Kerstin Dautenhahn, Chrystopher Nehaniv(参考訳) この要約は、よりシームレスな社会的相互作用を促進するために、ロボット認知アーキテクチャにおける人間にインスパイアされた社会的視線モデルの適応に焦点を当てたヒューマンロボットインタラクション(HRI)シナリオを探索する。 まず,本研究で検討したHRIシナリオについて述べるとともに,本研究で活用する社会的視線モデルについて述べる。 教室におけるHRIシナリオにおいて,このような注意モデルを活用する利点を強調した。 また、この社会的視線モデルに関する今後の研究の目的についても詳述する。

This abstract explores classroom Human-Robot Interaction (HRI) scenarios with an emphasis on the adaptation of human-inspired social gaze models in robot cognitive architecture to facilitate a more seamless social interaction. First, we detail the HRI scenarios explored by us in our studies followed by a description of the social gaze model utilized for our research. We highlight the advantages of utilizing such an attentional model in classroom HRI scenarios. We also detail the intended goals of our upcoming study involving this social gaze model.
翻訳日:2023-12-13 18:09:11 公開日:2023-12-11
# LLMとインコンテクスト学習によるユーザフィードバックからの自己矛盾因果関係の抽出

Extracting Self-Consistent Causal Insights from Users Feedback with LLMs and In-context Learning ( http://arxiv.org/abs/2312.06820v1 )

ライセンス: Link先を確認
Sara Abdali, Anjali Parikh, Steve Lim, Emre Kiciman(参考訳) Microsoft Windows Feedback Hubは、パワーやバッテリなどの重要なトピックを含む、幅広い分野の顧客からのフィードバックを受け取るように設計されている。 フィードバックは、Windowsとそのエコシステムにおけるユーザの経験を把握するための最も効果的な方法の1つです。 しかし、Feedback Hubが受け取った大量のフィードバックは、報告された問題の実際の原因を診断することを非常に困難にしている。 そこで我々はDouble Machine Learning(DML)を利用してユーザのフィードバックをテレメトリ信号に関連付ける。 DMLパイプラインで直面する大きな課題のひとつは、モデル設計のためのドメイン知識(例えば、因果グラフ)の必要性です。 本研究では,大規模言語モデル(llms)における推論能力を活用して,ある程度の知識不足を補い,フィードバック情報量を測定するためのヒューリスティックとして使用できる先行モデルを生成する。 LLMベースのアプローチでは、既知の問題を抽出し、新しいバグを発見し、バグにつながるイベントのシーケンスを特定し、ドメイン外のアウトプットを最小化できます。

Microsoft Windows Feedback Hub is designed to receive customer feedback on a wide variety of subjects including critical topics such as power and battery. Feedback is one of the most effective ways to have a grasp of users' experience with Windows and its ecosystem. However, the sheer volume of feedback received by Feedback Hub makes it immensely challenging to diagnose the actual cause of reported issues. To better understand and triage issues, we leverage Double Machine Learning (DML) to associate users' feedback with telemetry signals. One of the main challenges we face in the DML pipeline is the necessity of domain knowledge for model design (e.g., causal graph), which sometimes is either not available or hard to obtain. In this work, we take advantage of reasoning capabilities in Large Language Models (LLMs) to generate a prior model that which to some extent compensates for the lack of domain knowledge and could be used as a heuristic for measuring feedback informativeness. Our LLM-based approach is able to extract previously known issues, uncover new bugs, and identify sequences of events that lead to a bug, while minimizing out-of-domain outputs.
翻訳日:2023-12-13 18:09:02 公開日:2023-12-11
# 量子から古典的キャビティ化学電気力学

Quantum to Classical Cavity Chemistry Electrodynamics ( http://arxiv.org/abs/2312.06815v1 )

ライセンス: Link先を確認
Leonardo F. Calder\'on, Humberto Trivi\~no, Leonardo A. Pach\'on(参考訳) ポラリトニック化学は分子動力学を制御するための新しい道を開いた。 しかし、2つの重要な疑問が残る。 (i)古典光源は、特定の量子光源と同じ効果を分子系に与えることができるか? (ii)光・物質相互作用の半古典的処理は分子動力学で観察される非自明な量子効果を捉えることができるか? この研究は、空洞化学効果を実際の空洞なしに実現するための量子古典的アプローチを示す。 また、標準の半古典的な光間相互作用の限界も強調している。 古典光源は, 平均場寄与, 対称性付き2時間相関関数, 線形応答関数が, どちらの状況においても同一であることから, 光-物質相互作用の2階まで量子効果を模倣できることを示した。 数値シミュレーションにより、量子古典法は、従来の半古典的アプローチよりも、フォック状態、フォック状態の重ね合わせ、真空圧縮状態といった量子光状態の正確な量子分子のみのダイナミクスとより密接に一致することが示されている。

Polaritonic chemistry has ushered in new avenues for controlling molecular dynamics. However, two key questions remain: (i) Can classical light sources elicit the same effects as certain quantum light sources on molecular systems? (ii) Can semiclassical treatments of light-matter interaction capture nontrivial quantum effects observed in molecular dynamics? This work presents a quantum-classical approach addressing issues of realizing cavity chemistry effects without actual cavities. It also highlights the limitations of the standard semiclassical light-matter interaction. It is demonstrated that classical light sources can mimic quantum effects up to the second order of light-matter interaction, provided that the mean-field contribution, symmetrized two-time correlation function, and the linear response function are the same in both situations. Numerical simulations show that the quantum-classical method aligns more closely with exact quantum molecular-only dynamics for quantum light states such as Fock states, superpositions of Fock states, and vacuum squeezed states than the conventional semiclassical approach.
翻訳日:2023-12-13 18:08:42 公開日:2023-12-11
# システムレベルセーフティーガード:不確実性ニューラルネットワークダイナミクスモデルによる安全トラッキング制御

System-level Safety Guard: Safe Tracking Control through Uncertain Neural Network Dynamics Models ( http://arxiv.org/abs/2312.06810v1 )

ライセンス: Link先を確認
Xiao Li, Yutong Li, Anouck Girard, Ilya Kolmanovsky(参考訳) ニューラルネットワーク(NN)はブラックボックス関数近似器として多くの制御やロボット工学の応用において検討されている。 しかしながら、不確実性の存在下でシステム全体の安全性を検証することの難しさは、安全クリティカルシステムにおけるnnのモジュール配置を妨げる。 本稿では,未知力学系の軌道追跡のための予測モデルとしてnnsを活用する。 我々は,本質的な不確実性と他のシステムモジュールからの不確実性の両方が存在する場合のコントローラ設計を考察する。 本稿では,制約付き軌道追跡問題を定式化し,MILP(Mixed-integer Linear Programming)を用いて解けることを示す。 提案したMILPベースのソリューションは,システム全体の安全性を保証し,シミュレーションによるロボットナビゲーションと障害物回避を実証的に実証する。 デモビデオはhttps://xiaolisean.github.io/publication/2023-11-01-L4DC2024で公開されている。

The Neural Network (NN), as a black-box function approximator, has been considered in many control and robotics applications. However, difficulties in verifying the overall system safety in the presence of uncertainties hinder the modular deployment of NN in safety-critical systems. In this paper, we leverage the NNs as predictive models for trajectory tracking of unknown dynamical systems. We consider controller design in the presence of both intrinsic uncertainty and uncertainties from other system modules. In this setting, we formulate the constrained trajectory tracking problem and show that it can be solved using Mixed-integer Linear Programming (MILP). The proposed MILP-based solution enjoys a provable safety guarantee for the overall system, and the approach is empirically demonstrated in robot navigation and obstacle avoidance through simulations. The demonstration videos are available at https://xiaolisean.github.io/publication/2023-11-01-L4DC2024.
翻訳日:2023-12-13 18:08:25 公開日:2023-12-11
# ニューラルネットワークの学習段階の理解と活用

Understanding and Leveraging the Learning Phases of Neural Networks ( http://arxiv.org/abs/2312.06887v1 )

ライセンス: Link先を確認
Johannes Schneider and Mohit Prabhushanka(参考訳) 深層ニューラルネットワークの学習力学はよく理解されていない。 情報ボトルネック(IB)理論は、別々のフィッティングと圧縮フェーズを宣言した。 しかしその後、議論が激しくなった。 学習中のパラメータの進化に基づいて、入力および予測性能の層再構成能力を調査し、学習ダイナミクスを総合的に解析する。 ResNetやVGGといった共通データセットやアーキテクチャを使って,3つのフェーズの存在を実証的に示す。 (i) ほぼ一定の再建損失 (ii)減少、及び (iii)増加。 また,経験的接地データモデルを導出し,単層ネットワークにおける位相の存在を証明する。 技術的には、我々のアプローチは古典的複雑性分析を利用する。 IBとの違いは、中間層や入力に関する情報を関連付ける情報理論ではなく、再構成損失を測定することである。 我々の研究は、トランスファーラーニングの新たなベストプラクティスを示唆している:我々は、分類器の事前学習が、その性能が最適になる前に、うまく止まることを実証的に示している。

The learning dynamics of deep neural networks are not well understood. The information bottleneck (IB) theory proclaimed separate fitting and compression phases. But they have since been heavily debated. We comprehensively analyze the learning dynamics by investigating a layer's reconstruction ability of the input and prediction performance based on the evolution of parameters during training. We empirically show the existence of three phases using common datasets and architectures such as ResNet and VGG: (i) near constant reconstruction loss, (ii) decrease, and (iii) increase. We also derive an empirically grounded data model and prove the existence of phases for single-layer networks. Technically, our approach leverages classical complexity analysis. It differs from IB by relying on measuring reconstruction loss rather than information theoretic measures to relate information of intermediate layers and inputs. Our work implies a new best practice for transfer learning: We show empirically that the pre-training of a classifier should stop well before its performance is optimal.
翻訳日:2023-12-13 18:01:28 公開日:2023-12-11
# Relightful Harmonization: 照明を意識した背景のリプレース

Relightful Harmonization: Lighting-aware Portrait Background Replacement ( http://arxiv.org/abs/2312.06886v1 )

ライセンス: Link先を確認
Mengwei Ren, Wei Xiong, Jae Shin Yoon, Zhixin Shu, Jianming Zhang, HyunJoon Jung, Guido Gerig, He Zhang(参考訳) ポートレート調和は、被写体を新しい背景に合成し、背景との調和を確保するために照明と色を調整することを目的としている。 既存の調和技法は前景のグローバル色や明るさの調整にのみ焦点を合わせ、背景から明るみの方向のような重要な照明の手がかりを無視し、非現実的な構成に繋がることが多い。 背景画像を用いた背景像に対する高度な照明効果をシームレスに調和させるライティング対応拡散モデルであるRelightful Harmonizationを導入する。 私たちのアプローチは3段階に展開する。 まず,対象画像背景からの照明情報を拡散モデルでエンコードできる照明表現モジュールを提案する。 次に,風景照明の完全な表現であるパノラマ環境マップから学習した照明特徴と,背景から学習した照明特徴を整合するアライメントネットワークを提案する。 最後に,提案手法の光現実性をさらに向上するために,様々な自然画像から合成訓練ペアを生成する新しいデータシミュレーションパイプラインを導入する。 提案手法は,実世界のテストシナリオにおいて優れた一般化を示し,その汎用性と実用性を強調する,視覚忠実性と照明コヒーレンスにおける既存のベンチマークを上回っている。

Portrait harmonization aims to composite a subject into a new background, adjusting its lighting and color to ensure harmony with the background scene. Existing harmonization techniques often only focus on adjusting the global color and brightness of the foreground and ignore crucial illumination cues from the background such as apparent lighting direction, leading to unrealistic compositions. We introduce Relightful Harmonization, a lighting-aware diffusion model designed to seamlessly harmonize sophisticated lighting effect for the foreground portrait using any background image. Our approach unfolds in three stages. First, we introduce a lighting representation module that allows our diffusion model to encode lighting information from target image background. Second, we introduce an alignment network that aligns lighting features learned from image background with lighting features learned from panorama environment maps, which is a complete representation for scene illumination. Last, to further boost the photorealism of the proposed method, we introduce a novel data simulation pipeline that generates synthetic training pairs from a diverse range of natural images, which are used to refine the model. Our method outperforms existing benchmarks in visual fidelity and lighting coherence, showing superior generalization in real-world testing scenarios, highlighting its versatility and practicality.
翻訳日:2023-12-13 18:01:14 公開日:2023-12-11
# dyad: 線形ニューラルネットワーク層に対する密度効率のよい近似

DYAD: A Descriptive Yet Abjuring Density efficient approximation to linear neural network layers ( http://arxiv.org/abs/2312.06881v1 )

ライセンス: Link先を確認
Sarin Chandy, Varun Gangal, Yi Yang, Gabriel Maggiotti(参考訳) 我々は、線形層(Pytorchのnn.Linear())の高速でメモリ効率の良い近似置換として機能するDYADを考案し、実装し、性能評価する。 これらの層は、トランスフォーマーのffモジュールのように、共通のサブコンポーネントに現れる。 dyad は、そのような層、すなわち密度層(英語版)の典型的な実現において、行列が入力を乗算する密度の「重み」行列 w を近似するbespoke near-sparse matrix structure に基づいている。 我々の代替の準スパース行列構造は、ブロックスパース行列に置換可能な2つの行列の和に分解可能である。 これらは3dテンソルとして表現でき、ユニゾンでは、最小にバッチされた入力行列 x と密度の高い (o(rows(w ) x cols(w )) --> o(rows(w ) x cols(w ) # of blocks )) と比較してより高速に行列乗算を実行することができる。 実験のcruxとして、我々はdyadとopt archの2つのサイズとpythia archの1つのサイズの両方を事前学習し、babylmベンチマークの様々なトークンスケールでトレーニングしました。 DYADはゼロショット(BLIMPなど)、少数ショット(OPENLM)、微調整(GLUE)ベンチマークでのDENSE性能の競争力 (>=90%) であり、125mスケールでもGPUのトレーニングを7-15%高速化し、スケールとモデル幅の増大でより大きなスピードアップを達成している。

We devise, implement and performance-asses DYAD, a layer which can serve as a faster and more memory-efficient approximate replacement for linear layers, (nn.Linear() in Pytorch). These layers appear in common subcomponents, such as in the ff module of Transformers. DYAD is based on a bespoke near-sparse matrix structure which approximates the dense "weight" matrix W that matrix-multiplies the input in the typical realization of such a layer, a.k.a DENSE. Our alternative near-sparse matrix structure is decomposable to a sum of 2 matrices permutable to a block-sparse counterpart. These can be represented as 3D tensors, which in unison allow a faster execution of matrix multiplication with the mini-batched input matrix X compared to DENSE (O(rows(W ) x cols(W )) --> O( rows(W ) x cols(W ) # of blocks )). As the crux of our experiments, we pretrain both DYAD and DENSE variants of 2 sizes of the OPT arch and 1 size of the Pythia arch, including at different token scales of the babyLM benchmark. We find DYAD to be competitive (>= 90%) of DENSE performance on zero-shot (e.g. BLIMP), few-shot (OPENLM) and finetuning (GLUE) benchmarks, while being >=7-15% faster to train on-GPU even at 125m scale, besides surfacing larger speedups at increasing scale and model width.
翻訳日:2023-12-13 18:00:50 公開日:2023-12-11
# グラフ分割における教師なしグラフニューラルネットワークの新たな微分損失関数

A Novel Differentiable Loss Function for Unsupervised Graph Neural Networks in Graph Partitioning ( http://arxiv.org/abs/2312.06877v1 )

ライセンス: Link先を確認
Vivek Chaudhary(参考訳) 本稿では,グラフ分割問題,科学,技術,ビジネスなど,さまざまな分野の幅広い応用にともなう中心的な組合せ論理的最適化問題について検討する。 NPハードプロブレムとして認識されるグラフ分割は、その分解能に対する多項式時間アルゴリズムを欠いている。 近年, 機械学習, 特に教師なし, 教師なし, 強化学習といった手法を応用して, このようなNP困難に対処することへの関心が高まっている。 しかし、教師あり学習は、しばしば計算上は実用的でないラベル付き解インスタンスの必要性、学習プロセサにおける不安定な強化学習グリップル、教師なし学習は、多くの組合せ最適化問題の離散的性質の結果として、微分可能損失関数がないことに抵抗する、という大きな障害に直面している。 そこで本研究では,教師なしグラフニューラルネットワークを用いて,グラフ分割問題を解く新しいパイプラインを提案する。 この研究の核となる革新は、この目的のために調整された微分可能損失関数のフォミュレーションである。 我々は、現代の最先端技術に対する私たちの方法論を厳格に評価し、メトリクスの削減とバランスに重点を置いています。

In this paper, we explore the graph partitioning problem, a pivotal combina-torial optimization challenge with extensive applications in various fields such as science, technology, and business. Recognized as an NP-hard prob-lem, graph partitioning lacks polynomial-time algorithms for its resolution. Recently, there has been a burgeoning interest in leveraging machine learn-ing, particularly approaches like supervised, unsupervised, and reinforce-ment learning, to tackle such NP-hard problems. However, these methods face significant hurdles: supervised learning is constrained by the necessity of labeled solution instances, which are often computationally impractical to obtain; reinforcement learning grapples with instability in the learning pro-cess; and unsupervised learning contends with the absence of a differentia-ble loss function, a consequence of the discrete nature of most combinatorial optimization problems. Addressing these challenges, our research introduces a novel pipeline employing an unsupervised graph neural network to solve the graph partitioning problem. The core innovation of this study is the for-mulation of a differentiable loss function tailored for this purpose. We rigor-ously evaluate our methodology against contemporary state-of-the-art tech-niques, focusing on metrics: cuts and balance, and our findings reveal that our is competitive with these leading methods.
翻訳日:2023-12-13 18:00:20 公開日:2023-12-11
# 部分可観測ロボットタスクのための大規模言語モデルを用いた対話型計画

Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks ( http://arxiv.org/abs/2312.06876v1 )

ライセンス: Link先を確認
Lingfeng Sun, Devesh K. Jha, Chiori Hori, Siddarth Jain, Radu Corcodel, Xinghao Zhu, Masayoshi Tomizuka, Diego Romeres(参考訳) オープン語彙タスクを実行するロボットエージェントを設計することは、ロボット工学とAIの長年の目標だった。 近年,Large Language Models (LLMs) は,オープン語彙タスクを実行するロボットエージェントの開発において,目覚ましい成果を上げている。 しかしながら、不確実性が存在する場合のこれらのタスクの計画には、‘enquote{chain-of- Thought’推論、環境からの情報の集約、状態推定の更新、更新された状態推定に基づくアクションの生成が必要であるため、難しい。 本稿では,llmsを用いた部分可観測タスクのためのインタラクティブな計画手法を提案する。 提案手法では,LLMを用いてロボットを用いて環境から不足情報を収集し,必要な動作を指示しながら,収集した観測結果から根底にある問題の状態を推定する。 また、自己指示による微調整Llama 2モデルを使用し、その性能をGPT-4のような事前学習LLMと比較する。 実環境と同様にシミュレーションのいくつかのタスクで結果が示される。 私たちの研究といくつかの成果を説明したビデオがここにある。

Designing robotic agents to perform open vocabulary tasks has been the long-standing goal in robotics and AI. Recently, Large Language Models (LLMs) have achieved impressive results in creating robotic agents for performing open vocabulary tasks. However, planning for these tasks in the presence of uncertainties is challenging as it requires \enquote{chain-of-thought} reasoning, aggregating information from the environment, updating state estimates, and generating actions based on the updated state estimates. In this paper, we present an interactive planning technique for partially observable tasks using LLMs. In the proposed method, an LLM is used to collect missing information from the environment using a robot and infer the state of the underlying problem from collected observations while guiding the robot to perform the required actions. We also use a fine-tuned Llama 2 model via self-instruct and compare its performance against a pre-trained LLM like GPT-4. Results are demonstrated on several tasks in simulation as well as real-world environments. A video describing our work along with some results could be found here.
翻訳日:2023-12-13 17:59:55 公開日:2023-12-11
# dozerformer: 多変量時系列予測のためのシーケンス適応スパーストランス

Dozerformer: Sequence Adaptive Sparse Transformer for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2312.06874v1 )

ライセンス: Link先を確認
Yifan Zhang, Rui Wu, Sergiu M. Dascalu, Frederick C. Harris Jr(参考訳) 多変量時系列(MTS)予測では,長期依存関係をキャプチャする能力により,トランスフォーマーの性能が著しく向上した。 しかし、標準的注意機構には2つの重要な制限がある: (1) 二次時間の複雑さはシーケンスの長さを制限し、(2) 履歴列全体から将来の値を生成する。 そこで本稿では,(1)局所的,各クエリが隣接時間ステップのローカライズウィンドウ内のキーのみに応答する,3つのスパースコンポーネントからなるドーザーアテンション機構を提案する。 2) ストライドにより、各クエリは予め定義された間隔でキーに出席できる。 (3) Varyは、クエリが履歴シーケンスのサブセットから選択的にキーに出席することを可能にする。 特に、この部分集合のサイズは予測地平線が広がるにつれて動的に拡大する。 これら3つのコンポーネントは、局所性、季節性、グローバル時間依存性など、MSSデータの本質的な属性をキャプチャするために設計されている。 さらに,MTS予測タスクに対するDozer Attentionメカニズムを取り入れたDozerformer Frameworkを提案する。 提案するdozerformerフレームワークを9つのベンチマークデータセットで最新の最先端手法で評価し,その優れた性能を確認した。 原稿が受理された後、コードは解放される。

Transformers have achieved remarkable performance in multivariate time series(MTS) forecasting due to their capability to capture long-term dependencies. However, the canonical attention mechanism has two key limitations: (1) its quadratic time complexity limits the sequence length, and (2) it generates future values from the entire historical sequence. To address this, we propose a Dozer Attention mechanism consisting of three sparse components: (1) Local, each query exclusively attends to keys within a localized window of neighboring time steps. (2) Stride, enables each query to attend to keys at predefined intervals. (3) Vary, allows queries to selectively attend to keys from a subset of the historical sequence. Notably, the size of this subset dynamically expands as forecasting horizons extend. Those three components are designed to capture essential attributes of MTS data, including locality, seasonality, and global temporal dependencies. Additionally, we present the Dozerformer Framework, incorporating the Dozer Attention mechanism for the MTS forecasting task. We evaluated the proposed Dozerformer framework with recent state-of-the-art methods on nine benchmark datasets and confirmed its superior performance. The code will be released after the manuscript is accepted.
翻訳日:2023-12-13 17:59:38 公開日:2023-12-11
# ELSA: オーバーヘッドフリーのスパースネットワーク展開のための部分凍結

ELSA: Partial Weight Freezing for Overhead-Free Sparse Network Deployment ( http://arxiv.org/abs/2312.06872v1 )

ライセンス: Link先を確認
Paniz Halvachi, Alexandra Peste, Dan Alistarh, Christoph H. Lampert(参考訳) 本稿では,異なるレベルの空間に容易に展開可能な深層ネットワーク構築のための実用的ソリューションELSAを提案する。 中心となる考え方は、1つの高密度ネットワークに1つ以上のスパースネットワークを埋め込むことである。 予測時には、任意のスパースモデルを、予め定義されたマスクに従って単純に重みをゼロにすることができる。 ELSAはシンプルで強力で柔軟です。 ネットワークのスパーシフィケーションやネットワークトレーニングに、既存のあらゆるテクニックを使用できる。 特に、損失関数、アーキテクチャ、最適化技術を制限するものではない。 私たちの実験では、elsaの柔軟なデプロイメントの利点は、独立してトレーニングされ保存される複数のスパースネットワークを使用する標準的な方法と比べて、予測品質をまったくあるいはまったく減らさないことを示しています。

We present ELSA, a practical solution for creating deep networks that can easily be deployed at different levels of sparsity. The core idea is to embed one or more sparse networks within a single dense network as a proper subset of the weights. At prediction time, any sparse model can be extracted effortlessly simply be zeroing out weights according to a predefined mask. ELSA is simple, powerful and highly flexible. It can use essentially any existing technique for network sparsification and network training. In particular, it does not restrict the loss function, architecture or the optimization technique. Our experiments show that ELSA's advantages of flexible deployment comes with no or just a negligible reduction in prediction quality compared to the standard way of using multiple sparse networks that are trained and stored independently.
翻訳日:2023-12-13 17:59:17 公開日:2023-12-11
# 学生が作成したデータを用いた教育ツールのコンテンツ検証

Using Analytics on Student Created Data to Content Validate Pedagogical Tools ( http://arxiv.org/abs/2312.06871v1 )

ライセンス: Link先を確認
John Kos, Kenneth Eaton, Sareen Zhang, Rahul Dass, Stephen Buckley, Sungeun An, Ashok Goel(参考訳) 概念モデルとシミュレーションモデルは有用な教育ツールとして機能するが、結果をより有意義に解釈するために評価する際に異なる結果を分類することが重要である。 VERAは生態に基づく概念モデリングソフトウェアで、生態系内の抗生物質と抗生物質の相互作用をシミュレートし、個体群の時系列を観察することで仮説を形成、検証することができる。 本稿では,この時系列を階層的クラスタリングと曲線フィッティングという2つの手法を用いて生態モデリングの領域で見られる共通パターンに分類し,異なる教育用ツールを組み合わせた場合のコンテンツ妥当性を示す一般的な方法を示す。 A Georgia Tech (GATECH)、North Georgia Technical College (NGTC)、および '`Self Directed Learners'' の3つのVERAユーザカテゴリから収集された971の時系列を含む263モデルの多種多様なサンプルに適用すると、テストセット内のサンプル曲線の89.38\%に対して、両方の分類方法の一致が示された。 これは,コンテンツ妥当性を判定する手法が成功したことを示す良い指標である。

Conceptual and simulation models can function as useful pedagogical tools, however it is important to categorize different outcomes when evaluating them in order to more meaningfully interpret results. VERA is a ecology-based conceptual modeling software that enables users to simulate interactions between biotics and abiotics in an ecosystem, allowing users to form and then verify hypothesis through observing a time series of the species populations. In this paper, we classify this time series into common patterns found in the domain of ecological modeling through two methods, hierarchical clustering and curve fitting, illustrating a general methodology for showing content validity when combining different pedagogical tools. When applied to a diverse sample of 263 models containing 971 time series collected from three different VERA user categories: a Georgia Tech (GATECH), North Georgia Technical College (NGTC), and ``Self Directed Learners'', results showed agreement between both classification methods on 89.38\% of the sample curves in the test set. This serves as a good indication that our methodology for determining content validity was successful.
翻訳日:2023-12-13 17:59:03 公開日:2023-12-11
# 電磁励磁の量子振動子モデルの再検討

The quantum oscillator model of electromagnetic excitations revisited ( http://arxiv.org/abs/2312.06870v1 )

ライセンス: Link先を確認
Margaret Hawton(参考訳) 電磁場の量子振動子モデルを再検討し、非局所正負の周波数ラダー作用素はフォック基底を生成するが、実マクスウェル場の第二量子化によって得られたエルミート場作用素は、局所的にフェルミオン物質と結合し古典的にモデル化できる光子-反光子対を記述する。 彼らの可換関係は、単一光子の最初の量子化理論の基礎となるスカラー積を定義する。 1光子状態は光子を数えた時にゼロ光子状態に崩壊するため、それを記述する場は確率振幅として解釈されなければならない。

We revisit the quantum oscillator model of the electromagnetic field and conclude that, while the nonlocal positive and negative frequency ladder operators generate a photon Fock basis, the Hermitian field operators obtained by second quantization of real Maxwell fields describe photon-antiphoton pairs that couple locally to Fermionic matter and can be modeled classically. Their commutation relations define a scalar product that can be the basis of a first quantized theory of single photons. Since a one-photon state collapses to a zero-photon state when the photon is counted, the field describing it must be interpreted as a probability amplitude.
翻訳日:2023-12-13 17:58:41 公開日:2023-12-11
# 調和スコアマップを用いた位相次元の逆推定

Adversarial Estimation of Topological Dimension with Harmonic Score Maps ( http://arxiv.org/abs/2312.06869v1 )

ライセンス: Link先を確認
Eric Yeats, Cameron Darwin, Frank Liu, Hai Li(参考訳) 複雑なデータをローカルに説明するのに必要な変数の数の定量化は、より深く理解するための最初のステップであることが多い。 固有次元推定による既存の手法は、統計モデルを利用して近隣のサンプルから情報を取り出す。 しかし、既存の手法は、多様体次元と曲率の増加に伴って、よく撮像されたハイパーパラメータと十分なデータに依存することが多い。 スコアマップはそのディリクレエネルギーによって正規化されるため、スコアマッチング対象の固定点に対する洞察を活用し、スコアマップで学習された多様体の位相次元を検索できることを示した。 次に,学習多様体の位相次元(すなわち局所固有次元)を逆攻撃を用いて測定する新しい手法を導入し,学習多様体の有用な解釈を生成する。

Quantification of the number of variables needed to locally explain complex data is often the first step to better understanding it. Existing techniques from intrinsic dimension estimation leverage statistical models to glean this information from samples within a neighborhood. However, existing methods often rely on well-picked hyperparameters and ample data as manifold dimension and curvature increases. Leveraging insight into the fixed point of the score matching objective as the score map is regularized by its Dirichlet energy, we show that it is possible to retrieve the topological dimension of the manifold learned by the score map. We then introduce a novel method to measure the learned manifold's topological dimension (i.e., local intrinsic dimension) using adversarial attacks, thereby generating useful interpretations of the learned manifold.
翻訳日:2023-12-13 17:58:26 公開日:2023-12-11
# rafic:検索による少数ショット画像の分類

RAFIC: Retrieval-Augmented Few-shot Image Classification ( http://arxiv.org/abs/2312.06868v1 )

ライセンス: Link先を確認
Hangfei Lin, Li Miao, Amir Ziai(参考訳) Few-shot画像分類は、クラスごとに少数のトレーニング例のみを使用して、Nの排他的クラスのいずれかに未確認画像を分類するタスクである。 これらの例(K と表記される)の限られた可利用性は、いくつかのケースにおいて分類精度に重大な課題をもたらす。 そこで我々は,検索した画像の付加集合を用いてKの集合を増大させる手法を開発した。 本稿では,このシステムをRAFIC(Retrieval-Augmented Few-shot Image Classification)と呼ぶ。 一連の実験を通して、RAFICは2つの挑戦的なデータセット間で、数ショット画像分類の性能を著しく向上させることを示した。 RAFICは2つの主要コンポーネントから構成される。 (a)CLIP、LAION-5B、faissを用いて、供給された画像と類似の画像の効率よく検索する検索コンポーネント、及び (b)検索した画像を公平に活用することを学ぶメタラーニングの検索 コードとデータはgithub.com/amirziai/raficで入手できる。

Few-shot image classification is the task of classifying unseen images to one of N mutually exclusive classes, using only a small number of training examples for each class. The limited availability of these examples (denoted as K) presents a significant challenge to classification accuracy in some cases. To address this, we have developed a method for augmenting the set of K with an addition set of A retrieved images. We call this system Retrieval-Augmented Few-shot Image Classification (RAFIC). Through a series of experiments, we demonstrate that RAFIC markedly improves performance of few-shot image classification across two challenging datasets. RAFIC consists of two main components: (a) a retrieval component which uses CLIP, LAION-5B, and faiss, in order to efficiently retrieve images similar to the supplied images, and (b) retrieval meta-learning, which learns to judiciously utilize the retrieved images. Code and data is available at github.com/amirziai/rafic.
翻訳日:2023-12-13 17:58:14 公開日:2023-12-11
# 数学でaを得る:プログレッシブな修正を促す

Get an A in Math: Progressive Rectification Prompting ( http://arxiv.org/abs/2312.06867v1 )

ライセンス: Link先を確認
Zhenyu Wu, Meng Jiang, Chao Shen(参考訳) CoT(Chain-of-Thought)は,大規模言語モデル(LLM)で推論経路を生成し,数学語問題(MWP)を解く手法である。 しかし、どの誤りも誤った答えをもたらす可能性があるため、パス内の間違いに敏感である。 77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP(Progressive Rectification Prompting)と呼ばれる新しい手法を提案する。 cotからの最初の回答が与えられると、prpはverify-then-rectifyプロセスを繰り返して、不正確な答えを段階的に識別し、推論パスを正す。 LLMは最も正しい確率で、この質問においてマスクされた数値を予測し、もし予測がマスクされた値と一致しないなら、その答えは誤っている可能性が高い。 次に、LCMは、前回のミスを繰り返しないように、誤った回答のセットで示唆された推論パスを再生成するよう促される。 PRPはCoT法と比較して最高の性能を達成する。 実装はhttps://wzy6642.github.io/prp.github.io/で公開しています。

Chain-of-Thought (CoT) prompting methods have enabled large language models (LLMs) to generate reasoning paths and solve math word problems (MWPs). However, they are sensitive to mistakes in the paths, as any mistake can result in an incorrect answer. We propose a novel method named Progressive Rectification Prompting (PRP) to improve average accuracy on eight MWP datasets from 77.3 to 90.5. Given an initial answer from CoT, PRP iterates a verify-then-rectify process to progressively identify incorrect answers and rectify the reasoning paths. With the most likely correct answer, the LLM predicts a masked numerical value in the question; if the prediction does not match the masked value, the answer is likely incorrect. Then the LLM is prompted to re-generate the reasoning path hinted with a set of incorrect answers to prevent itself from repeating previous mistakes. PRP achieves the best performance compared against the CoT methods. Our implementation is made publicly available at https://wzy6642.github.io/prp.github.io/.
翻訳日:2023-12-13 17:57:58 公開日:2023-12-11
# キーポイントを用いた小体識別・ナビゲート用ステレオフォトクリノメトリ:因子グラフによるアプローチ

Keypoint-based Stereophotoclinometry for Characterizing and Navigating Small Bodies: A Factor Graph Approach ( http://arxiv.org/abs/2312.06865v1 )

ライセンス: Link先を確認
Travis Driver, Andrew Vaughan, Yang Cheng, Adnan Ansar, John Christian, Panagiotis Tsiotras(参考訳) 本稿では,SPCからSfM(keypoint-based structure-from-motion)システムへの技術導入を提案し,検出されたランドマークにおける表面の正常さとアルベドを推定し,その場画像から小さな天体の形状を推定する。 ループ内検証と精度の高い事前情報に依拠するspcを用いた小体形状再構成の現在の最先端法とは対照的に,我々は高価なmaplet推定ステップを先取りし,深層学習に基づく自律的キーポイント検出とマッチング手法による密接なキーポイント測定と対応を利用して,必要なフォトグラム制約を提供する。 さらに, 衛星の姿勢, ランドマーク位置, 太陽相対方向, 表面の正常度とアルベドの同時最適化をサンセンサと画像キーポイントの融合により実現した因子グラフに基づく手法を開発した。 提案手法は,Asteroid 4 Vesta上のコーネリアクレーターの実際の画像と,SPC再構成に対するポーズ推定とマッピングの比較に基づいて検証された。

This paper proposes the incorporation of techniques from stereophotoclinometry (SPC) into a keypoint-based structure-from-motion (SfM) system to estimate the surface normal and albedo at detected landmarks to improve autonomous surface and shape characterization of small celestial bodies from in-situ imagery. In contrast to the current state-of-the-practice method for small body shape reconstruction, i.e., SPC, which relies on human-in-the-loop verification and high-fidelity a priori information to achieve accurate results, we forego the expensive maplet estimation step and instead leverage dense keypoint measurements and correspondences from an autonomous keypoint detection and matching method based on deep learning to provide the necessary photogrammetric constraints. Moreover, we develop a factor graph-based approach allowing for simultaneous optimization of the spacecraft's pose, landmark positions, Sun-relative direction, and surface normals and albedos via fusion of Sun sensor measurements and image keypoint measurements. The proposed framework is validated on real imagery of the Cornelia crater on Asteroid 4 Vesta, along with pose estimation and mapping comparison against an SPC reconstruction, where we demonstrate precise alignment to the SPC solution without relying on any a priori camera pose and topography information or humans-in-the-loop
翻訳日:2023-12-13 17:57:39 公開日:2023-12-11
# 強迫観念:文化的・道徳的相関

Disentangling Perceptions of Offensiveness: Cultural and Moral Correlates ( http://arxiv.org/abs/2312.06861v1 )

ライセンス: Link先を確認
Aida Davani, Mark D\'iaz, Dylan Baker, Vinodkumar Prabhakaran(参考訳) 攻撃性の知覚は本質的に主観的であり、生活経験と知覚者の社会文化的価値によって形作られる。 近年、ソーシャルメディアプラットフォームを緩和し、ChatGPTやBardといった会話型AI技術の安全性を確保する手段として、攻撃的言語を大規模に検出できるAIベースのツールの構築に多大な努力が払われている。 しかし、既存のアプローチでは、このタスクを、群衆労働者の実績やその認識が反映する価値観に何の注意も払わずに、グローバルな群衆労働者による攻撃性を示すデータの上に構築された技術的取り組みとして扱う。 我々は、文化的・心理的要因が攻撃性の認知的処理において重要な役割を担っていると論じている。 我々は、攻撃性を決定するタスクを、本質的に道徳的判断の問題として再編成する -- 倫理的に間違った言語と、社会文化的規範のセットにおける正しい言語の境界を決定する。 8つの文化圏にまたがる21カ国の4309人を対象に,大規模な異文化研究を行った。 ケアと純粋性に対する道徳的関心は、異文化間の差異を引き起こす重要な要因である。 これらの洞察は、多元的世界のためのAIモデルを構築する上で重要なものであり、そこでは、それらが採用する価値は、多様な地理的文化的文脈における道徳的価値を尊重し、考慮すべきである。

Perception of offensiveness is inherently subjective, shaped by the lived experiences and socio-cultural values of the perceivers. Recent years have seen substantial efforts to build AI-based tools that can detect offensive language at scale, as a means to moderate social media platforms, and to ensure safety of conversational AI technologies such as ChatGPT and Bard. However, existing approaches treat this task as a technical endeavor, built on top of data annotated for offensiveness by a global crowd workforce without any attention to the crowd workers' provenance or the values their perceptions reflect. We argue that cultural and psychological factors play a vital role in the cognitive processing of offensiveness, which is critical to consider in this context. We re-frame the task of determining offensiveness as essentially a matter of moral judgment -- deciding the boundaries of ethically wrong vs. right language within an implied set of socio-cultural norms. Through a large-scale cross-cultural study based on 4309 participants from 21 countries across 8 cultural regions, we demonstrate substantial cross-cultural differences in perceptions of offensiveness. More importantly, we find that individual moral values play a crucial role in shaping these variations: moral concerns about Care and Purity are significant mediating factors driving cross-cultural differences. These insights are of crucial importance as we build AI models for the pluralistic world, where the values they espouse should aim to respect and account for moral values in diverse geo-cultural contexts.
翻訳日:2023-12-13 17:57:10 公開日:2023-12-11
# 多エージェント深部強化学習を用いたスケーラブル分散協調プラトン

Scalable Decentralized Cooperative Platoon using Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2312.06858v1 )

ライセンス: Link先を確認
Ahmed Abdelrahman, Omar M. Shehata, Yarah Basyoni, and Elsayed I. Morgan(参考訳) 協調自動運転は、特に都市部に自動運転車を配備することで、インテリジェント交通システムにおける道路容量と安全性を向上させる上で重要な役割を担っている。 車両間通信を可能にすることで、これらのシステムは車両の環境意識を拡大し、隠れた障害物を検知し、視覚的にのみ依存する人間ドライバーと比較して安全性と衝突率の低下を可能にする。 この技術の重要な応用は車両小隊であり、連結車両は協調した形態で運転する。 本稿では,交通流と安全を向上する車両小隊方式を提案する。 高度な物理で知られているUnity 3Dゲームエンジンの深部強化学習を用いて開発されたこのアプローチは、現実世界の条件を忠実に反映した高忠実度物理シミュレーションを目指している。 提案手法は,前任者によるコミュニケーションフレームワーク「共有とケア」を通じて,スケーラビリティ,分散化,積極的な協調を促進することに焦点を当てたものである。 この研究は、これらの要素が都市環境で、個々の車両と小隊全体の自律走行性能とロバスト性をどのように向上させるかを示す。 これにより道路の安全が向上し、交通渋滞が減少する。

Cooperative autonomous driving plays a pivotal role in improving road capacity and safety within intelligent transportation systems, particularly through the deployment of autonomous vehicles on urban streets. By enabling vehicle-to-vehicle communication, these systems expand the vehicles environmental awareness, allowing them to detect hidden obstacles and thereby enhancing safety and reducing crash rates compared to human drivers who rely solely on visual perception. A key application of this technology is vehicle platooning, where connected vehicles drive in a coordinated formation. This paper introduces a vehicle platooning approach designed to enhance traffic flow and safety. Developed using deep reinforcement learning in the Unity 3D game engine, known for its advanced physics, this approach aims for a high-fidelity physical simulation that closely mirrors real-world conditions. The proposed platooning model focuses on scalability, decentralization, and fostering positive cooperation through the introduced predecessor-follower "sharing and caring" communication framework. The study demonstrates how these elements collectively enhance autonomous driving performance and robustness, both for individual vehicles and for the platoon as a whole, in an urban setting. This results in improved road safety and reduced traffic congestion.
翻訳日:2023-12-13 17:56:42 公開日:2023-12-11
# VitalLens:ライブ自撮り

VitalLens: Take A Vital Selfie ( http://arxiv.org/abs/2312.06892v1 )

ライセンス: Link先を確認
Philipp V. Rouast(参考訳) VitalLensは、自撮りビデオから心拍数や呼吸速度などの重要な兆候をリアルタイムで推定するアプリだ。 VitalLensは、ビデオと生理学的センサーデータの多様なデータセットに基づいてトレーニングされたコンピュータビジョンモデルを使用する。 289個の独特な参加者からなるvv-mediumを含む、さまざまなデータセットのパフォーマンスベンチマークを行った。 vitallensは、高速な推論速度を維持しながら、すべてのデータセットでposやmts-canを含む既存のメソッドを上回っている。 vv-medium では、vitalens は心拍数推定で 0.71 bpm、呼吸率推定で 0.76 rpm の絶対誤差を達成している。

This report introduces VitalLens, an app that estimates vital signs such as heart rate and respiration rate from selfie video in real time. VitalLens uses a computer vision model trained on a diverse dataset of video and physiological sensor data. We benchmark performance on several diverse datasets, including VV-Medium, which consists of 289 unique participants. VitalLens outperforms several existing methods including POS and MTTS-CAN on all datasets while maintaining a fast inference speed. On VV-Medium, VitalLens achieves absolute errors of 0.71 bpm for heart rate estimation, and 0.76 rpm for respiratory rate estimation.
翻訳日:2023-12-13 17:44:52 公開日:2023-12-11
# 量子アルゴリズムにおける論理誤差の影響

The Impact of Logical Errors on Quantum Algorithms ( http://arxiv.org/abs/2111.03733v3 )

ライセンス: Link先を確認
Omer Subasi and Sriram Krishnamoorthy(参考訳) 本研究では,論理確率パウリとコヒーレントZ回転誤差が量子アルゴリズムに与える影響について検討する。 量子ジャンプ形式に導かれたモンテカルロシミュレーションを行い,6つの正準量子アルゴリズムの論理量子ビットとゲートエラーに対する固有レジリエンスを評価する。 その結果、量子ビット数とアルゴリズム回路の深さがポーリとz回転誤差の両方で増加するにつれて、量子アルゴリズムのレジリエンスが低下することが示唆された。 また,アルゴリズムのレジリエンスに関して,アルゴリズムは2つのグループに分かれていることも示唆した。 ハミルトニアン、サイモンおよび量子位相推定アルゴリズムの進化は、グローバー探索、ドイッチュ・ヨッサ、ベルンシュタイン・ヴァジランニアルゴリズムよりも論理誤差に対する回復力が低い。

In this work, we explore the impact of logical stochastic Pauli and coherent Z-rotation errors on quantum algorithms. We evaluate six canonical quantum algorithms' intrinsic resilience to the logical qubit and gate errors by performing the Monte Carlo simulations guided by the quantum jump formalism. The results suggest that the resilience of the studied quantum algorithms decreases as the number of qubits and the depth of the algorithms' circuits increase for both Pauli and Z-rotation errors. Our results also suggest that the algorithms split into two different groups in terms of algorithmic resilience. The evolution of Hamiltonian, Simon and the quantum phase estimation algorithms are less resilient to logical errors than Grover's search, Deutsch-Jozsa and Bernstein-Vazirani algorithms.
翻訳日:2023-12-13 03:57:23 公開日:2023-12-11
# 不特定商品を戦略エージェントに割り当てる:純ナッシュ均衡と公正

Allocating Indivisible Goods to Strategic Agents: Pure Nash Equilibria and Fairness ( http://arxiv.org/abs/2109.08644v2 )

ライセンス: Link先を確認
Georgios Amanatidis, Georgios Birmpas, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) 我々は,付加価値関数を持つ戦略エージェント群に対して,不可分な商品群を公平に割り当てる問題を考える。 したがって、私たちの設定のメカニズムは、エージェントの本当の値ではなく、報告された値を入力するアルゴリズムであると仮定します。 私たちの主な目標は、すべてのインスタンスに対して純粋なnash平衡を持つメカニズムが存在するか、同時に、これらの平衡に対応する割り当てに対する公平性保証を提供するかを検討することです。 本研究は,1つの善(EF1)まで,1つの善(EFX)まで,うらやましい自由(EF1)の2つの緩和に焦点を合わせ,上記の疑問に肯定的に答える。 特に,非ストラテジックな設定でそのようなアロケーションを生成することが知られているアルゴリズムとして,ラウンドロビン (EF1 のエージェントの割り当て) とプラウトとラフガーデンのカット・アンド・チョースアルゴリズム (SIAM Journal of Discrete Mathematics, 2020) がある。 ラウンドロビンでは、全ての純粋なナッシュ平衡が、根底にある真の値に関してEF1であるアロケーションを誘導するのに対し、プラウトとラフガーデンのアルゴリズムでは、対応するアロケーションは EFX だけでなく、非ストラテジックな設定では、このアルゴリズムには当てはまらない最大シェアフェアネスを満たすことを示す。 さらに、後者の結果の弱いバージョンは、すべてのefx割り当てを誘導する純粋なnash平衡を常に有する2つのエージェントの任意のメカニズムを保持できることを示した。

We consider the problem of fairly allocating a set of indivisible goods to a set of strategic agents with additive valuation functions. We assume no monetary transfers and, therefore, a mechanism in our setting is an algorithm that takes as input the reported -- rather than the true -- values of the agents. Our main goal is to explore whether there exist mechanisms that have pure Nash equilibria for every instance and, at the same time, provide fairness guarantees for the allocations that correspond to these equilibria. We focus on two relaxations of envy-freeness, namely envy-freeness up to one good (EF1), and envy-freeness up to any good (EFX), and we positively answer the above question. In particular, we study two algorithms that are known to produce such allocations in the non-strategic setting: Round-Robin (EF1 allocations for any number of agents) and a cut-and-choose algorithm of Plaut and Roughgarden [SIAM Journal of Discrete Mathematics, 2020] (EFX allocations for two agents). For Round-Robin we show that all of its pure Nash equilibria induce allocations that are EF1 with respect to the underlying true values, while for the algorithm of Plaut and Roughgarden we show that the corresponding allocations not only are EFX but also satisfy maximin share fairness, something that is not true for this algorithm in the non-strategic setting! Further, we show that a weaker version of the latter result holds for any mechanism for two agents that always has pure Nash equilibria which all induce EFX allocations.
翻訳日:2023-12-13 03:57:07 公開日:2023-12-11
# ニューラルタンジェントカーネルフレームワークにおける量子強化ニューラルネットワーク

Quantum-enhanced neural networks in the neural tangent kernel framework ( http://arxiv.org/abs/2109.03786v3 )

ライセンス: Link先を確認
Kouhei Nakaji, Hiroyuki Tezuka, Naoki Yamamoto(参考訳) 近年、従来の古典的ニューラルネットワーク(cnn)の代替として量子ニューラルネットワークや量子古典的ニューラルネットワーク(qcnn)が積極的に研究されているが、その実用的かつ理論的に保証された性能はまだ検討されていない。 対照的に、cNN、特に深部cNNは、いくつかの堅固な理論的基礎を得た。その基盤の1つは、cNNの様々な望ましい性質、特に訓練過程におけるグローバル収束のメカニズムをうまく説明できる神経タンジェントカーネル(NTK)理論である。 本稿では,量子データエンコーダとcNNを組み合わせたqcNNのクラスについて検討する。 量子部分は、量子状態の効果的な特徴抽出プロセスであるユニタリ2-設計に従ってランダムに初期化され、古典的部分はガウス分布に従ってランダムに初期化され、次に、cNNのノード数が無限に大きくなるNTK状態において、qcNN全体の出力は、いわゆる射影量子カーネルの非線形関数となる。 つまり、ntk理論は、一般的に設計に非自明な効果的な量子カーネルを構築するために用いられる。 さらに、qcNNで定義されたNTKはガウス過程の共分散行列と同一であり、学習過程を解析的に研究することができる。 これらの特性は徹底的な数値実験で研究され、特に量子データ生成過程の学習において、qcNNが完全古典的NNやqNNよりも明確な優位性を示すことを示す。

Recently, quantum neural networks or quantum-classical neural networks (qcNN) have been actively studied, as a possible alternative to the conventional classical neural network (cNN), but their practical and theoretically-guaranteed performance is still to be investigated. In contrast, cNNs and especially deep cNNs, have acquired several solid theoretical basis; one of those basis is the neural tangent kernel (NTK) theory, which can successfully explain the mechanism of various desirable properties of cNNs, particularly the global convergence in the training process. In this paper, we study a class of qcNN composed of a quantum data-encoder followed by a cNN. The quantum part is randomly initialized according to unitary 2-designs, which is an effective feature extraction process for quantum states, and the classical part is also randomly initialized according to Gaussian distributions; then, in the NTK regime where the number of nodes of the cNN becomes infinitely large, the output of the entire qcNN becomes a nonlinear function of the so-called projected quantum kernel. That is, the NTK theory is used to construct an effective quantum kernel, which is in general nontrivial to design. Moreover, NTK defined for the qcNN is identical to the covariance matrix of a Gaussian process, which allows us to analytically study the learning process. These properties are investigated in thorough numerical experiments; particularly, we demonstrate that the qcNN shows a clear advantage over fully classical NNs and qNNs for the problem of learning the quantum data-generating process.
翻訳日:2023-12-13 03:56:09 公開日:2023-12-11
# 軽量で勾配安定な神経層

A Lightweight and Gradient-Stable Neural Layer ( http://arxiv.org/abs/2106.04088v3 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) そこで本研究では,家計の重み付けと絶対値活性化に基づく神経層アーキテクチャを提案する。 完全に接続された$d$-neuronsと$d$出力の層と比較して、Han層はパラメータの数とそれに対応する複雑さを$O(d^2)$から$O(d)$に還元する。 ハン層構造は、2つの望ましい性質を保証する:(1)勾配安定性(消失または爆発勾配がない)、(2)1-リプシッツ連続性。 広範な数値実験により、完全連結(fc)層を置き換えるために戦略的にハン層を用いることができ、一般化性能を維持しつつモデルパラメータの数を減らすことができる。 また、いくつかの小さなスタイリングモデル上でHan層アーキテクチャの機能についても紹介し、現在の制限について論じる。

We propose a neural-layer architecture based on Householder weighting and absolute-value activating, hence called Householder-absolute neural layer or simply Han-layer. Compared to a fully connected layer with $d$-neurons and $d$ outputs, a Han-layer reduces the number of parameters and the corresponding complexity from $O(d^2)$ to $O(d)$. The Han-layer structure guarantees two desirable properties: (1) gradient stability (free of vanishing or exploding gradient), and (2) 1-Lipschitz continuity. Extensive numerical experiments show that one can strategically use Han-layers to replace fully connected (FC) layers, reducing the number of model parameters while maintaining or even improving the generalization performance. We will also showcase the capabilities of the Han-layer architecture on a few small stylized models, and discuss its current limitations.
翻訳日:2023-12-13 03:55:41 公開日:2023-12-11
# 不確実性を考慮した制約ベイズ最適化のためのサンプリング基準

A sampling criterion for constrained Bayesian optimization with uncertainties ( http://arxiv.org/abs/2103.05706v4 )

ライセンス: Link先を確認
Reda El Amri, Rodolphe Le Riche, C\'eline Helbert, Christophette Blanchet-Scalliet, S\'ebastien Da Veiga(参考訳) 本稿では,関数を最適化し,制約を満たす確率制約最適化の問題について考察する。 この問題の実世界分断は、その固有の計算コストのために特に困難である。 そこで本研究では,ベイズ最適化手法を提案する。 これは、いくつかの入力から不確実性が生じる状況に適用され、ジョイント制御非制御入力空間における取得基準を定義することができる。 この研究の主な貢献は、客観的関数の平均的改善と制約信頼性の両方を考慮に入れた買収基準である。 基準はステップワイズ不確実性還元論理に従って導出され、その最大化は最適制御パラメータと制御不能パラメータの両方を提供する。 評価基準を効率的に計算するために分析式が与えられる。 実験関数に関する数値的研究を行う。 サンプリング基準と問題との対応が全体の最適化の効率に寄与することを示す, 代替サンプリング基準との実験的比較を行った。 その結果、改善のばらつきを表す表現が与えられる。

We consider the problem of chance constrained optimization where it is sought to optimize a function and satisfy constraints, both of which are affected by uncertainties. The real world declinations of this problem are particularly challenging because of their inherent computational cost. To tackle such problems, we propose a new Bayesian optimization method. It applies to the situation where the uncertainty comes from some of the inputs, so that it becomes possible to define an acquisition criterion in the joint controlled-uncontrolled input space. The main contribution of this work is an acquisition criterion that accounts for both the average improvement in objective function and the constraint reliability. The criterion is derived following the Stepwise Uncertainty Reduction logic and its maximization provides both optimal controlled and uncontrolled parameters. Analytical expressions are given to efficiently calculate the criterion. Numerical studies on test functions are presented. It is found through experimental comparisons with alternative sampling criteria that the adequation between the sampling criterion and the problem contributes to the efficiency of the overall optimization. As a side result, an expression for the variance of the improvement is given.
翻訳日:2023-12-13 03:55:05 公開日:2023-12-11
# スピン鎖の連続的動的疎結合:完全な絡み合いを生成する2量子相互作用の誘導

Continuous dynamical decoupling of spin chains: Inducing two-qubit interactions to generate perfect entanglement ( http://arxiv.org/abs/2012.03873v3 )

ライセンス: Link先を確認
Abdullah Irfan, Syed Furqan Abbas Hashmi, Syeda Neha Zaidi, Muhammad Usman Baig, Wahaj Ayub, Adam Zaman Chaudhry(参考訳) スピン鎖の絡み合いの効率的な制御は量子情報処理に有用である。 本稿では,強い静電場と振動場の2つの異なる構成の組み合わせを用いて,スピンチェーン内の任意の2つのスピン間のほぼ完全な絡み合いを制御・生成する手法を提案する。 これは、制御場がスピン鎖を環境から切り離すだけでなく、スピン-スピン相互作用を選択的に修飾するという事実によって可能である。 制御場を介してこれらのスピンスピン相互作用を適切にチューニングすることにより、スピン鎖内の任意の2つのスピンの量子状態がベル状態となることを示す。 我々は、xyモデル、xyzモデル、イジングスピンチェーンなど、様々なスピンチェーンに対する結果を示す。

Efficient control over entanglement in spin chains is useful for quantum information processing applications. In this paper, we propose the use of a combination of two different configurations of strong static and oscillating fields to control and generate near-perfect entanglement between any two spins in a spin chain, even in the presence of noise. This is made possible by the fact that our control fields not only decouple the spin chain from its environment but also selectively modify the spin-spin interactions. By suitably tuning these spin-spin interactions via the control fields, we show that the quantum state of any two spins in the spin chain can be made to be a Bell state. We illustrate our results for various spin chains, such as the XY model, the XYZ model, and the Ising spin chain.
翻訳日:2023-12-13 03:54:37 公開日:2023-12-11
# 非凸ゼロ階確率ADMM法

Nonconvex Zeroth-Order Stochastic ADMM Methods with Lower Function Query Complexity ( http://arxiv.org/abs/1907.13463v4 )

ライセンス: Link先を確認
Feihu Huang, Shangqian Gao, Jian Pei and Heng Huang(参考訳) ゼロ階数法(英: Zeroth-order method、つまり微分自由法)は、複雑な機械学習問題を解決するための効果的な最適化手法のクラスである。 近年,ゼロ次法が多数開発されているが,その欠点は2つある。 1) 高機能クエリの複雑さ 2)複雑な罰則や制約で問題を解決するには適していない。 本稿では,これらの難解な欠点に対処するため,マルチプライヤ法(zo-spider-admm)のゼロ次確率的交互方向法を高速化し,非スムースペナルティの非凸有限サム問題を解く手法を提案する。 さらに、zo-spider-admm メソッドは $o(nd+dn^{\frac{1}{2}}\epsilon^{-1})$ という関数クエリの複雑さを低下させることを証明し、ここでは $n$ と $d$ はそれぞれサンプルサイズとデータ次元を表す$o(d^{\frac{1}{3}}n^{\frac{1}{6}}) という係数で、既存の最良の非凸零次 admm メソッドを改善する$\epsilon$-stationary point を求める。 同時に,複数の非スムースペナルティを伴う非凸オンライン問題を解くために,より高速なゼロ次オンラインadmm法(zoo-admm+)を提案する。 また、提案したZOO-ADMM+メソッドは、$O(d\epsilon^{-\frac{3}{2}})$の低い関数クエリ複雑性を実現し、$O(\epsilon^{-\frac{1}{2}})$の係数で既存の最良の結果を改善する。 ブラックボックス深層ニューラルネットワークの構造逆攻撃に関する広範囲な実験結果から,新しいアルゴリズムの有効性が示された。

Zeroth-order (a.k.a, derivative-free) methods are a class of effective optimization methods for solving complex machine learning problems, where gradients of the objective functions are not available or computationally prohibitive. Recently, although many zeroth-order methods have been developed, these approaches still have two main drawbacks: 1) high function query complexity; 2) not being well suitable for solving the problems with complex penalties and constraints. To address these challenging drawbacks, in this paper, we propose a class of faster zeroth-order stochastic alternating direction method of multipliers (ADMM) methods (ZO-SPIDER-ADMM) to solve the nonconvex finite-sum problems with multiple nonsmooth penalties. Moreover, we prove that the ZO-SPIDER-ADMM methods can achieve a lower function query complexity of $O(nd+dn^{\frac{1}{2}}\epsilon^{-1})$ for finding an $\epsilon$-stationary point, which improves the existing best nonconvex zeroth-order ADMM methods by a factor of $O(d^{\frac{1}{3}}n^{\frac{1}{6}})$, where $n$ and $d$ denote the sample size and data dimension, respectively. At the same time, we propose a class of faster zeroth-order online ADMM methods (ZOO-ADMM+) to solve the nonconvex online problems with multiple nonsmooth penalties. We also prove that the proposed ZOO-ADMM+ methods achieve a lower function query complexity of $O(d\epsilon^{-\frac{3}{2}})$, which improves the existing best result by a factor of $O(\epsilon^{-\frac{1}{2}})$. Extensive experimental results on the structure adversarial attack on black-box deep neural networks demonstrate the efficiency of our new algorithms.
翻訳日:2023-12-13 03:53:50 公開日:2023-12-11
# 推薦システムにおける供給側平衡

Supply-Side Equilibria in Recommender Systems ( http://arxiv.org/abs/2206.13489v3 )

ライセンス: Link先を確認
Meena Jagadeesan, Nikhil Garg, Jacob Steinhardt(参考訳) SpotifyやNetflixのようなアルゴリズムによるレコメンデーションシステムは、消費者の行動だけでなく、プロデューサーのインセンティブにも影響を及ぼす。 プロデューサーはレコメンデーションアルゴリズムで示されるコンテンツを作成しようとしており、コンテンツの多様性と品質の両方に影響を与える可能性がある。 本研究では、パーソナライズされたコンテンツレコメンデーションシステムにおけるサプライサイド均衡について検討する。 我々は、ユーザとコンテンツをD$次元ベクトルとしてモデル化し、レコメンデーションアルゴリズムは、各ユーザに最高のドット製品でコンテンツを見せ、プロデューサは、コンテンツを推奨するユーザの数を最大化し、生産コストを抑える。 我々のモデルの主な特徴は、生産者決定空間が多次元であり、ユーザベースが異質であることであり、古典的な低次元モデルとは対照的である。 多次元性と不均質性は、異なる生産者が平衡で異なる種類のコンテンツを創造する特殊化の可能性を生み出す。 これらの条件は, ユーザが不均一である程度と, 生産者が高コストを伴わずに, 一度にすべての次元で良好な性能を発揮できる程度に依存している。 次に, 2 個体群を具体的設定として, コンテンツの平衡分布を特徴付ける。 最後に, 専門化によって生産者が均衡でポジティブな利益を得られることが示され, つまり, 専門化が市場競争力を低下させる可能性がある。 概念レベルでは、サプライサイドコンペティションの分析は、デジタルグッズ市場をいかにパーソナライズされたレコメンデーションが形成するかを解明し、多次元競争環境において新たな現象が生じるのかを理解するための一歩となる。

Algorithmic recommender systems such as Spotify and Netflix affect not only consumer behavior but also producer incentives. Producers seek to create content that will be shown by the recommendation algorithm, which can impact both the diversity and quality of their content. In this work, we investigate the resulting supply-side equilibria in personalized content recommender systems. We model users and content as $D$-dimensional vectors, the recommendation algorithm as showing each user the content with highest dot product, and producers as maximizing the number of users who are recommended their content minus the cost of production. Two key features of our model are that the producer decision space is multi-dimensional and the user base is heterogeneous, which contrasts with classical low-dimensional models. Multi-dimensionality and heterogeneity create the potential for specialization, where different producers create different types of content at equilibrium. Using a duality argument, we derive necessary and sufficient conditions for whether specialization occurs: these conditions depend on the extent to which users are heterogeneous and to which producers can perform well on all dimensions at once without incurring a high cost. Then, we characterize the distribution of content at equilibrium in concrete settings with two populations of users. Lastly, we show that specialization can enable producers to achieve positive profit at equilibrium, which means that specialization can reduce the competitiveness of the marketplace. At a conceptual level, our analysis of supply-side competition takes a step towards elucidating how personalized recommendations shape the marketplace of digital goods, and towards understanding what new phenomena arise in multi-dimensional competitive settings.
翻訳日:2023-12-13 03:47:19 公開日:2023-12-11
# 表面符号のパイプライン相関最小重量完全マッチング

Pipelined correlated minimum weight perfect matching of the surface code ( http://arxiv.org/abs/2205.09828v2 )

ライセンス: Link先を確認
Alexandru Paler, Austin G. Fowler(参考訳) 検出イベント間の相関を考慮することを含む,最小ウェイト完全マッチングを用いて表面コードを復号するパイプライン手法について述べる。 独立な非通信可並列化処理段階は、潜在的な相関関係に従ってグラフを再重み付けし、次いで高信頼マッチングのための別の非通信可並列化処理段階が続く。 後段の一般ステージがマッチングを終了します。 これは、グラフの一般マッチングと再重み付けの間の複雑な相互作用を必要とする以前の相関マッチング技法の単純化である。 この単純化により、相関マッチングによりリアルタイム処理を行う可能性が向上するが、論理誤差率は実質的に変化しない。 完全にフォールトトレラントなトーリック, 回転しない, 回転する曲面符号に対して, 標準偏極雑音で新しいアルゴリズムを検証する。 これらのテクニックは他の幅広いデコーダにも適用できると考えています。

We describe a pipeline approach to decoding the surface code using minimum weight perfect matching, including taking into account correlations between detection events. An independent no-communication parallelizable processing stage reweights the graph according to likely correlations, followed by another no-communication parallelizable stage for high confidence matching. A later general stage finishes the matching. This is a simplification of previous correlated matching techniques which required a complex interaction between general matching and re-weighting the graph. Despite this simplification, which gives correlated matching a better chance of achieving real-time processing, we find the logical error rate practically unchanged. We validate the new algorithm on the fully fault-tolerant toric, unrotated, and rotated surface codes, all with standard depolarizing noise. We expect these techniques to be applicable to a wide range of other decoders.
翻訳日:2023-12-13 03:46:30 公開日:2023-12-11
# ビデオパノプティカルセグメンテーションのためのPixelとインスタンスを用いたハイブリッドトラッカー

Hybrid Tracker with Pixel and Instance for Video Panoptic Segmentation ( http://arxiv.org/abs/2203.01217v2 )

ライセンス: Link先を確認
Weicai Ye, Xinyue Lan, Ge Su, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) ビデオパノプティクスセグメンテーション(VPS)は、コヒーレントなパノプティクスセグメンテーションを生成し、ビデオフレーム全体の全ピクセルのアイデンティティを追跡することを目的としている。 既存のメソッドは主にトレーニングされたインスタンスの埋め込みを利用して、panopticのセグメンテーションの一貫性を維持している。 しかし、それらは必然的に小さな物体の挑戦、外観は似ているが一貫性のないアイデンティティ、オクルージョン、そして強い例の輪郭変形に対処するのに苦労する。 これらの問題に対処するために,単一トラッカーの限界を解消しようとする軽量かつ共同追跡モデルであるHybridTrackerを提案する。 HybridTrackerは、一致行列に融合した関連行列を得るために、ピクセルトラッカーとインスタンストラッカーを並列に実行する。 インスタンストラッカでは、フレーム間マッチングの安定性を確保するために、微分可能なマッチング層を設計します。 ピクセルトラッカでは、推定された光学フローから異なるフレームの同じインスタンスのサイス係数を計算し、結合(iou)行列上の交叉を形成する。 さらに, 咬合・輪郭変形の課題を解決するために, 相互チェックと時間的一貫性の制約を提案する。 総合的な実験により、HybridTrackerはCityscapes-VPSとVIPERデータセットの最先端メソッドよりも優れたパフォーマンスを実現している。

Video Panoptic Segmentation (VPS) aims to generate coherent panoptic segmentation and track the identities of all pixels across video frames. Existing methods predominantly utilize the trained instance embedding to keep the consistency of panoptic segmentation. However, they inevitably struggle to cope with the challenges of small objects, similar appearance but inconsistent identities, occlusion, and strong instance contour deformations. To address these problems, we present HybridTracker, a lightweight and joint tracking model attempting to eliminate the limitations of the single tracker. HybridTracker performs pixel tracker and instance tracker in parallel to obtain the association matrices, which are fused into a matching matrix. In the instance tracker, we design a differentiable matching layer, ensuring the stability of inter-frame matching. In the pixel tracker, we compute the dice coefficient of the same instance of different frames given the estimated optical flow, forming the Intersection Over Union (IoU) matrix. We additionally propose mutual check and temporal consistency constraints during inference to settle the occlusion and contour deformation challenges. Comprehensive experiments show that HybridTracker achieves superior performance than state-of-the-art methods on Cityscapes-VPS and VIPER datasets.
翻訳日:2023-12-13 03:45:27 公開日:2023-12-11
# 地域ハミルトンの中間スペクトル固有状態に対する最大エンタングルメントからの逸脱

Deviation from maximal entanglement for mid-spectrum eigenstates of local Hamiltonians ( http://arxiv.org/abs/2202.01173v2 )

ライセンス: Link先を確認
Yichen Huang(参考訳) 局所ハミルトニアンによって制御されるスピン鎖では、エネルギースペクトルの中央にあるマイクロカノニカルアンサンブルと、系の大きさの定数分数である連続したサブシステムを考える。 アンサンブルの帯域幅が一定の定数より大きい場合、アンサンブル内の固有状態の平均エントロピー(サブシステムとシステムの他の部分との間のエントロピー)が少なくとも正の定数で最大エントロピーから逸脱することを証明する。 この結果は、(カオス)局所ハミルトニアンの中間スペクトル固有状態の絡み合いエントロピーとランダム状態のエントロピーの違いを強調している。 また、前者が同じエネルギーで熱力学的エントロピーから少なくとも正の定数で逸脱することを証明する。

In a spin chain governed by a local Hamiltonian, we consider a microcanonical ensemble in the middle of the energy spectrum and a contiguous subsystem whose length is a constant fraction of the system size. We prove that if the bandwidth of the ensemble is greater than a certain constant, then the average entanglement entropy (between the subsystem and the rest of the system) of eigenstates in the ensemble deviates from the maximum entropy by at least a positive constant. This result highlights the difference between the entanglement entropy of mid-spectrum eigenstates of (chaotic) local Hamiltonians and that of random states. We also prove that the former deviates from the thermodynamic entropy at the same energy by at least a positive constant.
翻訳日:2023-12-13 03:45:00 公開日:2023-12-11
# 個人化フェデレーション学習におけるハイパーネットワークのバックドア

How to Backdoor HyperNetwork in Personalized Federated Learning? ( http://arxiv.org/abs/2201.07063v3 )

ライセンス: Link先を確認
Phung Lai, NhatHai Phan, Issa Khalil, Abdallah Khreishah, Xintao Wu(参考訳) 本稿では,HyperNetをベースとしたパーソナライズド・フェデレーション・ラーニング(HyperNetFL)における毒性攻撃によるバックドアリスクについて検討する。 そこで本研究では,hypernetflモデルが生成する正統かつパーソナライズされたすべてのローカルモデルに対して,そのトレーニングプロセス全体において,漏洩したすべてのクライアント間で算出された,一貫性と効果的な局所勾配を通じて,ローカルバックドア感染モデルを転送する,新たなモデルであるhntroj(hntroj)を提案する。 その結果、HNTrojは攻撃を成功させるのに必要な妥協されたクライアントの数を減らし、我々の攻撃をステルスにする正当なデータサンプルのモデルユーティリティに関する突然のシフトや劣化の兆候がない。 HNTrojに対抗するために,複数のバックドア抵抗FLトレーニングアルゴリズムをHyperNetFLに適応させた。 いくつかのベンチマークデータセットを用いた広範囲な実験により、hntrojはデータ中毒やモデル置換攻撃を大きく上回り、わずかな数の漏洩したクライアントでも堅牢なトレーニングアルゴリズムをバイパスしていることが示された。

This paper explores previously unknown backdoor risks in HyperNet-based personalized federated learning (HyperNetFL) through poisoning attacks. Based upon that, we propose a novel model transferring attack (called HNTroj), i.e., the first of its kind, to transfer a local backdoor infected model to all legitimate and personalized local models, which are generated by the HyperNetFL model, through consistent and effective malicious local gradients computed across all compromised clients in the whole training process. As a result, HNTroj reduces the number of compromised clients needed to successfully launch the attack without any observable signs of sudden shifts or degradation regarding model utility on legitimate data samples making our attack stealthy. To defend against HNTroj, we adapted several backdoor-resistant FL training algorithms into HyperNetFL. An extensive experiment that is carried out using several benchmark datasets shows that HNTroj significantly outperforms data poisoning and model replacement attacks and bypasses robust training algorithms even with modest numbers of compromised clients.
翻訳日:2023-12-13 03:44:25 公開日:2023-12-11
# 1次元散乱状態の正規化と密度について

On the Normalization and Density of 1D Scattering States ( http://arxiv.org/abs/2112.09108v6 )

ライセンス: Link先を確認
Chris L. Lin(参考訳) 散乱状態の正規化は期待値を計算するのに必要なロートステップ以上のものである。 この正規化は実際に散乱スペクトルの密度に関する重要な情報を含む(有界状態に関する有用な詳細と共に)。 多くのアプリケーションでは、この情報は波動関数自身よりも有用である。 本稿では, この散乱状態正規化と状態の密度の対応が完全性関係の結果であることを示し, 特定のポテンシャルに適用可能な状態の密度を計算するための公式を示す。 次にこれらの公式をデルタ関数ポテンシャルと正方形井戸に適用する。 次に、状態密度が点状(デルタポテンシャル)相互作用を持つ2つの粒子系の分配関数を計算するためにどのように用いられるかを示す。

The normalization of scattering states is more than a rote step necessary to calculate expectation values. This normalization actually contains important information regarding the density of the scattering spectrum (along with useful details on the bound states). For many applications, this information is more useful than the wavefunctions themselves. In this paper we show that this correspondence between scattering state normalization and the density of states is a consequence of the completeness relation, and we present formulas for calculating the density of states which are applicable to certain potentials. We then apply these formulas to the delta function potential and the square well. We then illustrate how the density of states can be used to calculate the partition function for a system of two particles with a point-like (delta potential) interaction.
翻訳日:2023-12-13 03:43:10 公開日:2023-12-11
# いくつかの doxastic \l ukasiewicz logic

Some Doxastic \L ukasiewicz Logic ( http://arxiv.org/abs/2111.08564v4 )

ライセンス: Link先を確認
Doratossadat Dastgheib, Hadi Farahani(参考訳) 標準的なMV-代数 [0,1] において原子命題とアクセシビリティの関係が無限に評価されるクリプケ型モデルのクラスに対して、健全で完備なドクサスティックな \L ukasiewicz logic \textbf{B\L} を提案する。 また、古典的な疫学論理の公理である axioms \textbf{D}, \textbf{4}, \textbf{T} に対応する \textbf{B\L} の拡張も導入する。 さらに、これらの拡張の完全性はモデルの適切なクラスに対応する。

We propose a doxastic \L ukasiewicz logic \textbf{B\L} that is sound and complete with respect to the class of Kripke-based models in which atomic propositions and accessibility relations are both infinitely valued in the standard MV-algebra [0,1]. We also introduce some extensions of \textbf{B\L} corresponding to axioms \textbf{D}, \textbf{4}, and \textbf{T} of classical epistemic logic. Furthermore, completeness of these extensions are established corresponding to the appropriate classes of models.
翻訳日:2023-12-13 03:42:44 公開日:2023-12-11
# Floquetスピンチェーンにおける情報伝播とスクランブルに及ぼす位相的および非位相的エッジ状態の影響

Effects of topological and non-topological edge states on information propagation and scrambling in a Floquet spin chain ( http://arxiv.org/abs/2210.15302v2 )

ライセンス: Link先を確認
Samudra Sur, Diptiman Sen(参考訳) 量子系における任意の局所作用素の作用は、作用素の情報を運ぶ系を通して伝播する。 これは通常、OTOC(out-of-time-order correlator)を介して研究される。 我々はFloquet無限温度OTOCを用いて,開境界条件付き周期駆動スピン-1/2$XY$チェーンの一端からの情報伝搬を数値解析した。 2つの異なるスピン作用素、$\sigma^x$ と $\sigma^z$ の OTOC を計算する。 正弦波駆動の場合、モデルは異なる種類のエッジ状態、すなわち位相的(メジャーな)エッジ状態と非位相的エッジ状態を持つことができる。 エッジ状態が存在する場合,$\sigma^z$ と $\sigma^x$ OTOCs の両方に対して,エッジにおける情報の局所化を観測する。 また、非位相的エッジ状態の場合、エッジ近傍の時間におけるotocの振動は、エッジ状態のフロッケ固有値間のギャップに反比例する。 エッジ状態によるこれらの影響を解析的に理解する。 以前には、jordan-wigner fermions(\sigma^z$)の項で局所的なスピン作用素のotocは、伝播の光円錐の内部でスクランブルする情報の署名を示さず、jordan-wigner fermions(\sigma^x$)の項で非局所であるスピン作用素のotocはスクランブルの署名を示すことが知られていた。 システムの端から反射した後に,$\sigma^x$ OTOCに顕著な「非破壊効果」を報告した。 最後に,情報は主に群速度の最大値を持つバルク状態を介してシステムに伝播することを示すとともに,この速度が駆動周波数と振幅によってどのように制御されるかを示す。

The action of any local operator on a quantum system propagates through the system carrying the information of the operator. This is usually studied via the out-of-time-order correlator (OTOC). We numerically study the information propagation from one end of a periodically driven spin-1/2 $XY$ chain with open boundary conditions using the Floquet infinite-temperature OTOC. We calculate the OTOC for two different spin operators, $\sigma^x$ and $\sigma^z$. For sinusoidal driving, the model can be shown to host different types of edge states, namely, topological (Majorana) edge states and non-topological edge states. We observe a localization of information at the edge for both $\sigma^z$ and $\sigma^x$ OTOCs whenever edge states are present. In addition, in the case of non-topological edge states, we see oscillations of the OTOC in time near the edge, the oscillation period being inversely proportional to the gap between the Floquet eigenvalues of the edge states. We provide an analytical understanding of these effects due to the edge states. It was known earlier that the OTOC for the spin operator which is local in terms of Jordan-Wigner fermions ($\sigma^z$) shows no signature of information scrambling inside the light cone of propagation, while the OTOC for the spin operator which is non-local in terms of Jordan-Wigner fermions ($\sigma^x$) shows signatures of scrambling. We report a remarkable `unscrambling effect' in the $\sigma^x$ OTOC after reflections from the ends of the system. Finally, we demonstrate that the information propagates into the system mainly via the bulk states with the maximum value of the group velocity, and we show how this velocity is controlled by the driving frequency and amplitude.
翻訳日:2023-12-13 03:35:48 公開日:2023-12-11
# ノイズを用いた量子コンピュータのオープンシステムダイナミクス解のための量子アルゴリズム

A quantum algorithm for solving open system dynamics on quantum computers using noise ( http://arxiv.org/abs/2210.12138v3 )

ライセンス: Link先を確認
Juha Lepp\"akangas, Nicolas Vogt, Keith R. Fratus, Kirsten Bark, Jesse A. Vaitkus, Pascal Stadler, Jan-Michael Reiner, Sebastian Zanker, Michael Marthaler(参考訳) 本稿では,ノイズを資源とする量子アルゴリズムを提案する。 量子アルゴリズムの目的は、時間とともに進化するオープン量子システムの演算子平均を計算することである。 選択された低ノイズシステムキュービットとノイズバスキュービットは、オープン量子システムのシステムとバスを表す。 すべての非コヒーレント量子ビットノイズはバススペクトル関数にマッピングできる。 スペクトル関数の形式はデジタル的に調整することができ、有限温度での幅広い開系モデルの時間発展を可能にする。 本研究では,スピンボソンモデルの解法に焦点をあてて本手法の有効性について検討し,減衰とデフォーカスが支配する固有クビット雑音を仮定する。 オープン量子系のクラスは, ゲートエラーが最大1%である場合でも, アルゴリズムが非常によく機能する。 一般に,システムバス間相互作用をネイティブゲートに分解できる場合,提案アルゴリズムは最適である。

In this paper we present a quantum algorithm that uses noise as a resource. The goal of our quantum algorithm is the calculation of operator averages of an open quantum system evolving in time. Selected low-noise system qubits and noisy bath qubits represent the system and the bath of the open quantum system. All incoherent qubit noise can be mapped to bath spectral functions. The form of the spectral functions can be tuned digitally, allowing for the time evolution of a wide range of open-system models at finite temperature. We study the feasibility of this approach with a focus on the solution of the spin-boson model and assume intrinsic qubit noise that is dominated by damping and dephasing. We find that classes of open quantum systems exist where our algorithm performs very well, even with gate errors as high as 1%. In general the presented algorithm performs best if the system-bath interactions can be decomposed into native gates.
翻訳日:2023-12-13 03:35:15 公開日:2023-12-11
# DAPMAVフレームワークを用いたソーシャル・メディアにおける患者の医療経験

Revealing Patient-Reported Experiences in Healthcare from Social Media using the DAPMAV Framework ( http://arxiv.org/abs/2210.04232v2 )

ライセンス: Link先を確認
Curtis Murray, Lewis Mitchell, Jonathan Tuke, Mark Mackay(参考訳) 医療における患者体験を理解することは、患者中心の医療アプローチにおいて、医療専門家にとってますます重要で望ましい。 ソーシャルメディア上での医療談話は、従来の調査データを補完して、患者が報告した体験に対するユニークな視点を得る機会を提供する。 これらのソーシャルメディアレポートは、患者の医療システムへの旅の直接の報告として現れることが多く、その詳細は、構造化された調査の範囲を超えて、フォーカスグループよりもはるかに大規模なものである。 しかし、ソーシャルメディア上での患者経験データの存在と、そのデータが提供する潜在的な利益とは対照的に、テキスト分析に必要な技術能力のため、比較的研究の注意を惹きつける。 本稿では,DAPMAV(Design-Acquire-Process-Model-Analyse-Visualise)フレームワークを紹介する。 本稿では, /r/ProstateCancer による前立腺癌データのケーススタディにこの枠組みを適用し,患者の関心事(性機能障害など)の特定の側面を捉え,談話の概要を提供し,これらの物語を通して物語や感情の進行を示す。 このフレームワークは、少数グループ、地理的境界、病気の種類など、医療のさまざまな領域に適用できることを期待しています。

Understanding patient experience in healthcare is increasingly important and desired by medical professionals in a patient-centered care approach. Healthcare discourse on social media presents an opportunity to gain a unique perspective on patient-reported experiences, complementing traditional survey data. These social media reports often appear as first-hand accounts of patients' journeys through the healthcare system, whose details extend beyond the confines of structured surveys and at a far larger scale than focus groups. However, in contrast with the vast presence of patient-experience data on social media and the potential benefits the data offers, it attracts comparatively little research attention due to the technical proficiency required for text analysis. In this paper, we introduce the Design-Acquire-Process-Model-Analyse-Visualise (DAPMAV) framework to provide an overview of techniques and an approach to capture patient-reported experiences from social media data. We apply this framework in a case study on prostate cancer data from /r/ProstateCancer, demonstrate the framework's value in capturing specific aspects of patient concern (such as sexual dysfunction), provide an overview of the discourse, and show narrative and emotional progression through these stories. We anticipate this framework to apply to a wide variety of areas in healthcare, including capturing and differentiating experiences across minority groups, geographic boundaries, and types of illnesses.
翻訳日:2023-12-13 03:35:00 公開日:2023-12-11
# 語彙目標を用いた強化学習における有界ロバスト性

Bounded Robustness in Reinforcement Learning via Lexicographic Objectives ( http://arxiv.org/abs/2209.15320v2 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Licio Romao, Lewis Hammond, Manuel Mazo Jr., Alessandro Abate(参考訳) 強化学習におけるポリシーのロバスト性は、いかなるコストでも望ましくないかもしれない: 適切なポリシーからのロバスト性要求によって引き起こされる変更は、説明可能で、定量化され、正式に検証されるべきである。 本研究では,外乱の確率的線形演算子解釈を通じて,任意の観測ノイズに対して,ポリシーを最大限に頑健にする方法について検討し,雑音核の頑健性と特性と基礎となるmdpとの関係性を確立する。 そこで,我々は,政策のロバスト性を実現するための十分な条件を構築し,任意の政策勾配アルゴリズムに適用可能なロバスト性誘導スキームを提案する。

Policy robustness in Reinforcement Learning may not be desirable at any cost: the alterations caused by robustness requirements from otherwise optimal policies should be explainable, quantifiable and formally verifiable. In this work we study how policies can be maximally robust to arbitrary observational noise by analysing how they are altered by this noise through a stochastic linear operator interpretation of the disturbances, and establish connections between robustness and properties of the noise kernel and of the underlying MDPs. Then, we construct sufficient conditions for policy robustness, and propose a robustness-inducing scheme, applicable to any policy gradient algorithm, that formally trades off expected policy utility for robustness through lexicographic optimisation, while preserving convergence and sub-optimality in the policy synthesis.
翻訳日:2023-12-13 03:34:35 公開日:2023-12-11
# 視覚質問応答のための双方向コントラスト分割学習

Bidirectional Contrastive Split Learning for Visual Question Answering ( http://arxiv.org/abs/2208.11435v4 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai(参考訳) マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。 重要な課題のひとつは、機密性の懸念から集中的なデータ収集を控えるさまざまなクライアントモデルに対して、堅牢な分散学習フレームワークを開発することだ。 本研究の目的は,マルチモーダルモデルを表現モジュールとコントラストモジュールに分離し,モジュール間勾配の共有とクライアント間重量共有を活用することにより,プライバシ保護VQAに取り組むことである。 そこで本研究では,分散化クライアントのデータ分布全体に対するグローバルマルチモーダルモデルを学習するために,双方向のコントラストスプリット学習(bicsl)を提案する。 我々は、分散モジュールのより効率的な自己教師付き学習を可能にする対照的な損失を用いる。 5つのSOTA VQAモデルに基づくVQA-v2データセットの総合実験を行い,提案手法の有効性を実証した。 さらに,VQAに対するデュアルキーバックドア攻撃に対するBiCSLの堅牢性についても検討した。 その結果,BiCSLは,分散型マルチモーダル学習に対して有望なアプローチを提供する集中型学習法に比べて,マルチモーダル攻撃に対するロバスト性が高いことがわかった。

Visual Question Answering (VQA) based on multi-modal data facilitates real-life applications such as home robots and medical diagnoses. One significant challenge is to devise a robust decentralized learning framework for various client models where centralized data collection is refrained due to confidentiality concerns. This work aims to tackle privacy-preserving VQA by decoupling a multi-modal model into representation modules and a contrastive module and leveraging inter-module gradients sharing and inter-client weight sharing. To this end, we propose Bidirectional Contrastive Split Learning (BiCSL) to train a global multi-modal model on the entire data distribution of decentralized clients. We employ the contrastive loss that enables a more efficient self-supervised learning of decentralized modules. Comprehensive experiments are conducted on the VQA-v2 dataset based on five SOTA VQA models, demonstrating the effectiveness of the proposed method. Furthermore, we inspect BiCSL's robustness against a dual-key backdoor attack on VQA. Consequently, BiCSL shows much better robustness to the multi-modal adversarial attack compared to the centralized learning method, which provides a promising approach to decentralized multi-modal learning.
翻訳日:2023-12-13 03:33:06 公開日:2023-12-11
# 非構造化コーパスのためのスケーラブルな知識グラフ構築システムgbuilder

gBuilder: A Scalable Knowledge Graph Construction System for Unstructured Corpus ( http://arxiv.org/abs/2208.09705v3 )

ライセンス: Link先を確認
Yanzeng Li, Lei Zou(参考訳) 非構造化コーパスから構造化知識を抽出するためのユーザフレンドリーでスケーラブルな知識グラフ構築(kgc)システムを設計する。 既存のKGCシステムとは異なり、gBuilderはIEモデルの迅速な開発を受け入れるために、フレキシブルでユーザ定義のパイプラインを提供する。 テンプレートベースの、あるいはヒューリスティックなオペレータやプログラマブルなオペレータは、さまざまなドメインのデータに適応することができる。 さらに,クラウドベースのgbuilderの自己適応型タスクスケジューリングも設計し,大規模ナレッジグラフ構築におけるスケーラビリティを確保する。 実験により,gBuilderが知識グラフ構築のための複数の情報抽出モデルを一様プラットフォームで構成できることが示され,大規模KGCタスクにおける高いスケーラビリティが確認された。

We design a user-friendly and scalable knowledge graph construction (KGC) system for extracting structured knowledge from the unstructured corpus. Different from existing KGC systems, gBuilder provides a flexible and user-defined pipeline to embrace the rapid development of IE models. More built-in template-based or heuristic operators and programmable operators are available for adapting to data from different domains. Furthermore, we also design a cloud-based self-adaptive task scheduling for gBuilder to ensure its scalability on large-scale knowledge graph construction. Experimental evaluation demonstrates the ability of gBuilder to organize multiple information extraction models for knowledge graph construction in a uniform platform, and confirms its high scalability on large-scale KGC tasks.
翻訳日:2023-12-13 03:32:16 公開日:2023-12-11
# リウヴィル空間における開量子系の第二量子化

Second quantization of open quantum systems in Liouville space ( http://arxiv.org/abs/2207.14234v2 )

ライセンス: Link先を確認
V. Sukharnikov, S. Chuchurka, A. Benediktovitch, N. Rohringer(参考訳) 開量子系を扱うために、リウヴィル空間における第二量子化に基づく理論的枠組みを提案する。 我々は、量子状態の離散集合によって特徴づけられる同一の量子エミッタのアンサンブルを考える。 第2の量子化は密度行列のレベルで直接行われるので、リウヴィル空間の大きさが著しく減少する。 従来のヒルベルト空間技術とは対照的に、統計的に混合状態と散逸状態が自然に組み込まれている。 応用例として、量子光との相互作用における不整合過程とエミッタの初期状態の統計的混合の影響について検討する。 さらに, 本手法は, 粒子数の増加とともに計算の限界を克服することのできる, ダイナミクスの位相空間記述とリンクする。

We present a theoretical framework based on second quantization in Liouville space to treat open quantum systems. We consider an ensemble of identical quantum emitters characterized by a discrete set of quantum states. The second quantization is performed directly at the level of density matrices, thereby significantly reducing the size of the Liouville space. In contrast to conventional Hilbert space techniques, statistically mixed states and dissipation are naturally incorporated. As a particular example of application, we study the effect of incoherent processes and statistical mixing of emitters' initial states in the interaction with quantum light. Moreover, we link our framework to a phase-space description of the dynamics, which can overcome the computational limitations of our method with the increasing number of particles.
翻訳日:2023-12-13 03:32:04 公開日:2023-12-11
# 乱流緩和変換器を用いた大気中イメージング

Imaging through the Atmosphere using Turbulence Mitigation Transformer ( http://arxiv.org/abs/2207.06465v2 )

ライセンス: Link先を確認
Xingguang Zhang, Zhiyuan Mao, Nicholas Chimitt, Stanley H. Chan(参考訳) 大気乱流によって歪んだ画像の復元は、長距離イメージング応用においてユビキタスな問題である。 既存のディープラーニングベースの手法は、特定のテスト条件において有望な結果を示しているが、(1) 合成訓練データから実際の乱流データへの一般化能力の欠如、(2) スケールの失敗、そして、アイデアを多数のフレームに拡張する際のメモリと速度の課題、(3) ニューラルネットワークをトレーニングするためのデータを生成する高速で正確なシミュレータの欠如、の3つの制限に苦しめられている。 本稿では,これらの問題に対処する乱流緩和トランス (TMT) を提案する。 第一に、TMTは乱流の分解を分離し、歪みを取り除くためのマルチスケールの損失を導入し、有効性を向上させることで、乱流物理学を明示的に利用する。 第2に、TMTは時間軸に沿った新しいアテンションモジュールを示し、余分な特徴を効率的に抽出し、メモリと速度を改善する。 第3に、TMTは、フーリエサンプリング、時間相関、フレキシブルカーネルサイズに基づく新しいシミュレータを導入し、より良いトレーニングデータを合成する能力を改善した。 TMTは、特に合成から実際の乱流データへの一般化において、最先端のビデオ復元モデルより優れている。 コード、ビデオ、データセットは \href{https://xg416.github.io/TMT}{https://xg416.github.io/TMT} で公開されている。

Restoring images distorted by atmospheric turbulence is a ubiquitous problem in long-range imaging applications. While existing deep-learning-based methods have demonstrated promising results in specific testing conditions, they suffer from three limitations: (1) lack of generalization capability from synthetic training data to real turbulence data; (2) failure to scale, hence causing memory and speed challenges when extending the idea to a large number of frames; (3) lack of a fast and accurate simulator to generate data for training neural networks. In this paper, we introduce the turbulence mitigation transformer (TMT) that explicitly addresses these issues. TMT brings three contributions: Firstly, TMT explicitly uses turbulence physics by decoupling the turbulence degradation and introducing a multi-scale loss for removing distortion, thus improving effectiveness. Secondly, TMT presents a new attention module along the temporal axis to extract extra features efficiently, thus improving memory and speed. Thirdly, TMT introduces a new simulator based on the Fourier sampler, temporal correlation, and flexible kernel size, thus improving our capability to synthesize better training data. TMT outperforms state-of-the-art video restoration models, especially in generalizing from synthetic to real turbulence data. Code, videos, and datasets are available at \href{https://xg416.github.io/TMT}{https://xg416.github.io/TMT}.
翻訳日:2023-12-13 03:31:35 公開日:2023-12-11
# メタパスに基づく脆弱性検出のための注意グラフ学習モデル

Meta-Path Based Attentional Graph Learning Model for Vulnerability Detection ( http://arxiv.org/abs/2212.14274v2 )

ライセンス: Link先を確認
Xin-Cheng Wen, Cuiyun Gao, Jiaxin Ye, Yichen Li, Zhihong Tian, Yan Jia, Xuan Wang(参考訳) 近年,コード脆弱性検出にディープラーニング(DL)ベースの手法が広く用いられている。 DLベースの手法は通常、コード構造グラフなどのソースコードから構造情報を抽出し、グラフ表現を学ぶためにグラフニューラルネットワーク(GNN)のようなニューラルネットワークを採用する。 しかし、これらの手法では、コード構造グラフにおける不均一な関係、すなわち、異種関係は、異なる種類のエッジがグラフ内の異なる種類のノードをつなぐことを意味するため、グラフ表現学習を妨げる可能性がある。 さらに、これらのメソッドはコード構造グラフの深いレベルのため、長距離依存関係の取得に制限される。 本稿では,MAGNET と呼ばれるコード vulNErability deTection のためのメタパスに基づく注意グラフ学習モデルを提案する。 magnetは、各コードスニペットに対して多面的メタパスグラフを構築し、異種関係をメタパスとして表現して構造情報を表現する。 メタパスに基づく階層型注目グラフニューラルネットワークも提案され,グラフ内の遠隔ノード間の関係を捉える。 3つの公開データセットにおけるマグネットの評価結果から,f1得点ではマグネットが6.32%,21.50%,25.40%,それぞれ最高のベースライン法を上回っていることがわかった。 MAGNETはまた、最も危険なCWE(Common Weakness Enumerations)トップ25の検出において、すべてのベースラインメソッドの中で最高のパフォーマンスを達成し、その脆弱性検出の有効性をさらに示す。

In recent years, deep learning (DL)-based methods have been widely used in code vulnerability detection. The DL-based methods typically extract structural information from source code, e.g., code structure graph, and adopt neural networks such as Graph Neural Networks (GNNs) to learn the graph representations. However, these methods fail to consider the heterogeneous relations in the code structure graph, i.e., the heterogeneous relations mean that the different types of edges connect different types of nodes in the graph, which may obstruct the graph representation learning. Besides, these methods are limited in capturing long-range dependencies due to the deep levels in the code structure graph. In this paper, we propose a Meta-path based Attentional Graph learning model for code vulNErability deTection, called MAGNET. MAGNET constructs a multi-granularity meta-path graph for each code snippet, in which the heterogeneous relations are denoted as meta-paths to represent the structural information. A meta-path based hierarchical attentional graph neural network is also proposed to capture the relations between distant nodes in the graph. We evaluate MAGNET on three public datasets and the results show that MAGNET outperforms the best baseline method in terms of F1 score by 6.32%, 21.50%, and 25.40%, respectively. MAGNET also achieves the best performance among all the baseline methods in detecting Top-25 most dangerous Common Weakness Enumerations (CWEs), further demonstrating its effectiveness in vulnerability detection.
翻訳日:2023-12-13 03:22:41 公開日:2023-12-11
# 高速ノイズ動作を用いた高速繰り返し猫符号

High-performance repetition cat code using fast noisy operations ( http://arxiv.org/abs/2212.11927v5 )

ライセンス: Link先を確認
Francois-Marie Le R\'egent, Camille Berdou, Zaki Leghtas, J\'er\'emie Guillaud and Mazyar Mirrahimi(参考訳) 2光子駆動の散逸によって安定化されるボソニックキャットキュービットは、ビットフリップエラーの指数関数的な抑制と、この保護を保った広いゲートの恩恵を受ける。 これらの特性により、ハードウェア効率が高くフォールトトレラントな量子プロセッサのビルディングブロックが期待できる。 本稿では,高速だがノイズの多いCNOTゲートを用いた繰り返しキャットコードアーキテクチャの性能最適化手法を提案する。 この最適化は、ボソニックモードの内在的な単光子損失率と2光子損失率との比として与えられる物理量に対する高い閾値をもたらし、また、必要オーバーヘッドのしきい値以下の非常に興味深いスケーリングにより、期待される論理誤差率に達する。 キャット量子ビット演算の特定の誤差モデルに基づき、この最適化は高速パリティ測定を利用して、高速化された低忠実度CNOTゲートと高速アンシラパリティチェックキュービットを組み合わせる。 キャットキュービットCNOTゲートが制御(アンシラ)キュービットの主要成分を持つ高度非対称誤差モデルである1-と、高速動作によって誘導されるリークの有無でエラー訂正性能の堅牢性を示す2-である。 これらの性能を示すために,猫のクビット状態のリークを考慮した回路レベルの雑音下での繰り返しコードのサンプリング法を開発した。

Bosonic cat qubits stabilized by two-photon driven dissipation benefit from exponential suppression of bit-flip errors and an extensive set of gates preserving this protection. These properties make them promising building blocks of a hardware-efficient and fault-tolerant quantum processor. In this paper, we propose a performance optimization of the repetition cat code architecture using fast but noisy CNOT gates for stabilizer measurements. This optimization leads to high thresholds for the physical figure of merit, given as the ratio between intrinsic single-photon loss rate of the bosonic mode and the engineered two-photon loss rate, as well as a very interesting scaling below threshold of the required overhead, to reach an expected level of logical error rate. Relying on the specific error models for cat qubit operations, this optimization exploits fast parity measurements, using accelerated low-fidelity CNOT gates, combined with fast ancilla parity-check qubits. The significant enhancement in the performance is explained by: 1- the highly asymmetric error model of cat qubit CNOT gates with a major component on control (ancilla) qubits, and 2- the robustness of the error correction performance in presence of the leakage induced by fast operations. In order to demonstrate these performances, we develop a method to sample the repetition code under circuit-level noise that also takes into account cat qubit state leakage.
翻訳日:2023-12-13 03:21:58 公開日:2023-12-11
# DifFace:Diffused Error Contractionによるブラインド顔修復

DifFace: Blind Face Restoration with Diffused Error Contraction ( http://arxiv.org/abs/2212.06512v3 )

ライセンス: Link先を確認
Zongsheng Yue and Chen Change Loy(参考訳) 深層学習に基づく顔の復元は前例のない成功を収めているが、それでも2つの大きな制限に苦しめられている。 まず、トレーニングデータから複雑な劣化に直面すると、ほとんどが劣化する。 第二に、これらの手法は複数の制約(例えば、忠実さ、知覚的損失、および敵対的損失)を必要とする。 本研究では,複雑な損失設計を伴わずに,目に見えない複雑な劣化に対処できるDifFaceという新しい手法を提案する。 本手法の鍵は,観測された低品質(LQ)画像から高品質(HQ)画像への後部分布を確立することである。 特に、lq画像からプリトレーニング拡散モデルの中間状態への遷移分布を設計後、プリトレーニング拡散モデルを繰り返し適用することにより、この中間状態からhqターゲットへ徐々に伝達する。 遷移分布は、いくつかの合成データに対して$L_2$の損失でトレーニングされた復元バックボーンにのみ依存する。 さらに, 遷移分布は復元バックボーンの誤差を負うため, 未知の劣化に対してより頑健な手法となる。 総合的な実験により、DifFaceは最先端の手法よりも優れていることが示される。 コードとモデルはhttps://github.com/zsyoaoa/diffaceで入手できる。

While deep learning-based methods for blind face restoration have achieved unprecedented success, they still suffer from two major limitations. First, most of them deteriorate when facing complex degradations out of their training data. Second, these methods require multiple constraints, e.g., fidelity, perceptual, and adversarial losses, which require laborious hyper-parameter tuning to stabilize and balance their influences. In this work, we propose a novel method named DifFace that is capable of coping with unseen and complex degradations more gracefully without complicated loss designs. The key of our method is to establish a posterior distribution from the observed low-quality (LQ) image to its high-quality (HQ) counterpart. In particular, we design a transition distribution from the LQ image to the intermediate state of a pre-trained diffusion model and then gradually transmit from this intermediate state to the HQ target by recursively applying a pre-trained diffusion model. The transition distribution only relies on a restoration backbone that is trained with $L_2$ loss on some synthetic data, which favorably avoids the cumbersome training process in existing methods. Moreover, the transition distribution can contract the error of the restoration backbone and thus makes our method more robust to unknown degradations. Comprehensive experiments show that DifFace is superior to current state-of-the-art methods, especially in cases with severe degradations. Code and model are available at https://github.com/zsyOAOA/DifFace.
翻訳日:2023-12-13 03:21:31 公開日:2023-12-11
# LEAD:Dense Retrievalのためのリベラルな特徴に基づく蒸留

LEAD: Liberal Feature-based Distillation for Dense Retrieval ( http://arxiv.org/abs/2212.05225v2 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Anlei Dong, Jingwen Lu, Yan Zhang, Linjun Yang, Rangan Majumder, Nan Duan(参考訳) 知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。 従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。 応答に基づく手法は広く用いられているが、中間信号の無視により性能の上限が低く、特徴に基づく手法は語彙、トークン化器、モデルアーキテクチャに制約がある。 本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。 LEADは、教師モデルの中間層と学生モデルの分布を整合させ、効果的で拡張可能でポータブルであり、語彙、トークン化、モデルアーキテクチャの要件を持たない。 大規模な実験では、MS MARCO Passage Ranking、TREC 2019 DL Track、MS MARCO Document Ranking、TREC 2020 DL Trackなど、広く使用されているベンチマークにおけるLEADの有効性が示されている。 私たちのコードはhttps://github.com/microsoft/SimXNS/tree/main/LEADで利用可能です。

Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional methods include response-based methods and feature-based methods. Response-based methods are widely used but suffer from lower upper limits of performance due to their ignorance of intermediate signals, while feature-based methods have constraints on vocabularies, tokenizers and model architectures. In this paper, we propose a liberal feature-based distillation method (LEAD). LEAD aligns the distribution between the intermediate layers of teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizers, or model architectures. Extensive experiments show the effectiveness of LEAD on widely-used benchmarks, including MS MARCO Passage Ranking, TREC 2019 DL Track, MS MARCO Document Ranking and TREC 2020 DL Track. Our code is available in https://github.com/microsoft/SimXNS/tree/main/LEAD.
翻訳日:2023-12-13 03:21:06 公開日:2023-12-11
# RepVGGを再び大きくする:量子化を意識したアプローチ

Make RepVGG Greater Again: A Quantization-aware Approach ( http://arxiv.org/abs/2212.01593v2 )

ライセンス: Link先を確認
Xiangxiang Chu and Liang Li and Bo Zhang(参考訳) パフォーマンスと推論速度のトレードオフは、実用的なアプリケーションにとって重要です。 アーキテクチャの再パラメータ化はより良いトレードオフを獲得し、現代の畳み込みニューラルネットワークでますます人気が高まっている。 それでも、int8推論が要求される場合、その量子化性能は、通常、デプロイに乏しい(imagenetでは、20%以上のtop-1精度低下)。 本稿では,本手法が量子化誤差を必然的に増大させるこの障害のメカニズムについて考察する。 我々は,再パラメータ化の利点を享受できる量子化フレンドリな構造を実現するために,シンプルで堅牢で効果的な治療法を提案する。 提案手法は,RepVGGにおけるINT8とFP32の精度のギャップを大きく埋める。 ベルとホイッスルがなければ、ImageNetのトップ1の精度低下は、トレーニング後の標準的な量子化によって2%以内に減少する。 さらに,本手法はRepVGGと同様のFP32性能を実現する。 検出および意味セグメンテーションタスクに関する広範な実験は、その一般化を検証する。

The tradeoff between performance and inference speed is critical for practical applications. Architecture reparameterization obtains better tradeoffs and it is becoming an increasingly popular ingredient in modern convolutional neural networks. Nonetheless, its quantization performance is usually too poor to deploy (more than 20% top-1 accuracy drop on ImageNet) when INT8 inference is desired. In this paper, we dive into the underlying mechanism of this failure, where the original design inevitably enlarges quantization error. We propose a simple, robust, and effective remedy to have a quantization-friendly structure that also enjoys reparameterization benefits. Our method greatly bridges the gap between INT8 and FP32 accuracy for RepVGG. Without bells and whistles, the top-1 accuracy drop on ImageNet is reduced within 2% by standard post-training quantization. Moreover, our method also achieves similar FP32 performance as RepVGG. Extensive experiments on detection and semantic segmentation tasks verify its generalization.
翻訳日:2023-12-13 03:20:09 公開日:2023-12-11
# グラフニューラルネットワークを用いた二値クナップサック問題の解法

Solving Bilevel Knapsack Problem using Graph Neural Networks ( http://arxiv.org/abs/2211.13436v3 )

ライセンス: Link先を確認
Sunhyeon Kwon, Hwayong Choi, Sungsoo Park(参考訳) 双レベル最適化問題は、リーダーとフォロワーの2人のエージェントによる階層的最適化問題である。 リーダーはまず自分の決定を下し、フォロワーはそれに従って最良の選択をする。 リーダーはフォロワーの情報を知っており、問題の目標は、リーダーの視点からフォロワーの反応を考慮して最適な解決策を見つけることである。 双レベル最適化問題では、最適解を得るための汎用的で効率的なアルゴリズムや商用解法は存在せず、単純な問題であっても良い解を得るのは非常に困難である。 本稿では,グラフニューラルネットワークを用いた2レベルナップサック問題を解くための深層学習手法を提案する。 リーダーのソリューションを予測するためにモデルをトレーニングし、階層的な最適化問題を単一レベルの最適化問題に変換するためにそれを使用します。 我々のモデルは、最適ギャップが1.7\%の正確なアルゴリズムよりも500倍高速な実現可能な解を発見した。 また、トレーニングしたサイズとサイズが異なる問題に対して、我々のモデルはよく機能しました。

The Bilevel Optimization Problem is a hierarchical optimization problem with two agents, a leader and a follower. The leader make their own decisions first, and the followers make the best choices accordingly. The leader knows the information of the followers, and the goal of the problem is to find the optimal solution by considering the reactions of the followers from the leader's point of view. For the Bilevel Optimization Problem, there are no general and efficient algorithms or commercial solvers to get an optimal solution, and it is very difficult to get a good solution even for a simple problem. In this paper, we propose a deep learning approach using Graph Neural Networks to solve the bilevel knapsack problem. We train the model to predict the leader's solution and use it to transform the hierarchical optimization problem into a single-level optimization problem to get the solution. Our model found the feasible solution that was about 500 times faster than the exact algorithm with $1.7\%$ optimal gap. Also, our model performed well on problems of different size from the size it was trained on.
翻訳日:2023-12-13 03:19:55 公開日:2023-12-11
# 局在軌道間の物理的絡み合い

Physical Entanglement Between Localized Orbitals ( http://arxiv.org/abs/2303.14170v2 )

ライセンス: Link先を確認
Lexin Ding, Gesa D\"unnweber, Christian Schilling(参考訳) ArXiv:2207.03377]では、現実的な電子系に適用可能な忠実絡み合い尺度の最初の閉じた公式が導出された。 本研究は,量子技術開発を導くという究極の目標をもって,この重要な成果を生かしたものである。 そのため、まず原子、分子、固体体などの電子系における絡み合い交換の過程を明らかにする。 このことは、局所化された小軌道サブシステムへの参照と、数値パリティ選択規則の実装の両方の必要性を明確に示している。 したがって、ウィックの定理により、自由電子鎖の部位間の真の物理的絡み合いの完全な解析的研究を行う。 その意味では、そのような分析分析を単位不変な設定、すなわち鎖をより非現実的でマクロ的に大きなサブシステムに分割することを制限する共通のパラダイムを破る。 次に、このモデルを相互作用する電子の水素環にアップグレードし、探索された局在軌道を構築する。 両システムとも,充填率が十分に低い場合,長距離絡み合いの存在が確認される。

In [arXiv:2207.03377] the first closed formula of a faithful entanglement measure applicable to realistic electron systems has been derived. In the present work, we build on this key achievement with the ultimate goal of guiding the development of quantum technologies. For this, we first elucidate the process of entanglement swapping in electron systems such as atoms, molecules or solid bodies. This clearly demonstrates the necessity of both the reference to localized few-orbital subsystems and the implementation of the number-parity superselection rule. Accordingly, in virtue of Wick's theorem, we then provide a fully analytical study of the true physical entanglement between sites in free electron chains. In that sense, we break the common paradigm of restricting such analytical analyses to unitarily invariant settings, i.e. bipartitions of the chain into rather impractical, macroscopically large subsystems. We then upgrade this model to a hydrogen ring of interacting electrons and construct the sought-after localized orbitals. For both systems, we confirm the presence of long-distance entanglement, provided the filling fractions are sufficiently low/high.
翻訳日:2023-12-13 03:12:17 公開日:2023-12-11
# MoRF:モノクラービデオのリアルなフルボディアバター

MoRF: Mobile Realistic Fullbody Avatars from a Monocular Video ( http://arxiv.org/abs/2303.10275v2 )

ライセンス: Link先を確認
Renat Bashirov, Alexey Larionov, Evgeniya Ustinova, Mikhail Sidorenko, David Svitov, Ilya Zakharkin, Victor Lempitsky(参考訳) 移動実写フルボディ(MoRF)アバターを作成するシステムを提案する。 MoRFアバターはモバイルデバイス上でリアルタイムにレンダリングされ、モノクロビデオから学習され、高いリアリズムを持つ。 DNR (neural texture and image-2-image network) を用いて, SMPL-X をプロキシ・ジオメトリとして用いる。 我々は、ニューラルネットワークのテクスチャ空間におけるフレーム単位のワープフィールドのオーバーフィッティングにより、事前作業の改善を行い、異なるフレーム間のトレーニング信号の整合性を向上する。 また, SMPL-Xメッシュフィッティング法を改良し, 全体的なアバター品質を向上した。 他の単眼ビデオベースのアバターシステムと比較すると、morfアバターはより高い画像のシャープさと時間的一貫性を達成する。 ユーザスタディの参加者はMORFが生成するアバターも好んだ。

We present a system to create Mobile Realistic Fullbody (MoRF) avatars. MoRF avatars are rendered in real-time on mobile devices, learned from monocular videos, and have high realism. We use SMPL-X as a proxy geometry and render it with DNR (neural texture and image-2-image network). We improve on prior work, by overfitting per-frame warping fields in the neural texture space, allowing to better align the training signal between different frames. We also refine SMPL-X mesh fitting procedure to improve the overall avatar quality. In the comparisons to other monocular video-based avatar systems, MoRF avatars achieve higher image sharpness and temporal consistency. Participants of our user study also preferred avatars generated by MoRF.
翻訳日:2023-12-13 03:11:36 公開日:2023-12-11
# ニューラルネットワークトレーニングのためのカスケードフォワードアルゴリズム

The Cascaded Forward Algorithm for Neural Network Training ( http://arxiv.org/abs/2303.09728v3 )

ライセンス: Link先を確認
Gongpei Zhao, Tao Wang, Yidong Li, Yi Jin, Congyan Lang, Haibin Ling(参考訳) バックプロパゲーションアルゴリズムは、過去10年間、ニューラルネットワークの主流となる学習手順として広く使われてきた。 しかし、このアルゴリズムにはいくつかの制限があり、例えば局所的な極小さに固執し、その生物学的な可能性に関する疑問を引き起こした。 これらの制限に対処するために、バックプロパゲーションの代替アルゴリズムが事前に検討されており、フォワードフォワード(ff)アルゴリズムがよく知られている。 本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。 FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力するが、これは追加の負のサンプルの生成を必要としないため、トレーニングとテストの両方においてより効率的なプロセスにつながる。 さらに,我々のフレームワークでは,各ブロックを独立して訓練することが可能であり,並列加速度システムに容易に展開できる。 提案手法を4つの公開画像分類ベンチマークで評価し, 実験結果から, ベースラインと比較した場合の予測精度が有意に向上することを示した。

Backpropagation algorithm has been widely used as a mainstream learning procedure for neural networks in the past decade, and has played a significant role in the development of deep learning. However, there exist some limitations associated with this algorithm, such as getting stuck in local minima and experiencing vanishing/exploding gradients, which have led to questions about its biological plausibility. To address these limitations, alternative algorithms to backpropagation have been preliminarily explored, with the Forward-Forward (FF) algorithm being one of the most well-known. In this paper we propose a new learning framework for neural networks, namely Cascaded Forward (CaFo) algorithm, which does not rely on BP optimization as that in FF. Unlike FF, our framework directly outputs label distributions at each cascaded block, which does not require generation of additional negative samples and thus leads to a more efficient process at both training and testing. Moreover, in our framework each block can be trained independently, so it can be easily deployed into parallel acceleration systems. The proposed method is evaluated on four public image classification benchmarks, and the experimental results illustrate significant improvement in prediction accuracy in comparison with the baseline.
翻訳日:2023-12-13 03:11:23 公開日:2023-12-11
# LDMVFI:潜時拡散モデルを用いたビデオフレーム補間

LDMVFI: Video Frame Interpolation with Latent Diffusion Models ( http://arxiv.org/abs/2303.09508v3 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) 既存のビデオフレーム補間(VFI)の研究は、主にL1、L2、または出力と接地トラスフレームの間の深い特徴空間距離(例えばVGG損失)を最小化することで訓練されたディープニューラルネットワークを使用している。 しかし、近年の研究では、これらの指標は知覚的vfi品質の低指標であることが示されている。 本稿では,知覚指向型VFI法の開発に向けて,潜在拡散モデルに基づくVFI,LDMVFIを提案する。 これは、VFI問題を条件生成問題として定式化することで、生成の観点からアプローチする。 遅延拡散モデルを用いてVFIに対処する最初の試みとして、既存のVFI文献で使われている共通テストセットに厳格にベンチマークを行う。 ldmvfiの定量的実験とユーザスタディにより,高分解能環境においても,映像コンテンツの知覚的品質に優れた補間が可能であることが示された。 私たちのコードはhttps://github.com/danier97/ldmvfiで利用可能です。

Existing works on video frame interpolation (VFI) mostly employ deep neural networks that are trained by minimizing the L1, L2, or deep feature space distance (e.g. VGG loss) between their outputs and ground-truth frames. However, recent works have shown that these metrics are poor indicators of perceptual VFI quality. Towards developing perceptually-oriented VFI methods, in this work we propose latent diffusion model-based VFI, LDMVFI. This approaches the VFI problem from a generative perspective by formulating it as a conditional generation problem. As the first effort to address VFI using latent diffusion models, we rigorously benchmark our method on common test sets used in the existing VFI literature. Our quantitative experiments and user study indicate that LDMVFI is able to interpolate video content with favorable perceptual quality compared to the state of the art, even in the high-resolution regime. Our code is available at https://github.com/danier97/LDMVFI.
翻訳日:2023-12-13 03:10:45 公開日:2023-12-11
# MTP-GO:ニューラルネットワークを用いたグラフベース確率的多エージェント軌道予測

MTP-GO: Graph-Based Probabilistic Multi-Agent Trajectory Prediction with Neural ODEs ( http://arxiv.org/abs/2302.00735v4 )

ライセンス: Link先を確認
Theodor Westny, Joel Oskarsson, Bj\"orn Olofsson and Erik Frisk(参考訳) レジリエントな自律運動計画を実現するには、周囲の道路利用者の将来行動の堅牢な予測が必要である。 このニーズと関連する課題に応えて,我々はMTP-GOというモデルを紹介した。 このモデルは、テンポラリグラフニューラルネットワークを使用してシーンをエンコードし、基盤となる動きモデルへの入力を生成する。 運動モデルは、状態遷移関数がモデルの残りの部分で学習される神経常微分方程式を用いて実装される。 多モード確率予測は混合密度ネットワークとカルマンフィルタの概念を組み合わせることで得られる。 その結果,提案モデルの予測性能が様々なデータセットにまたがって示され,複数の測定値において最先端の手法を上回った。

Enabling resilient autonomous motion planning requires robust predictions of surrounding road users' future behavior. In response to this need and the associated challenges, we introduce our model titled MTP-GO. The model encodes the scene using temporal graph neural networks to produce the inputs to an underlying motion model. The motion model is implemented using neural ordinary differential equations where the state-transition functions are learned with the rest of the model. Multimodal probabilistic predictions are obtained by combining the concept of mixture density networks and Kalman filtering. The results illustrate the predictive capabilities of the proposed model across various data sets, outperforming several state-of-the-art methods on a number of metrics.
翻訳日:2023-12-13 03:08:11 公開日:2023-12-11
# Q-score Max-Clique:マルチ計算パラダイムにおける最初の量子メトリック評価

Q-score Max-Clique: The First Quantum Metric Evaluation on Multiple Computational Paradigms ( http://arxiv.org/abs/2302.00639v2 )

ライセンス: Link先を確認
Ward van der Schoot, Robert Wezeman, Niels M. P. Neumann, Frank Phillipson, Rob Kooij(参考訳) 量子デバイスの性能評価は、量子デバイスをスケールし、最終的にそれを実際に使用するための重要なステップである。 利用可能な量子メトリックや量子コンピュータの開発に使われる様々なハードウェア技術は、この評価を複雑にしている。 さらに、異なる計算パラダイムは、異なる方法で量子演算を実装する。 我々は、Atos の Q-スコア計量を Q-スコア Max-Clique に拡張することで、量子メトリクスのランドスケープに追加する。 我々の知る限り、これは量子コンピューティングの3つの異なるパラダイムの比較を可能にする最初のアプリケーションレベルの計量となる。 このメトリックは、量子アニール、ゲートベースの量子コンピューティング、フォトニック量子コンピューティングなど、これらの計算量子パラダイムに基づいて評価され、古典的な解法によって得られるものと比較される。

Evaluating the performance of quantum devices is an important step towards scaling quantum devices and eventually using them in practice. The great number of available quantum metrics and the different hardware technologies used to develop quantum computers complicate this evaluation. In addition, different computational paradigms implement quantum operations in different ways. We add to the landscape of quantum metrics by extending the Q-score metric of Atos to the Q-score Max-Clique. To our knowledge, this yields the first application-level metric which allows comparison of three different paradigms of quantum computing. This metric is evaluated on these computational quantum paradigms -- quantum annealing, gate-based quantum computing, and photonic quantum computing -- and the results are compared to those obtained by classical solvers.
翻訳日:2023-12-13 03:08:00 公開日:2023-12-11
# 単一表面からの量子欠陥は強い相互相互作用を示す

Quantum defects from single surface exhibit strong mutual interactions ( http://arxiv.org/abs/2302.00318v2 )

ライセンス: Link先を確認
Chih-Chiao Hung, Tim Kohler and Kevin D. Osborn(参考訳) 2レベルシステム(TLS)欠陥は量子情報科学の主要なデコヒーレンス源であるが、一般的には堆積膜よりも材料界面では理解されていない。 本稿では, 共振器の真空ギャップ(VG)コンデンサ内の準均一場を用いて, 金属-空気界面の表面TLSについて検討する。 VGコンデンサは、回路QEDで使用される典型的な共振器よりも、金属-空気界面からマグニチュードの大きなコントリビューションを生成するナノギャップを有する。 3つの現象を計測し、相互作用するtlsモデルと定性的な一致を見いだし、近共振tlssは、遠波長低周波tlsの状態切替からかなりの周波数ジッタを経験する。 まず、VG共振器の損失は、堆積誘電体膜のデータとは対照的に、弱いか対数的にパワー依存であることがわかった。 第2に、送信測定に電力$P_{in}$の飽和音を加え、TLS Rabi周波数$\Omega_{0}$を得る。 これらのデータは、標準の非相互作用TLSモデルからの予測よりも、$\Omega_{0}$への依存がかなり弱いことを示している。 最後に, 電力依存損失と位相雑音の測定値から, 温度を上昇させ, TLSジッタ率と減音率をそれぞれ増加させる。 また,低周波TLS密度とジッタレートを低下させるアニール試料も得られたが,単光子損失は変化しない。 結果は高速スイッチング相互作用TLSモデルと定性的に一致し、TLSを独立に記述するTLSの標準モデルと対比する。

Two-level system (TLS) defects constitute a major decoherence source of quantum information science, but they are generally less understood at material interfaces than in deposited films. Here we study surface TLSs at the metal-air interface, by probing them using a quasi-uniform field within vacuum-gap (VG) capacitors of resonators. The VG capacitor has a nano-gap which creates an order-of-magnitude larger contribution from the metal-air interface than typical resonators used in circuit QED. We measure three phenomena and find qualitative agreement with an interacting TLS model, where near-resonant TLSs experience substantial frequency jitter from the state switching of far-detuned low-frequency TLSs. First, we find that the loss in all of our VG resonators is weakly or logarithmically power dependent, in contrast to data from deposited dielectric films. Second, we add a saturation tone with power $P_{in}$ to a transmission measurement and obtain the TLS Rabi frequency $\Omega_{0}$. These data show a substantially weaker $P_{in}$ dependence of $\Omega_{0}$ than the prediction from the standard non-interacting TLS model. Lastly, we increase the temperature and find an increased TLS jitter rate and dephasing rate from power-dependent loss and phase noise measurements, respectively. We also anneal samples, which lowers the low-frequency TLS density and jitter rate, but the single-photon loss is found to be unchanged. The results are qualitatively consistent with a fast-switching interacting-TLS model and they contrast the standard model of TLSs which describes TLSs independently.
翻訳日:2023-12-13 03:07:47 公開日:2023-12-11
# 量子MAC:多体ディック状態による遺伝子エンタングルメントアクセス制御

Quantum MAC: Genuine Entanglement Access Control via Many-Body Dicke States ( http://arxiv.org/abs/2305.01276v3 )

ライセンス: Link先を確認
Jessica Illiano, Marcello Caleffi, Michele Viscardi, Angela Sara Cacciapuoti(参考訳) 多成分の絡み合いは量子インターネットの設計において重要な役割を担っている。 しかし、絡み合いベースの量子ネットワークでは、絡み合いリソースへのアクセスにおいて量子ノードを適切に処理し調整するための効果的な絡み合いアクセス制御(EAC)戦略が欠如しているため、鍵となる開きが生じる。 本稿では,マルチパーティント・エンタングルド・リソースにアクセスする際の競合問題を解決するために,量子遺伝的エンタングルメント・アクセス制御(EAC)を設計する。 提案された量子ジヌ EAC は以下のことができる。 i) 競合する資源へのアクセスにより付与されたノードのサブセットを適宜選択すること。 二 選択されたノードのアイデンティティのプライバシー及び匿名性を保持すること。 三 旧来のネットワークに絡み合ったアクセス制御によって生じるシグナルを委譲することを避けること。 また,提案EACにおけるノイズ効果の理論的解析を行った。 この理論的解析は、有意なパラメータを通してAECの複雑なノイズ効果を捉えることができる。

Multipartite entanglement plays a crucial role for the design of the Quantum Internet, due to its peculiarities with no classical counterpart. Yet, for entanglement-based quantum networks, a key open issue is constituted by the lack of an effective entanglement access control (EAC) strategy for properly handling and coordinating the quantum nodes in accessing the entangled resource. In this paper, we design a quantum-genuine entanglement access control (EAC) to solve the contention problem arising in accessing a multipartite entangled resource. The proposed quantum-genuine EAC is able to: i) fairly select a subset of nodes granted with the access to the contended resource; ii) preserve the privacy and anonymity of the identities of the selected nodes; iii) avoid to delegate the signaling arising with entanglement access control to the classical network. We also conduct a theoretical analysis of noise effects on the proposed EAC. This theoretical analysis is able to catch the complex noise effects on the EAC through meaningful parameters.
翻訳日:2023-12-13 03:00:44 公開日:2023-12-11
# ポリトープ互換性 --量子測定から魔法の正方形まで-

Polytope compatibility -- from quantum measurements to magic squares ( http://arxiv.org/abs/2304.10920v2 )

ライセンス: Link先を確認
Andreas Bluhm, Ion Nechita, Simon Schmidt(参考訳) 量子情報理論におけるいくつかの中心的な問題(測定整合性や量子ステアリングなど)は、特別なポリトープ(ハイパーキューブや双対など)に対応する最小の行列凸集合のメンバシップとして表現できる。 本稿では、この概念を一般化し、任意のポリトープを考慮し、ポリトープ互換の概念を導入する。 半古典的な魔法の正方形は birkhoff polytope compatibility に対応する。 一般に、測定値が共通な要素を持ち、関節計測の後処理が制限されている場合、ポリトープの整合性は測定値の整合性と一対一で一致していることが証明される。 最後に, 最適関節数範囲を持つ演算子のタプルが, ポリトープ互換となり, 線形プログラミングに基づく解析的十分条件と数値的条件の両方を与えるために, 最悪の場合においてどの程度スケールする必要があるかを考察する。

Several central problems in quantum information theory (such as measurement compatibility and quantum steering) can be rephrased as membership in the minimal matrix convex set corresponding to special polytopes (such as the hypercube or its dual). In this article, we generalize this idea and introduce the notion of polytope compatibility, by considering arbitrary polytopes. We find that semiclassical magic squares correspond to Birkhoff polytope compatibility. In general, we prove that polytope compatibility is in one-to-one correspondence with measurement compatibility, when the measurements have some elements in common and the post-processing of the joint measurement is restricted. Finally, we consider how much tuples of operators with appropriate joint numerical range have to be scaled in the worst case in order to become polytope compatible and give both analytical sufficient conditions and numerical ones based on linear programming.
翻訳日:2023-12-13 02:58:46 公開日:2023-12-11
# 多エージェント強化学習における時空間的逐次意思決定によるstackelberg平衡誘導

Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.10351v2 )

ライセンス: Link先を確認
Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li and Guoliang Fan(参考訳) マルチエージェント強化学習(marl)では、自己関心エージェントは均衡を確立し、ゲーム構造に応じて協調を図る。 しかしながら、既存のmarlアプローチは、主にマルコフゲーム(mg)フレームワークにおける全てのエージェントの同時アクションに縛られ、非同期アクションコーディネーションによる均衡戦略の形成を考える作品はほとんどない。 ナッシュ均衡に対するスタックルバーグ均衡(SE)の利点を考慮すると、MGから導かれる時空間的逐次決定構造を構築し、全てのエージェントが共有する条件付きハイパーネットワークに基づくNレベル政策モデルを提案する。 このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。 エージェントはパラメータ共有を維持しながら異種なseポリシーを学習できるため、学習とストレージのコストが削減され、エージェントの数が増えるにつれてスケーラビリティが向上する。 実験により,提案手法は繰り返し行列ゲームシナリオにおいてSEポリシーに効果的に収束し,協調タスクや混合タスクを含む極めて複雑な設定で良好に機能することが示された。

In multi-agent reinforcement learning (MARL), self-interested agents attempt to establish equilibrium and achieve coordination depending on game structure. However, existing MARL approaches are mostly bound by the simultaneous actions of all agents in the Markov game (MG) framework, and few works consider the formation of equilibrium strategies via asynchronous action coordination. In view of the advantages of Stackelberg equilibrium (SE) over Nash equilibrium, we construct a spatio-temporal sequential decision-making structure derived from the MG and propose an N-level policy model based on a conditional hypernetwork shared by all agents. This approach allows for asymmetric training with symmetric execution, with each agent responding optimally conditioned on the decisions made by superior agents. Agents can learn heterogeneous SE policies while still maintaining parameter sharing, which leads to reduced cost for learning and storage and enhanced scalability as the number of agents increases. Experiments demonstrate that our method effectively converges to the SE policies in repeated matrix game scenarios, and performs admirably in immensely complex settings including cooperative tasks and mixed tasks.
翻訳日:2023-12-13 02:58:31 公開日:2023-12-11
# AdapterGNN: GNNの一般化を改善するパラメータ効率の良いファインチューニング

AdapterGNN: Parameter-Efficient Fine-Tuning Improves Generalization in GNNs ( http://arxiv.org/abs/2304.09595v2 )

ライセンス: Link先を確認
Shengrui Li, Xueting Han, Jing Bai(参考訳) 微調整された事前学習モデルは最近、グラフニューラルネットワーク(gnns)のパフォーマンス向上をもたらした。 自然言語分野の最新研究に触発された事前学習技術に加えて、より最近の研究はパラメーター効率の細かいチューニング(peft)のような効果的な微調整アプローチの適用へとシフトしている。 しかし、GNNとトランスフォーマーベースモデルとの大きな違いを考えると、そのようなアプローチをGNNに直接適用することは効果が低かった。 本稿では,GNNのためのPEFT手法を包括的に比較し,GNN向けに設計された新しいPEFT手法であるAdapterGNNを提案する。 adaptergnnは、事前学習された大規模モデルの知識を保存し、gnnの高度に表現力のあるアダプタを活用し、少数のパラメータで下流タスクに効果的に対応できると同時に、モデルの一般化能力も向上している。 大規模な実験により、AdapterGNNは他のPEFT法よりも高い性能を達成し、完全な微調整(化学領域ではそれぞれ1.6%、生物学領域では5.7%、パラメータ調整では5%と4%)を連続的に上回っている。 さらに,より大規模なGNNモデルでは,大きなトランスフォーマーモデルで観測される傾向とは異なる,より悪い一般化能力を持つことを示す。 これに基づいて、PEFT が一般化境界を適用して GNN の一般化を改善するための理論的正当性を提供する。 私たちのコードはhttps://github.com/Lucius-lsr/AdapterGNNで利用可能です。

Fine-tuning pre-trained models has recently yielded remarkable performance gains in graph neural networks (GNNs). In addition to pre-training techniques, inspired by the latest work in the natural language fields, more recent work has shifted towards applying effective fine-tuning approaches, such as parameter-efficient fine-tuning (PEFT). However, given the substantial differences between GNNs and transformer-based models, applying such approaches directly to GNNs proved to be less effective. In this paper, we present a comprehensive comparison of PEFT techniques for GNNs and propose a novel PEFT method specifically designed for GNNs, called AdapterGNN. AdapterGNN preserves the knowledge of the large pre-trained model and leverages highly expressive adapters for GNNs, which can adapt to downstream tasks effectively with only a few parameters, while also improving the model's generalization ability. Extensive experiments show that AdapterGNN achieves higher performance than other PEFT methods and is the only one consistently surpassing full fine-tuning (outperforming it by 1.6% and 5.7% in the chemistry and biology domains respectively, with only 5% and 4% of its parameters tuned) with lower generalization gaps. Moreover, we empirically show that a larger GNN model can have a worse generalization ability, which differs from the trend observed in large transformer-based models. Building upon this, we provide a theoretical justification for PEFT can improve generalization of GNNs by applying generalization bounds. Our code is available at https://github.com/Lucius-lsr/AdapterGNN.
翻訳日:2023-12-13 02:58:09 公開日:2023-12-11
# 仮想対応を用いた4点からの3つの校正カメラと部分校正カメラの相対ポーズ

Relative pose of three calibrated and partially calibrated cameras from four points using virtual correspondences ( http://arxiv.org/abs/2303.16078v2 )

ライセンス: Link先を確認
Charalambos Tzamos, Daniel Barath, Torsten Sattler, Zuzana Kukelova(参考訳) 本研究では,3つのカメラの相対姿勢を推定する課題について検討し,(1)4p3v問題として知られる3つのキャリブレーションビューにおける4点配置の難しさ,(2)未解決の4点配置,すなわち4p3vf問題に対する新しい効率的な解決法を提案する。 提案手法は,2つのビューに1つまたは2つの仮想点対応を生成するという単純なアイデアに基づいて,3つのビューにおける4つの入力対応の位置からの情報を利用する。 我々は,3つの入力点の平均点を新しい点とするか,あるいは単純なニューラルネットワークを用いて,非常にシンプルで効率的な対応を生成する。 新しいソルバは、既存の効率的な最小ソルバ、すなわちよく知られた5点および6点相対ポーズソルバとp3pソルバに基づいているため、効率的で実装が容易である。 我々の解法は実データで最先端の結果を得る。

We study challenging problems of estimating the relative pose of three cameras and propose novel efficient solutions to (1) the notoriously difficult configuration of four points in three calibrated views, known as the 4p3v problem, and (2) to the previously unsolved configuration of four points in three cameras with unknown shared focal length, i.e., the 4p3vf problem. Our solutions are based on the simple idea of generating one or two additional virtual point correspondences in two views by using the information from the locations of the four input correspondences in the three views. We generate such correspondences using either a very simple and efficient strategy where the new points are the mean points of three corresponding input points or using a simple neural network. The new solvers are efficient and easy to implement since they are based on existing efficient minimal solvers, i.e., the well-known 5-point and 6-point relative pose solvers and the P3P solver. Our solvers achieve state-of-the-art results on real data.
翻訳日:2023-12-13 02:55:54 公開日:2023-12-11
# l^2$空間におけるポテンシャル散乱:(2)波束の厳密な散乱確率

Potential scattering in $L^2$ space: (2) Rigorous scattering probability of wave packets ( http://arxiv.org/abs/2305.16970v3 )

ライセンス: Link先を確認
Kenzo Ishikawa(参考訳) 本研究では, 生成物の確率原理と結合性に応じてガウス波パケットを用いた実験において, ポテンシャル散乱を定式化する。 結合性の破れは、短距離ポテンシャルの大部分で定常散乱状態を持つスカラー積で観測される。 このため、異なるエネルギーの状態は直交せず、それらの重ね合わせは正規化された分離状態を表すのに適さない。 結合強度の摂動膨張における自由波のパケットは結合性を保持し、量子力学のユニタリ性やその他の原理を表わす厳密な振幅を与える。 絶対確率は有限であり、断面積と新しい一意性項を含む。 結果はまた、一意な振る舞いを極端に前方に示す干渉項も示している。

In this study, potential scatterings are formulated in experimental setups with Gaussian wave packets in accordance with a probability principle and associativity of products. A breaking of an associativity is observed in scalar products with stationary scattering states in a majority of short-range potentials. Due to the breaking, states of different energies are not orthogonal and their superposition is not suitable for representing a normalized isolate state. Free wave packets in perturbative expansions in coupling strengths keep the associativity, and give a rigorous amplitude that preserves manifest unitarity and other principles of the quantum mechanics. An absolute probability is finite and comprises cross sections and new terms of unique properties. The results also demonstrate an interference term displaying unique behavior at an extreme forward direction.
翻訳日:2023-12-13 02:48:18 公開日:2023-12-11
# ソーシャルメディアにおけるエンゲージメント,ユーザ満足度,分断コンテンツの増幅

Engagement, User Satisfaction, and the Amplification of Divisive Content on Social Media ( http://arxiv.org/abs/2305.16941v4 )

ライセンス: Link先を確認
Smitha Milli, Micah Carroll, Yike Wang, Sashrika Pandey, Sebastian Zhao, Anca D. Dragan(参考訳) 事前登録されたランダム化実験で、twitterのエンゲージメントベースのランキングアルゴリズムは、感情的にチャージされ、グループ外で敵対的なコンテンツを増幅し、ユーザーが自分の政治的アウトグループについてより悪くなると感じていることがわかった。 さらに,ユーザが選択した政治的つぶやきを好まないことを見出し,エンゲージメントに基づくアルゴリズムがユーザの好みを満たさないことを示唆する。 最後に,ユーザの指定した嗜好に基づいてコンテンツのランク付けを行い,怒りやパルチザン,グループ外の敵対的コンテンツの削減に加えて,エコーチェンバーの強化の可能性も探究する。 この証拠は、エンゲージメント、ユーザの選好、社会政治的な結果のバランスをとる、より微妙なコンテンツランキングアプローチの必要性を強調している。

In a pre-registered randomized experiment, we found that, relative to a reverse-chronological baseline, Twitter's engagement-based ranking algorithm amplifies emotionally charged, out-group hostile content that users say makes them feel worse about their political out-group. Furthermore, we find that users do not prefer the political tweets selected by the algorithm, suggesting that the engagement-based algorithm underperforms in satisfying users' stated preferences. Finally, we explore the implications of an alternative approach that ranks content based on users' stated preferences and find a reduction in angry, partisan, and out-group hostile content but also a potential reinforcement of echo chambers. The evidence underscores the necessity for a more nuanced approach to content ranking that balances engagement, users' stated preferences, and sociopolitical outcomes.
翻訳日:2023-12-13 02:48:07 公開日:2023-12-11
# 中毒攻撃時のロバスト非パラメトリック回帰

Robust Nonparametric Regression under Poisoning Attack ( http://arxiv.org/abs/2305.16771v2 )

ライセンス: Link先を確認
Puning Zhao, Zhiguo Wan(参考訳) 本稿では,攻撃者が最大$q$のトレーニングデータセットから,最大$q$のサンプル値を変更することができるロバストな非パラメトリック回帰法について検討する。 初期解法はハマー損失最小化に基づくM推定器である。 単純なカーネル回帰、すなわちNadaraya-Watson推定器と比較して、この手法は、悪意のあるサンプルが回帰性能に与える影響を著しく弱める。 収束率とそれに対応するミニマックス下限を提供する。 その結果、適切な帯域選択により、$\ell_\infty$エラーがminimax最適となる。 $\ell_2$エラーは比較的小さな$q$で最適であるが、より大きい$q$で最適である。 この推定器は、小さな領域に集中している多くの攻撃されたサンプルが存在する場合、脆弱である。 この問題に対処するために,初期推定をリプシッツ関数の空間に投影する補正法を提案する。 最後の見積もりは、任意の$q$に対してほぼ最小値であり、$\ln N$ factorまでである。

This paper studies robust nonparametric regression, in which an adversarial attacker can modify the values of up to $q$ samples from a training dataset of size $N$. Our initial solution is an M-estimator based on Huber loss minimization. Compared with simple kernel regression, i.e. the Nadaraya-Watson estimator, this method can significantly weaken the impact of malicious samples on the regression performance. We provide the convergence rate as well as the corresponding minimax lower bound. The result shows that, with proper bandwidth selection, $\ell_\infty$ error is minimax optimal. The $\ell_2$ error is optimal with relatively small $q$, but is suboptimal with larger $q$. The reason is that this estimator is vulnerable if there are many attacked samples concentrating in a small region. To address this issue, we propose a correction method by projecting the initial estimate to the space of Lipschitz functions. The final estimate is nearly minimax optimal for arbitrary $q$, up to a $\ln N$ factor.
翻訳日:2023-12-13 02:47:50 公開日:2023-12-11
# 大言語モデルは半構造化インタビューの帰納的テーマ分析をエミュレートできるか? アプローチとモデルの限界に関する探索と挑発

Can Large Language Models emulate an inductive Thematic Analysis of semi-structured interviews? An exploration and provocation on the limits of the approach and the model ( http://arxiv.org/abs/2305.13014v4 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 大規模言語モデル(LLM)は、いくつかの分野や作業領域に適用可能な強力な生成人工知能ソリューションとして登場した。 本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。 本研究のこれまでの研究は、導出分析の実施に大きく取り組んできた。 主題分析 (thematic analysis) は、社会科学において一般的に用いられる分析の定性的手法であり、人間の分析者による解釈と定性データにおける明示的・潜在的な意味の同定に基づいている。 LLMによる人間の解釈に基づく分析の試みは、明らかに挑発であると同時に、これらのシステムが質的研究でどのように使えるかを学ぶための方法でもある。 本論文は,このエミュレーションを試みる動機について述べるとともに,ブラウンとクラークが提案したテーマ分析への6つのステップを少なくとも部分的にllmで再現できることを示すとともに,モデルが生成するアウトプットを反映する。 論文では、これまでThematic Analysisで分析されていたオープンアクセス半構造化インタビューのデータセットを2つ使用した。 以前に作成された分析(および関連するテーマ)を使用して、LLMが生成した結果と比較した。 結果は、モデルが少なくとも一部主要なテーマを推測できることを示している。 本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。

Large Language Models (LLMs) have emerged as powerful generative Artificial Intelligence solutions which can be applied to several fields and areas of work. This paper presents results and reflection of an experiment done to use the model GPT 3.5-Turbo to emulate some aspects of an inductive Thematic Analysis. Previous research on this subject has largely worked on conducting deductive analysis. Thematic Analysis is a qualitative method for analysis commonly used in social sciences and it is based on interpretations made by the human analyst(s) and the identification of explicit and latent meanings in qualitative data. Attempting an analysis based on human interpretation with an LLM clearly is a provocation but also a way to learn something about how these systems can or cannot be used in qualitative research. The paper presents the motivations for attempting this emulation, it reflects on how the six steps to a Thematic Analysis proposed by Braun and Clarke can at least partially be reproduced with the LLM and it also reflects on what are the outputs produced by the model. The paper used two existing datasets of open access semi-structured interviews, previously analysed with Thematic Analysis by other researchers. It used the previously produced analysis (and the related themes) to compare with the results produced by the LLM. The results show that the model can infer at least partially some of the main Themes. The objective of the paper is not to replace human analysts in qualitative analysis but to learn if some elements of LLM data manipulation can to an extent be of support for qualitative research.
翻訳日:2023-12-13 02:47:13 公開日:2023-12-11
# 直交部分空間における話者および音声情報を符号化する自己教師付き予測符号化モデル

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces ( http://arxiv.org/abs/2305.12464v3 )

ライセンス: Link先を確認
Oli Liu, Hao Tang, Sharon Goldwater(参考訳) 自己教師付き音声表現は、話者情報と音声情報の両方を符号化することが知られているが、それらが高次元空間でどのように分配されるかはほとんど解明されていない。 我々はそれらが直交部分空間にエンコードされているという仮説を立てる。 主成分分析を2つの予測符号化モデルの表現に適用し、話者と音声の分散を捉える2つの部分空間を特定し、それらがほぼ直交的であることを確認した。 そこで本研究では,文字起こしを必要とせず,話者情報を符号化する部分空間を崩壊させる話者正規化手法を提案する。 提案手法は, 話者情報を効果的に排除し, 過去の音声識別課題のベースラインを上回っていることを示す。 さらに、このアプローチは一般化され、目に見えない話者の情報を削除するために使用できる。

Self-supervised speech representations are known to encode both speaker and phonetic information, but how they are distributed in the high-dimensional space remains largely unexplored. We hypothesize that they are encoded in orthogonal subspaces, a property that lends itself to simple disentanglement. Applying principal component analysis to representations of two predictive coding models, we identify two subspaces that capture speaker and phonetic variances, and confirm that they are nearly orthogonal. Based on this property, we propose a new speaker normalization method which collapses the subspace that encodes speaker information, without requiring transcriptions. Probing experiments show that our method effectively eliminates speaker information and outperforms a previous baseline in phone discrimination tasks. Moreover, the approach generalizes and can be used to remove information of unseen speakers.
翻訳日:2023-12-13 02:46:28 公開日:2023-12-11
# waymo open sim agentsチャレンジ

The Waymo Open Sim Agents Challenge ( http://arxiv.org/abs/2305.12032v4 )

ライセンス: Link先を確認
Nico Montali, John Lambert, Paul Mougin, Alex Kuefler, Nick Rhinehart, Michelle Li, Cole Gulino, Tristan Emrich, Zoey Yang, Shimon Whiteson, Brandyn White, Dragomir Anguelov(参考訳) 現実的でインタラクティブなエージェントによるシミュレーションは、自動運転車ソフトウェア開発の重要なタスクである。 本稿では,Waymo Open Sim Agents Challenge (WOSAC)を紹介する。 WOSACはこの課題に取り組み、対応するメトリクスを提案する最初の公開課題である。 この課題の目標は、自律運転のための行動モデルの評価と訓練に使用できる現実的なシミュレータの設計を刺激することである。 我々は,2023年3月16日から5月23日にかけて実施された2023年大会における,評価手法の概要,各種のベースラインシミュレーション手法の評価結果について概説する。 wosac評価サーバは引き続き提出を受け付けており、タスクのオープンな問題について議論する。

Simulation with realistic, interactive agents represents a key task for autonomous vehicle software development. In this work, we introduce the Waymo Open Sim Agents Challenge (WOSAC). WOSAC is the first public challenge to tackle this task and propose corresponding metrics. The goal of the challenge is to stimulate the design of realistic simulators that can be used to evaluate and train a behavior model for autonomous driving. We outline our evaluation methodology, present results for a number of different baseline simulation agent methods, and analyze several submissions to the 2023 competition which ran from March 16, 2023 to May 23, 2023. The WOSAC evaluation server remains open for submissions and we discuss open problems for the task.
翻訳日:2023-12-13 02:46:06 公開日:2023-12-11
# クリーンデータよりも腐敗データの多いシステム同定のための厳密なリカバリ

Exact Recovery for System Identification with More Corrupt Data than Clean Data ( http://arxiv.org/abs/2305.10506v2 )

ライセンス: Link先を確認
Baturalp Yalcin, Javad Lavaei, Murat Arcak(参考訳) 本稿では,2つのラッソ型推定器を用いた線形離散時間系のシステム同定問題について検討する。 本研究では,2つのシナリオにおいて,これらの推定器の漸近特性と非漸近特性について検討した。 システムから採取したサンプルは相関しているため,既存のラッソに関する結果は適用できない。 システムを安定させ,攻撃を定期的に注入した場合,システムダイナミクスの正確な回復のためのサンプル複雑性は,n が状態の次元である O(n) であることが示される。 逆攻撃が確率 p のインスタンスごとに発生すると、正確な回復に必要なサンプルの複雑さは o(\log(n)p/(1-p)^2) となる。 この結果は漸近的体制下での真の系力学へのほぼ確実に収束することを意味する。 副産物として、データの半数以上が漏洩しても、推定者はシステムについて正しく学習する。 本稿では,不正データよりもクリーンなデータが少ない場合の動的システムの相関データからの学習に関する文献において,最初の数学的保証を提供する。

In this paper, we study the system identification problem for linear discrete-time systems under adversaries and analyze two lasso-type estimators. We study both asymptotic and non-asymptotic properties of these estimators in two separate scenarios, corresponding to deterministic and stochastic models for the attack times. Since the samples collected from the system are correlated, the existing results on lasso are not applicable. We show that when the system is stable and the attacks are injected periodically, the sample complexity for the exact recovery of the system dynamics is O(n), where n is the dimension of the states. When the adversarial attacks occur at each time instance with probability p, the required sample complexity for the exact recovery scales as O(\log(n)p/(1-p)^2). This result implies the almost sure convergence to the true system dynamics under the asymptotic regime. As a by-product, even when more than half of the data is compromised, our estimators still learn the system correctly. This paper provides the first mathematical guarantee in the literature on learning from correlated data for dynamical systems in the case when there is less clean data than corrupt data.
翻訳日:2023-12-13 02:45:54 公開日:2023-12-11
# 言語モデルによるポケット内3d分子の生成

Generation of 3D Molecules in Pockets via Language Model ( http://arxiv.org/abs/2305.10133v3 )

ライセンス: Link先を確認
Wei Feng (1), Lvwei Wang (1), Zaiyun Lin (1), Yanhao Zhu (1), Han Wang (1), Jianqiang Dong (1), Rong Bai (1), Huting Wang (1), Jielong Zhou (1), Wei Peng (2), Bo Huang (1), Wenbiao Zhou (1) ((1) Beijing StoneWise Technology Co Ltd (2) Innovation Center for Pathogen Research Guangzhou Laboratory)(参考訳) 逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まりつつあるが、重要な3次元空間相互作用を捉え、しばしば望ましくない分子構造を生成するのに苦労している。 これらの課題に対処するために,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。 分子トポロジと原子空間位置の学習を支援するために, 局所座標と大域座標を用いた新しい分子表現, フラグメントベースSMILESを開発した。 さらに、生成モデルに不可欠な結合パターン情報を提供するために、別々の非共有相互作用予測器を訓練した。 リンゴ3DMolは薬物のような化学空間を効率的に横切ることができ、異常な構造の形成を防いでいる。 有用なdecoys-enhanced(dud-e)データセットのディレクトリが評価に使用された。 lingo3dmolは薬物の類似性、合成アクセシビリティ、ポケット結合モード、分子生成速度において最先端の手法を上回っている。

Generative models for molecules based on sequential line notation (e.g. SMILES) or graph representation have attracted an increasing interest in the field of structure-based drug design, but they struggle to capture important 3D spatial interactions and often produce undesirable molecular structures. To address these challenges, we introduce Lingo3DMol, a pocket-based 3D molecule generation method that combines language models and geometric deep learning technology. A new molecular representation, fragment-based SMILES with local and global coordinates, was developed to assist the model in learning molecular topologies and atomic spatial positions. Additionally, we trained a separate noncovalent interaction predictor to provide essential binding pattern information for the generative model. Lingo3DMol can efficiently traverse drug-like chemical spaces, preventing the formation of unusual structures. The Directory of Useful Decoys-Enhanced (DUD-E) dataset was used for evaluation. Lingo3DMol outperformed state-of-the-art methods in terms of drug-likeness, synthetic accessibility, pocket binding mode, and molecule generation speed.
翻訳日:2023-12-13 02:45:33 公開日:2023-12-11
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v4 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien(参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態のゲージ不変量 qgt は導出され、その実部と虚部はそれぞれバーズ計量とウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離を結び、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 混合状態のバーズ計量は、温度が0に近づくにつれて、基底状態の対応するフビニ・スタディ計量に減少することが示され、異なる基底フィブレーションにもかかわらず対応を確立する。 また,局所的な地形を対比した2つの例を示し,実験的含意について論じる。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The gauge-invariant QGT of mixed states is derived, whose real and imaginary parts are the Bures metric and the Uhlmann form, respectively. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances and reflect the underlying fibration. The Bures metric of mixed states is shown to reduce to the corresponding Fubini-Study metric of the ground state as temperature approaches zero, establishing a correspondence despite the different underlying fibrations. We also present two examples with contrasting local geometries and discuss experimental implications.
翻訳日:2023-12-13 02:45:01 公開日:2023-12-11
# インテリジェントIoTサービスのための階層型階層型フェデレーション学習支援NTN

Multi-Tier Hierarchical Federated Learning-assisted NTN for Intelligent IoT Services ( http://arxiv.org/abs/2305.05463v2 )

ライセンス: Link先を確認
Amin Farajzadeh, Animesh Yadav, Halim Yanikomeroglu(参考訳) IoTの世界では、相互接続されたデバイスの複雑なネットワークを管理することが、根本的な課題である。 リアルタイムネットワーク管理とIoTデータ処理の決定に協力して参加するようにIoTデバイスを招待した場合はどうでしょう? この調査は、NTNアーキテクチャ、特にVHetNetとMT-HFLフレームワークの統合を通じて、IoTの急成長する複雑さに対処する、革新的なアプローチの基盤を形成します。 vhetnetsは、地上と非地上の要素を調和させることで、従来のネットワークパラダイムを超越し、広大な接続性とレジリエンスを確保する。 MT-HFLの組み入れにより、地上のエッジデバイスから地上のプラットフォームや衛星まで、多層ネットワークスペクトルにわたってインテリジェントなデータ処理が分散されるようになる。 本研究は、分散された協調学習環境の育成におけるMT-HFLの役割を探求し、IoTデバイスが貢献するだけでなく、ネットワーク管理における情報的意思決定を可能にする。 この方法論は、IoTデータの非IID的な性質によって引き起こされる課題を十分に処理し、広範なIoTネットワークで発生する通信オーバーヘッドを効率的に削減する。 MT-HFLは、ローカルなデータ処理を容易にし、生データの代わりにモデルアップデートの共有を制限することで、IoTエコシステムの最も重要な側面であるデータのプライバシを強化する。 ケーススタディを評価することで、vhetnetsにおけるmt-hflの相乗的統合により、iot環境の変化する要求にロバストでスケーラブルで動的に適応するインテリジェントネットワークアーキテクチャが生み出されることを示した。 このセットアップにより、効率的なデータ処理、高度なプライバシとセキュリティ対策、および変動するネットワーク条件に対する応答性を保証する。

In the ever-expanding landscape of the IoT, managing the intricate network of interconnected devices presents a fundamental challenge. This leads us to ask: "What if we invite the IoT devices to collaboratively participate in real-time network management and IoT data-handling decisions?" This inquiry forms the foundation of our innovative approach, addressing the burgeoning complexities in IoT through the integration of NTN architecture, in particular, VHetNet, and an MT-HFL framework. VHetNets transcend traditional network paradigms by harmonizing terrestrial and non-terrestrial elements, thus ensuring expansive connectivity and resilience, especially crucial in areas with limited terrestrial infrastructure. The incorporation of MT-HFL further revolutionizes this architecture, distributing intelligent data processing across a multi-tiered network spectrum, from edge devices on the ground to aerial platforms and satellites above. This study explores MT-HFL's role in fostering a decentralized, collaborative learning environment, enabling IoT devices to not only contribute but also make informed decisions in network management. This methodology adeptly handles the challenges posed by the non-IID nature of IoT data and efficiently curtails communication overheads prevalent in extensive IoT networks. Significantly, MT-HFL enhances data privacy, a paramount aspect in IoT ecosystems, by facilitating local data processing and limiting the sharing of model updates instead of raw data. By evaluating a case-study, our findings demonstrate that the synergistic integration of MT-HFL within VHetNets creates an intelligent network architecture that is robust, scalable, and dynamically adaptive to the ever-changing demands of IoT environments. This setup ensures efficient data handling, advanced privacy and security measures, and responsive adaptability to fluctuating network conditions.
翻訳日:2023-12-13 02:44:43 公開日:2023-12-11
# 視覚シーングラフから画像キャプションへの変換

Transforming Visual Scene Graphs to Image Captions ( http://arxiv.org/abs/2305.02177v4 )

ライセンス: Link先を確認
Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang Li, Songfang Huang, Fei Huang, Zhangzikang Li and Yu Zhang(参考訳) 我々は,Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。 tsgでは,シーングラフ埋め込みのためのグラフニューラルネットワーク(gnn)の設計にマルチヘッドアテンション(mha)を適用する。 埋め込み後、異なるグラフ埋め込みは、異なるパーシャル・オブ・スパイチを持つ単語を生成するための様々な特定の知識を含んでいる。 そこで我々は,mha上で各専門家が構築するmixed-of-expert(moe)ベースのデコーダを設計し,グラフ埋め込みを識別することで,異なる種類の単語を生成する。 エンコーダとデコーダはどちらもMHAに基づいて構築されているため、通常はFully-Connected-based GNNとLSTM-based Decoderを応用した異種エンコーダと異なり、同種エンコーダデコーダを構築する。 均質なアーキテクチャによって、ヘテロジニアスパイプラインのようにさまざまなサブネットワークのトレーニング戦略を指定せずに、モデル全体のトレーニング構成を統一することが可能になります。 TSGの有効性をMS-COCOキャプションベンチマークで検証した。 コードは:https://github.com/GaryJiajia/TSG。

We propose to Transform Scene Graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the Graph Neural Network (GNN) for embedding scene graphs. After embedding, different graph embeddings contain diverse specific knowledge for generating the words with different part-of-speech, e.g., object/attribute embedding is good for generating nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based decoder, where each expert is built on MHA, for discriminating the graph embeddings to generate different kinds of words. Since both the encoder and decoder are built based on the MHA, as a result, we construct a homogeneous encoder-decoder unlike the previous heterogeneous ones which usually apply Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture enables us to unify the training configuration of the whole model instead of specifying different training strategies for diverse sub-networks as in the heterogeneous pipeline, which releases the training difficulty. Extensive experiments on the MS-COCO captioning benchmark validate the effectiveness of our TSG. The code is in: https://github.com/GaryJiajia/TSG.
翻訳日:2023-12-13 02:44:09 公開日:2023-12-11
# トランスフォーマーは段階的なランクアップを通じて学ぶ

Transformers learn through gradual rank increase ( http://arxiv.org/abs/2306.07042v2 )

ライセンス: Link先を確認
Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind(参考訳) 我々は、トレーニングされた重みと初期重みの差が徐々にランクアップするトランスフォーマーにおけるインクリメンタルな学習ダイナミクスを特定する。 我々は、対角行列の単純化と小さな初期化の下で、これを厳密に証明する。 この理論を支持する実験を行い, 仮定を単純化することなく現象を実際に発生させることができることを示した。

We identify incremental learning dynamics in transformers, where the difference between trained and initial weights progressively increases in rank. We rigorously prove this occurs under the simplifying assumptions of diagonal weight matrices and small initialization. Our experiments support the theory and also show that phenomenon can occur in practice without the simplifying assumptions.
翻訳日:2023-12-13 02:37:07 公開日:2023-12-11
# Sketch2Stress: 構造的ストレス認識によるスケッチ

Sketch2Stress: Sketching with Structural Stress Awareness ( http://arxiv.org/abs/2306.05911v2 )

ライセンス: Link先を確認
Deng Yu, Chufeng Xiao, Manfred Lau, and Hongbo Fu(参考訳) 製品設計とデジタル製造の過程において、設計されたプロトタイプの構造解析は基本的で不可欠なステップである。 しかし、そのようなステップは通常、初期のスケッチフェーズでデザイナーには見えないか、アクセスできない。 これは、形状の物理的特性と構造的健全性を考慮するユーザーの能力を制限する。 そこで,このギャップを埋めるために,ユーザが希望するオブジェクトの構造解析をスケッチ段階で行える新しいsketch2stressを提案する。 この方法は、2次元のフリーハンドスケッチと、ユーザ指定外力の1つまたは複数の位置を入力とする。 特別に設計された2分岐生成・反転フレームワークにより、通常のマップとそれに対応する構造的ストレスマップを自動的に予測する。 この方法では, 設計者があらゆる場所で持続するストレスを容易に検証し, スケッチ対象の潜在的な問題領域を特定することができる。 さらに、予測された通常の地図と組み合わせることで、複数の力の応力効果を同じ方向に集約することで、地域的構造解析を効率的に行うことができる。 最後に,本システムの有効性と実用性を,広範な実験とユーザスタディで実証する。

In the process of product design and digital fabrication, the structural analysis of a designed prototype is a fundamental and essential step. However, such a step is usually invisible or inaccessible to designers at the early sketching phase. This limits the user's ability to consider a shape's physical properties and structural soundness. To bridge this gap, we introduce a novel approach Sketch2Stress that allows users to perform structural analysis of desired objects at the sketching stage. This method takes as input a 2D freehand sketch and one or multiple locations of user-assigned external forces. With the specially-designed two-branch generative-adversarial framework, it automatically predicts a normal map and a corresponding structural stress map distributed over the user-sketched underlying object. In this way, our method empowers designers to easily examine the stress sustained everywhere and identify potential problematic regions of their sketched object. Furthermore, combined with the predicted normal map, users are able to conduct a region-wise structural analysis efficiently by aggregating the stress effects of multiple forces in the same direction. Finally, we demonstrate the effectiveness and practicality of our system with extensive experiments and user studies.
翻訳日:2023-12-13 02:36:33 公開日:2023-12-11
# CorrMatch:半教師付きセマンティックセグメンテーションのための相関マッチングによるラベル伝播

CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2306.04300v3 )

ライセンス: Link先を確認
Boyuan Sun, Yuqi Yang, Le Zhang, Ming-Ming Cheng, Qibin Hou(参考訳) 本稿では,cormatch と呼ばれる,単純かつ高性能な半教師付き意味セグメンテーション手法を提案する。 以前のアプローチでは、ラベルのないデータを活用するために複雑なトレーニング戦略を採用しているが、位置のペア間の関係のモデリングにおける相関マップの役割を見逃している。 相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、以前の研究が省略した優れた形状情報も含んでいる。 そこで本研究では,2つの新しいラベル伝播戦略を考案し,ラベルなしデータの利用効率を向上させることを目的とする。 まず,高信頼画素を広げ,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。 次に、相関マップから抽出した正確なクラス非依存マスクを用いて、擬似ラベルを強化するために領域伝搬を行う。 CorrMatchは人気のあるセグメンテーションベンチマークで優れたパフォーマンスを実現している。 DeepLabV3+とResNet-101のバックボーンをセグメンテーションモデルとして、92のアノテート画像しか持たないPascal VOC 2012データセットで76%以上のmIoUスコアを受け取りました。 コードはhttps://github.com/BBBBchan/CorrMatch.comで入手できる。

This paper presents a simple but performant semi-supervised semantic segmentation approach, called CorrMatch. Previous approaches mostly employ complicated training strategies to leverage unlabeled data but overlook the role of correlation maps in modeling the relationships between pairs of locations. We observe that the correlation maps not only enable clustering pixels of the same category easily but also contain good shape information, which previous works have omitted. Motivated by these, we aim to improve the use efficiency of unlabeled data by designing two novel label propagation strategies. First, we propose to conduct pixel propagation by modeling the pairwise similarities of pixels to spread the high-confidence pixels and dig out more. Then, we perform region propagation to enhance the pseudo labels with accurate class-agnostic masks extracted from the correlation maps. CorrMatch achieves great performance on popular segmentation benchmarks. Taking the DeepLabV3+ with ResNet-101 backbone as our segmentation model, we receive a 76%+ mIoU score on the Pascal VOC 2012 dataset with only 92 annotated images. Code is available at https://github.com/BBBBchan/CorrMatch.
翻訳日:2023-12-13 02:35:34 公開日:2023-12-11
# 時間外相関器による非KAM系の動的感度推定

Probing Dynamical Sensitivity of a Non-KAM System Through Out-of-Time-Order Correlators ( http://arxiv.org/abs/2306.04209v3 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Abinash Sahu, Arul Lakshminarayan, Vaibhav Madhok(参考訳) 非KAM (Kolmogorov-Arnold-Moser) 系は、時間依存の弱い場によって摂動されるとき、不変位相空間トーラスの急激な破れによって古典的カオスへの高速な経路を提供する。 本研究では, 時間外相関器(OTOC)を用いて量子極限における摂動非KAM系の動的感度を, $\textit{resonance}$条件を特徴付けるパラメータとして徐々に変化させる。 この目的のために、アーノルドの拡散に類似した確率的ウェブを呈示し、位相空間における大規模拡散を促進する量子化蹴り高調波発振器(KHO)モデルを考える。 共鳴におけるKHOのリャプノフ指数は弱い摂動状態においてゼロに近づき、従来の意味では弱いカオスとなるが、古典的な位相空間は大きな構造変化を起こす。 そこで本研究では, 共振系におけるOTOCsの検討を行い, 非共振系との比較を行った。 共鳴では、OTOCの長時間のダイナミクスはこれらの構造変化に敏感であり、非共鳴における線形あるいは定常的な成長とは対照的に二次的に成長する。 一方,不安定不動点に関する文献では,短時間のダイナミクスが比較的安定であり,指数関数的な成長を示すことが示唆された。 解析結果はいくつかの特殊なケースで導出された解析式によって裏付けられる。 次に, 共振性のないケースに関する知見を, ほぼ可積分なKAMシステムに拡張する。

Non-KAM (Kolmogorov-Arnold-Moser) systems, when perturbed by weak time-dependent fields, offer a fast route to classical chaos through an abrupt breaking of invariant phase space tori. In this work, we employ out-of-time-order correlators (OTOCs) to study the dynamical sensitivity of a perturbed non-KAM system in the quantum limit as the parameter that characterizes the $\textit{resonance}$ condition is slowly varied. For this purpose, we consider a quantized kicked harmonic oscillator (KHO) model, which displays stochastic webs resembling Arnold's diffusion that facilitate large-scale diffusion in the phase space. Although the Lyapunov exponent of the KHO at resonances remains close to zero in the weak perturbative regime, making the system weakly chaotic in the conventional sense, the classical phase space undergoes significant structural changes. Motivated by this, we study the OTOCs when the system is in resonance and contrast the results with the non-resonant case. At resonances, we observe that the long-time dynamics of the OTOCs are sensitive to these structural changes, where they grow quadratically as opposed to linear or stagnant growth at non-resonances. On the other hand, our findings suggest that the short-time dynamics remain relatively more stable and show the exponential growth found in the literature for unstable fixed points. The numerical results are backed by analytical expressions derived for a few special cases. We will then extend our findings concerning the non-resonant cases to a broad class of near-integrable KAM systems.
翻訳日:2023-12-13 02:35:12 公開日:2023-12-11
# 明示的な神経表面:変形場を用いた連続幾何学の学習

Explicit Neural Surfaces: Learning Continuous Geometry With Deformation Fields ( http://arxiv.org/abs/2306.02956v3 )

ライセンス: Link先を確認
Thomas Walker, Octave Mariotti, Amir Vaxman, Hakan Bilen(参考訳) 我々は、既知の基底領域からの変形場と直接的にトポロジーを符号化する効率的な滑らかな表面表現であるExplicit Neural Surfaces (ENS)を紹介する。 この表現を、複数のビューから明示的な曲面を再構成するために応用し、一連のニューラルネットワークの変形場を用いて、ベースドメインを徐々にターゲットの形状に変換する。 メッシュを離散的な表面プロキシとして使用することにより,効率的な微分ラスタライズにより変形場を訓練する。 固定基底領域を用いることで、ラプラス・ベルトラミ固有関数を通常の外在的フーリエ特徴とともに内在的な位置符号化として利用でき、それによって、我々のアプローチはきめ細かい表面の詳細を捉えることができる。 暗黙の面と比較して、ENSは高速で、数桁の速度で推論を行うことができる。 このアプローチの明示的な性質は、競争力のある表面再構成性能とリアルタイム能力を維持しながら、高品質なメッシュ抽出を可能にする。

We introduce Explicit Neural Surfaces (ENS), an efficient smooth surface representation that directly encodes topology with a deformation field from a known base domain. We apply this representation to reconstruct explicit surfaces from multiple views, where we use a series of neural deformation fields to progressively transform the base domain into a target shape. By using meshes as discrete surface proxies, we train the deformation fields through efficient differentiable rasterization. Using a fixed base domain allows us to have Laplace-Beltrami eigenfunctions as an intrinsic positional encoding alongside standard extrinsic Fourier features, with which our approach can capture fine surface details. Compared to implicit surfaces, ENS trains faster and has several orders of magnitude faster inference times. The explicit nature of our approach also allows higher-quality mesh extraction whilst maintaining competitive surface reconstruction performance and real-time capabilities.
翻訳日:2023-12-13 02:33:59 公開日:2023-12-11
# 拡散モデルの時空間動的量子化

Temporal Dynamic Quantization for Diffusion Models ( http://arxiv.org/abs/2306.02316v2 )

ライセンス: Link先を確認
Junhyuk So, Jungwon Lee, Daehyun Ahn, Hyungjun Kim, Eunhyeok Park(参考訳) 拡散モデルは、優れた生成性能と汎用性のため、視覚アプリケーションで人気を集めている。 しかし、モデルサイズと反復生成によって生じる高いストレージと計算要求は、モバイルデバイスでの使用を妨げている。 既存の量子化技術は、拡散モデルの時間的変動のユニークな性質のため、8ビットの精度でも性能を維持するのに苦労する。 本稿では、時間ステップ情報に基づいて量子化間隔を動的に調整し、出力品質を大幅に改善する新しい量子化手法を提案する。 従来の動的量子化手法とは異なり,本手法は推論時の計算オーバーヘッドがなく,後学習量子化(PTQ)と量子化対応トレーニング(QAT)の両方と互換性がある。 大規模な実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上した。

The diffusion model has gained popularity in vision applications due to its remarkable generative performance and versatility. However, high storage and computation demands, resulting from the model size and iterative generation, hinder its use on mobile devices. Existing quantization techniques struggle to maintain performance even in 8-bit precision due to the diffusion model's unique property of temporal variation in activation. We introduce a novel quantization method that dynamically adjusts the quantization interval based on time step information, significantly improving output quality. Unlike conventional dynamic quantization techniques, our approach has no computational overhead during inference and is compatible with both post-training quantization (PTQ) and quantization-aware training (QAT). Our extensive experiments demonstrate substantial improvements in output quality with the quantized diffusion model across various datasets.
翻訳日:2023-12-13 02:33:42 公開日:2023-12-11
# クローズドセットとオープンセットの併用による部分ラベル学習

Partial-label Learning with Mixed Closed-set and Open-set Out-of-candidate Examples ( http://arxiv.org/abs/2307.00553v2 )

ライセンス: Link先を確認
Shuo He, Lei Feng, Guowu Yang(参考訳) 部分ラベル学習(PLL)は、各トレーニング例の真のラベルが候補ラベルセットになければならないという重要な仮定に依存する。 この制限的な仮定は、複雑な実世界のシナリオで破られる可能性があり、したがって収集されたいくつかの実例の真のラベルは、割り当てられた候補のラベルセットの外側に予期せず置かれる可能性がある。 本稿では, 真のラベルがOOC (out-of-candidate) の例の外部にある事例を述べるとともに, OOC の例から学ぶための新たな PLL 研究の先駆者となる。 実際、実例では、真のラベルが既知のラベル空間の内外にある閉集合/開集合 ooc の例の2つのタイプを考える。 この新たなPLL問題を解決するために,まず候補ラベルと非候補ラベルからの木製クロスエントロピー損失を計算し,特殊設計基準に基づいて2種類のOCO例を動的に識別する。 そして、閉集合OCCの場合、非候補ラベルセットで逆ラベル曖昧化を行い、オープンセットOCCの場合、候補ラベルセットからランダムな候補ラベルを動的に割り当てる効果的な正規化戦略を利用してトレーニングを行う。 このように、OOCの2種類の例を区別し、モデルトレーニングにさらに活用することができる。 実験の結果,提案手法は最先端のPLL法よりも優れていた。

Partial-label learning (PLL) relies on a key assumption that the true label of each training example must be in the candidate label set. This restrictive assumption may be violated in complex real-world scenarios, and thus the true label of some collected examples could be unexpectedly outside the assigned candidate label set. In this paper, we term the examples whose true label is outside the candidate label set OOC (out-of-candidate) examples, and pioneer a new PLL study to learn with OOC examples. We consider two types of OOC examples in reality, i.e., the closed-set/open-set OOC examples whose true label is inside/outside the known label space. To solve this new PLL problem, we first calculate the wooden cross-entropy loss from candidate and non-candidate labels respectively, and dynamically differentiate the two types of OOC examples based on specially designed criteria. Then, for closed-set OOC examples, we conduct reversed label disambiguation in the non-candidate label set; for open-set OOC examples, we leverage them for training by utilizing an effective regularization strategy that dynamically assigns random candidate labels from the candidate label set. In this way, the two types of OOC examples can be differentiated and further leveraged for model training. Extensive experiments demonstrate that our proposed method outperforms state-of-the-art PLL methods.
翻訳日:2023-12-13 02:25:44 公開日:2023-12-11
# ラベル比を持つ衛星画像の軌道上モデルトレーニング

On-orbit model training for satellite imagery with label proportions ( http://arxiv.org/abs/2306.12461v2 )

ライセンス: Link先を確認
Ra\'ul Ramos-Poll\'an, Fabio A. Gonz\'alez(参考訳) この研究は、オンボードのハードウェア能力の制限とアップロードのアップリンク帯域幅の制限が一般的である軌道上のプラットフォーム上で、教師付き機械学習モデルやディープラーニングモデルをトレーニングするという課題に対処する。 軌道上の宇宙船は、(1)画像を取得すると、連続的に軽量なモデルを訓練し、(2)軌道上で新しいラベルを受け取り、トレーニング中の予測タスクを洗練または変更することを目指している。 そこで我々は,自治体レベルの植生統計(複数のパッチを含む自治体)など,粗いラベルの比率のみを有する場合に,チップレベルの回帰タスク(すなわち,20 km$^2$パッチの植生率を予測すること)を検討する。 このようなラベルの割合は、通常表データに含まれ、世界中の多くの地域やアプリケーション領域で広く利用可能である追加の利点を持っている。 これは、LLP(Learning from Label Proportions)問題設定として表すことができる。 地球観測(EO)データに適用されたLPはいまだ発展途上であり、標準化されたデータセットがないため、適用シナリオにおける比較研究は依然として課題である。 本稿では、まず、非常に単純な深層学習と確率的手法( {\raise.17ex\hbox{$\scriptstyle\sim$}}5K パラメータ)が、一般的に標準的なより複雑な手法よりも優れていることを示す。 第2に,既存の行政区分に従って,詳細なラベルと集約データの両方を提供するEOに適用可能なベンチマークデータセットのセットを公表する。 最後に、この手法が軌道上でのトレーニングシナリオにどのように適合するかを示し、計算量とラベルセットのサイズを大幅に削減する。 ソースコードはhttps://github.com/rramosp/llpeoで入手できる。

This work addresses the challenge of training supervised machine or deep learning models on orbiting platforms where we are generally constrained by limited on-board hardware capabilities and restricted uplink bandwidths to upload. We aim at enabling orbiting spacecrafts to (1) continuously train a lightweight model as it acquires imagery; and (2) receive new labels while on orbit to refine or even change the predictive task being trained. For this, we consider chip level regression tasks (i.e. predicting the vegetation percentage of a 20 km$^2$ patch) when we only have coarser label proportions, such as municipality level vegetation statistics (a municipality containing several patches). Such labels proportions have the additional advantage that usually come in tabular data and are widely available in many regions of the world and application areas. This can be framed as a Learning from Label Proportions (LLP) problem setup. LLP applied to Earth Observation (EO) data is still an emerging field and performing comparative studies in applied scenarios remains a challenge due to the lack of standardized datasets. In this work, first, we show how very simple deep learning and probabilistic methods (with {\raise.17ex\hbox{$\scriptstyle\sim$}}5K parameters) generally perform better than standard more complex ones, providing a surprising level of finer grained spatial detail when trained with much coarser label proportions. Second, we publish a set of benchmarking datasets enabling comparative LLP applied to EO, providing both fine grained labels and aggregated data according to existing administrative divisions. Finally, we show how this approach fits an on-orbit training scenario by reducing vastly both the amount of computing and the size of the labels sets. Source code is available at https://github.com/rramosp/llpeo
翻訳日:2023-12-13 02:22:56 公開日:2023-12-11
# NILUT:画像強調のための条件付きニューラルインシシデント3Dルックアップテーブル

NILUT: Conditional Neural Implicit 3D Lookup Tables for Image Enhancement ( http://arxiv.org/abs/2306.11920v2 )

ライセンス: Link先を確認
Marcos V. Conde, Javier Vazquez-Corral, Michael S. Brown, Radu Timofte(参考訳) 3次元ルックアップテーブル(3D LUT)は画像強調のための重要なコンポーネントである。 現代の画像信号プロセッサ(ISP)は、カメラレンダリングパイプラインの一部としてこれらをサポートする。 カメラは通常、絵のスタイルに複数のオプションを提供し、それぞれのスタイルは通常、ユニークな手作りの3D LUTを適用することで得られる。 3D LUTを学習および適用するための現在のアプローチは、特に高速であるが、複数の3D LUTを格納する必要があるため、メモリ効率は高くない。 この理由やその他の実装上の制限のため、モバイルデバイスでの使用はそれほど一般的ではない。 本研究では,ニューラルネットワークによってパラメータ化される暗黙的に定義された連続3次元色変換であるニューラルインプリシット LUT (NILUT) を提案する。 NILUTは実3D LUTを正確にエミュレートできることを示す。 さらに、NILUTは複数のスタイルを単一のネットワークに組み込むように拡張でき、暗黙的にスタイルをブレンドすることができる。 我々の新しいアプローチはメモリ効率が高く、制御可能であり、学習ISPを含む従来の手法を補完することができる。 コード、モデル、データセット:https://github.com/mv-lab/nilut

3D lookup tables (3D LUTs) are a key component for image enhancement. Modern image signal processors (ISPs) have dedicated support for these as part of the camera rendering pipeline. Cameras typically provide multiple options for picture styles, where each style is usually obtained by applying a unique handcrafted 3D LUT. Current approaches for learning and applying 3D LUTs are notably fast, yet not so memory-efficient, as storing multiple 3D LUTs is required. For this reason and other implementation limitations, their use on mobile devices is less popular. In this work, we propose a Neural Implicit LUT (NILUT), an implicitly defined continuous 3D color transformation parameterized by a neural network. We show that NILUTs are capable of accurately emulating real 3D LUTs. Moreover, a NILUT can be extended to incorporate multiple styles into a single network with the ability to blend styles implicitly. Our novel approach is memory-efficient, controllable and can complement previous methods, including learned ISPs. Code, models and dataset available at: https://github.com/mv-lab/nilut
翻訳日:2023-12-13 02:21:59 公開日:2023-12-11
# 組合せおよび混合変数ベイズ最適化のためのフレームワークとベンチマーク

Framework and Benchmarks for Combinatorial and Mixed-variable Bayesian Optimization ( http://arxiv.org/abs/2306.09803v3 )

ライセンス: Link先を確認
Kamil Dreczkowski, Antoine Grosnit, Haitham Bou Ammar(参考訳) 本稿では,Mixed-variable and Combinatorial Bayesian Optimization (MCBO) のためのモジュラーフレームワークを提案する。 現在のMCBO論文では、異なるMCBOプリミティブとそれらの組み合わせの適切な評価を妨げるため、その手法を評価するために、多変量または非標準ベンチマークを導入することが多い。 さらに、単一のMCBOプリミティブのソリューションを導入する論文では、残りのプリミティブと同じメソッドを使用するベースラインに対するベンチマークを省略することが多い。 この省略は、主に実装上のオーバーヘッドが大きく、結果として制御された評価の欠如と、貢献のメリットを効果的に示すことができないためである。 これらの課題を克服するため,提案フレームワークはベイズ最適化コンポーネントの無益な組み合わせを可能にし,多種多様な合成および実世界のベンチマークタスクを提供する。 この柔軟性を活用して、47個の新しいMCBOアルゴリズムを実装し、7つの既存のMCBOソルバと5つの標準ブラックボックス最適化アルゴリズムに対してベンチマークを行い、4000以上の実験を行った。 以上の結果から,mcboプリミティブは既存手法よりも優れた組み合わせを示し,モデル適合の重要性と信頼領域の利用を明らかにした。 MCBOライブラリをMITライセンス下で,‘url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}’で公開しています。

This paper introduces a modular framework for Mixed-variable and Combinatorial Bayesian Optimization (MCBO) to address the lack of systematic benchmarking and standardized evaluation in the field. Current MCBO papers often introduce non-diverse or non-standard benchmarks to evaluate their methods, impeding the proper assessment of different MCBO primitives and their combinations. Additionally, papers introducing a solution for a single MCBO primitive often omit benchmarking against baselines that utilize the same methods for the remaining primitives. This omission is primarily due to the significant implementation overhead involved, resulting in a lack of controlled assessments and an inability to showcase the merits of a contribution effectively. To overcome these challenges, our proposed framework enables an effortless combination of Bayesian Optimization components, and provides a diverse set of synthetic and real-world benchmarking tasks. Leveraging this flexibility, we implement 47 novel MCBO algorithms and benchmark them against seven existing MCBO solvers and five standard black-box optimization algorithms on ten tasks, conducting over 4000 experiments. Our findings reveal a superior combination of MCBO primitives outperforming existing approaches and illustrate the significance of model fit and the use of a trust region. We make our MCBO library available under the MIT license at \url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}.
翻訳日:2023-12-13 02:21:03 公開日:2023-12-11
# 大型言語モデルのための忘れられない公証可能な透かし

An Unforgeable Publicly Verifiable Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v4 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,大型言語モデル (LLM) のためのテキスト透かしアルゴリズムが提案され,偽ニュースや著作権問題など LLM が生成するテキストの潜在的な害を軽減している。 しかし、現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とするため、公衆の検知中にセキュリティ違反や偽造の影響を受けやすい。 この制限に対処するため、両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽の公開検証可能な透かしアルゴリズムを提案する。 一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワークの間で共有され、検出ネットワークは極めて効率的に精度が向上する。 実験により,パラメータの最小化によるニューラルネットワークによる検出精度と計算効率の向上が示された。 その後の解析により、検出ネットワークから透かしを鍛造する際の複雑さが確認される。 私たちのコードとデータは、 \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}で利用可能です。

Recently, text watermarking algorithms for large language models (LLMs) have been proposed to mitigate the potential harms of text generated by LLMs, including fake news and copyright issues. However, current watermark detection algorithms require the secret key used in the watermark generation process, making them susceptible to security breaches and counterfeiting during public detection. To address this limitation, we propose an unforgeable publicly verifiable watermark algorithm that uses two different neural networks for watermark generation and detection, instead of using the same key at both stages. Meanwhile, the token embedding parameters are shared between the generation and detection networks, which makes the detection network achieve a high accuracy very efficiently. Experiments demonstrate that our algorithm attains high detection accuracy and computational efficiency through neural networks with a minimized number of parameters. Subsequent analysis confirms the high complexity involved in forging the watermark from the detection network. Our code and data are available at \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}.
翻訳日:2023-12-13 02:14:24 公開日:2023-12-11
# 時間依存背景ゆらぎの実空間量子から古典的遷移

Real-space quantum-to-classical transition of time dependent background fluctuations ( http://arxiv.org/abs/2307.13611v2 )

ライセンス: Link先を確認
S. Mahesh Chandran, Karthik Rajeev, S. Shankaranarayanan (IIT Bombay)(参考訳) 量子論から古典的行動の出現を理解することは、宇宙マイクロ波背景(CMB)で観測される温度変動の量子起源を確立するために不可欠である。 実空間的アプローチは曲率摂動の先頭の順で量子-古典的遷移問題に包括的に対処できることを示す。 この目的のために、古典的行動の3つの異なるシグネチャ間の相互作用のための二次系の空間分割をテストする。 decoherence (複数形 decoherences) 二 古典的軌跡に関するウィグナー関数のピーク化及び 三 可観測物の非可換性の相対的な抑制 多モードガウス状態の共分散行列からこれらのシグネチャを抽出し、主に絡み合いエントロピーと対数古典性の観点から対処する。 低減されたウィグナー関数による空間部分領域の位相空間安定性解析により、古典性シグネチャの優位の原因はガッピング反転モード不安定性の発生であることを確認した。 共役変数の選択はこれらのシグネチャのいくつかを強化するが、絡み合いエントロピーを通して研究されたデコヒーレンスは古典性が出現するより強く信頼性の高い条件である。 1+1)$-dimensions の増大背景におけるスカラーゆらぎの量子-古典的遷移を2つの例を用いてプリエンプションする非一貫性の欠如を実証する。 一 タン様の拡大及び拡張 ii)デシッター展開 我々は,各正規モードの後期進化を研究することにより,対数古典性と粒子数との関係を示す。 次に、(3+1)-$dimensions における主次揺らぎに解析を拡張し、デシッター展開において量子-古典遷移が起こることを示し、宇宙論モデルの識別における解析の関連性について論じる。

Understanding the emergence of classical behavior from a quantum theory is vital to establishing the quantum origin for the temperature fluctuations observed in the Cosmic Microwave Background (CMB). We show that a real-space approach can comprehensively address the quantum-to-classical transition problem in the leading order of curvature perturbations. To this end, we test spatial bipartitions of quadratic systems for the interplay between three different signatures of classical behavior: i) decoherence, ii) peaking of the Wigner function about classical trajectories, and iii) relative suppression of non-commutativity in observables. We extract these signatures from the covariance matrix of a multi-mode Gaussian state and address them primarily in terms of entanglement entropy and log-classicality. Through a phase-space stability analysis of spatial sub-regions via their reduced Wigner function, we ascertain that the underlying cause for the dominance of classicality signatures is the occurrence of gapped inverted mode instabilities. While the choice of conjugate variables enhances some of these signatures, decoherence studied via entanglement entropy is the stronger and more reliable condition for classicality to emerge. We demonstrate the absence of decoherence, which preempts a quantum-to-classical transition of scalar fluctuations in an expanding background in $(1+1)$-dimensions using two examples: i) a Tanh-like expansion and ii) a de-Sitter expansion. We provide connection between log classicality and particle number by studying the evolution of each normal mode at late times. We then extend the analysis to leading order fluctuations in $(3+1)-$dimensions to show that a quantum-to-classical transition occurs in the de-Sitter expansion and discuss the relevance of our analysis in distinguishing cosmological models.
翻訳日:2023-12-13 02:14:04 公開日:2023-12-11
# 拡張Jaynes-Cummingsモデルにおける量子相転移に対する効果的なハミルトン的アプローチ

Effective Hamiltonian approach to the Quantum Phase transitions in the extended Jaynes-Cummings model ( http://arxiv.org/abs/2307.13518v2 )

ライセンス: Link先を確認
H. T. Cui, Y. A. Yan, M. Qin, and X. X. Yi(参考訳) リウビリアンに基づく散逸量子系における相転移の研究は、系-環境結合が強い場合、時間-局所マスター方程式を構築するのが困難であるためにしばしば妨げられる。 この問題に対処するために、無限個のボーソンモードを持つ拡張ジェインズ・カミングモデルにおける量子相転移を研究するために、環境の複素離散化近似が提案されている。 このアプローチは、スピンの力学をシミュレートするために使用できる非エルミート有効ハミルトニアンを与える。 この有効ハミルトニアンの基底状態が単励起部分空間のスピンダイナミクスを決定することが判明した。 エネルギーギャップの開度とスピンの自由度における励起の最大個体数に依存すると、スピンの高速崩壊、局所化、伸張ダイナミクスの3つの異なる位相が特定できる。 このアプローチは複数の励起に拡張することができ、同様のダイナミクスは二重励起部分空間で見られ、単励起位相のロバスト性を示している。

The study of phase transitions in dissipative quantum systems based on the Liouvillian is often hindered by the difficulty of constructing a time-local master equation when the system-environment coupling is strong. To address this issue, the complex discretization approximation for the environment has been proposed to study the quantum phase transition in the extended Jaynes-Cumming model with an infinite number of boson modes. This approach yields a non-Hermitian effective Hamiltonian that can be used to simulate the dynamics of the spin. It was found that the ground state of this effective Hamiltonian determines the spin dynamics in the single-excitation subspace. Depending on the opening of the energy gap and the maximum population of excitations on the spin degree of freedom, three distinct phases can be identified: fast decaying, localized, and stretched dynamics of the spin. This approach can be extended to multiple excitations, and similar dynamics were found in the double-excitation subspace, indicating the robustness of the single-excitation phase.
翻訳日:2023-12-13 02:13:33 公開日:2023-12-11
# 意図しない情報フローを克服した音声対話顔生成

Audio-driven Talking Face Generation by Overcoming Unintended Information Flow ( http://arxiv.org/abs/2307.09368v2 )

ライセンス: Link先を確認
Dogucan Yaman and Fevziye Irem Eyiokur and Leonard B\"armann and Hazim Kemal Ekenel and Alexander Waibel(参考訳) 音声駆動の会話顔生成は、特定のオーディオおよび参照フレームからリップ同期でリアルな顔ビデオを作成するタスクである。 これには、生成した画像の全体的な視覚的品質と、口部の音声・視覚的同期という2つの大きな課題が含まれる。 本稿では,近年の音声駆動型発話顔生成手法における同期手法の諸問題を明らかにすることから始める。 具体的には、生成した画像への参照から、意図しない唇、ポーズ、その他の情報の流れ、およびモデルトレーニング中の不安定性を含む。 まず、サイレントリップ参照画像生成装置は、生成された画像への参照から唇の漏れを防止する。 第二に、適応三重項損失はポーズリーク問題を処理する。 最後に, 安定な同期損失の定式化を提案し, 上記のトレーニング不安定を回避し, さらにリップリーク問題を緩和した。 個々の改善点を合わせると、7つ中5つ、LRWを7つ中6つ、そして残りの6つに対して、最先端の視覚的品質と同期性能を示す。 また, 種々のアブレーション実験において, 個々の貢献と補遺効果を確認することにより, 設計を検証した。

Audio-driven talking face generation is the task of creating a lip-synchronized, realistic face video from given audio and reference frames. This involves two major challenges: overall visual quality of generated images on the one hand, and audio-visual synchronization of the mouth part on the other hand. In this paper, we start by identifying several problematic aspects of synchronization methods in recent audio-driven talking face generation approaches. Specifically, this involves unintended flow of lip, pose and other information from the reference to the generated image, as well as instabilities during model training. Subsequently, we propose various techniques for obviating these issues: First, a silent-lip reference image generator prevents leaking of lips from the reference to the generated image. Second, an adaptive triplet loss handles the pose leaking problem. Finally, we propose a stabilized formulation of synchronization loss, circumventing aforementioned training instabilities while additionally further alleviating the lip leaking issue. Combining the individual improvements, we present state-of-the-art visual quality and synchronization performance on LRS2 in five out of seven and LRW in six out of seven metrics, and competitive results on the remaining ones. We further validate our design in various ablation experiments, confirming the individual contributions as well as their complementary effects.
翻訳日:2023-12-13 02:12:26 公開日:2023-12-11
# 中国語テキスト訂正における大言語モデルの効果について

On the (In)Effectiveness of Large Language Models for Chinese Text Correction ( http://arxiv.org/abs/2307.09007v2 )

ライセンス: Link先を確認
Yinghui Li, Haojing Huang, Shirong Ma, Yong Jiang, Yangning Li, Feng Zhou, Hai-Tao Zheng, Qingyu Zhou(参考訳) 近年,Large Language Models (LLMs) の開発と進歩が,人工知能コミュニティ全体に驚きを与えている。 その創発的な能力の恩恵を受けたllmは、様々な下流自然言語処理(nlp)タスクの能力と性能を研究するために、ますます多くの研究者を惹きつけている。 あらゆるタスクにおけるLLMの素晴らしいパフォーマンスをマーベリングしながら、中国語のような優れた多言語処理能力があることに気付きました。 LLMの中国語処理能力を探るため,中国における基本的かつ挑戦的な中国語NLP課題である中国語テキスト訂正に焦点を当てた。 具体的には、中国語の文法的誤り訂正(CGEC)と中国語のスペルチェック(CSC)のタスクにおける様々な代表的LLMを評価する。 また,中国語テキスト訂正のためのLLMを微調整し,LLMの潜在能力をよりよく観察する。 従来の小型モデルとの比較や分析結果から,現在,LLMは中国語のテキスト訂正において,素晴らしい性能と不満足な動作を持っていることが実証されている。 我々は,中国NLPコミュニティにおけるLSMの着地と適用を促進できると考えている。

Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. Benefiting from their emergent abilities, LLMs have attracted more and more researchers to study their capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at LLMs' incredible performance on all kinds of tasks, we notice that they also have excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of LLMs, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate various representative LLMs on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. Additionally, we also fine-tune LLMs for Chinese Text Correction to better observe the potential capabilities of LLMs. From extensive analyses and comparisons with previous state-of-the-art small models, we empirically find that the LLMs currently have both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.
翻訳日:2023-12-13 02:11:45 公開日:2023-12-11
# メタバリュー学習 : 学習意識を持つ学習のための汎用フレームワーク

Meta-Value Learning: a General Framework for Learning with Learning Awareness ( http://arxiv.org/abs/2307.08863v3 )

ライセンス: Link先を確認
Tim Cooijmans, Milad Aghajohari, Aaron Courville(参考訳) マルチエージェントシステムにおける勾配ベースの学習は、エージェントの学習プロセス間の相互作用を考慮しない一階モデルに由来するため、難しい。 LOLA (arXiv:1709.04326) は最適化の一段階を微分することでこれを説明している。 本稿では, 将来の最適化のリターンに対する割引金額であるメタ値を用いて, 長期的見通しで共同政策を判断することを提案する。 ポリシー更新の継続的アクション空間を明示的に表現する必要をなくす方法で、最適化のメタゲームにq-learningの形式を適用する。 結果、MeVaは一貫性があり、遠目であり、REINFORCE推定器を必要としない。 玩具ゲームにおける本手法の挙動を解析し,反復行列ゲームにおける先行作業と比較する。

Gradient-based learning in multi-agent systems is difficult because the gradient derives from a first-order model which does not account for the interaction between agents' learning processes. LOLA (arXiv:1709.04326) accounts for this by differentiating through one step of optimization. We propose to judge joint policies by their long-term prospects as measured by the meta-value, a discounted sum over the returns of future optimization iterates. We apply a form of Q-learning to the meta-game of optimization, in a way that avoids the need to explicitly represent the continuous action space of policy updates. The resulting method, MeVa, is consistent and far-sighted, and does not require REINFORCE estimators. We analyze the behavior of our method on a toy game and compare to prior work on repeated matrix games.
翻訳日:2023-12-13 02:10:44 公開日:2023-12-11
# hrhd-hk:写真測点雲の3次元セマンティクスセグメンテーションのための高層・高密度都市シーンのベンチマークデータセット

HRHD-HK: A benchmark dataset of high-rise and high-density urban scenes for 3D semantic segmentation of photogrammetric point clouds ( http://arxiv.org/abs/2307.07976v2 )

ライセンス: Link先を確認
Maosu Li, Yijie Wu, Anthony G.O. Yeh, Fan Xue(参考訳) 多くの既存の3Dセマンティックセグメンテーション手法、特にコンピュータビジョンにおけるディープラーニングは、都会の点雲で望ましい結果を得ると主張した。 したがって,高層,低層,高密度,低密度の都市部を包含する都市空間の多様化において,これらの手法を定量的に評価することが重要である。 しかしながら、既存の公開ベンチマークデータセットは、主にヨーロッパの都市からの低層シーンを表しており、その手法を包括的に評価することはできない。 本稿では,香港(HRHD-HK)の高層都市点雲,すなわち高密度・高密度の都市景観のベンチマークデータセットを提案する。 hrhd-hkは150個のタイルに配置され、多様な都市環境から2億7300万のカラーフォトグラム3dポイントを含んでいる。 HRHD-HKのセマンティックラベルには、建物、植生、道路、水域、施設、地形、車両が含まれる。 我々の知る限り、HRHD-HKはHRHD都市圏に焦点を当てた最初のフォトグラムデータセットである。 本稿では,HRHD-HKデータセット上での8つの一般的なセマンティックセマンティックセマンティクス手法を包括的に評価する。 実験により,現在の点雲の3次元意味セグメンテーション,特に体積の少ない都市対象物について,十分な空間が確認された。 私たちのデータセットはhttps://doi.org/10.25442/hku.23701866.v2で公開されています。

Many existing 3D semantic segmentation methods, deep learning in computer vision notably, claimed to achieve desired results on urban point clouds. Thus, it is significant to assess these methods quantitatively in diversified real-world urban scenes, encompassing high-rise, low-rise, high-density, and low-density urban areas. However, existing public benchmark datasets primarily represent low-rise scenes from European cities and cannot assess the methods comprehensively. This paper presents a benchmark dataset of high-rise urban point clouds, namely High-Rise, High-Density urban scenes of Hong Kong (HRHD-HK). HRHD-HK arranged in 150 tiles contains 273 million colorful photogrammetric 3D points from diverse urban settings. The semantic labels of HRHD-HK include building, vegetation, road, waterbody, facility, terrain, and vehicle. To our best knowledge, HRHD-HK is the first photogrammetric dataset that focuses on HRHD urban areas. This paper also comprehensively evaluates eight popular semantic segmentation methods on the HRHD-HK dataset. Experimental results confirmed plenty of room for enhancing the current 3D semantic segmentation of point clouds, especially for city objects with small volumes. Our dataset is publicly available at https://doi.org/10.25442/hku.23701866.v2.
翻訳日:2023-12-13 02:10:31 公開日:2023-12-11
# 量子状態再構成によるクリロフ部分空間の量子化作用素拡散とカオス

Quantifying operator spreading and chaos in Krylov subspaces with quantum state reconstruction ( http://arxiv.org/abs/2308.08513v2 )

ライセンス: Link先を確認
Abinash Sahu, Naga Dileep Varikuti, Bishal Kumar Das, and Vaibhav Madhok(参考訳) 本研究では,多体量子システムにおいて,量子トモグラフィにおける情報完全測定記録を生成できる可能性について検討する。 我々はこの目的で連続弱計測トモグラフィーを採用する。 観測記録は, 可積分性から完全なカオスへの遷移を示すような, 所望のダイナミクスの下で進化する可観測性の一連の期待値として生成する。 量子トモグラフィーにおける忠実度によって定量化された演算子の拡散量は、系のカオスの度合いとともに増加する。 また, ダイナミクスが可積分から非可積分へと変化すると, 情報ゲインが著しく増加することも観察した。 演算子拡散の定量化における我々のアプローチは、krylov複雑性よりも量子カオスのより一貫した指標である。 我々は、傾き磁場を持つイジングスピン鎖と積分性破壊する磁場を持つハイゼンベルクXXZスピン鎖の2つのモデルに対する情報ゲインの様々な指標を通して議論を支持する。 本稿では,量子カオスに拡散する演算子の操作解釈について述べる。

We study operator spreading in many-body quantum systems by its potential to generate an informationally complete measurement record in quantum tomography. We adopt continuous weak measurement tomography for this purpose. We generate the measurement record as a series of expectation values of an observable evolving under the desired dynamics, which can show a transition from integrability to complete chaos. We find that the amount of operator spreading, as quantified by the fidelity in quantum tomography, increases with the degree of chaos in the system. We also observe a remarkable increase in information gain when the dynamics transitions from integrable to nonintegrable. We find our approach in quantifying operator spreading is a more consistent indicator of quantum chaos than Krylov complexity as the latter may correlate/anti-correlate or show no explicit behavior with the level of chaos in the dynamics. We support our argument through various metrics of information gain for two models: the Ising spin chain with a tilted magnetic field and the Heisenberg XXZ spin chain with an integrability-breaking field. Our paper gives an operational interpretation for operator spreading in quantum chaos.
翻訳日:2023-12-13 02:01:25 公開日:2023-12-11
# DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching

DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching ( http://arxiv.org/abs/2308.08479v3 )

ライセンス: Link先を確認
Johan Edstedt, Georg B\"okman, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) キーポイント検出は、3次元再構成において重要なステップであり、シーンの各ビューで(最大)k点の集合を検出する。 重要なことに、検出された点は、ビュー、すなわちシーン内の同じ3Dポイント間で一致する必要がある。 キーポイント検出の主な課題の1つは、学習目標の定式化である。 従来の学習に基づく手法は、典型的には、キーポイントとディスクリプタを共同で学習し、キーポイント検出を隣り合う隣人の二項分類タスクとして扱う。 しかし、記述子近傍のキーポイント検出はプロキシタスクであり、3D一貫性のあるキーポイントを生成することが保証されていない。 さらに、これはキーポイントを特定の記述子に結び付け、下流の使用を複雑にする。 この作業では、3d一貫性から直接キーポイントを学習します。 この目的のために,検出器を訓練し,大規模sfmからのトラックを検出する。 これらの点はしばしば過小評価されるため、半教師付き2視点検出目的を導出して、この集合を所望の数に拡張する。 ディクリプタをトレーニングするために、キーポイント上の互いに近接する目的を個別のネットワークで最大化する。 結果は,複数の幾何ベンチマークにおいて,dedodeアプローチが有意な向上を達成したことを示している。 コードはhttps://github.com/Parskatt/DeDoDeで提供される

Keypoint detection is a pivotal step in 3D reconstruction, whereby sets of (up to) K points are detected in each view of a scene. Crucially, the detected points need to be consistent between views, i.e., correspond to the same 3D point in the scene. One of the main challenges with keypoint detection is the formulation of the learning objective. Previous learning-based methods typically jointly learn descriptors with keypoints, and treat the keypoint detection as a binary classification task on mutual nearest neighbours. However, basing keypoint detection on descriptor nearest neighbours is a proxy task, which is not guaranteed to produce 3D-consistent keypoints. Furthermore, this ties the keypoints to a specific descriptor, complicating downstream usage. In this work, we instead learn keypoints directly from 3D consistency. To this end, we train the detector to detect tracks from large-scale SfM. As these points are often overly sparse, we derive a semi-supervised two-view detection objective to expand this set to a desired number of detections. To train a descriptor, we maximize the mutual nearest neighbour objective over the keypoints with a separate network. Results show that our approach, DeDoDe, achieves significant gains on multiple geometry benchmarks. Code is provided at https://github.com/Parskatt/DeDoDe
翻訳日:2023-12-13 02:01:05 公開日:2023-12-11
# モンテカルロ法によるデバイス非依存量子鍵分布のセキュリティ評価

Monte Carlo approach to the evaluation of the security of device-independent quantum key distribution ( http://arxiv.org/abs/2308.03030v3 )

ライセンス: Link先を確認
Hong-Yi Su(参考訳) 本稿では,多セットデバイス非依存の量子鍵分布プロトコル,すなわち,各パーティが実行すべき2つ以上の測定(あるいは入力)と2コトミックな結果(あるいは出力)に関する情報理論のセキュリティに関する総合的研究を行う。 開発したアプローチは、対称または非対称ベル実験のいずれかのプロトコルに適用すると、測定装置に必要な検出効率とともに、セキュアな鍵レート上の非自明な上限が得られる。 その結果,測定回数の増加は,セキュリティ基準で要求される検出効率を低下させる可能性が示唆された。 しかし、改善は、しかしながら、 (i)プロトコルでテスト対象に選ばれた複数セットベル不等式の選択、 (ii)対称または非対称ベル実験を考慮。 本研究は,デバイス非依存の量子鍵分布をヘラルドを使わずに適用するためのセキュリティ評価と効率要件の低減に向けた取り組みである。

We present a generic study on the information-theoretic security of multi-setting device-independent quantum key distribution protocols, i.e., ones that involve more than two measurements (or inputs) for each party to perform, and yield dichotomic results (or outputs). The approach we develop, when applied in protocols with either symmetric or asymmetric Bell experiments, yields nontrivial upper bounds on the secure key rates, along with the detection efficiencies required upon the measuring devices. The results imply that increasing the number of measurements may lower the detection efficiency required by the security criterion. The improvement, however, depends on (i) the choice of multi-setting Bell inequalities chosen to be tested in a protocol, and (ii) either a symmetric or asymmetric Bell experiment is considered. Our results serve as an advance toward the quest for evaluating security and reducing efficiency requirement of applying device-independent quantum key distribution in scenarios without heralding.
翻訳日:2023-12-13 01:58:35 公開日:2023-12-11
# オフライン手書きシグネチャ検証のためのコタップレットロスを用いたマルチスケール特徴学習

Multiscale Feature Learning Using Co-Tuplet Loss for Offline Handwritten Signature Verification ( http://arxiv.org/abs/2308.00428v2 )

ライセンス: Link先を確認
Fu-Hsien Huang and Hsin-Min Lu(参考訳) 法的および金融機関にとって重要な手書き署名検証は、文字間の類似性、文字内変異、限られた署名サンプルを含む課題に直面している。 そこで本研究では,オフライン手書き署名検証用に設計されたコタップレットロスと呼ばれる,新たなメトリック学習損失を持つマルチスケールシグネチャ特徴学習ネットワーク(ms-signet)を提案する。 MS-SigNetは、複数の空間スケールからグローバルと地域両方の署名機能を学び、特徴識別を強化する。 このアプローチは、全体的なストロークと詳細な局所的差異をキャプチャすることで、熟練した偽造品と真の署名を効果的に区別する。 複数のポジティブな例とネガティブな例に焦点を当てたコタップレットの損失は、文字間類似性や文字内変動に対処し、情報的例を強調することによって、典型的なメトリック学習損失の限界を克服する。 また、堅牢なシステム開発をサポートするために、大規模な中国の署名データセットであるHanSig(https://github.com/ashleyfhh/HanSig)も紹介します。 異なる言語における4つのベンチマークデータセットの実験結果は、最先端の手法と比較して、提案手法の有望な性能を示す。

Handwritten signature verification, crucial for legal and financial institutions, faces challenges including inter-writer similarity, intra-writer variations, and limited signature samples. To address these, we introduce a MultiScale Signature feature learning Network (MS-SigNet) with a novel metric learning loss called the co-tuplet loss, designed for offline handwritten signature verification. MS-SigNet learns both global and regional signature features from multiple spatial scales, enhancing feature discrimination. This approach effectively distinguishes genuine signatures from skilled forgeries by capturing overall strokes and detailed local differences. The co-tuplet loss, focusing on multiple positive and negative examples, overcomes the limitations of typical metric learning losses by addressing inter-writer similarity and intra-writer variations and emphasizing informative examples. We also present HanSig, a large-scale Chinese signature dataset (available at https://github.com/ashleyfhh/HanSig) to support robust system development. Experimental results on four benchmark datasets in different languages demonstrate the promising performance of our method in comparison to state-of-the-art approaches.
翻訳日:2023-12-13 01:58:19 公開日:2023-12-11
# 映像シーングラフ生成のための空間時間知識埋め込み変換器

Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph Generation ( http://arxiv.org/abs/2309.13237v2 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Yongyi Lu, Liang Lin(参考訳) video scene graph generation (vidsgg) は、視覚シーン内のオブジェクトを識別し、与えられたビデオの関係を推測することを目的としている。 それぞれの物体が全体像に散らばっていることを包括的に理解するだけでなく、時間的動きや相互作用を深く掘り下げる必要がある。 因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受し、VidSGGモデル学習と推論を容易にする事前知識として機能する。 本研究では,従来の空間的時間的知識を多面的相互認識機構に組み込んだ空間的時間的知識埋め込み変換器(STKET)を提案する。 具体的には,空間的共起と時間的遷移の相関を統計的に学習する。 次に、空間的および時間的知識埋め込み層をデザインし、視覚表現と知識との相互作用を十分に探究し、空間的および時間的知識埋め込み表現を生成するマルチヘッドクロスアテンション機構を導入する。 最後に、各対象物対にこれらの表現を集約し、最終的な意味ラベルとその関係を予測する。 大規模な実験では、STKETは現在の競合アルゴリズムよりも大きなマージンで、例えばmR@50を8.1%、4.7%、そして2.1%改善している。

Video scene graph generation (VidSGG) aims to identify objects in visual scenes and infer their relationships for a given video. It requires not only a comprehensive understanding of each object scattered on the whole scene but also a deep dive into their temporal motions and interactions. Inherently, object pairs and their relationships enjoy spatial co-occurrence correlations within each image and temporal consistency/transition correlations across different images, which can serve as prior knowledge to facilitate VidSGG model learning and inference. In this work, we propose a spatial-temporal knowledge-embedded transformer (STKET) that incorporates the prior spatial-temporal knowledge into the multi-head cross-attention mechanism to learn more representative relationship representations. Specifically, we first learn spatial co-occurrence and temporal transition correlations in a statistical manner. Then, we design spatial and temporal knowledge-embedded layers that introduce the multi-head cross-attention mechanism to fully explore the interaction between visual representation and the knowledge to generate spatial- and temporal-embedded representations, respectively. Finally, we aggregate these representations for each subject-object pair to predict the final semantic labels and their relationships. Extensive experiments show that STKET outperforms current competing algorithms by a large margin, e.g., improving the mR@50 by 8.1%, 4.7%, and 2.1% on different settings over current algorithms.
翻訳日:2023-12-13 01:51:18 公開日:2023-12-11
# 単語レベルとスパンレベルのタスクを統一する:NJUNLPによるWMT2023品質評価共有タスクへの参加

Unify word-level and span-level tasks: NJUNLP's Participation for the WMT2023 Quality Estimation Shared Task ( http://arxiv.org/abs/2309.13230v4 )

ライセンス: Link先を確認
Xiang Geng, Zhejian Lai, Yu Zhang, Shimin Tao, Hao Yang, Jiajun Chen, Shujian Huang(参考訳) 我々は,WMT 2023 Quality Estimation (QE)共有タスクに対するNJUNLPチームの提案を紹介する。 私たちのチームは2つのサブタスクすべてで、英語とドイツ語のペアの予測を提出しました。 (i)文・語レベルの品質予測、及び (ii)細粒度エラースパン検出。 NJUQEフレームワーク(https://github.com/NJUNLP/njuqe)に基づくQEの擬似データ手法をさらに検討する。 WMT翻訳タスクから並列データを用いて疑似MQMデータを生成する。 擬似QEデータ上でXLMR大モデルを事前訓練し、実QEデータ上で微調整する。 両段階で文レベルスコアと単語レベルタグを共同で学習する。 実証的に、私たちはパフォーマンスを改善する重要なハイパーパラメータを見つける実験を行います。 技術的には、単語レベルの出力をきめ細かな誤差にカバーする単純な手法を提案する。 全体的に、我々のモデルは単語レベルときめ細かいエラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得ました。

We introduce the submissions of the NJUNLP team to the WMT 2023 Quality Estimation (QE) shared task. Our team submitted predictions for the English-German language pair on all two sub-tasks: (i) sentence- and word-level quality prediction; and (ii) fine-grained error span detection. This year, we further explore pseudo data methods for QE based on NJUQE framework (https://github.com/NJUNLP/njuqe). We generate pseudo MQM data using parallel data from the WMT translation task. We pre-train the XLMR large model on pseudo QE data, then fine-tune it on real QE data. At both stages, we jointly learn sentence-level scores and word-level tags. Empirically, we conduct experiments to find the key hyper-parameters that improve the performance. Technically, we propose a simple method that covert the word-level outputs to fine-grained error span results. Overall, our models achieved the best results in English-German for both word-level and fine-grained error span detection sub-tasks by a considerable margin.
翻訳日:2023-12-13 01:50:50 公開日:2023-12-11
# bioinspiredllm: 生物および生物にインスパイアされた物質の力学のための会話型大言語モデル

BioinspiredLLM: Conversational Large Language Model for the Mechanics of Biological and Bio-inspired Materials ( http://arxiv.org/abs/2309.08788v2 )

ライセンス: Link先を確認
Rachel K. Luu, Markus J. Buehler(参考訳) 生体材料研究とバイオインスパイアされた材料科学はよく確立されているが、驚くほどの知識が工学的解に体系的に翻訳されている。 発見と洞察の導出を加速するために,オープンソースの自己回帰変換器大言語モデルであるBioinspiredLLMが報告されている。 このモデルには、構造的生物学的およびバイオインスパイアされた材料分野における1000以上の査読された記事のコーパスが組み込まれており、情報をリコールし、研究タスクを支援し、クリエイティビティのエンジンとして機能するよう促すことができる。 このモデルは、生物学的材料に関する情報を正確にリコールすることができ、推論能力の向上とともに、ソースのトレース、知識ベースのアップデート、知識ドメインの接続にも役立つ生成時に新しいデータを組み込む検索強化世代によってさらに強化されていることを証明している。 バイオインスパイアedllmはまた、生物材料の設計に関する健全な仮説を発達させることも示されており、これまで明示的に研究されたことのない物質に対して顕著にそうである。 最後に、このモデルは、従来の素材デザインプロセスを再形成できるワークフローにおいて、他の生成人工知能モデルと協調する素晴らしい可能性を示していた。 この協調生成型人工知能手法は、バイオインスパイアされた材料設計ワークフローを刺激し、強化することができる。 生体材料は、複数の科学分野と、バイオインスパイアされたedllmのようなモデルが、知識領域をつなぐのに役立つ重要な交差点にある。

The study of biological materials and bio-inspired materials science is well established; however, surprisingly little knowledge has been systematically translated to engineering solutions. To accelerate discovery and guide insights, an open-source autoregressive transformer large language model (LLM), BioinspiredLLM, is reported. The model was finetuned with a corpus of over a thousand peer-reviewed articles in the field of structural biological and bio-inspired materials and can be prompted to recall information, assist with research tasks, and function as an engine for creativity. The model has proven that it is able to accurately recall information about biological materials and is further enhanced with enhanced reasoning ability, as well as with retrieval-augmented generation to incorporate new data during generation that can also help to traceback sources, update the knowledge base, and connect knowledge domains. BioinspiredLLM also has been shown to develop sound hypotheses regarding biological materials design and remarkably so for materials that have never been explicitly studied before. Lastly, the model showed impressive promise in collaborating with other generative artificial intelligence models in a workflow that can reshape the traditional materials design process. This collaborative generative artificial intelligence method can stimulate and enhance bio-inspired materials design workflows. Biological materials are at a critical intersection of multiple scientific fields and models like BioinspiredLLM help to connect knowledge domains.
翻訳日:2023-12-13 01:50:17 公開日:2023-12-11
# step -- 構造化されたシーンテキストスポッティングへ

STEP -- Towards Structured Scene-Text Spotting ( http://arxiv.org/abs/2309.02356v2 )

ライセンス: Link先を確認
Sergi Garcia-Bordils, Dimosthenis Karatzas, Mar\c{c}al Rusi\~nol(参考訳) 我々は,クエリ正規表現に従ってテキストを野放しにするために,シーンテキストocrシステムを必要とする構造化シーンテキストスポッティングタスクを導入する。 一般的なシーンテキストOCRとは対照的に、構造化シーンテキストスポッティングは、ユーザが提供する正規表現に対して、シーンテキストの検出と認識の両方を動的に条件付けしようとする。 この課題に対処するために,提案したテキスト構造を利用してOCRプロセスのガイドを行うStructured TExt sPotter (STEP) を提案する。 STEPは空間を含む正規表現を扱うことができ、単語レベルの粒度での検出に縛られない。 提案手法により,さまざまな実世界の読影シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上し,公開データのみをトレーニングできる。 提案手法の有効性を示すために,価格,日付,シリアル番号,ライセンスプレートなどの分野における重要な読み出しを反映した,語彙外構造化テキストを含む,新たな挑戦的テストデータセットを導入する。 テストシナリオのすべてにおいて,STEPが要求に応じて特別なOCR性能を提供できることを示す。

We introduce the structured scene-text spotting task, which requires a scene-text OCR system to spot text in the wild according to a query regular expression. Contrary to generic scene text OCR, structured scene-text spotting seeks to dynamically condition both scene text detection and recognition on user-provided regular expressions. To tackle this task, we propose the Structured TExt sPotter (STEP), a model that exploits the provided text structure to guide the OCR process. STEP is able to deal with regular expressions that contain spaces and it is not bound to detection at the word-level granularity. Our approach enables accurate zero-shot structured text spotting in a wide variety of real-world reading scenarios and is solely trained on publicly available data. To demonstrate the effectiveness of our approach, we introduce a new challenging test dataset that contains several types of out-of-vocabulary structured text, reflecting important reading applications of fields such as prices, dates, serial numbers, license plates etc. We demonstrate that STEP can provide specialised OCR performance on demand in all tested scenarios.
翻訳日:2023-12-13 01:48:36 公開日:2023-12-11
# 量子情報支援完全能動宇宙最適化(QICAS)

Quantum Information-Assisted Complete Active Space Optimization (QICAS) ( http://arxiv.org/abs/2309.01676v2 )

ライセンス: Link先を確認
Lexin Ding, Stefan Knecht, Christian Schilling(参考訳) 自動能動空間選択は多構成法において最も困難かつ重要な側面の1つである。 本研究では,量子情報支援完全能動空間最適化(QICAS)方式を提案する。 他の相関に基づく選択スキームとQICASを区別するもの (i)不明瞭かつ予測的な方法で電子構造の相関を評価する量子情報からの独特な尺度の使用 (ii)活性空間近似により廃棄される相関を最小化する軌道最適化ステップ。 これらの特徴を具備したQICASは、化学精度でCASCIエネルギーが対応するCASSCFエネルギーに達するための、より小さな相関分子の最適化軌道に対して収まる。 Chromium二量体のようなより困難なシステムでは、QICASは数値収束に必要なイテレーション数を劇的に減らし、CASSCFの出発点として優れたものである。 したがって、本研究は、エネルギー的に最適な非活性空間は、主に最小の絡み合いを含むものであるという、深い経験的予想を検証している。

Automated active space selection is arguably one of the most challenging and essential aspects of multiconfigurational methods. In this work we propose an effective quantum information-assisted complete active space optimization (QICAS) scheme. What sets QICAS apart from other correlation-based selection schemes is (i) the use of unique measures from quantum information that assess the correlation in electronic structures in an unambiguous and predictive manner, and (ii) an orbital optimization step that minimizes the correlation discarded by the active space approximation. Equipped with these features QICAS yields for smaller correlated molecules sets of optimized orbitals with respect to which the CASCI energy reaches the corresponding CASSCF energy within chemical accuracy. For more challenging systems such as the Chromium dimer, QICAS offers an excellent starting point for CASSCF by greatly reducing the number of iterations required for numerical convergence. Accordingly, our study validates a profound empirical conjecture: the energetically optimal non-active spaces are predominantly those that contain the least entanglement.
翻訳日:2023-12-13 01:47:45 公開日:2023-12-11
# 適応型オールインワンビデオ復元のためのクロスコンテンシブディープアンフォールディングネットワーク

Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration ( http://arxiv.org/abs/2309.01627v3 )

ライセンス: Link先を確認
Yuanshuo Cheng, Mingwen Shao, Yecong Wan, Yuanjian Qiao, Wangmeng Zuo, Deyu Meng(参考訳) 既存のビデオ復元(VR)手法は、様々な悪天候の劣化を取り除くために、各悪天候に対する個々のモデルの展開を必要とし、劣化の適応処理能力に欠ける。 このような制限は、実用アプリケーションにおける複雑さとデプロイメントコストを増幅する。 そこで本稿では,この不足を克服するために,オールインワンvrのためのクロスコンテンス・ディープ・アンフォールディング・ネットワーク(cdun)を提案する。 具体的には,事前に与えられた劣化特性に応じて,対応する劣化により破損したフレームを復元することのできる,新しい反復最適化フレームワークを実現する。 多様な劣化を除去する枠組みを強化するために,入力された劣化映像の劣化特性を推定するシーケンスワイド適応劣化推定器(SADE)を考案した。 これら2つのカスケード手順を編成することにより、CDUNは多様な劣化に対する適応的な処理を達成する。 さらに,より隣接したフレームからの情報を活用するためのウィンドウベースのフレーム間融合戦略を提案する。 この戦略は、複数の繰り返しにおける時間窓の進行的な積み重ねを伴い、時間的受容領域を効果的に拡大し、各フレームの復元が遠方のフレームからの情報を活用することを可能にする。 広汎な実験により,All-In-One VRにおける最先端性能が得られた。

Existing Video Restoration (VR) methods always necessitate the individual deployment of models for each adverse weather to remove diverse adverse weather degradations, lacking the capability for adaptive processing of degradations. Such limitation amplifies the complexity and deployment costs in practical applications. To overcome this deficiency, in this paper, we propose a Cross-consistent Deep Unfolding Network (CDUN) for All-In-One VR, which enables the employment of a single model to remove diverse degradations for the first time. Specifically, the proposed CDUN accomplishes a novel iterative optimization framework, capable of restoring frames corrupted by corresponding degradations according to the degradation features given in advance. To empower the framework for eliminating diverse degradations, we devise a Sequence-wise Adaptive Degradation Estimator (SADE) to estimate degradation features for the input corrupted video. By orchestrating these two cascading procedures, CDUN achieves adaptive processing for diverse degradation. In addition, we introduce a window-based inter-frame fusion strategy to utilize information from more adjacent frames. This strategy involves the progressive stacking of temporal windows in multiple iterations, effectively enlarging the temporal receptive field and enabling each frame's restoration to leverage information from distant frames. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance in All-In-One VR.
翻訳日:2023-12-13 01:47:29 公開日:2023-12-11
# Semantic-Feature Matchingを用いたオープンボキャブラリ動物キーポイント検出

Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching ( http://arxiv.org/abs/2310.05056v3 )

ライセンス: Link先を確認
Hao Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning Zheng, Ping Luo, Yu Qiao, Kaipeng Zhang(参考訳) 現在の画像に基づく動物体および顔のキーポイント検出手法は、一般的に全監督型および少数ショットのクラス非依存のアプローチに分けられる。 前者は、通常、手間と時間がかかる手動アノテーションに依存しており、キーポイント検出を幅広いキーポイントカテゴリや動物種に拡張する上で大きな課題となっている。 後者は、広範な手動入力に依存することは少ないが、テスト中に参照のためのアノテーションを備えたサポートイメージが必要である。 従来のアノテーションを使わずにゼロショットキーポイント検出を実現するために,任意のキーポイントを識別するためのテキストプロンプトを革新的に使用するOpen-Vocabulary Keypoint Detection (OVKD)タスクを導入する。 この目的を追求し,open-vocabulary keypoint detection with semantic-feature matching (kdsm) という新しいフレームワークを開発した。 このフレームワークは、視覚と言語モデルを相乗的に組み合わせ、言語特徴と局所キーポイント視覚特徴との相互作用を作成する。 KDSM enhances its capabilities by integrating Domain Distribution Matrix Matching (DDMM) and other special modules, such as the Vision-Keypoint Relational Awareness (VKRA) module, improving the framework's generalizability and overall performance.Our comprehensive experiments demonstrate that KDSM significantly outperforms the baseline in terms of performance and achieves remarkable success in the OVKD task.Impressively, our method, operating in a zero-shot fashion, still yields results comparable to state-of-the-art few-shot species class-agnostic keypoint detection methods.We will make the source code publicly accessible.

Current image-based keypoint detection methods for animal (including human) bodies and faces are generally divided into full-supervised and few-shot class-agnostic approaches. The former typically relies on laborious and time-consuming manual annotations, posing considerable challenges in expanding keypoint detection to a broader range of keypoint categories and animal species. The latter, though less dependent on extensive manual input, still requires necessary support images with annotation for reference during testing. To realize zero-shot keypoint detection without any prior annotation, we introduce the Open-Vocabulary Keypoint Detection (OVKD) task, which is innovatively designed to use text prompts for identifying arbitrary keypoints across any species. In pursuit of this goal, we have developed a novel framework named Open-Vocabulary Keypoint Detection with Semantic-feature Matching (KDSM). This framework synergistically combines vision and language models, creating an interplay between language features and local keypoint visual features. KDSM enhances its capabilities by integrating Domain Distribution Matrix Matching (DDMM) and other special modules, such as the Vision-Keypoint Relational Awareness (VKRA) module, improving the framework's generalizability and overall performance.Our comprehensive experiments demonstrate that KDSM significantly outperforms the baseline in terms of performance and achieves remarkable success in the OVKD task.Impressively, our method, operating in a zero-shot fashion, still yields results comparable to state-of-the-art few-shot species class-agnostic keypoint detection methods.We will make the source code publicly accessible.
翻訳日:2023-12-13 01:39:21 公開日:2023-12-11
# 形式的定理提示に対する言語エージェント的アプローチ

A Language-Agent Approach to Formal Theorem-Proving ( http://arxiv.org/abs/2310.04353v2 )

ライセンス: Link先を確認
Amitayush Thakur, Yeming Wen, Swarat Chaudhuri(参考訳) 言語エージェントは、コンテキスト内学習で外部環境と対話できる大規模言語モデル(LLM)を使用しており、タスクを制御するための有望なアプローチとして最近登場した。 フォーマルな定理証明への最初の言語エージェントアプローチを示す。 COPRAは,高容量のブラックボックスLCM (GPT-4) をステートフルなバックトラック検索のポリシーの一部として用いる。 検索中、ポリシーは証明戦術を選択し、外部データベースから補題や定義を取得することができる。 各選択した戦術は基礎となる証明フレームワークで実行され、次のポリシー実行のプロンプトを構築するために実行フィードバックが使用される。 検索はまた、選択した情報を履歴から追跡し、幻覚や不要なllmクエリを減らすために利用する。 我々は、LeanのminiF2FベンチマークとCompcertプロジェクトからのCoqタスクセットに対するCOPRAの実装を評価した。 これらのベンチマークでは、COPRAはGPT-4のワンショット実行と、証明データに微調整された最先端モデルよりも、迅速に正しい証明を見つけることができる。 私たちのコードとデータはhttps://github.com/trishullab/copraで入手できます。

Language agents, which use a large language model (LLM) capable of in-context learning to interact with an external environment, have recently emerged as a promising approach to control tasks. We present the first language-agent approach to formal theorem-proving. Our method, COPRA, uses a high-capacity, black-box LLM (GPT-4) as part of a policy for a stateful backtracking search. During the search, the policy can select proof tactics and retrieve lemmas and definitions from an external database. Each selected tactic is executed in the underlying proof framework, and the execution feedback is used to build the prompt for the next policy invocation. The search also tracks selected information from its history and uses it to reduce hallucinations and unnecessary LLM queries. We evaluate our implementation of COPRA on the miniF2F benchmark for Lean and a set of Coq tasks from the Compcert project. On these benchmarks, COPRA significantly outperforms one-shot invocations of GPT-4, as well as state-of-the-art models fine-tuned on proof data, at finding correct proofs quickly. Our code and data are available at https://github.com/trishullab/copra.
翻訳日:2023-12-13 01:38:57 公開日:2023-12-11
# GoLLIE: アノテーションガイドラインの改善によるゼロショット情報抽出

GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction ( http://arxiv.org/abs/2310.03668v3 )

ライセンス: Link先を確認
Oscar Sainz, Iker Garc\'ia-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre(参考訳) 大規模な言語モデル(llm)と命令チューニングが組み合わさって、未認識のタスクに一般化する際に大きな進歩を遂げた。 しかし、情報抽出(ie)では成功せず、タスク固有のモデルに遅れを取っている。 通常、IEタスクは、タスクを記述し、人間に例を示す複雑なガイドラインによって特徴づけられる。 このような情報を活用する以前の試みは、最大のモデルでも、最初からガイドラインに従うことができないため、失敗している。 本稿では、アノテーションガイドラインに適合するように微調整されたieタスクのゼロショット結果を改善するためのモデルであるgollie(guideline-following large language model for ie)を提案する。 包括的評価は、GoLLIEが目に見えないガイドラインを一般化し、フォローできることを実証的に示し、ゼロショット情報抽出における以前の試みよりも優れている。 アブレーション研究は、詳細なガイドラインが良い結果の鍵であることを示している。

Large Language Models (LLMs) combined with instruction tuning have made significant progress when generalizing to unseen tasks. However, they have been less successful in Information Extraction (IE), lagging behind task-specific models. Typically, IE tasks are characterized by complex annotation guidelines which describe the task and give examples to humans. Previous attempts to leverage such information have failed, even with the largest models, as they are not able to follow the guidelines out-of-the-box. In this paper we propose GoLLIE (Guideline-following Large Language Model for IE), a model able to improve zero-shot results on unseen IE tasks by virtue of being fine-tuned to comply with annotation guidelines. Comprehensive evaluation empirically demonstrates that GoLLIE is able to generalize to and follow unseen guidelines, outperforming previous attempts at zero-shot information extraction. The ablation study shows that detailed guidelines is key for good results.
翻訳日:2023-12-13 01:38:39 公開日:2023-12-11
# Grad DFT: 機械学習強化密度汎関数理論のためのソフトウェアライブラリ

Grad DFT: a software library for machine learning enhanced density functional theory ( http://arxiv.org/abs/2309.15127v2 )

ライセンス: Link先を確認
Pablo A. M. Casares, Jack S. Baker, Matija Medvidovic, Roberto dos Reis, Juan Miguel Arrazola(参考訳) 密度汎関数理論(dft: density functional theory)は、計算量子化学と材料科学における基礎的な手法である。 しかし、特に強い相関関係のあるシステムを扱う場合、精度の限界に苦しむ。 これらの欠点に対処するため、最近の研究は、機械学習がDFTの能力をいかに拡張できるかを探求し始めている。 本研究では,完全に差別化可能なJAXベースのDFTライブラリであるGrad DFTについて述べる。 grad dftは、エネルギー密度の重み付け和を用いて構築された交換相関関数の先駆的パラメトリゼーションを採用しており、重み付けはニューラルネットワークを用いて決定される。 さらに、Grad DFTは、ジャストインタイムコンパイル可能で完全に差別化可能な自己整合反復手順を特徴とする、包括的な補助関数群を含んでいる。 トレーニングとベンチマーク作業を支援するため、ダイマーの実験的解離エネルギーのデータセットをコンパイルし、その半分は強い電子相関によって特徴づけられる遷移金属原子を含む。 このソフトウェアライブラリーは、潜在的なエネルギー面と原子種をまたいだ神経機能機能の一般化能力や、データノイズのトレーニングがモデル精度に及ぼす影響を研究するために、実験結果に対してテストされている。

Density functional theory (DFT) stands as a cornerstone method in computational quantum chemistry and materials science due to its remarkable versatility and scalability. Yet, it suffers from limitations in accuracy, particularly when dealing with strongly correlated systems. To address these shortcomings, recent work has begun to explore how machine learning can expand the capabilities of DFT; an endeavor with many open questions and technical challenges. In this work, we present Grad DFT: a fully differentiable JAX-based DFT library, enabling quick prototyping and experimentation with machine learning-enhanced exchange-correlation energy functionals. Grad DFT employs a pioneering parametrization of exchange-correlation functionals constructed using a weighted sum of energy densities, where the weights are determined using neural networks. Moreover, Grad DFT encompasses a comprehensive suite of auxiliary functions, notably featuring a just-in-time compilable and fully differentiable self-consistent iterative procedure. To support training and benchmarking efforts, we additionally compile a curated dataset of experimental dissociation energies of dimers, half of which contain transition metal atoms characterized by strong electronic correlations. The software library is tested against experimental results to study the generalization capabilities of a neural functional across potential energy surfaces and atomic species, as well as the effect of training data noise on the resulting model accuracy.
翻訳日:2023-12-13 01:37:03 公開日:2023-12-11
# LogGPT: GPTによるログ異常検出

LogGPT: Log Anomaly Detection via GPT ( http://arxiv.org/abs/2309.14482v2 )

ライセンス: Link先を確認
Xiao Han, Shuhan Yuan, Mohamed Trabelsi(参考訳) ログデータに基づくシステム異常の検出は,コンピュータシステムのセキュリティと信頼性を確保する上で重要である。 近年,ディープラーニングモデルがログ異常検出に広く利用されている。 中心となるアイデアは、ログシーケンスを自然言語としてモデル化し、lstmやtransformerといった深いシーケンシャルモデルを採用して、言語モデリングを通じてログシーケンスの通常のパターンをエンコードすることだ。 しかし、言語モデリング損失による逐次モデルのトレーニングの目的は、異常検出に直接関連しないため、言語モデリングと異常検出との間にはギャップがある。 このギャップを埋めるため,ログ異常検出にGPTを用いた新しいフレームワークであるLogGPTを提案する。 LogGPTは、まず前回のシーケンスに基づいて次のログエントリを予測するように訓練される。 本稿では,loggptの性能をさらに高めるために,ログ異常検出タスクに特有なモデルを微調整する新しい強化学習戦略を提案する。 3つのデータセットの実験結果は、LogGPTが既存の最先端アプローチを著しく上回っていることを示している。

Detecting system anomalies based on log data is important for ensuring the security and reliability of computer systems. Recently, deep learning models have been widely used for log anomaly detection. The core idea is to model the log sequences as natural language and adopt deep sequential models, such as LSTM or Transformer, to encode the normal patterns in log sequences via language modeling. However, there is a gap between language modeling and anomaly detection as the objective of training a sequential model via a language modeling loss is not directly related to anomaly detection. To fill up the gap, we propose LogGPT, a novel framework that employs GPT for log anomaly detection. LogGPT is first trained to predict the next log entry based on the preceding sequence. To further enhance the performance of LogGPT, we propose a novel reinforcement learning strategy to finetune the model specifically for the log anomaly detection task. The experimental results on three datasets show that LogGPT significantly outperforms existing state-of-the-art approaches.
翻訳日:2023-12-13 01:36:22 公開日:2023-12-11
# 変圧器を用いたタイト制約予測によるパワードライズ誘導の計算効率の向上

Improving Computational Efficiency for Powered Descent Guidance via Transformer-based Tight Constraint Prediction ( http://arxiv.org/abs/2311.05135v2 )

ライセンス: Link先を確認
Julia Briden, Trey Gurga, Breanna Johnson, Abhishek Cauligi, Richard Linares(参考訳) 本稿では,宇宙船搭載降下誘導問題の直接最適化定式化の計算複雑性を低減するためのスケーラブルなアルゴリズムであるtransformer-based powered descent guidance (t-pdg)を提案する。 t-pdgは、軌道最適化アルゴリズムの事前実行データを使用して、トランスニューラルネットワークをトレーニングし、動力降下誘導問題に対する問題パラメータとグローバル最適解の関係を正確に予測する。 この解は、制約された最小コスト軌道と最適着陸最終時刻に対応する厳密な制約の集合として符号化される。 変圧器ニューラルネットワークの注意機構を利用することで、宇宙船の状態と着陸地点パラメータのみを与えられた場合、時系列データの大規模なシーケンスを正確に予測することができる。 火星を動力とする降下誘導の実問題に適用すると、T-PDGは3自由度燃料最適軌道の計算に要する時間を1-8秒から500ミリ秒未満に短縮する。 安全で最適な解は、最終軌道に戻る前にt-pdgに実現可能性チェックを含めることで保証される。

In this work, we present Transformer-based Powered Descent Guidance (T-PDG), a scalable algorithm for reducing the computational complexity of the direct optimization formulation of the spacecraft powered descent guidance problem. T-PDG uses data from prior runs of trajectory optimization algorithms to train a transformer neural network, which accurately predicts the relationship between problem parameters and the globally optimal solution for the powered descent guidance problem. The solution is encoded as the set of tight constraints corresponding to the constrained minimum-cost trajectory and the optimal final time of landing. By leveraging the attention mechanism of transformer neural networks, large sequences of time series data can be accurately predicted when given only the spacecraft state and landing site parameters. When applied to the real problem of Mars powered descent guidance, T-PDG reduces the time for computing the 3 degree of freedom fuel-optimal trajectory, when compared to lossless convexification, from an order of 1-8 seconds to less than 500 milliseconds. A safe and optimal solution is guaranteed by including a feasibility check in T-PDG before returning the final trajectory.
翻訳日:2023-12-13 01:28:20 公開日:2023-12-11
# 会話における感情認識のための効率的なモデル非依存教師付きコントラスト学習フレームワークsslcl

SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning Framework for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.16676v3 )

ライセンス: Link先を確認
Tao Shi, Xiao Liang, Yaoyuan Liang, Xinyi Tong, Shao-Lun Huang(参考訳) 会話における感情認識(Emotion Recognition in conversation,ERC)は、会話中に話者が表現する感情を検出することを目的として、自然言語処理コミュニティ内で急速に進化しているタスクである。 近年,教師付きコントラスト学習(SCL)を活用した学習機能の堅牢性と一般化性の向上に重点を置いているERC手法が増えている。 しかし、現在のERCにおけるSCLベースのアプローチは、大きなバッチサイズの制約と既存のERCモデルとの互換性の欠如によって妨げられている。 これらの課題に対処するため,SCLフレームワークであるSupervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)を提案する。 具体的には, 個別のラベルを浅い多層パーセプトロンを介して密な埋め込みに投影し, サンプル特徴と対応する接地トラスラベルの埋め込みとの類似性を最大化し, 異なるクラスのラベル埋め込みとの類似性を最小限に抑えながら, ラベル表現を利用した新しい視点を導入する。 さらに,サンプル特徴量とラベル埋め込み量との類似性の尺度として,Soft-HGRの最大相関を革新的に採用し,従来の類似度尺度よりも優れた性能向上を実現した。 さらに、マルチモーダルな発話キューはSSLCLによってデータ拡張として効果的に活用され、モデル性能が向上する。 ERCベンチマークデータセットであるIEMOCAPとMELDの大規模な実験は、既存の最先端SCL手法と比較して、提案したSSLCLフレームワークの互換性と優位性を実証している。 私たちのコードは \url{https://github.com/TaoShi1998/SSLCL} で利用可能です。

Emotion recognition in conversations (ERC) is a rapidly evolving task within the natural language processing community, which aims to detect the emotions expressed by speakers during a conversation. Recently, a growing number of ERC methods have focused on leveraging supervised contrastive learning (SCL) to enhance the robustness and generalizability of learned features. However, current SCL-based approaches in ERC are impeded by the constraint of large batch sizes and the lack of compatibility with most existing ERC models. To address these challenges, we propose an efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal Correlation (SSLCL), which eliminates the need for a large batch size and can be seamlessly integrated with existing ERC models without introducing any model-specific assumptions. Specifically, we introduce a novel perspective on utilizing label representations by projecting discrete labels into dense embeddings through a shallow multilayer perceptron, and formulate the training objective to maximize the similarity between sample features and their corresponding ground-truth label embeddings, while minimizing the similarity between sample features and label embeddings of disparate classes. Moreover, we innovatively adopt the Soft-HGR maximal correlation as a measure of similarity between sample features and label embeddings, leading to significant performance improvements over conventional similarity measures. Additionally, multimodal cues of utterances are effectively leveraged by SSLCL as data augmentations to boost model performances. Extensive experiments on two ERC benchmark datasets, IEMOCAP and MELD, demonstrate the compatibility and superiority of our proposed SSLCL framework compared to existing state-of-the-art SCL methods. Our code is available at \url{https://github.com/TaoShi1998/SSLCL}.
翻訳日:2023-12-13 01:26:58 公開日:2023-12-11
# フェルミオン共形場理論はより絡み合うか?

Are fermionic conformal field theories more entangled? ( http://arxiv.org/abs/2310.15273v2 )

ライセンス: Link先を確認
Gilles Parez, William Witczak-Krempa(参考訳) 量子臨界系における解離部分領域間の絡み合いを対数ネガティティティのレンズを用いて検討する。 我々は一般次元における共形場理論(CFT)とその対応する格子ハミルトン理論を扱う。 小さな分離では対数ネガティビティが大きく、普遍的な振る舞いを示すが、大きな分離ではどのパワーよりも速く崩壊する。 これは既にシングルスピン部分領域の最小設定で見ることができる。 大規模な分離における蒸留可能な絡み合いの欠如は1dの結果を一般化し、少なくともボソンにとって量子臨界基底状態が長い範囲の二分性絡み合いを持たないことを示す。 フェルミオンを持つ系に対しては、フェルミオンパリティを考慮した対数否定性のより適切な定義が存在し、代数的に崩壊することを示す。 その過程で、部分転位密度行列のモーメントに対する一般的な CFT 結果を得る。

We study the entanglement between disjoint subregions in quantum critical systems through the lens of the logarithmic negativity. We work with conformal field theories (CFTs) in general dimensions, and their corresponding lattice Hamiltonians. At small separations, the logarithmic negativity is big and displays universal behaviour, but we show non-perturbatively that it decays faster than any power at large separations. This can already be seen in the minimal setting of single-spin subregions. The corresponding absence of distillable entanglement at large separations generalises the 1d result, and indicates that quantum critical groundstates do not possess long range bipartite entanglement, at least for bosons. For systems with fermions, a more suitable definition of the logarithmic negativity exists that takes into account fermion parity, and we show that it decays algebraically. Along the way we obtain general CFT results for the moments of the partially transposed density matrix.
翻訳日:2023-12-13 01:26:26 公開日:2023-12-11
# 安価な会話アルゴリズム

Cheap Talking Algorithms ( http://arxiv.org/abs/2310.07867v3 )

ライセンス: Link先を確認
Daniele Condorelli, Massimiliano Furlan(参考訳) 我々は、crawford and sobel (1982) game of strategic information transmission をプレイする独立強化学習アルゴリズムの挙動をシミュレートする。 送信側と受信側が共にトレーニングを行い,ゲームの最適均衡を近似する戦略に収束することを示す。 通信はナッシュ平衡によって予測される最大の範囲で起こる。 この結論は、学習ハイパーパラメータとゲームの代替仕様に対して堅牢である。 本稿では,情報伝達ゲームにおける平衡選択の理論,計算機科学におけるアルゴリズム間の新たなコミュニケーション,人工知能エージェントによる市場における共謀の経済性について論じる。

We simulate behaviour of independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We show that a sender and a receiver training together converge to strategies approximating the ex-ante optimal equilibrium of the game. Communication occurs to the largest extent predicted by Nash equilibrium. The conclusion is robust to alternative specifications of the learning hyperparameters and of the game. We discuss implications for theories of equilibrium selection in information transmission games, for work on emerging communication among algorithms in computer science, and for the economics of collusions in markets populated by artificially intelligent agents.
翻訳日:2023-12-13 01:24:42 公開日:2023-12-11
# 量子エンハンス予測:ストックリターン予測に量子グラム角場とcnnを活用する

Quantum-Enhanced Forecasting: Leveraging Quantum Gramian Angular Field and CNNs for Stock Return Predictions ( http://arxiv.org/abs/2310.07427v3 )

ライセンス: Link先を確認
Zhengmeng Xu, Yujie Wang, Xiaotong Feng, Yilin Wang, Yanli Li, Hai Lin(参考訳) 量子グラム角場(qgaf)と呼ばれる時系列予測手法を提案する。 このアプローチは、時系列分類と予測の精度を高めることを目的として、量子コンピューティング技術の利点とディープラーニングを融合する。 我々は,特定の量子回路を設計することで,畳み込みニューラルネットワーク(cnn)トレーニングに適した二次元画像にストックリターン時系列データを変換することに成功した。 古典的なGramian Angular Field(GAF)アプローチとは違い、QGAFのユニークな点は、データの正規化や逆コサイン計算の必要性を排除し、時系列データから2次元画像への変換プロセスを簡素化することにある。 本手法の有効性を検証するために,中国a株市場,香港証券取引所,米国株式市場の3つの主要株式市場のデータセットについて実験を行った。 実験の結果,従来のGAF法と比較して,QGAF法では時系列予測精度が有意に向上し,平均絶対誤差(MAE)平均25%,平均正方形誤差(MSE)平均48%の予測誤差が減少した。 本研究は、金融時系列予測における量子コンピューティングとディープラーニング技術の統合の可能性と将来性を検証する。

We propose a time series forecasting method named Quantum Gramian Angular Field (QGAF). This approach merges the advantages of quantum computing technology with deep learning, aiming to enhance the precision of time series classification and forecasting. We successfully transformed stock return time series data into two-dimensional images suitable for Convolutional Neural Network (CNN) training by designing specific quantum circuits. Distinct from the classical Gramian Angular Field (GAF) approach, QGAF's uniqueness lies in eliminating the need for data normalization and inverse cosine calculations, simplifying the transformation process from time series data to two-dimensional images. To validate the effectiveness of this method, we conducted experiments on datasets from three major stock markets: the China A-share market, the Hong Kong stock market, and the US stock market. Experimental results revealed that compared to the classical GAF method, the QGAF approach significantly improved time series prediction accuracy, reducing prediction errors by an average of 25% for Mean Absolute Error (MAE) and 48% for Mean Squared Error (MSE). This research confirms the potential and promising prospects of integrating quantum computing with deep learning techniques in financial time series forecasting.
翻訳日:2023-12-13 01:24:34 公開日:2023-12-11
# エントロピー規則化による線形二次制御の高速化

Fast Policy Learning for Linear Quadratic Control with Entropy Regularization ( http://arxiv.org/abs/2311.14168v3 )

ライセンス: Link先を確認
Xin Guo, Xinyu Li and Renyuan Xu(参考訳) 本稿では,エントロピー正規化を伴う無限時間軸上のディスカウント線形量子制御(lqc)問題に対して,正則化ポリシ勾配(rpg)と反復ポリシー最適化(ipo)という2つの新しいポリシー学習法を提案し,解析する。 正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形収束することが証明される。 さらに、最適政策の周辺地域に入ると、IPO方式は超直線収束率を達成することができる。 最後に、未知環境のRL問題に対する最適ポリシーを初期ポリシーとして、未知環境のRL問題に適切に移行した場合、この2つの環境が十分に近い場合には、IPO方式により超線形収束率を実現する。 これらのアルゴリズムの性能は数値例によって支持されている。

This paper proposes and analyzes two new policy learning methods: regularized policy gradient (RPG) and iterative policy optimization (IPO), for a class of discounted linear-quadratic control (LQC) problems over an infinite time horizon with entropy regularization. Assuming access to the exact policy evaluation, both proposed approaches are proven to converge linearly in finding optimal policies of the regularized LQC. Moreover, the IPO method can achieve a super-linear convergence rate once it enters a local region around the optimal policy. Finally, when the optimal policy for an RL problem with a known environment is appropriately transferred as the initial policy to an RL problem with an unknown environment, the IPO method is shown to enable a super-linear convergence rate if the two environments are sufficiently close. Performances of these proposed algorithms are supported by numerical examples.
翻訳日:2023-12-13 01:16:06 公開日:2023-12-11
# 反復量子プロトコルにおけるカオス挙動のロバスト性

Robustness of chaotic behavior in iterated quantum protocols ( http://arxiv.org/abs/2311.13280v2 )

ライセンス: Link先を確認
Attila Portik, Orosolya K\'alm\'an, Igor Jex and Tam\'as Kiss(参考訳) cnotゲート、アダマールゲート、出力の1つからなる最も単純な量子回路の1つは、等しく準備された量子ビットのアンサンブルに反復的に適用されるときにカオスダイナミクスをもたらすことが知られている。 純粋な初期量子状態の進化は、異なる収束領域の境界によって形成されるフラクタル(状態空間内)によって特徴づけられる。 量子コンピュータの現在の実装における典型的な不完全性であるコヒーレントエラーと非コヒーレント初期ノイズの両方の存在下で、理想的な進化が歪むかを検討する。 初期雑音のみの影響下ではフラクタルは保存されるが、その次元は臨界雑音レベル以下で一定である。 進化の固定点と周期を決定することにより,コヒーレントなアダマール門誤差の影響を系統的に解析する。 解析的手法と数値的手法を組み合わせることで, 準備雑音の存在下でのコヒーレント誤差により, ダイナミクスがどの程度変化するかを探索する。 我々は, 力学, 特にフラクタル境界は, 議論された騒音に対して頑健であり, わずかに歪むだけでよいことを示す。 我々は,力学の特性が著しく変化しない誤差パラメータの範囲を同定する。 そこで本研究では,反復プロトコルの信頼性の高いシステムを特定することを可能にする。

One of the simplest possible quantum circuits, consisting of a CNOT gate, a Hadamard gate and a measurement on one of the outputs is known to lead to chaotic dynamics when applied iteratively on an ensemble of equally prepared qubits. The evolution of pure initial quantum states is characterized by a fractal (in the space of states), formed by the border of different convergence regions. We examine how the ideal evolution is distorted in the presence of both coherent error and incoherent initial noise, which are typical imperfections in current implementations of quantum computers. It is known that under the influence of initial noise only, the fractal is preserved, moreover, its dimension remains constant below a critical noise level. We systematically analyze the effect of coherent Hadamard gate errors by determining fixed points and cycles of the evolution. We combine analytic and numerical methods to explore to what extent the dynamics is altered by coherent errors in the presence of preparation noise as well. We show that the main features of the dynamics, and especially the fractal borders, are robust against the discussed noise, they will only be slightly distorted. We identify a range of error parameters, for which the characteristic properties of the dynamics are not significantly altered. Hence, our results allow to identify reliable regimes of operation of iterative protocols.
翻訳日:2023-12-13 01:14:46 公開日:2023-12-11
# 高磁場における窒素空孔中心を用いたJ結合NMR分光

J-coupling NMR Spectroscopy with Nitrogen Vacancy Centers at High Fields ( http://arxiv.org/abs/2311.11880v2 )

ライセンス: Link先を確認
P. Alsina-Bol\'ivar, A. Biteri-Uribarren, C. Munuera-Javaloy, J. Casanova(参考訳) 窒素空孔(NV)中心アンサンブルを利用したダイヤモンドベースのセンサーは、室温でのNMRによるミクロンサイズの試料の分析を可能にする。 現在の取り組みは、ターゲット試料のより大きな核スピン分極のポテンシャルと化学シフトの増強により、NV中心の動作範囲を高磁場に拡張することを目的としている。 特に興味深いのは、分子内部の化学結合の情報を運ぶJカップリングへのアクセスである。 本研究では,高磁場におけるnv中心を持つ準核と異核のいずれにおいてもj結合にアクセスするプロトコルを提案する。 我々のプロトコルは、高分解能のj結合機能のみを含む明確なスペクトルに繋がる。 この分解能は主に対象試料の非一貫性によって制限され,提案手法のノイズフィルタリング容量によって緩和される。

A diamond-based sensor utilizing nitrogen-vacancy (NV) center ensembles permits the analysis of micron-sized samples through NMR techniques at room temperature. Current efforts are directed towards extending the operating range of NV centers into high magnetic fields, driven by the potential for larger nuclear spin polarization of the target sample and the presence of enhanced chemical shifts. Especially interesting is the access to J-couplings as they carry information of chemical connectivity inside molecules. In this work, we present a protocol to access J-couplings in both homonuclear and heteronuclear cases with NV centers at high magnetic fields. Our protocol leads to a clear spectrum exclusively containing J-coupling features with high resolution. This resolution is limited primarily by the decoherence of the target sample, which is mitigated by the noise filtering capacities of our method.
翻訳日:2023-12-13 01:14:01 公開日:2023-12-11
# 不安定性を利用したメカニカルスクイージングとエンタングルメント

Bistability-assisted Mechanical Squeezing and Entanglement ( http://arxiv.org/abs/2311.11062v2 )

ライセンス: Link先を確認
Souvik Agasti, P. Djorw\'e(参考訳) パラメトリック増幅を含むオプティメカルシステムにおいて,メカニカルモーションを圧縮し,メカニカルモーションで光場を絡み合わせる手法を提案する。 このスキームは、十分に強力な駆動場のためにシステムに出現する光ビスタビリティに基づいている。 安定状態の安定性の低い分岐を考慮すると、システムは弱い絡み合いを示し、ほとんど機械的スクイーズを示さない。 安定状態が不安定な形状の上枝にある場合には、スクイーズと絡み合いが大きく向上する。 具体的には、エンタングルメントは3度のエンハンスメントを示す。 しかし、この巨大絡み合いはデコヒーレンスや熱ゆらぎに対して脆弱である。 メカニカルスクイーズに関しては、安定性の上の枝の標準量子限界(SQL)に達する。 非線形性を利用して光力学系における量子効果を改善する手法を提案する。 このスキームは超伝導マイクロ波やハイブリッド光機械システムのような類似のシステムで実現することができる。

We propose a scheme to squeeze mechanical motion and to entangle optical field with mechanical motion in an optomechanical system containing a parametric amplification. The scheme is based on optical bistability which emerges in the system for a strong enough driving field. By considering the steady state's lower branch of the bistability, the system shows weak entanglement and almost no mechanical squeezing. When the steady state is on the upper branch of the bistable shape, both squeezing and entanglement are greatly enhanced. Specifically, the entanglement shows three degrees of magnitude enhancement. However, this giant entanglement is fragile against decoherence and thermal fluctuation. Regarding the mechanical squeezing, it reaches the standard quantum limit (SQL) in the upper branch of the bistability. Our proposal provides a way to improve quantum effects in optomechanical systems by taking advantage of nonlinearities. This scheme can be realized in similar systems such as superconducting microwave, and hybrid optomechanical systems.
翻訳日:2023-12-13 01:13:48 公開日:2023-12-11
# リチウムイオン電池寿命予測の注意機構:時間的・周期的注意

Attention Mechanism for Lithium-Ion Battery Lifespan Prediction: Temporal and Cyclic Attention ( http://arxiv.org/abs/2311.10792v2 )

ライセンス: Link先を確認
Jaewook Lee, Seongmin Heo, Jay H. Lee(参考訳) リチウムイオン電池(LIB)の寿命を正確に予測することは、使用率の最適化と事故の防止に重要である。 以前のアプローチは、しばしばリアルタイムで測定するのは難しい入力に依存し、サイクル内およびサイクル間データパターンを同時にキャプチャできなかった。 本研究では注意機構(AM)を用いて、簡単に測定可能な入力を用いてLIB寿命を予測するデータ駆動モデルを開発した。 発達したモデルは、繰り返しニューラルネットワークと畳み込みニューラルネットワークを統合し、時間的注意(ta)と循環的注意(ca)の2種類のamを特徴とする。 TAはサイクルごとに重要な時間ステップを特定し、CAは自己注意(SA)を通してサイクル間相関の重要な特徴を捉えようとしている。 3つのサイクリングモードからなる公開データに対して,開発したモデルを適用する。 TAスコアは、他のフェーズを異なるバッチを区別する重要な特徴として強調する。 CAスコアを活用することで,入力次元を100サイクルから50サイクル,30サイクルに減らし,単眼,多眼で観察した。

Accurately predicting lithium-ion batteries (LIBs) lifespan is pivotal for optimizing usage and preventing accidents. Previous approaches often relied on inputs challenging to measure in real-time, and failed to capture intra- and inter-cycle data patterns simultaneously. Our study employ attention mechanisms (AM) to develop data-driven models predicting LIB lifespan using easily measurable inputs. Developed model integrates recurrent neural network and convolutional neural network, featuring two types of AMs: temporal attention (TA) and cyclic attention (CA). TA identifies important time steps within each cycle, CA strives to capture key features of inter-cycle correlations through self-attention (SA). We apply the developed model to publicly available data consisting of three batches of cycling modes. TA scores highlight the rest phase as a key characteristic to distinguish different batches. By leveraging CA scores, we decreased the input dimension from 100 cycles to 50 and 30 cycles with single- and multi-head attention.
翻訳日:2023-12-13 01:13:33 公開日:2023-12-11
# 手術ビデオセグメンテーションのための相関対応能動学習

Correlation-aware active learning for surgery video segmentation ( http://arxiv.org/abs/2311.08811v2 )

ライセンス: Link先を確認
Fei Wu, Pablo Marquez-Neila, Mingyi Zheng, Hedyeh Rafii-Tari, Raphael Sznitman(参考訳) セマンティックセグメンテーションは、大量の注釈付き画像データに大きく依存する複雑なタスクである。 しかし、そのようなデータを注釈付けすることは、特に医療領域において、時間とリソースを消費する可能性がある。 アクティブラーニング(AL)は、アノテーションのイメージを反復的に選択してモデルのパフォーマンスを向上させることで、この負担を軽減するのに役立つ一般的なアプローチである。 ビデオデータの場合、アノテーションのための画像を選択する際に、シーケンスのモデル不確かさと時間的性質を考慮することが重要である。 本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。 私たちのアプローチでは、コントラスト学習で微調整された潜在空間に画像を投影し、ビデオフレームのローカルクラスタから一定数の代表画像を選択します。 本手法の有効性を手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットで実証する。 データセットとコードは、必要な承認を受けると公開されます。

Semantic segmentation is a complex task that relies heavily on large amounts of annotated image data. However, annotating such data can be time-consuming and resource-intensive, especially in the medical domain. Active Learning (AL) is a popular approach that can help to reduce this burden by iteratively selecting images for annotation to improve the model performance. In the case of video data, it is important to consider the model uncertainty and the temporal nature of the sequences when selecting images for annotation. This work proposes a novel AL strategy for surgery video segmentation, COWAL, COrrelation-aWare Active Learning. Our approach involves projecting images into a latent space that has been fine-tuned using contrastive learning and then selecting a fixed number of representative images from local clusters of video frames. We demonstrate the effectiveness of this approach on two video datasets of surgical instruments and three real-world video datasets. The datasets and code will be made publicly available upon receiving necessary approvals.
翻訳日:2023-12-13 01:12:48 公開日:2023-12-11
# リコメンダシステムの技術的負債に向けて

Towards a Technical Debt for Recommender System ( http://arxiv.org/abs/2311.07947v2 )

ライセンス: Link先を確認
Sergio Moreschini and Ludovik Coba and Valentina Lenarduzzi(参考訳) レコメンダシステムにおける技術的負債の管理のバランスをとるには,現行システムのメンテナンスと拡張を継続する新機能の導入を効果的にジャグリングする必要がある。 推奨システムの領域内では、技術的負債は、リコメンデーションシステムの開発とアップキープの間に行われたトレードオフと過度な選択を含んでおり、長期的パフォーマンス、スケーラビリティ、保守性に悪影響を及ぼす可能性がある。 本研究の目的は,レコメンダシステムにおける技術的負債に関する研究の方向性を開始することである。 我々は15の潜在的な要因と、それらを考えることが望ましい理由を詳述した。

Balancing the management of technical debt within recommender systems requires effectively juggling the introduction of new features with the ongoing maintenance and enhancement of the current system. Within the realm of recommender systems, technical debt encompasses the trade-offs and expedient choices made during the development and upkeep of the recommendation system, which could potentially have adverse effects on its long-term performance, scalability, and maintainability. In this vision paper, our objective is to kickstart a research direction regarding Technical Debt in Recommender Systems. We identified 15 potential factors, along with detailed explanations outlining why it is advisable to consider them.
翻訳日:2023-12-13 01:12:31 公開日:2023-12-11
# 自己教師付き動的漸進正規化適応について

On Self-Supervised Dynamic Incremental Regularised Adaptation ( http://arxiv.org/abs/2311.07461v2 )

ライセンス: Link先を確認
Abanoub Ghobrial, Kerstin Eder(参考訳) 本稿では,最近開発された動的領域適応手法であるDIRAについて概説する。この手法は,弾性重み付け法(Elastic weight Consolidation)と呼ばれる正則化手法に加えて,いくつかのサンプルを頼りに,最先端(SOTA)ドメイン適応結果を実現する。 DIRAは以前、SOTAの教師なし適応技術と競合することが示されている。 しかし、DIRAの制限は、適応に使用される数少ないサンプルに対して提供されるラベルに依存することである。 これは監督技術である。 本稿では,ラベル提供の必要性を解消するため,DIRA法の変更を提案する。 提案手法は今後の研究で実験的に評価される。

In this paper, we give an overview of a recently developed method for dynamic domain adaptation, named DIRA, which relies on a few samples in addition to a regularisation approach, named elastic weight consolidation, to achieve state-of-the-art (SOTA) domain adaptation results. DIRA has been previously shown to perform competitively with SOTA unsupervised adaption techniques. However, a limitation of DIRA is that it relies on labels to be provided for the few samples used in adaption. This makes it a supervised technique. In this paper, we propose a modification to the DIRA method to make it self-supervised i.e. remove the need for providing labels. Our proposed approach will be evaluated experimentally in future work.
翻訳日:2023-12-13 01:12:20 公開日:2023-12-11
# 非適応性クリフォードチャネルのキャラクタリゼーション

Characterization of non-adaptive Clifford channels ( http://arxiv.org/abs/2311.06133v2 )

ライセンス: Link先を確認
Vsevolod I. Yashin and Maria A. Elovenkova(参考訳) 古典制御のない安定化回路(クリフォードチャネル)によって実現される多ビット量子チャネルは、特に単純な構造を持つことを示す。 これらは、混合安定化器状態を保存するチャネル、または安定化器チョイ状態を保持するチャネルと等価に定義することができる。 クリフォードチャネルは、一元的エンコーディングとデコードマップまで、安定化状態の準備、クビットの破棄、アイデンティティチャネル、デファージングチャネルの産物である。 この単純な構造は、そのようなチャネルの情報理論的性質を特徴づけることができる。

We show that multiqubit quantum channels which may be realised via stabilizer circuits without classical control (Clifford channels) have a particularly simple structure. They can be equivalently defined as channels that preserve mixed stabilizer states, or the channels with stabilizer Choi state. Up to unitary encoding and decoding maps any Clifford channel is a product of stabilizer state preparations, qubit discardings, identity channels and dephasing channels. This simple structure allows to characterise information-theoretic properties of such channels.
翻訳日:2023-12-13 01:11:52 公開日:2023-12-11
# 自動運転検証における地盤真理アノテーションのLiDARによるストレッチ検出

LiDAR-based curb detection for ground truth annotation in automated driving validation ( http://arxiv.org/abs/2312.00534v2 )

ライセンス: Link先を確認
Jose Luis Apell\'aniz, Mikel Garc\'ia, Nerea Aranjuelo, Javier Barandiar\'an, Marcos Nieto(参考訳) カーブ検出は自動運転(AD:Automated Driving)において環境認識に必須であり、通常、乾燥可能領域と非駆動可能領域を制限する。 AD関数の開発と検証には注釈付きデータが必要である。 しかし、注釈付きポイントクラウドストレッチを持つ公開データセットの数は少ない。 本稿では,LiDARセンサの2つの主ステップからなる点雲列における3次元ストレッチを検出する手法を提案する。 まず,セグメンテーション深層ニューラルネットワークを用いて各スキャンの縁石を検出する。 そして、シーケンスレベル処理ステップは、車両のオドメトリを用いて再構成された点雲の3d縁石を推定する。 縁石のこれらの3次元点から, ASAM OpenLABEL標準に従って構成されたポリリンを得る。 これらの検出はラベル付けパイプラインの事前注釈として使用することができ、縁石関連の基底真理データを効率的に生成することができる。 提案手法は,自動生成された前アノテーションを伴わずに,lidarに基づく一連の配列の縁石をアノテートするために,異なる人間のアノテータが要求される実験を通じて検証する。 その結果,手動のアノテーションは検出によって50.99%短縮され,データ品質は維持された。

Curb detection is essential for environmental awareness in Automated Driving (AD), as it typically limits drivable and non-drivable areas. Annotated data are necessary for developing and validating an AD function. However, the number of public datasets with annotated point cloud curbs is scarce. This paper presents a method for detecting 3D curbs in a sequence of point clouds captured from a LiDAR sensor, which consists of two main steps. First, our approach detects the curbs at each scan using a segmentation deep neural network. Then, a sequence-level processing step estimates the 3D curbs in the reconstructed point cloud using the odometry of the vehicle. From these 3D points of the curb, we obtain polylines structured following ASAM OpenLABEL standard. These detections can be used as pre-annotations in labelling pipelines to efficiently generate curb-related ground truth data. We validate our approach through an experiment in which different human annotators were required to annotate curbs in a group of LiDAR-based sequences with and without our automatically generated pre-annotations. The results show that the manual annotation time is reduced by 50.99% thanks to our detections, keeping the data quality level.
翻訳日:2023-12-13 01:03:24 公開日:2023-12-11
# キャッシュを活用して小さなデバイスでSLUを実現する

Leveraging cache to enable SLU on tiny devices ( http://arxiv.org/abs/2311.18188v2 )

ライセンス: Link先を確認
Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin (University of Virginia)(参考訳) 本稿では,マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)について述べる。 我々は,デバイスの音声入力における時間的局所性を活用し,近年のslu推論を再利用する。 私たちのアイデアは単純で、デバイスがキャッシュされた結果に対して新しい入力をマッチングさせ、完全な推論のために未マッチの入力だけをクラウドにオフロードする。 しかし、このアイデアの実現は簡単ではない。デバイスは頑丈で低コストな方法で音響特性を比較する必要がある。 この目的のために,小型デバイス向け音声キャッシュXYZを提案する。 音声入力は、2つのレベルの表現で一致します。まずは生音ユニットのクラスタ化されたシーケンス、次に音素のシーケンスです。 2つの表現は相補的なコスト/精度のトレードオフを提供する。 さらに精度を高めるために、私たちのキャッシュは学習している。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出器を(クラウドの助けを借りて)継続的に微調整する。 市販STM32マイクロコントローラにXYZを実装した。 その結果、メモリフットプリントが2MBになった。 課題のある音声ベンチマークに基づいて、当社のシステムは、デバイス上の入力の45%--90%を解決し、一般的なクラウド音声サービスへのオフロードと比較して平均遅延を最大80%削減します。当社のメリットは、ノイズの多い環境、コールドキャッシュ、あるいは多数のユーザによって共有される1つのデバイスにおいてさえ発音されます。

This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We exploit temporal locality in a device's speech inputs and accordingly reuse recent SLU inferences. Our idea is simple: let the device match new inputs against cached results, and only offload unmatched inputs to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust, low-cost way. To this end, we present XYZ, a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by clustered sequences of raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary cost/accuracy tradeoffs. To further boost accuracy, our cache is learning: with the mismatched and then offloaded inputs, it continuously finetunes the device's feature extractors (with the assistance of the cloud). We implement XYZ on an off-the-shelf STM32 microcontroller. The resultant implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%--90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech services. Our benefit is pronounced even in adversarial settings -- noisy environments, cold cache, or one device shared by a number of users.
翻訳日:2023-12-13 01:02:39 公開日:2023-12-11
# UC-NeRF:自律走行におけるアンダーキャリブレーション型マルチビューカメラのニューラル放射場

UC-NeRF: Neural Radiance Field for Under-Calibrated Multi-view Cameras in Autonomous Driving ( http://arxiv.org/abs/2311.16945v2 )

ライセンス: Link先を確認
Kai Cheng, Xiaoxiao Long, Wei Yin, Jin Wang, Zhiqiang Wu, Yuexin Ma, Kaixuan Wang, Xiaozhi Chen, Xuejin Chen(参考訳) マルチカメラのセットアップは、センシング能力を大きく拡大するため、自動運転など、さまざまなアプリケーションで広く使われている。 ニューラルレーダランス場(NeRF)技術の急速な発展と、室内および屋外の両方で広く応用されているにもかかわらず、マルチカメラシステムにNeRFを適用することは依然として非常に難しい。 これは主に、様々なカメラで別々に校正された画像信号処理ユニットから発生する不整合画像効果や、相対的なカメラのポーズに影響を与える運転中の機械的振動によるシステムエラーなど、マルチカメラ装置の過度な校正問題に起因する。 本稿では,多視点カメラシステムにおける新しい視点合成のための新しい手法であるuc-nerfを提案する。 まず,異なる画像領域における色不整合を補正するレイヤベースの色補正を提案する。 第2に,色補正と3次元復元のために,よりパースペクティブでカラー一貫性のある仮想ビューを生成する仮想ワーピングを提案する。 最後に、時空間的に制約されたポーズ補正は、マルチカメラシステムにおいてより堅牢で正確なポーズキャリブレーションのために設計されている。 提案手法は, マルチカメラシステムにおける新規ビュー合成の最先端性能を実現するだけでなく, 大規模屋外シーンの深度推定にも有効である。

Multi-camera setups find widespread use across various applications, such as autonomous driving, as they greatly expand sensing capabilities. Despite the fast development of Neural radiance field (NeRF) techniques and their wide applications in both indoor and outdoor scenes, applying NeRF to multi-camera systems remains very challenging. This is primarily due to the inherent under-calibration issues in multi-camera setup, including inconsistent imaging effects stemming from separately calibrated image signal processing units in diverse cameras, and system errors arising from mechanical vibrations during driving that affect relative camera poses. In this paper, we present UC-NeRF, a novel method tailored for novel view synthesis in under-calibrated multi-view camera systems. Firstly, we propose a layer-based color correction to rectify the color inconsistency in different image regions. Second, we propose virtual warping to generate more viewpoint-diverse but color-consistent virtual views for color correction and 3D recovery. Finally, a spatiotemporally constrained pose refinement is designed for more robust and accurate pose calibration in multi-camera systems. Our method not only achieves state-of-the-art performance of novel view synthesis in multi-camera setups, but also effectively facilitates depth estimation in large-scale outdoor scenes with the synthesized novel views.
翻訳日:2023-12-13 01:02:12 公開日:2023-12-11
# Kandinsky 3.0テクニカルレポート

Kandinsky 3.0 Technical Report ( http://arxiv.org/abs/2312.03511v2 )

ライセンス: Link先を確認
Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov(参考訳) 我々は,潜在拡散に基づく大規模テキストから画像への生成モデルであるkandinsky 3.0について述べる。 Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。 本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションの生産システムについて述べる。 私たちは、多数の実験の結果明らかになった主要なコンポーネントに焦点を当て、他のコンポーネントと比較して、モデルの品質向上に最も大きな影響を与えました。 私たちの比較によって、kandinskyはテキスト理解がより良くなり、特定のドメインでよりうまく機能します。 プロジェクトページ: https://ai-forever.github.io/kandinsky-3

We present Kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image Kandinsky models and reflecting our progress to achieve higher quality and realism of image generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0 leverages a two times larger U-Net backbone, a ten times larger text encoder and removes diffusion mapping. We describe the architecture of the model, the data collection procedure, the training technique, and the production system of user interaction. We focus on the key components that, as we have identified as a result of a large number of experiments, had the most significant impact on improving the quality of our model compared to the others. By our side-by-side comparisons, Kandinsky becomes better in text understanding and works better on specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
翻訳日:2023-12-13 00:53:37 公開日:2023-12-11
# UFineBench:超微細粒度テキスト検索を目指して

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity ( http://arxiv.org/abs/2312.03441v2 )

ライセンス: Link先を確認
Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao(参考訳) 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。 これは、実際のシナリオでクエリテキストのきめ細かいセマンティクスを理解することをモデルを妨げます。 この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。 まず、UFine6926という新しい \textbf{dataset} を構築する。 多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手作業でアノテートし、平均80.8単語を割り当てる。 平均単語数は、前のデータセットの3倍から4倍である。 標準のドメイン内評価に加えて、実際のシナリオをより代表する特別な \textbf{evaluation paradigm} も提案する。 クロスドメインの新たな評価セット、クロステキストの粒度とクロステキストのスタイル、ufine3c、検索能力を正確に測定するための新しい評価指標である平均類似度分布(msd)が含まれている。 さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。 共有クロスモーダル粒度デコーダとハード負一致機構を採用して微細粒度マイニングを実現する。 標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。 さらに, ufine6926のトレーニングをufine3cで評価することで, 他の粗粒度データセットと比較して実シナリオへの一般化が著しく向上することを示す。 データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。

Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
翻訳日:2023-12-13 00:53:22 公開日:2023-12-11
# 教師なし不均一マッピングのためのマスク付き符号化による皮質異常の学習

Learning Cortical Anomaly through Masked Encoding for Unsupervised Heterogeneity Mapping ( http://arxiv.org/abs/2312.02762v2 )

ライセンス: Link先を確認
Hao-Chun Yang, Ole Andreassen, Lars Tjelta Westlye, Andre F. Marquand, Christian F. Beckmann, Thomas Wolfers(参考訳) 脳の読み出しに基づく異種精神疾患の検出は、症状の複雑さと信頼できるバイオマーカーの欠如のため、依然として困難である。 本稿では、皮質表面の特徴を用いた複雑な脳疾患の教師なし検出を目的とした、新しい自己教師型フレームワークであるCAM(Cortical Anomaly Detection through Masked Image Modeling)を紹介する。 我々はこの枠組みを心理スペクトル上の個人の検出に利用し、その能力を最先端の手法と比較し、SchizoaffectiveのAUC 0.696、Schizophreniformの0.769をラベルなしで達成した。 さらに、非典型的皮質領域の解析には、Pars Triangularisと、統合失調症に関連するいくつかの前頭葉領域が含まれる。 総じて,皮質異常に基づく複雑な脳疾患の異常検出のためのスケーラブルなアプローチを示す。

The detection of heterogeneous mental disorders based on brain readouts remains challenging due to the complexity of symptoms and the absence of reliable biomarkers. This paper introduces CAM (Cortical Anomaly Detection through Masked Image Modeling), a novel self-supervised framework designed for the unsupervised detection of complex brain disorders using cortical surface features. We employ this framework for the detection of individuals on the psychotic spectrum and demonstrate its capabilities compared to state-ofthe-art methods, achieving an AUC of 0.696 for Schizoaffective and 0.769 for Schizophreniform, without the need for any labels. Furthermore, the analysis of atypical cortical regions includes Pars Triangularis and several frontal areas, often implicated in schizophrenia, provide further confidence in our approach. Altogether, we demonstrate a scalable approach for anomaly detection of complex brain disorders based on cortical abnormalities.
翻訳日:2023-12-13 00:50:29 公開日:2023-12-11
# 3次元点雲を用いた宇宙軌道の教師なし変化検出

Unsupervised Change Detection for Space Habitats Using 3D Point Clouds ( http://arxiv.org/abs/2312.02396v2 )

ライセンス: Link先を確認
Jamie Santos, Holly Dinkel, Julia Di, Paulo V.K. Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, and Trey Smith(参考訳) 本研究は,将来の宇宙空間における自律的ロボットケアを可能にするため,ポイントクラウドからのシーン変化検出アルゴリズムを提案する。 自律型ロボットシステムは、ゲートウェイ宇宙ステーションのような将来的な深宇宙の居住環境を維持するのに役立つだろう。 国際宇宙ステーション(ISS)で使われている既存のシーン解析ソフトウェアは、手動でラベル付けされた画像を使って変化を検出する。 対照的に、本論文で提示されるアルゴリズムは、生のラベルなしの点雲を入力として使用する。 このアルゴリズムはまず、2つの入力点クラウドに改良された期待最大化ガウス混合モデル(GMM)クラスタリングを適用する。 次に、Earth Mover's Distanceを用いてGMMを比較して変更検出を行う。 このアルゴリズムは、NASA Ames Granite LabのAstrobeeロボットが収集したテストデータセットを用いて定量的に定性的に検証され、Astrobeeが直接撮影した単一のフレーム深度画像と、RGB-Dで構築され、Astrobeeからのデータを合成するフルシーン再構成マップからなる。 このアプローチのランタイムも深く分析されます。 ソースコードは、さらなる開発を促進するために公開されている。

This work presents an algorithm for scene change detection from point clouds to enable autonomous robotic caretaking in future space habitats. Autonomous robotic systems will help maintain future deep-space habitats, such as the Gateway space station, which will be uncrewed for extended periods. Existing scene analysis software used on the International Space Station (ISS) relies on manually-labeled images for detecting changes. In contrast, the algorithm presented in this work uses raw, unlabeled point clouds as inputs. The algorithm first applies modified Expectation-Maximization Gaussian Mixture Model (GMM) clustering to two input point clouds. It then performs change detection by comparing the GMMs using the Earth Mover's Distance. The algorithm is validated quantitatively and qualitatively using a test dataset collected by an Astrobee robot in the NASA Ames Granite Lab comprising single frame depth images taken directly by Astrobee and full-scene reconstructed maps built with RGB-D and pose data from Astrobee. The runtimes of the approach are also analyzed in depth. The source code is publicly released to promote further development.
翻訳日:2023-12-13 00:50:01 公開日:2023-12-11
# テキスト・画像合成のためのコントラスト構成ベンチマーク:統一テキスト・画像の忠実度指標を用いた検討

A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics ( http://arxiv.org/abs/2312.02338v2 )

ライセンス: Link先を確認
Xiangru Zhu, Penglei Sun, Chengyu Wang, Jingping Liu, Zhixu Li, Yanghua Xiao, Jun Huang(参考訳) text-to-image (t2i) 合成は近年大きな進歩を遂げている。 しかし、既知のコンポーネントから新しい組み合わせを作成する能力であるモデルの構成性には課題が残っている。 我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。 このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。 これらの微妙な相違のある対照的な文対は、T2I合成モデルのきめ細かい評価を可能にする。 さらに,異なる指標間の不整合に対処するために,比較文ペアを用いて様々な指標の信頼性を評価する戦略を提案する。 我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を持つ。 最後に、これらの指標の長所と短所、および様々な複雑な構成カテゴリにわたる課題に対処する現在のT2Iモデルの能力について考察する。 私たちのベンチマークはhttps://github.com/zhuxiangru/Winoground-T2Iで公開されています。

Text-to-image (T2I) synthesis has recently achieved significant advancements. However, challenges remain in the model's compositionality, which is the ability to create new combinations from known components. We introduce Winoground-T2I, a benchmark designed to evaluate the compositionality of T2I models. This benchmark includes 11K complex, high-quality contrastive sentence pairs spanning 20 categories. These contrastive sentence pairs with subtle differences enable fine-grained evaluations of T2I synthesis models. Additionally, to address the inconsistency across different metrics, we propose a strategy that evaluates the reliability of various metrics by using comparative sentence pairs. We use Winoground-T2I with a dual objective: to evaluate the performance of T2I models and the metrics used for their evaluation. Finally, we provide insights into the strengths and weaknesses of these metrics and the capabilities of current T2I models in tackling challenges across a range of complex compositional categories. Our benchmark is publicly available at https://github.com/zhuxiangru/Winoground-T2I .
翻訳日:2023-12-13 00:49:42 公開日:2023-12-11
# 混合量子/古典理論(MQCT)による複雑系における分子衝突のダイナミクス

Mixed Quantum/Classical Theory (MQCT) Approach to the Dynamics of Molecule-Molecule Collisions in Complex Systems ( http://arxiv.org/abs/2312.02322v2 )

ライセンス: Link先を確認
Carolin Joy, Bikramaditya Mandal, Dulat Bostan, Marie-Lise Dubernet and Dmitri Babikov(参考訳) 複雑な分子-分子衝突における衝突エネルギー移動とロ-振動エネルギー交換のダイナミクスを研究できる一般理論的アプローチとユーザ対応のコンピュータコードを開発した。 この方法は古典力学と量子力学の混合である。 衝突パートナーの内部振動運動は、状態量子化やゼロ点エネルギー、状態-状態遷移、量子対称性、干渉現象などの多くの量子現象を捉える時間依存シュロディンガー方程式を用いて量子力学的に扱われる。 ehrenfest平均場軌道アプローチを用いて、衝突パートナーの翻訳運動を古典的に記述することにより、重要な数値的な高速化が得られる。 このフレームワーク内では、衝突力学の近似手法のファミリーが開発された。 H$_2$O や ND$_3$ とHe, H$_2$ や D$_2$ と衝突した二原子および三原子分子に関するいくつかのベンチマーク研究は、MQCT の結果が幅広いエネルギー、特に完全な量子結果とほぼ同一となる高衝突エネルギーのフル量子計算とよく一致していることを示している。 この手法の数値的効率性とmqct符号の大規模並列性により、c$_6$h$_6$ + he, ch$_3$cooh + he, h$_2$o + h$_2$o などの最も複雑な衝突系を取り入れることができる。 MQCTのCH$_3$CHCH$_2$O + Heなどのキラル分子の衝突や分子表面衝突への応用も可能であり、将来追求される。

We developed a general theoretical approach and a user-ready computer code that permit to study the dynamics of collisional energy transfer and ro-vibrational energy exchange in complex molecule-molecule collisions. The method is a mixture of classical and quantum mechanics. The internal ro-vibrational motion of collision partners is treated quantum mechanically using time-dependent Schrodinger equation that captures many quantum phenomena including state quantization and zero-point energy, propensity and selection rules for state-to-state transitions, quantum symmetry and interference phenomena. A significant numerical speed up is obtained by describing the translational motion of collision partners classically, using the Ehrenfest mean-field trajectory approach. Within this framework a family of approximate methods for collision dynamics is developed. Several benchmark studies for diatomic and triatomic molecules, such as H$_2$O and ND$_3$ collided with He, H$_2$ and D$_2$, show that the results of MQCT are in good agreement with full-quantum calculations in a broad range of energies, especially at high collision energies where they become nearly identical to the full quantum results. Numerical efficiency of the method and massive parallelism of the MQCT code permit us to embrace some of the most complicated collisional systems ever studied, such as C$_6$H$_6$ + He, CH$_3$COOH + He and H$_2$O + H$_2$O. Application of MQCT to the collisions of chiral molecules such as CH$_3$CHCH$_2$O + He, and to the molecule-surface collisions is also possible and will be pursued in the future.
翻訳日:2023-12-13 00:49:27 公開日:2023-12-11
# ハイブリッド量子回路におけるエンタングルメント・マジック分離

Entanglement-magic separation in hybrid quantum circuits ( http://arxiv.org/abs/2312.02039v2 )

ライセンス: Link先を確認
Gerald E. Fux, Emanuele Tirrito, Marcello Dalmonte, Rosario Fazio(参考訳) マジックは量子状態から最も近い安定状態までの距離を記述する。 それは--- 絡み合いのように--- 古典的コンピューティングに対する潜在的な量子上の優位性に必要なリソースである。 安定器エントロピーによって定量化されたマジックを,射影計測と非クリフォード資源の注入制御を併用したハイブリッド量子回路で研究した。 そこで本研究では,(sub)-extensive と area law scaling の相転移を,測定速度によって制御する。 同じ回路はエンタングルメントの相転移を示すが、これは異なる臨界測定速度で現れる。 このメカニズムは、潜在的量子アドバンテージの観点から、ハイブリッド回路が、絡み合いだけでなく、密度行列の他の非線形特性が作用する複数の異なる遷移をホストする方法を示している。

Magic describes the distance of a quantum state to its closest stabilizer state. It is -- like entanglement -- a necessary resource for a potential quantum advantage over classical computing. We study magic, quantified by stabilizer entropy, in a hybrid quantum circuit with projective measurements and a controlled injection of non-Clifford resources. We discover a phase transition between a (sub)-extensive and area law scaling of magic controlled by the rate of measurements. The same circuit also exhibits a phase transition in entanglement that appears, however, at a different critical measurement rate. This mechanism shows how, from the viewpoint of a potential quantum advantage, hybrid circuits can host multiple distinct transitions where not only entanglement, but also other non-linear properties of the density matrix come into play.
翻訳日:2023-12-13 00:48:52 公開日:2023-12-11
# 物体検出データセットにおける雑音ラベル対策

Combating noisy labels in object detection datasets ( http://arxiv.org/abs/2211.13993v3 )

ライセンス: Link先を確認
Krystian Chachu{\l}a, Jakub {\L}yskawa, Bart{\l}omiej Olber, Piotr Fr\k{a}tczak, Adam Popowicz, Krystian Radlak(参考訳) ディープニューラルネットワークのためのトレーニングデータセットの品質は、結果のモデルの正確性に寄与する重要な要因である。 この効果はオブジェクト検出のような難しいタスクで増幅される。 データセットのエラーを扱うのは、一部の例が誤りであることを受け入れ、信頼度を見積もったり、適切な重み付けを割り当てたり、トレーニング中の不確実性を無視したりすることに限られることが多い。 本研究では,異なるアプローチを提案する。 本稿では,オブジェクト検出データセットにおける各ラベルの品質評価,欠落,散逸,誤記,誤記の同定,修正を提案するclodアルゴリズムを提案する。 トレーニングデータセットの誤った例を見つけることに集中することで、ルートでそれらを排除できます。 疑わしいバウンディングボックスは、データセットの品質を改善するためにレビューされ、既に複雑なアーキテクチャを複雑にすることなく、より良いモデルに繋がる。 提案手法は,人工的に乱れた境界ボックスの80%近くを誤検出率0.1以下で示すことができる。 最も確実な自動提案を適用してデータセットをクリーニングすることで、データセットによってmAPスコアが16%から46%向上した。 このアプローチは、最先端のオブジェクト検出データセットを修正できる有望な可能性を示している。

The quality of training datasets for deep neural networks is a key factor contributing to the accuracy of resulting models. This effect is amplified in difficult tasks such as object detection. Dealing with errors in datasets is often limited to accepting that some fraction of examples are incorrect, estimating their confidence, and either assigning appropriate weights or ignoring uncertain ones during training. In this work, we propose a different approach. We introduce the Confident Learning for Object Detection (CLOD) algorithm for assessing the quality of each label in object detection datasets, identifying missing, spurious, mislabeled, and mislocated bounding boxes and suggesting corrections. By focusing on finding incorrect examples in the training datasets, we can eliminate them at the root. Suspicious bounding boxes can be reviewed to improve the quality of the dataset, leading to better models without further complicating their already complex architectures. The proposed method is able to point out nearly 80% of artificially disturbed bounding boxes with a false positive rate below 0.1. Cleaning the datasets by applying the most confident automatic suggestions improved mAP scores by 16% to 46%, depending on the dataset, without any modifications to the network architectures. This approach shows promising potential in rectifying state-of-the-art object detection datasets.
翻訳日:2023-12-12 23:07:19 公開日:2023-12-11
# adaptcl: 逐次データセットにおける不均一性に取り組むための適応型連続学習

AdaptCL: Adaptive Continual Learning for Tackling Heterogeneity in Sequential Datasets ( http://arxiv.org/abs/2207.11005v3 )

ライセンス: Link先を確認
Yuqing Zhao, Divya Saxena, Jiannong Cao(参考訳) 連続学習における複雑さ、サイズ、および類似性が異なる異種データセットを管理することは、大きな課題となる。 異なる類似性を持つデータセットは、タスク境界の識別に困難をもたらすため、タスクに依存しない連続学習は、この課題に対処するために必要である。 従来のタスク非依存の継続的学習プラクティスは、リハーサルや正規化技術に依存している。 しかし、リハーサル法はデータセットサイズの変化に苦慮し、バッファサイズが硬いため、古いデータや新しいデータの重要性を規制する。 一方、正規化手法は一般化を促進するために一般的な制約を適用するが、共有機能に欠ける異種データセットを扱う場合のパフォーマンスを阻害し、より適応的なアプローチを必要とする。 本稿では,逐次データセットの不均一性に対処する適応型連続学習手法AdaptCLを提案する。 adaptclは、データ複雑性とデータセットサイズの変化に対応するために、きめ細かいデータ駆動プルーニングを採用している。 また、タスクに依存しないパラメータ分離を利用して、データ類似性の相違による破滅的な忘れ方の影響を緩和する。 2段階のケーススタディアプローチにより、mnist変種とdomainnetのデータセットと異なるドメインのデータセットの両方についてadaptclを評価する。 後者には、大規模で多様なバイナリクラスデータセットと、少数のマルチクラスデータセットが含まれている。 これらすべてのシナリオにおいて、AdaptCLは一貫して堅牢なパフォーマンスを示し、異種データセットを扱う際の柔軟性と一般的な適用性を示している。

Managing heterogeneous datasets that vary in complexity, size, and similarity in continual learning presents a significant challenge. Task-agnostic continual learning is necessary to address this challenge, as datasets with varying similarity pose difficulties in distinguishing task boundaries. Conventional task-agnostic continual learning practices typically rely on rehearsal or regularization techniques. However, rehearsal methods may struggle with varying dataset sizes and regulating the importance of old and new data due to rigid buffer sizes. Meanwhile, regularization methods apply generic constraints to promote generalization but can hinder performance when dealing with dissimilar datasets lacking shared features, necessitating a more adaptive approach. In this paper, we propose AdaptCL, a novel adaptive continual learning method to tackle heterogeneity in sequential datasets. AdaptCL employs fine-grained data-driven pruning to adapt to variations in data complexity and dataset size. It also utilizes task-agnostic parameter isolation to mitigate the impact of varying degrees of catastrophic forgetting caused by differences in data similarity. Through a two-pronged case study approach, we evaluate AdaptCL on both datasets of MNIST Variants and DomainNet, as well as datasets from different domains. The latter include both large-scale, diverse binary-class datasets and few-shot, multi-class datasets. Across all these scenarios, AdaptCL consistently exhibits robust performance, demonstrating its flexibility and general applicability in handling heterogeneous datasets.
翻訳日:2023-12-12 23:05:42 公開日:2023-12-11
# unsupervised word sense disambiguationにおける文脈認識意味類似度測定

Context-Aware Semantic Similarity Measurement for Unsupervised Word Sense Disambiguation ( http://arxiv.org/abs/2305.03520v3 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 単語感覚の曖昧さの問題は、自然言語処理において、この課題に直面するために機械学習モデルを供給するための注釈付きデータが不足しているために、大きな課題となっている。 そのため、注釈付きデータに頼らずにこの課題を克服するために、教師なしの単語認識曖昧化手法が開発されている。 本研究は、文脈情報を類似度測定プロセスに組み込む柔軟なメカニズムを提供する、教師なし単語感覚曖昧化に対する新しい文脈認識アプローチを提案する。 提案手法を評価するために,人気のあるベンチマークデータセットを用いて実験を行い,その性能を教師なし語義不曖昧化手法と比較した。 実験結果から,本手法は曖昧さの精度を大幅に向上させ,既存技術の性能をはるかに上回ることを示す。 本研究は,意味的類似度測定における文脈情報の統合の重要性を明らかにし,教師なしシナリオにおける単語感覚の曖昧さを効果的に管理する。

The issue of word sense ambiguity poses a significant challenge in natural language processing due to the scarcity of annotated data to feed machine learning models to face the challenge. Therefore, unsupervised word sense disambiguation methods have been developed to overcome that challenge without relying on annotated data. This research proposes a new context-aware approach to unsupervised word sense disambiguation, which provides a flexible mechanism for incorporating contextual information into the similarity measurement process. We experiment with a popular benchmark dataset to evaluate the proposed strategy and compare its performance with state-of-the-art unsupervised word sense disambiguation techniques. The experimental results indicate that our approach substantially enhances disambiguation accuracy and surpasses the performance of several existing techniques. Our findings underscore the significance of integrating contextual information in semantic similarity measurements to manage word sense ambiguity in unsupervised scenarios effectively.
翻訳日:2023-12-12 22:57:41 公開日:2023-12-11
# グラニュラ・ボール・コンピューティング : 効率的で堅牢で解釈可能な適応型多粒度表現と計算法

Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method ( http://arxiv.org/abs/2304.11171v3 )

ライセンス: Link先を確認
Shuyin Xia, Guoyin Wang, Xinbo Gao, Xiaoyu Lian(参考訳) 人間の認知は「グローバルファースト」認知メカニズムで動作し、粗い詳細に基づいて情報処理を優先する。 このメカニズムは本質的に適応的な多粒性記述能力を持ち、効率性、堅牢性、解釈可能性などの計算特性をもたらす。 解析パターンは、最も微細な粒度と単一粒度に依存するため、既存の計算手法のほとんどは効率が悪く、堅牢で、解釈可能である。 多粒度グラニュラーボールコンピューティングは、様々な大きさのグラニュラーボールを用いてサンプル空間を適度に表現し包み込み、これらのグラニュラーボールに基づく学習を容易にする。 粗粒の「粒状球」の数がサンプル点より少ないことを考えると、粒状球計算はより効率的である。 さらに,粒状ボールの粒状性は,粒状試料の乱れに対する感受性を低下させ,頑健性を高める。 粒状球の多面的構成は位相構造と粗い粒状記述を生成し、自然に解釈可能性を高める。 グラニュラー・ボール・コンピューティングは様々なAI分野への進出に成功し、グラニュラー・ボール分類器、クラスタリング技術、ニューラルネットワーク、粗いセット、進化的コンピューティングなど、革新的な理論的手法の開発を促進する。 これにより、従来の方法の効率性、雑音のロバスト性、解釈性が改善された。 全体として、グラニュラーボールコンピューティングはAIにおける稀で革新的な理論的アプローチであり、効率性、堅牢性、解釈可能性を適応的かつ同時に向上させることができる。 本稿は、将来研究者に、この期待できる理論を洗練・拡張するための参照と洞察を与えることを目的として、グラニュラーボールコンピューティングのための主要な応用展望を掘り下げる。

Human cognition operates on a "Global-first" cognitive mechanism, prioritizing information processing based on coarse-grained details. This mechanism inherently possesses an adaptive multi-granularity description capacity, resulting in computational traits such as efficiency, robustness, and interpretability. The analysis pattern reliance on the finest granularity and single-granularity makes most existing computational methods less efficient, robust, and interpretable, which is an important reason for the current lack of interpretability in neural networks. Multi-granularity granular-ball computing employs granular-balls of varying sizes to daptively represent and envelop the sample space, facilitating learning based on these granular-balls. Given that the number of coarse-grained "granular-balls" is fewer than sample points, granular-ball computing proves more efficient. Moreover, the inherent coarse-grained nature of granular-balls reduces susceptibility to fine-grained sample disturbances, enhancing robustness. The multi-granularity construct of granular-balls generates topological structures and coarse-grained descriptions, naturally augmenting interpretability. Granular-ball computing has successfully ventured into diverse AI domains, fostering the development of innovative theoretical methods, including granular-ball classifiers, clustering techniques, neural networks, rough sets, and evolutionary computing. This has notably ameliorated the efficiency, noise robustness, and interpretability of traditional methods. Overall, granular-ball computing is a rare and innovative theoretical approach in AI that can adaptively and simultaneously enhance efficiency, robustness, and interpretability. This article delves into the main application landscapes for granular-ball computing, aiming to equip future researchers with references and insights to refine and expand this promising theory.
翻訳日:2023-12-12 22:57:06 公開日:2023-12-11
# 不確かさの下での個性

Individual Fairness under Uncertainty ( http://arxiv.org/abs/2302.08015v2 )

ライセンス: Link先を確認
Wenbin Zhang, Zichong Wang, Juyong Kim, Cheng Cheng, Thomas Oommen, Pradeep Ravikumar, and Jeremy Weiss(参考訳) 機械学習(ML)アルゴリズムを公平にするための研究分野であるアルゴリズムフェアネスは、MLにおいて確立された領域である。 ML技術が社会的影響の高いものを含むアプリケーション領域を拡大するにつれ、MLシステムの構築において公平性を考慮することが不可欠となる。 しかし、その幅広い社会的に敏感な応用にもかかわらず、ほとんどの研究はアルゴリズムバイアスの問題を教師付き学習の本質的な性質として扱い、すなわち、クラスラベルは前提条件として与えられる。 公平性に関する先行研究とは異なり、クラスラベルにおける検閲から生じる不確実性の問題に対処する個別公平性尺度とそれに対応するアルゴリズムを提案し、従来の個別公平性定義におけるリプシッツ条件によらず、ランク付けの観点からも同様に扱うべき類似の個人を強制する。 この視点は、現実世界のアプリケーション展開のための公平性研究のより現実的なモデルであり、そのような緩和された前提条件で学習がどのようにアルゴリズム的公平性を説明する新しい洞察を引き出すかを示す。 提案手法を他のフェアネスモデルと比較して評価するために,4つの実世界のデータセットを用いて実験を行った。

Algorithmic fairness, the research field of making machine learning (ML) algorithms fair, is an established area in ML. As ML technologies expand their application domains, including ones with high societal impact, it becomes essential to take fairness into consideration during the building of ML systems. Yet, despite its wide range of socially sensitive applications, most work treats the issue of algorithmic bias as an intrinsic property of supervised learning, i.e., the class label is given as a precondition. Unlike prior studies in fairness, we propose an individual fairness measure and a corresponding algorithm that deal with the challenges of uncertainty arising from censorship in class labels, while enforcing similar individuals to be treated similarly from a ranking perspective, free of the Lipschitz condition in the conventional individual fairness definition. We argue that this perspective represents a more realistic model of fairness research for real-world application deployment and show how learning with such a relaxed precondition draws new insights that better explains algorithmic fairness. We conducted experiments on four real-world datasets to evaluate our proposed method compared to other fairness models, demonstrating its superiority in minimizing discrimination while maintaining predictive performance with uncertainty present.
翻訳日:2023-12-12 22:55:08 公開日:2023-12-11
# 大規模言語モデルを用いた自動単体テスト生成の実証評価

An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation ( http://arxiv.org/abs/2302.06527v4 )

ライセンス: Link先を確認
Max Sch\"afer, Sarah Nadi, Aryaz Eghbali, Frank Tip(参考訳) ユニットテストはソフトウェアの正しさを保証する上で重要な役割を果たします。 しかし、手動でユニットテストを作成するのは面倒な作業であり、自動化の必要性を動機付けます。 大規模な言語モデル(llm)がこの問題に最近適用され、既存のテストの例で追加のトレーニングやわずかな学習が活用されている。 本稿では,自動単体テスト生成におけるLLMの有効性を,追加のトレーニングや手作業なしに大規模に評価し,LLMにテスト中の関数の署名と実装と,ドキュメントから抽出した使用例を提供する。 また、失敗したテストとエラーメッセージでモデルを再プロンプトすることで、失敗したテストの修復も試みました。 これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 合計1,684個のAPI関数を持つ25 npmパッケージ上で,OpenAIのgpt3.5-turbo LLMを用いてTestPilotを評価する。 生成したテストは、平均的なステートメントカバレッジ70.2%、ブランチカバレッジ52.8%を達成し、最近フィードバック指向のjavascriptテスト生成テクニックであるnessieで大幅に改善され、51.3%のステートメントカバレッジと25.6%のブランチカバレッジを達成した。 また、TestPilotの生成したテストの92.8%は、既存のテスト(正規化編集距離によって測定される)と50%以上の類似性がなく、いずれも正確なコピーではないことも判明した。 最後に、2つのLLM、OpenAIの古いCode-cushman-002 LLMとオープンなLLM StarCoderでTestPilotを実行します。 概して, 前者(68.2%), 後者(54.0%), やや悪い結果(54.0%)で同様の結果が得られ, LLMのサイズとトレーニングセットに影響されているが, 基本的には特定のモデルに依存していないことが示唆された。

Unit tests play a key role in ensuring the correctness of software. However, manually creating unit tests is a laborious task, motivating the need for automation. Large Language Models (LLMs) have recently been applied to this problem, utilizing additional training or few-shot learning on examples of existing tests. This paper presents a large-scale empirical evaluation on the effectiveness of LLMs for automated unit test generation without additional training or manual effort, providing the LLM with the signature and implementation of the function under test, along with usage examples extracted from documentation. We also attempt to repair failed generated tests by re-prompting the model with the failing test and error message. We implement our approach in TestPilot, a test generation tool for JavaScript that automatically generates unit tests for all API functions in an npm package. We evaluate TestPilot using OpenAI's gpt3.5-turbo LLM on 25 npm packages with a total of 1,684 API functions. The generated tests achieve a median statement coverage of 70.2% and branch coverage of 52.8%, significantly improving on Nessie, a recent feedback-directed JavaScript test generation technique, which achieves only 51.3% statement coverage and 25.6% branch coverage. We also find that 92.8% of TestPilot's generated tests have no more than 50% similarity with existing tests (as measured by normalized edit distance), with none of them being exact copies. Finally, we run TestPilot with two additional LLMs, OpenAI's older code-cushman-002 LLM and the open LLM StarCoder. Overall, we observed similar results with the former (68.2% median statement coverage), and somewhat worse results with the latter (54.0% median statement coverage), suggesting that the effectiveness of the approach is influenced by the size and training set of the LLM, but does not fundamentally depend on the specific model.
翻訳日:2023-12-12 22:54:07 公開日:2023-12-11
# 長方形ロバストマルコフ決定プロセスのポリシー勾配

Policy Gradient for Rectangular Robust Markov Decision Processes ( http://arxiv.org/abs/2301.13589v2 )

ライセンス: Link先を確認
Navdeep Kumar, Esther Derman, Matthieu Geist, Kfir Levy, Shie Mannor(参考訳) ポリシー勾配法は強化学習エージェントをスケーラブルで効率的な方法でトレーニングするための標準となっている。 しかし、それらは遷移の不確かさを考慮せず、強固なポリシーを学ぶことは計算的に高価である。 本稿では,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベースの手法であるロバストポリシー勾配(RPG)を紹介する。 最悪の職業対策のための閉形式表現を提供する。 ちなみに、最悪のカーネルは、名目上のランク1の摂動である。 最悪の職業対策と堅牢なQ値推定を組み合わせることで、ロバスト勾配の明示的な形が得られる。 結果として得られたrpgは,その非ロバスト等価な時間的複雑性を持つデータから推定できる。 これにより、現在の政策勾配アプローチによる堅牢な政策の訓練に必要な凸最適化問題の計算負荷が軽減される。

Policy gradient methods have become a standard for training reinforcement learning agents in a scalable and efficient manner. However, they do not account for transition uncertainty, whereas learning robust policies can be computationally expensive. In this paper, we introduce robust policy gradient (RPG), a policy-based method that efficiently solves rectangular robust Markov decision processes (MDPs). We provide a closed-form expression for the worst occupation measure. Incidentally, we find that the worst kernel is a rank-one perturbation of the nominal. Combining the worst occupation measure with a robust Q-value estimation yields an explicit form of the robust gradient. Our resulting RPG can be estimated from data with the same time complexity as its non-robust equivalent. Hence, it relieves the computational burden of convex optimization problems required for training robust policies by current policy gradient approaches.
翻訳日:2023-12-12 22:52:35 公開日:2023-12-11
# DecodingTrust: GPTモデルにおける信頼性の総合評価

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models ( http://arxiv.org/abs/2306.11698v2 )

ライセンス: Link先を確認
Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li(参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、その能力にエキサイティングな進歩を見せている。 しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療や金融といった繊細なアプリケーションに有能なGPTモデルを採用することを提案した。 本研究は,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し,有害性,ステレオタイプバイアス,敵対的堅牢性,アウト・オブ・ディストリビューションの堅牢性,敵的デモンストレーションに対する堅牢性,プライバシ,マシン倫理,公正性など,さまざまな観点から考察する。 評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。 例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。 また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトにより脆弱である。 我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。 私たちのベンチマークはhttps://decodingtrust.github.io/で公開されています。 さらに、データセットはhttps://huggingface.co/datasets/AI-Secure/DecodingTrustでプレビューできます。 id=kaHpo8OZw2。

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance -- where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives -- including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/. Additionally, our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust, and a concise version of our DecodingTrust is accessible at https://openreview.net/pdf?id=kaHpo8OZw2.
翻訳日:2023-12-12 22:46:09 公開日:2023-12-11
# TSMixer:多変量時系列予測のための軽量MLPミクサモデル

TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2306.09364v4 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam(参考訳) トランスフォーマーは時系列予測において、長い列の相互作用を捉える能力で人気を集めている。 しかし、その高いメモリとコンピューティング要件は長期的な予測に重大なボトルネックをもたらす。 そこで本研究では,マルチ変数予測とパッチ付き時系列上での表現学習のためのマルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。 コンピュータビジョンにおけるmlp-mixerの成功に触発され、時系列に適応し、課題に対処し、精度を高めるために検証済みコンポーネントを導入する。 これは、階層構造やチャネル相関などの時系列特性を明示的にモデル化するための、MLP-Mixerバックボーンにオンライン和解ヘッドを付加する新しい設計パラダイムを含む。 また,多様なデータセット間のノイズの多いチャネル相互作用と一般化を効果的に扱うための,単純なゲーティング手法の新たなハイブリッドチャネルモデリングと注入を提案する。 これらの軽量なコンポーネントを組み込むことで、単純なmlp構造の学習能力を大幅に向上させ、最小の計算使用量で複雑なトランスフォーマーモデルを上回る。 さらに、TSMixerのモジュール設計により、教師付きとマスク付きの両方の自己教師付き学習手法との互換性が実現され、時系列基礎モデルのための有望なビルディングブロックとなる。 TSMixer は最先端の MLP と Transformer のモデルよりも 8-60% の差で予測できる。 また、Patch-Transformerモデルの最新の強力なベンチマーク(1~2%)を上回り、メモリとランタイム(2~3倍)を大幅に削減した。 私たちのモデルのソースコードは、HuggingFaceのPatchTSMixerとして公式にリリースされています。 Model: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer例: https://github.com/ibm/tsfm/#notebooks-links

Transformers have gained popularity in time series forecasting for their ability to capture long-sequence interactions. However, their high memory and computing requirements pose a critical bottleneck for long-term forecasting. To address this, we propose TSMixer, a lightweight neural architecture exclusively composed of multi-layer perceptron (MLP) modules for multivariate forecasting and representation learning on patched time series. Inspired by MLP-Mixer's success in computer vision, we adapt it for time series, addressing challenges and introducing validated components for enhanced accuracy. This includes a novel design paradigm of attaching online reconciliation heads to the MLP-Mixer backbone, for explicitly modeling the time-series properties such as hierarchy and channel-correlations. We also propose a novel Hybrid channel modeling and infusion of a simple gating approach to effectively handle noisy channel interactions and generalization across diverse datasets. By incorporating these lightweight components, we significantly enhance the learning capability of simple MLP structures, outperforming complex Transformer models with minimal computing usage. Moreover, TSMixer's modular design enables compatibility with both supervised and masked self-supervised learning methods, making it a promising building block for time-series Foundation Models. TSMixer outperforms state-of-the-art MLP and Transformer models in forecasting by a considerable margin of 8-60%. It also outperforms the latest strong benchmarks of Patch-Transformer models (by 1-2%) with a significant reduction in memory and runtime (2-3X). The source code of our model is officially released as PatchTSMixer in the HuggingFace. Model: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer Examples: https://github.com/ibm/tsfm/#notebooks-links
翻訳日:2023-12-12 22:45:20 公開日:2023-12-11
# DAG構造学習のための動的因果空間の探索

Discovering Dynamic Causal Space for DAG Structure Learning ( http://arxiv.org/abs/2306.02822v3 )

ライセンス: Link先を確認
Fangfu Liu, Wenchang Ma, An Zhang, Xiang Wang, Yueqi Duan, Tat-Seng Chua(参考訳) 変数間の因果関係の同定を目的とした純粋観測データ(因果発見)から因果構造を発見することは、機械学習の基本的な課題である。 近年の微分可能なスコアベースDAG学習器の発明は、組合せ最適化問題を有向グラフ空間上のDAG制約で微分可能な最適化に再構成する重要なイネーブルである。 その成功にもかかわらず、これらの最先端DAG学習者は、グラフ構造を考慮せず、有向グラフ候補を評価するためにDAGの独立スコア関数を組み込んでいる。 その結果,DAGによらずデータ適合度を計測することは,必然的に,最適なDAGとモデル脆弱性の発見につながる。 そこで本研究では,DAG構造学習のための動的因果空間であるCASPERを提案し,このグラフ構造をスコア関数に統合することで,推定された真理と地上のDAGの因果距離を忠実に反映する。 CASPERは、DAG-nessへの適応的注意によるDAG構造学習の強化とともに、学習プロセスの見直しを行う。 経験的可視化により、CASPERは空間として、構造認識やノイズ堅牢性といった一連の望ましい特性を満たす。 合成と実世界の両方のデータセットに対する大規模な実験は、精度と堅牢性の観点から、最先端の因果発見法よりもCASPERの方が優れていることを明確に証明している。

Discovering causal structure from purely observational data (i.e., causal discovery), aiming to identify causal relationships among variables, is a fundamental task in machine learning. The recent invention of differentiable score-based DAG learners is a crucial enabler, which reframes the combinatorial optimization problem into a differentiable optimization with a DAG constraint over directed graph space. Despite their great success, these cutting-edge DAG learners incorporate DAG-ness independent score functions to evaluate the directed graph candidates, lacking in considering graph structure. As a result, measuring the data fitness alone regardless of DAG-ness inevitably leads to discovering suboptimal DAGs and model vulnerabilities. Towards this end, we propose a dynamic causal space for DAG structure learning, coined CASPER, that integrates the graph structure into the score function as a new measure in the causal space to faithfully reflect the causal distance between estimated and ground truth DAG. CASPER revises the learning process as well as enhances the DAG structure learning via adaptive attention to DAG-ness. Grounded by empirical visualization, CASPER, as a space, satisfies a series of desired properties, such as structure awareness and noise robustness. Extensive experiments on both synthetic and real-world datasets clearly validate the superiority of our CASPER over the state-of-the-art causal discovery methods in terms of accuracy and robustness.
翻訳日:2023-12-12 22:44:48 公開日:2023-12-11
# 教師エージェント:リハーサル型ビデオインクリメンタル学習のための知識蒸留フリーフレームワーク

Teacher Agent: A Knowledge Distillation-Free Framework for Rehearsal-based Video Incremental Learning ( http://arxiv.org/abs/2306.00393v3 )

ライセンス: Link先を確認
Shengqin Jiang, Yaoyu Fang, Haokui Zhang, Qingshan Liu, Yuankai Qi, Yang Yang, Peng Wang(参考訳) リハーサルベースのビデオインクリメンタル学習は、しばしば知識蒸留を用いて、以前に学習したデータの破滅的な忘れを軽減している。 しかし,本手法では,教師モデルのロードによる計算資源と,パフォーマンス制限型教師モデルによるリプレイ能力の制限という2つの大きな課題に直面している。 これらの問題に対処するために,まず,リハーサル型ビデオインクリメンタル学習のための知識蒸留フリーフレームワークである \textit{teacher agent} を提案する。 パラメータ重みのある教師ネットワークをロードする代わりに,パラメータフリーか,あるいはパラメータのみを使用して正確で信頼性の高いソフトラベルを取得するエージェントジェネレータを導入する。 この手法は, 計算量を大幅に削減するだけでなく, 教師モデルの不正確な予測による知識誤解を回避できる。 さらに,古い知識の見直しに有効な正規化信号を提供する自己補正損失を提示し,その結果,破滅的な忘れ方の問題を軽減する。 さらに,メモリバッファ内のサンプルがメモリ効率良く代表的であることを保証するため,リハーサルベースの映像インクリメンタル学習のための統一サンプリング器を導入し,固定長のキービデオフレームをマイニングする。 興味深いことに,提案手法をベースラインと比較した場合,ネットワークは空間分解能の低下に対して高いロバスト性を示す。 本手法の利点を実証し,ビデオクリップの空間分解能の半分をインクリメンタルフェーズのネットワーク入力として利用しながら,大幅な性能向上を実現した。

Rehearsal-based video incremental learning often employs knowledge distillation to mitigate catastrophic forgetting of previously learned data. However, this method faces two major challenges for video task: substantial computing resources from loading teacher model and limited replay capability from performance-limited teacher model. To address these problems, we first propose a knowledge distillation-free framework for rehearsal-based video incremental learning called \textit{Teacher Agent}. Instead of loading parameter-heavy teacher networks, we introduce an agent generator that is either parameter-free or uses only a few parameters to obtain accurate and reliable soft labels. This method not only greatly reduces the computing requirement but also circumvents the problem of knowledge misleading caused by inaccurate predictions of the teacher model. Moreover, we put forward a self-correction loss which provides an effective regularization signal for the review of old knowledge, which in turn alleviates the problem of catastrophic forgetting. Further, to ensure that the samples in the memory buffer are memory-efficient and representative, we introduce a unified sampler for rehearsal-based video incremental learning to mine fixed-length key video frames. Interestingly, based on the proposed strategies, the network exhibits a high level of robustness against spatial resolution reduction when compared to the baseline. Extensive experiments demonstrate the advantages of our method, yielding significant performance improvements while utilizing only half the spatial resolution of video clips as network inputs in the incremental phases.
翻訳日:2023-12-12 22:43:38 公開日:2023-12-11
# MERGE: 高速なプライベートテキスト生成

MERGE: Fast Private Text Generation ( http://arxiv.org/abs/2305.15769v3 )

ライセンス: Link先を確認
Zi Liang, Pinghui Wang, Ruofei Zhang, Nuo Xu, Lifeng Xing, and Shuo Zhang(参考訳) 言語モデルのパラメータの大幅な増加により、クラウドサーバにモデルをデプロイする新たなトレンドが生まれ、Transformerベースのモデルに対するプライベート推論に対する懸念が高まっている。 しかし、既存の2つのプライバシー保護技術は、自然言語理解(nlu)のシナリオのみを考慮に入れている。 翻訳やコード補完といったアプリケーションで不可欠な自然言語生成(nlg)のプライベート推論は未検討のままである。さらに,従来のプライバシ保存技術では,モデルトレーニング中の収束問題や,自動回帰世代における時間消費操作の無視によるnlgモデル使用時の推論速度の低下が指摘されている。 これらの問題に対処するため、Transformer ベースの言語モデルのための高速なプライベートテキスト生成フレームワーク MERGE.MERGE は、単語の埋め込みとして出力隠蔽状態を再利用し、埋め込み計算をバイパスし、Transformer モジュール内の線形操作を再編成し、転送手順を高速化する。 大規模な実験により、MERGEはシーケンス長512のバニラ暗号化モデルの26.5倍のスピードアップを実現し、80%の通信コストを削減し、最先端の近似モデルの最大10倍のスピードアップを実現している。

The drastic increase in language models' parameters has led to a new trend of deploying models in cloud servers, raising growing concerns about private inference for Transformer-based models. Existing two-party privacy-preserving techniques, however, only take into account natural language understanding (NLU) scenarios. Private inference in natural language generation (NLG), crucial for applications like translation and code completion, remains underexplored.In addition, previous privacy-preserving techniques suffer from convergence issues during model training and exhibit poor inference speed when used with NLG models due to the neglect of time-consuming operations in auto-regressive generations. To address these issues, we propose a fast private text generation framework for Transformer-based language models, namely MERGE.MERGE reuses the output hidden state as the word embedding to bypass the embedding computation and reorganize the linear operations in the Transformer module to accelerate the forward procedure. Extensive experiments show that MERGE achieves a 26.5x speedup to the vanilla encrypted model under the sequence length 512, and reduces 80\% communication cost, with an up to 10x speedup to state-of-the-art approximated models.
翻訳日:2023-12-12 22:43:13 公開日:2023-12-11
# RWKV:変圧器時代のRNNの再発明

RWKV: Reinventing RNNs for the Transformer Era ( http://arxiv.org/abs/2305.13048v2 )

ライセンス: Link先を確認
Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Jiaju Lin, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Bolun Wang, Johan S. Wind, Stanislaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu(参考訳) トランスフォーマは、ほぼすべての自然言語処理(nlp)タスクに革命をもたらしたが、シーケンス長で2倍スケールするメモリと計算の複雑さに苦しめられている。 対照的に、リカレントニューラルネットワーク(RNN)は、メモリと計算要求の線形スケーリングを示すが、並列化とスケーラビリティの制限のため、Transformerと同じパフォーマンスに適合しない。 本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャであるReceptance Weighted Key Value (RWKV)を提案する。 提案手法は線形アテンション機構を利用して,モデルをTransformerあるいはRNNとして定式化することにより,トレーニング中の計算を並列化し,推論時に一定の計算量とメモリ複雑性を維持する。 私たちはモデルを140億のパラメータにスケールし、これまでにトレーニングされた中で最大の密集したrnnを実行し、rwkvが同様のサイズのトランスフォーマーと同等の性能を発揮することを見出します。 本研究は,逐次処理タスクにおける計算効率とモデル性能のトレードオフを解消するための重要なステップを示す。

Transformers have revolutionized almost all natural language processing (NLP) tasks but suffer from memory and computational complexity that scales quadratically with sequence length. In contrast, recurrent neural networks (RNNs) exhibit linear scaling in memory and computational requirements but struggle to match the same performance as Transformers due to limitations in parallelization and scalability. We propose a novel model architecture, Receptance Weighted Key Value (RWKV), that combines the efficient parallelizable training of transformers with the efficient inference of RNNs. Our approach leverages a linear attention mechanism and allows us to formulate the model as either a Transformer or an RNN, thus parallelizing computations during training and maintains constant computational and memory complexity during inference. We scale our models as large as 14 billion parameters, by far the largest dense RNN ever trained, and find RWKV performs on par with similarly sized Transformers, suggesting future work can leverage this architecture to create more efficient models. This work presents a significant step towards reconciling trade-offs between computational efficiency and model performance in sequence processing tasks.
翻訳日:2023-12-12 22:42:22 公開日:2023-12-11
# 統合的マルチモーダル知覚のための交互勾配降下とミックス・オブ・エキスパート

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception ( http://arxiv.org/abs/2305.06324v2 )

ライセンス: Link先を確認
Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam(参考訳) Integrated Multimodal Perception (IMP) は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。 IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。 IMPは、効率的なモデルとタスクスケーリングのために、AGD(Alternating Gradient Descent)とMixture-of-Experts(MoE)を組み合わせた新しい設計を採用している。 広範な実証研究を行い、次の重要な知見を明らかにします。 1)様々なモード,損失関数,タスクを交互に交互に行い,入力解像度の異なる勾配降下更新を行い,効率よくモデルを改善する。 2) 1つのモダリティ非依存エンコーダ上のmoeによるスパーシフィケーションは性能を大幅に向上させ、モダリティ固有のエンコーダや追加の融合層を使用する密集したモデルよりも優れ、モダリティ間の競合を大幅に緩和する。 IMPは、映像分類、画像分類、画像テキスト検索、ビデオテキスト検索など、幅広い下流タスクにおいて、競争力を発揮する。 特に、ゼロショットビデオ分類における新しい最先端を実現するためのビデオタスクに焦点をあてたスパースIMP-MoE-Lをトレーニングする: 77.0%がkinetics-400で、76.8%がkinetics-600で、68.3%がkinetics-700で、前回の最先端を+5%、+6.7%、+5.8%が改善した。

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model and task scaling. We conduct extensive empirical studies and reveal the following key insights: 1) Performing gradient descent updates by alternating on diverse modalities, loss functions, and tasks, with varying input resolutions, efficiently improves the model. 2) Sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigates the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including video classification, image classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L variant focusing on video tasks that achieves new state-of-the-art in zero-shot video classification: 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 68.3% on Kinetics-700, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.
翻訳日:2023-12-12 22:41:44 公開日:2023-12-11
# factoformer:自己教師付き事前学習による因子化ハイパースペクトルトランスフォーマ

FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pre-Training ( http://arxiv.org/abs/2309.09431v2 )

ライセンス: Link先を確認
Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam(参考訳) ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。 自然言語処理やコンピュータビジョンの分野でのトランスフォーマーの成功により、入力データ内の長距離依存を学習する能力が示され、最近の研究は、HSIのためのトランスフォーマーの使用に焦点を当てている。 しかし、現在最先端のハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するだけで、空間情報の未利用をもたらす。 さらに、トランスはデータハングリーであることが知られており、その性能は大規模な事前トレーニングに大きく依存している。 したがって、hsiトランスフォーマのポテンシャルは十分に実現されていない。 これらの限界を克服するために, 自己教師付き事前学習手順を組み込んだ新しい因子化スペクトル空間トランスを提案する。 入力の分解により、スペクトル変換器と空間変換器はハイパースペクトルデータキューブ内の相互作用をよりよく捉えることができる。 マスク画像モデリングの事前学習に着想を得て,スペクトルおよび空間トランスフォーマーを事前学習するための効率的なマスク戦略を考案する。 我々は、HSI分類タスクのための6つの公開データセットの実験を行い、我々のモデルがすべてのデータセットで最先端のパフォーマンスを達成することを示す。 私たちのモデルのコードは、https://github.com/csiro-robotics/factoformerで利用可能になります。

Hyperspectral images (HSIs) contain rich spectral and spatial information. Motivated by the success of transformers in the field of natural language processing and computer vision where they have shown the ability to learn long range dependencies within input data, recent research has focused on using transformers for HSIs. However, current state-of-the-art hyperspectral transformers only tokenize the input HSI sample along the spectral dimension, resulting in the under-utilization of spatial information. Moreover, transformers are known to be data-hungry and their performance relies heavily on large-scale pre-training, which is challenging due to limited annotated hyperspectral data. Therefore, the full potential of HSI transformers has not been fully realized. To overcome these limitations, we propose a novel factorized spectral-spatial transformer that incorporates factorized self-supervised pre-training procedures, leading to significant improvements in performance. The factorization of the inputs allows the spectral and spatial transformers to better capture the interactions within the hyperspectral data cubes. Inspired by masked image modeling pre-training, we also devise efficient masking strategies for pre-training each of the spectral and spatial transformers. We conduct experiments on six publicly available datasets for HSI classification task and demonstrate that our model achieves state-of-the-art performance in all the datasets. The code for our model will be made available at https://github.com/csiro-robotics/factoformer.
翻訳日:2023-12-12 22:34:11 公開日:2023-12-11
# 連続語エキスパートの混在としての双方向注意

Bidirectional Attention as a Mixture of Continuous Word Experts ( http://arxiv.org/abs/2307.04057v2 )

ライセンス: Link先を確認
Kevin Christian Wibisono, Yixin Wang(参考訳) 双方向注意$\unicode{x2013}$ 位置エンコーディングとマスク言語モデル(mlm)の目標 $\unicode{x2013}$ は、現代の大規模言語モデル(llm)の重要なコンポーネントとして登場した。 実証的な成功にもかかわらず、統計的基盤を調査する研究はほとんどない: 双方向の注意が暗黙的に適合する統計モデルは何だろうか? 意図しない前者とは何が違うのか? この論文でこれらの疑問を探求する。 キーとなる観察は、再パラメータ化時に単層単頭双方向の注意を合わせることは、単語の連続袋(CBOW)モデルにミックスオブエキスパート(MoE)重みを付けることと等価である。 さらに、複数の頭部と複数の層を持つ双方向の注意は、積み重ねられたMoEとMoEの混合物と等価である。 この統計学的視点は,双方向注意におけるmoeの個別的利用を明らかにした。 また、文中の各単語の位置を表的特徴として見る場合、分類表データへの即時拡張も提案する。 実験的な研究全体にわたって、この拡張は、out-of-distribution (OOD) 一般化において、既存の変圧器の表層拡張よりも優れていることが判明した。 最後に、この双方向注意の統計的視点は、単語埋め込みに線形単語類似が存在する場合に理論的に特徴付けることができる。 これらの分析により、二方向の注意は、意図しない前者よりも線形な単語類似性を示すために、はるかに強い仮定を必要とすることが示された。

Bidirectional attention $\unicode{x2013}$ composed of self-attention with positional encodings and the masked language model (MLM) objective $\unicode{x2013}$ has emerged as a key component of modern large language models (LLMs). Despite its empirical success, few studies have examined its statistical underpinnings: What statistical model is bidirectional attention implicitly fitting? What sets it apart from its non-attention predecessors? We explore these questions in this paper. The key observation is that fitting a single-layer single-head bidirectional attention, upon reparameterization, is equivalent to fitting a continuous bag of words (CBOW) model with mixture-of-experts (MoE) weights. Further, bidirectional attention with multiple heads and multiple layers is equivalent to stacked MoEs and a mixture of MoEs, respectively. This statistical viewpoint reveals the distinct use of MoE in bidirectional attention, which aligns with its practical effectiveness in handling heterogeneous data. It also suggests an immediate extension to categorical tabular data, if we view each word location in a sentence as a tabular feature. Across empirical studies, we find that this extension outperforms existing tabular extensions of transformers in out-of-distribution (OOD) generalization. Finally, this statistical perspective of bidirectional attention enables us to theoretically characterize when linear word analogies are present in its word embeddings. These analyses show that bidirectional attention can require much stronger assumptions to exhibit linear word analogies than its non-attention predecessors.
翻訳日:2023-12-12 22:29:39 公開日:2023-12-11
# EHRSHOT: 基礎モデルのFew-Shot評価のためのEHRベンチマーク

EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models ( http://arxiv.org/abs/2307.02028v3 )

ライセンス: Link先を確認
Michael Wornow, Rahul Thapa, Ethan Steinberg, Jason A. Fries, Nigam H. Shah(参考訳) 一般機械学習(ML)コミュニティは、パブリックデータセット、タスク、モデルから恩恵を受けているが、医療におけるMLの進歩は、そのような共有資産の欠如によって妨げられている。 ファンデーションモデルの成功は、パフォーマンスのメリットを検証するために共有事前トレーニングされたモデルへのアクセスを必要とすることで、ヘルスケアMLに新たな課題を生み出します。 私たちは3つのコントリビューションを通じてこれらの課題に対処します。 まず、スタンフォード大学の6,739人の患者の電子健康記録(EHR)から構造化されたデータを含む新しいデータセット EHRSHOT を公表する。 MIMIC-III/IV や他の一般的な EHR データセットとは異なり、EHRSHOT は縦長であり、ICU/ED 患者に限定されない。 第2に,257m患者の構造化ehrデータに基づいて前訓練した141mパラメーター臨床基礎モデルclmbr-t-baseの重みを公表する。 対照的に、臨床データ(例えば、GatorTron, ClinicalBERT)でリリースされたほとんどの先行モデルは、構造化されていないテキストでのみ動作し、EHR内でリッチで構造化されたデータを処理できない。 コミュニティがパフォーマンスを検証して構築するためのエンドツーエンドパイプラインを提供しています。 第3に, 臨床予測タスクを15個定義し, サンプル効率やタスク適応などに基づく基礎モデルの評価を可能にした。 私たちのモデルとデータセットは、Webサイトからのリサーチデータ使用契約を通じて利用可能です。 結果を再現するためのコードはgithubのリポジトリで入手できます。

While the general machine learning (ML) community has benefited from public datasets, tasks, and models, the progress of ML in healthcare has been hampered by a lack of such shared assets. The success of foundation models creates new challenges for healthcare ML by requiring access to shared pretrained models to validate performance benefits. We help address these challenges through three contributions. First, we publish a new dataset, EHRSHOT, which contains deidentified structured data from the electronic health records (EHRs) of 6,739 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients. Second, we publish the weights of CLMBR-T-base, a 141M parameter clinical foundation model pretrained on the structured EHR data of 2.57M patients. We are one of the first to fully release such a model for coded EHR data; in contrast, most prior models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with unstructured text and cannot process the rich, structured data within an EHR. We provide an end-to-end pipeline for the community to validate and build upon its performance. Third, we define 15 few-shot clinical prediction tasks, enabling evaluation of foundation models on benefits such as sample efficiency and task adaptation. Our model and dataset are available via a research data use agreement from our website: https://ehrshot.stanford.edu. Code to reproduce our results are available at our Github repo: https://github.com/som-shahlab/ehrshot-benchmark
翻訳日:2023-12-12 22:29:05 公開日:2023-12-11
# 沈殿後の自己監督型プレトレーニング

Self-Supervised Pre-Training for Precipitation Post-Processor ( http://arxiv.org/abs/2310.20187v2 )

ライセンス: Link先を確認
Sojung An, Junha Lee, Jiyeon Jang, Inchae Na, Wooyeon Park, Sujeong You(参考訳) 局地降水に対する十分な予報リードタイムを得ることは, 気象災害の防止に不可欠である。 地球温暖化によって引き起こされる気候変動は、大雨などの厳しい降水現象を正確に予測する困難を増す。 本稿では,数値気象予測(NWP)モデルのための深層学習に基づく降水ポストプロセッサを提案する。 降水後処理装置は、 (i)大気物理領域のマスキング変数の再構成において、エンコーダのパラメータを予めトレーニングした自己教師付き事前学習を用いる。 (ii)事前学習したエンコーダから降水セグメンテーションタスク(対象領域)の転送学習を行う。 さらに,クラス不均衡データセットを効果的に学習するためのヒューリスティックなラベル付け手法を導入した。 地域NWPの降水補正実験は,提案手法が他の手法よりも優れていることを示す。

Obtaining a sufficient forecast lead time for local precipitation is essential in preventing hazardous weather events. Global warming-induced climate change increases the challenge of accurately predicting severe precipitation events, such as heavy rainfall. In this paper, we propose a deep learning-based precipitation post-processor for numerical weather prediction (NWP) models. The precipitation post-processor consists of (i) employing self-supervised pre-training, where the parameters of the encoder are pre-trained on the reconstruction of the masked variables of the atmospheric physics domain; and (ii) conducting transfer learning on precipitation segmentation tasks (the target domain) from the pre-trained encoder. In addition, we introduced a heuristic labeling approach to effectively train class-imbalanced datasets. Our experiments on precipitation correction for regional NWP show that the proposed method outperforms other approaches.
翻訳日:2023-12-12 22:23:35 公開日:2023-12-11
# 抑制性神経回路はシナプス可塑性のサインを制御する

Dis-inhibitory neuronal circuits can control the sign of synaptic plasticity ( http://arxiv.org/abs/2310.19614v2 )

ライセンス: Link先を確認
Julian Rossbroich, Friedemann Zenke(参考訳) 神経回路がどのように信用割り当てを達成するかは、システム神経科学において未解決の課題である。 様々な研究により、多層ネットワークによるバックプロパゲートエラー信号の解法が提案されている。 これらの純粋に機能的に動機づけられたモデルは、シナプス可塑性の徴候を決定する局所的エラー信号を表すために異なる神経細胞のコンパートメントを仮定する。 しかし、この明示的な誤り変調は、主にシナプス後活動に依存する現象学的可塑性モデルと矛盾する。 本稿では,適応制御理論の枠組みで導かれる可解なマイクロ回路モデルとヘビー学習規則が,この不一致をいかに解消するかを示す。 誤りがトップダウン非抑制シナプス求心性にコード化されていると仮定すると、繰り返し抑制がヘビアン可塑性に明示的に影響を及ぼすと、誤り修飾学習は回路レベルで自然に現れる。 同じ学習規則は、抑制がない場合の可塑性を実験的に観察し、いくつかの非線形分離可能なベンチマークでエラーのバックプロパゲーション(bp)に比較可能である。 本研究は, 機能的および実験的に観察された可塑性規則のギャップを埋め, 励起可塑性の抑制に関する具体的な予測を行う。

How neuronal circuits achieve credit assignment remains a central unsolved question in systems neuroscience. Various studies have suggested plausible solutions for back-propagating error signals through multi-layer networks. These purely functionally motivated models assume distinct neuronal compartments to represent local error signals that determine the sign of synaptic plasticity. However, this explicit error modulation is inconsistent with phenomenological plasticity models in which the sign depends primarily on postsynaptic activity. Here we show how a plausible microcircuit model and Hebbian learning rule derived within an adaptive control theory framework can resolve this discrepancy. Assuming errors are encoded in top-down dis-inhibitory synaptic afferents, we show that error-modulated learning emerges naturally at the circuit level when recurrent inhibition explicitly influences Hebbian plasticity. The same learning rule accounts for experimentally observed plasticity in the absence of inhibition and performs comparably to back-propagation of error (BP) on several non-linearly separable benchmarks. Our findings bridge the gap between functional and experimentally observed plasticity rules and make concrete predictions on inhibitory modulation of excitatory plasticity.
翻訳日:2023-12-12 22:23:25 公開日:2023-12-11
# 専門家言語アノテータ」:抽象的意味表現のアナライザーとしてのLLMの限界

"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation ( http://arxiv.org/abs/2310.17793v2 )

ライセンス: Link先を確認
Allyson Ettinger, Jena D. Hwang, Valentina Pyatkin, Chandra Bhagavatula, Yejin Choi(参考訳) 大規模言語モデル(LLM)は、言語の使用において驚くほどの習熟度と習熟度を示す。 これはまた、言語に関する洞察に富んだ言語知識も獲得したことを意味するのだろうか。 本稿では,文意味構造の解析におけるgpt-3,chatgpt,gpt-4モデルの成功と限界について検討し,表層形式を抽象化しながら文意味構造のリッチな表現を提供する抽象的意味表現 (amr; banarescu et al. 2013) に着目した。 モデルによるこの意味構造の解析を2つの設定で比較する。 1)ゼロショットプロンプトと少数ショットプロンプトに基づくAMR解析の直接生成 2) メタリング的自然言語クエリによるamrの間接的部分再構成(例えば「この文の一次事象とその事象に対応する述語を識別する」)。 これらの設定を通して、モデルがamrの基本的なフォーマットを確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできることがわかった -- しかし、モデルの出力は頻繁で大きなエラーを起こしやすい。 自然言語応答の誘発は、同様のエラーパターンを生み出す。 全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限がある。

Large language models (LLMs) show amazing proficiency and fluency in the use of language. Does this mean that they have also acquired insightful linguistic knowledge about the language, to an extent that they can serve as an "expert linguistic annotator"? In this paper, we examine the successes and limitations of the GPT-3, ChatGPT, and GPT-4 models in analysis of sentence meaning structure, focusing on the Abstract Meaning Representation (AMR; Banarescu et al. 2013) parsing formalism, which provides rich graphical representations of sentence meaning structure while abstracting away from surface forms. We compare models' analysis of this semantic structure across two settings: 1) direct production of AMR parses based on zero- and few-shot prompts, and 2) indirect partial reconstruction of AMR via metalinguistic natural language queries (e.g., "Identify the primary event of this sentence, and the predicate corresponding to that event."). Across these settings, we find that models can reliably reproduce the basic format of AMR, and can often capture core event, argument, and modifier structure -- however, model outputs are prone to frequent and major errors, and holistic analysis of parse acceptability shows that even with few-shot demonstrations, models have virtually 0% success in producing fully accurate parses. Eliciting natural language responses produces similar patterns of errors. Overall, our findings indicate that these models out-of-the-box can capture aspects of semantic structure, but there remain key limitations in their ability to support fully accurate semantic analyses or parses.
翻訳日:2023-12-12 22:23:04 公開日:2023-12-11
# 深層強化学習におけるレベルサンプリングプロセスがゼロショット一般化に与える影響

How the level sampling process impacts zero-shot generalisation in deep reinforcement learning ( http://arxiv.org/abs/2310.03494v2 )

ライセンス: Link先を確認
Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas and Stefano V. Albrecht(参考訳) 深層強化学習(rl)によって訓練された自律エージェントが広く採用されることを妨げる鍵となる制限は、訓練中に遭遇する環境と同じような特性を持つ場合でも、新しい環境に一般化する能力の制限である。 本研究では,個々の環境インスタンスの非一様サンプリング戦略,すなわちレベルが,オーバーフィッティングとオーバージェネライゼーションという2つの障害モードを考慮して,rlエージェントのゼロショット一般化(zsg)能力にどのように影響するかを検討する。 最初のステップとして、エージェントの内部表現とトレーニングレベルのセットの間の相互情報(mi)を測定します。 均一サンプリングとは対照的に、値損失に基づく適応サンプリング戦略は、より低いMIを維持する上で有効であり、この手法の新たな理論的正当化を提供する。 そこで我々は、新しいトレーニングレベルを適応的に生成し、MIを固定セットからサンプリングする手法よりも効果的に最小化する、教師なし環境設計(UED)手法に注意を向ける。 しかし、UED法はトレーニング分布を著しく変化させ、その結果、関心の分布よりも過度に一般化され、ZSG性能が悪化することがわかった。 インスタンスオーバーフィッティングとオーバージェネレーションの両方を防止するため,自己管理型環境設計(SSED)を導入する。 SSEDは、変分オートエンコーダを用いてレベルを生成し、MIを効果的に低減し、関心の分布に伴うシフトを最小限にし、固定セットレベルサンプリング戦略やUED法よりも統計的に顕著なZSGの改善をもたらす。

A key limitation preventing the wider adoption of autonomous agents trained via deep reinforcement learning (RL) is their limited ability to generalise to new environments, even when these share similar characteristics with environments encountered during training. In this work, we investigate how a non-uniform sampling strategy of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents, considering two failure modes: overfitting and over-generalisation. As a first step, we measure the mutual information (MI) between the agent's internal representation and the set of training levels, which we find to be well-correlated to instance overfitting. In contrast to uniform sampling, adaptive sampling strategies prioritising levels based on their value loss are more effective at maintaining lower MI, which provides a novel theoretical justification for this class of techniques. We then turn our attention to unsupervised environment design (UED) methods, which adaptively generate new training levels and minimise MI more effectively than methods sampling from a fixed set. However, we find UED methods significantly shift the training distribution, resulting in over-generalisation and worse ZSG performance over the distribution of interest. To prevent both instance overfitting and over-generalisation, we introduce self-supervised environment design (SSED). SSED generates levels using a variational autoencoder, effectively reducing MI while minimising the shift with the distribution of interest, and leads to statistically significant improvements in ZSG over fixed-set level sampling strategies and UED methods.
翻訳日:2023-12-12 22:20:40 公開日:2023-12-11
# 弱分布不変性を用いたマルチドメイン因果表現学習

Multi-Domain Causal Representation Learning via Weak Distributional Invariances ( http://arxiv.org/abs/2310.02854v3 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri, Yixin Wang(参考訳) 因果表現学習は因果機械学習研究における行動の中心として現れてきた。 特に、マルチドメインデータセットは、標準の教師なし表現学習よりも因果表現学習の利点を示す自然な機会を提供する。 最近の研究は因果表現を学習するための重要なステップを採っているが、データに関する仮定を過度に単純化するため、マルチドメインデータセットの適用性に欠けることが多い。 この研究では、これらの仮定を緩和し、次の観察に乗じる: 特定の分布特性(例えば、支持、分散)が領域間で安定であるラテントのサブセットがしばしば存在する; この性質は、例えば、各領域が多重ノード不完全干渉から来るときに成り立つ。 このような不変性を組み込んだオートエンコーダは、他の様々な設定で安定な潜在子集合を識別できることを実証できる。

Causal representation learning has emerged as the center of action in causal machine learning research. In particular, multi-domain datasets present a natural opportunity for showcasing the advantages of causal representation learning over standard unsupervised representation learning. While recent works have taken crucial steps towards learning causal representations, they often lack applicability to multi-domain datasets due to over-simplifying assumptions about the data; e.g. each domain comes from a different single-node perfect intervention. In this work, we relax these assumptions and capitalize on the following observation: there often exists a subset of latents whose certain distributional properties (e.g., support, variance) remain stable across domains; this property holds when, for example, each domain comes from a multi-node imperfect intervention. Leveraging this observation, we show that autoencoders that incorporate such invariances can provably identify the stable set of latents from the rest across different settings.
翻訳日:2023-12-12 22:20:11 公開日:2023-12-11
# L2MAC:非有界コード生成のための大規模言語モデル自動計算機

L2MAC: Large Language Model Automatic Computer for Unbounded Code Generation ( http://arxiv.org/abs/2310.02003v2 )

ライセンス: Link先を確認
Samuel Holt, Max Ruiz Luyten, Mihaela van der Schaar(参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制約され、長い論理的に一貫したコードを生成する能力を妨げる。 メモリ拡張 LLM は有望なソリューションだが、現在のアプローチでは、(1) メモリの読み込みのみに集中し、新しいメモリの結合への進化を減らすか、(2) 他のドメインに適応できない非常に特殊なメモリを使用するため、長いコード生成タスクを処理できない。 本稿では,L2MACについて述べる。L2MACは,LLMをベースとした,長大かつ一貫したコード生成のための,最初の実用的プログラム自動計算機である。 そのメモリには2つのコンポーネントがある: 命令レジストリは、ユーザ登録タスクを解決するプロンプトプログラムで集約され、ファイルストアは、最終的な出力と中間出力を含む。 各命令は別個のLCMインスタンスによって実行され、そのコンテキストは制御ユニットによって管理され、メモリの読み書きが正確にでき、ファイルストアとの効果的な相互作用が保証される。 これらのコンポーネントにより、L2MACは、複雑なユーザ指定要求を満たすコードを生成しながら、有限コンテキストウィンドウの制約を回避して、事実上非有界なコード構造を生成することができる。 我々は、L2MACがシステム設計タスクの大規模なコードベースを生成することに成功し、他のコーディングメソッドがユーザ要求の実装に不足していることを実証的に示し、このパフォーマンスギャップの理由について洞察を提供する。

Transformer-based large language models (LLMs) are constrained by the fixed context window of the underlying transformer architecture, hindering their ability to produce long and logically consistent code. Memory-augmented LLMs are a promising solution, but current approaches cannot handle long code generation tasks since they (1) only focus on reading memory and reduce its evolution to the concatenation of new memories or (2) use very specialized memories that cannot adapt to other domains. This paper presents L2MAC, the first practical LLM-based stored-program automatic computer for long and consistent code generation. Its memory has two components: the instruction registry, which is populated with a prompt program to solve the user-given task, and a file store, which will contain the final and intermediate outputs. Each instruction is executed by a separate LLM instance, whose context is managed by a control unit capable of precise memory reading and writing to ensure effective interaction with the file store. These components enable L2MAC to generate virtually unbounded code structures, bypassing the constraints of the finite context window while producing code that fulfills complex user-specified requirements. We empirically show that L2MAC succeeds in generating large code bases for system design tasks where other coding methods fall short in implementing user requirements and provide insight into the reasons for this performance gap.
翻訳日:2023-12-12 22:19:51 公開日:2023-12-11
# NAS-NeRF:ニューラルラジアンスフィールドのための生成型ニューラルアーキテクチャ探索

NAS-NeRF: Generative Neural Architecture Search for Neural Radiance Fields ( http://arxiv.org/abs/2309.14293v3 )

ライセンス: Link先を確認
Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee, Alexander Wong(参考訳) neural radiance fields (nerfs) は高品質の新規ビュー合成を可能にするが、高い計算複雑性によりデプロイ性が制限される。 既存のニューラルベースソリューションは効率を追求する一方で、シーンの複雑さに関係なく、ワンサイズのアーキテクチャを使用する。 同じアーキテクチャは単純なシーンでは不必要に大きいが、複雑なシーンでは不十分である。 したがって、nrfsのニューラルネットワークコンポーネントを動的に最適化し、計算複雑性と合成品質の特定のターゲットとのバランスをとる必要がある。 NAS-NeRFは、アーキテクチャの複雑さと合成品質の指標のバランスをとることで、コンパクトでシーン特異的なNeRFアーキテクチャを生成する。 本手法では,各シーンに適したアーキテクチャを探索するために,対象の指標と予算に制約を組み込む。 Blenderの合成データセットの実験では、提案されたNAS-NeRFは、SSIMが低下することなく、ベースラインのNeRFよりも高速なGPUで最大5.74$\times$より小さく、4.19$\times$より少ないFLOPと1.93$\times$でアーキテクチャを生成することができる。 さらに、NAS-NeRFは、最大23$\times$より小さく、22$\times$より少ないFLOPと4.7$\times$より高速で平均5.3%のSSIMドロップしか得られない。 ソースコードはhttps://saeejithnair.github.io/NAS-NeRF.comで公開されています。

Neural radiance fields (NeRFs) enable high-quality novel view synthesis, but their high computational complexity limits deployability. While existing neural-based solutions strive for efficiency, they use one-size-fits-all architectures regardless of scene complexity. The same architecture may be unnecessarily large for simple scenes but insufficient for complex ones. Thus, there is a need to dynamically optimize the neural network component of NeRFs to achieve a balance between computational complexity and specific targets for synthesis quality. We introduce NAS-NeRF, a generative neural architecture search strategy that generates compact, scene-specialized NeRF architectures by balancing architecture complexity and target synthesis quality metrics. Our method incorporates constraints on target metrics and budgets to guide the search towards architectures tailored for each scene. Experiments on the Blender synthetic dataset show the proposed NAS-NeRF can generate architectures up to 5.74$\times$ smaller, with 4.19$\times$ fewer FLOPs, and 1.93$\times$ faster on a GPU than baseline NeRFs, without suffering a drop in SSIM. Furthermore, we illustrate that NAS-NeRF can also achieve architectures up to 23$\times$ smaller, with 22$\times$ fewer FLOPs, and 4.7$\times$ faster than baseline NeRFs with only a 5.3% average SSIM drop. Our source code is also made publicly available at https://saeejithnair.github.io/NAS-NeRF.
翻訳日:2023-12-12 22:18:26 公開日:2023-12-11
# VLTSeg:領域一般化セマンティックセマンティックセグメンテーションのためのCLIPに基づく視覚言語表現の簡易転送

VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.02021v2 )

ライセンス: Link先を確認
Christoph H\"ummer, Manuel Schwonberg, Liangwei Zhou, Hu Cao, Alois Knoll, Hanno Gottschalk(参考訳) ドメイン一般化(DG)は、深いニューラルネットワーク(DNN)に基づく認識において重要な課題であり、照明、天気、位置情報の変更によるドメインシフトが発生する。 本稿では,vltseg を用いて意味セグメンテーションにおけるドメインの一般化について提案する。ネットワークはソースドメインでのみ訓練され,対象領域で評価される。 本手法は視覚言語モデル固有の意味的ロバスト性を利用する。 第一に、従来の視覚のみのバックボーンをCLIPとEVA-CLIPから事前学習したエンコーダに置き換えることで、DGの分野では、視覚言語による事前学習が教師付きおよび自己指導型視覚前訓練よりも大幅に優れていることが分かる。 そこで我々は,合成GTA5データセットのトレーニングにおいて,ドメイン一般化SOTAを7.6%向上させる,ドメイン一般化セグメンテーションのための新しい視覚言語アプローチを提案する。 さらに、一般的なCityscapes-to-ACDCベンチマークで76.48% mIoUに達し、筆記時のテストセットにおいて、以前のSOTAアプローチよりも6.9% mIoU向上した視覚言語セグメンテーションモデルの優れた一般化能力を示す。 さらに,提案手法は,都市景観テストセット上で86.1%miouが示す強力なドメイン内一般化能力を示し,提案時の現行のリーダボード上で,以前のsomaと1位を共有した。

Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNN), where domain shifts occur due to lighting, weather, or geolocation changes. In this work, we propose VLTSeg to enhance domain generalization in semantic segmentation, where the network is solely trained on the source domain and evaluated on unseen target domains. Our method leverages the inherent semantic robustness of vision-language models. First, by substituting traditional vision-only backbones with pre-trained encoders from CLIP and EVA-CLIP as transfer learning setting we find that in the field of DG, vision-language pre-training significantly outperforms supervised and self-supervised vision pre-training. We thus propose a new vision-language approach for domain generalized segmentation, which improves the domain generalization SOTA by 7.6% mIoU when training on the synthetic GTA5 dataset. We further show the superior generalization capabilities of vision-language segmentation models by reaching 76.48% mIoU on the popular Cityscapes-to-ACDC benchmark, outperforming the previous SOTA approach by 6.9% mIoU on the test set at the time of writing. Additionally, our approach shows strong in-domain generalization capabilities indicated by 86.1% mIoU on the Cityscapes test set, resulting in a shared first place with the previous SOTA on the current leaderboard at the time of submission.
翻訳日:2023-12-12 22:11:13 公開日:2023-12-11
# 大言語モデル幾何の特徴付けは毒性の検出と生成を解消する

Characterizing Large Language Model Geometry Solves Toxicity Detection and Generation ( http://arxiv.org/abs/2312.01648v2 )

ライセンス: Link先を確認
Randall Balestriero, Romain Cosentino, Sarath Shekkizhar(参考訳) 大規模言語モデル~(LLM)は、内部表現についてほとんど知られていないにもかかわらず、現在のAIのブレークスルーを駆動する。 実用的で原理的な解法として,幾何学的観点からLLMを特徴付けることを提案する。 我々は閉じた形で得られる (i)多頭注意埋め込みが存在するように制約された内在的な次元 (II) 層ごとのフィードフォワードネットワークの分割および領域ごとのアフィンマッピング。 我々の結果は情報であり、近似に頼らず、実行可能である。 まず、幾何学的解釈によって、インフォームド・プロンプト操作により、その埋め込みの内在次元を制御することで、llama$2$'s rlhfをバイパスできることを示す。 次に,任意の(事前学習した)LCM層から抽出可能な7ドルの解釈可能なスプライン特徴を導出し,その入力を抽象的に表現する。 これらの機能だけでも(224$ for mistral-7b/llama$2$-7bと560$ for llama$2$-70b)は、毒性検出の解決、プロンプトのドメインの推測、さまざまなプロンプトの毒性タイプを特徴付けるjigsawチャレンジへの対処に十分である。 本研究は, 大規模システムにおいても, 正確な理論的結果が言語モデルにおける実用的疑問にどのように答えられるかを示す。 コード: \url{https://github.com/RandallBalestriero/SplineLLM}。

Large Language Models~(LLMs) drive current AI breakthroughs despite very little being known about their internal representations, e.g., how to extract a few informative features to solve various downstream tasks. To provide a practical and principled answer, we propose to characterize LLMs from a geometric perspective. We obtain in closed form (i) the intrinsic dimension in which the Multi-Head Attention embeddings are constrained to exist and (ii) the partition and per-region affine mappings of the per-layer feedforward networks. Our results are informative, do not rely on approximations, and are actionable. First, we show that, motivated by our geometric interpretation, we can bypass Llama$2$'s RLHF by controlling its embedding's intrinsic dimension through informed prompt manipulation. Second, we derive $7$ interpretable spline features that can be extracted from any (pre-trained) LLM layer, providing a rich abstract representation of their inputs. Those features alone ($224$ for Mistral-7B/Llama$2$-7B and $560$ for Llama$2$-70B) are sufficient to help solve toxicity detection, infer the domain of the prompt, and even tackle the Jigsaw challenge, which aims at characterizing the type of toxicity of various prompts. Our results demonstrate how, even in large-scale regimes, exact theoretical results can answer practical questions in language models. Code: \url{https://github.com/RandallBalestriero/SplineLLM}.
翻訳日:2023-12-12 22:10:28 公開日:2023-12-11
# ArabIcros:AIを利用した教育用クロスワードパズル生成

ArabIcros: AI-Powered Arabic Crossword Puzzle Generation for Educational Applications ( http://arxiv.org/abs/2312.01339v2 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Mohamed Zaky Saad, Marco Maggini, Marco Gori(参考訳) 先進的なAI技術によって駆動される最初のアラビア語クロスワードパズル生成器を提案する。 GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, BERTといった最先端の大規模言語モデルを活用すると、システムは独特で困難な手がかりを生成する。 5万以上のヒントと回答のペアからなるデータセットに基づいて、ジェネレータは、微調整、少数/ゼロショットの学習戦略、厳格な品質チェックプロトコルを使用して、高品質のヒントと回答のペアを生成する。 重要なのは、教育クロスワードは記憶の強化、語彙の拡張、問題解決スキルの促進に寄与し、楽しみと魅力的なアプローチを通じて学習体験を増強し、伝統的な学習方法の展望を再構築する。 システム全体は、AIと革新的な学習技術を融合させる強力な教育ツールとして利用でき、アラビア語のクロスワードパズルと技術と教育の交わる時代の転換を告げる。

This paper presents the first Arabic crossword puzzle generator driven by advanced AI technology. Leveraging cutting-edge large language models including GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, and BERT, the system generates distinctive and challenging clues. Based on a dataset comprising over 50,000 clue-answer pairs, the generator employs fine-tuning, few/zero-shot learning strategies, and rigorous quality-checking protocols to enforce the generation of high-quality clue-answer pairs. Importantly, educational crosswords contribute to enhancing memory, expanding vocabulary, and promoting problem-solving skills, thereby augmenting the learning experience through a fun and engaging approach, reshaping the landscape of traditional learning methods. The overall system can be exploited as a powerful educational tool that amalgamates AI and innovative learning techniques, heralding a transformative era for Arabic crossword puzzles and the intersection of technology and education.
翻訳日:2023-12-12 22:09:59 公開日:2023-12-11
# synfundus:数百万のサンプルとマルチディセーゼアノテーションを備えた合成ファンドイメージデータセット

SynFundus: A synthetic fundus images dataset with millions of samples and multi-disease annotations ( http://arxiv.org/abs/2312.00377v2 )

ライセンス: Link先を確認
Fangxin Shang, Jie Fu, Yehui Yang, Haifeng Huang, Junwei Liu, Lei Ma(参考訳) 医療画像の分野では、データのプライバシとアノテーションコストのために、高品質なアノテーションを備えた大規模な公開データセットがほとんどありません。 この問題に対処するため、私たちはSynFundus-1Mをリリースした。SynFundus-1Mは、textbf{100 million} Fundusイメージを含む高品質な合成データセットである。 さらに,画像の読みやすさを意図的に多様化させ,画像ごとに4種類の品質スコアを提供する。 我々の知る限り、SynFundus-1Mは現在、最も洗練されたアノテーションを備えた最大のファンドデータセットです。 すべての画像は拡散確率モデルsynfundus-generatorによって生成される。 我々のSynFundus-Generatorは、13万以上のプライベートファンドイメージで訓練されており、最近のいくつかの関連する作品と比較して、ベースイメージの生成において優れたパフォーマンスを実現している。 さらに,SynFundus-1Mの合成画像と実際の眼底画像とをブレンドし,眼科医は合成画像と実際の画像とを区別することができない。 広範にわたる実験により、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方が、SynFundus-1Mの事前トレーニングやトレーニングによって恩恵を受けることを示した。 ImageNetやEyePACSのようなデータセットと比較して、SynFundus-1Mでトレーニングされたモデルは、より良いパフォーマンスを達成するだけでなく、さまざまな下流タスクへのより速い収束も達成している。

In the field of medical imaging, there are seldom large-scale public datasets with high-quality annotations due to data privacy and annotation cost. To address this issue, we release SynFundus-1M, a high-quality synthetic dataset containing over \textbf{1 million} fundus images w.r.t. 11 disease types. Moreover, we intentionally diversify the readability of the images and accordingly provide 4 types of the quality score for each image. To the best of our knowledge, SynFundus-1M is currently the largest fundus dataset with the most sophisticated annotations. All the images are generated by a Denoising Diffusion Probabilistic Model, named SynFundus-Generator. Trained with over 1.3 million private fundus images, our SynFundus-Generator achieves significant superior performance in generating fundus images compared to some recent related works. Furthermore, we blend some synthetic images from SynFundus-1M with real fundus images, and ophthalmologists can hardly distinguish the synthetic images from real ones. Through extensive experiments, we demonstrate that both convolutional neural networs (CNN) and Vision Transformer (ViT) can benefit from SynFundus-1M by pretraining or training directly. Compared to datasets like ImageNet or EyePACS, models trained on SynFundus-1M not only achieve better performance but also faster convergence on various downstream tasks.
翻訳日:2023-12-12 22:09:39 公開日:2023-12-11
# あなたはそれを書かなかった! マシン生成テキスト識別のためのサンプリングに基づく透かし法

I Know You Did Not Write That! A Sampling Based Watermarking Method for Identifying Machine Generated Text ( http://arxiv.org/abs/2311.18054v2 )

ライセンス: Link先を確認
Kaan Efe Kele\c{s}, \"Omer Kaan G\"urb\"uz, Mucahid Kutlu(参考訳) 大量誤情報や盗作のような大規模言語モデルの潜在的な害は、機械で生成されたテキストを検出する信頼できる方法が存在する場合、部分的に軽減できる。 本稿では,機械生成テキストを検出する新しい透かし手法を提案する。 提案手法は, 生成したテキストにユニークなパターンを組み込んで, コンテンツの一貫性と自然性を保ちながら, アルゴリズムで識別可能な個別のマーカーを格納する。 具体的には、検出フェーズ中にトークン選択をトレース可能な方法でトークンサンプリングプロセスに介入する。 本研究では,透かしがテキスト品質にどのように影響するかを示し,提案手法と最先端の透かし手法を比較した。 本研究では,透かしと非透かしを区別し,テキスト品質を維持しつつ高い検出率を達成するための透かし方式の有効性を示す。

Potential harms of Large Language Models such as mass misinformation and plagiarism can be partially mitigated if there exists a reliable way to detect machine generated text. In this paper, we propose a new watermarking method to detect machine-generated texts. Our method embeds a unique pattern within the generated text, ensuring that while the content remains coherent and natural to human readers, it carries distinct markers that can be identified algorithmically. Specifically, we intervene with the token sampling process in a way which enables us to trace back our token choices during the detection phase. We show how watermarking affects textual quality and compare our proposed method with a state-of-the-art watermarking method in terms of robustness and detectability. Through extensive experiments, we demonstrate the effectiveness of our watermarking scheme in distinguishing between watermarked and non-watermarked text, achieving high detection rates while maintaining textual quality.
翻訳日:2023-12-12 22:08:50 公開日:2023-12-11
# ループ変換器は学習アルゴリズムに優れている

Looped Transformers are Better at Learning Learning Algorithms ( http://arxiv.org/abs/2311.12424v2 )

ライセンス: Link先を確認
Liu Yang, Kangwook Lee, Robert Nowak, Dimitris Papailiopoulos(参考訳) gargらによって報告されたように、トランスフォーマーは様々な(相対的な)モデルからデータフィッティング問題を解決する際に有効である。 しかしながら、トランスフォーマーアーキテクチャに固有の反復構造がないことは、従来の機械学習手法で一般的に使用される反復アルゴリズムをエミュレートする上での課題となっている。 そこで本稿では, 繰り返し特性を変換器アーキテクチャに組み込むことを目的として, ループ変換器アーキテクチャとその学習手法の活用を提案する。 実験結果から、ループ変換器は、パラメータ数の10%未満を生かしながら、様々なデータ適合問題の解法において、標準変圧器に匹敵する性能を達成することが示唆された。

Transformers have demonstrated effectiveness in in-context solving data-fitting problems from various (latent) models, as reported by Garg et al. However, the absence of an inherent iterative structure in the transformer architecture presents a challenge in emulating the iterative algorithms, which are commonly employed in traditional machine learning methods. To address this, we propose the utilization of looped transformer architecture and its associated training methodology, with the aim of incorporating iterative characteristics into the transformer architectures. Experimental results suggest that the looped transformer achieves performance comparable to the standard transformer in solving various data-fitting problems, while utilizing less than 10% of the parameter count.
翻訳日:2023-12-12 22:08:03 公開日:2023-12-11
# 医学における大規模言語モデルの実態調査 : 原則,応用,課題

A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges ( http://arxiv.org/abs/2311.05112v2 )

ライセンス: Link先を確認
Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。 したがって、医療におけるLLMの応用は、人工知能と臨床医学の両方において有望な研究方向として、医師や患者医療を支援するために現れる。 この傾向を反映するために、この調査は医学におけるllmが直面する原則、応用、課題の概要を提供する。 具体的には,以下の問題に対処することを目的とする。 1)医療用llmはどのように構築できるのか? 2)医療用llmのダウンストリームパフォーマンスはどのようなものか? 3) 医療用llmは現実世界の診療にどのように活用できるのか? 4) 医療用LSMの使用による課題は何か。 そして 5)医療用LLMの構築と活用について その結果,本調査は医学におけるLLMの機会と課題に関する知見を提供し,実用的で効果的なLLMを構築するための貴重な資源となることを目的としている。 医療用LCMの実践的ガイドは、https://github.com/AI-in-Health/MedLLMsPracticalGuideで定期的に更新されている。

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
翻訳日:2023-12-12 22:07:37 公開日:2023-12-11
# スパース精密行列の圧縮回復

Compressive Recovery of Sparse Precision Matrices ( http://arxiv.org/abs/2311.04673v2 )

ライセンス: Link先を確認
Titouan Vayer, Etienne Lasalle, R\'emi Gribonval and Paulo Gon\c{c}alves(参考訳) 我々は、$d$変数の統計的関係をデータセットからモデル化するグラフを、$n$サンプル$X \in \mathbb{R}^{n \times d}$で学習する問題を考える。 標準的アプローチは、データを適切に説明するガウスのグラフィカルモデルの精度行列 $\theta$ を探索する量である。 しかし、ほとんどの最大確率に基づく推定値は、通常経験的共分散行列の$d^{2}$の値を保存する必要がある。 本研究では, 圧縮的視点を採用し, 非線形乱数特徴を用いた$X$ から低次元ベクトル $m \ll d^{2}$ を慎重に設計し, データの \emph{sketch} からスパース $\Theta$ を推定することを目的とする。 例えば、$\Theta$(あるいは条件番号)のスペクトル上の特定の仮定の下で、$m=\Omega\left((d+2k)\log(d)\right)$のスケッチから、$k$が基礎となるグラフのエッジの最大数であることを示す。 これらの情報理論的な保証は圧縮センシング理論に触発され、制限された等長性とインスタンス最適デコーダを含む。 本研究では,グラフィカルラッソに基づく反復アルゴリズムを具体的デノイザーとして,実用的リカバリを実現する可能性について検討する。 合成データセットに対する我々のアプローチとグラフィカルラッソを比較し、データセットを圧縮しても良好な性能を示す。

We consider the problem of learning a graph modeling the statistical relations of the $d$ variables from a dataset with $n$ samples $X \in \mathbb{R}^{n \times d}$. Standard approaches amount to searching for a precision matrix $\Theta$ representative of a Gaussian graphical model that adequately explains the data. However, most maximum likelihood-based estimators usually require storing the $d^{2}$ values of the empirical covariance matrix, which can become prohibitive in a high-dimensional setting. In this work, we adopt a compressive viewpoint and aim to estimate a sparse $\Theta$ from a \emph{sketch} of the data, i.e. a low-dimensional vector of size $m \ll d^{2}$ carefully designed from $X$ using non-linear random features. Under certain assumptions on the spectrum of $\Theta$ (or its condition number), we show that it is possible to estimate it from a sketch of size $m=\Omega\left((d+2k)\log(d)\right)$ where $k$ is the maximal number of edges of the underlying graph. These information-theoretic guarantees are inspired by compressed sensing theory and involve restricted isometry properties and instance optimal decoders. We investigate the possibility of achieving practical recovery with an iterative algorithm based on the graphical lasso, viewed as a specific denoiser. We compare our approach and graphical lasso on synthetic datasets, demonstrating its favorable performance even when the dataset is compressed.
翻訳日:2023-12-12 22:07:11 公開日:2023-12-11
# 強化学習のための拡散モデル:調査

Diffusion Models for Reinforcement Learning: A Survey ( http://arxiv.org/abs/2311.01223v2 )

ライセンス: Link先を確認
Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Yong Yu, Weinan Zhang(参考訳) 拡散モデルは、サンプル品質とトレーニング安定性に関する従来の手法を上回って、顕著な生成モデルクラスとして登場してきた。 近年の研究では、トラジェクティブプランナー、表現型ポリシークラス、データシンセサイザーなど、強化学習(RL)ソリューションの改善における拡散モデルの利点が示されている。 本調査は, この新興分野の進展を概観し, 新たな研究の道を開くことを目的としている。 まず、現在のRLアルゴリズムで直面するいくつかの課題について検討する。 次に,RLにおける拡散モデルが果たす役割に基づいた既存手法の分類を示し,既存の課題にどう対処するかを考察する。 さらに,様々なRL関連タスクにおける拡散モデルの適用性について概説する。 最後に,調査を締め括り,今後の研究方向性について考察し,モデル性能の向上とより広いタスクに拡散モデルを適用することに焦点を当てた。 rlにおける拡散モデルの適用において、論文やその他の関連リソースのためのgithubリポジトリを積極的にメンテナンスしています。

Diffusion models have emerged as a prominent class of generative models, surpassing previous methods regarding sample quality and training stability. Recent works have shown the advantages of diffusion models in improving reinforcement learning (RL) solutions, including as trajectory planners, expressive policy classes, data synthesizers, etc. This survey aims to provide an overview of the advancements in this emerging field and hopes to inspire new avenues of research. First, we examine several challenges encountered by current RL algorithms. Then, we present a taxonomy of existing methods based on the roles played by diffusion models in RL and explore how the existing challenges are addressed. We further outline successful applications of diffusion models in various RL-related tasks while discussing the limitations of current approaches. Finally, we conclude the survey and offer insights into future research directions, focusing on enhancing model performance and applying diffusion models to broader tasks. We are actively maintaining a GitHub repository for papers and other related resources in applying diffusion models in RL: https://github.com/apexrl/Diff4RLSurvey
翻訳日:2023-12-12 22:06:22 公開日:2023-12-11
# 属性トリガによるクリーンラベルによるサンプル固有のバックドア攻撃に向けて

Towards Sample-specific Backdoor Attack with Clean Labels via Attribute Trigger ( http://arxiv.org/abs/2312.04584v2 )

ライセンス: Link先を確認
Yiming Li, Mingyan Zhu, Junfeng Guo, Tao Wei, Shu-Tao Xia, Zhan Qin(参考訳) 現在、サンプル特異的バックドア攻撃(SSBA)は、現在のバックドア防御のほとんどを簡単に回避できるため、最も先進的で悪意のある方法である。 本稿では, SSBAが有毒ラベルの性質上, 画像とラベルの関係をチェックすると, 異常を発見できるため, 十分にステルス性がないことを明らかにした。 特に,ターゲットクラスからのみサンプルを毒殺することにより,既存のssbaをクリーンラベルに直接一般化することは効果的ではないことを実証する。 本研究は, 主に, 接地構造の特徴の「反抗効果」と, サンプル固有特徴の学習困難さの2つの理由から, その原因を明らかにした。 したがって、既存のSSBAのトリガー関連特徴は、ステルス性を確保するために必要な軽度のトリガー強度のため、クリーンラベル設定下では効果的に学習できない。 既存のSSBAの強度制約は、主にトリガーパターンが「連続的無関係」であるため、人間とDNNの両方にとって「ノイズ」となるためである。 この理解により、クリーンラベルのSSBAを設計するためのトリガパターンとして、コンテンツ関連機能である$a.k.a.$(人間信頼性)属性を活用することを提案する。 この新しい攻撃パラダイムはバックドアアタック(backdoor attack with attribute trigger, baat)と呼ばれている。 ベンチマークデータセットで広範な実験を行い、baatの有効性と既存の防御に対する耐性を検証する。

Currently, sample-specific backdoor attacks (SSBAs) are the most advanced and malicious methods since they can easily circumvent most of the current backdoor defenses. In this paper, we reveal that SSBAs are not sufficiently stealthy due to their poisoned-label nature, where users can discover anomalies if they check the image-label relationship. In particular, we demonstrate that it is ineffective to directly generalize existing SSBAs to their clean-label variants by poisoning samples solely from the target class. We reveal that it is primarily due to two reasons, including \textbf{(1)} the `antagonistic effects' of ground-truth features and \textbf{(2)} the learning difficulty of sample-specific features. Accordingly, trigger-related features of existing SSBAs cannot be effectively learned under the clean-label setting due to their mild trigger intensity required for ensuring stealthiness. We argue that the intensity constraint of existing SSBAs is mostly because their trigger patterns are `content-irrelevant' and therefore act as `noises' for both humans and DNNs. Motivated by this understanding, we propose to exploit content-relevant features, $a.k.a.$ (human-relied) attributes, as the trigger patterns to design clean-label SSBAs. This new attack paradigm is dubbed backdoor attack with attribute trigger (BAAT). Extensive experiments are conducted on benchmark datasets, which verify the effectiveness of our BAAT and its resistance to existing defenses.
翻訳日:2023-12-12 21:56:08 公開日:2023-12-11
# 全員の分類 : 公平な認識のための地理非依存モデルの構築

Classification for everyone : Building geography agnostic models for fairer recognition ( http://arxiv.org/abs/2312.02957v2 )

ライセンス: Link先を確認
Akshat Jindal, Shreya Singh, Soham Gadgil(参考訳) 本稿では,美術画像分類モデルの現状に現われる地理的バイアスを軽減するために,異なる手法を解析する。 最初にこのバイアスを2つのデータセット – The Dollar Street DatasetとImageNet – に,位置情報を備えたイメージを使用して定量的に提示する。 そして,このバイアスを軽減するために異なる手法を提案する。 最後に,画像の地理的位置に対するロバスト性を高めるための様々な手法の有効性について検討した。

In this paper, we analyze different methods to mitigate inherent geographical biases present in state of the art image classification models. We first quantitatively present this bias in two datasets - The Dollar Street Dataset and ImageNet, using images with location information. We then present different methods which can be employed to reduce this bias. Finally, we analyze the effectiveness of the different techniques on making these models more robust to geographical locations of the images.
翻訳日:2023-12-12 21:54:19 公開日:2023-12-11
# nuvo: 無秩序な3d表現のためのニューラルuvマッピング

Nuvo: Neural UV Mapping for Unruly 3D Representations ( http://arxiv.org/abs/2312.05283v1 )

ライセンス: Link先を確認
Pratul P. Srinivasan and Stephan J. Garbin and Dor Verbin and Jonathan T. Barron and Ben Mildenhall(参考訳) 既存のUVマッピングアルゴリズムは、最先端の3D再構成と生成技術によって生成される幾何学的表現の代わりに、良好なメッシュで動作するように設計されている。 そのため、これらの手法をニューラル放射場と関連する技術(またはそのような分野から三角測量されたメッシュ)によって回収された体積密度に応用すると、視線合成や外観編集などのタスクに役立てるには、断片的すぎるテクスチャアトラスが生じる。 本稿では,3次元再構成と生成技術により生成した形状を操作可能なuvマッピング手法を提案する。 メッシュの頂点上で定義されたマッピングを計算する代わりに、我々の方法であるNuvoは、連続的なUVマッピングを表現するためにニューラルネットワークを使用し、シーンの外観に影響を及ぼす唯一の点である可視点のセットに対して、有効かつ良好なマッピングとして最適化する。 提案手法は,不用意な形状によって生じる課題に対して頑健であり,詳細な外観を表現できる編集可能なuvマッピングを生成できることを示す。

Existing UV mapping algorithms are designed to operate on well-behaved meshes, instead of the geometry representations produced by state-of-the-art 3D reconstruction and generation techniques. As such, applying these methods to the volume densities recovered by neural radiance fields and related techniques (or meshes triangulated from such fields) results in texture atlases that are too fragmented to be useful for tasks such as view synthesis or appearance editing. We present a UV mapping method designed to operate on geometry produced by 3D reconstruction and generation techniques. Instead of computing a mapping defined on a mesh's vertices, our method Nuvo uses a neural field to represent a continuous UV mapping, and optimizes it to be a valid and well-behaved mapping for just the set of visible points, i.e. only points that affect the scene's appearance. We show that our model is robust to the challenges posed by ill-behaved geometry, and that it produces editable UV mappings that can represent detailed appearance.
翻訳日:2023-12-12 21:45:20 公開日:2023-12-11
# unsupervised discriminative consistency network を用いた oracle 文字認識

Oracle Character Recognition using Unsupervised Discriminative Consistency Network ( http://arxiv.org/abs/2312.06075v1 )

ライセンス: Link先を確認
Mei Wang, Weihong Deng, Sen Su(参考訳) 古代史は古代文字の研究に依存している。 しかし,実際にスキャンされたオラクル文字の収集と注釈は困難であり,オラクル文字認識(OrCR)の大きな障害となっている。 さらに、深刻な摩耗とクラス間の類似性により、OrCRはより困難になる。 本稿では,ラベル付きoracle文字からラベルなしスキャンデータへの知識の転送を可能にする,orcrの教師なしドメイン適応手法を提案する。 擬似ラベルを利用して意味情報を適応と制約強化の整合性に組み込むことで、異なる摂動下でのスキャンされたサンプルの予測を一貫性を持たせ、摩耗、汚れ、歪みに対するモデルロバスト性をもたらす。 同時に、クラス間遷移確率とクラス内遷移確率の両方を最適化することにより、スキャンされたドメインのより識別的な特徴を学ぶために教師なし遷移損失を提案する。 大規模な実験により、Oracle-241データセットの最先端結果が得られ、最近提案された構造・テクスチャ分離ネットワークを15.1%上回った。

Ancient history relies on the study of ancient characters. However, real-world scanned oracle characters are difficult to collect and annotate, posing a major obstacle for oracle character recognition (OrCR). Besides, serious abrasion and inter-class similarity also make OrCR more challenging. In this paper, we propose a novel unsupervised domain adaptation method for OrCR, which enables to transfer knowledge from labeled handprinted oracle characters to unlabeled scanned data. We leverage pseudo-labeling to incorporate the semantic information into adaptation and constrain augmentation consistency to make the predictions of scanned samples consistent under different perturbations, leading to the model robustness to abrasion, stain and distortion. Simultaneously, an unsupervised transition loss is proposed to learn more discriminative features on the scanned domain by optimizing both between-class and within-class transition probability. Extensive experiments show that our approach achieves state-of-the-art result on Oracle-241 dataset and substantially outperforms the recently proposed structure-texture separation network by 15.1%.
翻訳日:2023-12-12 17:19:30 公開日:2023-12-11
# aiにおける多様性と包摂性を運用するビジョン

A Vision for Operationalising Diversity and Inclusion in AI ( http://arxiv.org/abs/2312.06074v1 )

ライセンス: Link先を確認
Muneera Bano, Didar Zowghi, Vincenzo Gervasi(参考訳) 様々な分野における人工知能(AI)の存在は、社会的多様性を正確に反映するシステムを必要とする。 本研究は,AIエコシステムにおける多様性と包摂性(D&I)の倫理的命令の運用を想定し,倫理的ガイドラインと実践的実装の現在の切り離しに対処することを目的とする。 AI開発における重要な課題は、D&I原則の効果的運用であり、既存のバイアスの強化を防ぎ、AIアプリケーション全体の株式の確保に不可欠である。 本稿では,Generative AI(GenAI)によるペルソナシミュレーションを活用したツール開発のためのフレームワークの構想を提案する。 このアプローチは、AIソフトウェアの要求分析プロセスにおいて、多様なユーザのニーズの表現を容易にすることを目的としている。 提案するフレームワークは,開発プロセスに詳細なユーザストーリを通知する多彩な属性を持つ総合的なペルソナリポジトリにつながることが期待されている。 この研究は、未来の技術進歩が人類の多様な構造にコミットして設計されることを保証する包括的AIパラダイムの開発に寄与する。

The growing presence of Artificial Intelligence (AI) in various sectors necessitates systems that accurately reflect societal diversity. This study seeks to envision the operationalization of the ethical imperatives of diversity and inclusion (D&I) within AI ecosystems, addressing the current disconnect between ethical guidelines and their practical implementation. A significant challenge in AI development is the effective operationalization of D&I principles, which is critical to prevent the reinforcement of existing biases and ensure equity across AI applications. This paper proposes a vision of a framework for developing a tool utilizing persona-based simulation by Generative AI (GenAI). The approach aims to facilitate the representation of the needs of diverse users in the requirements analysis process for AI software. The proposed framework is expected to lead to a comprehensive persona repository with diverse attributes that inform the development process with detailed user narratives. This research contributes to the development of an inclusive AI paradigm that ensures future technological advances are designed with a commitment to the diverse fabric of humanity.
翻訳日:2023-12-12 17:19:10 公開日:2023-12-11
# 3次元医用画像の自動分割のための動的インタラクティブ学習フレームワーク

A dynamic interactive learning framework for automated 3D medical image segmentation ( http://arxiv.org/abs/2312.06072v1 )

ライセンス: Link先を確認
Mu Tian, Xiaohui Chen, Yi Gao(参考訳) 多くのディープラーニングベースの自動医療画像セグメンテーションシステムは、実際には、大量のデータアノテーションとモデルイテレーションにおける高いレイテンシのコストのために、デプロイメントの困難に直面している。 対話型セグメンテーションをエンドツーエンドの弱い教師付き学習とストリーミングタスクに統合することにより,これらの課題に対処する動的対話型学習フレームワークを提案する。 オンライン学習のロバスト性を向上させるために,新しいリプレイとラベル平滑化手法を開発した。 各画像に対して、マルチラウンドインタラクティブセグメンテーションモジュールは、フロントエンド予測とディープラーニングセグメンタの両方を同時に最適化します。 各ラウンドにおいて、画像登録に基づいてスパースユーザ入力から3d「プロキシマスク」を伝播させ、未知の地上真理からの知識蒸留を可能にする弱い監督を行う。 その見返りとして、トレーニングされたセグメンタは、連続した前方または後方予測から空間残留マップに従って、次のステップのユーザ介入を明示的にガイドする。 3次元セグメンテーションタスクの評価 (nci-isbi2013 と brats2015) では,オフライントレーニングベンチマークにマッチするオンライン学習パフォーマンスを生成する。 さらに,全体のアノテーション労力が62%削減されたことにより,オンラインとオフラインの学習と比較し,実地的真理を満たした競合的diceスコアを作成できる。 さらに、このようなフレームワークは柔軟性と応答性を備えており、データのセキュリティとメンテナンスの容易さを保証する病院ファイヤーウォールの背後に配置することができる。

Many deep learning based automated medical image segmentation systems, in reality, face difficulties in deployment due to the cost of massive data annotation and high latency in model iteration. We propose a dynamic interactive learning framework that addresses these challenges by integrating interactive segmentation into end-to-end weak supervised learning with streaming tasks. We develop novel replay and label smoothing schemes that overcome catastrophic forgetting and improve online learning robustness. For each image, our multi-round interactive segmentation module simultaneously optimizes both front-end predictions and deep learning segmenter. In each round, a 3D "proxy mask" is propagated from sparse user inputs based on image registration, serving as weak supervision that enable knowledge distillation from the unknown ground truth. In return, the trained segmenter explicitly guides next step's user interventions according to a spatial residual map from consecutive front or back-end predictions. Evaluation on 3D segmentation tasks (NCI-ISBI2013 and BraTS2015) shows that our framework generates online learning performances that match offline training benchmark. In addition, with a 62% reduction in total annotation efforts, our framework produces competitive dice scores comparing to online and offline learning which equipped with full ground truth. Furthermore, such a framework, with its flexibility and responsiveness, could be deployed behind hospital firewall that guarantees data security and easy maintenance.
翻訳日:2023-12-12 17:18:53 公開日:2023-12-11
# 光流動誘導拡散による確率的降水ダウンスケーリング

Probabilistic Precipitation Downscaling with Optical Flow-Guided Diffusion ( http://arxiv.org/abs/2312.06071v1 )

ライセンス: Link先を確認
Prakhar Srivastava, Ruihan Yang, Gavin Kerrigan, Gideon Dresdner, Jeremy McGibbon, Christopher Bretherton, Stephan Mandt(参考訳) 気候科学と気象学において、局所降水予測はシミュレーション手法が必要とする高空間分解能によって引き起こされる膨大な計算コストによって制限される。 一般的な回避策は統計的ダウンスケーリング(いわゆる超解像)であり、統計的アプローチを用いて低解像度の予測を超解いたものである。 従来のコンピュータビジョンタスクは主に人間の知覚や平均二乗誤差に重点を置いているが、天気や気候の応用には、信頼性の高いアンサンブル平均を取るために、高解像度パターンの条件分布を捉える必要がある。 高分解能出力の光学的流れは時間的コヒーレントな予測を誘導する一方、時間的条件の拡散モデルは、正しいノイズ特性と高周波パターンをキャプチャする残差を生成する。 我々は、確立された大規模気候シミュレーションデータセットであるX-SHiELDのアプローチを検証し、CRPS、MSE、降水分布、そしてカリフォルニアの複雑な地形であるイラストレーターケースに焦点を当てた、最先端の2つのベースラインと比較した。 当社のアプローチでは,データ駆動型降水ダウンスケーリングの新しい標準を設定します。

In climate science and meteorology, local precipitation predictions are limited by the immense computational costs induced by the high spatial resolution that simulation methods require. A common workaround is statistical downscaling (aka superresolution), where a low-resolution prediction is super-resolved using statistical approaches. While traditional computer vision tasks mainly focus on human perception or mean squared error, applications in weather and climate require capturing the conditional distribution of high-resolution patterns given low-resolution patterns so that reliable ensemble averages can be taken. Our approach relies on extending recent video diffusion models to precipitation superresolution: an optical flow on the high-resolution output induces temporally coherent predictions, whereas a temporally-conditioned diffusion model generates residuals that capture the correct noise characteristics and high-frequency patterns. We test our approach on X-SHiELD, an established large-scale climate simulation dataset, and compare against two state-of-the-art baselines, focusing on CRPS, MSE, precipitation distributions, as well as an illustrative case -- the complex terrain of California. Our approach sets a new standard for data-driven precipitation downscaling.
翻訳日:2023-12-12 17:18:30 公開日:2023-12-11
# コンピュータ支援診断に向けたコントラスト学習のためのマイニングゲーズ

Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis ( http://arxiv.org/abs/2312.06069v1 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Qian Wang, Dinggang Shen(参考訳) 医用画像領域における対比的事前訓練の有効性を制限し, 代替方法の必要性を強調するなど, 様々な理由から, 医用画像に対する大規模放射線検査の入手は困難である。 本稿では,放射線技師の日常診断プロセスに支障を来すことなく視線信号の受動的収集を可能にするため,テキストレポートの代替としてアイトラッキングを提案する。 医用画像の読解と診断を行う放射線科医の視線を追跡することで,その視覚的注意と臨床推論を理解することができる。 放射線医が2つの医用画像に類似した視線を持つ場合、診断に意味的類似性を示す可能性があり、コンピュータ支援診断(CAD)ネットワークを事前学習する際には、これらの画像は正のペアとして扱われるべきである。 そこで本研究では,コントラスト学習フレームワークのためのプラグアンドプレイモジュールとして,mcgip(medical contrastive gaze image pre-training)を導入する。 McGIPは放射線技師の視線を使って、対照的な事前訓練をガイドする。 2種類の医用画像と2種類の一般的な視線データを用いて評価を行った。 実験の結果,McGIPの実用性を示し,様々な臨床シナリオや応用の可能性を示している。

Obtaining large-scale radiology reports can be difficult for medical images due to various reasons, limiting the effectiveness of contrastive pre-training in the medical image domain and underscoring the need for alternative methods. In this paper, we propose eye-tracking as an alternative to text reports, as it allows for the passive collection of gaze signals without disturbing radiologist's routine diagnosis process. By tracking the gaze of radiologists as they read and diagnose medical images, we can understand their visual attention and clinical reasoning. When a radiologist has similar gazes for two medical images, it may indicate semantic similarity for diagnosis, and these images should be treated as positive pairs when pre-training a computer-assisted diagnosis (CAD) network through contrastive learning. Accordingly, we introduce the Medical contrastive Gaze Image Pre-training (McGIP) as a plug-and-play module for contrastive learning frameworks. McGIP uses radiologist's gaze to guide contrastive pre-training. We evaluate our method using two representative types of medical images and two common types of gaze data. The experimental results demonstrate the practicality of McGIP, indicating its high potential for various clinical scenarios and applications.
翻訳日:2023-12-12 17:18:09 公開日:2023-12-11
# グラフ畳み込みネットワークに基づくハイパースペクトル画像のコントラスト多視点部分空間クラスタリング

Contrastive Multi-view Subspace Clustering of Hyperspectral Images based on Graph Convolutional Networks ( http://arxiv.org/abs/2312.06068v1 )

ライセンス: Link先を確認
Renxiang Guan and Zihao Li and Xianju Li and Chang Tang and Ruyi Feng(参考訳) 高次元かつ複雑なスペクトル構造は、ハイパースペクトル画像(HSI)のクラスタリングを困難な課題にする。 サブスペースクラスタリングはこの問題に対処するための効果的なアプローチである。 しかし、現在のサブスペースクラスタリングアルゴリズムは主に単一ビュー用に設計されており、HSIの空間的・テクスチャ的特徴情報を十分に活用していない。 本研究では,グラフ畳み込みネットワークに基づくhsiの対比的多視点部分空間クラスタリングを提案する。 2つのグラフ畳み込み部分空間を構築し、親和性行列を学習するために、ピクセル近傍のテクスチュラルおよび空間スペクトル情報を送信した。 異なる視点間の相互作用を最大化するために、正のサンプルの一貫性を促進し、ロバストな特徴を抽出するモデルを支援するコントラスト学習アルゴリズムが導入された。 注意に基づく融合モジュールを用いてこれらの親和性行列を適応的に統合し、より差別的な親和性行列を構成する。 このモデルは、インドパインズ、パヴィア大学、ヒューストン、xu周の4つのhsiデータセットを用いて評価された。 全体の精度は97.61%、96.69%、87.21%、97.65%で、最先端のクラスタリング法を大きく上回っている。 結論として,提案モデルはHSIのクラスタリング精度を効果的に向上させる。

High-dimensional and complex spectral structures make the clustering of hyperspectral images (HSI) a challenging task. Subspace clustering is an effective approach for addressing this problem. However, current subspace clustering algorithms are primarily designed for a single view and do not fully exploit the spatial or textural feature information in HSI. In this study, contrastive multi-view subspace clustering of HSI was proposed based on graph convolutional networks. Pixel neighbor textural and spatial-spectral information were sent to construct two graph convolutional subspaces to learn their affinity matrices. To maximize the interaction between different views, a contrastive learning algorithm was introduced to promote the consistency of positive samples and assist the model in extracting robust features. An attention-based fusion module was used to adaptively integrate these affinity matrices, constructing a more discriminative affinity matrix. The model was evaluated using four popular HSI datasets: Indian Pines, Pavia University, Houston, and Xu Zhou. It achieved overall accuracies of 97.61%, 96.69%, 87.21%, and 97.65%, respectively, and significantly outperformed state-of-the-art clustering methods. In conclusion, the proposed model effectively improves the clustering accuracy of HSI.
翻訳日:2023-12-12 17:17:46 公開日:2023-12-11
# PCRDiffusion:ポイントクラウド登録のための拡散確率モデル

PCRDiffusion: Diffusion Probabilistic Models for Point Cloud Registration ( http://arxiv.org/abs/2312.06063v1 )

ライセンス: Link先を確認
Yue Wu, Yongzhe Yuan, Xiaolong Fan, Xiaoshui Huang, Maoguo Gong and Qiguang Miao(参考訳) 本稿では,ノイズ変換からオブジェクト変換への拡散過程として,ポイントクラウド登録を定式化する新しいフレームワークを提案する。 トレーニング段階では、オブジェクト変換は基底変換からランダム分布へと拡散し、モデルはこのノイズ処理を逆転することを学習する。 サンプリング段階では、モデルはランダムに生成された出力への変換を進行的に洗練する。 我々は、トレーニングのための閉形式における変分境界を導出し、モデルの実装を提供する。 私たちの研究は以下の重要な発見をもたらします。 i) 既存の手法と対照的に, 拡散確率モデルを用いたポイントクラウド登録(pcrdiffusion)では, 予測変換を洗練するために, ソースポイントクラウドの更新を繰り返し必要としない。 (ii)代表的な判別課題の一つであるポイントクラウド登録は、生成的方法と統一確率的定式化によって解決することができる。 最後に,ポイントクラウド登録の異なるシナリオにおける拡散モデルの適用に関する展望と展望について述べる。 実験により,本モデルがポイントクラウド登録における競合性能を達成することを示す。 対応のないシナリオと対応ベースのシナリオでは、pcrdifussionはともに50\%以上のパフォーマンス改善を達成できる。

We propose a new framework that formulates point cloud registration as a denoising diffusion process from noisy transformation to object transformation. During training stage, object transformation diffuses from ground-truth transformation to random distribution, and the model learns to reverse this noising process. In sampling stage, the model refines randomly generated transformation to the output result in a progressive way. We derive the variational bound in closed form for training and provide implementations of the model. Our work provides the following crucial findings: (i) In contrast to most existing methods, our framework, Diffusion Probabilistic Models for Point Cloud Registration (PCRDiffusion) does not require repeatedly update source point cloud to refine the predicted transformation. (ii) Point cloud registration, one of the representative discriminative tasks, can be solved by a generative way and the unified probabilistic formulation. Finally, we discuss and provide an outlook on the application of diffusion model in different scenarios for point cloud registration. Experimental results demonstrate that our model achieves competitive performance in point cloud registration. In correspondence-free and correspondence-based scenarios, PCRDifussion can both achieve exceeding 50\% performance improvements.
翻訳日:2023-12-12 17:17:23 公開日:2023-12-11
# 相関プロセスの特徴付けと予測のためのランダム化ベンチマーク

Randomised benchmarking for characterizing and forecasting correlated processes ( http://arxiv.org/abs/2312.06062v1 )

ライセンス: Link先を確認
Xinfang Zhang, Zhihao Wu, Gregory A. L. White, Zhongcheng Xiang, Shun Hu, Zhihui Peng, Yong Liu, Dongning Zheng, Xiang Fu, Anqi Huang, Dario Poletti, Kavan Modi, Junjie Wu, Mingtang Deng, Chu Guo(参考訳) フォールトトレラント量子プロセッサの開発はノイズを制御する能力に依存している。 特に不快な形の雑音は、時間的相関または非マルコフ雑音である。 ランダム化ベンチマークと教師付き機械学習アルゴリズムを組み合わせることで、時間的相関ノイズの詳細を学習する手法を開発した。 特に、システムプラスバスの時間非依存進化作用素を学習することができ、これが導かれる。 (i)力学及び力学の非マルコフ性度を特徴付ける能力 (ii)モデルのトレーニングに慣れた時間を超えて、システムのダイナミクスを予測する能力。 本手法を超伝導量子プロセッサ上で実装することでその例を示す。 実験結果から,マルコフ系と非マルコフ系の間には,学習能力に対する劇的な変化がみられた。

The development of fault-tolerant quantum processors relies on the ability to control noise. A particularly insidious form of noise is temporally correlated or non-Markovian noise. By combining randomized benchmarking with supervised machine learning algorithms, we develop a method to learn the details of temporally correlated noise. In particular, we can learn the time-independent evolution operator of system plus bath and this leads to (i) the ability to characterize the degree of non-Markovianity of the dynamics and (ii) the ability to predict the dynamics of the system even beyond the times we have used to train our model. We exemplify this by implementing our method on a superconducting quantum processor. Our experimental results show a drastic change between the Markovian and non-Markovian regimes for the learning accuracies.
翻訳日:2023-12-12 17:17:03 公開日:2023-12-11
# コンフォーマル:コントラストは高精細テキストと画像の拡散モデルに必要なもの

CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.06059v1 )

ライセンス: Link先を確認
Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag(参考訳) テキストから画像への拡散モデルによって生成された画像は、提供されるテキストプロンプトの意味的意図を常に忠実に表現するとは限らない。 既存の解はしばしばこれらの問題に対してカスタムに調整された関数を必要とし、特に複雑なプロンプトに対して準最適結果をもたらす。 我々の研究は、この課題を対照的な文脈で取り組むことによって、新しい視点を導入している。 本手法は,注目マップ内のオブジェクトの分離を直感的に促進するとともに,関連属性のペアが互いに近接していることを維持する。 さまざまなシナリオで広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含んでいます。 これらの実験は, 安定拡散やイメージnを含む, 潜時および画素ベース拡散モデルの両方で動作する手法の汎用性, 効率, 柔軟性を効果的に示すものである。 さらに、さらなる研究を促進するためにソースコードを公開しています。

Images produced by text-to-image diffusion models might not always faithfully represent the semantic intent of the provided text prompt, where the model might overlook or entirely fail to produce certain objects. Existing solutions often require customly tailored functions for each of these problems, leading to sub-optimal results, especially for complex prompts. Our work introduces a novel perspective by tackling this challenge in a contrastive context. Our approach intuitively promotes the segregation of objects in attention maps while also maintaining that pairs of related attributes are kept close to each other. We conduct extensive experiments across a wide variety of scenarios, each involving unique combinations of objects, attributes, and scenes. These experiments effectively showcase the versatility, efficiency, and flexibility of our method in working with both latent and pixel-based diffusion models, including Stable Diffusion and Imagen. Moreover, we publicly share our source code to facilitate further research.
翻訳日:2023-12-12 17:16:54 公開日:2023-12-11
# METAL:大規模言語モデル品質分析のためのメタモルフィックテスティングフレームワーク

METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities ( http://arxiv.org/abs/2312.06056v1 )

ライセンス: Link先を確認
Sangwon Hyun, Mingyu Guo, M. Ali Babar(参考訳) 大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。 しかしながら、それらのブラックボックス化と確率的特性は、多様なLCMアプリケーションにおける出力の品質に潜在的なリスクをもたらす可能性がある。 近年,LLMの品質属性 (QA) を, 逆入力テキストを生成することによって検証している。 しかし、既存の研究はLLMにおけるQAとタスクのカバレッジを制限しており、拡張が困難である。 さらに、これらの研究は、アプローチの有効性を評価するために、1つの評価基準であるアタック成功率(ASR)しか使用していない。 llms(metal)フレームワークを分析するためのメタモルフィックテストを提案し,メタモルフィックテスト(mt)技術を適用してこれらの問題に対処する。 このアプローチは、モジュール化された評価指標として機能するメタモルフィックリレーショナル(MR)を定義することにより、LCMの品質の体系的なテストを容易にする。 METALフレームワークは、様々なQAやタスクをカバーするテンプレートから数百のMRを自動的に生成できる。 さらに,ASR法をテキストのセマンティックな性質に統合し,MRの有効性を正確に評価する新しい指標を導入した。 3つのLLMを用いて実施した実験により,METALフレームワークが一次LLMタスクのQAを効果的に評価し,LLMの品質リスクを明らかにすることを確認した。 さらに,新たに提案する指標は,各タスクの最適mrsを導出し,mrs生成に最も効果的な方法を提案する。

Large-Language Models (LLMs) have shifted the paradigm of natural language data processing. However, their black-boxed and probabilistic characteristics can lead to potential risks in the quality of outputs in diverse LLM applications. Recent studies have tested Quality Attributes (QAs), such as robustness or fairness, of LLMs by generating adversarial input texts. However, existing studies have limited their coverage of QAs and tasks in LLMs and are difficult to extend. Additionally, these studies have only used one evaluation metric, Attack Success Rate (ASR), to assess the effectiveness of their approaches. We propose a MEtamorphic Testing for Analyzing LLMs (METAL) framework to address these issues by applying Metamorphic Testing (MT) techniques. This approach facilitates the systematic testing of LLM qualities by defining Metamorphic Relations (MRs), which serve as modularized evaluation metrics. The METAL framework can automatically generate hundreds of MRs from templates that cover various QAs and tasks. In addition, we introduced novel metrics that integrate the ASR method into the semantic qualities of text to assess the effectiveness of MRs accurately. Through the experiments conducted with three prominent LLMs, we have confirmed that the METAL framework effectively evaluates essential QAs on primary LLM tasks and reveals the quality risks in LLMs. Moreover, the newly proposed metrics can guide the optimal MRs for testing each task and suggest the most effective method for generating MRs.
翻訳日:2023-12-12 17:16:40 公開日:2023-12-11
# IEKG: 慣用的表現のための共通知識グラフ

IEKG: A Commonsense Knowledge Graph for Idiomatic Expressions ( http://arxiv.org/abs/2312.06053v1 )

ライセンス: Link先を確認
Ziheng Zeng, Kellen Tan Cheng, Srihari Venkat Nanniyur, Jianing Zhou and Suma Bhat(参考訳) 慣用的表現(IE)処理と理解は、その意味が非構成的であるため、事前訓練された言語モデル(PTLM)に挑戦している。 本研究は,IE を含む文を微調整した PTLM によるIE 理解を可能にする先行研究とは違って,IE の図形解釈のための共通知識グラフである IEKG を構築する。 これは確立されたATOMIC2020グラフを拡張し、PTLMをIE使用に関する共通知識を符号化し推論する知識モデル(KM)に変換する。 実験により、様々なPTLMをIEKGでKMに変換することができた。 我々は,IEKGの品質と訓練されたKMの能力を,自動評価と人的評価で検証する。 自然言語理解の応用を通して,IEKGから知識を注入したPTLMはIE理解能力の向上を示し,トレーニング中に見つからないIEに一般化できることを示す。

Idiomatic expression (IE) processing and comprehension have challenged pre-trained language models (PTLMs) because their meanings are non-compositional. Unlike prior works that enable IE comprehension through fine-tuning PTLMs with sentences containing IEs, in this work, we construct IEKG, a commonsense knowledge graph for figurative interpretations of IEs. This extends the established ATOMIC2020 graph, converting PTLMs into knowledge models (KMs) that encode and infer commonsense knowledge related to IE use. Experiments show that various PTLMs can be converted into KMs with IEKG. We verify the quality of IEKG and the ability of the trained KMs with automatic and human evaluation. Through applications in natural language understanding, we show that a PTLM injected with knowledge from IEKG exhibits improved IE comprehension ability and can generalize to IEs unseen during training.
翻訳日:2023-12-12 17:16:15 公開日:2023-12-11
# maskconver: パンオプティカルセグメンテーションのための純粋畳み込みモデルの再検討

MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation ( http://arxiv.org/abs/2312.06052v1 )

ライセンス: Link先を確認
Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li(参考訳) 近年、トランスフォーマーベースのモデルは、強力なモデリング能力とセマンティッククラスとインスタンスクラスの両方をグローバルバイナリマスクとして統一表現することで、パンオプティカルセグメンテーションを支配している。 本稿では,純粋畳み込みモデルを再検討し,新しいpanoptic architectureであるmaskconverを提案する。 MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。 その範囲では、複数のセンターが同じ場所に共存しているときに結合を壊す軽量なクラス埋め込みモジュールを作成します。 さらに本研究では,デコーダの設計が,モデルが正確な検出とセグメンテーションに十分なコンテキストを持つことを保証する上で重要であることを示す。 本稿では,畳み込みモデルと変換モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。 ResNet50のバックボーンでは、我々のMaskConverはCOCOのパノプティクスvalセット上で53.6%のPQを達成し、モダンな畳み込みベースのモデルであるPanoptic FCNを9.3%上回り、Mask2Former (+1.7% PQ)やkMaX-DeepLab (+0.6% PQ)のようなトランスフォーマーベースのモデルも上回っている。 さらに、MobileNetのバックボーンを持つMaskConverは37.2%のPQに達し、同じFLOP/レイテンシ制約の下でPanoptic-DeepLabを+6.4%改善した。 MaskConverのさらなる最適化版は、モバイルデバイスでリアルタイムに実行しながら29.7%のPQを達成した。 コードとモデルの重み付けが公開される予定だ

In recent years, transformer-based models have dominated panoptic segmentation, thanks to their strong modeling capabilities and their unified representation for both semantic and instance classes as global binary masks. In this paper, we revisit pure convolution model and propose a novel panoptic architecture named MaskConver. MaskConver proposes to fully unify things and stuff representation by predicting their centers. To that extent, it creates a lightweight class embedding module that can break the ties when multiple centers co-exist in the same location. Furthermore, our study shows that the decoder design is critical in ensuring that the model has sufficient context for accurate detection and segmentation. We introduce a powerful ConvNeXt-UNet decoder that closes the performance gap between convolution- and transformerbased models. With ResNet50 backbone, our MaskConver achieves 53.6% PQ on the COCO panoptic val set, outperforming the modern convolution-based model, Panoptic FCN, by 9.3% as well as transformer-based models such as Mask2Former (+1.7% PQ) and kMaX-DeepLab (+0.6% PQ). Additionally, MaskConver with a MobileNet backbone reaches 37.2% PQ, improving over Panoptic-DeepLab by +6.4% under the same FLOPs/latency constraints. A further optimized version of MaskConver achieves 29.7% PQ, while running in real-time on mobile devices. The code and model weights will be publicly available
翻訳日:2023-12-12 17:16:01 公開日:2023-12-11
# フェデレーション多線形主成分分析と予後学への応用

Federated Multilinear Principal Component Analysis with Applications in Prognostics ( http://arxiv.org/abs/2312.06050v1 )

ライセンス: Link先を確認
Chengyu Zhou, Yuqi Su, Tangbin Xia and Xiaolei Fang(参考訳) マルチ線形主成分分析(MPCA)はテンソルデータの次元削減に広く用いられている手法である。 しかし、既存の研究では、MPCAのフェデレーションラーニングへの統合は未解明のままである。 そこで本稿では,複数のユーザが,各ユーザのデータを局所的かつ機密的に保持しつつ,テンソルデータの次元を協調的に削減できるフェデレーションマルチリニア主成分分析(fmpca)手法を提案する。 提案手法は従来のMPCAと同等の性能が保証されている。 また, 工業用診断学におけるFMPCAの応用を実証した。 提案手法の性能を検証するためにシミュレーションデータと実世界のデータセットを用いる。

Multilinear Principal Component Analysis (MPCA) is a widely utilized method for the dimension reduction of tensor data. However, the integration of MPCA into federated learning remains unexplored in existing research. To tackle this gap, this article proposes a Federated Multilinear Principal Component Analysis (FMPCA) method, which enables multiple users to collaboratively reduce the dimension of their tensor data while keeping each user's data local and confidential. The proposed FMPCA method is guaranteed to have the same performance as traditional MPCA. An application of the proposed FMPCA in industrial prognostics is also demonstrated. Simulated data and a real-world data set are used to validate the performance of the proposed method.
翻訳日:2023-12-12 17:15:29 公開日:2023-12-11
# sspnet: 一般化および解釈可能な歩行者属性認識のためのスケールおよび空間優先

SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable Pedestrian Attribute Recognition ( http://arxiv.org/abs/2312.06049v1 )

ライセンス: Link先を確認
Jifeng Shen, Teng Guo, Xin Zuo, Heng Fan, and Wankou Yang(参考訳) グローバル機能に基づくPedestrian Attribute Recognition (PAR)モデルは、属性応答解析にGrad-CAMを使用する場合、多くの場合、ローカライズが不十分である。 これまでの研究は、細心の注意深いモデル設計による一般化と解釈の改善を試みてきたが、しばしばparにとって重要な効果的な事前情報を無視または過小に使用していた。 この目的のために、適応的特徴尺度選択(AFSS)と事前位置抽出(PLE)モジュールからなるPARに対して、新しいスケール・空間優先ネットワーク(SSPNet)を提案する。 AFSSモジュールは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルがさまざまなセマンティックな粒度を持つ異なるレベルの機能マップに集中できるようにする。 PLEモジュールは、非関連領域への不要な注意を回避し、モデルオーバーフィットのリスクを低減する、潜在的な属性空間的事前情報を明らかにする。 より具体的には、AFSSの先行するスケールは、最大精度で様々な特徴ピラミッドの層から適応的に学習され、PLEの空間的事前は、異なる粒度(画像ブロック、人間のポーズキーポイント、スパースサンプリングポイントなど)から明らかにすることができる。 また, 属性応答マスクの改良したGrad-CAMに基づくWPALに対して, 新たなIoU属性の局所化指標を提案する。 その結果,提案手法の有効性を平均精度 (ma) を用いて実証した。 さらに、IoUの属性ローカライゼーションのためのPCSデータセットでも優れた性能を実現している。 コードはhttps://github.com/guotengg/sspnetでリリースされる。

Global feature based Pedestrian Attribute Recognition (PAR) models are often poorly localized when using Grad-CAM for attribute response analysis, which has a significant impact on the interpretability, generalizability and performance. Previous researches have attempted to improve generalization and interpretation through meticulous model design, yet they often have neglected or underutilized effective prior information crucial for PAR. To this end, a novel Scale and Spatial Priors Guided Network (SSPNet) is proposed for PAR, which is mainly composed of the Adaptive Feature Scale Selection (AFSS) and Prior Location Extraction (PLE) modules. The AFSS module learns to provide reasonable scale prior information for different attribute groups, allowing the model to focus on different levels of feature maps with varying semantic granularity. The PLE module reveals potential attribute spatial prior information, which avoids unnecessary attention on irrelevant areas and lowers the risk of model over-fitting. More specifically, the scale prior in AFSS is adaptively learned from different layers of feature pyramid with maximum accuracy, while the spatial priors in PLE can be revealed from part feature with different granularity (such as image blocks, human pose keypoint and sparse sampling points). Besides, a novel IoU based attribute localization metric is proposed for Weakly-supervised Pedestrian Attribute Localization (WPAL) based on the improved Grad-CAM for attribute response mask. The experimental results on the intra-dataset and cross-dataset evaluations demonstrate the effectiveness of our proposed method in terms of mean accuracy (mA). Furthermore, it also achieves superior performance on the PCS dataset for attribute localization in terms of IoU. Code will be released at https://github.com/guotengg/SSPNet.
翻訳日:2023-12-12 17:15:14 公開日:2023-12-11
# ビジョンランゲージ事前学習のための変換と平滑化

Converting and Smoothing False Negatives for Vision-Language Pre-training ( http://arxiv.org/abs/2312.06112v1 )

ライセンス: Link先を確認
Jaeseok Byun, Dohoon Kim, and Taesup Moon(参考訳) 本稿では、大規模ウェブクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の問題について考察する。 偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、さらには失敗を学ぶことにつながる。 そこで本研究では,偽陰性問題を管理するcosmo (converting and smooothing false negatives) という手法を提案する。 GRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの重要な要素から構成される。 1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス 2) 画像テキストコントラスト損失(ITC)のラベルスムース化。 総合的な実験により,複数の下流タスクにおけるcosmosの有効性が検証され,vlpにおける偽陰性に対処する重要な役割が強調された。 さらに,最近のblip-familyモデルとのcosmoの互換性も実証された。

We consider the critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of false negatives can impede achieving optimal performance and even lead to learning failures. To address this challenge, we propose a method called COSMO (COnverting and SMOoothing false negatives) that manages the false negative issues, especially powerful in hard negative sampling. Building upon the recently developed GRouped mIni-baTch sampling (GRIT) strategy, our approach consists of two pivotal components: 1) an efficient connection mining process that identifies and converts false negatives into positives, and 2) label smoothing for the image-text contrastive loss (ITC). Our comprehensive experiments verify the effectiveness of COSMO across multiple downstream tasks, emphasizing the crucial role of addressing false negatives in VLP, potentially even surpassing the importance of addressing false positives. In addition, the compatibility of COSMO with the recent BLIP-family model is also demonstrated.
翻訳日:2023-12-12 17:07:12 公開日:2023-12-11
# Vary: 大きな視覚言語モデルのための視覚語彙のスケールアップ

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ( http://arxiv.org/abs/2312.06109v1 )

ライセンス: Link先を確認
Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang(参考訳) 現代のLVLM(Large Vision-Language Models)は、最も一般的なビジョンタスクをカバーするCLIPと同じビジョン語彙を享受している。 しかし、例えば文書レベルのOCRやチャート理解のような、密できめ細かな視覚認識を必要とする特別な視覚タスク、特に非英語のシナリオでは、CLIPスタイルの語彙は、視覚知識のトークン化や語彙外問題に悩まされる。 そこで我々は,LVLMの視覚語彙を効果的かつ効果的にスケールアップするVaryを提案する。 ヴァリーの手続きは自然に2つの折り目に分けられる:新しい視覚語彙の生成と統合である。 第1フェーズでは,大小デコーダのみの変換器とともに語彙ネットワークを設計し,自動回帰により所望の語彙を生成する。 次に、新しいものとオリジナルのもの(clip)を組み合わせることで、バニラビジョンの語彙をスケールアップし、lvlmが新しい機能を素早く獲得できるようにします。 BLIP-2、MiniGPT4、LLaVAと比較すると、Varyはよりきめ細かい認識と理解能力を維持しつつ、バニラ能力を維持できる。 特に、variはdocvqaでは78.2%、mmvetでは36.2%、新しい文書解析機能(ocrまたはマークダウン変換)に適している。 私たちのコードはホームページで公開されます。

Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary -- CLIP, which can cover most common vision tasks. However, for some special vision task that needs dense and fine-grained vision perception, e.g., document-level OCR or chart understanding, especially in non-English scenarios, the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose Vary, an efficient and effective method to scale up the vision vocabulary of LVLMs. The procedures of Vary are naturally divided into two folds: the generation and integration of a new vision vocabulary. In the first phase, we devise a vocabulary network along with a tiny decoder-only transformer to produce the desired vocabulary via autoregression. In the next, we scale up the vanilla vision vocabulary by merging the new one with the original one (CLIP), enabling the LVLMs can quickly garner new features. Compared to the popular BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while enjoying more excellent fine-grained perception and understanding ability. Specifically, Vary is competent in new document parsing features (OCR or markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet. Our code will be publicly available on the homepage.
翻訳日:2023-12-12 17:06:52 公開日:2023-12-11
# AUGCAL:拡張合成画像の不確かさ校正によるSim2Rreal適応の改善

AUGCAL: Improving Sim2Rreal Adaptation by Uncertainty Calibration on Augmented Synthetic Images ( http://arxiv.org/abs/2312.06106v1 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Bharat Goyal, Boglarka Ecsedi, Viraj Prabhu, Judy Hoffman(参考訳) シミュレータから抽出した合成データ(SIM)は、注釈付き現実画像の取得が困難なトレーニングモデルの代替として人気がある。 しかし, 合成画像で学習したモデルを実世界のアプリケーションへ移行することは, 外観の相違により困難である。 このsim2realギャップに対処する一般的なソリューションは、ラベル付きsimデータとラベルなしの実データを使ってモデルをトレーニングする教師なしドメイン適応である。 このようなSIM2REAL適応モデルによる誤予測は、しばしば誤判定と関連付けられ、これは実際のデータの過信予測から生じる。 本稿では,sim2の適応モデルを改善するための,教師なし適応のための簡易なトレーニングタイムパッチであるaugcalについて紹介する。(1)ミスカバリの削減,(2)不正確な予測における過信の低減,(3)誤分類検出の改善による信頼度スコアの信頼性の向上。 ベースSIM2REAL適応アルゴリズムが与えられた場合、トレーニング時に、AUGCALはバニラSIMイメージを強力な拡張ビュー(AUG介入)に置き換え、さらに拡張SIM予測(CAL介入)のトレーニング時間校正損失を最適化する。 我々は,未ラベルREALデータの誤校正方法の簡単な解析的正当性を用いて,AUGCALを動機付けている。 実験により、複数の適応方法、バックボーン、タスク、シフトにまたがるAUGCALの有効性を実証的に示す。

Synthetic data (SIM) drawn from simulators have emerged as a popular alternative for training models where acquiring annotated real-world images is difficult. However, transferring models trained on synthetic images to real-world applications can be challenging due to appearance disparities. A commonly employed solution to counter this SIM2REAL gap is unsupervised domain adaptation, where models are trained using labeled SIM data and unlabeled REAL data. Mispredictions made by such SIM2REAL adapted models are often associated with miscalibration - stemming from overconfident predictions on real data. In this paper, we introduce AUGCAL, a simple training-time patch for unsupervised adaptation that improves SIM2REAL adapted models by - (1) reducing overall miscalibration, (2) reducing overconfidence in incorrect predictions and (3) improving confidence score reliability by better guiding misclassification detection - all while retaining or improving SIM2REAL performance. Given a base SIM2REAL adaptation algorithm, at training time, AUGCAL involves replacing vanilla SIM images with strongly augmented views (AUG intervention) and additionally optimizing for a training time calibration loss on augmented SIM predictions (CAL intervention). We motivate AUGCAL using a brief analytical justification of how to reduce miscalibration on unlabeled REAL data. Through our experiments, we empirically show the efficacy of AUGCAL across multiple adaptation methods, backbones, tasks and shifts.
翻訳日:2023-12-12 17:06:26 公開日:2023-12-11
# 量子アルゴリズムを用いたランダムハイパーグラフMAX-3-XORSAT問題の近似性について

On the approximability of random-hypergraph MAX-3-XORSAT problems with quantum algorithms ( http://arxiv.org/abs/2312.06104v1 )

ライセンス: Link先を確認
Eliot Kapit, Brandon A. Barton, Sean Feeney, George Grattan, Pratik Patnaik, Jacob Sagal, Lincoln D. Carr, and Vadim Oganesyan(参考訳) 制約満足度問題はコンピュータ科学の重要な分野である。 これらの問題の多くは、最悪の場合と典型的には、すべての既知の方法において指数関数的に難しい複雑性クラスNPにある。 基本的には、誘導された局所的最小脱出法の欠如は、厳密な最適化と近似的最適化の両方のハードネスを古典的に保証するが、ハミルトニアン時間発展に基づく量子アルゴリズムの近似ハードネスの直感的なメカニズムはあまり理解されていない。 我々は,max-3-xorsat問題クラスを用いてこの問題を考察する。 量子完全性と近似硬さのメカニズムは基本的に異なると結論づける。 量子断熱最適化のような従来の手法が良い近似アルゴリズムでない理由を定性的に同定する。 これらの問題に支障を来さない新しいスペクトル折り畳み最適化法を提案し,解析的および数値的に検討する。 基底状態が真のランダム問題と比較して異常な割合の制約を満たすような,極端に植栽された解インスタンスを含むランダムランク3ハイパーグラフを考える。 エネルギーを$E = N_{unsat}-N_{sat}$と定義すると、スペクトル的に折り畳まれた量子最適化はエネルギー$E \leq A E_{GS}$(ここでは$E_{GS}$は基底状態エネルギー)を多項式時間で返し、保守的に$A \simeq 0.6$となる。 シミュレーションにおけるランダム近似ハード(プラントド・ソリューション)インスタンスに対するスペクトル折り畳み量子最適化のパラメータ変動を徹底的にベンチマークし、この予測と一致した性能を求める。 我々は、この近似保証がすべての可能なハイパーグラフに対して成り立つとは主張しないが、アルゴリズムのメカニズムは広く一般化することができる。 これらの結果は、量子コンピュータが以前想定されていたよりも近似最適化に強力であることを示唆している。

Constraint satisfaction problems are an important area of computer science. Many of these problems are in the complexity class NP which is exponentially hard for all known methods, both for worst cases and often typical. Fundamentally, the lack of any guided local minimum escape method ensures the hardness of both exact and approximate optimization classically, but the intuitive mechanism for approximation hardness in quantum algorithms based on Hamiltonian time evolution is poorly understood. We explore this question using the prototypically hard MAX-3-XORSAT problem class. We conclude that the mechanisms for quantum exact and approximation hardness are fundamentally distinct. We qualitatively identify why traditional methods such as quantum adiabatic optimization are not good approximation algorithms. We propose a new spectral folding optimization method that does not suffer from these issues and study it analytically and numerically. We consider random rank-3 hypergraphs including extremal planted solution instances, where the ground state satisfies an anomalously high fraction of constraints compared to truly random problems. We show that, if we define the energy to be $E = N_{unsat}-N_{sat}$, then spectrally folded quantum optimization will return states with energy $E \leq A E_{GS}$ (where $E_{GS}$ is the ground state energy) in polynomial time, where conservatively, $A \simeq 0.6$. We thoroughly benchmark variations of spectrally folded quantum optimization for random classically approximation-hard (planted solution) instances in simulation, and find performance consistent with this prediction. We do not claim that this approximation guarantee holds for all possible hypergraphs, though our algorithm's mechanism can likely generalize widely. These results suggest that quantum computers are more powerful for approximate optimization than had been previously assumed.
翻訳日:2023-12-12 17:06:00 公開日:2023-12-11
# 効率的な単一画像超解像のための数百キロバイトルックアップテーブル

Hundred-Kilobyte Lookup Tables for Efficient Single-Image Super-Resolution ( http://arxiv.org/abs/2312.06101v1 )

ライセンス: Link先を確認
Binxiao Huang, Jason Chun Lok Li, Jie Ran, Boyu Li, Jiajun Zhou, Dahai Yu, Ngai Wong(参考訳) 従来のスーパーレゾリューション(sr)方式は畳み込みニューラルネットワーク(cnns)を多用しており、これは集中的マルチプライアキューム(mac)操作を伴い、グラフィック処理ユニットのような特殊なハードウェアを必要とする。 これは、電力、コンピューティング、ストレージリソースによって歪んだデバイス上で実行されるエッジAIの体制と矛盾する。 このような課題は、単純なLUT読み出しとCNN計算を多用した一連のルックアップテーブル(LUT)ベースのSRスキームを動機付けている。 それでも、既存のメソッドのマルチメガバイトのUTTは、オンチップストレージを禁止し、オフチップメモリ転送を必要としている。 この作業は、このストレージハードルに対処し、オンチップキャッシュに対応可能な100kbit LUT(HKLUT)モデルを革新する。 HKLUTは、非対称な2分岐マルチステージネットワークと特別なカーネルパターンの組み合わせを利用して、既存のLUT方式よりも非競合性能とハードウェア効率が優れていることを示した。

Conventional super-resolution (SR) schemes make heavy use of convolutional neural networks (CNNs), which involve intensive multiply-accumulate (MAC) operations, and require specialized hardware such as graphics processing units. This contradicts the regime of edge AI that often runs on devices strained by power, computing, and storage resources. Such a challenge has motivated a series of lookup table (LUT)-based SR schemes that employ simple LUT readout and largely elude CNN computation. Nonetheless, the multi-megabyte LUTs in existing methods still prohibit on-chip storage and necessitate off-chip memory transport. This work tackles this storage hurdle and innovates hundred-kilobyte LUT (HKLUT) models amenable to on-chip cache. Utilizing an asymmetric two-branch multistage network coupled with a suite of specialized kernel patterns, HKLUT demonstrates an uncompromising performance and superior hardware efficiency over existing LUT schemes.
翻訳日:2023-12-12 17:05:24 公開日:2023-12-11
# 汎用のテキスト分析エンジンである生成型大規模言語モデル:テキストからテキストへの学習がすべて必要

Generative Large Language Models Are All-purpose Text Analytics Engines: Text-to-text Learning Is All Your Need ( http://arxiv.org/abs/2312.06099v1 )

ライセンス: Link先を確認
Cheng Peng, Xi Yang, Aokun Chen, Zehao Yu, Kaleb E Smith, Anthony B Costa, Mona G Flores, Jiang Bian, Yonghui Wu(参考訳) 目的 生成型大規模言語モデル(LLM)に基づく統一的なテキスト・テキスト・ラーニングアーキテクチャを用いて,プロンプト・チューニングによる臨床自然言語処理(NLP)タスクを解決すること。 テキストからテキストへの学習として7つの主要な臨床nlpタスクを定式化し,gpt-3アーキテクチャを用いて開発し,最大200億のパラメータでトレーニングした1つの統合生成型臨床llmであるgatortrongptを用いて解いた。 我々は,llmパラメータが更新されず(すなわち,凍結),ソフトプロンプトのベクトルのみが更新され,プロンプトチューニングとして知られる凍結llmを用いたソフトプロンプト(すなわちトレーニング可能なベクトル)を採用した。 入力層にプレフィックスとしてソフトプロンプトを追加し,プロンプトチューニング時に最適化した。 提案手法を7つのNLPタスクを用いて評価し,トランスフォーマーモデルに基づく従来のタスク固有解と比較した。 結果と結論 提案手法は,7つの主要なNLPタスクのうち5つに対して,1つの統合生成LDMを用いて最先端の性能を達成した。 提案手法は,従来のタスク固有トランスフォーマーモデルと比較して,概念抽出率3%,関連抽出率7%,臨床概念正規化率3.4%,臨床略語非曖昧化率3.4~10%,自然言語推論率5.5~9%を上回った。 また,本手法は,臨床概念と関係抽出のためのプロンプトベース機械読解モデルであるgatortron-mrcよりも優れていた。 提案したアプローチは、トレーニングからデプロイメントまでの、統一されたジェネレーティブ LLM を使用した ``one model for all`Promise を提供する。

Objective To solve major clinical natural language processing (NLP) tasks using a unified text-to-text learning architecture based on a generative large language model (LLM) via prompt tuning. Methods We formulated 7 key clinical NLP tasks as text-to-text learning and solved them using one unified generative clinical LLM, GatorTronGPT, developed using GPT-3 architecture and trained with up to 20 billion parameters. We adopted soft prompts (i.e., trainable vectors) with frozen LLM, where the LLM parameters were not updated (i.e., frozen) and only the vectors of soft prompts were updated, known as prompt tuning. We added additional soft prompts as a prefix to the input layer, which were optimized during the prompt tuning. We evaluated the proposed method using 7 clinical NLP tasks and compared them with previous task-specific solutions based on Transformer models. Results and Conclusion The proposed approach achieved state-of-the-art performance for 5 out of 7 major clinical NLP tasks using one unified generative LLM. Our approach outperformed previous task-specific transformer models by ~3% for concept extraction and 7% for relation extraction applied to social determinants of health, 3.4% for clinical concept normalization, 3.4~10% for clinical abbreviation disambiguation, and 5.5~9% for natural language inference. Our approach also outperformed a previously developed prompt-based machine reading comprehension (MRC) model, GatorTron-MRC, for clinical concept and relation extraction. The proposed approach can deliver the ``one model for all`` promise from training to deployment using a unified generative LLM.
翻訳日:2023-12-12 17:05:04 公開日:2023-12-11
# matk: meme分析ツールキット

MATK: The Meme Analytical Tool Kit ( http://arxiv.org/abs/2312.06094v1 )

ライセンス: Link先を確認
Ming Shan Hee, Aditi Kumaresan, Nguyen Khoi Hoang, Nirmalendu Prakash, Rui Cao, Roy Ka-Wei Lee(参考訳) ソーシャルメディアプラットフォームの台頭は、memesと呼ばれる新しいデジタル文化をもたらした。 視覚とテキストを組み合わせたミームは、社会的・文化的問題に対する世論に強く影響を与える。 その結果、人々はミームの分類に興味を持ち、この分野で有望な結果を示す様々なデータセットとマルチモーダルモデルの開発につながった。 しかし、現在、公正なベンチマークと設定を使用してこれらのモデルの再現、評価、比較を可能にする単一のライブラリが欠落している。 このギャップを埋めるために,既存のミームデータセットと最先端マルチモーダルモデルをサポートするために設計されたオープンソースツールキットであるMeme Analytical Tool Kit (MATK)を紹介した。 MATKは、ミーム分類タスクのためのこれらのマルチモーダルモデルのトレーニングと再現を支援するとともに、その強度と弱点に関する洞察を得るために分析技術を提供する。 MATKにアクセスするには、 \url{https://github.com/Social-AI-Studio/MATK} をご覧ください。

The rise of social media platforms has brought about a new digital culture called memes. Memes, which combine visuals and text, can strongly influence public opinions on social and cultural issues. As a result, people have become interested in categorizing memes, leading to the development of various datasets and multimodal models that show promising results in this field. However, there is currently a lack of a single library that allows for the reproduction, evaluation, and comparison of these models using fair benchmarks and settings. To fill this gap, we introduce the Meme Analytical Tool Kit (MATK), an open-source toolkit specifically designed to support existing memes datasets and cutting-edge multimodal models. MATK aims to assist researchers and engineers in training and reproducing these multimodal models for meme classification tasks, while also providing analysis techniques to gain insights into their strengths and weaknesses. To access MATK, please visit \url{https://github.com/Social-AI-Studio/MATK}.
翻訳日:2023-12-12 17:04:33 公開日:2023-12-11
# PromptMTopic:大規模言語モデルを用いたミームの教師なしマルチモーダルトピックモデリング

PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using Large Language Models ( http://arxiv.org/abs/2312.06093v1 )

ライセンス: Link先を確認
Nirmalendu Prakash, Han Wang, Nguyen Khoi Hoang, Ming Shan Hee, Roy Ka-Wei Lee(参考訳) ソーシャルメディアの普及により、コミュニケーションの新たな形態であるミームが生まれた。 ミームは多様であり、しばしば意味、ユーモア、文化的重要性を伝えるテキストと視覚要素の組み合わせを含んでいる。 ミーム分析は研究の活発な領域であるが, コンテンツモデレーション, ソーシャルメディア分析, 文化研究において重要である, テーマの教師なしマルチモーダル・トピック・モデリングについてはほとんど研究されていない。 大規模言語モデルの言語モデル機能を活用して,テキストと視覚の両方からトピックを学習するように設計された,新しいマルチモーダルプロンプトベースモデルである \textsf{promptmtopic} を提案する。 本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。 本研究では,実世界の3つのミームデータセットについて広範な実験を行い,memeにおける記述的トピックの学習において,最先端のトピックモデリングベースラインよりも優れていることを示す。 さらに,<textsf{PromptMTopic} はミームから有意義で文化的に関連のあるトピックを識別できることを示す。 我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。 \\\ \red{\textbf{disclaimer: この論文は、一部の読者に邪魔になる可能性のある機密コンテンツを含んでいる。 }}

The proliferation of social media has given rise to a new form of communication: memes. Memes are multimodal and often contain a combination of text and visual elements that convey meaning, humor, and cultural significance. While meme analysis has been an active area of research, little work has been done on unsupervised multimodal topic modeling of memes, which is important for content moderation, social media analysis, and cultural studies. We propose \textsf{PromptMTopic}, a novel multimodal prompt-based model designed to learn topics from both text and visual modalities by leveraging the language modeling capabilities of large language models. Our model effectively extracts and clusters topics learned from memes, considering the semantic interaction between the text and visual modalities. We evaluate our proposed model through extensive experiments on three real-world meme datasets, which demonstrate its superiority over state-of-the-art topic modeling baselines in learning descriptive topics in memes. Additionally, our qualitative analysis shows that \textsf{PromptMTopic} can identify meaningful and culturally relevant topics from memes. Our work contributes to the understanding of the topics and themes of memes, a crucial form of communication in today's society.\\ \red{\textbf{Disclaimer: This paper contains sensitive content that may be disturbing to some readers.}}
翻訳日:2023-12-12 17:04:17 公開日:2023-12-11
# 不均一データを用いた構造因果モデルにおける未知の介入目標の学習

Learning Unknown Intervention Targets in Structural Causal Models from Heterogeneous Data ( http://arxiv.org/abs/2312.06091v1 )

ライセンス: Link先を確認
Yuqin Yang, Saber Salehkaleybar, Negar Kiyavash(参考訳) 複数の環境から収集した異種データにアクセス可能な構造因果モデルにおける未知の介入対象を特定する問題について検討する。 未知の介入ターゲットは、環境全体で対応する外因性ノイズが変化する内因性変数の集合である。 本稿では,環境に分散が変化した未知の介入対象に対応する外因性雑音を,第1フェーズで回復する2相アプローチを提案する。 第2段階では、回復した雑音は対応する内因性変数と一致する。 回復段階において、これらの外因性雑音をコンポーネントワイドの可逆変換まで学習するための十分な条件を提供する。 マッチングフェーズでは,因果的十分性仮定の下で,提案手法が介入目標を一意に同定することを示す。 潜在共同設立者の存在下では、観測変数間の介入対象は一意に決定できない。 我々は、真の介入目標の上位セットである候補介入目標セットを提供する。 我々のアプローチは、返された候補セットが常に前の作業で返された目標セットのサブセットであるため、芸術の状態を改善します。 さらに, 因果モデルの線形性や不変性テストの実行といった制約的な仮定を必要とせず, 分布が非効率な環境をまたいで変化しているかどうかを知る。 実験の結果,提案手法の有効性が示された。

We study the problem of identifying the unknown intervention targets in structural causal models where we have access to heterogeneous data collected from multiple environments. The unknown intervention targets are the set of endogenous variables whose corresponding exogenous noises change across the environments. We propose a two-phase approach which in the first phase recovers the exogenous noises corresponding to unknown intervention targets whose distributions have changed across environments. In the second phase, the recovered noises are matched with the corresponding endogenous variables. For the recovery phase, we provide sufficient conditions for learning these exogenous noises up to some component-wise invertible transformation. For the matching phase, under the causal sufficiency assumption, we show that the proposed method uniquely identifies the intervention targets. In the presence of latent confounders, the intervention targets among the observed variables cannot be determined uniquely. We provide a candidate intervention target set which is a superset of the true intervention targets. Our approach improves upon the state of the art as the returned candidate set is always a subset of the target set returned by previous work. Moreover, we do not require restrictive assumptions such as linearity of the causal model or performing invariance tests to learn whether a distribution is changing across environments which could be highly sample inefficient. Our experimental results show the effectiveness of our proposed algorithm in practice.
翻訳日:2023-12-12 17:03:54 公開日:2023-12-11
# tabmt:マスクトランスフォーマーによる表データ生成

TabMT: Generating tabular data with masked transformers ( http://arxiv.org/abs/2312.06089v1 )

ライセンス: Link先を確認
Manbir S Gulati, Paul F Roysdon(参考訳) 自己回帰トランスフォーマーやマスクトランスフォーマーは生成モデルや分類器として非常に効果的である。 これらのモデルはNLPでもっとも一般的であるが、視覚など他の領域でも高い性能を示す。 この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。 本稿では,合成表データを生成するための新しいMasked Transformer設計であるTabMTを提案する。 tabmtは、異種データフィールドによって生じるユニークな課題を効果的に解決し、欠落したデータをネイティブに処理できる。 我々の設計は、改良されたマスキング技術を活用して生成を可能にし、極小から極大の表状データセットの最先端のパフォーマンスを実証する。 プライバシを重視したアプリケーションに対してTabMTを評価し,優れたプライバシトレードオフで高品質なデータを生成することができることを確認した。

Autoregressive and Masked Transformers are incredibly effective as generative models and classifiers. While these models are most prevalent in NLP, they also exhibit strong performance in other domains, such as vision. This work contributes to the exploration of transformer-based models in synthetic data generation for diverse application domains. In this paper, we present TabMT, a novel Masked Transformer design for generating synthetic tabular data. TabMT effectively addresses the unique challenges posed by heterogeneous data fields and is natively able to handle missing data. Our design leverages improved masking techniques to allow for generation and demonstrates state-of-the-art performance from extremely small to extremely large tabular datasets. We evaluate TabMT for privacy-focused applications and find that it is able to generate high quality data with superior privacy tradeoffs.
翻訳日:2023-12-12 17:03:34 公開日:2023-12-11
# SECNN: 文分類のためのSqueeze-and-Excitation Convolutional Neural Network

SECNN: Squeeze-and-Excitation Convolutional Neural Network for Sentence Classification ( http://arxiv.org/abs/2312.06088v1 )

ライセンス: Link先を確認
Shandong Yuan(参考訳) 文分類は自然言語処理の基本課題の1つである。 畳み込みニューラルネットワーク(cnn)は畳み込みフィルタを通じてn-grams特徴を抽出する能力を持ち、連続する単語間の局所相関を並列に捉えることができるため、cnnはタスクを扱うための一般的なニューラルネットワークアーキテクチャである。 しかし畳み込みフィルタの幅によって制限されるため、cnnが長期的な文脈依存を捉えることは困難である。 注意はグローバルな情報を考慮し、文中のキーワードに注意を払うメカニズムであり、注意機構はCNNネットワークと協調して文分類タスクのパフォーマンスを向上させる。 我々の研究では、文中のキーワードではなく、どのCNNの出力機能マップがより重要であるかに焦点を当てています。 文分類のためのSqueeze-and-Excitation Convolutional Neural Network (SECNN)を提案する。 secnn は複数の cnn から特徴マップを異なる文表現のチャネルとして取り、その上で、各チャネルの特徴の注意重みをモデルが学習できるように、チャネルアテンション機構(se attention mechanism)を活用できる。 その結果,本モデルは文分類タスクにおいて高度な性能を達成できることがわかった。

Sentence classification is one of the basic tasks of natural language processing. Convolution neural network (CNN) has the ability to extract n-grams features through convolutional filters and capture local correlations between consecutive words in parallel, so CNN is a popular neural network architecture to dealing with the task. But restricted by the width of convolutional filters, it is difficult for CNN to capture long term contextual dependencies. Attention is a mechanism that considers global information and pays more attention to keywords in sentences, thus attention mechanism is cooperated with CNN network to improve performance in sentence classification task. In our work, we don't focus on keyword in a sentence, but on which CNN's output feature map is more important. We propose a Squeeze-and-Excitation Convolutional neural Network (SECNN) for sentence classification. SECNN takes the feature maps from multiple CNN as different channels of sentence representation, and then, we can utilize channel attention mechanism, that is SE attention mechanism, to enable the model to learn the attention weights of different channel features. The results show that our model achieves advanced performance in the sentence classification task.
翻訳日:2023-12-12 17:03:23 公開日:2023-12-11
# 複素値ニューラルネットワーク --理論と解析

Complex-valued Neural Networks -- Theory and Analysis ( http://arxiv.org/abs/2312.06087v1 )

ライセンス: Link先を確認
Rayyan Abdalla(参考訳) 複素数値ニューラルネットワーク(CVNN)は、最近波動型情報と周波数領域処理を含む様々な先駆的な分野で成功している。 この研究はCVNNの異なる構造と分類に対処する。 複素活性化関数の背後にある理論、複素微分可能性とcvnn出力層の特殊活性化との関連について述べる。 また、勾配と非勾配に基づくアルゴリズムを用いたcvnn学習と最適化についても論じている。 複素連鎖則を利用した複素バックプロパゲーションは、ヴィルティンガー計算でも説明できる。 さらに,複雑なバッチ正規化や複雑な乱初期化など,CVNNモデルを構築するための特別なモジュールについても論じる。 また、CVNNの実装のために提案されたライブラリやソフトウェアブロックを強調し、今後の方向性について議論する。 本研究の目的は,CVNNのダイナミクスと最近の発展を理解することである。

Complex-valued neural networks (CVNNs) have recently been successful in various pioneering areas which involve wave-typed information and frequency-domain processing. This work addresses different structures and classification of CVNNs. The theory behind complex activation functions, implications related to complex differentiability and special activations for CVNN output layers are presented. The work also discusses CVNN learning and optimization using gradient and non-gradient based algorithms. Complex Backpropagation utilizing complex chain rule is also explained in terms of Wirtinger calculus. Moreover, special modules for building CVNN models, such as complex batch normalization and complex random initialization are also discussed. The work also highlights libraries and software blocks proposed for CVNN implementations and discusses future directions. The objective of this work is to understand the dynamics and most recent developments of CVNNs.
翻訳日:2023-12-12 17:03:02 公開日:2023-12-11
# スパース画像からの3次元顔再構成のためのロバスト形状と反射歪

Robust Geometry and Reflectance Disentanglement for 3D Face Reconstruction from Sparse-view Images ( http://arxiv.org/abs/2312.06085v1 )

ライセンス: Link先を確認
Daisheng Jin, Jiangbei Hu, Baixin Xu, Yuxin Dai, Chen Qian, Ying He(参考訳) 本稿では,各人物の特異な形状と複雑な肌の反射率に挑戦する課題であるスパースビュー画像から人間の顔を再構成するための新しい2段階のアプローチを提案する。 本手法は, 周囲光からの形状, 拡散反射, スペクトル反射など, 顔の特徴を分解することに焦点を当てている。 最初は、多様な顔の集合から一般的な顔テンプレートを作成し、重要な幾何学的特徴と反射特性を捉える。 このテンプレートを導いた第2段階では, 各顔モデルの改良を行い, 形状と反射率の相互作用, 顔の皮膚への表面散乱効果を考察した。 提案手法により,3つの画像から高品質な顔画像の再構成が可能となり,精度と反射率の精度が向上した。 包括的評価と比較を通して,本手法は既存の手法よりも優れていることを示す。 提案手法は,幾何成分と反射率成分を効果的に切り離し,新しいビューを合成し,リフレクションやリフレクタンス編集などの応用の可能性を高める。 私たちはそのコードを公開します。

This paper presents a novel two-stage approach for reconstructing human faces from sparse-view images, a task made challenging by the unique geometry and complex skin reflectance of each individual. Our method focuses on decomposing key facial attributes, including geometry, diffuse reflectance, and specular reflectance, from ambient light. Initially, we create a general facial template from a diverse collection of individual faces, capturing essential geometric and reflectance characteristics. Guided by this template, we refine each specific face model in the second stage, which further considers the interaction between geometry and reflectance, as well as the subsurface scattering effects on facial skin. Our method enables the reconstruction of high-quality facial representations from as few as three images, offering improved geometric accuracy and reflectance detail. Through comprehensive evaluations and comparisons, our method demonstrates superiority over existing techniques. Our method effectively disentangles geometry and reflectance components, leading to enhanced quality in synthesizing new views and opening up possibilities for applications such as relighting and reflectance editing. We will make the code publicly available.
翻訳日:2023-12-12 17:02:49 公開日:2023-12-11
# XAI meets Biology: バイオインフォマティクス応用における説明可能なAIの概要

XAI meets Biology: A Comprehensive Review of Explainable AI in Bioinformatics Applications ( http://arxiv.org/abs/2312.06082v1 )

ライセンス: Link先を確認
Zhongliang Zhou, Mengxuan Hu, Mariah Salcedo, Nathan Gravel, Wayland Yeung, Aarya Venkat, Dongliang Guo, Jielu Zhang, Natarajan Kannan, Sheng Li(参考訳) 人工知能(AI)、特に機械学習とディープラーニングモデルは、複雑な生物学的データを分析する強力なツールを提供することで、バイオインフォマティクスの研究に大きな影響を与えている。 しかしながら、これらのモデルの解釈可能性や透明性の欠如は、これらのモデルをより深い生物学的洞察に活用し、検証可能な仮説を生成する上での課題を示している。 説明可能なAI(XAI)は、バイオインフォマティクスにおけるAIモデルの透明性と解釈可能性を高めるための有望なソリューションとして登場した。 本総説では、DNA、RNA、タンパク質配列解析、構造解析、遺伝子発現およびゲノム解析、バイオイメージング分析など、様々なバイオインフォマティクス分野における様々なXAI技術とその応用を包括的に分析する。 我々は、最も永続的な機械学習とXAI手法を導入し、それらの多様なアプリケーションについて議論し、利用可能なXAIツールの現在の制限に対処する。 バイオインフォマティクス研究における実践的実践の促進と,研究者がXAIツールのランドスケープをナビゲートすることを目的とした,XAIの可能性と課題に関する洞察を提供する。

Artificial intelligence (AI), particularly machine learning and deep learning models, has significantly impacted bioinformatics research by offering powerful tools for analyzing complex biological data. However, the lack of interpretability and transparency of these models presents challenges in leveraging these models for deeper biological insights and for generating testable hypotheses. Explainable AI (XAI) has emerged as a promising solution to enhance the transparency and interpretability of AI models in bioinformatics. This review provides a comprehensive analysis of various XAI techniques and their applications across various bioinformatics domains including DNA, RNA, and protein sequence analysis, structural analysis, gene expression and genome analysis, and bioimaging analysis. We introduce the most pertinent machine learning and XAI methods, then discuss their diverse applications and address the current limitations of available XAI tools. By offering insights into XAI's potential and challenges, this review aims to facilitate its practical implementation in bioinformatics research and help researchers navigate the landscape of XAI tools.
翻訳日:2023-12-12 17:02:30 公開日:2023-12-11
# 深層学習における未知物認識のための曖昧性尺度

An Ambiguity Measure for Recognizing the Unknowns in Deep Learning ( http://arxiv.org/abs/2312.06077v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 深層ニューラルネットワークの学習範囲から, 深部ニューラルネットワークの理解について検討する。 これらのモデルの精度は通常、集合レベルで印象的であるが、それでも間違いを犯すことがある。 さらに、これらのモデルは、敵の脆弱性やアウト・オブ・ディストリビューションの失敗といった障害につながる原因を知らないことには信頼性がない。 本稿では,任意のモデルに対する入力のあいまいさを,そのトレーニング範囲で定量化するための尺度を提案する。 学習したモデルによって学習された特徴空間における決定境界とトレーニング集合の凸包の幾何学的配置に基づいて曖昧性を定義し、一方の曖昧性測度が分布内サンプル、逆入力、および分布外入力のモデルの誤りのかなりの部分を検出することができることを示す。 あいまいさ尺度を用いることで、モデルがあいまいな入力に遭遇したときの分類を回避でき、与えられたテストセットだけでなく、その入力で世界中に遭遇する可能性があるモデル精度が向上します。 この尺度を追求するために,モデルの未知点をその範囲で識別できる理論的枠組みを開発する。 我々は、モデルに自信を持ってこれを視点に置き、モデルに未知の領域を特定するための定式化を開発するが、モデルには高い信頼性が保証される。

We study the understanding of deep neural networks from the scope in which they are trained on. While the accuracy of these models is usually impressive on the aggregate level, they still make mistakes, sometimes on cases that appear to be trivial. Moreover, these models are not reliable in realizing what they do not know leading to failures such as adversarial vulnerability and out-of-distribution failures. Here, we propose a measure for quantifying the ambiguity of inputs for any given model with regard to the scope of its training. We define the ambiguity based on the geometric arrangements of the decision boundaries and the convex hull of training set in the feature space learned by the trained model, and demonstrate that a single ambiguity measure may detect a considerable portion of mistakes of a model on in-distribution samples, adversarial inputs, as well as out-of-distribution inputs. Using our ambiguity measure, a model may abstain from classification when it encounters ambiguous inputs leading to a better model accuracy not just on a given testing set, but on the inputs it may encounter at the world at large. In pursuit of this measure, we develop a theoretical framework that can identify the unknowns of the model in relation to its scope. We put this in perspective with the confidence of the model and develop formulations to identify the regions of the domain which are unknown to the model, yet the model is guaranteed to have high confidence.
翻訳日:2023-12-12 17:02:07 公開日:2023-12-11
# 「ここで何が重要か?」 : Web インタフェースからの情報検索における LLM の利用の可能性と課題

"What's important here?": Opportunities and Challenges of Using LLMs in Retrieving Information from Web Interfaces ( http://arxiv.org/abs/2312.06147v1 )

ライセンス: Link先を確認
Faria Huq, Jeffrey P. Bigham, Nikolas Martelaro(参考訳) 大量のコードを含むコーパスでトレーニングされた大規模言語モデル(llm)は、htmlコードを理解する素晴らしい能力を示しています。 Webインターフェースは、主にHTMLを使って構築されているため、ユーザが指定したクエリ(タスク記述)の重要要素の検索と発見にLLMをどのように使用できるか、詳細な研究を設計する。 主に自律的なWebナビゲーションに焦点を当てた以前の作業とは対照的に、この問題をアトミックな操作として分解する — LLMは、ユーザが指定したクエリに対して、Webページ内の重要な情報を識別できるのだろうか? この分解により、LLMの現在の能力を精査し、それらがもたらす機会と課題を明らかにすることができる。 私たちの実験では、重要なui要素の検索においてllmは妥当なパフォーマンスを示していますが、改善の余地はまだあります。 この領域の現在の課題を克服するために、我々の調査がフォローアップ作業を促すことを期待しています。

Large language models (LLMs) that have been trained on a corpus that includes large amount of code exhibit a remarkable ability to understand HTML code. As web interfaces are primarily constructed using HTML, we design an in-depth study to see how LLMs can be used to retrieve and locate important elements for a user given query (i.e. task description) in a web interface. In contrast with prior works, which primarily focused on autonomous web navigation, we decompose the problem as an even atomic operation - Can LLMs identify the important information in the web page for a user given query? This decomposition enables us to scrutinize the current capabilities of LLMs and uncover the opportunities and challenges they present. Our empirical experiments show that while LLMs exhibit a reasonable level of performance in retrieving important UI elements, there is still a substantial room for improvement. We hope our investigation will inspire follow-up works in overcoming the current challenges in this domain.
翻訳日:2023-12-12 16:55:40 公開日:2023-12-11
# 属性とコンテキストアウェアレコメンデーションのためのプロキシベースのアイテム表現

Proxy-based Item Representation for Attribute and Context-aware Recommendation ( http://arxiv.org/abs/2312.06145v1 )

ライセンス: Link先を確認
Jinseok Seol, Minseok Gang, Sang-goo Lee, Jaehui Park(参考訳) 推薦システムのニューラルネットワークアプローチは、大量の項目を学習可能なベクトル埋め込みテーブルとして表現することで、顕著な成功を収めている。 しかし、不十分な項目はトレーニングの機会が不足し、意味のある表現を学ぶことが困難になる。 属性や文脈に応じた設定では、あまり学習されていない項目の埋め込みが推奨精度を損なう。 このような問題に対処するために、各項目を学習可能なプロキシ埋め込みの重み付け和として表現できるプロキシベースのアイテム表現を提案する。 ここでは、プロキシウェイトは各項目の属性と文脈によって決定され、頻繁な項目の場合にバイアス項を組み込んで、さらに協調的な信号を反映することができる。 プロキシベースの手法は、アイテム表現を構成的に計算し、各表現が十分に訓練された単純表現の中にいることを保証し、保証された品質を取得する。 さらに、プロキシ埋め込みがすべてのアイテムで共有されているため、頻繁なアイテムのトレーニング信号を、統一されたモデル構造とエンドツーエンドの方法で借りることができる。 提案手法は,ニューラルネットワークに基づくレコメンデーションモデルの項目エンコーディング層を置き換えることができるとともに,パラメータ使用量を大幅に削減してレコメンデーション性能を一貫して向上させるプラグイン・アンド・プレイモデルである。 実世界のレコメンデーションベンチマークデータセットで行った実験により,提案モデルが推奨精度の面では,10%のパラメータしか使用せずに,最先端モデルよりも17%の精度で優れていることが示された。

Neural network approaches in recommender systems have shown remarkable success by representing a large set of items as a learnable vector embedding table. However, infrequent items may suffer from inadequate training opportunities, making it difficult to learn meaningful representations. We examine that in attribute and context-aware settings, the poorly learned embeddings of infrequent items impair the recommendation accuracy. To address such an issue, we propose a proxy-based item representation that allows each item to be expressed as a weighted sum of learnable proxy embeddings. Here, the proxy weight is determined by the attributes and context of each item and may incorporate bias terms in case of frequent items to further reflect collaborative signals. The proxy-based method calculates the item representations compositionally, ensuring each representation resides inside a well-trained simplex and, thus, acquires guaranteed quality. Additionally, that the proxy embeddings are shared across all items allows the infrequent items to borrow training signals of frequent items in a unified model structure and end-to-end manner. Our proposed method is a plug-and-play model that can replace the item encoding layer of any neural network-based recommendation model, while consistently improving the recommendation performance with much smaller parameter usage. Experiments conducted on real-world recommendation benchmark datasets demonstrate that our proposed model outperforms state-of-the-art models in terms of recommendation accuracy by up to 17% while using only 10% of the parameters.
翻訳日:2023-12-12 16:55:25 公開日:2023-12-11
# メモリ拡張ニューラルネットワークに関する調査:AIアプリケーションに対する認知的洞察

Survey on Memory-Augmented Neural Networks: Cognitive Insights to AI Applications ( http://arxiv.org/abs/2312.06141v1 )

ライセンス: Link先を確認
Savya Khosla, Zhen Zhu, Yifie He(参考訳) 本稿では,人間の記憶過程をaiに融合する方法を考察し,記憶提示型ニューラルネットワーク(manns)について検討する。 感覚、短期記憶、長期記憶など、さまざまな記憶タイプをカバーし、心理学理論とAI応用を結びつける。 この研究は、Hopfield Networks、Neural Turing Machines、Relation Matrix Memories、Memformer、Neural Attention Memoryといった先進的なアーキテクチャを調査し、それらがどのように機能し、どこでエキサイティングであるかを説明する。 自然言語処理、コンピュータビジョン、マルチモーダル学習、検索モデルにまたがるMANNの現実的な利用に潜り込み、メモリブースターがAIタスクの正確性、効率、信頼性を高める方法を示している。 全体として、この調査はMANNの総合的なビューを提供し、メモリベースのAIシステムにおける将来の研究に対する洞察を提供する。

This paper explores Memory-Augmented Neural Networks (MANNs), delving into how they blend human-like memory processes into AI. It covers different memory types, like sensory, short-term, and long-term memory, linking psychological theories with AI applications. The study investigates advanced architectures such as Hopfield Networks, Neural Turing Machines, Correlation Matrix Memories, Memformer, and Neural Attention Memory, explaining how they work and where they excel. It dives into real-world uses of MANNs across Natural Language Processing, Computer Vision, Multimodal Learning, and Retrieval Models, showing how memory boosters enhance accuracy, efficiency, and reliability in AI tasks. Overall, this survey provides a comprehensive view of MANNs, offering insights for future research in memory-based AI systems.
翻訳日:2023-12-12 16:54:58 公開日:2023-12-11
# 安全クリティカルシステムのための計算メモリベースニューラルネットワーク加速器:最悪のシナリオと保護

Compute-in-Memory based Neural Network Accelerators for Safety-Critical Systems: Worst-Case Scenarios and Protections ( http://arxiv.org/abs/2312.06137v1 )

ライセンス: Link先を確認
Zheyu Yan, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 新たな非揮発性メモリ(NVM)ベースのComputer-in-Memory(CiM)アーキテクチャは、その異常なエネルギー効率のため、ディープニューラルネットワーク(DNN)を加速する上で大きな可能性を秘めている。 しかし、NVMデバイスはデバイスのバリエーションが多い。 したがって、NVMデバイスにマッピングされた実際のDNN重みは、ターゲット値と大きく異なり、大幅な性能劣化を引き起こす。 多くの既存ソリューションは、汎用的条件に適した戦略であるデバイス変動中の平均性能を最適化することを目的としている。 しかし、安全クリティカルなアプリケーションにとって重要な最悪の性能は、現在の研究でほとんど見過ごされている。 そこで本研究では,CiM DNNアクセラレータの最低ケース性能をデバイス変動の影響でピンポイントする問題を定義した。 さらに、この最悪の結果の原因となる複雑な高次元値偏差空間におけるデバイス値偏差の特定のパターンを特定する戦略を導入する。 以上の結果から,微妙なデバイス変動であってもDNNの精度が劇的に低下し,CiMベースのプラットフォームが安全クリティカルなアプリケーションをサポートするリスクが生じる可能性が示唆された。 特に,CiM加速器における平均DNN性能を向上する技術は,最悪のシナリオを改善するには不十分である。 本稿では,A-TRICE(A-TRICE)という,対向訓練と雑音注入訓練と右集音ガウス雑音を効率よく組み合わせ,最悪のシナリオにおけるDNNの精度を向上させる手法を提案する。 実験の結果,A-TRICEは機器の変量下での最悪のケース精度を最大33%向上することがわかった。

Emerging non-volatile memory (NVM)-based Computing-in-Memory (CiM) architectures show substantial promise in accelerating deep neural networks (DNNs) due to their exceptional energy efficiency. However, NVM devices are prone to device variations. Consequently, the actual DNN weights mapped to NVM devices can differ considerably from their targeted values, inducing significant performance degradation. Many existing solutions aim to optimize average performance amidst device variations, which is a suitable strategy for general-purpose conditions. However, the worst-case performance that is crucial for safety-critical applications is largely overlooked in current research. In this study, we define the problem of pinpointing the worst-case performance of CiM DNN accelerators affected by device variations. Additionally, we introduce a strategy to identify a specific pattern of the device value deviations in the complex, high-dimensional value deviation space, responsible for this worst-case outcome. Our findings reveal that even subtle device variations can precipitate a dramatic decline in DNN accuracy, posing risks for CiM-based platforms in supporting safety-critical applications. Notably, we observe that prevailing techniques to bolster average DNN performance in CiM accelerators fall short in enhancing worst-case scenarios. In light of this issue, we propose a novel worst-case-aware training technique named A-TRICE that efficiently combines adversarial training and noise-injection training with right-censored Gaussian noise to improve the DNN accuracy in the worst-case scenarios. Our experimental results demonstrate that A-TRICE improves the worst-case accuracy under device variations by up to 33%.
翻訳日:2023-12-12 16:54:40 公開日:2023-12-11
# BACTrack: 航空追跡のための外観コレクションの構築

BACTrack: Building Appearance Collection for Aerial Tracking ( http://arxiv.org/abs/2312.06136v1 )

ライセンス: Link先を確認
Xincong Liu, Tingfa Xu, Ying Wang, Zhinong Yu, Xiaoying Yuan, Haolin Qin, and Jianan Li(参考訳) siamese networkベースのトラッカーは、空中追跡で顕著な成功を収めている。 しかし、ほとんどの以前の作品は、通常、初期テンプレートと検索領域の間でのみテンプレートマッチングを実行するため、空中追跡でしばしば現れる急速に変化するターゲットを扱うことができない。 対策として、この研究はBuilding Appearance Collection Tracking (BACTrack)を提示する。 このシンプルで効果的なトラッキングフレームワークは、ターゲットテンプレートの動的コレクションをオンラインで構築し、堅牢なトラッキングを実現するために効率的なマルチテンプレートマッチングを実行する。 特に、bactrackは、主に混合時変圧器(mtt)と外観判別器を含む。 前者は、複合時間アテンション機構により、検索領域と複数のターゲットテンプレートの関係を並列に効率的に構築する。 同時に、外観判別器はオンライン適応テンプレート更新戦略を採用し、収集された複数のテンプレートが信頼性と多様性を保ち、ターゲットの外観の急速な変化を追従し、追跡中の背景干渉を抑制することができる。 大規模な実験により、我々のBACTrackは、単一のGPU上で87FPSを超える驚くべきスピードを維持しながら、4つの挑戦的な空中トラッキングベンチマークで最高パフォーマンスを達成した。 組み込みプラットフォームでのスピードテストは、UAVプラットフォームへのデプロイに適した可能性も検証します。

Siamese network-based trackers have shown remarkable success in aerial tracking. Most previous works, however, usually perform template matching only between the initial template and the search region and thus fail to deal with rapidly changing targets that often appear in aerial tracking. As a remedy, this work presents Building Appearance Collection Tracking (BACTrack). This simple yet effective tracking framework builds a dynamic collection of target templates online and performs efficient multi-template matching to achieve robust tracking. Specifically, BACTrack mainly comprises a Mixed-Temporal Transformer (MTT) and an appearance discriminator. The former is responsible for efficiently building relationships between the search region and multiple target templates in parallel through a mixed-temporal attention mechanism. At the same time, the appearance discriminator employs an online adaptive template-update strategy to ensure that the collected multiple templates remain reliable and diverse, allowing them to closely follow rapid changes in the target's appearance and suppress background interference during tracking. Extensive experiments show that our BACTrack achieves top performance on four challenging aerial tracking benchmarks while maintaining an impressive speed of over 87 FPS on a single GPU. Speed tests on embedded platforms also validate our potential suitability for deployment on UAV platforms.
翻訳日:2023-12-12 16:54:12 公開日:2023-12-11
# ArtBank: 事前学習型拡散モデルとインシシット型プロンプトバンクによるアートスタイルのトランスファー

ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and Implicit Style Prompt Bank ( http://arxiv.org/abs/2312.06135v1 )

ライセンス: Link先を確認
Zhanjie Zhang, Quanwei Zhang, Guangyuan Li, Wei Xing, Lei Zhao, Jiakai Sun, Zehua Lan, Junsheng Luan, Yiling Huang, Huaizhong Lin(参考訳) 芸術的スタイル移転は、学習した芸術的スタイルでコンテンツイメージを塗り替えることを目的としている。 既存のアートスタイル転送手法は、小規模モデルベースアプローチと事前訓練された大規模モデルベースアプローチの2つのカテゴリに分類できる。 訓練済みの大規模モデルベースアプローチは、非常に現実的なスタイル化されたイメージを生成するが、コンテンツ構造を保存するのに苦労する。 そこで本稿では,コンテンツ画像のコンテンツ構造を維持しつつ,高度にリアルなスタイル化された画像を生成するための,新しいアートスタイル転送フレームワークであるartbankを提案する。 具体的には、事前学習された大規模モデルに埋め込まれた知識を十分に掘り下げるために、トレーニング可能なパラメータ行列の集合であるImplicit Style Prompt Bank (ISPB) は、学習し、学習したアート作品の集合から知識を保存し、学習済みの大規模モデルに視覚的プロンプトとして振舞うように設計され、コンテンツ構造を保ちながら、高度にリアルなスタイル化されたイメージを生成する。 また,上述のispbの学習を加速するために,新しい空間統計ベースセルフアテンションモジュール (ssam) を提案する。 定性的かつ定量的な実験は,最先端の芸術的スタイル伝達法よりも提案手法の方が優れていることを示す。

Artistic style transfer aims to repaint the content image with the learned artistic style. Existing artistic style transfer methods can be divided into two categories: small model-based approaches and pre-trained large-scale model-based approaches. Small model-based approaches can preserve the content strucuture, but fail to produce highly realistic stylized images and introduce artifacts and disharmonious patterns; Pre-trained large-scale model-based approaches can generate highly realistic stylized images but struggle with preserving the content structure. To address the above issues, we propose ArtBank, a novel artistic style transfer framework, to generate highly realistic stylized images while preserving the content structure of the content images. Specifically, to sufficiently dig out the knowledge embedded in pre-trained large-scale models, an Implicit Style Prompt Bank (ISPB), a set of trainable parameter matrices, is designed to learn and store knowledge from the collection of artworks and behave as a visual prompt to guide pre-trained large-scale models to generate highly realistic stylized images while preserving content structure. Besides, to accelerate training the above ISPB, we propose a novel Spatial-Statistical-based self-Attention Module (SSAM). The qualitative and quantitative experiments demonstrate the superiority of our proposed method over state-of-the-art artistic style transfer methods.
翻訳日:2023-12-12 16:53:53 公開日:2023-12-11
# 多言語学習におけるデータセット不均衡の有無の順序

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning ( http://arxiv.org/abs/2312.06134v1 )

ライセンス: Link先を確認
Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani(参考訳) 本稿では,マルチタスク学習の最適化力学を実証的に研究し,特にデータ不均衡の大きいタスク群を管理するものに着目した。 本稿では,高リソースタスクの事前学習と,高リソースタスクと低リソースタスクの混合タスクの微調整について述べる。 本稿では,標準静的重み付けの性能トレードオフプロファイルに対して一貫した改善を達成できることを示す,本手法の利点に関する詳細な実証研究と分析を行う。 本稿では,この手法がどのようなデータレジームで適用可能かを分析し,ニューラルネットワーク翻訳(nmt)および多言語言語モデリングにおける経験的改善を示す。

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.
翻訳日:2023-12-12 16:53:27 公開日:2023-12-11
# spreeze: 高スループット並列強化学習フレームワーク

Spreeze: High-Throughput Parallel Reinforcement Learning Framework ( http://arxiv.org/abs/2312.06126v1 )

ライセンス: Link先を確認
Jing Hou, Guang Chen, Ruiqi Zhang, Zhijun Li, Shangding Gu, Changjun Jiang(参考訳) 強化学習(RL)の大規模応用の促進には,効率的な訓練計算が必要である。 既存の並列RLフレームワークは様々なRLアルゴリズムと並列化技術を含んでいるが、過度に負担のかかる通信フレームワークは、単一のデスクトップ上での最終的なスループットとトレーニング効果に対するハードウェアの限界の達成を妨げている。 本稿では、単一のデスクトップハードウェアリソースを効率的に利用し、スループット限界にアプローチするRLのための軽量並列フレームワークであるSpreezeを提案する。 我々は,データサンプリング,ネットワーク更新,性能評価,可視化処理を非同期に並列化し,複数の効率的なデータ伝送技術を用いてプロセス間で様々な種類のデータを転送する。 このフレームワークは、ハードウェアデバイスの計算能力に基づいて並列化ハイパーパラメータを自動的に調整し、効率的な大規模バッチ更新を行う。 actor-critic" rlアルゴリズムの特性に基づいて,デュアルgpuを用いてアクターと批評家のネットワークを独立に更新し,スループットをさらに向上させる。 シミュレーションの結果、我々のフレームワークは15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートをパーソナルデスクトップコンピュータだけで実現でき、これは他の主流の並列RLフレームワークよりも桁違いに高いので、トレーニング時間を73%削減できることがわかった。 単一デスクトップコンピュータのハードウェアリソースをフル活用する作業は,大規模分散RL学習の効率化に不可欠である。

The promotion of large-scale applications of reinforcement learning (RL) requires efficient training computation. While existing parallel RL frameworks encompass a variety of RL algorithms and parallelization techniques, the excessively burdensome communication frameworks hinder the attainment of the hardware's limit for final throughput and training effects on a single desktop. In this paper, we propose Spreeze, a lightweight parallel framework for RL that efficiently utilizes a single desktop hardware resource to approach the throughput limit. We asynchronously parallelize the experience sampling, network update, performance evaluation, and visualization operations, and employ multiple efficient data transmission techniques to transfer various types of data between processes. The framework can automatically adjust the parallelization hyperparameters based on the computing ability of the hardware device in order to perform efficient large-batch updates. Based on the characteristics of the "Actor-Critic" RL algorithm, our framework uses dual GPUs to independently update the network of actors and critics in order to further improve throughput. Simulation results show that our framework can achieve up to 15,000Hz experience sampling and 370,000Hz network update frame rate using only a personal desktop computer, which is an order of magnitude higher than other mainstream parallel RL frameworks, resulting in a 73% reduction of training time. Our work on fully utilizing the hardware resources of a single desktop computer is fundamental to enabling efficient large-scale distributed RL training.
翻訳日:2023-12-12 16:53:15 公開日:2023-12-11
# 複雑多目的最適化問題に対する事前進化モデル

Pre-Evolved Model for Complex Multi-objective Optimization Problems ( http://arxiv.org/abs/2312.06125v1 )

ライセンス: Link先を確認
Haokai Hong and Min Jiang(参考訳) 多目的最適化問題(MOP)は、複数の目的の同時最適化を必要とする。 進化的計算は、大規模決定変数、多くの目的、高価な評価関数による最適化問題を含む複雑なモップを解決するための有望なパラダイムであると多くの研究が示している。 しかし、既存の多目的進化アルゴリズム(MOEA)は、多種多様な複雑なMOPを解く際に、高品質な集団を生成する上で重大な課題に直面している。 特に、人口の異なる要件と制約は、様々な複雑なMOPに対処するMOEAの非効率性や非能率をもたらす。 そこで本稿では,MOEA が多様な複雑な MOP に対して高品質な人口を生み出すための事前進化の概念を提案する。 従来の変圧器アーキテクチャからインスピレーションを得て,プリ進化モデル(PEM)を構成するために,次元埋め込みと客観的符号化手法を考案した。 PEMは、かなりの数の既存のMOPでプリ進化している。 その後、新しい複雑なMOPを微進化させると、PEMは人口を次の世代へと変換し、パレート・最適前線を近似する。 さらに、新たなソリューションの評価を利用して、PEMを逐次更新し、様々な複雑なMOPを効率的に解決する。 実験の結果、PEMは複雑なMOOPにおいて最先端のMOEAよりも優れていた。

Multi-objective optimization problems (MOPs) necessitate the simultaneous optimization of multiple objectives. Numerous studies have demonstrated that evolutionary computation is a promising paradigm for solving complex MOPs, which involve optimization problems with large-scale decision variables, many objectives, and expensive evaluation functions. However, existing multi-objective evolutionary algorithms (MOEAs) encounter significant challenges in generating high-quality populations when solving diverse complex MOPs. Specifically, the distinct requirements and constraints of the population result in the inefficiency or even incompetence of MOEAs in addressing various complex MOPs. Therefore, this paper proposes the concept of pre-evolving for MOEAs to generate high-quality populations for diverse complex MOPs. Drawing inspiration from the classical transformer architecture, we devise dimension embedding and objective encoding techniques to configure the pre-evolved model (PEM). The PEM is pre-evolved on a substantial number of existing MOPs. Subsequently, when fine-evolving on new complex MOPs, the PEM transforms the population into the next generation to approximate the Pareto-optimal front. Furthermore, it utilizes evaluations on new solutions to iteratively update the PEM for subsequent generations, thereby efficiently solving various complex MOPs. Experimental results demonstrate that the PEM outperforms state-of-the-art MOEAs on a range of complex MOPs.
翻訳日:2023-12-12 16:52:51 公開日:2023-12-11
# GTA: LMパフォーマンス保存のための毒性回避

GTA: Gated Toxicity Avoidance for LM Performance Preservation ( http://arxiv.org/abs/2312.06122v1 )

ライセンス: Link先を確認
Heegyu Kim, Hyunsouk Cho(参考訳) 注意:この論文には不快感を引き起こす可能性のある攻撃的な言葉が含まれている。 GPT-4のような生成言語モデルの急速な進化は、様々なNLP生成タスクにおいて顕著な結果を示した。 しかし、人種や性別に関する攻撃的な単語の発生の可能性から、有害な単語の発生を軽減するために様々な制御可能なテキスト生成法が提案されている。 しかし,既存のCTG法は毒性を低下させるだけでなく,話題の一貫性,文法,難易度など,言語モデルの生成性能に悪影響を及ぼす。 本稿では,従来の手法の限界を考察し,任意のCTG法に適用可能なシンプルなGTA(Gated Toxicity Avoidance)の形で新しい解法を提案する。 また,提案手法の有効性を,各種データセットを対象とした最先端CTG法との比較により評価した。 その結果, ゲート毒性回避は, 言語モデルの生成性能を保ちながら, 元のCTG法と同等の毒性低下を効果的に達成できることが判明した。

Caution: This paper includes offensive words that could potentially cause unpleasantness. The fast-paced evolution of generative language models such as GPT-4 has demonstrated outstanding results in various NLP generation tasks. However, due to the potential generation of offensive words related to race or gender, various Controllable Text Generation (CTG) methods have been proposed to mitigate the occurrence of harmful words. However, existing CTG methods not only reduce toxicity but also negatively impact several aspects of the language model's generation performance, including topic consistency, grammar, and perplexity. This paper explores the limitations of previous methods and introduces a novel solution in the form of a simple Gated Toxicity Avoidance (GTA) that can be applied to any CTG method. We also evaluate the effectiveness of the proposed GTA by comparing it with state-of-the-art CTG methods across various datasets. Our findings reveal that gated toxicity avoidance efficiently achieves comparable levels of toxicity reduction to the original CTG methods while preserving the generation performance of the language model.
翻訳日:2023-12-12 16:52:31 公開日:2023-12-11
# LLMはソフトウェアツールを構成できるか

Can LLMs Configure Software Tools ( http://arxiv.org/abs/2312.06121v1 )

ライセンス: Link先を確認
Jai Kannan(参考訳) ソフトウェア工学では、複雑なシステム内での最適なパフォーマンスを確保するためには、ソフトウェアツールの精巧な構成が不可欠である。 しかし、最適構成の選択に固有の複雑さは、現代の応用で提示された高次元探索空間によってさらに悪化する。 従来の試行錯誤法や直観駆動法は非効率かつエラーを起こし、スケーラビリティと再現性を阻害する。 本研究では,Large-Language Models (LLM) を利用したソフトウェア構成プロセスの合理化について検討する。 インテリジェントアプリケーションにおける機械学習コンポーネントのハイパーパラメータ設定のタスクは、広範囲な検索空間とパフォーマンスクリティカルな性質のため、特に困難である。 ベイズ最適化を含む既存の手法には初期設定、計算コスト、収束効率に関する制限がある。 本研究は,Chat-GPTなどのLCMを用いて,開始条件を特定し,検索空間を狭め,構成効率を向上する手法を提案する。 llmが生成する応答の変動性を検証し、潜在的な応答キャッシュやドメイン固有キーワードに基づく一貫した動作といった興味深い発見を明らかにする実験を行った。 さらに,超パラメータ最適化実験の結果から,初期化プロセスの高速化と構成の最適化におけるLCMの可能性を明らかにした。 最初の洞察は有望ですが、この分野におけるさらなる詳細な調査と実験の必要性も示しています。

In software engineering, the meticulous configuration of software tools is crucial in ensuring optimal performance within intricate systems. However, the complexity inherent in selecting optimal configurations is exacerbated by the high-dimensional search spaces presented in modern applications. Conventional trial-and-error or intuition-driven methods are both inefficient and error-prone, impeding scalability and reproducibility. In this study, we embark on an exploration of leveraging Large-Language Models (LLMs) to streamline the software configuration process. We identify that the task of hyperparameter configuration for machine learning components within intelligent applications is particularly challenging due to the extensive search space and performance-critical nature. Existing methods, including Bayesian optimization, have limitations regarding initial setup, computational cost, and convergence efficiency. Our work presents a novel approach that employs LLMs, such as Chat-GPT, to identify starting conditions and narrow down the search space, improving configuration efficiency. We conducted a series of experiments to investigate the variability of LLM-generated responses, uncovering intriguing findings such as potential response caching and consistent behavior based on domain-specific keywords. Furthermore, our results from hyperparameter optimization experiments reveal the potential of LLMs in expediting initialization processes and optimizing configurations. While our initial insights are promising, they also indicate the need for further in-depth investigations and experiments in this domain.
翻訳日:2023-12-12 16:52:15 公開日:2023-12-11
# rose: 多目的学習を用いた航空交通制御における認識指向音声強調フレームワーク

ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning ( http://arxiv.org/abs/2312.06118v1 )

ライセンス: Link先を確認
Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin(参考訳) 無線音声エコーは、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、さらに自動音声認識(ASR)の精度に影響を及ぼす。 本研究では、音声認識指向音声強調(ROSE)フレームワークを提案し、音声認識の可知性の向上と、ATCシナリオにおけるプラグアンドプレイツールとして機能し、ASRモデルの追加的な再訓練を必要としないASR精度の向上を図る。 具体的には、実世界の収集コーパスに基づいて、無線音声エコーを除去するエンコーダデコーダベースのU-Netフレームワークを提案する。 SE指向とASR指向の損失を取り入れることで、ROSEは2つの最適化目標に対して共有表現を学習することで多目的的に実装される。 注意に基づくスキップ・フュージョン(ABSF)機構は、接続をスキップして特徴を洗練させる。 チャネル・アンド・シーケンス・アテンション(CSAtt)ブロックは、情報表現に集中し、乱れた特徴を抑制するようモデルに誘導するように革新的に設計されている。 実験の結果,ROSEはSEタスクとASRタスクの両方において,他の最先端手法よりも有意に優れていた。 さらに、提案されたアプローチは、パブリックデータセットにおける望ましいパフォーマンス改善に寄与することができる。

Radio speech echo is a specific phenomenon in the air traffic control (ATC) domain, which degrades speech quality and further impacts automatic speech recognition (ASR) accuracy. In this work, a recognition-oriented speech enhancement (ROSE) framework is proposed to improve speech intelligibility and also advance ASR accuracy, which serves as a plug-and-play tool in ATC scenarios and does not require additional retraining of the ASR model. Specifically, an encoder-decoder-based U-Net framework is proposed to eliminate the radio speech echo based on the real-world collected corpus. By incorporating the SE-oriented and ASR-oriented loss, ROSE is implemented in a multi-objective manner by learning shared representations across the two optimization objectives. An attention-based skip-fusion (ABSF) mechanism is applied to skip connections to refine the features. A channel and sequence attention (CSAtt) block is innovatively designed to guide the model to focus on informative representations and suppress disturbing features. The experimental results show that the ROSE significantly outperforms other state-of-the-art methods for both the SE and ASR tasks. In addition, the proposed approach can contribute to the desired performance improvements on public datasets.
翻訳日:2023-12-12 16:51:58 公開日:2023-12-11
# M3SOT:マルチフレーム、マルチフィールド、マルチスペースの単一オブジェクト追跡

M3SOT: Multi-frame, Multi-field, Multi-space 3D Single Object Tracking ( http://arxiv.org/abs/2312.06117v1 )

ライセンス: Link先を確認
Jiaming Liu, Yue Wu, Maoguo Gong, Qiguang Miao, Wenping Ma, Can Qin(参考訳) 3D Single Object Tracking (SOT)はコンピュータビジョンの最前線のタスクであり、自動運転のようなアプリケーションに不可欠なことを証明している。 シーンポイントクラウド内のスパースとoccludedデータは、追跡されたオブジェクトの外観のバリエーションをもたらし、タスクに複雑さを加えます。 本研究では、複数の入力フレーム(テンプレート集合)、複数の受容場(連続コンテキスト)、複数の解空間(離散タスク)をONEモデルで相乗化する新しい3D SOTフレームワークであるM3SOTを紹介する。 注目すべきことに、M3SOTのパイオニアは、ポイントクラウドから直接時間性、コンテキスト、タスクをモデリングし、SOTに影響を及ぼす重要な要因について再考している。 この目的のために,検索領域におけるポイントクラウドを対象とするトランスフォーマネットワークを設計し,多様な文脈表現を集約し,歴史的フレームを用いてターゲットキューを伝搬する。 M3SOTはさまざまな処理観点にまたがるので、ネットワークトリミングの深度を合理化し、その構造を最適化し、SOTアプリケーションの軽量で効率的なデプロイを確実にします。 M3SOTは実践的な構築を背景として、複雑なフレームワークや補助的なコンポーネントが必要であり、スターリングの結果を提供する必要があると仮定する。 KITTI、nuScenes、Waymo Open Datasetなどのベンチマークに関する大規模な実験は、M3SOTが38FPSで最先端のパフォーマンスを達成することを示した。 私たちのコードとモデルはhttps://github.com/ywu0912/teamcode.gitで利用可能です。

3D Single Object Tracking (SOT) stands a forefront task of computer vision, proving essential for applications like autonomous driving. Sparse and occluded data in scene point clouds introduce variations in the appearance of tracked objects, adding complexity to the task. In this research, we unveil M3SOT, a novel 3D SOT framework, which synergizes multiple input frames (template sets), multiple receptive fields (continuous contexts), and multiple solution spaces (distinct tasks) in ONE model. Remarkably, M3SOT pioneers in modeling temporality, contexts, and tasks directly from point clouds, revisiting a perspective on the key factors influencing SOT. To this end, we design a transformer-based network centered on point cloud targets in the search area, aggregating diverse contextual representations and propagating target cues by employing historical frames. As M3SOT spans varied processing perspectives, we've streamlined the network-trimming its depth and optimizing its structure-to ensure a lightweight and efficient deployment for SOT applications. We posit that, backed by practical construction, M3SOT sidesteps the need for complex frameworks and auxiliary components to deliver sterling results. Extensive experiments on benchmarks such as KITTI, nuScenes, and Waymo Open Dataset demonstrate that M3SOT achieves state-of-the-art performance at 38 FPS. Our code and models are available at https://github.com/ywu0912/TeamCode.git.
翻訳日:2023-12-12 16:51:37 公開日:2023-12-11
# stellar:人間中心のパーソナライズされたテキストから画像への方法の体系的評価

Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods ( http://arxiv.org/abs/2312.06116v1 )

ライセンス: Link先を確認
Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos, Dimitris Skourtis(参考訳) 本研究では,個人化されたテキスト・画像生成の問題点を体系的に研究し,特定の被験者に関する情報を出力画像で表現することを期待する。 例えば、想像上の場所に現れる自分のイメージを生成したり、様々なアイテムと対話したり、架空の活動に従事したりする。 この目的を達成するために,個々の画像を1つ入力して生成プロセスを接地するテキスト・ツー・イメージシステムと,所望の視覚状況を記述するテキストに焦点をあてる。 私たちの最初の貢献は、このタスクのために高品質で適切なデータをキュレートすることで、文学のギャップを埋めることです。 すなわち、パーソナライズされたプロンプトを含む標準化されたデータセット(Stellar)と、既存の関連するデータセットよりも桁違いの大きさの個人画像と、リッチなセマンティック・ベース・トゥルース・アノテーションが容易に利用できるようにした。 システム間の比較をさらにきめ細かいものにするためにStellarを確立したので、そのようなシステムが従うべき基本特性を強調・歪曲する専門的なメトリクスの厳密なアンサンブルを導入する。 直感的であることに加えて、我々の新しいメトリクスは、このタスクで現在使われているメトリクスよりも、人間の判断と強く相関している。 最後に、eliteとsdxlの最近の作品から着想を得て、私たちは、テスト時間の微調整を必要としない、シンプルで効率的でパーソナライズされたテキストから画像へのベースラインを導出します。 詳細については、プロジェクトのwebサイト(https://stellar-gen-ai.github.io/)をご覧ください。

In this work, we systematically study the problem of personalized text-to-image generation, where the output image is expected to portray information about specific human subjects. E.g., generating images of oneself appearing at imaginative places, interacting with various items, or engaging in fictional activities. To this end, we focus on text-to-image systems that input a single image of an individual to ground the generation process along with text describing the desired visual context. Our first contribution is to fill the literature gap by curating high-quality, appropriate data for this task. Namely, we introduce a standardized dataset (Stellar) that contains personalized prompts coupled with images of individuals that is an order of magnitude larger than existing relevant datasets and where rich semantic ground-truth annotations are readily available. Having established Stellar to promote cross-systems fine-grained comparisons further, we introduce a rigorous ensemble of specialized metrics that highlight and disentangle fundamental properties such systems should obey. Besides being intuitive, our new metrics correlate significantly more strongly with human judgment than currently used metrics on this task. Last but not least, drawing inspiration from the recent works of ELITE and SDXL, we derive a simple yet efficient, personalized text-to-image baseline that does not require test-time fine-tuning for each subject and which sets quantitatively and in human trials a new SoTA. For more information, please visit our project's website: https://stellar-gen-ai.github.io/.
翻訳日:2023-12-12 16:51:09 公開日:2023-12-11
# Simmining-3D:複雑なマイニング環境における高度対応3Dオブジェクト検出:新しいデータセットとROSに基づく自動アノテーションパイプライン

SimMining-3D: Altitude-Aware 3D Object Detection in Complex Mining Environments: A Novel Dataset and ROS-Based Automatic Annotation Pipeline ( http://arxiv.org/abs/2312.06113v1 )

ライセンス: Link先を確認
Mehala Balamurali and Ehsan Mihankhah(参考訳) 精密で効率的な物体検出は、鉱業における地球移動装置の安全かつ効率的な運用に不可欠である。 従来の2次元画像に基づく手法は、動的および複雑な鉱山環境では限界に直面している。 これらの課題を克服するために、ポイントクラウドデータを用いた3dオブジェクト検出が包括的アプローチとして登場した。 しかし,センサ高さの変動や視点の変化,さまざまな注釈付きデータセットの必要性などにより,鉱業シナリオのトレーニングモデルは困難である。 本稿では,これらの課題に対する新たな貢献について述べる。 鉱業環境における3次元物体検出に特化して設計された合成データセットSimMining 3D [1]を提案する。 データセットは、鉱山のベンチ内のさまざまな高さに位置する物体とセンサーをキャプチャし、本物の鉱業シナリオを正確に反映する。 ROSインターフェースによる自動アノテーションパイプラインは、手作業の削減とデータセット生成の高速化を実現する。 本研究では,センサ対オブジェクトの高さ変化と点雲密度を考慮した評価指標を提案する。 実データテストは、オブジェクト予測におけるモデルの有効性を検証する。 本研究は,高度と高さの変動が精度と信頼性を向上させる上で重要であることを強調する。 公開アクセス可能な合成データセット[1]は、教師あり学習のためのベンチマークとして機能し、各シーンに対する補足的なポイントワイズアノテーションによるマイニングにおけるオブジェクト検出技術を進歩させる。 結論として,我々の研究は,合成データと実データとの間のギャップを橋渡し,マイニングのための3次元物体検出における領域シフト問題に対処している。 我々は,鉱業及び関連領域の安全性と効率を高める頑健な物体検出システムを提案する。

Accurate and efficient object detection is crucial for safe and efficient operation of earth-moving equipment in mining. Traditional 2D image-based methods face limitations in dynamic and complex mine environments. To overcome these challenges, 3D object detection using point cloud data has emerged as a comprehensive approach. However, training models for mining scenarios is challenging due to sensor height variations, viewpoint changes, and the need for diverse annotated datasets. This paper presents novel contributions to address these challenges. We introduce a synthetic dataset SimMining 3D [1] specifically designed for 3D object detection in mining environments. The dataset captures objects and sensors positioned at various heights within mine benches, accurately reflecting authentic mining scenarios. An automatic annotation pipeline through ROS interface reduces manual labor and accelerates dataset creation. We propose evaluation metrics accounting for sensor-to-object height variations and point cloud density, enabling accurate model assessment in mining scenarios. Real data tests validate our models effectiveness in object prediction. Our ablation study emphasizes the importance of altitude and height variation augmentations in improving accuracy and reliability. The publicly accessible synthetic dataset [1] serves as a benchmark for supervised learning and advances object detection techniques in mining with complimentary pointwise annotations for each scene. In conclusion, our work bridges the gap between synthetic and real data, addressing the domain shift challenge in 3D object detection for mining. We envision robust object detection systems enhancing safety and efficiency in mining and related domains.
翻訳日:2023-12-12 16:50:36 公開日:2023-12-11
# 混合モード画像検索のための動的重み付け結合器

Dynamic Weighted Combiner for Mixed-Modal Image Retrieval ( http://arxiv.org/abs/2312.06179v1 )

ライセンス: Link先を確認
Fuxiang Huang, Lei Zhang, Xiaowei Fu, Suqi Song(参考訳) フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。 しかし、2つの重要な要因が著しく見過ごされているため、従来のアプローチは常に限られた性能を達成する。 1) 画像とテキストのモダリティの寄与は異なるが, 等しく扱われていない。 2) 多様な実世界のシナリオから, ユーザの意図をテキストで記述することで, オーバーフィッティングを生じさせる固有のラベル付けノイズが存在する。 3つのメリットを含む上記の課題に取り組むために,動的重み付きコンビネータ(dwc)を提案する。 まず,2つのモダリティ特徴エディタと適応重み付けコンバータを含むモダリティ間の寄与格差を考慮し,編集可能なモダリティデ平等化器(EMD)を提案する。 第2に,ラベリングノイズとデータバイアスを軽減するために,雑音を暗黙的に改善する動的ソフト類似性ラベル生成器(SSG)を提案する。 最後に、モダリティギャップを橋渡しし、類似性学習を容易にするために、混合モダリティコントラスト損失によって交互に訓練されるクリップベースの相互強化モジュールを提案する。 広範な実験により,提案手法が実世界のデータセットの最先端手法を大幅に上回ることを確認した。 ソースコードは \url{https://github.com/fuxianghuang1/dwc} で入手できる。

Mixed-Modal Image Retrieval (MMIR) as a flexible search paradigm has attracted wide attention. However, previous approaches always achieve limited performance, due to two critical factors are seriously overlooked. 1) The contribution of image and text modalities is different, but incorrectly treated equally. 2) There exist inherent labeling noises in describing users' intentions with text in web datasets from diverse real-world scenarios, giving rise to overfitting. We propose a Dynamic Weighted Combiner (DWC) to tackle the above challenges, which includes three merits. First, we propose an Editable Modality De-equalizer (EMD) by taking into account the contribution disparity between modalities, containing two modality feature editors and an adaptive weighted combiner. Second, to alleviate labeling noises and data bias, we propose a dynamic soft-similarity label generator (SSG) to implicitly improve noisy supervision. Finally, to bridge modality gaps and facilitate similarity learning, we propose a CLIP-based mutual enhancement module alternately trained by a mixed-modality contrastive loss. Extensive experiments verify that our proposed model significantly outperforms state-of-the-art methods on real-world datasets. The source code is available at \url{https://github.com/fuxianghuang1/DWC}.
翻訳日:2023-12-12 16:44:49 公開日:2023-12-11
# 高次元逆問題における不確かさ量子化のためのランダム化物理インフォームド機械学習

Randomized Physics-Informed Machine Learning for Uncertainty Quantification in High-Dimensional Inverse Problems ( http://arxiv.org/abs/2312.06177v1 )

ライセンス: Link先を確認
Yifei Zong and David Barajas-Solano and Alexandre M. Tartakovsky(参考訳) 本研究では,高次元逆問題における不確実性定量化(UQ)のための物理インフォームド機械学習手法を提案する。 この方法では、偏微分方程式 (PDE) の状態とパラメータは、各変数の測定値に一致する構成条件のKarhunen-Lo\`eve展開 (CKLE) と近似される。 逆問題の最大アフター解(MAP)は、損失関数がPDE残差のノルムと$\ell_2$正規化項の和である CKLE 係数上の最小化問題として定式化される。 このMAP定式化は物理インフォームドCKLE(PICKLE)法として知られている。 逆解の不確かさは、CKLE係数の後方分布の観点から定量化され、PICKLE損失関数にゼロ平均ガウス摂動を加えて定式化したランダム化PICKLE最小化問題を解くことにより、後方をサンプリングする。 提案手法をランダム化PICKLE (rPICKLE) 手法と呼ぶ。 我々は,低次元および高次元パラメータ空間を持つ拡散(Darcy)方程式で表される地下水モデルにおけるパラメータと状態の逆問題に対するrPICKLEをテストする。 我々は,RPICKLEとハミルトンモンテカルロ(HMC)が類似した後続分布を生成することを示すことにより,未知のCKLEパラメータが15の低次元ケースに対してrPICKLEを検証する。 両方のメソッドの実行時間は、問題の次元によって増加する。 しかし,HMCの実行時間はrPICKLEよりも問題次元で有意に速くなった。 HMCを持つ高次元ケース(2000 CKLEパラメータ)では、30日間コードを実行した後、停止基準(サンプルのセット数)に達しない。 一方、rPICKLEは4~5日で同じ数のサンプルを生成する。

We propose a physics-informed machine learning method for uncertainty quantification (UQ) in high-dimensional inverse problems. In this method, the states and parameters of partial differential equations (PDEs) are approximated with truncated conditional Karhunen-Lo\`eve expansions (CKLEs), which, by construction, match the measurements of the respective variables. The maximum a posteriori (MAP) solution of the inverse problem is formulated as a minimization problem over CKLE coefficients where the loss function is the sum of the norm of PDE residuals and $\ell_2$ regularization term. This MAP formulation is known as the physics-informed CKLE (PICKLE) method. Uncertainty in the inverse solution is quantified in terms of the posterior distribution of CKLE coefficients, and we sample the posterior by solving a randomized PICKLE minimization problem, formulated by adding zero-mean Gaussian perturbations in the PICKLE loss function. We call the proposed approach the randomized PICKLE (rPICKLE) method. We test rPICKLE for the inverse problems of estimating parameters and states in groundwater models described by the diffusion (Darcy) equation with low and high-dimensional parameter space. We validate rPICKLE for the low-dimensional case with 15 unknown CKLE parameters by showing that rPICKLE and Hamiltonian Monte Carlo (HMC) produce similar posterior distributions. The execution times of both methods increase with the dimensionality of the problem. However, the execution time of HMC increases significantly faster with the problem dimensionality than that of rPICKLE. For the high-dimensional case (2000 CKLE parameters) with HMC does not reach the stopping criterion (the set number of samples) after running the code for 30 days. On the other hand, rPICKLE generates the same number of samples in four to five days.
翻訳日:2023-12-12 16:44:06 公開日:2023-12-11
# 計測簡略化による変分量子アルゴリズムの改良

Improvement in Variational Quantum Algorithms by Measurement Simplification ( http://arxiv.org/abs/2312.06176v1 )

ライセンス: Link先を確認
Jaehoon Hahm, Hayeon Kim, Young June Park(参考訳) 変分量子アルゴリズム(VQA)は、近い将来に量子コンピュータで実行できる量子アドバンテージを持つ有望なアルゴリズムであると期待されている。 本稿では,基本的な量子回路における単純なルールを見直し,量子回路測定の表現を単純化する簡易化手法である計測単純化を提案する。 測定の単純化により、VQAの特定の結果表現を単純化し、計算時間と必要なメモリサイズを大きく改善した。 本稿では,変分量子線形解法 (vqls) ,変分量子固有解法 (vqe) およびその他の量子機械学習アルゴリズムに対して,計算時間と必要なメモリサイズにおける高速化の例を示す。

Variational Quantum Algorithms (VQAs) are expected to be promising algorithms with quantum advantages that can be run at quantum computers in the close future. In this work, we review simple rules in basic quantum circuits, and propose a simplification method, Measurement Simplification, that simplifies the expression for the measurement of quantum circuit. By the Measurement Simplification, we simplified the specific result expression of VQAs and obtained large improvements in calculation time and required memory size. Here we applied Measurement Simplification to Variational Quantum Linear Solver (VQLS), Variational Quantum Eigensolver (VQE) and other Quantum Machine Learning Algorithms to show an example of speedup in the calculation time and required memory size.
翻訳日:2023-12-12 16:43:32 公開日:2023-12-11
# マルチタスクモデル融合のためのコンクリート部分空間学習に基づく干渉除去

Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion ( http://arxiv.org/abs/2312.06173v1 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Liang Ding, Han Hu, Bo Du, Dacheng Tao(参考訳) 共通で広く訓練された大規模モデルから微調整されているが、異なるタスクに特化した統合モデルは、様々なタスクにまたがってうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。 最近の研究でタスク演算が示されるように、このマルチタスクモデルはタスクベクトルの演算演算を通じて導出できることが強調されている。 それにもかかわらず、現在のマージ技術は、パラメータの大きさや符号などの個々の属性を評価して、モデル全体の機能に対する集団的影響を見下ろすことによって、タスク固有のモデルからのパラメータ間の潜在的な競合をしばしば解決する。 本研究では,共通低次元部分空間を同定し,その共有情報を利用して干渉問題を追従し,性能を犠牲にすることなく,離散的(コンクリート)部分空間学習手法の連続緩和を提案する。 具体的には,二段階最適化問題として問題をモデル化し,勾配に基づく手法を用いて具体的部分空間マスクを見つけるためのメタラーニングフレームワークを導入する。 上層部では,部分空間を特定するための共有コンクリートマスクの学習に焦点が当てられ,内層部では,マージモデルの性能を最大化するためにモデルマージが行われる。 視覚領域と言語領域の両方で広範な実験を行い,本手法の有効性を実証した。 コードはhttps://github.com/tanganke/subspace_fusionで入手できる。

Merging models fine-tuned from a common, extensively pre-trained large model but specialized for different tasks has been demonstrated as a cheap and scalable strategy to construct a multi-task model that performs well across diverse tasks. Recent research, exemplified by task arithmetic, highlights that this multi-task model can be derived through arithmetic operations on task vectors. Nevertheless, current merging techniques frequently resolve potential conflicts among parameters from task-specific models by evaluating individual attributes, such as the parameters' magnitude or sign, overlooking their collective impact on the overall functionality of the model. In this work, we propose the CONtinuous relaxation of disCRETE (Concrete) subspace learning method to identify a common low-dimensional subspace and utilize its shared information to track the interference problem without sacrificing much performance. Specifically, we model the problem as a bi-level optimization problem and introduce a meta-learning framework to find the Concrete subspace mask through gradient-based techniques. At the upper level, we focus on learning a shared Concrete mask to identify the subspace, while at the inner level, model merging is performed to maximize the performance of the merged model. We conduct extensive experiments on both vision domain and language domain, and the results demonstrate the effectiveness of our method. The code is available at https://github.com/tanganke/subspace_fusion
翻訳日:2023-12-12 16:42:56 公開日:2023-12-11
# text-to-sqlのためのsqlクエリのハードネス解析の分離

Decoupling SQL Query Hardness Parsing for Text-to-SQL ( http://arxiv.org/abs/2312.06172v1 )

ライセンス: Link先を確認
Jiawen Yi and Guo Chen(参考訳) Text-to-SQLタスクの基本的な目標は、自然言語の質問をSQLクエリに変換することだ。 現在の研究は、主に自然言語質問とスキーマ間の情報結合を強調しており、この分野では重要な進歩がなされている。 主要なタスク要求源としての自然言語の質問は、対応するSQLクエリの難易度を決定するが、両者の相関は常に無視される。 しかし、質問とクエリの相関が切り離された場合、タスクを単純化する可能性がある。 本稿では,SQLクエリの難易度解析の分離に基づくテキストからSQLへの革新的フレームワークを提案する。 このフレームワークは質問やスキーマを分析し、クエリの難しさに基づいてText-to-SQLタスクを分離する。 これにより、言語モデルに対する解析のプレッシャーを大幅に減らす。 提案フレームワークを評価し,クモデベロップメントにおけるファインターン方式の新たな最先端性能を実現する。

The fundamental goal of the Text-to-SQL task is to translate natural language question into SQL query. Current research primarily emphasizes the information coupling between natural language questions and schemas, and significant progress has been made in this area. The natural language questions as the primary task requirements source determines the hardness of correspond SQL queries, the correlation between the two always be ignored. However, when the correlation between questions and queries was decoupled, it may simplify the task. In this paper, we introduce an innovative framework for Text-to-SQL based on decoupling SQL query hardness parsing. This framework decouples the Text-to-SQL task based on query hardness by analyzing questions and schemas, simplifying the multi-hardness task into a single-hardness challenge. This greatly reduces the parsing pressure on the language model. We evaluate our proposed framework and achieve a new state-of-the-art performance of fine-turning methods on Spider dev.
翻訳日:2023-12-12 16:42:32 公開日:2023-12-11
# 前房炎症診断のための共同的・暗黙的クロスモーダル相互作用ネットワーク

Jointly Explicit and Implicit Cross-Modal Interaction Network for Anterior Chamber Inflammation Diagnosis ( http://arxiv.org/abs/2312.06171v1 )

ライセンス: Link先を確認
Qian Shao, Ye Dai, Haochao Ying, Kan Xu, Jinhong Wang, Wei Chi, Jian Wu(参考訳) ぶどう膜炎は最適な治療のために前房炎症(aci)の正確な診断を要求する。 しかし、現在の診断方法は限定的な単一モード疾患の視点のみに依存しているため、パフォーマンスが低下する。 本稿では,ACI診断のための多モードデータを融合する,有望かつ挑戦的な手法について検討する。 既存の融合パラダイムは、暗黙のモダリティ相互作用(すなわち自己注意とその変種)の強化に重点を置いているが、特に臨床知識や画像特性から明示的なモダリティ相互作用を注入することを無視している。 そこで本研究では,前領域光コヒーレンス断層像,スリットランプ画像,臨床データを用いた,前室炎症診断のための協調的かつ暗黙的なクロスモーダル・インタラクション・ネットワーク(eici-net)を提案する。 具体的には、まずcnnベースのエンコーダと表処理モジュール(tpm)を開発し、異なるモダリティの効率的な特徴表現を抽出する。 次に,表型特徴マップに基づく明示的な臨床知識の一種として注意マップを生成するために,明示的なクロスモーダルインタラクションモジュール(ecim)を考案し,それをスリット・ランプ特徴マップに統合することで,cnnベースのエンコーダがスリット・ランプ画像のより効果的な情報に焦点を合わせられるようにした。 その後、トランスフォーマーベースのネットワークであるImplicit Cross-Modal Interaction Module (ICIM)は、モダリティインタラクションをさらに暗黙的に強化する。 最後に、我々の共同病院からかなりの実世界のデータセットを構築し、提案したE EiCI-Netの優れた性能を様々な指標の最先端分類法と比較する十分な実験を行った。

Uveitis demands the precise diagnosis of anterior chamber inflammation (ACI) for optimal treatment. However, current diagnostic methods only rely on a limited single-modal disease perspective, which leads to poor performance. In this paper, we investigate a promising yet challenging way to fuse multimodal data for ACI diagnosis. Notably, existing fusion paradigms focus on empowering implicit modality interactions (i.e., self-attention and its variants), but neglect to inject explicit modality interactions, especially from clinical knowledge and imaging property. To this end, we propose a jointly Explicit and implicit Cross-Modal Interaction Network (EiCI-Net) for Anterior Chamber Inflammation Diagnosis that uses anterior segment optical coherence tomography (AS-OCT) images, slit-lamp images, and clinical data jointly. Specifically, we first develop CNN-Based Encoders and Tabular Processing Module (TPM) to extract efficient feature representations in different modalities. Then, we devise an Explicit Cross-Modal Interaction Module (ECIM) to generate attention maps as a kind of explicit clinical knowledge based on the tabular feature maps, then integrated them into the slit-lamp feature maps, allowing the CNN-Based Encoder to focus on more effective informativeness of the slit-lamp images. After that, the Implicit Cross-Modal Interaction Module (ICIM), a transformer-based network, further implicitly enhances modality interactions. Finally, we construct a considerable real-world dataset from our collaborative hospital and conduct sufficient experiments to demonstrate the superior performance of our proposed EiCI-Net compared with the state-of-the-art classification methods in various metrics.
翻訳日:2023-12-12 16:42:17 公開日:2023-12-11
# トリックのバグ:データ品質が低い半スーパービジョンのクロスドメインクレーター検出

Bag of Tricks: Semi-Supervised Cross-domain Crater Detection with Poor Data Quality ( http://arxiv.org/abs/2312.06169v1 )

ライセンス: Link先を確認
Yifan Liu and Tiecheng Song(参考訳) 宇宙飛行の発展と地球外惑星の探査により、惑星外クレーターの検出が徐々に注目されるようになった。 しかし、関連するデータセットの不足、高いサンプルバックグラウンドの複雑さ、ドメイン間の大きな差異により、背景干渉の少ないデータでトレーニングすることで、ドメイン間の堅牢性と一般化を達成できる既存の検出モデルはほとんどない。 To obtain a better robust model with better cross-domain generalization in the presence of poor data quality, we propose the SCPQ model, in which we first propose a method for fusing shallow information using attention mechanism (FSIAM), which utilizes feature maps fused with deep convolved feature maps after fully extracting the global sensory field of shallow information via the attention mechanism module, which can fully fit the data to obtain a better sense of the domain in the presence of poor data, and thus better multiscale adaptability. 次に,擬似ラベル・データ拡張戦略 (PDAS) とスムーズなハードサンプルマイニング (SHEM) ロス関数を提案し,クロスドメイン性能を向上させる。 PDASは、ターゲットドメインからファインチューンモデルに高品質な擬似ラベル付きデータを採用し、異なるドメインに対して、異なる強度および弱いデータ拡張戦略を採用し、ソースおよびターゲットドメイン固有の情報の異なる分布を緩和し、より優れた一般化効果を得る。 一方,提案するシェム損失関数は,トレーニング過程における部分的背景干渉学習により,ハードサンプルの頑健性が低下する問題を解くことができる。 SHEM損失関数はこの干渉を円滑にし、難しい例を学習しながら一般化する。 実験の結果,DACDデータセットの性能は向上し,ベースライン上でのクロスドメイン検出のリコールが24.04\%向上した。

With the development of spaceflight and the exploration of extraterrestrial planets, exoplanet crater detection has gradually gained attention. However, with the current scarcity of relevant datasets, high sample background complexity, and large inter-domain differences, few existing detection models can achieve good robustness and generalization across domains by training on data with more background interference. To obtain a better robust model with better cross-domain generalization in the presence of poor data quality, we propose the SCPQ model, in which we first propose a method for fusing shallow information using attention mechanism (FSIAM), which utilizes feature maps fused with deep convolved feature maps after fully extracting the global sensory field of shallow information via the attention mechanism module, which can fully fit the data to obtain a better sense of the domain in the presence of poor data, and thus better multiscale adaptability. Secondly, we propose a pseudo-label and data augment strategy (PDAS) and a smooth hard example mining (SHEM) loss function to improve cross-domain performance. PDAS adopts high-quality pseudo-labeled data from the target domain to the finetune model, and adopts different strong and weak data enhancement strategies for different domains, which mitigates the different distribution of information inherent in the source and target domains, and obtains a better generalization effect. Meanwhile, our proposed SHEM loss function can solve the problem of poor robustness of hard examples due to partial background interference learning during the training process. The SHEM loss function can smooth this interference and has generalization while learning hard examples. Experimental results show that we achieved better performance on the DACD dataset and improved the Recall of cross-domain detection by 24.04\% over baseline.
翻訳日:2023-12-12 16:41:42 公開日:2023-12-11
# 体積医用画像の解剖学的構造改善のための暗黙的形状モデリング

Implicit Shape Modeling for Anatomical Structure Refinement of Volumetric Medical Images ( http://arxiv.org/abs/2312.06164v1 )

ライセンス: Link先を確認
Minghui Zhang, Hanxiao Zhang, Xin You, Yun Gu(参考訳) 量的医用画像の形状モデリングは, コンピュータ支援診断における定量的解析と手術計画に欠かせない課題である。 専門医の負担を軽減するため、再構成された形状は、例えば畳み込みニューラルネットワーク(CNN)などのディープラーニングモデルから広く取得され、次にマーチングキューブアルゴリズムが続く。 しかし、画像の解像度の制限や事前の制約の欠如により、再構成された形状の自動取得が必ずしも完璧ではない。 本稿では,暗黙的ニューラルネットワーク上での医用画像のセグメンテーションの洗練のための統一的な枠組みを設計する。 具体的には、訓練段階で同じカテゴリの異なるインスタンスに先立ってシェーラブルな形状を学習するために、体積医用画像の物理情報を最初に活用して、物理的に変形した連続座標変換(picct)を構築する。 PICCTは、入力データをアライメント状に変換し、暗黙の形状モデリングを行う。 形状表現をよりよく学ぶために,符号付き距離関数(sdf)の上に暗黙的形状制約を,インスタンスと潜在テンプレートの両方の暗黙的形状モデリングに導入する。 推論フェーズでは、テンプレート対話モジュール(TIM)が提案され、遅延コードで暗黙的テンプレートを変形することでCNNが生成した初期結果を洗練する。 3つのデータセットによる実験結果から,形状改善におけるアプローチの優位性が確認された。 提案手法により得られたチャンファー距離/アースマーバー距離は、Liverデータセットで0.232/0.087、Pancreasデータセットで0.128/0.069、Lung Lobeデータセットで0.417/0.100である。

Shape modeling of volumetric medical images is a critical task for quantitative analysis and surgical plans in computer-aided diagnosis. To relieve the burden of expert clinicians, the reconstructed shapes are widely acquired from deep learning models, e.g. Convolutional Neural Networks (CNNs), followed by marching cube algorithm. However, automatically obtaining reconstructed shapes can not always achieve perfect results due to the limited resolution of images and lack of shape prior constraints. In this paper, we design a unified framework for the refinement of medical image segmentation on top of an implicit neural network. Specifically, To learn a sharable shape prior from different instances within the same category in the training phase, the physical information of volumetric medical images are firstly utilized to construct the Physical-Informed Continuous Coordinate Transform (PICCT). PICCT transforms the input data in an aligned manner fed into the implicit shape modeling. To better learn shape representation, we introduce implicit shape constraints on top of the signed distance function (SDF) into the implicit shape modeling of both instances and latent template. For the inference phase, a template interaction module (TIM) is proposed to refine initial results produced by CNNs via deforming deep implicit templates with latent codes. Experimental results on three datasets demonstrated the superiority of our approach in shape refinement. The Chamfer Distance/Earth Mover's Distance achieved by the proposed method are 0.232/0.087 on the Liver dataset, 0.128/0.069 on the Pancreas dataset, and 0.417/0.100 on the Lung Lobe dataset.
翻訳日:2023-12-12 16:41:14 公開日:2023-12-11
# adversarial camera patch: 物体検出器に対する効果的でロバストな物理世界攻撃

Adversarial Camera Patch: An Effective and Robust Physical-World Attack on Object Detectors ( http://arxiv.org/abs/2312.06163v1 )

ライセンス: Link先を確認
Kalibinuer Tiliwalidi(参考訳) 今日では、ディープニューラルネットワーク(DNN)の感受性に大きな注目を集めている。 研究者はパッチベースの物理的攻撃を探求しているが、従来のアプローチは効果的だが、しばしばターゲットオブジェクトをカバーする目立ったパッチをもたらす。 これにより、人間の観察者による検出が容易になる。 最近は、カメラパッチを利用してステルス攻撃を行う、新しいカメラベースの物理的攻撃が出現している。 これらの方法は、カメラレンズに直接摂動を導入することで対象物の修正を回避し、ステルス性において顕著なブレークスルーを達成している。 しかし、一般的なカメラベースの戦略は、複雑さをもたらす複数のパッチをカメラレンズに配置する必要がある。 この問題に対処するため,Adversarial Camera Patch (ADCP)を提案する。

Nowadays, the susceptibility of deep neural networks (DNNs) has garnered significant attention. Researchers are exploring patch-based physical attacks, yet traditional approaches, while effective, often result in conspicuous patches covering target objects. This leads to easy detection by human observers. Recently, novel camera-based physical attacks have emerged, leveraging camera patches to execute stealthy attacks. These methods circumvent target object modifications by introducing perturbations directly to the camera lens, achieving a notable breakthrough in stealthiness. However, prevailing camera-based strategies necessitate the deployment of multiple patches on the camera lens, which introduces complexity. To address this issue, we propose an Adversarial Camera Patch (ADCP).
翻訳日:2023-12-12 16:40:46 公開日:2023-12-11
# テキストによる迅速画像復元

Textual Prompt Guided Image Restoration ( http://arxiv.org/abs/2312.06162v1 )

ライセンス: Link先を確認
Qiuhai Yan and Aiwen Jiang and Kang Chen and Long Peng and Qiaosi Yi and Chunjie Zhang(参考訳) 画像復元は、コンピュータビジョンの学術および産業分野において、常に最先端のトピックである。 劣化信号はしばしばランダムで多様であるため、視覚的画像復元が可能なオールインワンモデルは近年懸念されている。 初期の作業では、各関心事の分解を処理するために、特別なヘッダとテールをトレーニングする必要があります。 最近の研究は、データ分布から視覚的なプロンプトを学習して劣化タイプを特定することに焦点を当てている。 しかし、ほとんどのモデルで使われるプロンプトは非テキストであり、人間のループの重要性に十分に重点を置いていない。 本稿では,効果的なテキストプロンプトガイド画像復元モデルを提案する。 このモデルでは、タスク固有のBERTを微調整し、ユーザの指示を正確に理解し、テキストプロンプトガイダンスを生成する。 奥行き方向マルチヘッド変換注意とゲート畳み込みモジュールは、テキストプロンプトと視覚的特徴の間のギャップを埋めるために設計されている。 提案モデルは,低レベルの視覚領域に意味的プロンプトを導入した。 画像復元タスクを実行するための、自然で正確で制御可能な方法を提供する可能性を強調している。 大規模な実験は、パブリックデノイング、デハジング、デラミニングデータセットで行われている。 実験結果から,従来の最先端手法と比較して,モデルの複雑さを増大させることなく,精度の高い認識と劣化除去を実現することができることがわかった。 関連するソースコードとデータはgithubのhttps://github.com/MoTong-AI-studio/TextPromptIRで公開されている。

Image restoration has always been a cutting-edge topic in the academic and industrial fields of computer vision. Since degradation signals are often random and diverse, "all-in-one" models that can do blind image restoration have been concerned in recent years. Early works require training specialized headers and tails to handle each degradation of concern, which are manually cumbersome. Recent works focus on learning visual prompts from data distribution to identify degradation type. However, the prompts employed in most of models are non-text, lacking sufficient emphasis on the importance of human-in-the-loop. In this paper, an effective textual prompt guided image restoration model has been proposed. In this model, task-specific BERT is fine-tuned to accurately understand user's instructions and generating textual prompt guidance. Depth-wise multi-head transposed attentions and gated convolution modules are designed to bridge the gap between textual prompts and visual features. The proposed model has innovatively introduced semantic prompts into low-level visual domain. It highlights the potential to provide a natural, precise, and controllable way to perform image restoration tasks. Extensive experiments have been done on public denoising, dehazing and deraining datasets. The experiment results demonstrate that, compared with popular state-of-the-art methods, the proposed model can obtain much more superior performance, achieving accurate recognition and removal of degradation without increasing model's complexity. Related source codes and data will be publicly available on github site https://github.com/MoTong-AI-studio/TextPromptIR.
翻訳日:2023-12-12 16:40:36 公開日:2023-12-11
# コントラスト緩和意味雑音感度を用いた非参照画像品質評価のための適応的特徴選択

Adaptive Feature Selection for No-Reference Image Quality Assessment using Contrastive Mitigating Semantic Noise Sensitivity ( http://arxiv.org/abs/2312.06158v1 )

ライセンス: Link先を確認
Xudong Li, Timin Gao, Xiawu Zheng, Runze Hu, Jingyuan Zheng, Yunhang Shen, Ke Li, Yutao Liu, Pingyang Dai, Yan Zhang, Rongrong Ji(参考訳) 現在最先端のNo-Reference Image Quality Assessment (NR-IQA) 法は、通常上流のバックボーンネットワークで特徴抽出を使用する。 しかし、すべての特徴が有益であるわけではないし、有害である可能性もあります。 実験により,小さな特徴空間距離を持つ画像対は,品質スコアが大きく異なることがわかった。 この問題に対処するために,コントラスト学習を用いて上流タスクから有害な特徴を除去するQFM-IQM(Quality-Aware Feature Matching IQA metric)を提案する。 具体的には,画像対と類似した意味的特徴を比較し,品質スコアを変化させ,外乱を導入することで上流タスクの特徴を適応的に調整することで,ニューラルネットワークの意味的ノイズ識別能力を向上させる。 さらに,蒸留フレームワークを用いてデータセットを拡張し,モデルの一般化能力を向上させる。 提案手法は,8つの標準NR-IQAデータセット上での最先端NR-IQA法よりも優れた性能を示し,PLCC値が0.932 (vs. 0.908 in TID2013) と0.913 (vs. 0.894 in LIVEC) である。

The current state-of-the-art No-Reference Image Quality Assessment (NR-IQA) methods typically use feature extraction in upstream backbone networks, which assumes that all extracted features are relevant. However, we argue that not all features are beneficial, and some may even be harmful, necessitating careful selection. Empirically, we find that many image pairs with small feature spatial distances can have vastly different quality scores. To address this issue, we propose a Quality-Aware Feature Matching IQA metric(QFM-IQM) that employs contrastive learning to remove harmful features from the upstream task. Specifically, our approach enhances the semantic noise distinguish capabilities of neural networks by comparing image pairs with similar semantic features but varying quality scores and adaptively adjusting the upstream task's features by introducing disturbance. Furthermore, we utilize a distillation framework to expand the dataset and improve the model's generalization ability. Our approach achieves superior performance to the state-of-the-art NR-IQA methods on 8 standard NR-IQA datasets, achieving PLCC values of 0.932 (vs. 0.908 in TID2013) and 0.913 (vs. 0.894 in LIVEC).
翻訳日:2023-12-12 16:40:14 公開日:2023-12-11
# Open Datasheets: オープンデータセットと責任のあるAIアセスメントのためのマシン可読ドキュメンテーション

Open Datasheets: Machine-readable Documentation for Open Datasets and Responsible AI Assessments ( http://arxiv.org/abs/2312.06153v1 )

ライセンス: Link先を確認
Anthony Cintron Roman, Jennifer Wortman Vaughan, Valerie See, Steph Ballard, Nicolas Schifano, Jehu Torres, Caleb Robinson, Juan M. Lavista Ferres(参考訳) 本稿では、Responsible AI(RAI)を考慮した、オープンデータセットのためのノーコードでマシン可読なドキュメンテーションフレームワークを紹介する。 このフレームワークは、オープンデータセットのアクセシビリティ、理解性、ユーザビリティの向上、発見と使用の容易化、コンテンツとコンテキストの理解の向上、データセットの品質と正確性の評価を目標としている。 提案されたフレームワークは、データセットの評価を合理化し、研究者、データサイエンティスト、その他のオープンデータユーザがニーズや組織ポリシーや規則に合致したデータセットを迅速に識別するのを支援するように設計されている。 フレームワークの実装についても論じ、その可能性の最大化を推奨する。 このフレームワークは、研究や意思決定に使用されるデータの品質と信頼性を高め、より責任と信頼性の高いAIシステムの開発を促進することが期待されている。

This paper introduces a no-code, machine-readable documentation framework for open datasets, with a focus on Responsible AI (RAI) considerations. The framework aims to improve the accessibility, comprehensibility, and usability of open datasets, facilitating easier discovery and use, better understanding of content and context, and evaluation of dataset quality and accuracy. The proposed framework is designed to streamline the evaluation of datasets, helping researchers, data scientists, and other open data users quickly identify datasets that meet their needs and/or organizational policies or regulations. The paper also discusses the implementation of the framework and provides recommendations to maximize its potential. The framework is expected to enhance the quality and reliability of data used in research and decision-making, fostering the development of more responsible and trustworthy AI systems.
翻訳日:2023-12-12 16:39:22 公開日:2023-12-11
# トランスファーとメタラーニングを用いた弱監視探索の性能向上

Improving the performance of weak supervision searches using transfer and meta-learning ( http://arxiv.org/abs/2312.06152v1 )

ライセンス: Link先を確認
Hugues Beauchesne, Zong-En Chen and Cheng-Wei Chiang(参考訳) 弱監督探索は、実験データで訓練できることと、特有の信号特性を学習できることの両方の利点がある。 しかし,弱い監視によるニューラルネットワークの訓練が成功すれば,大量の信号が必要となるため,そのような検索の実用的適用性は限られている。 本研究では、トランスファーとメタラーニングを用いて、実験の少ない信号から学習できるニューラルネットワークの構築を目指す。 一般的なアイデアは、まずシミュレーションでニューラルネットワークをトレーニングすることで、再利用したり、より効率的な学習者になれるコンセプトを学ぶことだ。 ニューラルネットワークは実験データに基づいてトレーニングされ、以前のトレーニングのためより少ない信号を必要とする。 トランスファーとメタラーニングによって,弱い監視検索のパフォーマンスが大幅に向上することがわかった。

Weak supervision searches have in principle the advantages of both being able to train on experimental data and being able to learn distinctive signal properties. However, the practical applicability of such searches is limited by the fact that successfully training a neural network via weak supervision can require a large amount of signal. In this work, we seek to create neural networks that can learn from less experimental signal by using transfer and meta-learning. The general idea is to first train a neural network on simulations, thereby learning concepts that can be reused or becoming a more efficient learner. The neural network would then be trained on experimental data and should require less signal because of its previous training. We find that transfer and meta-learning can substantially improve the performance of weak supervision searches.
翻訳日:2023-12-12 16:39:06 公開日:2023-12-11
# 測定デバイス非依存な超量子状態検出

Measurement-Device-Independent Detection of Beyond-Quantum State ( http://arxiv.org/abs/2312.06151v1 )

ライセンス: Link先を確認
Baichu Yu and Masahito Hayashi(参考訳) 量子論において、複合系上の量子状態は、テンソル積形式を持つ任意の測定要素を持つ非負確率を実現する。 しかし、上記の条件を満たす非量子状態も存在する。 このような状態は超量子状態と呼ばれ、標準ベル試験では検出できない。 量子状態と量子状態とを区別するために、超量子状態検出のための測定デバイス非依存ベル試験を提案する。 提案手法は,実験的なMDI相関を最適に処理し,いくつかの基準に従って既存手法と比較する。 また,MDIプロトコルの検出性に対する入力集合のトモグラフィ完全性の重要性についても論じる。

In quantum theory, a quantum state on a composite system realizes a non-negative probability with any measurement element with a tensor product form. However, there also exists non-quantum states which satisfy the above condition. Such states are called beyond-quantum states, and cannot be detected by standard Bell tests. To distinguish a beyond-quantum state from quantum states,we propose a measurement-device-independent (MDI) Bell test for beyond-quantum state detection. We show that our method processes the experimental MDI correlations in an optimal way, and we compare it to existing methods according to several criteria. We also discuss the importance of tomographic completeness of the input sets to the detectability of the MDI protocol.
翻訳日:2023-12-12 16:38:54 公開日:2023-12-11
# 予測テキスト生成のアンロック:大規模言語モデルを用いた忠実デコードのための制約付きアプローチ

Unlocking Anticipatory Text Generation: A Constrained Approach for Faithful Decoding with Large Language Models ( http://arxiv.org/abs/2312.06149v1 )

ライセンス: Link先を確認
Lifu Tu, Semih Yavuz, Jin Qu, Jiacheng Xu, Rui Meng, Caiming Xiong, Yingbo Zhou(参考訳) 大規模言語モデル(llm)は、テキスト生成の強力な能力を示している。 しかしながら、与えられたプロンプトや命令で最適な結果を達成することは、特に数十億規模のモデルでは困難である。 さらに、毒性や幻覚などの望ましくない行動が現れることがある。 より大きなモデル(例えばChatGPT)はこれらの問題を緩和する強さを示すかもしれないが、完全な予防の保証はない。 本稿では,望ましくない動作を最小限に抑え,命令に忠実性を持たせるための,将来の制約付き生成問題としてテキスト生成の形式化を提案する。 LLMを用いた将来の制約満足度の推定は、テキスト生成プロセスのガイドとなる。 我々は,キーワード制約付き生成(Lin et al., 2020),毒性低下(Gehman et al., 2020),質問応答における事実的正当性(Gao et al., 2023)の3つの異なるテキスト生成タスクにおいて,提案手法の有効性を実証した。

Large Language Models (LLMs) have demonstrated a powerful ability for text generation. However, achieving optimal results with a given prompt or instruction can be challenging, especially for billion-sized models. Additionally, undesired behaviors such as toxicity or hallucinations can manifest. While much larger models (e.g., ChatGPT) may demonstrate strength in mitigating these issues, there is still no guarantee of complete prevention. In this work, we propose formalizing text generation as a future-constrained generation problem to minimize undesirable behaviors and enforce faithfulness to instructions. The estimation of future constraint satisfaction, accomplished using LLMs, guides the text generation process. Our extensive experiments demonstrate the effectiveness of the proposed approach across three distinct text generation tasks: keyword-constrained generation (Lin et al., 2020), toxicity reduction (Gehman et al., 2020), and factual correctness in question-answering (Gao et al., 2023).
翻訳日:2023-12-12 16:38:44 公開日:2023-12-11
# チャンネルとシーケンスの踊り:多変量時系列予測のための効率よい注意に基づくアプローチ

Dance of Channel and Sequence: An Efficient Attention-Based Approach for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2312.06220v1 )

ライセンス: Link先を確認
Haoxin Wang, Yipeng Mo, Nan Yin, Honghe Dai, Bixiong Li, Songhai Fan, Site Mo(参考訳) 近年,多変量時系列解析の予測モデルは,チャネル独立の原理を取り入れて,賞賛できる性能を示した。 それにもかかわらず、多変量予測の結果に根本的な影響を及ぼすチャネル間の複雑な相互作用を認識することが不可欠である。 その結果、チャネル独立の概念は、有効性をある程度提供しながら、ますます非現実的になり、情報劣化につながる。 そこで,本研究では,2段階の自己着脱機構を細心の注意で設計した,革新的な枠組みであるcsformerを提案する。 このメカニズムは、シーケンス固有の情報とチャネル固有の情報を分離して抽出し、パラメータを共有して、シーケンスとチャネル間の相乗効果と相互強化を促進するように設計されている。 同時に、シーケンスアダプタとチャネルアダプタを導入し、モデルが様々な次元にまたがるサルエント特徴を識別する能力を保証する。 複数の実世界のデータセットにまたがる厳密な実験は、我々のアプローチの堅牢性を強調し、すべてのデータセットで予測パフォーマンスの最前線に一貫して位置を確立します。 この拡張により、多変量時系列データ固有の特徴抽出能力が大幅に向上し、利用可能な情報のより包括的な活用が容易になる。

In recent developments, predictive models for multivariate time series analysis have exhibited commendable performance through the adoption of the prevalent principle of channel independence. Nevertheless, it is imperative to acknowledge the intricate interplay among channels, which fundamentally influences the outcomes of multivariate predictions. Consequently, the notion of channel independence, while offering utility to a certain extent, becomes increasingly impractical, leading to information degradation. In response to this pressing concern, we present CSformer, an innovative framework characterized by a meticulously engineered two-stage self-attention mechanism. This mechanism is purposefully designed to enable the segregated extraction of sequence-specific and channel-specific information, while sharing parameters to promote synergy and mutual reinforcement between sequences and channels. Simultaneously, we introduce sequence adapters and channel adapters, ensuring the model's ability to discern salient features across various dimensions. Rigorous experimentation, spanning multiple real-world datasets, underscores the robustness of our approach, consistently establishing its position at the forefront of predictive performance across all datasets. This augmentation substantially enhances the capacity for feature extraction inherent to multivariate time series data, facilitating a more comprehensive exploitation of the available information.
翻訳日:2023-12-12 16:32:24 公開日:2023-12-11
# 解釈可能な視点に基づく軌道予測モデル

Interpretable Long Term Waypoint-Based Trajectory Prediction Model ( http://arxiv.org/abs/2312.06219v1 )

ライセンス: Link先を確認
Amina Ghoul, Itheri Yahiaoui (URCA), Fawzi Nashashibi(参考訳) 複雑な環境でのダイナミックエージェントの将来の軌跡を予測することは、自律運転、ロボット工学、人間とコンピュータの相互作用など、さまざまな用途に不可欠である。 エージェントの動作が未知であり、本質的にマルチモーダルであるため、これは難しい作業である。 我々の重要な洞察は、エージェントの行動は、過去の軌跡や、その直接的な環境との相互作用だけでなく、主に長期的視点(LTW)にも影響されるということである。 本稿では,軌道予測フレームワークの性能に対する長期的目標の付加が与える影響について検討する。 本稿では,long term waypoint-driven prediction framework (waydcm)を提案する。 WayDCMは、まず、離散選択モデル(DCM)とニューラルネットワークモデル(NN)を組み合わせて、環境との相互作用とLTWを符号化することで、エージェントの中間目標(IG)を予測する。 そして、モデルが対応する軌道を予測する。 これは、エージェントが自分の軌道を予測する究極の意図を考慮しない以前の研究とは対照的である。 waymo open datasetにおけるアプローチの有効性を評価し,その効果を示す。

Predicting the future trajectories of dynamic agents in complex environments is crucial for a variety of applications, including autonomous driving, robotics, and human-computer interaction. It is a challenging task as the behavior of the agent is unknown and intrinsically multimodal. Our key insight is that the agents behaviors are influenced not only by their past trajectories and their interaction with their immediate environment but also largely with their long term waypoint (LTW). In this paper, we study the impact of adding a long-term goal on the performance of a trajectory prediction framework. We present an interpretable long term waypoint-driven prediction framework (WayDCM). WayDCM first predict an agent's intermediate goal (IG) by encoding his interactions with the environment as well as his LTW using a combination of a Discrete choice Model (DCM) and a Neural Network model (NN). Then, our model predicts the corresponding trajectories. This is in contrast to previous work which does not consider the ultimate intent of the agent to predict his trajectory. We evaluate and show the effectiveness of our approach on the Waymo Open dataset.
翻訳日:2023-12-12 16:32:03 公開日:2023-12-11
# 構造化状態空間モデルは深いワイナーモデルである

Structured state-space models are deep Wiener models ( http://arxiv.org/abs/2312.06211v1 )

ライセンス: Link先を確認
Fabio Bonassi, Carl Andersson, Per Mattsson, Thomas B. Sch\"on(参考訳) 本稿では,構造化状態空間モデル (structured state-space model, ssms) のシステム識別に優しく導入することを目的とする。 これらのモデルは、並列性のため、非常に長いシーケンスの分類と回帰問題に取り組むために効率的かつスカラーに訓練できるため、機械学習コミュニティで最近人気がある。 興味深いことに、SSMは深層Wienerモデルを学習する効果的な方法として現れ、システム識別によく使用されるモデルクラスの拡張としてSSMを再構成することができる。 機械学習とシステム識別コミュニティ間のアイデアの多様さを刺激するために,最近のトピックに対するコントリビューションを構造化され,アクセス可能な形式で要約することが有用であると考えられる。 最後に、このコミュニティが影響力のある貢献を提供するための将来の研究の方向性を強調する。

The goal of this paper is to provide a system identification-friendly introduction to the Structured State-space Models (SSMs). These models have become recently popular in the machine learning community since, owing to their parallelizability, they can be efficiently and scalably trained to tackle extremely-long sequence classification and regression problems. Interestingly, SSMs appear as an effective way to learn deep Wiener models, which allows to reframe SSMs as an extension of a model class commonly used in system identification. In order to stimulate a fruitful exchange of ideas between the machine learning and system identification communities, we deem it useful to summarize the recent contributions on the topic in a structured and accessible form. At last, we highlight future research directions for which this community could provide impactful contributions.
翻訳日:2023-12-12 16:31:43 公開日:2023-12-11
# 目的地ではなく旅路:データがどのように拡散モデルを導くか

The Journey, Not the Destination: How Data Guides Diffusion Models ( http://arxiv.org/abs/2312.06205v1 )

ライセンス: Link先を確認
Kristian Georgiev, Joshua Vendrow, Hadi Salman, Sung Min Park, Aleksander Madry(参考訳) 大規模データセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。 しかし、これらの画像をトレーニングデータに帰属させることで、画像の生成を引き起こした特定のトレーニング例を特定することが課題となる。 本稿では,以下の枠組みを提案する。 (i)拡散モデルの文脈におけるデータ帰属という形式的概念を提供し、 (ii)このような帰属を事実上検証することができる。 そして,これらの属性を効率的に計算する方法を提案する。 最後に, CIFAR-10 で訓練された拡散確率モデルと MS COCO で訓練された潜伏拡散モデルに寄与する要因を同定し, 評価する。 私たちはhttps://github.com/MadryLab/journey-TRAKでコードを提供しています。

Diffusion models trained on large datasets can synthesize photo-realistic images of remarkable quality and diversity. However, attributing these images back to the training data-that is, identifying specific training examples which caused an image to be generated-remains a challenge. In this paper, we propose a framework that: (i) provides a formal notion of data attribution in the context of diffusion models, and (ii) allows us to counterfactually validate such attributions. Then, we provide a method for computing these attributions efficiently. Finally, we apply our method to find (and evaluate) such attributions for denoising diffusion probabilistic models trained on CIFAR-10 and latent diffusion models trained on MS COCO. We provide code at https://github.com/MadryLab/journey-TRAK .
翻訳日:2023-12-12 16:31:29 公開日:2023-12-11
# エッジコンピューティングネットワークにおけるAI生成コンテンツサービスのオフロードと品質管理

Offloading and Quality Control for AI Generated Content Services in Edge Computing Networks ( http://arxiv.org/abs/2312.06203v1 )

ライセンス: Link先を確認
Yitong Wang, Chang Liu, Jun Zhao(参考訳) AI-Generated Content(AIGC)は、今後のインターネットパラダイムにおけるMetaverseサービスの提供方法として、没入要求の障害を解決することができる。 同時に、エッジコンピューティングは、通信システムにおけるコンピューティングの進化パラダイムとして、リアルタイムのインタラクティブなサービスを効果的に強化する。 AIGCサービスのアクセシビリティを高めるために、エッジサーバやローカルデバイスへのAIGCモデル(拡散モデルなど)のデプロイが主流となっている。 それでもこのアプローチでは,タスクをローカルデバイスにオフロードする場合に,バッテリ寿命や計算リソースによって課される制約に直面する。 したがって、AIGCモデルの有用性とエッジコンピューティングパラダイムにおける決定のオフロードとの間にはトレードオフがある。 本稿では,逆拡散段階における拡散モデルのオフロード決定,計算時間,拡散ステップに関する共同最適化アルゴリズムを提案する。 さらに,得られた結果の質を評価する指標として,平均誤差を考慮に入れた。 実験結果から,提案アルゴリズムはベースラインよりも優れた継手最適化性能が得られることが示された。

AI-Generated Content (AIGC), as a novel manner of providing Metaverse services in the forthcoming Internet paradigm, can resolve the obstacles of immersion requirements. Concurrently, edge computing, as an evolutionary paradigm of computing in communication systems, effectively augments real-time interactive services. In pursuit of enhancing the accessibility of AIGC services, the deployment of AIGC models (e.g., diffusion models) to edge servers and local devices has become a prevailing trend. Nevertheless, this approach faces constraints imposed by battery life and computational resources when tasks are offloaded to local devices, limiting the capacity to deliver high-quality content to users while adhering to stringent latency requirements. So there will be a tradeoff between the utility of AIGC models and offloading decisions in the edge computing paradigm. This paper proposes a joint optimization algorithm for offloading decisions, computation time, and diffusion steps of the diffusion models in the reverse diffusion stage. Moreover, we take the average error into consideration as the metric for evaluating the quality of the generated results. Experimental results conclusively demonstrate that the proposed algorithm achieves superior joint optimization performance compared to the baselines.
翻訳日:2023-12-12 16:31:18 公開日:2023-12-11
# 集中摂動による移動可能な敵攻撃に向けて

Towards Transferable Adversarial Attacks with Centralized Perturbation ( http://arxiv.org/abs/2312.06199v1 )

ライセンス: Link先を確認
Shangbo Wu, Yu-an Tan, Yajie Wang, Ruinan Ma, Wencong Ma and Yuanzhang Li(参考訳) adversarial transferabilityは、未知の被害者ディープニューラルネットワーク(dnn)に対するブラックボックス攻撃を可能にし、現実世界のシナリオで実行可能な攻撃をレンダリングする。 現在の転送可能攻撃は、画像全体に敵対的な摂動を引き起こし、ソースモデルに過剰なノイズをもたらします。 モデルに依存しない支配的な画像領域に摂動を集中させることは、対向効果を改善するために重要である。 しかし、空間領域内の局所領域への摂動の制限は、転送可能性の増大に不十分であることを示す。 そこで本研究では,周波数領域に細粒度摂動最適化を施した移動可能な逆攻撃を提案し,集中摂動を生成する。 摂動最適化を支配的周波数係数に動的に制約する系統的パイプラインを考案する。 制約は各イテレーションで並列に最適化され、モデル予測と摂動最適化の方向アライメントを保証する。 提案手法により,DNNが共有するサンプル固有の重要な周波数特徴に対する摂動を集中化し,ソースモデルの過度な適合を効果的に緩和する。 実験により, 支配周波数係数に摂動を動的に集中させることにより, 対向型実例はより強い伝達性を示し, 種々の防御を回避できることが示されている。

Adversarial transferability enables black-box attacks on unknown victim deep neural networks (DNNs), rendering attacks viable in real-world scenarios. Current transferable attacks create adversarial perturbation over the entire image, resulting in excessive noise that overfit the source model. Concentrating perturbation to dominant image regions that are model-agnostic is crucial to improving adversarial efficacy. However, limiting perturbation to local regions in the spatial domain proves inadequate in augmenting transferability. To this end, we propose a transferable adversarial attack with fine-grained perturbation optimization in the frequency domain, creating centralized perturbation. We devise a systematic pipeline to dynamically constrain perturbation optimization to dominant frequency coefficients. The constraint is optimized in parallel at each iteration, ensuring the directional alignment of perturbation optimization with model prediction. Our approach allows us to centralize perturbation towards sample-specific important frequency features, which are shared by DNNs, effectively mitigating source model overfitting. Experiments demonstrate that by dynamically centralizing perturbation on dominating frequency coefficients, crafted adversarial examples exhibit stronger transferability, and allowing them to bypass various defenses.
翻訳日:2023-12-12 16:30:58 公開日:2023-12-11
# 多視点ディフューザからの最適ビューと幾何蒸留

Optimized View and Geometry Distillation from Multi-view Diffuser ( http://arxiv.org/abs/2312.06198v1 )

ライセンス: Link先を確認
Youjia Zhang, Junqing Yu, Zikai Song, Wei Yang(参考訳) イメージコンディショニング拡散モデルを用いた単一入力ビューからのマルチビュー画像生成は,近年の進歩であり,かなりの可能性を示している。 しかし、合成されたビューの一貫性の欠如や抽出された幾何における過剰なスムーシングといった問題は続いている。 従来の手法では、マルチビュー一貫性モジュールを統合するか、カメラ位置決めの柔軟性とビュー合成の汎用性を制限しながら、ビュー一貫性を高めるために追加の監督を課していた。 本研究では, 幾何抽出時に最適化された放射場を, 以前の研究で用いた体積や光の凝集よりも, より厳密な一貫性とみなす。 マルチビューディフューザからのスコア蒸留により,従来の放射界最適化プロセスにおける臨界バイアスを同定し,補正する。 本研究では,2次元拡散モデルによる無条件雑音を利用した非バイアススコア蒸留法(usd)を導入する。 最適化された放射光フィールドからのレンダリングビューをベースとし、オブジェクト固有のノイズ処理や高品質のマルチビュー画像の生成に適した2次元拡散モデルの2段階の特殊化プロセスを開発する。 最後に,改良された多視点画像から直接忠実な形状とテクスチャを復元する。 経験的評価は、我々の最適化した幾何およびビュー蒸留技術が、広範囲のデータセットでトレーニングされた最先端のモデルに匹敵する結果をもたらし、カメラ位置決めの自由を維持していることを示している。

Generating multi-view images from a single input view using image-conditioned diffusion models is a recent advancement and has shown considerable potential. However, issues such as the lack of consistency in synthesized views and over-smoothing in extracted geometry persist. Previous methods integrate multi-view consistency modules or impose additional supervisory to enhance view consistency while compromising on the flexibility of camera positioning and limiting the versatility of view synthesis. In this study, we consider the radiance field optimized during geometry extraction as a more rigid consistency prior, compared to volume and ray aggregation used in previous works. We further identify and rectify a critical bias in the traditional radiance field optimization process through score distillation from a multi-view diffuser. We introduce an Unbiased Score Distillation (USD) that utilizes unconditioned noises from a 2D diffusion model, greatly refining the radiance field fidelity. we leverage the rendered views from the optimized radiance field as the basis and develop a two-step specialization process of a 2D diffusion model, which is adept at conducting object-specific denoising and generating high-quality multi-view images. Finally, we recover faithful geometry and texture directly from the refined multi-view images. Empirical evaluations demonstrate that our optimized geometry and view distillation technique generates comparable results to the state-of-the-art models trained on extensive datasets, all while maintaining freedom in camera positioning.
翻訳日:2023-12-12 16:30:37 公開日:2023-12-11
# DisControlFace:パーソナライズされた顔画像編集のためのアンタングル制御

DisControlFace: Disentangled Control for Personalized Facial Image Editing ( http://arxiv.org/abs/2312.06193v1 )

ライセンス: Link先を確認
Haozhe Jia, Yan Li, Hengfei Cui, Di Xu, Changpeng Yang, Yuwang Wang, Tao Yu(参考訳) 本研究は, 顔画像編集のきめ細かな制御に焦点をあて, 忠実で一貫したパーソナライズされた顔の外観を創出することに焦点を当てる。 本稿では,この課題を生成過程における不整合条件制御の探索として認識し,2つの分離成分からなる拡散型フレームワークであるDisControlFaceを提案する。 具体的には,既成の拡散再構成モデルをバックボーンとして活用し,事前学習した重みを凍結することで,同一性シフトを低減し,入力画像の編集非関連詳細を復元する。 さらに,推定顔パラメータに基づいて空間制御条件を生成するために,再構成バックボーンと互換性のある並列制御ネットワークを構築した。 最後に,トレーニングパイプラインをマスク型自動コーディング形式に再編成し,制御不能のトレーニングを効果的に達成する。 我々のDisControlNetは、大規模な2Dインザワイルドポートレートのトレーニングを通じて、どんな顔画像でも堅牢な編集を行えます。 広範囲な実験により、discontrolfaceは様々な顔制御条件に対応する現実的な顔画像を生成することができ、またパーソナライズされた顔詳細の保存を著しく改善できることが示されている。

In this work, we focus on exploring explicit fine-grained control of generative facial image editing, all while generating faithful and consistent personalized facial appearances. We identify the key challenge of this task as the exploration of disentangled conditional control in the generation process, and accordingly propose a novel diffusion-based framework, named DisControlFace, comprising two decoupled components. Specifically, we leverage an off-the-shelf diffusion reconstruction model as the backbone and freeze its pre-trained weights, which helps to reduce identity shift and recover editing-unrelated details of the input image. Furthermore, we construct a parallel control network that is compatible with the reconstruction backbone to generate spatial control conditions based on estimated explicit face parameters. Finally, we further reformulate the training pipeline into a masked-autoencoding form to effectively achieve disentangled training of our DisControlFace. Our DisControlNet can perform robust editing on any facial image through training on large-scale 2D in-the-wild portraits and also supports low-cost fine-tuning with few additional images to further learn diverse personalized priors of a specific person. Extensive experiments demonstrate that DisControlFace can generate realistic facial images corresponding to various face control conditions, while significantly improving the preservation of the personalized facial details.
翻訳日:2023-12-12 16:30:12 公開日:2023-12-11
# NutritionVerse-Synth:食事摂取推定のためのオープンアクセス合成2次元食品シーンデータセット

NutritionVerse-Synth: An Open Access Synthetically Generated 2D Food Scene Dataset for Dietary Intake Estimation ( http://arxiv.org/abs/2312.06192v1 )

ライセンス: Link先を確認
Saeejith Nair, Chi-en Amy Tai, Yuhao Chen, Alexander Wong(参考訳) 手動で食事日記による栄養摂取を追跡することは、エラーを起こしやすく、負担がかかる。 自動コンピュータビジョン技術は、食事の監視を約束するが、大規模で多様な食品画像データセットを必要とする。 このニーズに対処するために,大規模な合成食品画像データセットであるNutritionVerse-Synth(NV-Synth)を紹介する。 NV-Synthは7,082枚の動的3Dシーンからレンダリングされた84,984枚のフォトリアリスティックな食事画像を含んでいる。 各シーンは12の視点から捉えられ、rgb、深度、意味、インスタンス、アモーダルセグメンテーションマスク、バウンディングボックス、食品アイテム毎の詳細な栄養情報といった完璧な地上真実のアノテーションを含んでいる。 食品, 組成, 視点, 照明におけるNV-Synthの多様性を示す。 最大のオープンソース合成食品データセットであるNV-Synthは、多様なフォトリアリスティックな食事画像のスケーラブルで制御可能な生成を可能にし、データ制限を克服し、コンピュータビジョンを用いた自動食事評価の進歩を促進するために、物理学に基づくシミュレーションの価値を強調している。 データセットに加えて、データ生成フレームワークのソースコードもhttps://saeejithnair.github.io/nvsynthで公開されています。

Manually tracking nutritional intake via food diaries is error-prone and burdensome. Automated computer vision techniques show promise for dietary monitoring but require large and diverse food image datasets. To address this need, we introduce NutritionVerse-Synth (NV-Synth), a large-scale synthetic food image dataset. NV-Synth contains 84,984 photorealistic meal images rendered from 7,082 dynamically plated 3D scenes. Each scene is captured from 12 viewpoints and includes perfect ground truth annotations such as RGB, depth, semantic, instance, and amodal segmentation masks, bounding boxes, and detailed nutritional information per food item. We demonstrate the diversity of NV-Synth across foods, compositions, viewpoints, and lighting. As the largest open-source synthetic food dataset, NV-Synth highlights the value of physics-based simulations for enabling scalable and controllable generation of diverse photorealistic meal images to overcome data limitations and drive advancements in automated dietary assessment using computer vision. In addition to the dataset, the source code for our data generation framework is also made publicly available at https://saeejithnair.github.io/nvsynth.
翻訳日:2023-12-12 16:29:45 公開日:2023-12-11
# 超微細型から微細型へ:超微細型から微粒型へ

From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to Fine-grained ( http://arxiv.org/abs/2312.06188v1 )

ライセンス: Link先を確認
Hongliang Dai, Ziqian Zeng(参考訳) 細粒度エンティティタイプ(fet)のタスクでは、多くのエンティティタイプを使用するため、通常、各型に多数の例を含むトレーニングデータセットを手作業でアノテートするのはコストがかかりすぎると考えられます。 この問題に対処する一般的な方法は、間違ったラベルを含む遠方の注釈付きトレーニングデータを使用することである。 しかし、そのようなデータのみで訓練されたモデルの性能は、自動アノテーションのエラーによって制限される可能性がある。 最近では、この従来の方法に従わないアプローチもいくつかある。 しかし、十分な直接的なエンティティタイピングの監督を使わなければ、パフォーマンスが低下する可能性がある。 本稿では,新しい型スキーマが存在する場合,遠方のラベル付きデータを作成する必要性を回避するための新しい手法を提案する。 まず,超微細なエンティティタイピングデータを用いて,極めてボード型のカバレッジを持つエンティティタイピングモデルをトレーニングする。 そして、新しく設計されたきめ細かいエンティティタイプスキーマのためのモデルを作成する必要がある場合。 このスキーマで注釈付けされた少数の例で、トレーニング済みのモデルを単純に微調整することができます。 実験結果から,本手法はFETの性能に優れることがわかった。 また、手動で手動のトレーニングセットのみでモデルを微調整した後、最先端の弱い監督ベースの手法よりも優れている。

For the task of fine-grained entity typing (FET), due to the use of a large number of entity types, it is usually considered too costly to manually annotating a training dataset that contains an ample number of examples for each type. A common way to address this problem is to use distantly annotated training data that contains incorrect labels. However, the performance of models trained solely with such data can be limited by the errors in the automatic annotation. Recently, there are a few approaches that no longer follow this conventional way. But without using sufficient direct entity typing supervision may also cause them to yield inferior performance. In this paper, we propose a new approach that can avoid the need of creating distantly labeled data whenever there is a new type schema. We first train an entity typing model that have an extremely board type coverage by using the ultra-fine entity typing data. Then, when there is a need to produce a model for a newly designed fine-grained entity type schema. We can simply fine-tune the previously trained model with a small number of examples annotated under this schema. Experimental results show that our approach achieves outstanding performance for FET under the few-shot setting. It can also outperform state-of-the-art weak supervision based methods after fine-tuning the model with only a small size manually annotated training set.
翻訳日:2023-12-12 16:29:24 公開日:2023-12-11
# sp-diffdose : swintransformer と projector による多スケール解剖構造融合に基づく放射線線量予測のための条件拡散モデル

SP-DiffDose: A Conditional Diffusion Model for Radiation Dose Prediction Based on Multi-Scale Fusion of Anatomical Structures, Guided by SwinTransformer and Projector ( http://arxiv.org/abs/2312.06187v1 )

ライセンス: Link先を確認
Linjie Fu, Xia Li, Xiuding Cai, Yingkai Wang, Xueyao Wang, Yu Yao, Yali Shen(参考訳) 放射線治療は、がん治療の有効かつ標準的な方法である。 優れた放射線治療計画は常に、経験豊富な専門家による繰り返し試行錯誤によって得られた高品質な線量分布マップに依存している。 しかし、個々の違いと複雑な臨床状況のため、経験豊富な専門家チームでさえ、常に最高の治療計画を達成するのに助けを必要とします。 近年,放射線治療計画プロセスを加速するために線量分布予測手法が多数提案され,良好な結果が得られた。 しかし, 線量分布図は, 臨床応用を制限し, より高頻度な詳細情報を必要とするため, 過剰摂取の問題に苦しむ。 これらの制約に対処するために,SwinTransformerとプロジェクタSP-DiffDoseに基づく線量予測拡散モデルを提案する。 解剖学的構造と線量分布マップの直接的な相関を捉えるために、SP-DiffDoseは構造エンコーダを使用して解剖学的画像から特徴を抽出し、条件拡散プロセスを用いて複数のスケールでノイズと解剖学的画像をブレンドし、徐々に線量分布マップにマッピングする。 リスクのある臓器の線量予測分布を高めるため、sp-diffdoseはネットワークのより深い層でswintransformerを使用して、画像の異なるスケールで特徴をキャプチャする。 融合特徴から良好な表現を学ぶために、sp-diffdoseは設計したプロジェクタを通して融合特徴を通り、線量予測精度を向上させる。 最後に,SP-DiffDoseを内部データセット上で評価する。 その結果,SP-DiffDoseは複数の評価指標において既存手法よりも優れており,本手法の優位性と一般化性を示している。

Radiation therapy serves as an effective and standard method for cancer treatment. Excellent radiation therapy plans always rely on high-quality dose distribution maps obtained through repeated trial and error by experienced experts. However, due to individual differences and complex clinical situations, even seasoned expert teams may need help to achieve the best treatment plan every time quickly. Many automatic dose distribution prediction methods have been proposed recently to accelerate the radiation therapy planning process and have achieved good results. However, these results suffer from over-smoothing issues, with the obtained dose distribution maps needing more high-frequency details, limiting their clinical application. To address these limitations, we propose a dose prediction diffusion model based on SwinTransformer and a projector, SP-DiffDose. To capture the direct correlation between anatomical structure and dose distribution maps, SP-DiffDose uses a structural encoder to extract features from anatomical images, then employs a conditional diffusion process to blend noise and anatomical images at multiple scales and gradually map them to dose distribution maps. To enhance the dose prediction distribution for organs at risk, SP-DiffDose utilizes SwinTransformer in the deeper layers of the network to capture features at different scales in the image. To learn good representations from the fused features, SP-DiffDose passes the fused features through a designed projector, improving dose prediction accuracy. Finally, we evaluate SP-DiffDose on an internal dataset. The results show that SP-DiffDose outperforms existing methods on multiple evaluation metrics, demonstrating the superiority and generalizability of our method.
翻訳日:2023-12-12 16:29:02 公開日:2023-12-11
# KnowGPT: 大規模言語モデルのためのブラックボックス知識注入

KnowGPT: Black-Box Knowledge Injection for Large Language Models ( http://arxiv.org/abs/2312.06185v1 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Hao Chen, Xiao Huang, Daochen Zha, Zailiang Yu(参考訳) ChatGPTのようなジェネレーティブ大型言語モデル(LLM)は、人間-専門家レベルで一般的な質問に答えるインタラクティブAPIを提供する。 しかしながら、これらのモデルは、トレーニングコーパスにカバーされていないドメイン固有の知識や専門的な知識を必要とする質問に直面した時に、不正確な、または誤った応答を与えることが多い。 さらに、最先端のLLMの多くはオープンソースではないため、モデルAPIでのみ知識を注入することは困難である。 本研究では,LLMのためのブラックボックス知識注入フレームワークであるKnowGPTを紹介する。 KnowGPTは、深い強化学習(RL)を活用して知識グラフ(KGs)から関連する知識を抽出し、マルチアーメッド帯域(MAB)を使用して各質問に最適なプロンプトを構築する。 3つのベンチマークデータセットに関する広範な実験では、knowgptが既存のメソッドを大幅に強化しています。 特に、KnowGPTはChatGPTよりも平均23.7%改善し、GPT-4より平均2.9%改善した。 さらに、KnowGPTはOpenbookQAの公式リーダーボードで91.6%の精度を達成している。

Generative Large Language Models (LLMs), such as ChatGPT, offer interactive APIs that can answer common questions at a human-expert level. However, these models often give inaccurate or incorrect responses when faced with questions requiring domain-specific or professional-specific knowledge not covered in their training corpus. Furthermore, many state-of-the-art LLMs are not open-source, making it challenging to inject knowledge with model APIs only. In this work, we introduce KnowGPT, a black-box knowledge injection framework for LLMs in question answering. KnowGPT leverages deep reinforcement learning (RL) to extract relevant knowledge from Knowledge Graphs (KGs) and use Multi-Armed Bandit (MAB) to construct the most suitable prompt for each question. Our extensive experiments on three benchmark datasets showcase that KnowGPT significantly enhances the existing methods. Notably, KnowGPT achieves an average improvement of 23.7% over ChatGPT and an average improvement of 2.9% over GPT-4. Additionally, KnowGPT attains a 91.6% accuracy on the OpenbookQA official leaderboard, which is comparable to human-level performance.
翻訳日:2023-12-12 16:28:28 公開日:2023-12-11
# 決定論的ヒト運動予測の最近の進歩 : 概観

Recent Advances in Deterministic Human Motion Prediction: A Review ( http://arxiv.org/abs/2312.06184v1 )

ライセンス: Link先を確認
Tenghao Deng, Yan Sun(参考訳) 近年,ディープラーニングの継続的な進歩と大規模人間の動作データセットの出現により,人間とコンピュータのインタラクション,自律運転,スポーツ分析,人的追跡など,さまざまな分野において人的動作予測技術が徐々に普及している。 この記事では、それぞれの利点とデメリットとともに、このドメインの共通モデルアーキテクチャを紹介します。 また、近年の研究革新を体系的に要約し、この分野における関連論文の詳細な議論に焦点を当て、この分野の発展に関する先見的な洞察を強調する。 さらに,本稿では,既存の手法,一般的なデータセット,評価指標の総合的な概要について述べる。 最後に、この分野における現在の制限について論じ、これらの課題に対処し、人間の動き予測のさらなる進歩を促進するための今後の研究方向を提案する。

In recent years, with the continuous advancement of deep learning and the emergence of large-scale human motion datasets, human motion prediction technology has gradually gained prominence in various fields such as human-computer interaction, autonomous driving, sports analysis, and personnel tracking. This article introduces common model architectures in this domain along with their respective advantages and disadvantages. It also systematically summarizes recent research innovations, focusing on in-depth discussions of relevant papers in these areas, thereby highlighting forward-looking insights into the field's development. Furthermore, this paper provides a comprehensive overview of existing methods, commonly used datasets, and evaluation metrics in this field. Finally, it discusses some of the current limitations in the field and proposes potential future research directions to address these challenges and promote further advancements in human motion prediction.
翻訳日:2023-12-12 16:28:06 公開日:2023-12-11
# なぜ「古典的な」トランスフォーマーは浅いのか?

Why "classic" Transformers are shallow and how to make them go deep ( http://arxiv.org/abs/2312.06182v1 )

ライセンス: Link先を確認
Yueyao Yu, Yin Zhang(参考訳) 2017年の導入以来、Transformerは主要なニューラルネットワークアーキテクチャとして登場し、多くのAI分野における革命的な進歩を触媒している。 Transformerの重要なイノベーションは、コンテキスト情報をキャプチャするセルフアテンション(SA)メカニズムである。 しかし、オリジナルのトランスフォーマーの設計をより深いモデルに拡張することは、不可能ではないにせよ、非常に困難であることが証明されている。 より深いモデルにSA機構の層を積み上げるために様々な修正が提案されているが、この深さ問題の完全な理解はいまだ解明されていない。 本稿では,SA機構の繰り返し適用後,トークンが増加傾向にあること,すなわち,深度問題は 'emph{token similarity escalation}' によって引き起こされるという主張を理論的にも実証的にも包括的に検証する。 分析の結果,非変分先行固有空間と注目行列のスペクトルギャップが大きいことにより,トークンの類似性が線形速度で増大することが判明した。 得られた知見に基づいて,既存の方法と異なり,SA機構全体を分解することなく,外科的に過剰な類似性を除去する簡単な戦略を提案する。 実験結果から,中規模変圧器モデルにおける提案手法の有効性が確認された。

Since its introduction in 2017, Transformer has emerged as the leading neural network architecture, catalyzing revolutionary advancements in many AI disciplines. The key innovation in Transformer is a Self-Attention (SA) mechanism designed to capture contextual information. However, extending the original Transformer design to models of greater depth has proven exceedingly challenging, if not impossible. Even though various modifications have been proposed in order to stack more layers of SA mechanism into deeper models, a full understanding of this depth problem remains elusive. In this paper, we conduct a comprehensive investigation, both theoretically and empirically, to substantiate the claim that the depth problem is caused by \emph{token similarity escalation}; that is, tokens grow increasingly alike after repeated applications of the SA mechanism. Our analysis reveals that, driven by the invariant leading eigenspace and large spectral gaps of attention matrices, token similarity provably escalates at a linear rate. Based on the gained insight, we propose a simple strategy that, unlike most existing methods, surgically removes excessive similarity without discounting the SA mechanism as a whole. Preliminary experimental results confirm the effectiveness of the proposed approach on moderate-scale post-norm Transformer models.
翻訳日:2023-12-12 16:27:52 公開日:2023-12-11
# マルチスケール量子近似最適化アルゴリズム

Multiscale Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2312.06181v1 )

ライセンス: Link先を確認
Ping Zou(参考訳) 量子近似最適化アルゴリズム(QAOA)は、現在のノイズの多い中間スケール量子(NISQ)デバイスにおける組合せ最適化問題の近似解を求めるために設計された標準アルゴリズムの1つである。 古典的アルゴリズムを超越したスピードアップを示す研究の活発な領域である。 低深度でのQAOAの性能は制限されているが、高深度でのQAOAは現在の技術によって制限されている。 本稿では,QAOAの能力と実空間再正規化群変換を取り入れたQAOAの新バージョンを提案する。 数値シミュレーションにより,本アルゴリズムは低深度でもqaoaを用いてランダムに生成されたインスタンスに対して正確な解を与えることができることを示した。 このアルゴリズムは、NISQデバイスが量子優位性を示すのに適している。

The quantum approximate optimization algorithm (QAOA) is one of the canonical algorithms designed to find approximate solutions to combinatorial optimization problems in current noisy intermediate-scale quantum (NISQ) devices. It is an active area of research to exhibit its speedup over classical algorithms. The performance of the QAOA at low depths is limited, while the QAOA at higher depths is constrained by the current techniques. We propose a new version of QAOA that incorporates the capabilities of QAOA and the real-space renormalization group transformation, resulting in enhanced performance. Numerical simulations demonstrate that our algorithm can provide accurate solutions for certain randomly generated instances utilizing QAOA at low depths, even at the lowest depth. The algorithm is suitable for NISQ devices to exhibit a quantum advantage.
翻訳日:2023-12-12 16:27:30 公開日:2023-12-11
# 効率的な機械学習を用いた複雑なシステムの先端点外挿と非定常ダイナミクスのシミュレーション

Extrapolating tipping points and simulating non-stationary dynamics of complex systems using efficient machine learning ( http://arxiv.org/abs/2312.06283v1 )

ライセンス: Link先を確認
Daniel K\"oglmayr, Christoph R\"ath(参考訳) 非線形力学系における先端点遷移のモデルフリーおよびデータ駆動予測は、複雑なシステム科学において困難な課題である。 定常学習データサンプルを用いて非線形力学系の分岐挙動を推定するために,次世代貯水池計算に基づく新しい完全データ駆動機械学習アルゴリズムを提案する。 本手法はチップング点遷移を外挿できることを示す。 さらに, トレーニングされた次世代貯留層計算アーキテクチャを用いて, 時変分岐パラメータを用いた非定常ダイナミクスの予測が可能であることを実証した。 これにより、目に見えないパラメータ領域のポストタイピングポイントダイナミクスをシミュレートすることができる。

Model-free and data-driven prediction of tipping point transitions in nonlinear dynamical systems is a challenging and outstanding task in complex systems science. We propose a novel, fully data-driven machine learning algorithm based on next-generation reservoir computing to extrapolate the bifurcation behavior of nonlinear dynamical systems using stationary training data samples. We show that this method can extrapolate tipping point transitions. Furthermore, it is demonstrated that the trained next-generation reservoir computing architecture can be used to predict non-stationary dynamics with time-varying bifurcation parameters. In doing so, post-tipping point dynamics of unseen parameter regions can be simulated.
翻訳日:2023-12-12 16:22:13 公開日:2023-12-11
# 産業サイバー物理システムにおける予後と健康管理の基礎モデルに関する研究

Survey on Foundation Models for Prognostics and Health Management in Industrial Cyber-Physical Systems ( http://arxiv.org/abs/2312.06261v1 )

ライセンス: Link先を確認
Ruonan Liu, Quanhu Zhang, Te Han, Weidong Zhang, Di Lin, C. L. Philip Chen(参考訳) 産業サイバー物理システム(ICPS)は、コンピュータ科学、通信技術、工学の分野を統合し、現代の製造業と産業の不可欠な構成要素として登場した。 しかし、ICPSは機器の故障、性能劣化、セキュリティ上の脅威など、長期運用において様々な課題に直面している。 効率的なメンテナンスと管理を実現するため、診断と健康管理(PHM)はICPSにおいて障害予測、健康モニタリング、保守意思決定などの重要なタスクに広く適用されている。 bertやgptのような大規模基礎モデル(lfm)の出現は、ai技術の著しい進歩を意味し、chatgptはこの研究パラダイムにおける顕著な成果であり、一般的な人工知能の可能性を保っている。 データ取得技術とデータ処理能力の継続的な向上を考えると、LCMはICPSのPHMドメインにおいて重要な役割を担うことが期待される。 しかし、現在、ICPSにおけるPHMへのLPMの適用については合意が得られておらず、今後の方向性を解明するために体系的なレビューとロードマップが必要である。 このギャップを埋めるために,本論文は基礎となるモデルの重要な要素と最近の進歩を解明する。icpにおけるphmのグランドモデリングの最新動向の包括的検証と理解は,icpの信頼性,可用性,安全性のさらなる向上を図りつつ,産業分野の意思決定者や研究者に貴重な資料を提供することができる。

Industrial Cyber-Physical Systems (ICPS) integrate the disciplines of computer science, communication technology, and engineering, and have emerged as integral components of contemporary manufacturing and industries. However, ICPS encounters various challenges in long-term operation, including equipment failures, performance degradation, and security threats. To achieve efficient maintenance and management, prognostics and health management (PHM) finds widespread application in ICPS for critical tasks, including failure prediction, health monitoring, and maintenance decision-making. The emergence of large-scale foundation models (LFMs) like BERT and GPT signifies a significant advancement in AI technology, and ChatGPT stands as a remarkable accomplishment within this research paradigm, harboring potential for General Artificial Intelligence. Considering the ongoing enhancement in data acquisition technology and data processing capability, LFMs are anticipated to assume a crucial role in the PHM domain of ICPS. However, at present, a consensus is lacking regarding the application of LFMs to PHM in ICPS, necessitating systematic reviews and roadmaps to elucidate future directions. To bridge this gap, this paper elucidates the key components and recent advances in the underlying model.A comprehensive examination and comprehension of the latest advances in grand modeling for PHM in ICPS can offer valuable references for decision makers and researchers in the industrial field while facilitating further enhancements in the reliability, availability, and safety of ICPS.
翻訳日:2023-12-12 16:22:04 公開日:2023-12-11
# 弱教師付き点クラウドセマンティクスセグメンテーションのための適応的アノテーション分布

Adaptive Annotation Distribution for Weakly Supervised Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2312.06259v1 )

ライセンス: Link先を確認
Zhiyi Pan and Nan Zhang and Wei Gao and Shan Liu and Ge Li(参考訳) 弱い教師付きポイントクラウドセマンティクスセグメンテーションは、ポイントクラウドの細かなアノテーションへの依存を緩和する能力から、多くの注目を集めている。 しかし、実際には、スパースアノテーションは通常、点雲に異なる一様でない分布を示し、弱い監督の課題を引き起こす。 そこで本研究では,弱教師付きポイントクラウドセマンティクスセグメンテーションのための適応的アノテーション分散手法を提案する。 具体的には,勾配サンプリング近似解析に確率密度関数を導入し,分散アノテーション分布の影響について検討する。 そこで本研究では,トレーニング段階におけるアノテーションの割合を増大させるため,ラベル対応のクラウドサンプリング戦略を提案する。 さらに,非一様分布のスパースアノテーションによる勾配バイアスを軽減するために,勾配校正関数として乗法動的エントロピーを設計し,認識的不確かさを明示的に低減する。 S3DIS, ScanNetV2, SemanticKITTI のアノテーション分布の異なる複数のラベルレートで, 事前の制限や追加情報なしで総合的な性能向上を実現する。

Weakly supervised point cloud semantic segmentation has attracted a lot of attention due to its ability to alleviate the heavy reliance on fine-grained annotations of point clouds. However, in practice, sparse annotation usually exhibits a distinct non-uniform distribution in point cloud, which poses challenges for weak supervision. To address these issues, we propose an adaptive annotation distribution method for weakly supervised point cloud semantic segmentation. Specifically, we introduce the probability density function into the gradient sampling approximation analysis and investigate the impact of sparse annotations distributions. Based on our analysis, we propose a label-aware point cloud downsampling strategy to increase the proportion of annotations involved in the training stage. Furthermore, we design the multiplicative dynamic entropy as the gradient calibration function to mitigate the gradient bias caused by non-uniformly distributed sparse annotations and explicitly reduce the epistemic uncertainty. Without any prior restrictions and additional information, our proposed method achieves comprehensive performance improvements at multiple label rates with different annotation distributions on S3DIS, ScanNetV2 and SemanticKITTI.
翻訳日:2023-12-12 16:21:36 公開日:2023-12-11
# No Prior Mask: 深層強化学習における冗長行動の排除

No Prior Mask: Eliminate Redundant Action for Deep Reinforcement Learning ( http://arxiv.org/abs/2312.06258v1 )

ライセンス: Link先を確認
Dianyu Zhong, Yiqin Yang, Qianchuan Zhao(参考訳) 大きなアクションスペースは、現実世界に強化学習メソッドを展開する上で、基本的な障害のひとつです。 多くの冗長なアクションは、エージェントが繰り返しまたは無効な試みをし、タスクの失敗につながる。 現在のアルゴリズムは、この問題のためにいくつかの初期調査を行っているが、それらはルールベースのシステムに苦しむか、専門家によるデモンストレーションに依存している。 本研究では,政策最適化においてどのような動作を排除できるかの理論解析を行い,新しい冗長な動作フィルタリング機構を提案する。 他の研究と異なり,本手法では,事前知識を必要としない状態分布間の距離を推定することにより類似度係数を構築する。 さらに,修正逆モデルを組み合わせて,高次元状態空間における広範な計算を回避する。 動作空間の基盤構造を明らかにし、上記の手法に基づいて、No Prior Mask (NPM) という名前の単純な冗長な動作フィルタリング機構を提案する。 本手法は,様々な動作冗長性を有する高次元,画素入力,確率問題に対して広範な実験を行い,優れた性能を示す。 私たちのコードはhttps://github.com/zhongdy15/npmで公開されている。

The large action space is one fundamental obstacle to deploying Reinforcement Learning methods in the real world. The numerous redundant actions will cause the agents to make repeated or invalid attempts, even leading to task failure. Although current algorithms conduct some initial explorations for this issue, they either suffer from rule-based systems or depend on expert demonstrations, which significantly limits their applicability in many real-world settings. In this work, we examine the theoretical analysis of what action can be eliminated in policy optimization and propose a novel redundant action filtering mechanism. Unlike other works, our method constructs the similarity factor by estimating the distance between the state distributions, which requires no prior knowledge. In addition, we combine the modified inverse model to avoid extensive computation in high-dimensional state space. We reveal the underlying structure of action spaces and propose a simple yet efficient redundant action filtering mechanism named No Prior Mask (NPM) based on the above techniques. We show the superior performance of our method by conducting extensive experiments on high-dimensional, pixel-input, and stochastic problems with various action redundancy. Our code is public online at https://github.com/zhongdy15/npm.
翻訳日:2023-12-12 16:21:14 公開日:2023-12-11
# ニューラルオートエンコーダを用いた高次元物理系の構造保存モデル次数削減と制御設計

Neural Autoencoder-Based Structure-Preserving Model Order Reduction and Control Design for High-Dimensional Physical Systems ( http://arxiv.org/abs/2312.06256v1 )

ライセンス: Link先を確認
Marco Lepri, Davide Bacciu, Cosimo Della Santina(参考訳) 本研究は,高次元物理系の低次元近似の制御指向および構造保存学習を,機械システムに焦点をあてるものである。 モデルオーダ削減におけるニューラルオートエンコーダの統合について検討すると同時に,ハミルトニアン構造やラグランジアン構造も保存する。 我々は,何百もの状態を有する大規模バネダンパーネットワーク上でシミュレーションおよび制御実験を行うことで,検討手法を広範囲に評価することに焦点を当てた。 実験により, 5自由度未満の圧縮潜在力学は, 相対誤差約4倍の時間的, 定常状態の挙動を正確に再現し, 同時に総エネルギーを正確に再構成できることがわかった。 このシステム圧縮技術を利用して, 圧縮モデルの数学的構造を利用して, 過度に動作しない機械システムの構成を制御できるモデルベース制御器を提案する。

This work concerns control-oriented and structure-preserving learning of low-dimensional approximations of high-dimensional physical systems, with a focus on mechanical systems. We investigate the integration of neural autoencoders in model order reduction, while at the same time preserving Hamiltonian or Lagrangian structures. We focus on extensively evaluating the considered methodology by performing simulation and control experiments on large mass-spring-damper networks, with hundreds of states. The empirical findings reveal that compressed latent dynamics with less than 5 degrees of freedom can accurately reconstruct the original systems' transient and steady-state behavior with a relative total error of around 4\%, while simultaneously accurately reconstructing the total energy. Leveraging this system compression technique, we introduce a model-based controller that exploits the mathematical structure of the compressed model to regulate the configuration of heavily underactuated mechanical systems.
翻訳日:2023-12-12 16:20:56 公開日:2023-12-11
# Ensemble Interpretation: 解釈可能な機械学習のための統一手法

Ensemble Interpretation: A Unified Method for Interpretable Machine Learning ( http://arxiv.org/abs/2312.06255v1 )

ライセンス: Link先を確認
Chao Min, Guoyong Liao, Guoquan Wen, Yingjun Li, Xing Guo(参考訳) 解釈可能な学習における安定性と忠実さの問題に対処するため,様々な解釈方法の多視点的説明を統合する新しい解釈可能な手法であるアンサンブル解釈を提案する。 一方,異なる解釈方法の共通機構を記述するための統一パラダイムを定義し,より安定した説明を実現するために複数の解釈結果を統合する。 一方,先行知識に基づく教師付き評価手法を提案し,解釈手法の説明性能を評価する。 実験の結果、アンサンブル解釈は人間の経験や認知とより安定し、より一貫性があることが示された。 アプリケーションとして,特徴選択にアンサンブル解釈を用い,それに対応する学習モデルの一般化性能を大幅に向上させる。

To address the issues of stability and fidelity in interpretable learning, a novel interpretable methodology, ensemble interpretation, is presented in this paper which integrates multi-perspective explanation of various interpretation methods. On one hand, we define a unified paradigm to describe the common mechanism of different interpretation methods, and then integrate the multiple interpretation results to achieve more stable explanation. On the other hand, a supervised evaluation method based on prior knowledge is proposed to evaluate the explaining performance of an interpretation method. The experiment results show that the ensemble interpretation is more stable and more consistent with human experience and cognition. As an application, we use the ensemble interpretation for feature selection, and then the generalization performance of the corresponding learning model is significantly improved.
翻訳日:2023-12-12 16:20:38 公開日:2023-12-11
# Modyn: サンプルレベルデータ選択による動的データセットのモデルトレーニングプラットフォーム

Modyn: A Platform for Model Training on Dynamic Datasets With Sample-Level Data Selection ( http://arxiv.org/abs/2312.06254v1 )

ライセンス: Link先を確認
Maximilian B\"other, Viktor Gsteiger, Ties Robroek, Ana Klimovic(参考訳) 機械学習のトレーニングデータは、多くの場合、実際のユースケースでは動的である。 モデルは、一般化を改善し、潜在的な流通シフトに適応し、プライバシー規制に従うために、この進化するトレーニングデータを組み込まなければならない。 しかし、モデル(リトレーニング)のコストは、モデルがどれだけの頻度でトレーニングするか、そしてどれだけのデータをトレーニングするかに比例する。 MLリサーチはこれらのトピックを分離して探求するが、モデルの再トレーニングとデータ選択ポリシの探索と、これらのアルゴリズムの大規模展開を容易にする、エンドツーエンドのオープンソースプラットフォームは存在しない。 サンプルレベルのデータ選択とトリガポリシを可能にする動的データセットのモデルトレーニング用プラットフォームであるModynを提案する。 Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートし、効率的なデータ選択を行う。 Modynの拡張可能なアーキテクチャでは、プラットフォームコードを変更することなくトレーニングパイプラインを実行できる。 modynのトレーニングスループットを評価し,メモリバウンダリシステムワークロードにおいても,サンプルレベルのデータ選択を伴わずに大量のデータをローカルにロードする場合と比較して,80~100パーセントのスループットを達成可能であることを示した。 さらに、3つの異なるデータ選択ポリシーでModynの機能を紹介します。

Machine learning training data is often dynamic in real-world use cases, i.e., data is added or removed and may experience distribution shifts over time. Models must incorporate this evolving training data to improve generalization, adapt to potential distribution shifts, and adhere to privacy regulations. However, the cost of model (re)training is proportional to how often the model trains and on how much data it trains on. While ML research explores these topics in isolation, there is no end-to-end open-source platform to facilitate the exploration of model retraining and data selection policies and the deployment these algorithms efficiently at scale. We present Modyn, a platform for model training on dynamic datasets that enables sample-level data selection and triggering policies. Modyn orchestrates continuous training pipelines while optimizing the underlying system infrastructure to support fast access to arbitrary data samples for efficient data selection. Modyn's extensible architecture allows users to run training pipelines without modifying the platform code, and enables researchers to effortlessly extend the system. We evaluate Modyn's training throughput, showing that even in memory-bound recommendation systems workloads, Modyn is able to reach 80 to 100 % of the throughput compared to loading big chunks of data locally without sample-level data selection. Additionally, we showcase Modyn's functionality with three different data selection policies.
翻訳日:2023-12-12 16:20:25 公開日:2023-12-11
# コードレビュー予測モデルにおけるチーム関連機能

Team-related Features in Code Review Prediction Models ( http://arxiv.org/abs/2312.06244v1 )

ライセンス: Link先を確認
Eduardo Witter and Ingrid Nunes and Dietmar Jannach(参考訳) Modern Code Review (MCR)は、非公式のツールアシスト品質保証プラクティスである。 フィードバックを提供する開発者であるコード変更とレビュアーの作者間の非同期通信に依存しています。 しかし、候補開発者からは、特定のコンテキストで与えられたものよりも優れたフィードバックを提供できるものもあります。 したがって、レビュアーの選択は、自動サポートの恩恵を受けることができる重要なタスクである。 コードレビューレポジトリのデータを使ってレビュアーを推薦するなど、この方向に多くのアプローチが提案されている。 本稿では、コードレビュアの推薦者構築に役立つ予測性能を向上させるために、チーム関連機能を利用することを提案する。 我々は、コードのオーナシップ、ワークロード、チーム関係に関連するこれらの機能の予測能力を評価する。 この評価は、データセットの時間的側面やバランスの取れていないクラスなど、MCRドメインが課した課題に慎重に対処することで行われた。 さらに,MCR予測モデルの構築にどれだけのデータが必要かは,現在不明であるため,予測モデルの構築に使用される過去のデータ量について検討する。 結果から,コードオーナシップに関連する機能が最も優れた予測能力を有することがわかった。 しかし、機能選択に基づいて、提案するすべての機能とコード行がレビュアーの参加とフィードバックの量の両方に対して最適な予測を行うことができると結論づける。 過去のデータ量については、3, 6, 9, 12ヶ月のデータでも同様の結果が得られる。 したがって、モデルは短い時間枠を考慮して訓練することができ、予測性能に無視できる影響で計算コストを削減できる。

Modern Code Review (MCR) is an informal tool-assisted quality assurance practice. It relies on the asynchronous communication among the authors of code changes and reviewers, who are developers that provide feedback. However, from candidate developers, some are able to provide better feedback than others given a particular context. The selection of reviewers is thus an important task, which can benefit from automated support. Many approaches have been proposed in this direction, using for example data from code review repositories to recommend reviewers. In this paper, we propose the use of team-related features to improve the performance of predictions that are helpful to build code reviewer recommenders, with our target predictions being the identification of reviewers that would participate in a review and the provided amount of feedback. We evaluate the prediction power of these features, which are related to code ownership, workload, and team relationship. This evaluation was done by carefully addressing challenges imposed by the MCR domain, such as temporal aspects of the dataset and unbalanced classes. Moreover, given that it is currently unknown how much past data is needed for building MCR prediction models with acceptable performance, we explore the amount of past data used to build prediction models. Our results show that, individually, features related to code ownership have the best prediction power. However, based on feature selection, we conclude that all proposed features together with lines of code can make the best predictions for both reviewer participation and amount of feedback. Regarding the amount of past data, the timeframes of 3, 6, 9, and 12 months of data produce similar results. Therefore, models can be trained considering short timeframes, thus reducing the computational costs with negligible impact in the prediction performance ...
翻訳日:2023-12-12 16:20:00 公開日:2023-12-11
# UIEDP:拡散前処理による水中画像の強調

UIEDP:Underwater Image Enhancement with Diffusion Prior ( http://arxiv.org/abs/2312.06240v1 )

ライセンス: Link先を確認
Dazhao Du, Enhan Li, Lingyu Si, Fanjiang Xu, Jianwei Niu, Fuchun Sun(参考訳) 水中画像強調(UIE)は,低品質水中画像から鮮明な画像を生成することを目的としている。 明確な参照画像が利用できないため、研究者はしばしばそれらを合成して、深層モデルのトレーニングのためのペアデータセットを構築する。 しかし、これらの合成画像は品質に欠け、トレーニング結果に悪影響を及ぼすことがある。 この問題に対処するために, 劣化水中入力に条件付きクリア画像の後方分布サンプリングプロセスとして, UIE を扱う新しいフレームワークである Diffusion Prior (UIEDP) を提案する。 具体的には、uiedpは自然画像と既存のuieアルゴリズムを事前学習した拡散モデルを組み合わせて、条件生成を導く。 拡散優先は劣る合成画像の欠点を緩和し、高品質な画像を生成する。 大規模な実験により、UIEDPは様々な指標、特に非参照画像の品質評価において大きな改善をもたらすことが示された。 そして生成された拡張画像は、より自然に見えます。

Underwater image enhancement (UIE) aims to generate clear images from low-quality underwater images. Due to the unavailability of clear reference images, researchers often synthesize them to construct paired datasets for training deep models. However, these synthesized images may sometimes lack quality, adversely affecting training outcomes. To address this issue, we propose UIE with Diffusion Prior (UIEDP), a novel framework treating UIE as a posterior distribution sampling process of clear images conditioned on degraded underwater inputs. Specifically, UIEDP combines a pre-trained diffusion model capturing natural image priors with any existing UIE algorithm, leveraging the latter to guide conditional generation. The diffusion prior mitigates the drawbacks of inferior synthetic images, resulting in higher-quality image generation. Extensive experiments have demonstrated that our UIEDP yields significant improvements across various metrics, especially no-reference image quality assessment. And the generated enhanced images also exhibit a more natural appearance.
翻訳日:2023-12-12 16:19:34 公開日:2023-12-11
# テキスト分析によるスタートアップ成功の改善

Improving Startup Success with Text Analysis ( http://arxiv.org/abs/2312.06236v1 )

ライセンス: Link先を確認
Emily Gavrilenko, Foaad Khosmood, Mahdi Rastad and Sadra Amiri Moghaddam(参考訳) 投資家は、スタートアップ企業の将来の成功を予測することに興味があり、好ましくは無料のオンラインソースを使って収集できる公開データを利用する。 パブリックなデータを使うことはうまくいくが、まだ改善の余地がたくさんある。 ベストパフォーマンス予測実験の2つはそれぞれ17と49の機能を使っており、そのほとんどが自然界の数値とカテゴリーである。 本稿では,より優れた予測を実現するため,情報源と特徴数(171)を大きく拡大し,多様化する。 Crunchbase、Google Search API、Twitter(現在はX)から収集したデータは、企業が固定時間内に資金調達を行うかどうかを予測するために使用される。 新機能の多くはテキストで、Twitterのサブセットには受動的音声や音声の一部の計測などの言語指標が含まれている。 合計10の機械学習モデルも最高のパフォーマンスで評価されている。 適応可能なモデルは、将来への資金提供を1~5年予測するために使用することができる。 比較仮定による予測は、一般的に0.730以上のfスコアを達成し、文献における以前の試み(0.531)を上回り、少ない例で達成する。 さらに、パフォーマンスへの影響の大部分は、同社のフリーフォームのテキスト記述である最高の個々の機能を含む、一般的な企業の観察を主とする171機能のトップ18からなっています。

Investors are interested in predicting future success of startup companies, preferably using publicly available data which can be gathered using free online sources. Using public-only data has been shown to work, but there is still much room for improvement. Two of the best performing prediction experiments use 17 and 49 features respectively, mostly numeric and categorical in nature. In this paper, we significantly expand and diversify both the sources and the number of features (to 171) to achieve better prediction. Data collected from Crunchbase, the Google Search API, and Twitter (now X) are used to predict whether a company will raise a round of funding within a fixed time horizon. Much of the new features are textual and the Twitter subset include linguistic metrics such as measures of passive voice and parts-of-speech. A total of ten machine learning models are also evaluated for best performance. The adaptable model can be used to predict funding 1-5 years into the future, with a variable cutoff threshold to favor either precision or recall. Prediction with comparable assumptions generally achieves F scores above 0.730 which outperforms previous attempts in the literature (0.531), and does so with fewer examples. Furthermore, we find that the vast majority of the performance impact comes from the top 18 of 171 features which are mostly generic company observations, including the best performing individual feature which is the free-form text description of the company.
翻訳日:2023-12-12 16:19:08 公開日:2023-12-11
# タスクfMRI解析空間におけるパイプライン群集の探索

Uncovering communities of pipelines in the task-fMRI analytical space ( http://arxiv.org/abs/2312.06231v1 )

ライセンス: Link先を確認
Elodie Germani (EMPENN), Elisa Fromont (LACODAM), Camille Maumet (EMPENN)(参考訳) 機能的磁気共鳴イメージング分析ワークフローは、パイプラインの選択方法に関する明確なコンセンサスがなく、非常に柔軟である。 この分析空間を探索する手法が開発されているが、パイプライン間の関係についてはまだ理解されていない。 我々は,コミュニティ検出アルゴリズムを用いてパイプライン空間を探索し,その安定性を評価する。 同様の結果を与えるパイプラインのサブセットがあることを示し、特に特定のパラメータ(例えば、モーションレグレッタの数、ソフトウェアパッケージ数など)を共有し、参加者のグループ間で相対的な安定性を示す。 これらの部分集合の違いを可視化することにより、パイプラインパラメータの効果と解析空間における一般的な関係を導出する。

Functional magnetic resonance imaging analytical workflows are highly flexible with no definite consensus on how to choose a pipeline. While methods have been developed to explore this analytical space, there is still a lack of understanding of the relationships between the different pipelines. We use community detection algorithms to explore the pipeline space and assess its stability across different contexts. We show that there are subsets of pipelines that give similar results, especially those sharing specific parameters (e.g. number of motion regressors, software packages, etc.), with relative stability across groups of participants. By visualizing the differences between these subsets, we describe the effect of pipeline parameters and derive general relationships in the analytical space.
翻訳日:2023-12-12 16:18:24 公開日:2023-12-11
# AIベースのリアクティブシステムによるサイバー攻撃の対処 - 全体論と今後の展望

Tackling Cyberattacks through AI-based Reactive Systems: A Holistic Review and Future Vision ( http://arxiv.org/abs/2312.06229v1 )

ライセンス: Link先を確認
Sergio Bernardez Molina and Pantaleone Nespoli and F\'elix G\'omez M\'armol(参考訳) 情報技術(IT)の利用が、今日の世界で指数的な成長を続けていることは否定できない。 このデジタルトランスフォーメーションは、サイバー犯罪の領域において、数多くのセキュリティ上の課題を引き起こしている。 こうした脅威に応えて、公共部門と民間部門はITセキュリティ対策の強化を優先している。 セキュリティ上の懸念が高まる中、人工知能(AI)はサイバーセキュリティの世界で注目を集めている。 本稿では,AIによる脅威応答システムの最近の進歩を包括的に調査する。 私たちの知る限り、AI反応ドメインに関する最新の調査は2017年に実施された。 それ以来、かなりの文献が出版され、レビューする価値がある。 いくつかの共通した特徴により、各研究は共通の根拠で比較される。 この調査は、標準化されたベースで実施された研究論文の分析を通じて、AIをサイバー防衛に統合する複雑さと機会を明らかにすることを目的としている。 この集団分析から得られた結論は、AIとサイバーセキュリティの交差点における進化する展望の包括的なスナップショットを提供する。 この状況は、脅威を予測し発見するだけでなく、効果的にそれに対応することの重要性を高める。 さらに、これらのレビューから、将来に向けた様々な研究課題が提示される。 これらの課題は、AI統合リアクティブ戦略の分野における研究者や実践者のロードマップとして役立ちます。

There is no denying that the use of Information Technology (IT) is undergoing exponential growth in today's world. This digital transformation has also given rise to a multitude of security challenges, notably in the realm of cybercrime. In response to these growing threats, public and private sectors have prioritized the strengthening of IT security measures. In light of the growing security concern, Artificial Intelligence (AI) has gained prominence within the cybersecurity landscape. This paper presents a comprehensive survey of recent advancements in AI-driven threat response systems. To the best of our knowledge, the most recent survey covering the AI reaction domain was conducted in 2017. Since then, considerable literature has been published and therefore it is worth reviewing it. By means of several shared features, each of the studies is compared on a common ground. Through an analysis of the research papers conducted on a standardized basis, this survey aims to unravel the complexities and opportunities of integrating AI into cyber defense. The conclusions drawn from this collective analysis provide a comprehensive snapshot of the evolving landscape at the intersection of AI and cybersecurity. This landscape underscores the growing significance of not only anticipating and detecting threats but also responding to them effectively. Additionally, from these reviews, various research challenges for the future are presented. These challenges serve as a roadmap for researchers and practitioners in the field of AI-integrated reactive strategies.
翻訳日:2023-12-12 16:18:04 公開日:2023-12-11
# デカップリングスタイルとスプリアス特徴を用いた不変表現学習

Invariant Representation Learning via Decoupling Style and Spurious Features ( http://arxiv.org/abs/2312.06226v1 )

ライセンス: Link先を確認
Ruimeng Li, Yuanhao Pu, Zhaoyi Li, Hong Xie, Defu Lian(参考訳) 本稿では,スタイル分布シフトとスプリアス特徴の存在,およびドメインラベルの欠如を前提として,アウト・オブ・ディストリビューション(ood)一般化問題を考える。 この設定は現実世界のアプリケーションで頻繁に発生し、以前のアプローチが主にこれら2つの要因のどちらかを扱うため、見当たらない。 重要な課題は、ドメインラベルの欠如において、スタイルと派手な機能を分離することである。 この課題に対処するために,まず,画像生成プロセスのための構造的因果モデル(scm)を提案する。 提案したSCMは,逆ニューラルネットワークとマルチ環境最適化を導入して,画像からスタイル分布と刺激特徴を段階的に分離し,OOD一般化を実現する,IRSSと呼ばれる新しいフレームワークを設計することができる。 さらに、画像と対応するラベル以外の追加の監督(ドメインラベルなど)を必要としない。 ベンチマークデータセットの実験では、IRSSは従来のOOD法よりも優れており、不変リスク最小化(IRM)劣化の問題を解決し、分散シフトによる不変特徴の抽出を可能にしている。

This paper considers the out-of-distribution (OOD) generalization problem under the setting that both style distribution shift and spurious features exist and domain labels are missing. This setting frequently arises in real-world applications and is underlooked because previous approaches mainly handle either of these two factors. The critical challenge is decoupling style and spurious features in the absence of domain labels. To address this challenge, we first propose a structural causal model (SCM) for the image generation process, which captures both style distribution shift and spurious features. The proposed SCM enables us to design a new framework called IRSS, which can gradually separate style distribution and spurious features from images by introducing adversarial neural networks and multi-environment optimization, thus achieving OOD generalization. Moreover, it does not require additional supervision (e.g., domain labels) other than the images and their corresponding labels. Experiments on benchmark datasets demonstrate that IRSS outperforms traditional OOD methods and solves the problem of Invariant risk minimization (IRM) degradation, enabling the extraction of invariant features under distribution shift.
翻訳日:2023-12-12 16:17:02 公開日:2023-12-11
# 医用ビジョン言語プレトレーニング : アンケート調査

Medical Vision Language Pretraining: A survey ( http://arxiv.org/abs/2312.06224v1 )

ライセンス: Link先を確認
Prashant Shrestha, Sanskar Amgain, Bidur Khanal, Cristian A. Linte, Binod Bhattarai(参考訳) 医療ビジョン言語事前訓練(VLP)は、医療領域におけるラベル付きデータの不足に対する有望な解決策として最近登場した。 自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。 このような事前訓練されたモデルは、複数の下流医療タスクを同時に強化し、ラベル付きデータへの依存を減らす可能性がある。 しかし、近年の進歩とその可能性にもかかわらず、医療用VLPの様々な側面と進歩を探求する総合的な調査論文は存在しない。 本稿では, 事前学習の目的, アーキテクチャ, 下流評価タスク, 事前学習と下流タスクに使用されるデータセットのレンズを用いて, 既存の研究を精査する。 その後、医療vlpにおける現在の課題を考察し、既存のソリューションと潜在的なソリューションについて議論し、今後の方向性を強調することで結論づける。 私たちの知る限りでは、医療用VLPに焦点を当てた最初の調査である。

Medical Vision Language Pretraining (VLP) has recently emerged as a promising solution to the scarcity of labeled data in the medical domain. By leveraging paired/unpaired vision and text datasets through self-supervised learning, models can be trained to acquire vast knowledge and learn robust feature representations. Such pretrained models have the potential to enhance multiple downstream medical tasks simultaneously, reducing the dependency on labeled data. However, despite recent progress and its potential, there is no such comprehensive survey paper that has explored the various aspects and advancements in medical VLP. In this paper, we specifically review existing works through the lens of different pretraining objectives, architectures, downstream evaluation tasks, and datasets utilized for pretraining and downstream tasks. Subsequently, we delve into current challenges in medical VLP, discussing existing and potential solutions, and conclude by highlighting future directions. To the best of our knowledge, this is the first survey focused on medical VLP.
翻訳日:2023-12-12 16:16:23 公開日:2023-12-11
# csot: 騒音ラベル学習のためのカリキュラムと構造認識最適化トランスポート

CSOT: Curriculum and Structure-Aware Optimal Transport for Learning with Noisy Labels ( http://arxiv.org/abs/2312.06221v1 )

ライセンス: Link先を確認
Wanxing Chang, Ye Shi, Jingya Wang(参考訳) ノイズラベル(lnl)を用いた学習は、ラベルの過度な適合を避けつつ、一般化されたモデルのトレーニングにおいて重要な課題となる。 最近の進歩は、クリーンラベルを識別し、トレーニングのために破損したラベルを修正することで、印象的なパフォーマンスを達成している。 しかし、現在のアプローチはモデルの予測に重きを置き、サンプル分布の全体構造と局所構造を考慮せずに各サンプルを独立に評価する。 これらの制限は、典型的には識別と修正のプロセスに対する準最適解となり、最終的には間違ったラベルに過度に適合するモデルにつながる。 本稿では,Curriculum and Structure-Aware Optimal Transport (CSOT)と呼ばれる新しい最適輸送法を提案する。 CSOTはサンプルの分布内構造と分布内構造を同時に考慮し、頑健で可逆なアロケータを構築する。 トレーニングプロセス中、アロケータは信頼できるラベルを信頼度の高いサンプルのごく一部に段階的に割り当てる。 これらのラベルは、グローバル識別性と局所コヒーレンスの両方を有する。 特にCSOTは、非凸目的関数とカリキュラム制約を持つ新しいOT定式化であり、古典的なOTソルバと直接互換性がない。 本稿では, csotを効率的に解くために, 一般化条件勾配フレームワーク内のスケーリング反復を伴う光速計算法を開発した。 大規模実験により,LNLの最先端技術よりも本手法が優れていることが示された。 コードはhttps://github.com/changwxx/CSOT-for-LNLで入手できる。

Learning with noisy labels (LNL) poses a significant challenge in training a well-generalized model while avoiding overfitting to corrupted labels. Recent advances have achieved impressive performance by identifying clean labels and correcting corrupted labels for training. However, the current approaches rely heavily on the model's predictions and evaluate each sample independently without considering either the global and local structure of the sample distribution. These limitations typically result in a suboptimal solution for the identification and correction processes, which eventually leads to models overfitting to incorrect labels. In this paper, we propose a novel optimal transport (OT) formulation, called Curriculum and Structure-aware Optimal Transport (CSOT). CSOT concurrently considers the inter- and intra-distribution structure of the samples to construct a robust denoising and relabeling allocator. During the training process, the allocator incrementally assigns reliable labels to a fraction of the samples with the highest confidence. These labels have both global discriminability and local coherence. Notably, CSOT is a new OT formulation with a nonconvex objective function and curriculum constraints, so it is not directly compatible with classical OT solvers. Here, we develop a lightspeed computational method that involves a scaling iteration within a generalized conditional gradient framework to solve CSOT efficiently. Extensive experiments demonstrate the superiority of our method over the current state-of-the-arts in LNL. Code is available at https://github.com/changwxx/CSOT-for-LNL.
翻訳日:2023-12-12 16:16:05 公開日:2023-12-11
# 2成分量子流体中における渦の超拡散

Superdiffusion of vortices in two-component quantum fluids of light ( http://arxiv.org/abs/2312.06319v1 )

ライセンス: Link先を確認
M. Rold\~ao, J. L. Figueiredo, P. Monteiro, J. T. Mendon\c{c}a, H. Ter\c{c}as(参考訳) 光の2成分量子流体における渦の量子拡散について検討した。 これらの系において、カー非線形性は光子間の相互作用を促進し、ボース=アインシュタイン凝縮の類似した特徴を示す。 光の量子流体は、室温で物質波現象をシミュレートする利点がある。 平均場レベルでは類似性は真であるが、光の量子流体における不純物の完全な量子力学は、真の量子ノイズを特徴付ける能力は考慮されていない。 ボゴリボフスペクトル密度によるノイズの存在下での渦状不純物シミュレーションにより,この問題を数値的に解決し,渦が超拡散することを示す。 我々は、これまで点状粒子のブラウン運動のために開発された理論で結果を支持する。

The quantum diffusion of a vortex in a two-component quantum fluid of light is investigated. In these systems, the Kerr nonlinearity promotes interactions between the photons, displaying features that are analogue of a Bose-Einstein condensates. Quantum fluids of light have the advantage of simulating matter-wave phenomena at room temperatures. While the analogy is true at the mean field level, the full quantum dynamics of an impurity in quantum fluids of light of, and therefore the ability of featuring genuine quantum noise, has never been considered. We numerically solve the problem by simulating a vortex-like impurity in the presence of noise with the Bogoliubov spectral density, and show that the vortex undergoes superdiffusion. We support our results with a theory that has been previously developed for the brownian motion of point-like particles.
翻訳日:2023-12-12 16:08:17 公開日:2023-12-11
# モバイルエッジコンピューティングとAIがWeb3メタバースを6G無線通信で実現 - 深層強化学習アプローチ

Mobile Edge Computing and AI Enabled Web3 Metaverse over 6G Wireless Communications: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2312.06293v1 )

ライセンス: Link先を確認
Wenhan Yu, Terence Jie Chua, Jun Zhao(参考訳) 成熟技術が多目的統合仮想環境の約束と啓発を促進する中、メタバースは学者の間で注目を集めている。 人との対話的で没入的なソーシャル化体験は、Metaverseの約束のひとつだ。 現在の技術の急速な進歩にもかかわらず、メタバースにおけるスムーズでシームレスで没入的な社会化体験に必要な計算は、過剰であり、累積ユーザエクスペリエンスを考えることが不可欠である。 計算負荷は計算のオフロードを要求し、仮想世界と物理世界のシーンの統合はエッジサーバにオフロードされる。 本稿では,マルチチャネル無線ネットワークにおけるマルチユーザ社会化における累積体験のためのqos(quality-of-service)モデルを提案する。 このQoSモデルは、準最適チャネルリソース割り当てを見つけるために、深層強化学習アプローチを利用する。 総合的な実験により、QoSモデルの採用が全体的な社会化体験を促進することが示されている。

The Metaverse is gaining attention among academics as maturing technologies empower the promises and envisagements of a multi-purpose, integrated virtual environment. An interactive and immersive socialization experience between people is one of the promises of the Metaverse. In spite of the rapid advancements in current technologies, the computation required for a smooth, seamless and immersive socialization experience in the Metaverse is overbearing, and the accumulated user experience is essential to be considered. The computation burden calls for computation offloading, where the integration of virtual and physical world scenes is offloaded to an edge server. This paper introduces a novel Quality-of-Service (QoS) model for the accumulated experience in multi-user socialization on a multichannel wireless network. This QoS model utilizes deep reinforcement learning approaches to find the near-optimal channel resource allocation. Comprehensive experiments demonstrate that the adoption of the QoS model enhances the overall socialization experience.
翻訳日:2023-12-12 16:08:05 公開日:2023-12-11
# 位相的フラストレーションXY鎖の位相図に向けて

Towards a phase diagram of the topologically frustrated XY chain ( http://arxiv.org/abs/2312.06291v1 )

ライセンス: Link先を確認
Daniel Sacco Shaikh, Alberto Giuseppe Catalano, Fabio Cavaliere, Fabio Franchini, Maura Sassetti and Niccol\`o Traverso Ziani(参考訳) ランダウ理論の微視的詳細は系の位相に影響を与えないという暗黙の仮定は、位相的フラストレーションが引き起こされるような周期的境界条件を持つ反強磁性量子スピン鎖のような系において、最近初めて挑戦されている。 本研究は,XY鎖の零温度相図を,新しい量子相転移を誘導することにより,逆磁場中で変化させることを示す。 その際、準分散関係を特徴とする2次境界量子相転移の第1のケースに遭遇する。 解析結果は数値解析によって裏付けられ, このフラストレーションモデルにおける位相図の理解の基礎を築いた。

Landau theory's implicit assumption that microscopic details cannot affect the system's phases has been challenged only recently in systems such as antiferromagnetic quantum spin chains with periodic boundary conditions, where topological frustration can be induced. In this work, we show that the latter modifies the zero temperature phase diagram of the XY chain in a transverse magnetic field by inducing new quantum phase transitions. In doing so, we come across the first case of second order boundary quantum phase transition characterized by a quartic dispersion relation. Our analytical results are supported by numerical investigations and lay the foundation for understanding the phase diagram of this frustrated model.
翻訳日:2023-12-12 16:07:49 公開日:2023-12-11
# モデル結合によるフェデレーション学習におけるラベルスキューの爆発

Exploiting Label Skews in Federated Learning with Model Concatenation ( http://arxiv.org/abs/2312.06290v1 )

ライセンス: Link先を確認
Yiqun Diao, Qinbin Li, Bingsheng He(参考訳) Federated Learning (FL)は、生データを交換することなく、異なるデータ所有者でディープラーニングを実行するための有望なソリューションとして登場した。 しかし、非IIDデータはFLの重要な課題であり、最終モデルの精度を著しく低下させる可能性がある。 非IID型では、ラベルスキューは困難であり、画像分類やその他のタスクで一般的である。 従来の研究では,局所モデルを平均化するのではなく,これらの局所モデルをグローバルモデルの基盤として結合し,局所的な知識を効果的に集約する,シンプルかつ効果的なアプローチであるFedConcatを提案する。 グローバルモデルのサイズを小さくするため,我々は,顧客をラベル分布でグループ化し,各クラスタ内で協調的にモデルをトレーニングするクラスタリング手法を採用した。 本研究では,深層ニューラルネットワークの情報ボトルネックを分析し,平均化よりも結合の利点を理論的に解析する。 実験により,FedConcatは様々な異種ラベルスキュー分布設定において従来のFL法よりも精度が高く,通信コストも低いことがわかった。 私たちのコードは公開されています。

Federated Learning (FL) has emerged as a promising solution to perform deep learning on different data owners without exchanging raw data. However, non-IID data has been a key challenge in FL, which could significantly degrade the accuracy of the final model. Among different non-IID types, label skews have been challenging and common in image classification and other tasks. Instead of averaging the local models in most previous studies, we propose FedConcat, a simple and effective approach that concatenates these local models as the base of the global model to effectively aggregate the local knowledge. To reduce the size of the global model, we adopt the clustering technique to group the clients by their label distributions and collaboratively train a model inside each cluster. We theoretically analyze the advantage of concatenation over averaging by analyzing the information bottleneck of deep neural networks. Experimental results demonstrate that FedConcat achieves significantly higher accuracy than previous state-of-the-art FL methods in various heterogeneous label skew distribution settings and meanwhile has lower communication costs. Our code is publicly available.
翻訳日:2023-12-12 16:07:38 公開日:2023-12-11
# 拡散モデルにおける収束性向上のための補償サンプリング

Compensation Sampling for Improved Convergence in Diffusion Models ( http://arxiv.org/abs/2312.06285v1 )

ライセンス: Link先を確認
Hui Lu, Albert ali Salah, Ronald Poppe(参考訳) 拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。 反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。 対象データの初期的不正確な再構成による再構成誤差の蓄積により, 雑音化過程が極めて制限されると主張している。 これにより、品質が低下し、収束が遅くなる。 この問題に対処するため,対象領域への生成誘導のための補償サンプリングを提案する。 U-Netとして実装された補償項を導入し、トレーニング中に無視可能な計算オーバーヘッドと任意に推論を追加する。 このアプローチは柔軟であり、ベンチマークデータセットであるcifar-10, celeba, celeba-hq, ffhq-256, fsgを用いて、無条件生成、顔の塗りつぶし、顔の切り離しに応用できることを実証する。 我々のアプローチは、画像品質の観点から、常に最先端の結果をもたらす一方で、トレーニング中に最大1桁の精度でデノナイジングプロセスを収束させる。

Diffusion models achieve remarkable quality in image generation, but at a cost. Iterative denoising requires many time steps to produce high fidelity images. We argue that the denoising process is crucially limited by an accumulation of the reconstruction error due to an initial inaccurate reconstruction of the target data. This leads to lower quality outputs, and slower convergence. To address this issue, we propose compensation sampling to guide the generation towards the target domain. We introduce a compensation term, implemented as a U-Net, which adds negligible computation overhead during training and, optionally, inference. Our approach is flexible and we demonstrate its application in unconditional generation, face inpainting, and face de-occlusion using benchmark datasets CIFAR-10, CelebA, CelebA-HQ, FFHQ-256, and FSG. Our approach consistently yields state-of-the-art results in terms of image quality, while accelerating the denoising process to converge during training by up to an order of magnitude.
翻訳日:2023-12-12 16:07:18 公開日:2023-12-11
# EQ-Bench: 大規模言語モデルのための感情情報ベンチマーク

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models ( http://arxiv.org/abs/2312.06281v1 )

ライセンス: Link先を確認
Samuel J. Paech(参考訳) 本稿では,Large Language Models (LLM) における感情知能の側面を評価するための新しいベンチマークであるEQ-Benchを紹介する。 対話における登場人物の感情状態の強さを予測して,複雑な感情や社会的相互作用を理解するllmの能力を評価する。 このベンチマークは、幅広いモデル間で効果的に判別することができる。 eq-bench は mmlu (hendrycks et al., 2020) (r=0.97) のような包括的マルチドメインベンチマークと強く相関しており、幅広い知能の類似の側面を捉えている可能性がある。 本ベンチマークでは,60問の英語質問を用いて高い反復性を示す。 また、https://github.com/EQ-bench/EQ-Benchでの自動ベンチマークパイプライン、https://www.eqbench.comでリーダーボード用のオープンソースコードも提供しています。

We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://www.eqbench.com
翻訳日:2023-12-12 16:07:01 公開日:2023-12-11
# 変分オートエンコーダにおける潜在空間の適応圧縮

Adaptive Compression of the Latent Space in Variational Autoencoders ( http://arxiv.org/abs/2312.06280v1 )

ライセンス: Link先を確認
Gabriela Sejnova, Michal Vavrecka and Karla Stepanova(参考訳) 可変オートエンコーダ(VAE)は画像やテキスト生成など様々な分野で広く使われている強力な生成モデルである。 しかしながら、VAEを使用する際の既知の課題の1つは、潜在空間サイズなどのハイパーパラメータに対するモデルの感度である。 本稿では、ニューロンの除去とモデル性能の観察により、学習過程における最適な潜在空間サイズを自動的に決定するためのvaesの簡単な拡張について述べる。 提案手法は従来のハイパーパラメータグリッド探索と比較し, 4つの画像データセットにおいて最適な最適次元を保ちながら, かなり高速であることが示されている。 さらに,本手法の最終性能は,スクラッチから最適潜伏サイズのトレーニングに匹敵するものであり,便利な代替品として機能する可能性が示唆された。

Variational Autoencoders (VAEs) are powerful generative models that have been widely used in various fields, including image and text generation. However, one of the known challenges in using VAEs is the model's sensitivity to its hyperparameters, such as the latent space size. This paper presents a simple extension of VAEs for automatically determining the optimal latent space size during the training process by gradually decreasing the latent size through neuron removal and observing the model performance. The proposed method is compared to traditional hyperparameter grid search and is shown to be significantly faster while still achieving the best optimal dimensionality on four image datasets. Furthermore, we show that the final performance of our method is comparable to training on the optimal latent size from scratch, and might thus serve as a convenient substitute.
翻訳日:2023-12-12 16:06:42 公開日:2023-12-11
# 時空間深層学習による移動交通予測支援地域相関

Regional Correlation Aided Mobile Traffic Prediction with Spatiotemporal Deep Learning ( http://arxiv.org/abs/2312.06279v1 )

ライセンス: Link先を確認
JeongJun Park, Lusungu J. Mwasinga, Huigyu Yang, Syed M. Raza, Duc-Tai Le, Moonseong Kim, Min Young Chung and Hyunseung Choo(参考訳) 都市部の移動交通データは、異なる時間帯に異なるパターンを示す。 これらのパターンの活用により、アクティブネットワーク管理のための高精度なモバイルトラフィック予測が可能となる。 しかし、近年のDeep Learning (DL) による研究は時空間的特徴のみを利用しており、地理的相関を無視しており、複雑で誤った移動トラフィック予測を引き起こしている。 本稿では,日々のモバイルトラフィックピーク時のクラスタリング戦略と,新しい複数時間畳み込みネットワークと,長期記憶(複数TN-LSTM)モデルを組み合わせたモバイルトラフィック予測手法を提案する。 1日の同じ時間にピークトラフィックを示すモバイルネットワークセルがクラスタ化される。 大規模実世界のモバイルトラフィックデータに関する実験では,提案手法の有効性と有効性を確認した最先端の研究と比較して28%の性能向上が見られた。

Mobile traffic data in urban regions shows differentiated patterns during different hours of the day. The exploitation of these patterns enables highly accurate mobile traffic prediction for proactive network management. However, recent Deep Learning (DL) driven studies have only exploited spatiotemporal features and have ignored the geographical correlations, causing high complexity and erroneous mobile traffic predictions. This paper addresses these limitations by proposing an enhanced mobile traffic prediction scheme that combines the clustering strategy of daily mobile traffic peak time and novel multi Temporal Convolutional Network with a Long Short Term Memory (multi TCN-LSTM) model. The mobile network cells that exhibit peak traffic during the same hour of the day are clustered together. Our experiments on large-scale real-world mobile traffic data show up to 28% performance improvement compared to state-of-the-art studies, which confirms the efficacy and viability of the proposed approach.
翻訳日:2023-12-12 16:06:29 公開日:2023-12-11
# DG-TTA:ドメイン一般化とテスト時間適応による領域外医療画像分割

DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation ( http://arxiv.org/abs/2312.06275v1 )

ライセンス: Link先を確認
Christian Weihsbach, Christian N. Kruse, Alexander Bigalke, Mattias P. Heinrich(参考訳) ドメイン外の画像に事前訓練された医療セグメンテーションモデルを適用すると、品質の不足を予測できる。 微調整や教師なしおよびソースフリーなドメイン適応など、モデルパフォーマンスを維持するためのいくつかの戦略が提案されている。 これらの戦略はデータ可用性に対する制限的な要件を設定した。 本研究では,未熟な対象領域における事前学習モデルの再使用に対して,ドメインの一般化とテスト時間適応を組み合わせることを提案する。 ソースデータに対するドメイン一般化事前トレーニングは、ターゲット領域で最高の初期性能を得るために使用される。 本稿では,これまで画像登録タスクで用いられてきたマインドディスクリプタを,従来の手法と比較して,汎用化を実現し,小規模データセットの優れた性能を示す技術として紹介する。 テスト時には、画像の増大に応じてモデルの重み付けを最適化することで、1回のスキャン毎に高品質なセグメンテーションが保証される。 これにより、ソースとターゲットデータの分離使用が可能となり、現在のデータ可用性の障壁が排除される。 さらに、提案手法は、特定のモデルアーキテクチャや関連するドメインやラベルの事前知識を必要としないため、高度にモジュール化されている。 我々は、現在医療画像セグメンテーションの最もポピュラーで正確なフレームワークであるnnUNetに統合することでこれを実証する。 本研究では,腹部,心臓,腰椎を対象とする複数のデータセットを用い,いくつかの領域外シナリオを構築した。 本手法は, 事前訓練した全身CTモデルと組み合わせることで, 上記すべてのシナリオにおいて, MR画像を高精度に分割できることを実証する。 オープンソースコードは以下のとおりである。 https://github.com/multimodallearning/dg-tta

Applying pre-trained medical segmentation models on out-of-domain images often yields predictions of insufficient quality. Several strategies have been proposed to maintain model performance, such as finetuning or unsupervised- and source-free domain adaptation. These strategies set restrictive requirements for data availability. In this study, we propose to combine domain generalization and test-time adaptation to create a highly effective approach for reusing pre-trained models in unseen target domains. Domain-generalized pre-training on source data is used to obtain the best initial performance in the target domain. We introduce the MIND descriptor previously used in image registration tasks as a further technique to achieve generalization and present superior performance for small-scale datasets compared to existing approaches. At test-time, high-quality segmentation for every single unseen scan is ensured by optimizing the model weights for consistency given different image augmentations. That way, our method enables separate use of source and target data and thus removes current data availability barriers. Moreover, the presented method is highly modular as it does not require specific model architectures or prior knowledge of involved domains and labels. We demonstrate this by integrating it into the nnUNet, which is currently the most popular and accurate framework for medical image segmentation. We employ multiple datasets covering abdominal, cardiac, and lumbar spine scans and compose several out-of-domain scenarios in this study. We demonstrate that our method, combined with pre-trained whole-body CT models, can effectively segment MR images with high accuracy in all of the aforementioned scenarios. Open-source code can be found here: https://github.com/multimodallearning/DG-TTA
翻訳日:2023-12-12 16:06:12 公開日:2023-12-11
# 量子ネットワークのダークモード定理

Dark-Mode Theorems for Quantum Networks ( http://arxiv.org/abs/2312.06274v1 )

ライセンス: Link先を確認
Jian Huang, Cheng Liu, Xun-Wei Xu, and Jie-Qiao Liao(参考訳) 2種類のボソニックモードからなる線形2成分量子ネットワークにおいて、暗モード数を決定するための2つの定理を提案し、証明する。 これは、同じモードの2つのサブネットワークを対角化し、ネットワークを標準または厚い矢印行列にマッピングし、結合行列の縮退正規モードに関連する列ベクトル間の線形依存性と独立性を分析することによって達成される。 線形化されたオプティメカルネットワークにおけるメカニカルモードの同時冷却をチェックすることにより,2つの定理を検証した。 これらの結果は、二次結合モードハミルトニアンによって記述された線形フェルミオンネットワークや他のネットワークにも作用する。 本手法は、駆動原子系における暗黒状態効果の研究や、量子情報を処理するためのデコヒーレンスフリーな大きな部分空間を構築するために拡張することができる。 この研究は、分離部分空間を持つ線形ネットワークの力学、輸送、統計特性の研究を開始する。

We propose and prove two theorems for determining the number of dark modes in linear two-component quantum networks composed of two types of bosonic modes. This is achieved by diagonalizing the two sub-networks of the same type of modes, mapping the networks to either a standard or a thick arrowhead matrix, and analyzing the linear dependence and independence between the column vectors associated with degenerate normal modes in the coupling matrix. We confirm the two theorems by checking the simultaneous ground-state cooling of the mechanical modes in linearized optomechanical networks. These results also work for linear fermionic networks and other networks described by quadratic coupled-mode Hamiltonian. The present method can be extended to study the dark-state effect in driven atom systems and to construct large decoherence-free subspaces for processing quantum information. This work will initiate the studies on dynamical, transport, and statistical properties of linear networks with decoupled subspaces.
翻訳日:2023-12-12 16:05:43 公開日:2023-12-11
# ラベリング騒音に対するリグループメディア損失

Regroup Median Loss for Combating Label Noise ( http://arxiv.org/abs/2312.06273v1 )

ライセンス: Link先を確認
Fengpeng Li, Kemou Li, Jinyu Tian and Jiantao Zhou(参考訳) 深層モデルトレーニング手順は、注釈付きデータの大規模データセットを必要とする。 多くのサンプルに注釈を付けるのが難しいため、誤ったアノテーションによるラベルノイズは避けられないため、低モデル性能と低モデル一般化をもたらす。 ラベルノイズと戦うため、現在の方法は、通常、小損失基準に基づいてクリーンサンプルを選択し、これらのサンプルをトレーニングに使用する。 クリーンなものに類似したノイズがあるため、これらの小さな損失基準に基づく方法はラベルノイズに影響されている。 この問題に対処するため,本稿では,ノイズサンプルの選択確率とノイズサンプルの損失の正当性を低減するために,Regroup Median Loss (RML)を提案する。 RMLは、新しい損失処理法に基づいて、トレーニングサンプルと同じラベルのサンプルをランダムに選択する。 そして,提案手法を用いて,安定な平均損失とロバストな中央値の損失を組み合わせ,ノイズのあるサンプルのロバストな損失推定を行う。 ラベルノイズに対するモデル性能をさらに向上するため、新しいサンプル選択戦略を提案し、RMLに基づく半教師付き手法を構築する。 従来のトレーニングモデルとセミ教師付きモデルの両方において、最先端の手法と比較すると、rmlは合成データと複雑な実世界のデータセットにおいて大幅な改善を達成している。 論文のソースコードがリリースされた。

The deep model training procedure requires large-scale datasets of annotated data. Due to the difficulty of annotating a large number of samples, label noise caused by incorrect annotations is inevitable, resulting in low model performance and poor model generalization. To combat label noise, current methods usually select clean samples based on the small-loss criterion and use these samples for training. Due to some noisy samples similar to clean ones, these small-loss criterion-based methods are still affected by label noise. To address this issue, in this work, we propose Regroup Median Loss (RML) to reduce the probability of selecting noisy samples and correct losses of noisy samples. RML randomly selects samples with the same label as the training samples based on a new loss processing method. Then, we combine the stable mean loss and the robust median loss through a proposed regrouping strategy to obtain robust loss estimation for noisy samples. To further improve the model performance against label noise, we propose a new sample selection strategy and build a semi-supervised method based on RML. Compared to state-of-the-art methods, for both the traditionally trained and semi-supervised models, RML achieves a significant improvement on synthetic and complex real-world datasets. The source code of the paper has been released.
翻訳日:2023-12-12 16:05:28 公開日:2023-12-11
# U-MixFormer:効率的なセマンティックセグメンテーションのための混合注意付きUNetライクな変換器

U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient Semantic Segmentation ( http://arxiv.org/abs/2312.06272v1 )

ライセンス: Link先を確認
Seul-Ki Yeom and Julian von Klitzing(参考訳) セマンティックセグメンテーションはトランスフォーマーアーキテクチャの適応によって顕著な進歩をみせた。 Transformerと並行して、CNNベースのU-Netは特に高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。 この2つの成功は、両方の長所をマージするきっかけとなり、効率的なコンテキストエンコーディングに適したU-Netベースの視覚変換器デコーダが誕生した。 本稿では,効率的なセマンティックセグメンテーションのために設計されたU-Net構造上に構築された新しいトランスフォーマデコーダU-MixFormerを提案する。 提案手法は,従来のスキップ接続への依存とは別に,エンコーダとデコーダステージ間の横接続をアテンションモジュールの機能クエリとして活用することで,従来のトランスフォーマー手法と区別する。 さらに,様々なエンコーダステージとデコーダステージの階層的特徴マップを革新的に混合し,キーと値の統一表現を形成し,独自のmix-attentionモジュールを生み出した。 提案手法は,各種構成における最先端性能を示す。 大規模な実験によると、U-MixFormerはSegFormer、FeedFormer、SegNeXtを大きく上回っている。 例えば、U-MixFormer-B0はSegFormer-B0を3.8%、FeedFormer-B0を2.0%、mIoUが27.3%、21.8%、SegNextが3.3%、MSCAN-TエンコーダがADE20Kを上回っている。 コードはhttps://github.com/julian-klitzing/u-mixformerで入手できる。

Semantic segmentation has witnessed remarkable advancements with the adaptation of the Transformer architecture. Parallel to the strides made by the Transformer, CNN-based U-Net has seen significant progress, especially in high-resolution medical imaging and remote sensing. This dual success inspired us to merge the strengths of both, leading to the inception of a U-Net-based vision transformer decoder tailored for efficient contextual encoding. Here, we propose a novel transformer decoder, U-MixFormer, built upon the U-Net structure, designed for efficient semantic segmentation. Our approach distinguishes itself from the previous transformer methods by leveraging lateral connections between the encoder and decoder stages as feature queries for the attention modules, apart from the traditional reliance on skip connections. Moreover, we innovatively mix hierarchical feature maps from various encoder and decoder stages to form a unified representation for keys and values, giving rise to our unique mix-attention module. Our approach demonstrates state-of-the-art performance across various configurations. Extensive experiments show that U-MixFormer outperforms SegFormer, FeedFormer, and SegNeXt by a large margin. For example, U-MixFormer-B0 surpasses SegFormer-B0 and FeedFormer-B0 with 3.8% and 2.0% higher mIoU and 27.3% and 21.8% less computation and outperforms SegNext with 3.3% higher mIoU with MSCAN-T encoder on ADE20K. Code available at https://github.com/julian-klitzing/u-mixformer.
翻訳日:2023-12-12 16:05:07 公開日:2023-12-11
# 指先で量子物理学...紙のストリップからジッパーまで

Quantum physics at your fingertips -- from paper strips to zippers ( http://arxiv.org/abs/2312.06269v1 )

ライセンス: Link先を確認
Franziska Greinert, Malte S. Ubben(参考訳) 量子物理学モデリングは技術的に複雑であり、しばしば説明できない。 本稿では,量子物理概念を触覚モデルで表現する方法を紹介する。 この目的のために、3dプリンター製のモデル、紙片製のモデル、繊維製のモデルを比較した。 紙片の代わりにジッパーを使うことが目新しさであり、簡単に「カット」と「グルード」を組み合わせることができる。 モデルは主にトポロジカルなアイデアを基本的な数学的知識をほとんど持たずに伝達し視覚化することを目的として開発された。

Quantum physics modeling is technically complex and often non-descriptive. This article presents some approaches how quantum physical ideas can be represented by haptic models. For this purpose, models made from 3D printers, models made from paper strips, and models made from textiles are compared. A novelty is the use of zippers instead of paper strips, which can be easily ''cut'' and ''glued'' together. The models have been developed primarily with the aim of conveying and visualizing topological ideas with little basic mathematical knowledge.
翻訳日:2023-12-12 16:04:33 公開日:2023-12-11
# 超低資源環境における音声対話システムの構築

Creating Spoken Dialog Systems in Ultra-Low Resourced Settings ( http://arxiv.org/abs/2312.06266v1 )

ライセンス: Link先を確認
Moayad Elamin, Muhammad Omer, Yonas Chanie, Henslaac Ndlovu(参考訳) 自動音声認識(ASR)システムは、Alexaなど、さまざまなアプリケーション、特にスマートアシスタントを設計するために今日使用されている重要な技術である。 ASRシステムは基本的に音声から意味のある情報を抽出するために音声言語理解(SLU)を用いる対話システムである。 このようなシステムを設計する上での最大の課題は、競争的に実行するために大量のラベル付きクリーンなデータを必要とすることだ。これらのデータはsluタスクの収集や注釈が極めて困難であり、さらにデータが極めて制限された低リソース言語向けに設計する場合、問題の重大さが増大する。 本稿では,比較的一般的なsluタスク,すなわち,低リソース言語である flemish を用いて作業中の意図分類に注目する。 Intent Classificationは、システムと対話するユーザの意図を理解するためのタスクである。 我々は,Flemishにおける意図分類のための既存の光モデルを構築し,低リソース言語におけるラベル付きデータ不足の問題に対処するため,音声レベルと音声書き起こしレベルという2つのレベルに異なる拡張手法を適用した。 両レベルにおいて、我々のデータ拡張技術は、多くのタスクにおけるモデルパフォーマンスを改善していることがわかった。

Automatic Speech Recognition (ASR) systems are a crucial technology that is used today to design a wide variety of applications, most notably, smart assistants, such as Alexa. ASR systems are essentially dialogue systems that employ Spoken Language Understanding (SLU) to extract meaningful information from speech. The main challenge with designing such systems is that they require a huge amount of labeled clean data to perform competitively, such data is extremely hard to collect and annotate to respective SLU tasks, furthermore, when designing such systems for low resource languages, where data is extremely limited, the severity of the problem intensifies. In this paper, we focus on a fairly popular SLU task, that is, Intent Classification while working with a low resource language, namely, Flemish. Intent Classification is a task concerned with understanding the intents of the user interacting with the system. We build on existing light models for intent classification in Flemish, and our main contribution is applying different augmentation techniques on two levels -- the voice level, and the phonetic transcripts level -- to the existing models to counter the problem of scarce labeled data in low-resource languages. We find that our data augmentation techniques, on both levels, have improved the model performance on a number of tasks.
翻訳日:2023-12-12 16:04:22 公開日:2023-12-11
# 骨格に基づく行動認識のためのオープンセットシナリオのナビゲーション

Navigating Open Set Scenarios for Skeleton-based Action Recognition ( http://arxiv.org/abs/2312.06330v1 )

ライセンス: Link先を確認
Kunyu Peng, Cheng Yin, Junwei Zheng, Ruiping Liu, David Schneider, Jiaming Zhang, Kailun Yang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg(参考訳) 現実のシナリオでは、人間の行動はトレーニングデータの分布外にあることが多く、モデルが既知の行動を認識し、未知の行動を拒否することが重要である。 しかし、そのようなオープンセット条件における純粋な骨格データの使用は、視覚的背景の手がかりの欠如と、身体のポーズ配列の異なるスパース構造により、課題を生じさせる。 本稿では,未探索のOpen-Set Skeleton-based Action Recognition (OS-SAR)タスクに取り組み,スケルトンに基づく3つのデータセットのベンチマークを定式化する。 本研究では,我々の課題に対する7つのオープンセット手法の性能評価を行い,骨格情報を扱う際の限界と重要な一般化問題を明らかにする。 これらの課題に対処するために, 骨格関節, 骨, 速度のクロスモーダルアライメントを利用して, より優れたオープンセット認識性能を実現する, 距離に基づくクロスモーダルアンサンブル法を提案する。 crossmax - トレーニング中に潜在空間を整列させるための新しいクロスモダリティ平均最大偏差抑制機構と、テスト中にクロスモダリティ距離に基づくロジッツリファインメント法を利用するアプローチである。 CrossMaxは既存のアプローチより優れており、すべてのデータセットとバックボーンで常に最先端の結果が得られる。 ベンチマーク、コード、モデルはhttps://github.com/KPeng9510/OS-SARでリリースされる。

In real-world scenarios, human actions often fall outside the distribution of training data, making it crucial for models to recognize known actions and reject unknown ones. However, using pure skeleton data in such open-set conditions poses challenges due to the lack of visual background cues and the distinct sparse structure of body pose sequences. In this paper, we tackle the unexplored Open-Set Skeleton-based Action Recognition (OS-SAR) task and formalize the benchmark on three skeleton-based datasets. We assess the performance of seven established open-set approaches on our task and identify their limits and critical generalization issues when dealing with skeleton information. To address these challenges, we propose a distance-based cross-modality ensemble method that leverages the cross-modal alignment of skeleton joints, bones, and velocities to achieve superior open-set recognition performance. We refer to the key idea as CrossMax - an approach that utilizes a novel cross-modality mean max discrepancy suppression mechanism to align latent spaces during training and a cross-modality distance-based logits refinement method during testing. CrossMax outperforms existing approaches and consistently yields state-of-the-art results across all datasets and backbones. The benchmark, code, and models will be released at https://github.com/KPeng9510/OS-SAR.
翻訳日:2023-12-12 15:57:10 公開日:2023-12-11
# tprnn:時系列予測のためのトップダウンピラミッド型リカレントニューラルネットワーク

TPRNN: A Top-Down Pyramidal Recurrent Neural Network for Time Series Forecasting ( http://arxiv.org/abs/2312.06328v1 )

ライセンス: Link先を確認
Ling Chen and Jiahua Cui(参考訳) 時系列(英: time series)とは、時間順にインデックスされた一連のデータポイントを指し、交通、医療、金融など様々な分野で見られる。 正確な時系列予測は最適化計画と意思決定支援を強化することができる。 時系列は、異なるスケールの時間パターン、すなわち異なるスケールの時間パターンを持つため、時系列予測の課題が提示される。 本稿では,時系列予測のためのトップダウンピラミッド型リカレントニューラルネットワークであるtprnnを提案する。 まず、入力から異なるスケールのサブシーケンスを構築し、ピラミッド構造を形成する。 そして,マルチスケール情報対話モジュールを上から下から実行することにより,各スケールの時間的依存性と,異なるスケールのサブシーケンスの影響の両方をモデル化し,時系列におけるマルチスケールの時間的パターンをモデル化する。 7つの実世界のデータセットの実験により、TPRNNは最高のベースラインに比べて平均8.13%改善した。

Time series refer to a series of data points indexed in time order, which can be found in various fields, e.g., transportation, healthcare, and finance. Accurate time series forecasting can enhance optimization planning and decision-making support. Time series have multi-scale characteristics, i.e., different temporal patterns at different scales, which presents a challenge for time series forecasting. In this paper, we propose TPRNN, a Top-down Pyramidal Recurrent Neural Network for time series forecasting. We first construct subsequences of different scales from the input, forming a pyramid structure. Then by executing a multi-scale information interaction module from top to bottom, we model both the temporal dependencies of each scale and the influences of subsequences of different scales, resulting in a complete modeling of multi-scale temporal patterns in time series. Experiments on seven real-world datasets demonstrate that TPRNN has achieved the state-of-the-art performance with an average improvement of 8.13% in MSE compared to the best baseline.
翻訳日:2023-12-12 15:56:45 公開日:2023-12-11
# 大規模原子配列に適合する高速核スピンエンタングルゲート

Fast nuclear-spin entangling gates compatible with large-scale atomic arrays ( http://arxiv.org/abs/2312.06327v1 )

ライセンス: Link先を確認
Xiao-Feng Shi and Yan Lu(参考訳) 2価原子の核スピンエンタングゲートは、$\Delta_{\text{Z}}<\Omega$, ここで、$\Delta_{\text{Z}}$は2つの核スピン量子ビット状態のクロック-ライドバーグ遷移に対するゼーマン分割支配周波数差であり、$\Omega$は最大ラビ周波数であるときに、1つの大域レーザーパルスによって実行される。 Rydberg状態エネルギーの磁気ゆらぎに対する感度に関して、ゲートはより弱い磁場のための大規模原子配列と互換性があり、大きな量子ビットアレイの均一な磁場を確保するのに適している。 門は1/Omega$で成長するRydberg状態の緩和とデファス化が容易に達成可能な大きな$Omega$で緩和されるため、高い忠実度を持つことができる。

Nuclear-spin entangling gates with divalent atoms can be executed by one global laser pulse when $\Delta_{\text{Z}}<\Omega$, where $\Delta_{\text{Z}}$ is the Zeeman-splitting-dominated frequency difference for the clock-Rydberg transitions of the two nuclear-spin qubit states and $\Omega$ is the maximal Rabi frequency. Concerning the sensitivity of Rydberg-state energy to magnetic fluctuation, the gate is compatible with large-scale atomic arrays for weaker magnetic field is suitable for ensuring uniform field in a large qubit array. The gate can have a high fidelity because the relaxation and dephasing of Rydberg states, which limit the fidelity and grow with $1/\Omega$, can be mitigated with easily attainable large $\Omega$.
翻訳日:2023-12-12 15:56:30 公開日:2023-12-11
# 視覚言語モデルのための構造化言語知識を用いた階層的プロンプトの学習

Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models ( http://arxiv.org/abs/2312.06323v1 )

ライセンス: Link先を確認
Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao(参考訳) プロンプト学習は、視覚言語基礎モデルを下流タスクに適用するための一般的な戦略となっている。 大規模言語モデル (LLMs) が出現するにつれて, カテゴリ関連記述をインプットとして活用し, 即効性を高める方法が近年研究されている。 それでも、従来の記述は、特定のカテゴリに関連するエンティティや属性間の相互接続を効果的に表現する構造化情報に欠ける。 この制限に対処し、構造化知識の活用を優先するため、本論文では、llmを利用して各記述に対するグラフを構築し、カテゴリを記述するエンティティと属性とその相関関係をモデル化することを提唱する。 既存のプロンプトチューニング手法は、この構造化知識の管理に不整合を示す。 その結果,階層型プロンプトチューニング (HPT) と呼ばれる新しい手法が提案され,構造化知識と従来の言語知識の同時モデリングが可能となった。 具体的には,関係誘導型アテンションモジュールを導入し,低レベルプロンプト学習のためのエンティティと属性の対関係を捉える。 さらに、ハイレベルおよびグローバルレベルのプロンプトを総合的なセマンティクスのモデリングに組み込むことで、提案された階層構造は、クロスレベルな相互リンクを予測し、より複雑で長期的な関係を扱うモデルに権限を与える。 大規模な実験により,HPTは既存のSOTA法よりも高い有効性を示し,より一般化した。 私たちのコードはhttps://github.com/Vill-Lab/2024-AAAI-HPTで公開されています。

Prompt learning has become a prevalent strategy for adapting vision-language foundation models to downstream tasks. As large language models (LLMs) have emerged, recent studies have explored the use of category-related descriptions as input to enhance prompt effectiveness. Nevertheless, conventional descriptions fall short of structured information that effectively represents the interconnections among entities or attributes linked to a particular category. To address this limitation and prioritize harnessing structured knowledge, this paper advocates for leveraging LLMs to build a graph for each description to model the entities and attributes describing the category, as well as their correlations. Preexisting prompt tuning methods exhibit inadequacies in managing this structured knowledge. Consequently, we propose a novel approach called Hierarchical Prompt Tuning (HPT), which enables simultaneous modeling of both structured and conventional linguistic knowledge. Specifically, we introduce a relationship-guided attention module to capture pair-wise associations among entities and attributes for low-level prompt learning. In addition, by incorporating high-level and global-level prompts modeling overall semantics, the proposed hierarchical structure forges cross-level interlinks and empowers the model to handle more complex and long-term relationships. Extensive experiments demonstrate that our HPT shows strong effectiveness and generalizes much better than existing SOTA methods. Our code is available at https://github.com/Vill-Lab/2024-AAAI-HPT.
翻訳日:2023-12-12 15:56:10 公開日:2023-12-11
# 量子状態の古典性と対称性の階層について

On the hierarchy of classicality and symmetry of quantum states ( http://arxiv.org/abs/2312.06322v1 )

ライセンス: Link先を確認
Arsen Khvedelidze and Astghik Torosyan(参考訳) 有限次元量子システムの位相空間定式化において、古典性と量子性と状態の対称性の関係について論じる。 古典性測度に対する表現 $\mathcal{Q}_N[H_{\varrho}]$ は、与えられた対称性のタイプ $[H_{\varrho}]$ の成層から、クイディットのヒルベルト・シュミットアンサンブルに対して導かれる。 測度表現は、特別なウィグナー関数の正のポリトープの頂点から構築された行列の永久性の観点から与えられる。 古典性指標の部分次数に関する仮定は、対称性の層の種類に応じて$\mathcal{Q}_N[H_{\varrho}]$を定式化する。

The interrelation between classicality/quantumness and symmetry of states is discussed within the phase-space formulation of finite-dimensional quantum systems. We derive representations for classicality measures $\mathcal{Q}_N[H_{\varrho}]$ of states from the stratum of given symmetry type $[H_{\varrho}]$ for the Hilbert-Schmidt ensemble of qudits. The expressions for measures are given in terms of the permanents of matrices constructed from the vertices of the special Wigner function's positivity polytope. The supposition about the partial order of classicality indicators $\mathcal{Q}_N[H_{\varrho}]$ in accordance with the symmetry type of stratum is formulated.
翻訳日:2023-12-12 15:55:45 公開日:2023-12-11
# SemiSAM: 極端に制限されたアノテーションで半スーパービジョンの医用画像セグメンテーションを促進するSAMの探索

SemiSAM: Exploring SAM for Enhancing Semi-Supervised Medical Image Segmentation with Extremely Limited Annotations ( http://arxiv.org/abs/2312.06316v1 )

ライセンス: Link先を確認
Yichi Zhang, Yuan Cheng, Yuan Qi(参考訳) 半教師付き学習は、専門家から豊富なアノテーションを取得することへの依存度が完全に監督された方法に比べて低いため、特にドメインの専門家による集中的なピクセル/ボクセルのラベル付けを必要とする医療画像分割において重要であるため、多くの注目を集めている。 半教師付きメソッドはラベルなしのデータを利用することで性能を向上させることができるが、非常に限定されたアノテーションシナリオ下では完全に教師付きメソッドの間にはギャップがある。 本稿では,Segment Anything Model (SAM) を用いた半教師付き医用画像のセグメンテーション向上のための簡易かつ効率的な手法を提案する。 具体的には、ドメイン知識で訓練されたセグメンテーションモデルは、SAMに局所化と入力プロンプトを生成する情報を提供する。 そして、生成されたSAMの擬似ラベルを、セミ教師付きフレームワークの学習手順を補助する追加の監督として利用する。 実験の結果,SAMの補助により既存の半教師付きフレームワークの性能が著しく向上することが確認された。

Semi-supervised learning has attracted much attention due to its less dependence on acquiring abundant annotations from experts compared to fully supervised methods, which is especially important for medical image segmentation which typically requires intensive pixel/voxel-wise labeling by domain experts. Although semi-supervised methods can improve the performance by utilizing unlabeled data, there are still gaps between fully supervised methods under extremely limited annotation scenarios. In this paper, we propose a simple yet efficient strategy to explore the usage of the Segment Anything Model (SAM) for enhancing semi-supervised medical image segmentation. Concretely, the segmentation model trained with domain knowledge provides information for localization and generating input prompts to the SAM. Then the generated pseudo-labels of SAM are utilized as additional supervision to assist in the learning procedure of the semi-supervised framework. Experimental results demonstrate that SAM's assistance significantly enhances the performance of existing semi-supervised frameworks, especially when only one or a few labeled images are available.
翻訳日:2023-12-12 15:55:34 公開日:2023-12-11
# GPTBIAS:大規模言語モデルにおけるバイアス評価のための総合的フレームワーク

GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models ( http://arxiv.org/abs/2312.06315v1 )

ライセンス: Link先を確認
Jiaxu Zhao, Meng Fang, Shirui Pan, Wenpeng Yin, Mykola Pechenizkiy(参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。 様々なアプリケーションにおける大規模言語モデル(llm)の使用は、元の形式と微調整された適応によって大きく増加した。 その結果,LSMは普及し,大規模なユーザコミュニティで広く採用されている。 しかし、LSMsに関する懸念の1つは、社会的に偏りのあるコンテンツの潜在的発生である。 既存の評価手法には多くの制約があり、その結果は限定的な解釈可能性を示している。 本稿では,LPMの高性能性(例えば,GPT-4 \cite{openai2023gpt4})を利用してモデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。 また,モデルバイアスを評価するために特別に設計されたバイアスアタック命令と呼ばれるプロンプトも導入する。 バイアス評価の信頼性と解釈性を高めるために, バイアススコアを提供するだけでなく, バイアスタイプ, 影響を受ける人口統計, キーワード, バイアスの背後にある理由, 改善提案などの詳細な情報を提供する。 偏見評価フレームワークの有効性とユーザビリティを実証するための広範な実験を行った。

Warning: This paper contains content that may be offensive or upsetting. There has been a significant increase in the usage of large language models (LLMs) in various applications, both in their original form and through fine-tuned adaptations. As a result, LLMs have gained popularity and are being widely adopted by a large user community. However, one of the concerns with LLMs is the potential generation of socially biased content. The existing evaluation methods have many constraints, and their results exhibit a limited degree of interpretability. In this work, we propose a bias evaluation framework named GPTBIAS that leverages the high performance of LLMs (e.g., GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce prompts called Bias Attack Instructions, which are specifically designed for evaluating model bias. To enhance the credibility and interpretability of bias evaluation, our framework not only provides a bias score but also offers detailed information, including bias types, affected demographics, keywords, reasons behind the biases, and suggestions for improvement. We conduct extensive experiments to demonstrate the effectiveness and usability of our bias evaluation framework.
翻訳日:2023-12-12 15:55:16 公開日:2023-12-11
# DMS*:multi-Agent Combinatorial Path FindingのためのMakespanの最小化

DMS*: Minimizing Makespan for Multi-Agent Combinatorial Path Finding ( http://arxiv.org/abs/2312.06314v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Anushtup Nandy, Sivakumar Rathinam and Howie Choset(参考訳) Multi-Agent Combinatorial Path Finding (MCPF) は、初期から目標地点まで複数のエージェントの衝突のない経路を探索し、経路の中央にある一連の中間目標地点を訪れている。 mcpfは複数のエージェントの衝突のない経路計画とターゲットのシークエンシング、すなわち、エージェントの訪問順序を識別するターゲットを割り当てるために、トラベルセールスマンの問題を解決することの両方を伴っているため、挑戦的である。 最近の研究は、目標における個々の到着時間の総和を最小化しながら、MPPFに対処する方法を開発している。 このような問題定式化は、到着時間が異なる経路となり、エージェント間の最大到着時間である長いメイスパンにつながる可能性がある。 本稿では,mcpfのmin-max変種をmcpf-maxと表記し,エージェントのメイズパンを最小化する手法を提案する。 MCPF の既存の手法 (MS* など) は MCPF-max の解法に適応できるが,MS* をベースとした2つの新しい手法が開発され,計算の高速化を図っている。 得られたアルゴリズムDerred MS*(DMS*)の特性を分析し、最大20個のエージェントと80個のターゲットでDMS*をテストする。 ディファレンシャルドライブロボットにおけるDMS*の使用を実証する。

Multi-Agent Combinatorial Path Finding (MCPF) seeks collision-free paths for multiple agents from their initial to goal locations, while visiting a set of intermediate target locations in the middle of the paths. MCPF is challenging as it involves both planning collision-free paths for multiple agents and target sequencing, i.e., solving traveling salesman problems to assign targets to and find the visiting order for the agents. Recent work develops methods to address MCPF while minimizing the sum of individual arrival times at goals. Such a problem formulation may result in paths with different arrival times and lead to a long makespan, the maximum arrival time, among the agents. This paper proposes a min-max variant of MCPF, denoted as MCPF-max, that minimizes the makespan of the agents. While the existing methods (such as MS*) for MCPF can be adapted to solve MCPF-max, we further develop two new techniques based on MS* to defer the expensive target sequencing during planning to expedite the overall computation. We analyze the properties of the resulting algorithm Deferred MS* (DMS*), and test DMS* with up to 20 agents and 80 targets. We demonstrate the use of DMS* on differential-drive robots.
翻訳日:2023-12-12 15:54:55 公開日:2023-12-11
# 教師なし学習によるアンケートデータの評価 --測定不均一性の違反から学べるもの--

An unsupervised learning approach to evaluate questionnaire data -- what one can learn from violations of measurement invariance ( http://arxiv.org/abs/2312.06309v1 )

ライセンス: Link先を確認
Max Hahn-Klimroth, Paul W. Dierkes, Matthias W. Kleespies(参考訳) 社会科学と人文科学のいくつかの分野において、標準化されたアンケートに基づく調査は顕著な研究ツールである。 データ分析には様々な方法があるが、いくつかの標準手順が確立されている。 これらの調査は、異なるグループ(例えば、国、性別、年齢、...)の回答パターンの違いを分析したい場合、これらの手順は、測定不変性がある場合、すなわち、測定された構成物がグループ間で心理的に等価である場合にのみ意味のある方法で実行することができる。 sauerweinら(2021年)のオープン問題として最近提起されたように、測定の不変性無しで機能する新しい評価方法が必要である。 本稿では、データ準備、アンケートのクラスタリング、得られたクラスタリングと各グループの特性に基づく類似度の測定という3つのフェーズで機能する手順を提案し、そのような研究データに対する教師なし学習に基づくアプローチを提案する。 我々は3つのデータセットで合成データを生成し、測定不変性と測定不変性に反する条件下でのPCAアプローチと比較する。 その結果,本手法は,グループ間の自然な比較と,グループ内の応答パターンの自然な記述を提供することがわかった。 さらに、測定不変性がない場合でも、多種多様なデータセットに安全に適用することができる。 最後に、この手法により、測定不変性を意味のある類似度尺度に変換することができる。

In several branches of the social sciences and humanities, surveys based on standardized questionnaires are a prominent research tool. While there are a variety of ways to analyze the data, some standard procedures have become established. When those surveys want to analyze differences in the answer patterns of different groups (e.g., countries, gender, age, ...), these procedures can only be carried out in a meaningful way if there is measurement invariance, i.e., the measured construct has psychometric equivalence across groups. As recently raised as an open problem by Sauerwein et al. (2021), new evaluation methods that work in the absence of measurement invariance are needed. This paper promotes an unsupervised learning-based approach to such research data by proposing a procedure that works in three phases: data preparation, clustering of questionnaires, and measuring similarity based on the obtained clustering and the properties of each group. We generate synthetic data in three data sets, which allows us to compare our approach with the PCA approach under measurement invariance and under violated measurement invariance. As a main result, we obtain that the approach provides a natural comparison between groups and a natural description of the response patterns of the groups. Moreover, it can be safely applied to a wide variety of data sets, even in the absence of measurement invariance. Finally, this approach allows us to translate (violations of) measurement invariance into a meaningful measure of similarity.
翻訳日:2023-12-12 15:54:29 公開日:2023-12-11
# 自律運転のための視覚データセットにおける属性アノテーションとバイアス評価

Attribute Annotation and Bias Evaluation in Visual Datasets for Autonomous Driving ( http://arxiv.org/abs/2312.06306v1 )

ライセンス: Link先を確認
David Fern\'andez Llorca, Pedro Frau, Ignacio Parra, Rub\'en Izquierdo, Emilia G\'omez(参考訳) 本稿では、自動運転車(avs)の全体機能において重要な役割を果たす視覚に基づく知覚・予測システムにおいて、自動運転領域においてしばしば見過ごされがちな公平性の問題について論じる。 我々は、訓練者や車両検出システムに最もよく使用される視覚的データセットに現れるバイアスに着目した分析を行う。 本稿では,視覚的データセットにおけるエージェントの保護属性をアノテーション化するアノテーション手法とアノテーションツールを紹介する。 提案手法は, レータ間合意分析により検証し, 全データセットに属性分布を提供する。 これには、年齢、性別、肌の色、グループ、輸送手段、車種、車種、色、車種などが含まれる。 一般的に、多くの属性において多様性は非常に低く、子供、車いす、パーソナルモビリティーの利用者など一部のグループは、分析されたデータセットで非常に過小評価されている。 本研究は, AVに対する知覚・予測システムの評価における公平性の検討に大きく貢献する。 本論文は再現性原理に従う。 アノテーションツール、スクリプト、注釈付き属性はhttps://github.com/ec-jrc/humaint_annotator.com/で公開されている。

This paper addresses the often overlooked issue of fairness in the autonomous driving domain, particularly in vision-based perception and prediction systems, which play a pivotal role in the overall functioning of Autonomous Vehicles (AVs). We focus our analysis on biases present in some of the most commonly used visual datasets for training person and vehicle detection systems. We introduce an annotation methodology and a specialised annotation tool, both designed to annotate protected attributes of agents in visual datasets. We validate our methodology through an inter-rater agreement analysis and provide the distribution of attributes across all datasets. These include annotations for the attributes age, sex, skin tone, group, and means of transport for more than 90K people, as well as vehicle type, colour, and car type for over 50K vehicles. Generally, diversity is very low for most attributes, with some groups, such as children, wheelchair users, or personal mobility vehicle users, being extremely underrepresented in the analysed datasets. The study contributes significantly to efforts to consider fairness in the evaluation of perception and prediction systems for AVs. This paper follows reproducibility principles. The annotation tool, scripts and the annotated attributes can be accessed publicly at https://github.com/ec-jrc/humaint_annotator.
翻訳日:2023-12-12 15:54:03 公開日:2023-12-11
# automlにおける逐次ハイパーパラメータ空間削減のためのメタレベル学習アルゴリズム

A Meta-Level Learning Algorithm for Sequential Hyper-Parameter Space Reduction in AutoML ( http://arxiv.org/abs/2312.06305v1 )

ライセンス: Link先を確認
Giorgos Borboudakis, Paulos Charonyktakis, Konstantinos Paraschakis, Ioannis Tsamardinos(参考訳) AutoMLプラットフォームには、解析の各ステップ、すなわち、計算、変換、特徴選択、モデリングのための異なる可能なアルゴリズムを試すための、多数のオプションがある。 アルゴリズムと超パラメータ値の最適な組み合わせを見つけるのは計算に費用がかかり、探索する組み合わせの数は空間の指数的な爆発に繋がる。 本稿では,予測性能を低下させることなく,自動学習ツールの空間を削減できる逐次ハイパーパラメータ空間縮小(shsr)アルゴリズムを提案する。 SHSRはメタレベルの学習アルゴリズムで、いくつかのデータセット上でAutoMLツールの過去の実行を分析し、分析する新しいデータセットからどのハイパーパラメータ値をフィルタリングするかを学ぶ。 SHSRは284の分類と375の回帰問題に基づいて評価され、約30%の実行時間を短縮し、性能低下は0.1%未満であった。

AutoML platforms have numerous options for the algorithms to try for each step of the analysis, i.e., different possible algorithms for imputation, transformations, feature selection, and modelling. Finding the optimal combination of algorithms and hyper-parameter values is computationally expensive, as the number of combinations to explore leads to an exponential explosion of the space. In this paper, we present the Sequential Hyper-parameter Space Reduction (SHSR) algorithm that reduces the space for an AutoML tool with negligible drop in its predictive performance. SHSR is a meta-level learning algorithm that analyzes past runs of an AutoML tool on several datasets and learns which hyper-parameter values to filter out from consideration on a new dataset to analyze. SHSR is evaluated on 284 classification and 375 regression problems, showing an approximate 30% reduction in execution time with a performance drop of less than 0.1%.
翻訳日:2023-12-12 15:53:43 公開日:2023-12-11
# RCA-NOC:新しいオブジェクトキャプションのための相対的コントラストアライメント

RCA-NOC: Relative Contrastive Alignment for Novel Object Captioning ( http://arxiv.org/abs/2312.06299v1 )

ライセンス: Link先を確認
Jiashuo Fan, Yaoyuan Liang, Leyao Liu, Shaolun Huang, and Lei Zhang(参考訳) 本稿では,視覚的・意味的アライメントを学ぶために,相対的コントラスト学習を用いた新しい物体キャプション手法を提案する。 このアプローチは、領域とオブジェクトタグの互換性を対比的に最大化する。 適切なコントラスト学習目標を設定するために,各画像に対して,CLIPなどの基礎モデルから得られる正と負のペアの相対的性質を活用してタグを増強する。 次に、リスト内の各拡張タグのランクを相対的関連ラベルとして使用して、上位ランクタグと下位ランクタグのセットを対比します。 この学習目標により、上位のタグは下位のタグよりも画像やテキストコンテキストとの互換性が向上し、学習されたマルチモーダル表現の識別能力が向上する。 2つのデータセットに対するアプローチを評価し,提案するrca-nocアプローチが最先端手法を大差で上回り,新しいキャプションに対する視覚言語表現の改善効果を実証した。

In this paper, we introduce a novel approach to novel object captioning which employs relative contrastive learning to learn visual and semantic alignment. Our approach maximizes compatibility between regions and object tags in a contrastive manner. To set up a proper contrastive learning objective, for each image, we augment tags by leveraging the relative nature of positive and negative pairs obtained from foundation models such as CLIP. We then use the rank of each augmented tag in a list as a relative relevance label to contrast each top-ranked tag with a set of lower-ranked tags. This learning objective encourages the top-ranked tags to be more compatible with their image and text context than lower-ranked tags, thus improving the discriminative ability of the learned multi-modality representation. We evaluate our approach on two datasets and show that our proposed RCA-NOC approach outperforms state-of-the-art methods by a large margin, demonstrating its effectiveness in improving vision-language representation for novel object captioning.
翻訳日:2023-12-12 15:53:27 公開日:2023-12-11
# MMDesign: 生成タンパク質設計のためのマルチモーダルトランスファー学習

MMDesign: Multi-Modality Transfer Learning for Generative Protein Design ( http://arxiv.org/abs/2312.06297v1 )

ライセンス: Link先を確認
Jiangbin Zheng, Siyuan Li, Yufei Huang, Zhangyang Gao, Cheng Tan, Bozhen Hu, Jun Xia, Ge Wang, Stan Z. Li(参考訳) タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。 深層生成モデルは、データから直接タンパク質設計を学ぶことを約束する一方で、公開可能な構造系列ペアリングの欠如は、その一般化能力を制限している。 ジェネレイティブタンパク質設計の以前の取り組みは、このボトルネックを克服するために、アーキテクチャの改善と擬似データ拡張に焦点を当ててきた。 この課題をさらに解決するために,マルチモーダルトランスファー学習を利用したMMDesignという新しいタンパク質設計パラダイムを提案する。 我々の知る限り、MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを結合する最初のフレームワークであり、オートエンコーダ(AE)ベースの言語モデルを用いて、タンパク質配列の事前の意味知識を組み込む。 また,構造モジュールが長期の時間的情報を学習し,構造的および文脈的モダリティの一貫性を確保するためのクロスレイヤークロスモーダルアライメントアルゴリズムを提案する。 実験の結果、小さなCATHデータセットでのみトレーニングした結果、我々のMMDesignフレームワークは、様々な公開テストセットで他のベースラインを一貫して上回ります。 生成したタンパク質配列とデータ分布の生物学的妥当性を更に評価するために, 解釈可能性を提供し, タンパク質設計の法則をさらに明らかにする系統的定量的解析手法を提案する。

Protein design involves generating protein sequences based on their corresponding protein backbones. While deep generative models show promise for learning protein design directly from data, the lack of publicly available structure-sequence pairings limits their generalization capabilities. Previous efforts of generative protein design have focused on architectural improvements and pseudo-data augmentation to overcome this bottleneck. To further address this challenge, we propose a novel protein design paradigm called MMDesign, which leverages multi-modality transfer learning. To our knowledge, MMDesign is the first framework that combines a pretrained structural module with a pretrained contextual module, using an auto-encoder (AE) based language model to incorporate prior semantic knowledge of protein sequences. We also introduce a cross-layer cross-modal alignment algorithm to enable the structural module to learn long-term temporal information and ensure consistency between structural and contextual modalities. Experimental results, only training with the small CATH dataset, demonstrate that our MMDesign framework consistently outperforms other baselines on various public test sets. To further assess the biological plausibility of the generated protein sequences and data distribution, we present systematic quantitative analysis techniques that provide interpretability and reveal more about the laws of protein design.
翻訳日:2023-12-12 15:53:09 公開日:2023-12-11
# Cataract-1K:Scene Segmentation, Phase Recognition, and Irregularity Detectionのための白内障手術データセット

Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection ( http://arxiv.org/abs/2312.06295v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Yosuf El-Shabrawi, Sahar Nasirihaghighi, Doris Putzgruber-Adamitsch, Martin Zinkernagel, Sebastian Wolf, Klaus Schoeffmann, Raphael Sznitman(参考訳) 近年, 深層学習技術により, コンピュータ支援による介入や術後の手術映像分析の状況が劇的に変化し, 外科医のスキル, 手術室管理, 総合的な手術成績が著しく進歩している。 しかし、ディープラーニングを利用した外科技術の進歩は、大規模なデータセットやアノテーションに大きく依存している。 特に,手術場面の理解と位相認識は,コンピュータ支援手術領域における重要な柱であり,白内障手術ビデオの術後評価である。 そこで本研究では,白内障手術における手術ワークフロー解析と術後の異常検出のための多様な要件に対処する最大の白内障手術ビデオデータセットを提案する。 位相認識と手術シーンセグメンテーションのための最先端ニューラルネットワークアーキテクチャの性能をベンチマークすることにより,アノテーションの品質を検証する。 また,白内障手術ビデオにおけるクロスドメイン楽器セグメンテーションの性能を評価することにより,白内障手術における楽器セグメンテーションの領域適応に関する研究を開始する。 データセットとアノテーションは、論文が受け入れられれば公開される予定だ。

In recent years, the landscape of computer-assisted interventions and post-operative surgical video analysis has been dramatically reshaped by deep-learning techniques, resulting in significant advancements in surgeons' skills, operation room management, and overall surgical outcomes. However, the progression of deep-learning-powered surgical technologies is profoundly reliant on large-scale datasets and annotations. Particularly, surgical scene understanding and phase recognition stand as pivotal pillars within the realm of computer-assisted surgery and post-operative assessment of cataract surgery videos. In this context, we present the largest cataract surgery video dataset that addresses diverse requisites for constructing computerized surgical workflow analysis and detecting post-operative irregularities in cataract surgery. We validate the quality of annotations by benchmarking the performance of several state-of-the-art neural network architectures for phase recognition and surgical scene segmentation. Besides, we initiate the research on domain adaptation for instrument segmentation in cataract surgery by evaluating cross-domain instrument segmentation performance in cataract surgery videos. The dataset and annotations will be publicly available upon acceptance of the paper.
翻訳日:2023-12-12 15:52:31 公開日:2023-12-11
# FOSS:クエリ最適化のための自己学習型医師

FOSS: A Self-Learned Doctor for Query Optimizer ( http://arxiv.org/abs/2312.06357v1 )

ライセンス: Link先を確認
Kai Zhong and Luming Sun and Tao Ji and Cuiping Li and Hong Chen(参考訳) データベースシステムにおけるクエリ最適化問題に対処するために,様々な研究が深層強化学習(DRL)を利用している。 ボトムアップ的な方法で計画を構築することを学ぶか、ヒントを使って従来のオプティマイザのプラン生成行動をガイドする。 これらの手法はある程度成功したが、訓練効率の低下や計画検索スペースの制限といった課題に直面している。 これらの課題に対処するために、クエリ最適化のための新しいDRLベースのフレームワークであるFOSSを紹介する。 FOSSは、従来のオプティマイザによって生成された当初の計画から最適化を開始し、一連のアクションを通じて計画の最適下ノードを漸進的に洗練する。 さらに,2つのプラン間のアドバンテージを評価するために,非対称アドバンテージモデルを考案する。 従来のオプティマイザと統合してシミュレーション環境を作ります。 このシミュレートされた環境を利用することで、fossは自己をブートストラップし、大量の高品質シミュレート体験を迅速に生成することができる。 FOSSは、これらのシミュレートされたエクスペリエンスから、最適化機能を学び、改善する。 結合順序ベンチマーク, TPC-DS, Stack OverflowにおけるFOSSの性能評価を行った。 実験の結果、FOSSは遅延性能と最適化時間の観点から最先端の手法よりも優れていることが示された。 PostgreSQLと比較して、FOSSは、さまざまなベンチマークで15%から83%のレイテンシを実現する。

Various works have utilized deep reinforcement learning (DRL) to address the query optimization problem in database system. They either learn to construct plans from scratch in a bottom-up manner or guide the plan generation behavior of traditional optimizer using hints. While these methods have achieved some success, they face challenges in either low training efficiency or limited plan search space. To address these challenges, we introduce FOSS, a novel DRL-based framework for query optimization. FOSS initiates optimization from the original plan generated by a traditional optimizer and incrementally refines suboptimal nodes of the plan through a sequence of actions. Additionally, we devise an asymmetric advantage model to evaluate the advantage between two plans. We integrate it with a traditional optimizer to form a simulated environment. Leveraging this simulated environment, FOSS can bootstrap itself to rapidly generate a large amount of high-quality simulated experiences. FOSS then learns and improves its optimization capability from these simulated experiences. We evaluate the performance of FOSS on Join Order Benchmark, TPC-DS, and Stack Overflow. The experimental results demonstrate that FOSS outperforms the state-of-the-art methods in terms of latency performance and optimization time. Compared to PostgreSQL, FOSS achieves savings ranging from 15% to 83% in total latency across different benchmarks.
翻訳日:2023-12-12 15:45:05 公開日:2023-12-11
# 工学設計知識の実証的基礎

Empirical Basis of Engineering Design Knowledge ( http://arxiv.org/abs/2312.06355v1 )

ライセンス: Link先を確認
L. Siddharth, Jianxi Luo(参考訳) 工学設計知識は、実体と関係の複雑な配置を通じて自然言語テキストに具体化されている。 設計知識のオントロジ的構成はしばしば設計知識を抽出するためにnlp技術の性能を制限する。 また、大言語モデルは、主に常識的なテキストに基づいて訓練されるため、設計知識の生成や説明にはあまり役に立たない。 本稿では,特許文書からの実証的観察に基づく設計知識の構成について述べる。 我々は33,881件の特許のサンプルを取得し、これらの文から2400万件以上の事実を収集した。 そこで我々は,その事実に存在する一意な実体の頻度と関係性を用いてzipf分布解析を行う。 文字通りの実体は特許のサンプルから一般化することはできないが、その関係は主に属性('of')、構造('in'、'with')、目的('to'、'for')、階層('include')、例示('like')、行動('to'、'from')を捉えている。 分析の結果、エンティティと関係の半数以上がそれぞれ64と24の言語構文に一般化され、階層的関係には75の構文が含まれることがわかった。 これらの構文は工学的設計知識の言語的基礎を表している。 各特許内の事実を知識グラフに組み合わせ、そこから統計的に過剰に表現されたサブグラフパターンであるモチーフを発見する。 サンプルのすべての特許を通じて、エンジニアリング設計の知識の構造的基礎を形成する、シーケンス [->...->]、アグリゲーション [->...<-]、階層 [<-...->]に単純化可能な8つのパターンを特定しました。 本稿では,抽象的な実体と部分グラフ内の関係を包含する規制規範を提案する。 これらの規範は、設計環境における知識の構築と管理に有用である。

Engineering design knowledge is embodied in natural language text through intricate placement of entities and relationships. Ontological constructs of design knowledge often limit the performances of NLP techniques to extract design knowledge. Also, large-language models could be less useful for generating and explicating design knowledge, as these are trained predominantly on common-sense text. In this article, we present the constituents of design knowledge based on empirical observations from patent documents. We obtain a sample of 33,881 patents and populate over 24 million facts from the sentences in these. We conduct Zipf distribution analyses using the frequencies of unique entities and relationships that are present in the facts thus populated. While the literal entities cannot be generalised from the sample of patents, the relationships largely capture attributes ('of'), structure ('in', 'with'), purpose ('to', 'for'), hierarchy ('include'), exemplification ('such as'), and behaviour ('to', 'from'). The analyses reveal that over half of entities and relationships could be generalised to 64 and 24 linguistic syntaxes respectively, while hierarchical relationships include 75 syntaxes. These syntaxes represent the linguistic basis of engineering design knowledge. We combine facts within each patent into a knowledge graph, from which we discover motifs that are statistically over-represented subgraph patterns. Across all patents in the sample, we identify eight patterns that could be simplified into sequence [->...->], aggregation [->...<-], and hierarchy [<-...->] that form the structural basis of engineering design knowledge. We propose regulatory precepts for concretising abstract entities and relationships within subgraphs, while also explicating hierarchical structures. These precepts could be useful for better construction and management of knowledge in a design environment.
翻訳日:2023-12-12 15:44:45 公開日:2023-12-11
# PortraitBooth: ファーストアイデンティティ保存パーソナライゼーションのためのVersatile Portrait Model

PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization ( http://arxiv.org/abs/2312.06354v1 )

ライセンス: Link先を確認
Xu Peng, Junwei Zhu, Boyuan Jiang, Ying Tai, Donghao Luo, Jiangning Zhang, Wei Lin, Taisong Jin, Chengjie Wang, Rongrong Ji(参考訳) 拡散モデルを用いたパーソナライズ画像生成の最近の進歩は注目に値する。 しかし,既存の手法では,被写体固有の微調整が要求されるため,非効率に苦しむ。 この計算集約的なプロセスは効率的なデプロイメントを妨げ、実用的なユーザビリティを制限する。 さらに、これらの手法はアイデンティティの歪みや表現の多様性が制限されることが多い。 そこで我々は,これらの課題に照らし合わせて,高効率,堅牢なアイデンティティ保存,表現編集可能なテキストから画像への生成を念頭において,微調整を必要とせず,革新的なアプローチであるportalboothを提案する。 PortraitBoothは、顔認識モデルからの被写体埋め込みを利用して、微調整なしでパーソナライズされた画像を生成する。 計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。 導入された動的アイデンティティ保存戦略により、元のイメージアイデンティティと密接な類似性が保証される。 さらに、PortraitBoothは、生成した画像の多様な表情に対する感情認識のクロスアテンション制御を導入し、テキスト駆動型表現編集をサポートする。 そのスケーラビリティは、マルチオブジェクト生成を含む効率的で高品質な画像生成を可能にする。 複数の画像生成シナリオにおいて、他の最先端手法よりも優れた性能を示す。

Recent advancements in personalized image generation using diffusion models have been noteworthy. However, existing methods suffer from inefficiencies due to the requirement for subject-specific fine-tuning. This computationally intensive process hinders efficient deployment, limiting practical usability. Moreover, these methods often grapple with identity distortion and limited expression diversity. In light of these challenges, we propose PortraitBooth, an innovative approach designed for high efficiency, robust identity preservation, and expression-editable text-to-image generation, without the need for fine-tuning. PortraitBooth leverages subject embeddings from a face recognition model for personalized image generation without fine-tuning. It eliminates computational overhead and mitigates identity distortion. The introduced dynamic identity preservation strategy further ensures close resemblance to the original image identity. Moreover, PortraitBooth incorporates emotion-aware cross-attention control for diverse facial expressions in generated images, supporting text-driven expression editing. Its scalability enables efficient and high-quality image creation, including multi-subject generation. Extensive results demonstrate superior performance over other state-of-the-art methods in both single and multiple image generation scenarios.
翻訳日:2023-12-12 15:44:10 公開日:2023-12-11
# 通信コストが18キロバイト未満の10億大言語モデルのフェデレーションフルパラメータチューニング

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes ( http://arxiv.org/abs/2312.06353v1 )

ライセンス: Link先を確認
Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng(参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整を必要とする。 federated learning(fl)は、データプライバシを損なうことなく、エンドデバイス上の豊富なデータを使用して微調整を行う方法を提供する。 LLMの既存のファインチューニング手法の多くはパラメータ効率のよいファインチューニング技術に依存しており、フルパラメータチューニングでは到達できない。 しかし、フルパラメータチューニングに伴う通信オーバーヘッドは、サーバとクライアントの両方にとって非常に高い。 この研究は、ゼロ階最適化(ZOO)とランダムシードのセットを利用する新しいアプローチであるFedKSeedを紹介する。 デバイス上で、数十億のLLMを直接フルパラメータチューニングすることができる。 この手法はサーバとクライアント間の送信要求をほんの数スカラーの勾配とランダムな種に大幅に削減し、わずか数千バイトにまで削減する。 そこで我々は, FLに対するZOO摂動の意義を評価する戦略を開発し, 確率差シードサンプリングを可能にした。 これはモデル精度により大きな影響を与える摂動を優先する。 異なるLLM,データセット,データパーティションを用いた6つのシナリオを対象とした実験により,我々の手法は,コミュニケーション効率とタスク一般化の両面から,既存のLLMファインチューニング手法よりも優れていることを示した。

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.
翻訳日:2023-12-12 15:43:52 公開日:2023-12-11
# NuScenes-MQA:マークアップアノテーションを用いた自律走行データセットのキャプションとQAの統合評価

NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations ( http://arxiv.org/abs/2312.06352v1 )

ライセンス: Link先を確認
Yuichi Inoue, Yuki Yada, Kotaro Tanahashi, Yu Yamaguchi(参考訳) 視覚質問応答(VQA)は自律運転において最も重要なタスクの一つであり、正確な認識と複雑な状況評価を必要とする。 しかし,運転シーンからの正確な言語生成とシーン認識を保証するQA形式で注釈付けされたデータセットはまだ確立されていない。 本稿では,マークアップ内にQAを囲む新しいデータセットアノテーション手法であるMarkup-QAを紹介する。 このアプローチは、文生成とVQAにおけるモデルの能力の同時評価を容易にする。 さらに、このアノテーション手法を用いて、NuScenes-MQAデータセットを設計した。 このデータセットは、説明能力と正確なQAの両方に焦点を当てることで、視覚言語モデル、特に自律運転タスクの開発を促進する。 データセットはhttps://github.com/turingmotors/NuScenes-MQA.comで公開されている。

Visual Question Answering (VQA) is one of the most important tasks in autonomous driving, which requires accurate recognition and complex situation evaluations. However, datasets annotated in a QA format, which guarantees precise language generation and scene recognition from driving scenes, have not been established yet. In this work, we introduce Markup-QA, a novel dataset annotation technique in which QAs are enclosed within markups. This approach facilitates the simultaneous evaluation of a model's capabilities in sentence generation and VQA. Moreover, using this annotation methodology, we designed the NuScenes-MQA dataset. This dataset empowers the development of vision language models, especially for autonomous driving tasks, by focusing on both descriptive capabilities and precise QA. The dataset is available at https://github.com/turingmotors/NuScenes-MQA.
翻訳日:2023-12-12 15:43:29 公開日:2023-12-11
# 自律運転における意思決定のための大規模言語モデルの評価

Evaluation of Large Language Models for Decision Making in Autonomous Driving ( http://arxiv.org/abs/2312.06351v1 )

ライセンス: Link先を確認
Kotaro Tanahashi, Yuichi Inoue, Yu Yamaguchi, Hidetatsu Yaginuma, Daiki Shiotsuka, Hiroyuki Shimatani, Kohei Iwamasa, Yoshiaki Inoue, Takafumi Yamaguchi, Koki Igari, Tsukasa Horinouchi, Kento Tokuhiro, Yugo Tokuchi, Shunsuke Aoki(参考訳) 大規模言語モデル(LLM)を自律運転に活用するための様々な手法が提案されている。 LLMを自律運転に使用する戦略の1つは、LLMにテキストプロンプトとして周囲の物体を入力し、座標や速度情報とともに、その後の車両の動きを出力することである。 このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。 特に,(1)コーディネート情報から空間を認識し,衝突を避けるための意思決定を行う空間認識意思決定,(2)交通規則に準拠する能力,の2つの基礎的能力が必要である。 しかし、これらの問題にどう対処できるかについて、定量的研究は行われていない。 本研究では,この2つのLCMの能力について,自律運転の文脈で定量的に評価した。 さらに,実車においてこれらの能力を実現するための概念実証(poc)を行うため,llmを用いて車両を駆動するシステムを開発した。

Various methods have been proposed for utilizing Large Language Models (LLMs) in autonomous driving. One strategy of using LLMs for autonomous driving involves inputting surrounding objects as text prompts to the LLMs, along with their coordinate and velocity information, and then outputting the subsequent movements of the vehicle. When using LLMs for such purposes, capabilities such as spatial recognition and planning are essential. In particular, two foundational capabilities are required: (1) spatial-aware decision making, which is the ability to recognize space from coordinate information and make decisions to avoid collisions, and (2) the ability to adhere to traffic rules. However, quantitative research has not been conducted on how accurately different types of LLMs can handle these problems. In this study, we quantitatively evaluated these two abilities of LLMs in the context of autonomous driving. Furthermore, to conduct a Proof of Concept (POC) for the feasibility of implementing these abilities in actual vehicles, we developed a system that uses LLMs to drive a vehicle.
翻訳日:2023-12-12 15:43:16 公開日:2023-12-11
# DiffAIL:拡散反転模倣学習

DiffAIL: Diffusion Adversarial Imitation Learning ( http://arxiv.org/abs/2312.06348v1 )

ライセンス: Link先を確認
Bingzheng Wang, Yan Zhang, Teng Pang, Guoqiang Wu, Yilong Yin(参考訳) 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。 現在の一般的なアプローチは、adversarial imitation learning(ail)フレームワークで、専門家のステートアクション占有手段をマッチングして、前方強化学習のための代理報酬を得る。 しかし、従来の判別器は単純なバイナリ分類器であり、正確な分布を学習しないため、環境と相互作用するポリシーによって引き起こされるエキスパートレベルの状態-アクションペアを識別できない可能性がある。 そこで本研究では, ailフレームワークに拡散モデルを導入するために, diffusion adversarial imitation learning (diffail) という手法を提案する。 具体的には、diffailは状態-作用対を無条件拡散モデルとしてモデル化し、識別者の学習目標の一部として拡散損失を利用する。 実験により,本手法は最先端性能を達成し,標準状態動作設定と状態のみ設定を含む2つのベンチマークタスクのエキスパートデモンストレーションを大幅に上回ることを示した。 私たちのコードは匿名の https://github.com/ML-Group-SDU/DiffAIL リンクで利用できます。

Imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial Imitation Learning (AIL) framework, which matches expert state-action occupancy measures to obtain a surrogate reward for forward reinforcement learning. However, the traditional discriminator is a simple binary classifier and doesn't learn an accurate distribution, which may result in failing to identify expert-level state-action pairs induced by the policy interacting with the environment. To address this issue, we propose a method named diffusion adversarial imitation learning (DiffAIL), which introduces the diffusion model into the AIL framework. Specifically, DiffAIL models the state-action pairs as unconditional diffusion models and uses diffusion loss as part of the discriminator's learning objective, which enables the discriminator to capture better expert demonstrations and improve generalization. Experimentally, the results show that our method achieves state-of-the-art performance and significantly surpasses expert demonstration on two benchmark tasks, including the standard state-action setting and state-only settings. Our code can be available at an anonymous link https://github.com/ML-Group-SDU/DiffAIL.
翻訳日:2023-12-12 15:43:00 公開日:2023-12-11
# RankMatch: ラベル間相関を利用した半教師付きラベル分散学習の新しいアプローチ

RankMatch: A Novel Approach to Semi-Supervised Label Distribution Learning Leveraging Inter-label Correlations ( http://arxiv.org/abs/2312.06343v1 )

ライセンス: Link先を確認
Kouzhiqiang Yucheng Xie, Jing Wang, Yuheng Jia, Boyu Shi, Xin Geng(参考訳) 本稿では,Semi-Supervised Label Distribution Learning (SSLDL) の革新的なアプローチである RankMatch を紹介する。 限定ラベル付きデータの課題に対処するため、RandMatchでは、ラベル付きデータの少ない例と、ラベルなしデータの量の増加とを効果的に活用することで、Deep Neural Network(DNN)アプリケーションにおける広範な手動ラベリングの必要性を低減している。 具体的には、複数の弱い強調画像から擬似ラベル分布を生成する、アンサンブル学習にインスパイアされた平均化戦略を導入する。 これは予測を安定化させるだけでなく、モデルの堅牢性を高める。 さらに、RightMatchは、ペアワイズ関連ランキング(PRR)の損失を統合し、複雑なラベル間相関をキャプチャし、予測されたラベル分布が基礎的な真実と一致することを保証する。 我々はRandMatchの理論的一般化を確立し、広範な実験を通じて既存のSSLDL法と比較して性能が優れていることを示す。

This paper introduces RankMatch, an innovative approach for Semi-Supervised Label Distribution Learning (SSLDL). Addressing the challenge of limited labeled data, RankMatch effectively utilizes a small number of labeled examples in conjunction with a larger quantity of unlabeled data, reducing the need for extensive manual labeling in Deep Neural Network (DNN) applications. Specifically, RankMatch introduces an ensemble learning-inspired averaging strategy that creates a pseudo-label distribution from multiple weakly augmented images. This not only stabilizes predictions but also enhances the model's robustness. Beyond this, RankMatch integrates a pairwise relevance ranking (PRR) loss, capturing the complex inter-label correlations and ensuring that the predicted label distributions align with the ground truth. We establish a theoretical generalization bound for RankMatch, and through extensive experiments, demonstrate its superiority in performance against existing SSLDL methods.
翻訳日:2023-12-12 15:42:39 公開日:2023-12-11
# グラフニューラルネットワークによる文脈ネットワーク異常の検出

Detecting Contextual Network Anomalies with Graph Neural Networks ( http://arxiv.org/abs/2312.06342v1 )

ライセンス: Link先を確認
Hamid Latif-Mart\'inez, Jos\'e Su\'arez-Varela, Albert Cabellos-Aparicio, Pere Barlet-Ros(参考訳) ネットワークトラフィックの異常検出は、今日のネットワーク内の大量のトラフィックフローと、時間とともに発生するトラフィックの非常にダイナミックな性質のため、複雑なタスクである。 本稿では,ネットワークトラフィックの異常検出にグラフニューラルネットワーク(GNN)を用いることを提案する。 本稿では,ネットワークトラフィック計測におけるコンテキスト異常検出としてこの問題を定式化し,起点決定フロー上のトラフィック異常を検出する独自のGNNベースのソリューションを提案する。 評価では,アビリーンから得られた実世界のデータ(6ヶ月)を用いて,同じタスク(PCA,EWMA,RNN)で広く使われている他の手法との比較を行った。 その結果, 本法により検出された異常は, ベースラインにより捕捉された異常と非常に相補的である(PCAでは最大36.33%の重複異常)。 さらに,本手法により検出された異常を手動で検査し,その大部分がネットワーク専門家によって視覚的に検証可能であること(信頼性が64%,信頼性が18%,トラフィックが18%)。 最後に,多くの異常を代表する2つのパラダイムケースを通して,異常の特徴を分析する。

Detecting anomalies on network traffic is a complex task due to the massive amount of traffic flows in today's networks, as well as the highly-dynamic nature of traffic over time. In this paper, we propose the use of Graph Neural Networks (GNN) for network traffic anomaly detection. We formulate the problem as contextual anomaly detection on network traffic measurements, and propose a custom GNN-based solution that detects traffic anomalies on origin-destination flows. In our evaluation, we use real-world data from Abilene (6 months), and make a comparison with other widely used methods for the same task (PCA, EWMA, RNN). The results show that the anomalies detected by our solution are quite complementary to those captured by the baselines (with a max. of 36.33% overlapping anomalies for PCA). Moreover, we manually inspect the anomalies detected by our method, and find that a large portion of them can be visually validated by a network expert (64% with high confidence, 18% with mid confidence, 18% normal traffic). Lastly, we analyze the characteristics of the anomalies through two paradigmatic cases that are quite representative of the bulk of anomalies.
翻訳日:2023-12-12 15:42:22 公開日:2023-12-11
# BoschAI @ Causal News Corpus 2023: Multi-Layer Sequence Tagging と Data Augmentation を用いたロバスト因果スパン抽出

BoschAI @ Causal News Corpus 2023: Robust Cause-Effect Span Extraction using Multi-Layer Sequence Tagging and Data Augmentation ( http://arxiv.org/abs/2312.06338v1 )

ライセンス: Link先を確認
Timo Pierre Schrader, Simon Razniewski, Lukas Lange, Annemarie Friedrich(参考訳) 因果関係を理解することは知性の中核的な側面である。 subtask 1 はテキスト内の因果関係を検出することを目的としており、subtask 2 ではそれぞれ原因または効果を示すシグナル語とスパンを識別する必要がある。 本システムは,事前学習したトランスフォーマー,重畳シーケンスタグ付け,合成データ拡張に基づいて,Subtask 1で3位にランクインし,F1スコア72.8でSubtask 2に勝利し,そのマージンは13ppである。 2番目に良いシステムです。

Understanding causality is a core aspect of intelligence. The Event Causality Identification with Causal News Corpus Shared Task addresses two aspects of this challenge: Subtask 1 aims at detecting causal relationships in texts, and Subtask 2 requires identifying signal words and the spans that refer to the cause or effect, respectively. Our system, which is based on pre-trained transformers, stacked sequence tagging, and synthetic data augmentation, ranks third in Subtask 1 and wins Subtask 2 with an F1 score of 72.8, corresponding to a margin of 13 pp. to the second-best system.
翻訳日:2023-12-12 15:42:02 公開日:2023-12-11
# 会話におけるマルチモーダル感情認識のための深層不均衡学習

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations ( http://arxiv.org/abs/2312.06337v1 )

ライセンス: Link先を確認
Tao Meng, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li(参考訳) 会話におけるマルチモーダル感情認識(Multimodal Emotion Recognition in Conversations, MERC)の主な課題は、機械知性を実現するための重要な開発方向である、テキスト、音声、画像、ビデオなどのモダリティの感情を特定することである。 しかしながら、mercの多くのデータは自然に感情カテゴリの不均衡分布を示し、研究者は感情認識に対する不均衡データの負の影響を無視している。 この問題に対処するために,データ拡張,損失感度,サンプリング戦略という3つの側面から体系的に解析し,クラス境界強化表現学習(cberl)モデルを提案する。 具体的には,まず,原データにおける<emotion} カテゴリの不均衡な分布に対処するために,マルチモーダル生成型逆ネットワークを設計した。 次に, 相補的意味情報をモダリティ間で融合し, 識別的特徴表現を得るために, 深い関節変分オートエンコーダを提案する。 最後に,マスク再構成と分類最適化によるマルチタスクグラフニューラルネットワークを実装し,クラス境界学習における過剰フィッティングと不適合の問題を解決し,クロスモーダル感情認識を実現する。 我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。 特にマイノリティクラスの恐怖と嫌悪感のラベルでは,モデルが精度とf1値を10%から20%向上させる。

The main task of Multimodal Emotion Recognition in Conversations (MERC) is to identify the emotions in modalities, e.g., text, audio, image and video, which is a significant development direction for realizing machine intelligence. However, many data in MERC naturally exhibit an imbalanced distribution of emotion categories, and researchers ignore the negative impact of imbalanced data on emotion recognition. To tackle this problem, we systematically analyze it from three aspects: data augmentation, loss sensitivity, and sampling strategy, and propose the Class Boundary Enhanced Representation Learning (CBERL) model. Concretely, we first design a multimodal generative adversarial network to address the imbalanced distribution of {emotion} categories in raw data. Secondly, a deep joint variational autoencoder is proposed to fuse complementary semantic information across modalities and obtain discriminative feature representations. Finally, we implement a multi-task graph neural network with mask reconstruction and classification optimization to solve the problem of overfitting and underfitting in class boundary learning, and achieve cross-modal emotion recognition. We have conducted extensive experiments on the IEMOCAP and MELD benchmark datasets, and the results show that CBERL has achieved a certain performance improvement in the effectiveness of emotion recognition. Especially on the minority class fear and disgust emotion labels, our model improves the accuracy and F1 value by 10% to 20%.
翻訳日:2023-12-12 15:41:47 公開日:2023-12-11
# 知識グラフ埋め込みとベイズ推論に基づく車線変化予測

Vehicle Lane Change Prediction based on Knowledge Graph Embeddings and Bayesian Inference ( http://arxiv.org/abs/2312.06336v1 )

ライセンス: Link先を確認
M. Manzour, A. Ballardini, R. Izquierdo, M. A. Sotelo(参考訳) 車両レーン変更操作の予測は、ここ数年で大きな勢いを増している。 最近のいくつかの研究は、まず軌道を予測して車両の意図を予測することに焦点を当てている。 これは不十分であり、シーンの文脈や周囲の車両の状態(標的車両に危険が及ぶ可能性があるため)を無視しているためである。 他の研究は、対象車両の周囲に存在することや、それらと対象車両の間の距離と相対速度を2つの異なる数値的特徴として考慮することで、周辺車両のリスクを評価した。 本研究では,知識グラフ(kgs)を利用して,言語的文脈情報に基づく車線変化を予測し,現在の認識システムの能力を超えた方法で予測する手法を提案する。 我々のソリューションは、対象車両のリスクを評価するために、周辺車両とのTime To Collision (TTC) を入力とする。 さらに、我々のKGは、知識グラフ埋め込み(KGE)を得るためにTransEモデルを用いて、HighDデータセットでトレーニングされている。 次に,トレーニング中に学習した埋め込みを用いて,KG上のベイズ推定を適用した。 最後に、97.95%のf1-scoreで2秒前の車線変更を予測し、93.60%のf1-scoreで車線変更を行う。

Prediction of vehicle lane change maneuvers has gained a lot of momentum in the last few years. Some recent works focus on predicting a vehicle's intention by predicting its trajectory first. This is not enough, as it ignores the context of the scene and the state of the surrounding vehicles (as they might be risky to the target vehicle). Other works assessed the risk made by the surrounding vehicles only by considering their existence around the target vehicle, or by considering the distance and relative velocities between them and the target vehicle as two separate numerical features. In this work, we propose a solution that leverages Knowledge Graphs (KGs) to anticipate lane changes based on linguistic contextual information in a way that goes well beyond the capabilities of current perception systems. Our solution takes the Time To Collision (TTC) with surrounding vehicles as input to assess the risk on the target vehicle. Moreover, our KG is trained on the HighD dataset using the TransE model to obtain the Knowledge Graph Embeddings (KGE). Then, we apply Bayesian inference on top of the KG using the embeddings learned during training. Finally, the model can predict lane changes two seconds ahead with 97.95% f1-score, which surpassed the state of the art, and three seconds before changing lanes with 93.60% f1-score.
翻訳日:2023-12-12 15:41:23 公開日:2023-12-11
# dropoutは、強化学習を備えた頑丈な2量子ビットゲート

Dropout is all you need: robust two-qubit gate with reinforcement learning ( http://arxiv.org/abs/2312.06335v1 )

ライセンス: Link先を確認
Tian-Niu Xu, Yongcheng Ding, Jos\'e D. Mart\'in-Guerrero, and Xi Chen(参考訳) 量子制御の分野では、機械学習の著名な分野である強化学習が、コンピュータ支援による実験最適設計の競争候補として現れる。 本研究では,量子制御プロトコルの設計において,強化学習を効果的に実施するためには,人間専門家の指導がどの程度必要かを検討する。 具体的には、核磁気共鳴システム内のロバストな2ビットゲートの工学に焦点をあて、解析解の組み合わせをコンピュータ科学の分野における先行知識と技術として活用する。 異なるモデルの広範なベンチマークを通じて、機械学習における過度な適合を緩和するための広く使われている方法であるドロップアウトを、特に堅牢なアプローチとして特定する。 本研究は,高度な量子技術の発展を促進するために,コンピュータ科学の概念を取り入れる可能性を示す。

In the realm of quantum control, reinforcement learning, a prominent branch of machine learning, emerges as a competitive candidate for computer-assisted optimal design for experiments. This study investigates the extent to which guidance from human experts is necessary for the effective implementation of reinforcement learning in designing quantum control protocols. Specifically, we focus on the engineering of a robust two-qubit gate within a nuclear magnetic resonance system, utilizing a combination of analytical solutions as prior knowledge and techniques from the field of computer science. Through extensive benchmarking of different models, we identify dropout, a widely-used method for mitigating overfitting in machine learning, as an especially robust approach. Our findings demonstrate the potential of incorporating computer science concepts to propel the development of advanced quantum technologies.
翻訳日:2023-12-12 15:41:01 公開日:2023-12-11
# 弱磁場下での核スピン量子ビットのコヒーレンス保存冷却

Coherence-preserving cooling of nuclear spin qubits in a weak magnetic field ( http://arxiv.org/abs/2312.06332v1 )

ライセンス: Link先を確認
Xiao-Feng Shi(参考訳) 二価中性原子の核スピン記憶は、強い磁場中におけるスピン保存レゾリューションサイドバンド冷却を可能にする[phys. rev. lett. 99, 123001 (2007)]。 弱磁場中における$^{87}$Sr核スピン量子ビットの冷却理論を提案する。 この理論は、5s5p~^1P_1$のレーザー励起を近くの状態に頼り、その結果、超微細な相互作用に比べて$m_J$依存の交流スタークシフトが大きくなる。 これは超微粒子相互作用による核-スピン混合を効果的に抑制する。 ACスタークシフトした$^1P_1$状態のクロック状態によるサイドバンド冷却は、核スピン保存自然放出を基底状態に戻す。 低磁場に適合するよりも、核スピン量子ビットが2つの最低ゼーマン準状態によって定義される場合に適用できる。

Nuclear spin memories of divalent neutral atoms can allow spin-preserving resolved-sideband cooling in a strong magnetic field [Phys. Rev. Lett. 99, 123001 (2007)]. We present a theory for cooling $^{87}$Sr nuclear-spin qubits in a weak magnetic field. The theory depends on laser excitation of $5s5p~^1P_1$ to a nearby state which results in $m_J$-dependent AC Stark shifts large compared to the hyperfine interaction. This effectively suppresses the nuclear-spin mixing due to the hyperfine interaction. Sideband cooling via the clock state quenched by the AC Stark-shifted $^1P_1$ state leads to nuclear-spin-preserving spontaneous emission back to the ground state. More than being compatible with low magnetic fields, the theory is applicable when the nuclear spin qubits are defined by the two lowest Zeeman substates.
翻訳日:2023-12-12 15:40:46 公開日:2023-12-11
# セマンティクス接続によるクロスドメインセグメンテーションのための擬似ラベル

Semantic Connectivity-Driven Pseudo-labeling for Cross-domain Segmentation ( http://arxiv.org/abs/2312.06331v1 )

ライセンス: Link先を確認
Dong Zhao, Ruizhi Yang, Shuang Wang, Qi Zang, Yang Hu, Licheng Jiao, Nicu Sebe, Zhun Zhong(参考訳) 現在、自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチであり、信頼できる擬似ラベルを割り当てられた画素を用いたトレーニングによりモデルの有効性を高める。 しかし、このパラダイムには2つの限界がある。 1) 信頼性画素の大多数はスペックル形状のパターンを示し, 主に中心的な意味領域に位置する。 これは、モデルのセマンティクスを正確に学習する際の課題である。 2) スペックル画素のカテゴリーノイズの発見と補正は困難であり, 自己学習における誤りの蓄積につながる。 これらの制約に対処するため,セマンティックコネクティビティ駆動擬似ラベル (SeCo) と呼ばれる新しい手法を提案する。 このアプローチは接続レベルで擬似ラベルを定式化し、構造化された低雑音セマンティクスの学習を容易にする。 具体的には、SeCoは、Pixel Semantic Aggregation(PSA)とSemantic Connectivity Correction(SCC)の2つの重要なコンポーネントで構成される。 当初、PSAは意味論を"stuff"カテゴリと"things"カテゴリに分割し、Segment Anything Model (SAM)との効率的な相互作用を通じて、擬似ラベルをセマンティック接続に集約する。 これにより、正確な境界を得るだけでなく、ノイズの局所化も簡単になる。 その後、SCCは単純な接続分類タスクを導入し、損失分布の誘導による接続ノイズの特定と修正を可能にする。 広範な実験により、secoは従来の教師なし、ソースフリー、ブラックボックスのドメイン適応を含む様々なクロスドメインセグメンテーションタスクに柔軟に適用できることが示され、既存の最先端メソッドの性能が大幅に向上した。 コードはhttps://github.com/DZhaoXd/SeCoで入手できる。

Presently, self-training stands as a prevailing approach in cross-domain semantic segmentation, enhancing model efficacy by training with pixels assigned with reliable pseudo-labels. However, we find two critical limitations in this paradigm. (1) The majority of reliable pixels exhibit a speckle-shaped pattern and are primarily located in the central semantic region. This presents challenges for the model in accurately learning semantics. (2) Category noise in speckle pixels is difficult to locate and correct, leading to error accumulation in self-training. To address these limitations, we propose a novel approach called Semantic Connectivity-driven pseudo-labeling (SeCo). This approach formulates pseudo-labels at the connectivity level and thus can facilitate learning structured and low-noise semantics. Specifically, SeCo comprises two key components: Pixel Semantic Aggregation (PSA) and Semantic Connectivity Correction (SCC). Initially, PSA divides semantics into 'stuff' and 'things' categories and aggregates speckled pseudo-labels into semantic connectivity through efficient interaction with the Segment Anything Model (SAM). This enables us not only to obtain accurate boundaries but also simplifies noise localization. Subsequently, SCC introduces a simple connectivity classification task, which enables locating and correcting connectivity noise with the guidance of loss distribution. Extensive experiments demonstrate that SeCo can be flexibly applied to various cross-domain semantic segmentation tasks, including traditional unsupervised, source-free, and black-box domain adaptation, significantly improving the performance of existing state-of-the-art methods. The code is available at https://github.com/DZhaoXd/SeCo.
翻訳日:2023-12-12 15:40:31 公開日:2023-12-11
# DiTヘッド:拡散変換器を用いた高分解能トーキングヘッド合成

DiT-Head: High-Resolution Talking Head Synthesis using Diffusion Transformers ( http://arxiv.org/abs/2312.06400v1 )

ライセンス: Link先を確認
Aaron Mir, Eduardo Alonso and Esther Mondrag\'on(参考訳) 本研究では,拡散トランスをベースとし,拡散モデルの発声過程を駆動するための条件として音声を用いた,新たな音声ヘッド合成パイプライン「dit-head」を提案する。 提案手法はスケーラブルであり,高品質な結果が得られるとともに,複数のアイデンティティに一般化することができる。 提案手法を訓練し,評価し,既存の音声頭部合成法と比較した。 視覚的品質とリップシンク精度の観点から,本モデルがこれらの手法と競合することを示す。 提案手法が仮想アシスタント,エンターテイメント,教育など,幅広い用途に応用される可能性を強調した。 結果とユーザ調査のビデオデモについては、補足資料を参照のこと。

We propose a novel talking head synthesis pipeline called "DiT-Head", which is based on diffusion transformers and uses audio as a condition to drive the denoising process of a diffusion model. Our method is scalable and can generalise to multiple identities while producing high-quality results. We train and evaluate our proposed approach and compare it against existing methods of talking head synthesis. We show that our model can compete with these methods in terms of visual quality and lip-sync accuracy. Our results highlight the potential of our proposed approach to be used for a wide range of applications, including virtual assistants, entertainment, and education. For a video demonstration of the results and our user study, please refer to our supplementary material.
翻訳日:2023-12-12 15:32:57 公開日:2023-12-11
# NVFi:ダイナミックビデオによる3次元物理学習のための神経速度場

NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos ( http://arxiv.org/abs/2312.06398v1 )

ライセンス: Link先を確認
Jinxi Li, Ziyang Song, Bo Yang(参考訳) 本稿では,マルチビュー映像から3次元シーンダイナミクスをモデル化することを目的とする。 トレーニング期間中に新しい視点合成の共通課題に焦点をあてる既存の作品の多くとは違って,ビデオフレームからのみ3次元シーンの幾何学的,外観的,身体的速度を同時に学習し,将来のフレーム外挿,教師なし3次元セマンティックシーンの分解,ダイナミックモーショントランスファーなど,複数の望ましいアプリケーションをサポートすることを提案する。 提案手法は3つの主成分からなる。 1) キーフレーム動的放射場 2)フレーム間速度場,及び 3) 両ネットワークを効果的にトレーニングするためのフレームワークの中核となるキーフレームとフレーム間最適化モジュール。 提案手法を検証するために,2つの動的3Dデータセットを導入する。 1)動的オブジェクトデータセット、及び 2)動的屋内シーンデータセット。 複数のデータセットに対して広範な実験を行い、特に将来のフレーム外挿と教師なしの3Dセマンティックシーン分解のクリティカルタスクにおいて、全てのベースライン上での手法の優れた性能を示す。

In this paper, we aim to model 3D scene dynamics from multi-view videos. Unlike the majority of existing works which usually focus on the common task of novel view synthesis within the training time period, we propose to simultaneously learn the geometry, appearance, and physical velocity of 3D scenes only from video frames, such that multiple desirable applications can be supported, including future frame extrapolation, unsupervised 3D semantic scene decomposition, and dynamic motion transfer. Our method consists of three major components, 1) the keyframe dynamic radiance field, 2) the interframe velocity field, and 3) a joint keyframe and interframe optimization module which is the core of our framework to effectively train both networks. To validate our method, we further introduce two dynamic 3D datasets: 1) Dynamic Object dataset, and 2) Dynamic Indoor Scene dataset. We conduct extensive experiments on multiple datasets, demonstrating the superior performance of our method over all baselines, particularly in the critical tasks of future frame extrapolation and unsupervised 3D semantic scene decomposition.
翻訳日:2023-12-12 15:32:46 公開日:2023-12-11
# 量子電池の実現のための実践的スキーム

Practical Scheme for Realization of a Quantum Battery ( http://arxiv.org/abs/2312.06389v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli, Saeed Haddadi(参考訳) 本稿では,非マルコフ系における構造的貯留層下での原子キャビティ相互作用系からなる量子電池の実用的構成法を提案する。 キャビティ/貯留層結合のための多パラメータ構造について検討し,これらのパラメータが量子電池の性能に与える影響を明らかにする。 提案手法は単純であり,実用的な実現と実装を実現することができる。

In this paper, we propose a practical scheme for a quantum battery consisting of an atom-cavity interacting system under a structured reservoir in the non-Markovian regime. We study a multi-parameter regime for the cavity-reservoir coupling and reveal how these parameters affect the performance of the quantum battery. Our proposed scheme is simple and may be achievable for practical realization and implementation.
翻訳日:2023-12-12 15:32:26 公開日:2023-12-11
# manipose:多様体に拘束されたマルチハイポテーゼ3次元ポーズ推定

ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation ( http://arxiv.org/abs/2312.06386v1 )

ライセンス: Link先を確認
C\'edric Rommel, Victor Letzelter, Nermin Samet, Renaud Marlet, Matthieu Cord, Patrick P\'erez and Eduardo Valle(参考訳) 単眼の3Dポーズ推定(3D-HPE)は本質的に曖昧な作業であり、画像中の2Dポーズは異なる可能な3Dポーズから生じる可能性がある。 しかし、ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。 本研究では, この曖昧さのため, 共通回帰モデルでは位相的に矛盾するポーズを予測できないこと, 従来の評価指標であるMPJPE, P-MPJPE, PCKは, この側面を評価するには不十分であることを示す。 そこで本稿では,2次元入力毎に複数の候補3dポーズを提案できる,新しい多様体拘束型マルチハイポテーゼモデルであるmaniposeを提案する。 従来のマルチハイポテーゼアプローチとは異なり、ソリューションは完全に監督されており、複雑な生成モデルに依存しないため、トレーニングと使用が大幅に容易になる。 さらに,人間のポーズ多様体内に存在するようにモデルを拘束することにより,従来の研究では不可能であったアプローチで予測されるすべての仮説的ポーズの整合性を保証することができる。 本研究では,合成1次元から2次元の浮き上がり設定におけるマニポースの有用性を示し,実世界のデータセットにおいて,競争性のあるmpjpe性能を保ちながら,ポーズの一貫性において最先端のモデルを上回ることを実証する。

Monocular 3D human pose estimation (3D-HPE) is an inherently ambiguous task, as a 2D pose in an image might originate from different possible 3D poses. Yet, most 3D-HPE methods rely on regression models, which assume a one-to-one mapping between inputs and outputs. In this work, we provide theoretical and empirical evidence that, because of this ambiguity, common regression models are bound to predict topologically inconsistent poses, and that traditional evaluation metrics, such as the MPJPE, P-MPJPE and PCK, are insufficient to assess this aspect. As a solution, we propose ManiPose, a novel manifold-constrained multi-hypothesis model capable of proposing multiple candidate 3D poses for each 2D input, together with their corresponding plausibility. Unlike previous multi-hypothesis approaches, our solution is completely supervised and does not rely on complex generative models, thus greatly facilitating its training and usage. Furthermore, by constraining our model to lie within the human pose manifold, we can guarantee the consistency of all hypothetical poses predicted with our approach, which was not possible in previous works. We illustrate the usefulness of ManiPose in a synthetic 1D-to-2D lifting setting and demonstrate on real-world datasets that it outperforms state-of-the-art models in pose consistency by a large margin, while still reaching competitive MPJPE performance.
翻訳日:2023-12-12 15:32:21 公開日:2023-12-11
# 位相後選択を伴う量子鍵分布の高精度位相誤差率解析

Precise Phase Error Rate Analysis for Quantum Key Distribution with Phase Postselection ( http://arxiv.org/abs/2312.06385v1 )

ライセンス: Link先を確認
Yao Zhou, Zhen-Qiang Yin, Yang-Guang Shan, Ze-Hao Wang, Shuang Wang, Wei Chen, Guang-Can Guo and Zheng-Fu Han(参考訳) 量子鍵分布(QKD)は、量子力学の原理を利用して情報理論的に安全な通信チャネルを確立する先駆的な方法である。 QKDのセキュリティ証明では、位相誤差率は情報漏洩の重要な指標として機能し、AliceとBobの共有鍵ビットのセキュリティに直接影響を与える。 位相誤差率の上限を推定する際、位相ランダム化と後続のポストセレクション機構は多くのQKDプロトコルで重要な役割を果たす。 ここでは、位相選択によるQKDプロトコルの正確な位相誤差率解析を行い、盗聴者が取得できる情報の量を正確に拘束するのに役立つ。 さらに,送信または送信しないツインフィールド量子鍵分布 (SNS-TFQKD) とモードペアリング量子鍵分布 (MP-QKD) について解析を行った。 シミュレーションの結果, 精度の高い位相誤差解析により, 特に長距離において, キーレート性能が著しく向上することを確認した。 提案手法では,既存の実験ハードウェアやプロトコルのステップの変更は不要である。 現在のSNS-TF-QKDとMP-QKDで、高いキーレート生成に容易に適用できる。

Quantum key distribution (QKD) stands as a pioneering method for establishing information-theoretically secure communication channels by utilizing the principles of quantum mechanics. In the security proof of QKD, the phase error rate serves as a critical indicator of information leakage and directly influences the security of the shared key bits between communicating parties, Alice and Bob. In estimating the upper bound of the phase error rate, phase randomization and subsequent postselection mechanisms serve pivotal roles across numerous QKD protocols. Here we make a precise phase error rate analysis for QKD protocols with phase postselection, which helps us to accurately bound the amount of information an eavesdropper may obtain. We further apply our analysis in sending-or-not-sending twin-field quantum key distribution (SNS-TFQKD) and mode-pairing quantum key distribution (MP-QKD). The simulation results confirm that our precise phase error analysis can noticeably improve the key rate performance especially over long distances in practice. Note that our method does not require alterations to the existing experimental hardware or protocol steps. It can be readily applied within current SNS-TF-QKD and MP-QKD for higher key rate generation.
翻訳日:2023-12-12 15:31:51 公開日:2023-12-11
# SciCat: 科学ソフトウェアリポジトリのキュレートされたデータセット

SciCat: A Curated Dataset of Scientific Software Repositories ( http://arxiv.org/abs/2312.06382v1 )

ライセンス: Link先を確認
Addi Malviya-Thakur, Reed Milewicz, Lavinia Paganini, Ahmed Samir Imam Mahmoud, Audris Mockus(参考訳) 科学と研究のためのオープンソース科学ソフトウェアの普及は、機会と課題を提示している。 本稿では,学術研究ソフトウェアをキュレートしたリポジトリの必要性に対処するために,FLOSS(Free-Libre Open Source Software)プロジェクトの包括的コレクションであるSciCatデータセットを紹介する。 このコレクションは、科学ソフトウェアの作成と開発の支援を理解するのに不可欠である。 広範なカバレッジを確保するため、私たちのアプローチでは、World of Codeデータソースから、1億3100万の削除されたリポジトリのプールからプロジェクトを選択します。 その後、OpenAIの高度な言語モデルを用いてREADME.mdファイルを解析する。 本分類は, 科学的目的のために設計されたソフトウェア, 研究関連プロジェクト, 研究支援ソフトウェアに焦点をあてる。 SciCatデータセットは、科学関連のソフトウェアを研究するための貴重なツールになることを目標としており、科学ソフトウェア開発分野における新たなトレンド、一般的なプラクティス、課題に光を当てている。 さらに、World of Code、GitHub、その他のプラットフォームにリンク可能なデータが含まれており、科学的および非科学的ソフトウェアの比較研究を行うための確かな基盤を提供する。

The proliferation of open-source scientific software for science and research presents opportunities and challenges. In this paper, we introduce the SciCat dataset -- a comprehensive collection of Free-Libre Open Source Software (FLOSS) projects, designed to address the need for a curated repository of scientific and research software. This collection is crucial for understanding the creation of scientific software and aiding in its development. To ensure extensive coverage, our approach involves selecting projects from a pool of 131 million deforked repositories from the World of Code data source. Subsequently, we analyze README.md files using OpenAI's advanced language models. Our classification focuses on software designed for scientific purposes, research-related projects, and research support software. The SciCat dataset aims to become an invaluable tool for researching science-related software, shedding light on emerging trends, prevalent practices, and challenges in the field of scientific software development. Furthermore, it includes data that can be linked to the World of Code, GitHub, and other platforms, providing a solid foundation for conducting comparative studies between scientific and non-scientific software.
翻訳日:2023-12-12 15:31:30 公開日:2023-12-11
# 量子流体力学における不安定性と量子化

Instability and quantization in quantum hydrodynamics ( http://arxiv.org/abs/2312.06381v1 )

ライセンス: Link先を確認
Yakir Aharonov and Tomer Shushi(参考訳) 本稿では,波動関数のシュロディンガー像における遠部分波束の量子非局所効果を,マデルング像として知られる量子力学の流体力学的定式化を考えるとき,局所不安定問題に置き換える方法について述べる。 第2の結果,madlung方程式は外部量子化条件を伴わずに量子化エネルギーを記述する方法を示した。

In this short paper, we show how a quantum nonlocal effect of far-apart wavepackets in the Schrodinger picture of wavefunctions is replaced by a local instability problem when considering the hydrodynamical formulation of quantum mechanics, known as the Madelung picture. As a second result, we show how the Madelung equations describe quantized energies without any external quantization conditions.
翻訳日:2023-12-12 15:31:11 公開日:2023-12-11
# 量子ラビモデルの散逸相転移におけるスピン揺らぎ

Spin fluctuations in the dissipative phase transitions of the quantum Rabi model ( http://arxiv.org/abs/2312.06376v1 )

ライセンス: Link先を確認
Jiahui Li, Rosario Fazio, Yingdan Wang, Stefano Chesi(参考訳) キャビティ崩壊を伴う異方性量子Rabiモデルの散逸相転移について検討し、大きなスピン揺らぎが定常状態に持続し、位相図や臨界特性に重要な影響を及ぼすことを示した。 超ラジカル相への2次相転移では、スピンの集団を直接反映する秩序パラメータと非普遍因子の出現が顕著に抑制される。 さらに、平均場理論が三臨界位相を予測するパラメータレジームに入ると、超放射の予期せぬ崩壊による一階相転移が見つかる。 平均場理論を超える正確で物理的に透明な記述は、数値シミュレーション、累積展開、および縮小マスター方程式と有効平衡理論に基づく解析近似を組み合わせることによって確立される。 ディッケ模型の従来の熱力学的限界と比較して, 単一スピン系において非平衡状態を形成する傾向が一般的であり, 少数の系の散逸相転移に広く影響していることが示唆された。

We investigate the dissipative phase transitions of the anisotropic quantum Rabi model with cavity decay and demonstrate that large spin fluctuations persist in the stationary state, having important consequences on the phase diagram and the critical properties. In the second-order phase transition to the superradiant phase, there is a significant suppression of the order parameter and the appearance of non-universal factors, which directly reflect the spin populations. Furthermore, upon entering a parameter regime where mean-field theory predicts a tricritical phase, we find a first-order phase transition due to the unexpected collapse of superradiance. An accurate and physically transparent description going beyond mean-field theory is established by combining exact numerical simulations, the cumulant expansion, and analytical approximations based on reduced master equations and an effective equilibrium theory. Our findings, compared to the conventional thermodynamic limit of the Dicke model, indicate a general tendency of forming extreme non-equilibrium states in the single-spin system, thus have broad implications for dissipative phase transitions of few-body systems.
翻訳日:2023-12-12 15:31:04 公開日:2023-12-11
# ustancebr: スタンス予測のためのマルチモーダル言語資源

UstanceBR: a multimodal language resource for stance prediction ( http://arxiv.org/abs/2312.06374v1 )

ライセンス: Link先を確認
Camila Pereira, Matheus Pavan, Sungwon Yoon, Ricelli Ramos, Pablo Costa, Lais Cavalheiro, Ivandre Paraboni(参考訳) この研究は、ターゲットベースの姿勢予測のためのブラジルのTwitterドメインのマルチモーダルコーパスであるUstanceBRを紹介する。 コーパスは、選択された対象トピックに対する86.8kのラベル付きスタンスと、これらのスタンスをソーシャルメディアで公開したユーザに関する広範なネットワーク情報とからなる。 本稿では、コーパスのマルチモーダルデータと、テキストおよびネットワーク関連情報に基づくドメイン内およびゼロショット両方のスタンス予測における多くの使用例について述べる。

This work introduces UstanceBR, a multimodal corpus in the Brazilian Portuguese Twitter domain for target-based stance prediction. The corpus comprises 86.8 k labelled stances towards selected target topics, and extensive network information about the users who published these stances on social media. In this article we describe the corpus multimodal data, and a number of usage examples in both in-domain and zero-shot stance prediction based on text- and network-related information, which are intended to provide initial baseline results for future studies in the field.
翻訳日:2023-12-12 15:30:45 公開日:2023-12-11
# 三元スパイク:スパイクニューラルネットワークのための三元スパイクの学習

Ternary Spike: Learning Ternary Spikes for Spiking Neural Networks ( http://arxiv.org/abs/2312.06372v1 )

ライセンス: Link先を確認
Yufei Guo, Yuanpei Chen, Xiaode Liu, Weihang Peng, Yuhan Zhang, Xuhui Huang, Zhe Ma(参考訳) 生物学的にインスパイアされたニューラルネットワークインフラストラクチャの1つであるspyking neural network(snn)は、近年注目を集めている。 情報伝達にはバイナリスパイクアクティベーションを採用するため、活性化と重みの乗算は加算によって代用され、エネルギー効率が高い。 しかし,本稿では,バイナリスパイク活性化マップが十分な情報を運ぶことができず,情報損失が生じ,精度が低下することが理論的に実験的に証明されている。 この問題に対処するため,情報伝達のための3次スパイクニューロンを提案する。 三元スパイクニューロンは、二元スパイクニューロンのイベント駆動および乗算フリーな操作の利点を享受できるが、情報容量を増加させる。 さらに、学習可能な因子を3次スパイクニューロンに埋め込み、適切なスパイク振幅を学習することで、snは異なるスパイク振幅を層に沿って導入し、膜電位分布が層に沿って異なる現象に適合させることができる。 バニラ3次スパイクの効率を維持するため、トレーニング可能な3次スパイクSNNは推論における再パラメータ化手法により、標準スパイクに再変換される。 静的および動的データセット上のいくつかの一般的なネットワーク構造に関する広範囲な実験は、サーナリースパイクが最先端のメソッドを一貫して上回ることができることを示している。 私たちのコードはhttps://github.com/yfguo91/ternary-spikeでオープンソースです。

The Spiking Neural Network (SNN), as one of the biologically inspired neural network infrastructures, has drawn increasing attention recently. It adopts binary spike activations to transmit information, thus the multiplications of activations and weights can be substituted by additions, which brings high energy efficiency. However, in the paper, we theoretically and experimentally prove that the binary spike activation map cannot carry enough information, thus causing information loss and resulting in accuracy decreasing. To handle the problem, we propose a ternary spike neuron to transmit information. The ternary spike neuron can also enjoy the event-driven and multiplication-free operation advantages of the binary spike neuron but will boost the information capacity. Furthermore, we also embed a trainable factor in the ternary spike neuron to learn the suitable spike amplitude, thus our SNN will adopt different spike amplitudes along layers, which can better suit the phenomenon that the membrane potential distributions are different along layers. To retain the efficiency of the vanilla ternary spike, the trainable ternary spike SNN will be converted to a standard one again via a re-parameterization technique in the inference. Extensive experiments with several popular network structures over static and dynamic datasets show that the ternary spike can consistently outperform state-of-the-art methods. Our code is open-sourced at https://github.com/yfguo91/Ternary-Spike.
翻訳日:2023-12-12 15:30:35 公開日:2023-12-11
# BAT:自律運転のための行動認識型人型軌道予測

BAT: Behavior-Aware Human-Like Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2312.06371v1 )

ライセンス: Link先を確認
Haicheng Liao, Zhenning Li, Huanming Shen, Wenxuan Zeng, Guofa Li, Shengbo Eben Li, Chengzhong Xu(参考訳) 周囲の車両の軌道を正確に予測する能力は、完全自動運転車への旅を乗り越える上で重要なハードルとなる。 この課題に対処するために,交通心理学,人間行動,意思決定からの洞察と知見を取り入れた行動認識軌道予測モデル(BAT)を考案した。 本モデルは,動作認識,対話認識,優先認識,位置認識の各モジュールから構成され,運転行動の厳格な分類を伴わずに高いレベルの学習と柔軟性を実現する。 このアプローチは、トレーニングプロセスにおける手動ラベリングの必要性を排除し、非連続的な振る舞いラベリングと適切な時間ウィンドウの選択の課題に対処する。 我々は、次世代シミュレーション(NGSIM)、ハイウェイドローン(HighD)、ラウンドアバウンドドローン(RounD)、マカオコネクテッド自律運転(MoCAD)データセットにおけるBATの性能を評価し、予測精度と効率性の観点から、最先端のSOTAベンチマークよりも優れていることを示す。 注目すべきは、トレーニングデータ(25%)の少ない部分のトレーニングであっても、私たちのモデルはベースラインの大部分を上回り、車軌道予測の堅牢性と効率、特にコーナーケースにおける自動運転車の訓練に必要なデータ量を削減する可能性を示している。 結論として、行動認識モデルは、人間の運転者と同じ習熟度で軌道を予測できる自動運転車の開発において、大きな進歩を示す。 プロジェクトページはhttps://github.com/Petrichor625/BATraj-Behavior-aware-Modelで公開されている。

The ability to accurately predict the trajectory of surrounding vehicles is a critical hurdle to overcome on the journey to fully autonomous vehicles. To address this challenge, we pioneer a novel behavior-aware trajectory prediction model (BAT) that incorporates insights and findings from traffic psychology, human behavior, and decision-making. Our model consists of behavior-aware, interaction-aware, priority-aware, and position-aware modules that perceive and understand the underlying interactions and account for uncertainty and variability in prediction, enabling higher-level learning and flexibility without rigid categorization of driving behavior. Importantly, this approach eliminates the need for manual labeling in the training process and addresses the challenges of non-continuous behavior labeling and the selection of appropriate time windows. We evaluate BAT's performance across the Next Generation Simulation (NGSIM), Highway Drone (HighD), Roundabout Drone (RounD), and Macao Connected Autonomous Driving (MoCAD) datasets, showcasing its superiority over prevailing state-of-the-art (SOTA) benchmarks in terms of prediction accuracy and efficiency. Remarkably, even when trained on reduced portions of the training data (25%), our model outperforms most of the baselines, demonstrating its robustness and efficiency in predicting vehicle trajectories, and the potential to reduce the amount of data required to train autonomous vehicles, especially in corner cases. In conclusion, the behavior-aware model represents a significant advancement in the development of autonomous vehicles capable of predicting trajectories with the same level of proficiency as human drivers. The project page is available at https://github.com/Petrichor625/BATraj-Behavior-aware-Model.
翻訳日:2023-12-12 15:30:08 公開日:2023-12-11
# N-異なるスピノルを持つ置換対称N-qubit純状態:GHZ状態とWWbar状態のエンタングルメントと体積モノガミー特性

Entanglement and volume monogamy features of permutation symmetric N-qubit pure states with N-distinct spinors: GHZ and WWbar states ( http://arxiv.org/abs/2312.06369v1 )

ライセンス: Link先を確認
Sudha, Usha Devi A R, Akshata Shenoy H, Karthik H S, Humera Talath, Govindaraja B P, Rajagopal A K(参考訳) 我々は、GHZ(Greenberger-Horne-Zeilinger)状態とWと逆W状態の同値重ね合わせであるWWbarに着目したN-識別スピノルによって特徴づけられる純粋対称N-量子状態の絡み合う特徴を探求する。 対の絡み合いと一夫一婦制特性を比較するとともに、正準ステアリング楕円体を構築することにより、それらに含まれる幾何学的情報を探究する。 量子ビット数の関数としてWWbar状態で満たされる体積単ガミー関係を求め、GHZ状態の最大単ガミー特性と比較する。

We explore the entanglement features of pure symmetric N-qubit states characterized by N-distinct spinors with a particular focus on the Greenberger-Horne-Zeilinger(GHZ) states and WWbar, an equal superposition of W and obverse W states. Along with a comparison of pairwise entanglement and monogamy properties, we explore the geometric information contained in them by constructing their canonical steering ellipsoids. We obtain the volume monogamy relations satisfied by WWbar states as a function of number of qubits and compare with the maximal monogamy property of GHZ states.
翻訳日:2023-12-12 15:29:37 公開日:2023-12-11
# 時空間型炭素モデルによる炭素収支

Embodied Carbon Accounting through Spatial-Temporal Embodied Carbon Models ( http://arxiv.org/abs/2312.06364v1 )

ライセンス: Link先を確認
Xiaoyang Zhang, Yijie Yang, Dan Wang(参考訳) エンボディド炭素(embodied carbon)は、クレードルからゲートまでの生成物から放出される全炭素である。 多くの産業分野では、具体化炭素がカーボンフットプリント全体を支配している。 具体化炭素会計(embodied carbon accounting)は、製品の具体化炭素を推定するために重要な研究課題となっている。 既存の研究は、lca(life cycle analysis)レポートによって具体化炭素を導出している。 現在のlcaの報告では、製品クラス(例えば28nm cpu)の炭素排出のみを提供するが、製品インスタンスは、様々な地域や、例えば冬期のアイルランド(intel)など、さまざまな期間で製造することができる。 炭素放出は、空間的および時間的ダイナミクスを持つ発電過程に依存することが知られている。 したがって、特定の製品インスタンスの具現化炭素は、その製品クラスと大きく異なる可能性がある。 本稿では,エンボディ化炭素計算のための空間-時間的エンボディ化炭素モデルを提案する。 現生炭素モデルと時空間炭素モデルとの有意な差異を観測し、7nm CPUの場合、その差は13.69%となる。

Embodied carbon is the total carbon released from the processes associated with a product from cradle to gate. In many industry sectors, embodied carbon dominates the overall carbon footprint. Embodied carbon accounting, i.e., to estimate the embodied carbon of a product, has become an important research topic. Existing studies derive the embodied carbon through life cycle analysis (LCA) reports. Current LCA reports only provide the carbon emission of a product class, e.g., 28nm CPU, yet a product instance can be manufactured from diverse regions and in diverse time periods, e.g., a winter period of Ireland (Intel). It is known that the carbon emission depends on the electricity generation process which has spatial and temporal dynamics. Therefore, the embodied carbon of a specific product instance can largely differ from its product class. In this paper, we present new spatial-temporal embodied carbon models for embodied carbon accounting. We observe significant differences between current embodied carbon models and our spatial-temporal embodied carbon models, e.g., for 7nm CPU the difference can be 13.69%.
翻訳日:2023-12-12 15:29:21 公開日:2023-12-11
# MMICT: インコンテキスト例によるマルチモーダルファインチューニングの強化

MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples ( http://arxiv.org/abs/2312.06363v1 )

ライセンス: Link先を確認
Tao Chen, Enwei Zhang, Yuting Gao, Ke Li, Xing Sun, Yan Zhang and Hui Li(参考訳) In-Context Learning(ICL)は、Large Language Models(LLM)に顕著なパフォーマンス向上をもたらすが、下流タスクの微調整よりも改善は低いままである。 本稿では,マルチモーダル LLM (MM-LLMs) の有望な ICL 機能を完全に活用することにより,マルチモーダル微調整を促進する新しいマルチモーダル微調整パラダイムであるMMICTを提案する。 様々な入力や目的に応じて様々なマルチモーダル機能をキャプチャする統合モジュールであるマルチモーダルハブ(m-hub)を提案する。 m-hub に基づいて mmict は、mm-llm がコンテキスト内ビジュアルガイド付きテキスト特徴から学習し、その後、テキストガイド付きビジュアル特徴に基づく出力を生成することができる。 さらに、M-Hubの柔軟性を活用して、さまざまなコンテキスト内デモを設計する。 多様な下流マルチモーダルタスクに対する広範囲な実験により、MMICTは従来の微調整戦略と、異なるモーダルからの全ての情報を入力として直接結合するバニラICT法を著しく上回ることを示した。

Although In-Context Learning (ICL) brings remarkable performance gains to Large Language Models (LLMs), the improvements remain lower than fine-tuning on downstream tasks. This paper introduces Multi-Modal In-Context Tuning (MMICT), a novel multi-modal fine-tuning paradigm that boosts multi-modal fine-tuning by fully leveraging the promising ICL capability of multi-modal LLMs (MM-LLMs). We propose the Multi-Modal Hub (M-Hub), a unified module that captures various multi-modal features according to different inputs and objectives. Based on M-Hub, MMICT enables MM-LLMs to learn from in-context visual-guided textual features and subsequently generate outputs conditioned on the textual-guided visual features. Moreover, leveraging the flexibility of M-Hub, we design a variety of in-context demonstrations. Extensive experiments on a diverse range of downstream multi-modal tasks demonstrate that MMICT significantly outperforms traditional fine-tuning strategy and the vanilla ICT method that directly takes the concatenation of all information from different modalities as input.
翻訳日:2023-12-12 15:29:02 公開日:2023-12-11
# 異なるX線レンダリングによる術中2D/3D画像の登録

Intraoperative 2D/3D Image Registration via Differentiable X-ray Rendering ( http://arxiv.org/abs/2312.06358v1 )

ライセンス: Link先を確認
Vivek Gopalakrishnan, Neel Dey, Polina Golland(参考訳) 外科的決定は、高速携帯型2D術中画像(例えばX線)を高忠実度3D術前基準スキャン(例えばCT)に整列させることで報知される。 2D/3D画像の登録は実際には失敗することが多い: 従来の最適化手法は、局所的なミニマの影響を受けにくい。 DiffPoseは、患者固有のシミュレーションと微分可能な物理ベースのレンダリングを利用して、手動でラベル付けされたデータに頼ることなく正確な2D/3D登録を実現する。 術前に、CNNは、術前CTからレンダリングされたランダムに配向した合成X線のポーズを遅らせるように訓練される。 CNNはその後、X線レンダラーを使ってソリューションを洗練する、迅速な術中テストタイム最適化を初期化する。 本研究は,測地線および多スケールの局所性に敏感な損失を伴う接空間の登録を駆動するために,$\mathbf{se}(3)$ からカメラポーズをサンプリングするための幾何原理的な手法も提案している。 diffposeは術中速度で外科的データセットにまたがるサブミリメートル精度を達成し、既存の教師なしの手法を桁違いに改善し、教師付きベースラインを上回っている。 私たちのコードはhttps://github.com/eigenvivek/diffposeで利用可能です。

Surgical decisions are informed by aligning rapid portable 2D intraoperative images (e.g., X-rays) to a high-fidelity 3D preoperative reference scan (e.g., CT). 2D/3D image registration often fails in practice: conventional optimization methods are prohibitively slow and susceptible to local minima, while neural networks trained on small datasets fail on new patients or require impractical landmark supervision. We present DiffPose, a self-supervised approach that leverages patient-specific simulation and differentiable physics-based rendering to achieve accurate 2D/3D registration without relying on manually labeled data. Preoperatively, a CNN is trained to regress the pose of a randomly oriented synthetic X-ray rendered from the preoperative CT. The CNN then initializes rapid intraoperative test-time optimization that uses the differentiable X-ray renderer to refine the solution. Our work further proposes several geometrically principled methods for sampling camera poses from $\mathbf{SE}(3)$, for sparse differentiable rendering, and for driving registration in the tangent space $\mathfrak{se}(3)$ with geodesic and multiscale locality-sensitive losses. DiffPose achieves sub-millimeter accuracy across surgical datasets at intraoperative speeds, improving upon existing unsupervised methods by an order of magnitude and even outperforming supervised baselines. Our code is available at https://github.com/eigenvivek/DiffPose.
翻訳日:2023-12-12 15:28:40 公開日:2023-12-11
# 励起分光法におけるファノ共鳴と光牽引単原子の冷却

Fano Resonance in Excitation Spectroscopy and Cooling of an Optically Trapped Single Atom ( http://arxiv.org/abs/2312.06438v1 )

ライセンス: Link先を確認
Chang Hoong Chow, Boon Long Ng, Vindhiya Prakash, Christian Kurtsiefer(参考訳) 電磁誘導透過(EIT)は、複数の振動モードに同時に対処することで、基底状態に近い調和ポテンシャルで原子を冷却するために用いられる。 従来の実験では、定常波トラップ内のイオンと中性原子の捕捉に重点を置いていた。 本研究では, トラップ周波数がイオントラップや定在波トラップよりも桁違いに小さい光学的に捕捉された単一中性原子のeit冷却を実証する。 蛍光励起スペクトルにおけるファノ共鳴特性と温度測定における対応する冷却プロファイルを解明する。 最終温度は約6$\mu$Kで、EIT冷却により達成される。

Electromagnetically induced transparency (EIT) can be used to cool an atom in a harmonic potential close to the ground state by addressing several vibrational modes simultaneously. Previous experimental efforts focus on trapped ions and neutral atoms in a standing wave trap. In this work, we demonstrate EIT cooling of an optically trapped single neutral atom, where the trap frequencies are an order of magnitude smaller than in an ion trap and a standing wave trap. We resolve the Fano resonance feature in fluorescence excitation spectra and the corresponding cooling profile in temperature measurements. A final temperature of around 6 $\mu$K is achieved with EIT cooling, a factor of two lower than the previous value obtained using olarization gradient cooling.
翻訳日:2023-12-12 15:21:14 公開日:2023-12-11
# 政策平滑化強化学習のためのリワード認定

Reward Certification for Policy Smoothed Reinforcement Learning ( http://arxiv.org/abs/2312.06436v1 )

ライセンス: Link先を確認
Ronghui Mu, Leandro Soriano Marcolino, Tianle Zhang, Yanghao Zhang, Xiaowei Huang, Wenjie Ruan(参考訳) 強化学習(rl)は安全クリティカルな分野において顕著な成功を収めてきたが、敵の攻撃によって弱められる可能性がある。 近年の研究では、その堅牢性を高めるために「スムースド・ポリシー」を導入した。 しかし、その全報酬の範囲を認定する証明可能な保証を確立することは依然として困難である。 以前の手法は、主にリプシッツ連続性を用いた境界計算や、特定の閾値を超える累積報酬の確率の計算に頼っていた。 しかしながら、これらの手法はrlエージェントの観測における連続摂動にのみ適合し、l_2-ノルムによって束縛された摂動に制限される。 これらの制約に対処するために,様々な$l_p$-norm境界摂動の下でスムーズなポリシーの累積報酬を直接証明できる一般的なブラックボックス認証手法を提案する。 さらに,行動空間上の摂動を認証する手法を拡張した。 提案手法は,f偏差を利用して元の分布と摂動分布の区別を計測し,凸最適化問題の解法により証明境界を決定する。 総合的な理論解析を行い,複数の環境で十分な実験を行う。 その結果,本手法は平均累積報酬の認定下限を改善できるだけでなく,最先端技術よりも優れた効率を示すことが示された。

Reinforcement Learning (RL) has achieved remarkable success in safety-critical areas, but it can be weakened by adversarial attacks. Recent studies have introduced "smoothed policies" in order to enhance its robustness. Yet, it is still challenging to establish a provable guarantee to certify the bound of its total reward. Prior methods relied primarily on computing bounds using Lipschitz continuity or calculating the probability of cumulative reward above specific thresholds. However, these techniques are only suited for continuous perturbations on the RL agent's observations and are restricted to perturbations bounded by the l_2-norm. To address these limitations, this paper proposes a general black-box certification method capable of directly certifying the cumulative reward of the smoothed policy under various $l_p$-norm bounded perturbations. Furthermore, we extend our methodology to certify perturbations on action spaces. Our approach leverages f-divergence to measure the distinction between the original distribution and the perturbed distribution, subsequently determining the certification bound by solving a convex optimisation problem. We provide a comprehensive theoretical analysis and run sufficient experiments in multiple environments. Our results show that our method not only improves the certified lower bound of mean cumulative reward but also demonstrates better efficiency than state-of-the-art techniques.
翻訳日:2023-12-12 15:21:02 公開日:2023-12-11
# Internet of Federated Digital Twins (IoFDT): Connecting Twins Beyond Borders for Society 5.0

Internet of Federated Digital Twins (IoFDT): Connecting Twins Beyond Borders for Society 5.0 ( http://arxiv.org/abs/2312.06432v1 )

ライセンス: Link先を確認
Tao Yu, Zongdian Li, Kei Sakaguchi, Omar Hashash, Walid Saad, Merouane Debbah(参考訳) デジタル・ツイン(dt)の概念は、プログラマブルでデジタルな物理システムの表現を可能にし、将来の産業に革命をもたらすことが期待されており、将来のスマート社会のビジョン、すなわち、サイバー(デジタル)と物理的空間の高度な統合を利用して経済と社会の進歩をもたらす「社会5.0」の中心にある。 しかし、このようなdt駆動社会5.0の成功には、人工知能とネットワーク技術の相乗的収束が必要であり、多様な社会5.0サービスを効果的に提供するためにdtsのネットワークを協調させることができるプログラマブルなシステムを構築することができる。 これまでの研究は定性的な研究、単純な分析、単一DTのソフトウェア実装に限られていたため、Society 5.0に必要なデジタル空間と物理空間の高度にシナジスティックな統合は提供できない。 これとは対照的に,本稿では,異なる社会5.0サービスを表す異種・物理的に分離されたDTを,単一のフレームワークとシステムに一元的に統合する,インターネット・オブ・フェデレーション・デジタルツイン(IoFDT)の新たな概念を構想する。 iofdtのこの概念のために、まず、水平および垂直の相互作用を通じて連合したdtを統合する階層アーキテクチャを導入し、新しい可能性を開くためにサイバー空間と物理空間を橋渡しします。 そして、IoFDTを実現する上での課題について議論し、通信、コンピューティング、AIネイティブネットワーク間の複雑さを強調しながら、潜在的な革新的なソリューションを強調します。 その後、我々は、すべての技術コンポーネントを統合し、それらの相互作用を編成する統合IoFDTプラットフォームの実装の重要性を詳述し、スマートモビリティのような分野における実世界のアプリケーションに焦点を当てた実践的なプラットフォームの必要性を強調した。

The concept of digital twin (DT), which enables the creation of a programmable, digital representation of physical systems, is expected to revolutionize future industries and will lie at the heart of the vision of a future smart society, namely, Society 5.0, in which high integration between cyber (digital) and physical spaces is exploited to bring economic and societal advancements. However, the success of such a DT-driven Society 5.0 requires a synergistic convergence of artificial intelligence and networking technologies into an integrated, programmable system that can coordinate networks of DTs to effectively deliver diverse Society 5.0 services. Prior works remain restricted to either qualitative study, simple analysis or software implementations of a single DT, and thus, they cannot provide the highly synergistic integration of digital and physical spaces as required by Society 5.0. In contrast, this paper envisions a novel concept of an Internet of Federated Digital Twins (IoFDT) that holistically integrates heterogeneous and physically separated DTs representing different Society 5.0 services within a single framework and system. For this concept of IoFDT, we first introduce a hierarchical architecture that integrates federated DTs through horizontal and vertical interactions, bridging the cyber and physical spaces to unlock new possibilities. Then, we discuss the challenges of realizing IoFDT, highlighting the intricacies across communication, computing, and AI-native networks while also underscoring potential innovative solutions. Subsequently, we elaborate on the importance of the implementation of a unified IoFDT platform that integrates all technical components and orchestrates their interactions, emphasizing the necessity of practical experimental platforms with a focus on real-world applications in areas like smart mobility.
翻訳日:2023-12-12 15:20:38 公開日:2023-12-11
# ダイヤモンド中のスピン量子ビットのコヒーレントマイクロ波、光学及び機械量子制御

Coherent microwave, optical, and mechanical quantum control of spin qubits in diamond ( http://arxiv.org/abs/2312.06431v1 )

ライセンス: Link先を確認
Laura Orphal-Kobin, Cem G\"uney Torun, Julian M. Bopp, Gregor Pieplow, and Tim Schr\"oder(参考訳) Diamondは量子ネットワークアプリケーションのための非常に有望なプラットフォームとして登場した。 ダイヤモンドのカラーセンターは量子ノードの基本的な要件を満たす: 長寿命スピン量子ビットを持つ光学的にアクセス可能な量子システムを構成する。 さらに、電子及び核スピン量子ビットの量子レジスタへのアクセスを提供し、スピンと光子の絡み合いを媒介する。 これらの操作はすべてカラーセンターのスピン状態のコヒーレントな制御を必要とする。 このレビューは、高忠実度初期化、コヒーレント操作、スピン状態の読み出しを含む、そのようなスキームの最先端、挑戦、展望の包括的な概要を提供する。 確立されたマイクロ波および光制御技術について概説し、また、空洞を介するスピンフォトン相互作用やスピンフォノン相互作用に基づく機械的制御といった新しい手法を概説する。 異なるタイプの色中心、すなわち窒素空白とグループivカラーセンターでは、現在進行中の研究の対象となっている異なる課題が続いている。 基本的なコヒーレントスピン量子ビット制御技術を超えて、量子ネットワークアプリケーションにおける高度なデモンストレーションは、例えば、(核)マルチ量子ビットレジスタにアクセスするための個々のカラーセンターの統合など、概説されている。 最後に,将来の量子情報応用の実現におけるダイヤモンドスピン量子ビットの役割について述べる。

Diamond has emerged as a highly promising platform for quantum network applications. Color centers in diamond fulfill the fundamental requirements for quantum nodes: they constitute optically accessible quantum systems with long-lived spin qubits. Furthermore, they provide access to a quantum register of electronic and nuclear spin qubits and they mediate entanglement between spins and photons. All these operations require coherent control of the color center's spin state. This review provides a comprehensive overview of the state-of-the-art, challenges, and prospects of such schemes, including, high fidelity initialization, coherent manipulation, and readout of spin states. Established microwave and optical control techniques are reviewed, and moreover, emerging methods such as cavity-mediated spin-photon interactions and mechanical control based on spin-phonon interactions are summarized. For different types of color centers, namely, nitrogen-vacancy and group-IV color centers, distinct challenges persist that are subject of ongoing research. Beyond fundamental coherent spin qubit control techniques, advanced demonstrations in quantum network applications are outlined, for example, the integration of individual color centers for accessing (nuclear) multi-qubit registers. Finally, we describe the role of diamond spin qubits in the realization of future quantum information applications.
翻訳日:2023-12-12 15:20:02 公開日:2023-12-11
# VisionTraj: 大規模カメラネットワークに基づくノイズ・ロバスト軌道回復フレームワーク

VisionTraj: A Noise-Robust Trajectory Recovery Framework based on Large-scale Camera Network ( http://arxiv.org/abs/2312.06428v1 )

ライセンス: Link先を確認
Zhishuai Li, Ziyue Li, Xiaoru Hu, Guoqing Du, Yunhao Nie, Feng Zhu, Lei Bai, Rui Zhao(参考訳) 都市全体のマルチカメラネットワークのスナップショットに基づく軌道回復は、都市移動度センシングとドライブウェイ最適化を促進する。 このようなビジョンベースのスキームに特化した最先端のソリューションは、一般的に、事前定義されたルールや教師なしの反復的なフィードバック、パイプライン全体をトレーニングするためのオープンソースのデータセットの欠如、視覚入力からのノイズに対する脆弱性など、さまざまな課題に苦しめられている。 このジレンマに対応するために,道路ネットワークカメラが記録したスナップショットから車両軌道を再構成する最初の学習モデルであるVisionTrajを提案する。 これと合わせて2つの合理的な視覚軌跡データセットを詳述し、それに対応する視覚スナップショットとともに広範な軌跡データを生成し、教師付き視覚軌跡間抽出を可能にする。 データ作成に続いて,オフ・ザ・セットのマルチモーダル車両クラスタリングの結果に基づいて,まず軌道回復問題を生成課題として再定式化し,標準トランスフォーマーを自己回帰バックボーンとして導入する。 次に、スナップショットの時空間依存性に拘束されたクラスタリングノイズ(例えば偽陽性)を特定するために、粗いRe-IDクラスタに基づいてGCNベースのソフトデノーミングモジュールを実行する。 さらに,トラックレットから抽出した強い意味情報を利用して,軌道回復時の車両の進入行動や出口行動に関する詳細な知見を提供する。 ノイズやトラックレットコンポーネントは、ベースラインを増やすためのプラグアンドプレイモジュールとしても機能する。 2つの手作りデータセットの実験結果から、提案されたVisionTrajは、サブベストモデルに対して最大+11.5%の改善が達成されている。

Trajectory recovery based on the snapshots from the city-wide multi-camera network facilitates urban mobility sensing and driveway optimization. The state-of-the-art solutions devoted to such a vision-based scheme typically incorporate predefined rules or unsupervised iterative feedback, struggling with multi-fold challenges such as lack of open-source datasets for training the whole pipeline, and the vulnerability to the noises from visual inputs. In response to the dilemma, this paper proposes VisionTraj, the first learning-based model that reconstructs vehicle trajectories from snapshots recorded by road network cameras. Coupled with it, we elaborate on two rational vision-trajectory datasets, which produce extensive trajectory data along with corresponding visual snapshots, enabling supervised vision-trajectory interplay extraction. Following the data creation, based on the results from the off-the-shelf multi-modal vehicle clustering, we first re-formulate the trajectory recovery problem as a generative task and introduce the canonical Transformer as the autoregressive backbone. Then, to identify clustering noises (e.g., false positives) with the bound on the snapshots' spatiotemporal dependencies, a GCN-based soft-denoising module is conducted based on the fine- and coarse-grained Re-ID clusters. Additionally, we harness strong semantic information extracted from the tracklet to provide detailed insights into the vehicle's entry and exit actions during trajectory recovery. The denoising and tracklet components can also act as plug-and-play modules to boost baselines. Experimental results on the two hand-crafted datasets show that the proposed VisionTraj achieves a maximum +11.5% improvement against the sub-best model.
翻訳日:2023-12-12 15:19:41 公開日:2023-12-11
# 数値的減算セキュリティの述語

Numeric Truncation Security Predicate ( http://arxiv.org/abs/2312.06425v1 )

ライセンス: Link先を確認
Timofey Mezhuev, Ilay Kobrin, Alexey Vishnyakov, Daniil Kuts(参考訳) 数値トランケーション(英: Numeric truncation)は、C/C++やJavaのような静的データ型付けを持つ言語で書かれたソフトウェアで広く使われているエラーである。 これは、より大きな型サイズの値のかなりのビットが、より小さな型への値変換中に切り替わるときに発生する。 動的シンボル実行(DSE)と呼ばれる経路探索と自動バグ検出の最も強力な手法の1つを利用して,DSEツールSydr上に開発された数値トランケーション誤り検出のためのシンボルセキュリティ述語を提案する。 まず、私たちはプログラムをデータ上で実行しますが、エラーは発生しません。 プログラム実行中、シンボルのシャドウスタックとシャドウレジスタを更新して、シンボル変数のシンボルサイズを追跡し、偽陽性を避ける。 そして,シンボル変数をトランケートする命令を満たすと,セキュリティ述語を構築し,SMT解決器で解決しようと試み,成功した場合には新しい入力ファイルを保存してエラーを再現する。 CWE-197のJuliet Dynamicテストスイートでアプローチをテストし、100%の精度を実現しました。 OSS-Sydr-Fuzz プロジェクト内の5つの実世界のオープンソースプロジェクトにおいて,12の誤りを検知し,本手法の作業性を承認した。 すべてのエラーが報告され、ほとんどの報告には適切な修正が加えられ、プロジェクトのメンテナの確認と適用が成功した。

Numeric truncation is a widely spread error in software written in languages with static data typing, such as C/C++ or Java. It occurs when the significant bits of the value with a bigger type size are truncated during value conversion to the smaller type. Utilizing one of the most powerful methods for path exploration and automated bug detection called dynamic symbolic execution (DSE), we propose the symbolic security predicate for numeric truncation error detection, developed on top of DSE tool Sydr. Firstly, we execute the program on the data, which does not lead to any errors. During program execution we update symbolic shadow stack and shadow registers to track symbolic sizes of the symbolic variables to avoid false positives. Then, if we meet the instruction, which truncates the symbolic variable, we build the security predicate, try to solve it with the SMT-solver and in case of success save new input file to reproduce the error. We tested our approach on Juliet Dynamic test suite for CWE-197 and achieved 100% accuracy. We approved the workability of our approach by detecting 12 new errors of numeric truncation in 5 different real-world open source projects within OSS-Sydr-Fuzz project. All of the errors were reported, most of the reports were equipped with appropriate fixes, successfully confirmed and applied by project maintainers.
翻訳日:2023-12-12 15:19:11 公開日:2023-12-11
# MalPurifier: 侵入攻撃に対する逆浄化によるAndroidマルウェア検出の強化

MalPurifier: Enhancing Android Malware Detection with Adversarial Purification against Evasion Attacks ( http://arxiv.org/abs/2312.06423v1 )

ライセンス: Link先を確認
Yuyang Zhou, Guang Cheng, Zongyao Chen, Shui Yu(参考訳) 機械学習(ML)は、マルウェア攻撃の急激な増加によるエスカレートする脅威に対処するために、Androidのマルウェア検出に大きく採用されている。 しかし、最近の研究では、回避攻撃に対するMLベースの検出システムの固有の脆弱性が明らかにされている。 この重要な問題に対処する努力がなされているが、既存の防御手法の多くは、効果の低下や一般化能力の低下といった課題に直面している。 本稿では,新たなandroidマルウェア検出手法であるmalpurifierを提案する。この手法は,逆向きの浄化を活用し,独立して摂動を除去し,軽量かつ柔軟な方法で攻撃軽減を実現する。 特に、MalPurifierは、DAE(Denoising AutoEncoder)ベースの浄化モデルを使用して、入力サンプルを前処理し、潜在的な摂動を除去し、正しい分類につながる。 防御効果を高めるため,様々な回避攻撃の異なる操作に対する浄化モデルを強化する多角化逆摂動機構を提案する。 また,ランダム化した「保護ノイズ」を良性試料に組み込んで過剰な浄化を防止する。 さらに、再構成損失と予測損失を組み合わせたDAEモデルを改善するための損失関数をカスタマイズし、特徴表現学習を強化し、正確な再構成と分類を行う。 2つのAndroidマルウェアデータセットの実験結果によると、MalPurifierは最先端の防御よりも優れており、37回の回避攻撃に対して脆弱なマルウェア検出を著しく強化し、90.91%以上の精度を達成した。 特にMalPurifierは、他の検出器に容易に拡張できることを示し、その実装に柔軟性と堅牢性を提供する。

Machine learning (ML) has gained significant adoption in Android malware detection to address the escalating threats posed by the rapid proliferation of malware attacks. However, recent studies have revealed the inherent vulnerabilities of ML-based detection systems to evasion attacks. While efforts have been made to address this critical issue, many of the existing defensive methods encounter challenges such as lower effectiveness or reduced generalization capabilities. In this paper, we introduce a novel Android malware detection method, MalPurifier, which exploits adversarial purification to eliminate perturbations independently, resulting in attack mitigation in a light and flexible way. Specifically, MalPurifier employs a Denoising AutoEncoder (DAE)-based purification model to preprocess input samples, removing potential perturbations from them and then leading to correct classification. To enhance defense effectiveness, we propose a diversified adversarial perturbation mechanism that strengthens the purification model against different manipulations from various evasion attacks. We also incorporate randomized "protective noises" onto benign samples to prevent excessive purification. Furthermore, we customize a loss function for improving the DAE model, combining reconstruction loss and prediction loss, to enhance feature representation learning, resulting in accurate reconstruction and classification. Experimental results on two Android malware datasets demonstrate that MalPurifier outperforms the state-of-the-art defenses, and it significantly strengthens the vulnerable malware detector against 37 evasion attacks, achieving accuracies over 90.91%. Notably, MalPurifier demonstrates easy scalability to other detectors, offering flexibility and robustness in its implementation.
翻訳日:2023-12-12 15:18:47 公開日:2023-12-11
# ローカライゼーションは、あなたが評価するすべてである - オンラインマッピングデータセットにおけるデータ漏洩とその修正方法

Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It ( http://arxiv.org/abs/2312.06420v1 )

ライセンス: Link先を確認
Adam Lilja, Junsheng Fu, Erik Stenborg, Lars Hammarstrand(参考訳) データ漏洩は、教師付き学習に基づくあらゆる方法の訓練と評価において重要な問題である。 オンラインマッピングの最先端の手法は教師付き学習に基づいており、主にnuScenesとArgoverse 2の2つのデータセットを使用して訓練されている。 これらのデータセットは、トレーニング、検証、テストセット間で同じ地理的位置を再考する。 具体的には、nuscenesの80$%とargoverse 2の検証とテストサンプルの40$%以上は、トレーニングサンプルから5ドル未満の場所にある。 これによりメソッドは、テスト中に暗黙の暗黙のマップ内にローカライズすることができ、膨らんだパフォーマンス番号が報告される。 未認識環境における真の性能を明らかにするために,データの地理的分割を導入する。 実験の結果,既存のオンラインマッピングモデルの再訓練と再評価を行う際に,45ドル以上のmAPで低下する手法が提案された。 さらに、事前の設計選択の再評価により、元の分割に基づく結果から逸脱する結論が明らかになった。 特に、昇降法と補助作業(例えば、深度監視)が性能に与える影響は、以前認識されていたよりも顕著に、あるいは異なる軌道を辿るように見える。 地理的な分割はhttps://github.com/liljaadam/geographical-splitsにある。

Data leakage is a critical issue when training and evaluating any method based on supervised learning. The state-of-the-art methods for online mapping are based on supervised learning and are trained predominantly using two datasets: nuScenes and Argoverse 2. These datasets revisit the same geographic locations across training, validation, and test sets. Specifically, over $80$% of nuScenes and $40$% of Argoverse 2 validation and test samples are located less than $5$ m from a training sample. This allows methods to localize within a memorized implicit map during testing and leads to inflated performance numbers being reported. To reveal the true performance in unseen environments, we introduce geographical splits of the data. Experimental results show significantly lower performance numbers, for some methods dropping with more than $45$ mAP, when retraining and reevaluating existing online mapping models with the proposed split. Additionally, a reassessment of prior design choices reveals diverging conclusions from those based on the original split. Notably, the impact of the lifting method and the support from auxiliary tasks (e.g., depth supervision) on performance appears less substantial or follows a different trajectory than previously perceived. Geographical splits can be found https://github.com/LiljaAdam/geographical-splits
翻訳日:2023-12-12 15:18:19 公開日:2023-12-11
# 数チャネルホール型ゲートモン量子ビットのコヒーレント制御

Coherent control of a few-channel hole type gatemon qubit ( http://arxiv.org/abs/2312.06411v1 )

ライセンス: Link先を確認
Han Zheng, Luk Yi Cheung, Nikunj Sangwan, Artem Kononov, Roy Haller, Joost Ridderbos, Carlo Ciaccia, Jann Hinnerk Ungerer, Ang Li, Erik P.A.M. Bakkers, Andreas Baumgartner, Christian Sch\"onenberger(参考訳) ゲートモン量子ビットは超伝導トランスモン量子ビットの電気的に調整可能な従兄弟である。 本研究では,ge/siコア/シェルナノワイヤにおけるホールキャリアに基づくゲートモン量子ビットの完全コヒーレント制御を実証する。 これらの結果の鍵は、単純かつ再現可能なアニール法で得られる高品質なジョセフソン接合である。 狭いジャンクションを通る輸送は、2つの量子チャネルのみに支配され、トランパランシーが一元化される。 この新しい量子ビットプラットフォームは、技術的に関係のある物質を包含するだけでなく、ジョセフソン接合の少数チャネル構造における超強スピン軌道結合のような新しい機会を提供するため、量子情報応用に大きな可能性を秘めている。

Gatemon qubits are the electrically tunable cousins of superconducting transmon qubits. In this work, we demonstrate the full coherent control of a gatemon qubit based on hole carriers in a Ge/Si core/shell nanowire, with the longest coherence times in group IV material gatemons to date. The key to these results is a high-quality Josephson junction obtained in a straightforward and reproducible annealing technique. We demonstrate that the transport through the narrow junctions is dominated by only two quantum channels, with transparencies up to unity. This novel qubit platform holds great promise for quantum information applications, not only because it incorporates technologically relevant materials, but also because it provides new opportunities, like an ultrastrong spin-orbit coupling in the few-channel regime of Josephson junctions.
翻訳日:2023-12-12 15:17:58 公開日:2023-12-11
# PointVoxel: マルチビューマルチモーダル3次元人物位置推定のためのシンプルで効果的なパイプライン

PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal 3D Human Pose Estimation ( http://arxiv.org/abs/2312.06409v1 )

ライセンス: Link先を確認
Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Yifan Chen, Jianjiang Feng, Jie Zhou(参考訳) 近年,マルチビュー画像から3次元人物像を推定する手法がいくつか提案されている。 しかし、複数のモーダル入力(rgbやpointcloudなど)から3d人間の骨格を抽出するアプローチは限られており、困難な状況下での3dポーズの予測精度を高めることができる。 このギャップを埋めるために、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelというパイプラインを導入する。 体積表現はこれらの異なるモダリティを統合するのに有効なアーキテクチャであることを示す。 さらに,難しいシナリオで3次元人間のポーズラベルに注釈を付けるという課題を克服するために,教師なしのドメイン適応戦略を事前学習し設計するための合成データセットジェネレータを開発し,手作業のアノテーションを使わずに十分に訓練された3次元人物ポーズ推定器を得る。 我々は,4つのデータセット(公開データセット2つ,合成データセット1つ,BasketBallという名前の挑戦データセット1つ)に対するアプローチを評価し,有望な結果を示した。 コードとデータセットは間もなくリリースされる。

Recently, several methods have been proposed to estimate 3D human pose from multi-view images and achieved impressive performance on public datasets collected in relatively easy scenarios. However, there are limited approaches for extracting 3D human skeletons from multimodal inputs (e.g., RGB and pointcloud) that can enhance the accuracy of predicting 3D poses in challenging situations. We fill this gap by introducing a pipeline called PointVoxel that fuses multi-view RGB and pointcloud inputs to obtain 3D human poses. We demonstrate that volumetric representation is an effective architecture for integrating these different modalities. Moreover, in order to overcome the challenges of annotating 3D human pose labels in difficult scenarios, we develop a synthetic dataset generator for pretraining and design an unsupervised domain adaptation strategy so that we can obtain a well-trained 3D human pose estimator without using any manual annotations. We evaluate our approach on four datasets (two public datasets, one synthetic dataset, and one challenging dataset named BasketBall collected by ourselves), showing promising results. The code and dataset will be released soon.
翻訳日:2023-12-12 15:17:44 公開日:2023-12-11
# diffvl: vision-language driven differentiable physics によるソフトボディ操作のスケールアップ

DiffVL: Scaling Up Soft Body Manipulation using Vision-Language Driven Differentiable Physics ( http://arxiv.org/abs/2312.06408v1 )

ライセンス: Link先を確認
Zhiao Huang, Feng Chen, Yewen Pu, Chunru Lin, Hao Su, Chuang Gan(参考訳) 勾配に基づく軌道最適化と微分可能な物理シミュレーションを組み合わせることは、ソフトボディ操作問題を解決する効率的な手法である。 巧妙な最適化目標を用いて、解法は有効な軌道に迅速に収束することができる。 しかし、適切な目的関数を書くには専門家の知識が必要であり、専門家でないユーザーから大量の自然主義的な問題を集めることは困難である。 diffvlというソフトボディ操作タスク - 視覚と自然言語の組み合わせ - を複数の段階で組み合わせることで,微分物理学の解法で容易に活用できる方法を紹介します。 我々は,オンラインビデオから現実のソフトボディ操作にインスパイアされた100のタスクを,専門家以外のユーザが指定できるGUIツールを開発した。 大規模言語モデルを用いてタスク記述を機械解釈可能な最適化目標に変換する。 この最適化の目的は、微分可能物理学の解法が、以前のベースラインにとって困難な、長い水平多段階のタスクを解くのに役立つ。

Combining gradient-based trajectory optimization with differentiable physics simulation is an efficient technique for solving soft-body manipulation problems. Using a well-crafted optimization objective, the solver can quickly converge onto a valid trajectory. However, writing the appropriate objective functions requires expert knowledge, making it difficult to collect a large set of naturalistic problems from non-expert users. We introduce DiffVL, a method that enables non-expert users to communicate soft-body manipulation tasks -- a combination of vision and natural language, given in multiple stages -- that can be readily leveraged by a differential physics solver. We have developed GUI tools that enable non-expert users to specify 100 tasks inspired by real-life soft-body manipulations from online videos, which we'll make public. We leverage large language models to translate task descriptions into machine-interpretable optimization objectives. The optimization objectives can help differentiable physics solvers to solve these long-horizon multistage tasks that are challenging for previous baselines.
翻訳日:2023-12-12 15:17:22 公開日:2023-12-11
# 自動レースにおけるロバスト性に対する部分的エンドツーエンド強化学習

Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing ( http://arxiv.org/abs/2312.06406v1 )

ライセンス: Link先を確認
Andrew Murdoch, Johannes Cornelius Schoeman, Hendrik Willem Jordaan(参考訳) 本稿では,実用的な車両モデリング誤差(一般には \emph{model mismatches} と呼ばれる)が存在する条件下での走行時に,自律走行車の強化学習(rl)ソリューションの性能を向上させる問題に対処する。 この課題に対処するために,計画と制御タスクを分離する部分的エンドツーエンドアルゴリズムを提案する。 この枠組み内では、rlエージェントが経路と速度からなる軌道を生成し、その後、純粋追従ステアリングコントローラと比例速度コントローラを用いて追跡する。 対照的に、多くの現在の学習ベースアルゴリズム(強化と模倣学習)は、深いニューラルネットワークがセンサーデータから制御コマンドを直接マップするエンドツーエンドのアプローチを利用している。 従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。

In this paper, we address the issue of increasing the performance of reinforcement learning (RL) solutions for autonomous racing cars when navigating under conditions where practical vehicle modelling errors (commonly known as \emph{model mismatches}) are present. To address this challenge, we propose a partial end-to-end algorithm that decouples the planning and control tasks. Within this framework, an RL agent generates a trajectory comprising a path and velocity, which is subsequently tracked using a pure pursuit steering controller and a proportional velocity controller, respectively. In contrast, many current learning-based (i.e., reinforcement and imitation learning) algorithms utilise an end-to-end approach whereby a deep neural network directly maps from sensor data to control commands. By leveraging the robustness of a classical controller, our partial end-to-end driving algorithm exhibits better robustness towards model mismatches than standard end-to-end algorithms.
翻訳日:2023-12-12 15:17:03 公開日:2023-12-11
# Flip-Chipアーキテクチャにおける共振器周波数安定性の最適化:新しい実験設計手法

Optimizing Resonator Frequency Stability in Flip-Chip Architectures: A Novel Experimental Design Approach ( http://arxiv.org/abs/2312.06405v1 )

ライセンス: Link先を確認
Yuan Li, Tianhui Wang, Jingjing Hu, Dengfeng Li, Shuoming An(参考訳) フリップチップ技術を利用したマルチキュービット超伝導システムでは、共振器周波数の高精度化が最重要であり、特に複数の共振器が帯域制限のある共通のパーセルフィルタを共有する場合である。 それでも、チップ間間隔の変化はこれらの周波数に大きな影響を及ぼす可能性がある。 この問題に対処するため,共振器設計の有効性を実験的に検証する。 設計では、トップチップの共振器構造に面した金属の一部をボトムチップにエッチングします。 この改良された設計は、線形な周波数分布の線形嵌合の根平均二乗誤差によって評価され、非最適化設計と比較して3.5以上で周波数安定性を著しく向上させる。 この進歩は、高忠実度量子演算のスケールアップと達成に不可欠である。

In multi-qubit superconducting systems utilizing flip-chip technology, achieving high accuracy in resonator frequencies is of paramount importance, particularly when multiple resonators share a common Purcell filter with restricted bandwidth. Nevertheless, variations in inter-chip spacing can considerably influence these frequencies. To tackle this issue, we present and experimentally validate the effectiveness of a resonator design. In our design, we etch portions of the metal on the bottom chip that faces the resonator structure on the top chip. This enhanced design substantially improves frequency stability by a factor of over 3.5 compared to the non-optimized design, as evaluated by the root mean square error of a linear fitting of the observed frequency distribution, which is intended to be linear. This advancement is crucial for successful scale-up and achievement of high-fidelity quantum operations.
翻訳日:2023-12-12 15:16:47 公開日:2023-12-11
# コンテキストバンディットにおける2倍ロバスト差動報酬モデルのための偏差機械学習とネットワーク凝集

Debiased Machine Learning and Network Cohesion for Doubly-Robust Differential Reward Models in Contextual Bandits ( http://arxiv.org/abs/2312.06403v1 )

ライセンス: Link先を確認
Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus, Alexander Moreno, and Walter H. Dempsey(参考訳) モバイルヘルス(mhealth)の介入ポリシーを学ぶ一般的なアプローチは、線形トンプソンサンプリングである。 2つの望ましいmhealthポリシーフィーチャは、(1)個人と時間にまたがる情報をプールすること、(2)時間的なベースライン報酬を組み込むことである。 これまでのアプローチでは、個人間で情報をプールするが、時間ではなく、時間とともに治療効果の傾向を捉えることができなかった。 さらに、これらのアプローチはベースライン報酬を明示的にモデル化していないため、差分報酬モデルのパラメータを正確に推定する能力が制限された。 本稿では,(1)近隣住民が利用者と時間にまたがる差分報酬関数に関する情報を効率的にプールする「DML-TS-NNR」と呼ばれる新しいトンプソンサンプリングアルゴリズムを提案し,(2)ベースライン報酬を明示的にモデル化し,使用する教師付き学習アルゴリズムに非依存な状態を保つためのDML(Double Machine Learning)フレームワークを提案する。 ベースライン報酬を明示的にモデル化することにより、差分報酬パラメータに対する信頼度を小さくする。 実証的な結果によって支持される擬似回帰に関する理論的保証を提供する。 重要なことに、DML-TS-NNRアルゴリズムはベースライン報酬モデルにおける潜在的な誤特定に対して堅牢性を示す。

A common approach to learning mobile health (mHealth) intervention policies is linear Thompson sampling. Two desirable mHealth policy features are (1) pooling information across individuals and time and (2) incorporating a time-varying baseline reward. Previous approaches pooled information across individuals but not time, failing to capture trends in treatment effects over time. In addition, these approaches did not explicitly model the baseline reward, which limited the ability to precisely estimate the parameters in the differential reward model. In this paper, we propose a novel Thompson sampling algorithm, termed ''DML-TS-NNR'' that leverages (1) nearest-neighbors to efficiently pool information on the differential reward function across users and time and (2) the Double Machine Learning (DML) framework to explicitly model baseline rewards and stay agnostic to the supervised learning algorithms used. By explicitly modeling baseline rewards, we obtain smaller confidence sets for the differential reward parameters. We offer theoretical guarantees on the pseudo-regret, which are supported by empirical results. Importantly, the DML-TS-NNR algorithm demonstrates robustness to potential misspecifications in the baseline reward model.
翻訳日:2023-12-12 15:16:34 公開日:2023-12-11
# 画像適応キューによる複合テキストガイドプロンプトチューニング

Compound Text-Guided Prompt Tuning via Image-Adaptive Cues ( http://arxiv.org/abs/2312.06401v1 )

ライセンス: Link先を確認
Hao Tan, Jun Li, Yizhuang Zhou, Jun Wan, Zhen Lei, Xiangyu Zhang(参考訳) CLIPのような視覚言語モデル(VLM)は、下流タスクへの顕著な一般化機能を示している。 しかしながら、既存のプロンプトチューニングベースのフレームワークでは、学習可能なテキスト入力をすべてのカテゴリで並列化する必要がある。 さらに、以前の作品ではプロンプトにカテゴリ名を含める必要があり、あいまいなカテゴリ名を扱う際にサブパーパフォーマンスを示す。 これらの欠点に対処するため,我々は,優れた性能を実現しながらリソース需要を大幅に削減する複合テキスト誘導型プロンプトチューニング(tgp-t)を提案する。 我々は、プロンプトの最適化にテキスト管理を導入し、2つの利点を実現した。 1) 推論中に予め定義されたカテゴリ名に依存したモデルをリリースすることにより,より柔軟なプロンプト生成が可能になる。 2) テキストエンコーダへの入力数を削減し,GPUメモリ使用量を大幅に削減する。 具体的には,クラス間分離性とクラス内変動をそれぞれ備えるため,複合テキストの監督,すなわちカテゴリ間およびコンテンツ間管理が極めて効果的であることが判明した。 さらに,プロンプトと視覚特徴のアライメントを容易にするボンダーと呼ばれるモジュールを用いて,視覚特徴のプロンプト生成を条件とする。 ショット認識と領域一般化に関する大規模な実験により、TGP-Tはトレーニングコストを一定に抑えながら優れた性能を発揮することが示された。 gpuメモリ使用量を93%削減し、16ショットイメージネットで2.5%のパフォーマンス向上を達成した。 コードはhttps://github.com/EricTan7/TGP-Tで入手できる。

Vision-Language Models (VLMs) such as CLIP have demonstrated remarkable generalization capabilities to downstream tasks. However, existing prompt tuning based frameworks need to parallelize learnable textual inputs for all categories, suffering from massive GPU memory consumption when there is a large number of categories in the target dataset. Moreover, previous works require to include category names within prompts, exhibiting subpar performance when dealing with ambiguous category names. To address these shortcomings, we propose Compound Text-Guided Prompt Tuning (TGP-T) that significantly reduces resource demand while achieving superior performance. We introduce text supervision to the optimization of prompts, which enables two benefits: 1) releasing the model reliance on the pre-defined category names during inference, thereby enabling more flexible prompt generation; 2) reducing the number of inputs to the text encoder, which decreases GPU memory consumption significantly. Specifically, we found that compound text supervisions, i.e., category-wise and content-wise, is highly effective, since they provide inter-class separability and capture intra-class variations, respectively. Moreover, we condition the prompt generation on visual features through a module called Bonder, which facilitates the alignment between prompts and visual features. Extensive experiments on few-shot recognition and domain generalization demonstrate that TGP-T achieves superior performance with consistently lower training costs. It reduces GPU memory usage by 93% and attains a 2.5% performance gain on 16-shot ImageNet. The code is available at https://github.com/EricTan7/TGP-T.
翻訳日:2023-12-12 15:16:13 公開日:2023-12-11
# STDiff:連続確率的ビデオ予測のための時空間拡散

STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video Prediction ( http://arxiv.org/abs/2312.06486v1 )

ライセンス: Link先を確認
Xi Ye, Guillaume-Alexandre Bilodeau(参考訳) ビデオの今後のフレーム予測は,その内容に影響を及ぼす要因の不確実性を知ることが難しいため,難しい。 本稿では,時空間上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。 具体的には、まず映像の動きと内容情報を分解し、次にニューラル確率微分方程式を用いて時間的動き情報を予測し、最後に、予測された動き特徴と前フレームを条件に画像拡散モデルが自動回帰的に映像フレームを生成する。 我々のモデルの表現性の向上と確率学習能力の強化により、最先端のビデオ予測性能が向上する。 同様に、我々のモデルは、時間的連続予測、すなわち将来のビデオフレームを任意に高いフレームレートで教師なしの方法で予測することができる。 私たちのコードは \url{https://github.com/XiYe20/STDiffProject} で利用可能です。

Predicting future frames of a video is challenging because it is difficult to learn the uncertainty of the underlying factors influencing their contents. In this paper, we propose a novel video prediction model, which has infinite-dimensional latent variables over the spatio-temporal domain. Specifically, we first decompose the video motion and content information, then take a neural stochastic differential equation to predict the temporal motion information, and finally, an image diffusion model autoregressively generates the video frame by conditioning on the predicted motion feature and the previous frame. The better expressiveness and stronger stochasticity learning capability of our model lead to state-of-the-art video prediction performances. As well, our model is able to achieve temporal continuous prediction, i.e., predicting in an unsupervised way the future video frames with an arbitrarily high frame rate. Our code is available at \url{https://github.com/XiYe20/STDiffProject}.
翻訳日:2023-12-12 15:09:09 公開日:2023-12-11
# Few-Shot Semantic Segmentation の固有特徴強調ネットワーク

Relevant Intrinsic Feature Enhancement Network for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2312.06474v1 )

ライセンス: Link先を確認
Xiaoyi Bao, Jie Qin, Siyang Sun, Yun Zheng, Xingang Wang(参考訳) 数ショットのセマンティックセグメンテーションでは、主なタスクは、限定ラベル付きデータからクラス固有の固有情報を抽出することである。 しかし,従来の手法のセマンティックな曖昧さとクラス間類似性は,画素レベルのフォアグラウンド分類の精度を制限している。 これらの問題を緩和するために、関係固有特徴拡張ネットワーク(RiFeNet)を提案する。 前景のインスタンスのセマンティック一貫性を改善するために,クラス内の差異に頑健な固有の特徴を抽出する方法をモデルに教える,効率的なデータ利用手法としてラベルなし分岐を提案する。 特に、テスト中に提案されたラベルなしのブランチは、追加のラベルなしのデータと計算なしで除外される。 さらに,新しい多レベルプロトタイプ生成およびインタラクションモジュールの提案により,前景と背景のクラス間変動性を拡張する。 グローバルプロトタイプとローカルプロトタイプの相補性が異なるため、類似のカテゴリの区別がより良くなる。 RiFeNetの質的かつ定量的な性能はPASCAL-5iとCOCOベンチマークの最先端手法を上回る。

For few-shot semantic segmentation, the primary task is to extract class-specific intrinsic information from limited labeled data. However, the semantic ambiguity and inter-class similarity of previous methods limit the accuracy of pixel-level foreground-background classification. To alleviate these issues, we propose the Relevant Intrinsic Feature Enhancement Network (RiFeNet). To improve the semantic consistency of foreground instances, we propose an unlabeled branch as an efficient data utilization method, which teaches the model how to extract intrinsic features robust to intra-class differences. Notably, during testing, the proposed unlabeled branch is excluded without extra unlabeled data and computation. Furthermore, we extend the inter-class variability between foreground and background by proposing a novel multi-level prototype generation and interaction module. The different-grained complementarity between global and local prototypes allows for better distinction between similar categories. The qualitative and quantitative performance of RiFeNet surpasses the state-of-the-art methods on PASCAL-5i and COCO benchmarks.
翻訳日:2023-12-12 15:08:56 公開日:2023-12-11
# 脳機能の協調は視覚セマンティクスのデコードを促進する

Aligning brain functions boosts the decoding of visual semantics in novel subjects ( http://arxiv.org/abs/2312.06467v1 )

ライセンス: Link先を確認
Alexis Thual, Yohann Benchetrit, Felix Geilert, J\'er\'emy Rapin, Iurii Makarov, Hubert Banville, Jean-R\'emi King(参考訳) 深層学習は、機能的磁気共鳴イメージング(fMRI)から脳のデコード領域における大きな進歩につながっている。 しかし、脳特性のサブジェクト間変動が大きいため、ほとんどの研究は一度に一つの被験者でモデルを訓練することに限られている。 その結果、このアプローチは、通常非常に大きなデータセットを必要とするディープラーニングモデルのトレーニングを妨げます。 本稿では,被験者の脳の反応をビデオや静止画像に合わせることで脳の復号化を促進することを提案する。 解剖学的に整合したベースラインと比較して,本手法はオブジェクト外デコード性能を最大75%向上させる。 さらに、テスト対象に100分以下のデータがある場合、従来のシングルサブジェクトアプローチよりも優れています。 さらに,従来の単目的手法に匹敵する結果を得るとともに,対象外一般化を改善した新しい多目的アライメント手法を提案する。 最後に,本手法は,脳解剖学に従って神経表現を整列することを示す。 本研究は、広範にわたる脳画像データセットの活用と、限られた量の脳記録を持つ個体の復号化の促進の基礎を築いた。

Deep learning is leading to major advances in the realm of brain decoding from functional Magnetic Resonance Imaging (fMRI). However, the large inter-subject variability in brain characteristics has limited most studies to train models on one subject at a time. Consequently, this approach hampers the training of deep learning models, which typically requires very large datasets. Here, we propose to boost brain decoding by aligning brain responses to videos and static images across subjects. Compared to the anatomically-aligned baseline, our method improves out-of-subject decoding performance by up to 75%. Moreover, it also outperforms classical single-subject approaches when fewer than 100 minutes of data is available for the tested subject. Furthermore, we propose a new multi-subject alignment method, which obtains comparable results to that of classical single-subject approaches while improving out-of-subject generalization. Finally, we show that this method aligns neural representations in accordance with brain anatomy. Overall, this study lays the foundations for leveraging extensive neuroimaging datasets and enhancing the decoding of individuals with a limited amount of brain recordings.
翻訳日:2023-12-12 15:08:41 公開日:2023-12-11
# 協調が重要:音声・視覚セグメンテーションにおける多次元双方向関係の探索

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation ( http://arxiv.org/abs/2312.06462v1 )

ライセンス: Link先を確認
Qi Yang and Xing Nie and Tong Li and Pengfei Gao and Ying Guo and Cheng Zhen and Pengfei Yan and Shiming Xiang(参考訳) 近年,ビデオ内の音声オブジェクトと画素をグループ化することを目的としたAVSタスクが導入されている。 このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とする。 本稿では,マルチオーダーバイラテラティオンの協調の頭文字であるCOMBO(COMBO)という,革新的な音声・視覚変換フレームワークを提案する。 今回我々はまず,avs内の左右の絡み合い,画素絡み合い,モダリティ絡み合い,時間絡み合いの3つのタイプについて検討した。 画素の絡み合わせについては,先行知識を利用して基礎モデルからより正確な視覚的特徴を生成するSiam-Encoder Module (SEM) を用いる。 両面融合モジュール (BFM) を設計し, COMBOによる両方向の視覚信号と聴覚信号の整列を可能にする。 時間的絡み合いについては、時間的ルールに則って、革新的な適応的フレーム間一貫性損失を導入する。 AVSBench-object (84.7 mIoU on S4, 59.2 mIou on MS3) および AVSBench-semantic (42.1 mIoU on AVSS) データセットに関する総合的な実験とアブレーション研究により、COMBOが従来の最先端手法を超越していることが示されている。 コードはhttps://combo-avs.github.io/で公開される。

Recently, an audio-visual segmentation (AVS) task has been introduced, aiming to group pixels with sounding objects within a given video. This task necessitates a first-ever audio-driven pixel-level understanding of the scene, posing significant challenges. In this paper, we propose an innovative audio-visual transformer framework, termed COMBO, an acronym for COoperation of Multi-order Bilateral relatiOns. For the first time, our framework explores three types of bilateral entanglements within AVS: pixel entanglement, modality entanglement, and temporal entanglement. Regarding pixel entanglement, we employ a Siam-Encoder Module (SEM) that leverages prior knowledge to generate more precise visual features from the foundational model. For modality entanglement, we design a Bilateral-Fusion Module (BFM), enabling COMBO to align corresponding visual and auditory signals bi-directionally. As for temporal entanglement, we introduce an innovative adaptive inter-frame consistency loss according to the inherent rules of temporal. Comprehensive experiments and ablation studies on AVSBench-object (84.7 mIoU on S4, 59.2 mIou on MS3) and AVSBench-semantic (42.1 mIoU on AVSS) datasets demonstrate that COMBO surpasses previous state-of-the-art methods. Code and more results will be publicly available at https://combo-avs.github.io/.
翻訳日:2023-12-12 15:08:24 公開日:2023-12-11
# 変動型オートエンコーダに基づく深層学習手法によるpivデータのギャップ埋め込み

Variational Auto-Encoder Based Deep Learning Technique For Filling Gaps in Reacting PIV Data ( http://arxiv.org/abs/2312.06461v1 )

ライセンス: Link先を確認
Shashank Yellapantula(参考訳) 本研究では, 燃焼系における粒子画像速度測定(PIV)測定で典型的に観測されるギャップを埋めるために, CVAEと呼ばれる深層学習に基づく条件密度推定手法を用いた。 CVAE法は, 一般に工業用燃焼器で見られる時間分解ギャップ状PIV場を用いて訓練される。 非常に高いベクトル収率を有するスワール燃焼器からのステレオPIV(SPIV)データを用いて,提案手法の精度を示す。 3セットの燃焼器運転条件に対応するデータセットから、ギャップ内の再構成速度場で評価した各種誤差メトリクスを提示する。 CVAE法は, 高精度なデータ再生に加えて, 遅延空間次元を低減し, 大規模PIVデータの効率的な処理を可能にする。

In this study, a deep learning based conditional density estimation technique known as conditional variational auto-encoder (CVAE) is used to fill gaps typically observed in particle image velocimetry (PIV) measurements in combustion systems. The proposed CVAE technique is trained using time resolved gappy PIV fields, typically observed in industrially relevant combustors. Stereo-PIV (SPIV) data from a swirl combustor with very a high vector yield is used to showcase the accuracy of the proposed CVAE technique. Various error metrics evaluated on the reconstructed velocity field in the gaps are presented from data sets corresponding to three sets of combustor operating conditions. In addition to accurate data reproduction, the proposed CVAE technique offers data compression by reducing the latent space dimension, enabling the efficient processing of large-scale PIV data.
翻訳日:2023-12-12 15:07:55 公開日:2023-12-11
# asf-yolo : セルインスタンスセグメンテーションのための注意スケールシーケンス融合を用いた新しいヨーロモデル

ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation ( http://arxiv.org/abs/2312.06458v1 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el C.-W. Phan(参考訳) 我々は,空間的特徴とスケール的特徴を組み合わせ,高精度かつ高速なセルインスタンスセグメンテーションを実現する,you only look once (yolo) framework (asf-yolo) を提案する。 YOLOセグメンテーションフレームワーク上に構築され,ネットワークのマルチスケール情報抽出能力を高めるためにSSFF(Scale Sequence Feature Fusion)モジュールと,TPE(Triple Feature Encoder)モジュールを用いて,異なるスケールの機能マップを融合し,詳細な情報を増やす。 さらに,情報チャネルと空間位置関連小物体に着目し,検出性能とセグメンテーション性能を向上させるため,SSFFモジュールとTPEモジュールを統合したチャネル・位置注意機構(CPAM)を導入する。 2つのセルデータセットに対する実験的検証は、提案したASF-YOLOモデルの顕著なセグメンテーション精度と速度を示す。 ボックスmAPは0.91、マスクmAPは0.887、推論速度は2018 Data Science Bowlのデータセットで47.3 FPSに達し、最先端の手法よりも優れている。 ソースコードはhttps://github.com/mkang315/ASF-YOLOで公開されている。

We propose a novel Attentional Scale Sequence Fusion based You Only Look Once (YOLO) framework (ASF-YOLO) which combines spatial and scale features for accurate and fast cell instance segmentation. Built on the YOLO segmentation framework, we employ the Scale Sequence Feature Fusion (SSFF) module to enhance the multi-scale information extraction capability of the network, and the Triple Feature Encoder (TPE) module to fuse feature maps of different scales to increase detailed information. We further introduce a Channel and Position Attention Mechanism (CPAM) to integrate both the SSFF and TPE modules, which focus on informative channels and spatial position-related small objects for improved detection and segmentation performance. Experimental validations on two cell datasets show remarkable segmentation accuracy and speed of the proposed ASF-YOLO model. It achieves a box mAP of 0.91, mask mAP of 0.887, and an inference speed of 47.3 FPS on the 2018 Data Science Bowl dataset, outperforming the state-of-the-art methods. The source code is available at https://github.com/mkang315/ASF-YOLO.
翻訳日:2023-12-12 15:07:40 公開日:2023-12-11
# ゼロショット病の表現型付けのための検索型大言語モデル

Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping ( http://arxiv.org/abs/2312.06457v1 )

ライセンス: Link先を確認
Will E. Thompson, David M. Vidmar, Jessica K. De Freitas, John M. Pfeifer, Brandon K. Fornwalt, Ruijun Chen, Gabriel Altay, Kabir Manghnani, Andrew C. Nelsen, Kellie Morland, Martin C. Stumpe, Riccardo Miotto(参考訳) 電子健康記録(EHR)から疾患の表現型を同定することは、多くの二次的用途において重要である。 医師の知識をルールに手動で符号化することは、EHRのコーディングが不十分なため、まれな疾患に対して特に難しい。 大規模言語モデル(LLM)はテキスト理解の約束を提供するが、実際の臨床文書を効率的に扱うことはできない。 そこで本研究では,病気関連テキストスニペットを事前識別し,llmの検索クエリと並行して診断を行う,検索型生成とmapreduceに富むゼロショットllmベースの手法を提案する。 肺の動脈圧上昇を特徴とする稀な疾患である肺高血圧症(PH)に対する本法の適用は,医師の論理則(F_1$ score of 0.62 vs. 0.75)を著しく上回っている。 この方法は、稀な疾患のコホート同定を強化し、堅牢な臨床研究とケアギャップ同定の範囲を広げる可能性がある。

Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.
翻訳日:2023-12-12 15:07:17 公開日:2023-12-11
# ヘマトキシリンおよびエオシンスライス画像からの乳がんHER2の予測のためのフェデレート学習を用いたポイントトランスフォーマー

Point Transformer with Federated Learning for Predicting Breast Cancer HER2 Status from Hematoxylin and Eosin-Stained Whole Slide Images ( http://arxiv.org/abs/2312.06454v1 )

ライセンス: Link先を確認
Bao Li, Zhenyu Liu, Lizhi Shao, Bensheng Qiu, Hong Bu, Jie Tian(参考訳) ヒト表皮成長因子受容体2(HER2)を、広く利用可能なヘマトキシリンおよびエオシン含有全スライド画像(WSI)から直接予測することで、技術的コストを低減し、治療選択を迅速化することができる。 HER2を正確に予測するには、多地点WSIの大規模なコレクションが必要である。 フェデレートラーニングは、ギガバイトサイズのWSIとデータプライバシの懸念なしに、これらのWSIの協調的なトレーニングを可能にする。 しかし,実世界の多地点WSIにおけるラベル不均衡に対処する上で,連合学習は課題に直面している。 さらに、既存のwsi分類手法では、フェデレーション学習のサイト-エンド特徴表現において、ローカルコンテキスト情報と長距離依存性を同時に利用することはできない。 そこで本研究では,多地点her2状態予測のためのフェデレーション学習を伴う点トランスフォーマを提案する。 我々のアプローチには2つの新しいデザインが組み込まれている。 本稿では, 動的ラベル分布戦略と補助分類器を提案し, 適切な初期化モデルを確立し, サイト間でのラベル分布のばらつきを軽減する。 さらに,コサイン距離に基づく最遠のコサインサンプリングを提案する。 最も特徴的な特徴をサンプリングし、長距離の依存関係をキャプチャする。 広範な実験と解析により,本手法は4地点で2687wsisの最先端性能を達成できた。 さらに,本モデルが229 wsisの未発見部位に一般化できることを実証する。

Directly predicting human epidermal growth factor receptor 2 (HER2) status from widely available hematoxylin and eosin (HE)-stained whole slide images (WSIs) can reduce technical costs and expedite treatment selection. Accurately predicting HER2 requires large collections of multi-site WSIs. Federated learning enables collaborative training of these WSIs without gigabyte-size WSIs transportation and data privacy concerns. However, federated learning encounters challenges in addressing label imbalance in multi-site WSIs from the real world. Moreover, existing WSI classification methods cannot simultaneously exploit local context information and long-range dependencies in the site-end feature representation of federated learning. To address these issues, we present a point transformer with federated learning for multi-site HER2 status prediction from HE-stained WSIs. Our approach incorporates two novel designs. We propose a dynamic label distribution strategy and an auxiliary classifier, which helps to establish a well-initialized model and mitigate label distribution variations across sites. Additionally, we propose a farthest cosine sampling based on cosine distance. It can sample the most distinctive features and capture the long-range dependencies. Extensive experiments and analysis show that our method achieves state-of-the-art performance at four sites with a total of 2687 WSIs. Furthermore, we demonstrate that our model can generalize to two unseen sites with 229 WSIs.
翻訳日:2023-12-12 15:06:58 公開日:2023-12-11
# 腹部CTのセマンティック画像合成

Semantic Image Synthesis for Abdominal CT ( http://arxiv.org/abs/2312.06453v1 )

ライセンス: Link先を確認
Yan Zhuang, Benjamin Hou, Tejas Sudharshan Mathai, Pritam Mukherjee, Boah Kim, Ronald M. Summers(参考訳) 新しい新興かつ有望な生成モデルとして、拡散モデルは画像合成を含む複数のタスクにおいて生成逆ネットワーク(gan)を上回ることが証明されている。 本研究では,条件付き拡散モデルを用いて腹部ct用セマンティック画像合成法について検討する。 我々は,3つの拡散モデルと,他の最先端ganベース手法の性能を体系的に評価し,セマンティクスマスクの異なる条件付けシナリオについて検討した。 実験の結果,拡散モデルがより高品質な腹部ct像を合成できることが判明した。 さらに、マスクと入力を別々に符号化することは、na\"ive concatenatingよりも効果的である。

As a new emerging and promising type of generative models, diffusion models have proven to outperform Generative Adversarial Networks (GANs) in multiple tasks, including image synthesis. In this work, we explore semantic image synthesis for abdominal CT using conditional diffusion models, which can be used for downstream applications such as data augmentation. We systematically evaluated the performance of three diffusion models, as well as to other state-of-the-art GAN-based approaches, and studied the different conditioning scenarios for the semantic mask. Experimental results demonstrated that diffusion models were able to synthesize abdominal CT images with better quality. Additionally, encoding the mask and the input separately is more effective than na\"ive concatenating.
翻訳日:2023-12-12 15:06:33 公開日:2023-12-11
# 正確に解ける相対論的量子オットーエンジン

An exactly solvable relativistic quantum Otto engine ( http://arxiv.org/abs/2312.06452v1 )

ライセンス: Link先を確認
Nikos K. Kollas and Dimitris Moustos(参考訳) 我々は、即時相互作用の下で無質量スカラー場と相互作用する、正確に解けるUnruh-DeWitt検出器モデルの数学を再検討し、相対論的量子オットー熱エンジンを構築する。 熱力学サイクルが閉じた条件を導出することにより、加工媒体が熱浴中を一定相対論的速度で移動しているときに、機械から抽出できる作業量に対する運動の影響について検討する。 熱湯の速さには劣化効果があるが, 冷湯の場合, 真の増強効果があることが示されている。 検出器の逆周波数と同じ順序と2つの瞬時相互作用の時間的分離の特定の値とを結合させることで、検出器を冷却するために必要となる - 速度と抽出作業の間の非単調な依存性- テーブルトップ実験における相対論的効果を利用した熱力学過程の強化の興味深い可能性を高めることができる。

We revisit the mathematics of exactly solvable Unruh-DeWitt detector models, interacting with massless scalar fields under instantaneous interactions, to construct a relativistic quantum Otto heat engine. By deriving the conditions under which the thermodynamic cycle is closed we study the effects of motion on the amount of work that can be extracted from the machine when the working medium is moving at a constant relativistic velocity through the heat baths. While there is a degrading effect with respect to speed in the hot bath, we demonstrate that in the case of the cold bath, genuine enhancing effects are sometimes present. For couplings the same order as the inverse frequency of the detector and a specific value for the temporal separation between the two instantaneous interactions--needed in order to be possible to cool the detector--a non-monotonic dependence between speed and extracted work exists raising the intriguing possibility of exploiting relativistic effects for the enhancement of thermodynamic processes in tabletop experiments.
翻訳日:2023-12-12 15:06:21 公開日:2023-12-11
# JuliQAOA: 高速で柔軟なQAOAシミュレーション

JuliQAOA: Fast, Flexible QAOA Simulation ( http://arxiv.org/abs/2312.06451v1 )

ライセンス: Link先を確認
John Golden, Andreas B\"artschi, Daniel O'Malley, Elijah Pelofske, Stephan Eidenbenz(参考訳) 本稿では,量子交換演算子Ansatz (QAOA) 用に開発されたシミュレーションパッケージJuliQAOAを紹介する。 JuliQAOAはQAOA問題を回路レベルで記述する必要はなく、あるいはそのような回路をシミュレートする他のパッケージも必要とせず、より直接的な線形代数の実装に依存している。 これにより、QAOA固有のパフォーマンスの改善、柔軟性と汎用性の向上が可能になる。 JuliQAOAは制約付きおよび制約なしの組合せ最適化問題の研究を支援するために設計された最初のQAOAパッケージであり、新しいコスト関数、ミキサー・ハミルトンなどを含むことができる。 JuliQAOAには、最適な角度を学習するための堅牢で拡張可能な方法も含まれている。 Julia言語で書かれたJuliQAOAは、既存のQAOAソフトウェアパッケージより優れ、HPCレベルのリソースによくスケールする。 JuliQAOAはhttps://github.com/lanl/JuliQAOA.jlで入手できる。

We introduce JuliQAOA, a simulation package specifically built for the Quantum Alternating Operator Ansatz (QAOA). JuliQAOA does not require a circuit-level description of QAOA problems, or another package to simulate such circuits, instead relying on a more direct linear algebra implementation. This allows for increased QAOA-specific performance improvements, as well as improved flexibility and generality. JuliQAOA is the first QAOA package designed to aid in the study of both constrained and unconstrained combinatorial optimization problems, and can easily include novel cost functions, mixer Hamiltonians, and other variations. JuliQAOA also includes robust and extensible methods for learning optimal angles. Written in the Julia language, JuliQAOA outperforms existing QAOA software packages and scales well to HPC-level resources. JuliQAOA is available at https://github.com/lanl/JuliQAOA.jl.
翻訳日:2023-12-12 15:06:01 公開日:2023-12-11
# 強欠陥型ニューロモルフィックハードウェアのためのロバストトレーニング法の実験的実証

Experimental demonstration of a robust training method for strongly defective neuromorphic hardware ( http://arxiv.org/abs/2312.06446v1 )

ライセンス: Link先を確認
William A. Borders, Advait Madhavan, Matthew W. Daniels, Vasileia Georgiou, Martin Lueker-Boden, Tiffany S. Santos, Patrick M. Braganca, Mark D. Stiles, Jabez J. McClelland, and Brian D. Hoskins(参考訳) より複雑なアプリケーションをサポートするために必要なニューラルネットワークの規模の増加は、面積とエネルギー効率のハードウェアに対する要求の増大につながった。 これらのアプリケーションの予算を満たす1つのルートは、メモリ内または周辺で計算を行うことでフォン・ノイマンのボトルネックを回避することである。 ニューラルネットワークをハードウェアに転送することの必然性は、デバイスからデバイスへのバリエーションやデバイスへの悪影響など、非イデオロギーが性能に与える影響である。 ネットワークトレーニングにおいて, 基板非イデオロギーを取り入れたハードウェア・アウェア・トレーニングのような手法は, 解法一般コストで性能を回復する一つの方法である。 本研究では,2万個の磁気トンネル接合アレイからなるハードウェアニューラルネットワークの推論を,市販のスピントランスポート・トーク磁気抵抗型ランダムアクセスメモリ技術によく似た相補的な金属酸化物半導体チップ上に実装した。 36個のダイを使用することで,物理的にマッピングされたネットワーク内の少数の欠陥であっても,障害のないトレーニングネットワークのパフォーマンスが著しく低下することを示すとともに,汎用性が損なわれることなく,各ダイの特定の欠陥を考慮に入れたハードウェアアウェアトレーニングが,理想的なネットワークと同等のパフォーマンスに回復することを示す。 次に,ハードウェア・アウェア・トレーニングを統計的アウェア・トレーニングに拡張し,ネットワーク重みを発生させる堅牢なトレーニング手法を示す。 36の物理ダイに対して評価すると、統計的に訓練されたソリューションは、ソフトウェアベースラインと異なるMNISTデータセットの平均的な誤分類誤差をわずか2%で達成できる。 この統計対応トレーニング方法は、業界対応アプリケーションに適したハードウェアにマッピングされた多数のレイヤを持つネットワークに一般化することができる。

The increasing scale of neural networks needed to support more complex applications has led to an increasing requirement for area- and energy-efficient hardware. One route to meeting the budget for these applications is to circumvent the von Neumann bottleneck by performing computation in or near memory. An inevitability of transferring neural networks onto hardware is that non-idealities such as device-to-device variations or poor device yield impact performance. Methods such as hardware-aware training, where substrate non-idealities are incorporated during network training, are one way to recover performance at the cost of solution generality. In this work, we demonstrate inference on hardware neural networks consisting of 20,000 magnetic tunnel junction arrays integrated on a complementary metal-oxide-semiconductor chips that closely resembles market-ready spin transfer-torque magnetoresistive random access memory technology. Using 36 dies, each containing a crossbar array with its own non-idealities, we show that even a small number of defects in physically mapped networks significantly degrades the performance of networks trained without defects and show that, at the cost of generality, hardware-aware training accounting for specific defects on each die can recover to comparable performance with ideal networks. We then demonstrate a robust training method that extends hardware-aware training to statistics-aware training, producing network weights that perform well on most defective dies regardless of their specific defect locations. When evaluated on the 36 physical dies, statistics-aware trained solutions can achieve a mean misclassification error on the MNIST dataset that differs from the software-baseline by only 2 %. This statistics-aware training method could be generalized to networks with many layers that are mapped to hardware suited for industry-ready applications.
翻訳日:2023-12-12 15:05:45 公開日:2023-12-11
# ヘテロフィアとスペクトルを考慮したグラフに基づく不正検出の再検討

Revisiting Graph-based Fraud Detection in Sight of Heterophily and Spectrum ( http://arxiv.org/abs/2312.06441v1 )

ライセンス: Link先を確認
Fan Xu, Nan Wang, Hao Wu, Xuezhi Wen, Xibin Zhao(参考訳) graph-based fraud detection (gfd)は、難解な半教師付きノードバイナリ分類タスクと見なすことができる。 近年、グラフニューラルネットワーク(GNN)がGFDに広く適用され、近隣情報を集約することでノードの異常な可能性を特徴づけている。 しかし、不正グラフは本質的にヘテロ親和性を持つため、ほとんどのGNNはホモフィリーの仮定により性能が劣る。 また,異種不均衡問題が存在するため,既存のモデルでは貴重なノードラベル情報を十分に利用していない。 以上の課題に対処するため,本研究では,セミ教師付きGNNベースの不正検知器SEC-GFDを提案する。 ハイブリッドフィルタモジュールとローカル環境制約モジュールとを具備し、2つのモジュールをそれぞれヘテロフィリーおよびラベル利用問題を解決するために利用する。 最初の加群はスペクトル領域の観点から始まり、ヘテロフィイ問題をある程度解決する。 具体的には、スペクトルエネルギー分布とヘテロフィリーの相関により、スペクトルを複数の混合周波数帯域に分割する。 そして、ノードラベル情報をフル活用するために、局所環境制約モジュールを適応的に設計する。 4つの実世界の不正検出データセットの総合的な実験結果は、SEC-GFDが他の競合グラフベースの不正検出よりも優れていることを示している。

Graph-based fraud detection (GFD) can be regarded as a challenging semi-supervised node binary classification task. In recent years, Graph Neural Networks(GNN) have been widely applied to GFD, characterizing the anomalous possibility of a node by aggregating neighbor information. However, fraud graphs are inherently heterophilic, thus most of GNNs perform poorly due to their assumption of homophily. In addition, due to the existence of heterophily and class imbalance problem, the existing models do not fully utilize the precious node label information. To address the above issues, this paper proposes a semi-supervised GNN-based fraud detector SEC-GFD. This detector includes a hybrid filtering module and a local environmental constraint module, the two modules are utilized to solve heterophily and label utilization problem respectively. The first module starts from the perspective of the spectral domain, and solves the heterophily problem to a certain extent. Specifically, it divides the spectrum into multiple mixed frequency bands according to the correlation between spectrum energy distribution and heterophily. Then in order to make full use of the node label information, a local environmental constraint module is adaptively designed. The comprehensive experimental results on four real-world fraud detection datasets show that SEC-GFD outperforms other competitive graph-based fraud detectors.
翻訳日:2023-12-12 15:05:16 公開日:2023-12-11
# 適応最適化アルゴリズムのためのフレキシブルな精度指向深層学習モジュール推論遅延予測フレームワークの提案

Towards A Flexible Accuracy-Oriented Deep Learning Module Inference Latency Prediction Framework for Adaptive Optimization Algorithms ( http://arxiv.org/abs/2312.06440v1 )

ライセンス: Link先を確認
Jingran Shen, Nikos Tziritas, Georgios Theodoropoulos(参考訳) ディープラーニングの急速な開発により、クラウドやエッジ上のアプリケーションがますます多くなり、大きなDNN(Deep Neural Network)モデルを使用してタスクの実行効率と意思決定品質を改善する傾向にある。 メモリ制約のため、モデルは通常、圧縮、プルーニング、パーティショニングアルゴリズムを使用して最適化され、リソース制約のあるデバイスにデプロイできる。 計算プラットフォームの条件が動的に変化するにつれて、デプロイされた最適化アルゴリズムはそのソリューションに適応すべきである。 これらの解の頻繁な評価をタイムリーに行うために、RM(Regression Models)は一般的に、DNNモジュールの推論遅延などの関連する解品質指標を予測するために訓練される。 既存の予測フレームワークは異なるrmトレーニングワークフローを指定するが、いずれも異なるモジュールの入力パラメータ(バッチサイズ、デバイス利用率など)と選択されたrmの柔軟な設定を許可しない。 本稿では,ディープラーニングモジュール推論遅延予測フレームワークを提案する。 i) DNNモジュールごとに複数の異なるRM(例えば畳み込み層)を自己生成データセットでトレーニングするために、カスタマイズ可能な入力パラメータのセットをホストする。 ii) 予測時間/空間消費量を可能な限り低く保ちながら、最も高い予測精度につながる訓練されたrmのセットを自動的に選択する。 さらに,新しいrmである medn (multi-task encoder-decoder network) を代替として提案する。 総合的な実験結果から,MEDNは高速かつ軽量であり,総合的な予測精度とR2乗値を達成することができることがわかった。 時間/空間効率のオートセレクションアルゴリズムは、MEDNのシングルセレクション方式と比較して、全体の精度を2.5%、R-2乗を0.39%向上させる。

With the rapid development of Deep Learning, more and more applications on the cloud and edge tend to utilize large DNN (Deep Neural Network) models for improved task execution efficiency as well as decision-making quality. Due to memory constraints, models are commonly optimized using compression, pruning, and partitioning algorithms to become deployable onto resource-constrained devices. As the conditions in the computational platform change dynamically, the deployed optimization algorithms should accordingly adapt their solutions. To perform frequent evaluations of these solutions in a timely fashion, RMs (Regression Models) are commonly trained to predict the relevant solution quality metrics, such as the resulted DNN module inference latency, which is the focus of this paper. Existing prediction frameworks specify different RM training workflows, but none of them allow flexible configurations of the input parameters (e.g., batch size, device utilization rate) and of the selected RMs for different modules. In this paper, a deep learning module inference latency prediction framework is proposed, which i) hosts a set of customizable input parameters to train multiple different RMs per DNN module (e.g., convolutional layer) with self-generated datasets, and ii) automatically selects a set of trained RMs leading to the highest possible overall prediction accuracy, while keeping the prediction time / space consumption as low as possible. Furthermore, a new RM, namely MEDN (Multi-task Encoder-Decoder Network), is proposed as an alternative solution. Comprehensive experiment results show that MEDN is fast and lightweight, and capable of achieving the highest overall prediction accuracy and R-squared value. The Time/Space-efficient Auto-selection algorithm also manages to improve the overall accuracy by 2.5% and R-squared by 0.39%, compared to the MEDN single-selection scheme.
翻訳日:2023-12-12 15:04:56 公開日:2023-12-11
# dreamcontrol: 3d自己優先による制御ベースのテキストから3d生成

DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior ( http://arxiv.org/abs/2312.06439v1 )

ライセンス: Link先を確認
Tianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson W. H. Lau, Wangmeng Zuo(参考訳) 3D世代は近年大きな注目を集めている。 テキストと画像の拡散モデルの成功により、2Dリフト技術は制御可能な3D生成への有望な経路となる。 しかし、これらの手法は矛盾した幾何学を示しがちであり、これはジャヌス問題としても知られている。 この問題は主に2次元拡散モデルにおける視点バイアスと最適化目標の過度適合という2つの側面によって引き起こされる。 そこで本研究では, 粗いNeRFシーンを3Dセルフプライアとして最適化し, 制御によるスコア蒸留により細粒度オブジェクトを生成する2段階の2DリフトフレームワークDreamControlを提案する。 具体的には, 適応的視点サンプリングと境界完全度メトリクスを提案する。 前者は適切な測地を維持するための入力条件と見なされ、より詳細なテクスチャを最適化するために条件付きLoRAと重み付けスコアがさらに提案される。 DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から高品質な3Dコンテンツを生成することができる。 さらに、制御に基づく最適化ガイダンスは、ユーザ誘導生成や3Dアニメーションを含むより下流のタスクに適用できる。 プロジェクトページはhttps://github.com/tyhuang0428/dreamcontrol.comで閲覧できる。

3D generation has raised great attention in recent years. With the success of text-to-image diffusion models, the 2D-lifting technique becomes a promising route to controllable 3D generation. However, these methods tend to present inconsistent geometry, which is also known as the Janus problem. We observe that the problem is caused mainly by two aspects, i.e., viewpoint bias in 2D diffusion models and overfitting of the optimization objective. To address it, we propose a two-stage 2D-lifting framework, namely DreamControl, which optimizes coarse NeRF scenes as 3D self-prior and then generates fine-grained objects with control-based score distillation. Specifically, adaptive viewpoint sampling and boundary integrity metric are proposed to ensure the consistency of generated priors. The priors are then regarded as input conditions to maintain reasonable geometries, in which conditional LoRA and weighted score are further proposed to optimize detailed textures. DreamControl can generate high-quality 3D content in terms of both geometry consistency and texture fidelity. Moreover, our control-based optimization guidance is applicable to more downstream tasks, including user-guided generation and 3D animation. The project page is available at https://github.com/tyhuang0428/DreamControl.
翻訳日:2023-12-12 15:04:23 公開日:2023-12-11
# コンパクト系における超蛍光の確率モデリング

Stochastic modeling of superfluorescence in compact systems ( http://arxiv.org/abs/2312.06537v1 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, Andrei Benediktovitch, Nina Rohringer(参考訳) 本稿では,多レベルエミッタのコンパクトアンサンブルにおける超蛍光を記述するための確率微分方程式に基づくアプローチを提案する。 このアプローチには、エミッタの数に依存しない数値的な複雑さがある。 確率微分方程式は、量子マスター方程式から直接導かれる。 本研究では,その解を厳密な計算と比較し,適用可能性の限界について議論する数値例を提案する。 多くの関連する場合において、提案した確率微分方程式は正確な結果を与え、量子多体相関効果を正しく捉える。

We propose an approach based on stochastic differential equations to describe superfluorescence in compact ensembles of multi-level emitters in the presence of various incoherent processes. This approach has a numerical complexity that does not depend on the number of emitters. The stochastic differential equations are derived directly from the quantum master equation. In this study, we present a series of numerical examples, comparing our solution to exact calculations and discussing the limits of applicability. For many relevant cases, the proposed stochastic differential equations provide accurate results and correctly capture quantum many-body correlation effects.
翻訳日:2023-12-12 14:58:05 公開日:2023-12-11
# KPIによるHPCジョブのクラスタリングと可視化:特徴量削減手法

KPIs-Based Clustering and Visualization of HPC jobs: a Feature Reduction Approach ( http://arxiv.org/abs/2312.06534v1 )

ライセンス: Link先を確認
Mohamed Soliman Halawa and Rebeca P. D\'iaz-Redondo and Ana Fern\'andez-Vilas(参考訳) ハイパフォーマンスコンピューティング(HPC)システムは、安定性を確保するために常に監視される必要がある。 監視システムは、リソース使用量やIO待ち時間など、さまざまなパラメータやキーパフォーマンス指標(KPI)に関する膨大なデータを収集します。 通常時系列として保存されるこのデータの適切な分析は、適切な管理戦略の選択と問題の早期検出に関する洞察を与えることができる。 本稿では,hpcジョブをkpiインジケータに従ってクラスタ化する手法を提案する。 本手法は,2つの手法を時系列に適用することで,収集データの固有高次元性を低減する。 また,従来の2つの手法と主成分分析(PCA)を組み合わせることで,得られたクラスタを可視化する手法も定義する。 最後に、実際のデータセットへのコントリビューションを検証することで、CPU利用に関連するKPIがクラスタリング分析に最適な凝集度と分離を提供し、視覚化手法の優れた結果をもたらすと結論付けました。

High-Performance Computing (HPC) systems need to be constantly monitored to ensure their stability. The monitoring systems collect a tremendous amount of data about different parameters or Key Performance Indicators (KPIs), such as resource usage, IO waiting time, etc. A proper analysis of this data, usually stored as time series, can provide insight in choosing the right management strategies as well as the early detection of issues. In this paper, we introduce a methodology to cluster HPC jobs according to their KPI indicators. Our approach reduces the inherent high dimensionality of the collected data by applying two techniques to the time series: literature-based and variance-based feature extraction. We also define a procedure to visualize the obtained clusters by combining the two previous approaches and the Principal Component Analysis (PCA). Finally, we have validated our contributions on a real data set to conclude that those KPIs related to CPU usage provide the best cohesion and separation for clustering analysis and the good results of our visualization methodology.
翻訳日:2023-12-12 14:57:49 公開日:2023-12-11
# 局所重み付き共形予測を用いた自動評価モデルの不確かさ定量化

Uncertainty quantification in automated valuation models with locally weighted conformal prediction ( http://arxiv.org/abs/2312.06531v1 )

ライセンス: Link先を確認
Anders Hjort and Gudmund Horn Hermansen and Johan Pensar and Jonathan P. Williams(参考訳) 非パラメトリック機械学習モデル、例えば無作為林や勾配高木などは、予測精度から住宅価格を推定するためにしばしば使用されるが、予測の不確実性を定量化する能力に制限されることが多い。 Conformal Prediction (CP)は、最小限の仮定で機械学習予測モデルの周りに信頼セットを構築するためのモデルに依存しないフレームワークである。 しかし、住宅価格で観測される空間的依存関係のため、CPの直接的な適用は、至る所で校正されていない信頼セット、すなわち特定の地理的領域における信頼セットがあまりに大きく、他の領域では小さすぎることにつながる。 そこで我々は,cp信頼度を調節するための様々なアプローチを調査し,ノルウェーのオスロの住宅市場から収集したデータを用いて,その性能を実証する。 以上の結果から,非整合性スコアの <textit{locally weighted> バージョンに対する信頼度セットの校正は,地域によって一貫した校正を行うことが示唆された。 また, 既知データ生成機構を有する理想化条件下での住宅市場データにおけるCPの性能を実証的に検討するために, 合成販売価格に関するシミュレーション研究を行った。

Non-parametric machine learning models, such as random forests and gradient boosted trees, are frequently used to estimate house prices due to their predictive accuracy, but such methods are often limited in their ability to quantify prediction uncertainty. Conformal Prediction (CP) is a model-agnostic framework for constructing confidence sets around machine learning prediction models with minimal assumptions. However, due to the spatial dependencies observed in house prices, direct application of CP leads to confidence sets that are not calibrated everywhere, i.e., too large of confidence sets in certain geographical regions and too small in others. We survey various approaches to adjust the CP confidence set to account for this and demonstrate their performance on a data set from the housing market in Oslo, Norway. Our findings indicate that calibrating the confidence sets on a \textit{locally weighted} version of the non-conformity scores makes the coverage more consistently calibrated in different geographical regions. We also perform a simulation study on synthetically generated sale prices to empirically explore the performance of CP on housing market data under idealized conditions with known data-generating mechanisms.
翻訳日:2023-12-12 14:57:19 公開日:2023-12-11
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現

Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v1 )

ライセンス: Link先を確認
Xiang Cheng, Yuxin Chen, Suvrit Sra(参考訳) 多くのニューラルネットワークアーキテクチャがチューリング完全であることが示されており、任意のアルゴリズムを実装することができる。 しかし、トランスフォーマーは勾配に基づく学習アルゴリズム \emph{under simple parameter configurations} を実装できるという点でユニークである。 最近の一連の研究は、線形回帰学習タスクで訓練された場合、線形変圧器は自然に勾配降下(gd)を実装することを学ぶことを示している。 しかし、線形性仮定(トランスフォーマーアーキテクチャや学習タスクの場合)は、非線形アクティベーションがトランスフォーマーが複雑な非線形関数を学べるような現実的な設定とは程遠い。 本稿では,非線形トランスフォーマーが,文脈で非線形関数を学習するための学習アルゴリズムの実装を学習できることを理論的,実証的に証明する。 この結果は非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用できる。 興味深いことに、非線形活性化の最適選択は、学習課題の非線形性に依存している。

Many neural network architectures have been shown to be Turing Complete, and can thus implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms \emph{under simple parameter configurations}. A line of recent work shows that linear Transformers naturally learn to implement gradient descent (GD) when trained on a linear regression in-context learning task. But the linearity assumption (either in the Transformer architecture or in the learning task) is far from realistic settings where non-linear activations crucially enable Transformers to learn complicated non-linear functions. In this paper, we provide theoretical and empirical evidence that non-linear Transformers can, and \emph{in fact do}, learn to implement learning algorithms to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures, and non-linear in-context learning tasks. Interestingly, we show that the optimal choice of non-linear activation depends in a natural way on the non-linearity of the learning task.
翻訳日:2023-12-12 14:56:14 公開日:2023-12-11
# 強化学習は政策立案を支援するか? 総合評価モデルによる予備的研究

Can Reinforcement Learning support policy makers? A preliminary study with Integrated Assessment Models ( http://arxiv.org/abs/2312.06527v1 )

ライセンス: Link先を確認
Theodore Wolf and Nantas Nardelli and John Shawe-Taylor and Maria Perez-Ortiz(参考訳) 世界中の政府は、証拠に関する決定を下そうとしている。 政策作成の基礎には、例えば、社会的ニーズに関連するパターンの認識、エビデンスベースのプログラムの開発、政策変更の潜在的成果の予測、政策プログラムの有効性の監視などがあり、大規模なデータセットやシミュレーションをインテリジェントアルゴリズムと共に活用することで利益を得る可能性がある。 科学的証拠にしっかりと根ざした方法で設計され、展開されれば、より包括的で、より速く、厳密な政策決定のアプローチが可能になる。 統合アセスメントモデル(iam)は、社会と経済の主な特徴と生物圏を一つのモデリングフレームワークに結びつけようとする科学モデルをカバーする幅広い傘である。 現在、これらのシステムは政策立案者や諮問グループによって仮説駆動方式で調査されている。 本稿では,最近の強化学習を用いて,iamを探索し,解の空間をより原理的に探索できることを実証的に示す。 環境がシンプルであることから、結果の含意は控えめだが、これはより野心的なユースケースへの一歩であり、政策の効果的な探索と、その結果と限界の理解を可能にするものだと考えています。

Governments around the world aspire to ground decision-making on evidence. Many of the foundations of policy making - e.g. sensing patterns that relate to societal needs, developing evidence-based programs, forecasting potential outcomes of policy changes, and monitoring effectiveness of policy programs - have the potential to benefit from the use of large-scale datasets or simulations together with intelligent algorithms. These could, if designed and deployed in a way that is well grounded on scientific evidence, enable a more comprehensive, faster, and rigorous approach to policy making. Integrated Assessment Models (IAM) is a broad umbrella covering scientific models that attempt to link main features of society and economy with the biosphere into one modelling framework. At present, these systems are probed by policy makers and advisory groups in a hypothesis-driven manner. In this paper, we empirically demonstrate that modern Reinforcement Learning can be used to probe IAMs and explore the space of solutions in a more principled manner. While the implication of our results are modest since the environment is simplistic, we believe that this is a stepping stone towards more ambitious use cases, which could allow for effective exploration of policies and understanding of their consequences and limitations.
翻訳日:2023-12-12 14:55:35 公開日:2023-12-11
# テキスト感情分類のためのラベル平滑化

Label Smoothing for Enhanced Text Sentiment Classification ( http://arxiv.org/abs/2312.06522v1 )

ライセンス: Link先を確認
Yijie Gao and Shijing Si(参考訳) ラベルスムーシングは、画像分類や音声認識など、様々な領域で広く使われている技法であり、モデルオーバーフィッティングと効果的に戦うことで知られている。 しかし,テキスト感情分類への応用に関する研究は少ない。 そこで本研究では,感情分類のためのラベル平滑化の実装について,異なる平滑化レベルを用いて検討する。 主目的は、離散ラベルを平滑化ラベル分布に変換することで感情分類精度を向上させることである。 広範にわたる実験を通じて,テキスト認識分類タスクにおいて,テキストCNN,BERT,RoBERTaという8つの多様なデータセットとディープラーニングアーキテクチャにおいて,スクラッチからのトレーニングと微調整という2つの学習スキームの下でラベルスムーシングの優れた性能を示す。

Label smoothing is a widely used technique in various domains, such as image classification and speech recognition, known for effectively combating model overfitting. However, there is few research on its application to text sentiment classification. To fill in the gap, this study investigates the implementation of label smoothing for sentiment classification by utilizing different levels of smoothing. The primary objective is to enhance sentiment classification accuracy by transforming discrete labels into smoothed label distributions. Through extensive experiments, we demonstrate the superior performance of label smoothing in text sentiment classification tasks across eight diverse datasets and deep learning architectures: TextCNN, BERT, and RoBERTa, under two learning schemes: training from scratch and fine-tuning.
翻訳日:2023-12-12 14:55:14 公開日:2023-12-11
# サブグラフサンプリングを用いた異種グラフへのノード埋め込みに対するgan法

A GAN Approach for Node Embedding in Heterogeneous Graphs Using Subgraph Sampling ( http://arxiv.org/abs/2312.06519v1 )

ライセンス: Link先を確認
Hung Chun Hsu, Bo-Jun Wu, Ming-Yi Hong, Che Lin, Chih-Yu Wang(参考訳) 本研究は,グラフニューラルネットワーク(GNN)を用いた異種グラフのクラス不均衡問題に対処する。 本稿では,GAN(Generative Adversarial Networks)とGNN(Greative Adversarial Networks)の長所を結合し,データセットを効果的にバランスさせる合成ノードとエッジを作成する手法を提案する。 このアプローチは、データレベルの不均衡を直接ターゲットとし、修正する。 提案フレームワークは,データ生成中にグラフ構造を無視する,下流タスクでgnnベースの分類器で使用可能な合成構造を作成するといった問題を解決する。 ノードとエッジ情報を同時に処理し、ノード拡張とサブグラフサンプリングによるエッジバランスを改善する。 さらに,学習中に最適なエッジしきい値を決定するのを支援するしきい値戦略を,時間を要するパラメータ調整なしで統合する。 AmazonとYelp Reviewデータセットの実験では、提案したフレームワークの有効性、特にマイノリティノードの識別において、主要なパフォーマンス指標のベースラインモデルを一貫して上回り、この分野におけるその可能性を実証しています。

Our research addresses class imbalance issues in heterogeneous graphs using graph neural networks (GNNs). We propose a novel method combining the strengths of Generative Adversarial Networks (GANs) with GNNs, creating synthetic nodes and edges that effectively balance the dataset. This approach directly targets and rectifies imbalances at the data level. The proposed framework resolves issues such as neglecting graph structures during data generation and creating synthetic structures usable with GNN-based classifiers in downstream tasks. It processes node and edge information concurrently, improving edge balance through node augmentation and subgraph sampling. Additionally, our framework integrates a threshold strategy, aiding in determining optimal edge thresholds during training without time-consuming parameter adjustments. Experiments on the Amazon and Yelp Review datasets highlight the effectiveness of the framework we proposed, especially in minority node identification, where it consistently outperforms baseline models across key performance metrics, demonstrating its potential in the field.
翻訳日:2023-12-12 14:54:57 公開日:2023-12-11
# gaussianタスクコンテキストとスキルを用いたメタ強化学習の分離

Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and Skills ( http://arxiv.org/abs/2312.06518v1 )

ライセンス: Link先を確認
Hongcai He, Anjie Zhu, Shuang Liang, Feiyu Chen, Jie Shao(参考訳) ロボット制御タスクでは,目標とする課題に先行経験で適応するオフラインメタ強化学習(meta-rl)手法が不可欠である。 現在の手法では、タスクコンテキストとスキルを事前の経験として使用し、タスクコンテキストは各タスク内の情報と関連付けられ、スキルはサブタスクを解決するために時間的に拡張されたアクションのセットを表す。 しかし、これらの手法は、学習された事前経験が一般化を欠いていること、すなわち、連続的潜在空間の探索と学習によってメタトレーニングタスクから効果的な事前経験を抽出することができないことなどから、対象とするタスクに適応する際の性能が限られている。 本研究では,(1)同一タスク内の類似タスクコンテキストを抽出し,異なるタスクコンテキストの異なるタスクコンテキストをプッシュすることで,タスクコンテキストの学習を対照的に制限し,(2)タスクコンテキストとスキルのガウス分布をクラスタリングするガウス量子化変分自動エンコーダ(GQ-VAE)を用いて,それらの空間の探索と学習プロセスをデカップリングする,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。 これらのクラスタセンターは、それぞれタスクコンテキストコードブックとスキルコードブックに、タスクコンテキストとスキルの個別分布として機能する。 DCMRLは、一般化可能な事前経験を取得し、メタテストフェーズ中に見つからない目標タスクに効果的に適応することができる。 ナビゲーションおよびロボット操作の連続制御タスクの実験により、DCMRLは従来のメタRL法よりもより一般化可能な事前経験を持つことが示された。

Offline meta-reinforcement learning (meta-RL) methods, which adapt to unseen target tasks with prior experience, are essential in robot control tasks. Current methods typically utilize task contexts and skills as prior experience, where task contexts are related to the information within each task and skills represent a set of temporally extended actions for solving subtasks. However, these methods still suffer from limited performance when adapting to unseen target tasks, mainly because the learned prior experience lacks generalization, i.e., they are unable to extract effective prior experience from meta-training tasks by exploration and learning of continuous latent spaces. We propose a framework called decoupled meta-reinforcement learning (DCMRL), which (1) contrastively restricts the learning of task contexts through pulling in similar task contexts within the same task and pushing away different task contexts of different tasks, and (2) utilizes a Gaussian quantization variational autoencoder (GQ-VAE) for clustering the Gaussian distributions of the task contexts and skills respectively, and decoupling the exploration and learning processes of their spaces. These cluster centers which serve as representative and discrete distributions of task context and skill are stored in task context codebook and skill codebook, respectively. DCMRL can acquire generalizable prior experience and achieve effective adaptation to unseen target tasks during the meta-testing phase. Experiments in the navigation and robot manipulation continuous control tasks show that DCMRL is more effective than previous meta-RL methods with more generalizable prior experience.
翻訳日:2023-12-12 14:54:39 公開日:2023-12-11
# PLMのコンテキスト化はどこで起こるのか?

Where exactly does contextualization in a PLM happen? ( http://arxiv.org/abs/2312.06514v1 )

ライセンス: Link先を確認
Soniya Vijayakumar, Tanja B\"aumel, Simon Ostermann and Josef van Genabith(参考訳) 事前訓練された言語モデル(PLM)は、単語の文脈化された表現を学習する能力のため、多くのNLPタスクにおいて一貫して成功している(Ethayarajh, 2019)。 bert (devlin et al., 2018)、elmo (peters et al., 2018)、その他のplmは、単一のベクトル表現で単語のすべての意味をエンコードする静的単語埋め込みとは対照的に、テキスト的な文脈で単語の意味をエンコードする。 本稿では,plm単語の文脈化の正確な場所を局所化することを目的とした研究を行う。 この単語の意味変換の場所を見つけるために, 定性的, 定量的な尺度を用いて, 追加の文隣接目標に基づいて訓練されたマスク付き言語モデルである, BERT未解決12層アーキテクチャ(Devlin et al., 2018)の多文語表現について検討する。

Pre-trained Language Models (PLMs) have shown to be consistently successful in a plethora of NLP tasks due to their ability to learn contextualized representations of words (Ethayarajh, 2019). BERT (Devlin et al., 2018), ELMo (Peters et al., 2018) and other PLMs encode word meaning via textual context, as opposed to static word embeddings, which encode all meanings of a word in a single vector representation. In this work, we present a study that aims to localize where exactly in a PLM word contextualization happens. In order to find the location of this word meaning transformation, we investigate representations of polysemous words in the basic BERT uncased 12 layer architecture (Devlin et al., 2018), a masked language model trained on an additional sentence adjacency objective, using qualitative and quantitative measures.
翻訳日:2023-12-12 14:54:07 公開日:2023-12-11
# 遅延フリーパラメータを用いた非同期分散最適化

Asynchronous Distributed Optimization with Delay-free Parameters ( http://arxiv.org/abs/2312.06508v1 )

ライセンス: Link先を確認
Xuyang Wu, Changxin Liu, Sindri Magnusson, and Mikael Johansson(参考訳) 既存の非同期分散最適化アルゴリズムでは、実用的収束の遅いステップサイズの減少や、遅延の上限を上限に依存し減少する固定ステップサイズを使用することが多い。 このような遅延境界は事前に取得することが難しいだけでなく、大きく、まれに達成される傾向があり、不必要に収束が遅くなる。 本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。 代替案とは対照的に、我々のアルゴリズムは遅延とは独立なステップサイズを用いて、同期対応の固定点集合に収束することができる。 強弱凸問題に対する収束保証を部分的および完全的相同性の下で確立する。 また,2つの非同期メソッドの収束速度は,最悪の場合に制約されるよりも,実際の非同期性レベルに適合することを示した。 数値実験は非同期アルゴリズムの強力な実用性を示す。

Existing asynchronous distributed optimization algorithms often use diminishing step-sizes that cause slow practical convergence, or use fixed step-sizes that depend on and decrease with an upper bound of the delays. Not only are such delay bounds hard to obtain in advance, but they also tend to be large and rarely attained, resulting in unnecessarily slow convergence. This paper develops asynchronous versions of two distributed algorithms, Prox-DGD and DGD-ATC, for solving consensus optimization problems over undirected networks. In contrast to alternatives, our algorithms can converge to the fixed point set of their synchronous counterparts using step-sizes that are independent of the delays. We establish convergence guarantees for strongly and weakly convex problems under both partial and total asynchrony. We also show that the convergence speed of the two asynchronous methods adapts to the actual level of asynchrony rather than being constrained by the worst-case. Numerical experiments demonstrate a strong practical performance of our asynchronous algorithms.
翻訳日:2023-12-12 14:53:47 公開日:2023-12-11
# 長編エゴセントリックビデオにおける質疑応答

Grounded Question-Answering in Long Egocentric Videos ( http://arxiv.org/abs/2312.06505v1 )

ライセンス: Link先を確認
Shangzhe Di and Weidi Xie(参考訳) ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。 本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。 この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そのあいまいさによるオープンな回答評価の難しさなど、ユニークな課題を示す。 提案手法はこれらの課題に対処する i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。 (二)大規模言語モデルによる効率的かつスケーラブルなデータ合成 三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。 また,QAEgo4DおよびEgo4D-NLQベンチマークにおいて,最先端性能を実現する手法の有効性を示す。 今後の研究のために、コード、モデル、構築されたデータセットを公開する予定です。

Existing approaches to video understanding, mainly designed for short videos from a third-person perspective, are limited in their applicability in certain fields, such as robotics. In this paper, we delve into open-ended question-answering (QA) in long, egocentric videos, which allows individuals or robots to inquire about their own past visual experiences. This task presents unique challenges, including the complexity of temporally grounding queries within extensive video content, the high resource demands for precise data annotation, and the inherent difficulty of evaluating open-ended answers due to their ambiguous nature. Our proposed approach tackles these challenges by (i) integrating query grounding and answering within a unified model to reduce error propagation; (ii) employing large language models for efficient and scalable data synthesis; and (iii) introducing a close-ended QA task for evaluation, to manage answer ambiguity. Extensive experiments demonstrate the effectiveness of our method, which also achieves state-of-the-art performance on the QAEgo4D and Ego4D-NLQ benchmarks. We plan to publicly release the codes, model, and constructed datasets for future research.
翻訳日:2023-12-12 14:53:32 公開日:2023-12-11
# 電子支援による偏光マター状態の操作

Electron-assisted manipulation of polaritonic light-matter states ( http://arxiv.org/abs/2312.06503v1 )

ライセンス: Link先を確認
J. Abad-Arredondo, A. I. Fern\'andez-Dom\'inguez(参考訳) 例外的な空間分解能、スペクトル分解能、時間分解能により、高コヒーレントな自由電子ビームは物質励起の強力なプローブとして現れ、量子状態においてもその特性が評価されている。 ここでは、単色および変調電子波束による強い光物質結合について検討する。 特に,1つの2レベルエミッタの隣のナノフォトニックキャビティからなるアーチ型ターゲットを考える。 本稿では, 電磁的ダイドグリーン関数を用いて, マクロ量子電磁力学を用いて構成し, 電磁的ダイドグリーン関数で完全にパラメータ化した, 通過電子ビームとハイブリッドフォトニック・エキソニックターゲットとのコヒーレント相互作用を記述するモデルを提案する。 この枠組みを用いて、まず電子エネルギー損失とカソードルミネッセンス分光法、および光子誘起近接電界電子放出顕微鏡を記述する。 最後に、変調された電子ビームのパワーを、励起の複雑なエネルギー環境を示す偏光ターゲットを操作するための量子ツールとして示す。

Thanks to their exceptional spatial, spectral and temporal resolution, highly-coherent free-electron beams have emerged as powerful probes for material excitations, enabling their characterization even in the quantum regime. Here, we investigate strong light-matter coupling through monochromatic and modulated electron wavepackets. In particular, we consider an archetypal target, comprising a nanophotonic cavity next to a single two-level emitter. We propose a model Hamiltonian describing the coherent interaction between the passing electron beam and the hybrid photonic-excitonic target, which is constructed using macroscopic quantum electrodynamics and fully parameterized in terms of the electromagnetic Dyadic Green's function. Using this framework, we first describe electron-energy-loss and cathodoluminescence spectroscopies, and photon-induced near-field electron emission microscopy. Finally, we show the power of modulated electrons beams as quantum tools for the manipulation of polaritonic targets presenting a complex energy landscape of excitations.
翻訳日:2023-12-12 14:53:16 公開日:2023-12-11
# TaCo:情報理論と説明可能性によるNLP用出力埋め込みの概念除去

TaCo: Targeted Concept Removal in Output Embeddings for NLP via Information Theory and Explainability ( http://arxiv.org/abs/2312.06499v1 )

ライセンス: Link先を確認
Fanny Jourdan, Louis B\'ethune, Agustin Picard, Laurent Risser, Nicholas Asher(参考訳) 自然言語処理(NLP)モデルの公平性は重要な懸念事項となっている。 情報理論は、公正性を達成するためには、モデルが性別、民族、年齢などの敏感な変数を予測できないことを示唆している。 しかし、これらの変数に関連する情報は、しばしば言語に暗黙的に現れ、バイアスを効果的に識別し緩和する上での課題となっている。 この問題に対処するため,NLPモデルの埋め込みレベルにおいて,特定のアーキテクチャに依存しない新たなアプローチを提案する。 提案手法は,XAI手法の最近の進歩から得られた知見を活用し,組込み変換を用いて,選択した変数から暗黙の情報を排除する。 最終レイヤへの埋め込みを直接操作することで、当社のアプローチは、大幅な修正や再トレーニングを必要とせずに、既存のモデルへのシームレスな統合を可能にします。 評価において,提案手法は,NLPモデルにおける性別関係の関連性を大幅に低減し,モデル全体の性能と機能を維持する。 このメソッドの実装は、https://github.com/fanny-jourdan/tacoです。

The fairness of Natural Language Processing (NLP) models has emerged as a crucial concern. Information theory indicates that to achieve fairness, a model should not be able to predict sensitive variables, such as gender, ethnicity, and age. However, information related to these variables often appears implicitly in language, posing a challenge in identifying and mitigating biases effectively. To tackle this issue, we present a novel approach that operates at the embedding level of an NLP model, independent of the specific architecture. Our method leverages insights from recent advances in XAI techniques and employs an embedding transformation to eliminate implicit information from a selected variable. By directly manipulating the embeddings in the final layer, our approach enables a seamless integration into existing models without requiring significant modifications or retraining. In evaluation, we show that the proposed post-hoc approach significantly reduces gender-related associations in NLP models while preserving the overall performance and functionality of the models. An implementation of our method is available: https://github.com/fanny-jourdan/TaCo
翻訳日:2023-12-12 14:52:58 公開日:2023-12-11
# 歩行者の幾何学的次元の変化による群衆の出来事の検出

Detecting Events in Crowds Through Changes in Geometrical Dimensions of Pedestrians ( http://arxiv.org/abs/2312.06495v1 )

ライセンス: Link先を確認
Matheus Schreiner Homrich da Silva, Paulo Brossard de Souza Pinto Neto, Rodolfo Migon Favaretto, Soraia Raupp Musse(参考訳) セキュリティは現代社会において重要なトピックであり、群衆の中で起こりうるあらゆる関心事の検知を自動化する能力は、人口にとって大きな関心事である。 映像中の事象の検出は,歩行者行動の著しい変化と相関すると考えられる。 本稿では,イベントが群集の行動の変化を引き起こす場合と,群集とその運動がほとんど変化しない2つのビデオシーケンスを含む,群集行動の3つの異なるシナリオについて検討する。 ビデオと個々の歩行者の追跡(前処理フェーズで実行される)の両方で、私たちはGeomindというソフトウェアを使って、シーン、特に幾何学的特徴、個性、感情に関する重要なデータを抽出しました。 次に、各個人がイベントを識別したり、現実的な群衆行動のモデル化に使用可能な、時間の関数として行動する方法に大きな変化を求める。 ゲーム領域に適用すると,検出されたイベントを用いて,エージェントシミュレーションで使用する何らかのパターンを見つけることができる。 その結果,GeoMindを用いて視覚的に観測された事象を自動的に検出できるという意味では,仮説の有効性が示唆された。

Security is an important topic in our contemporary world, and the ability to automate the detection of any events of interest that can take place in a crowd is of great interest to a population. We hypothesize that the detection of events in videos is correlated with significant changes in pedestrian behaviors. In this paper, we examine three different scenarios of crowd behavior, containing both the cases where an event triggers a change in the behavior of the crowd and two video sequences where the crowd and its motion remain mostly unchanged. With both the videos and the tracking of the individual pedestrians (performed in a pre-processed phase), we use Geomind, a software we developed to extract significant data about the scene, in particular, the geometrical features, personalities, and emotions of each person. We then examine the output, seeking a significant change in the way each person acts as a function of the time, that could be used as a basis to identify events or to model realistic crowd actions. When applied to the games area, our method can use the detected events to find some sort of pattern to be then used in agent simulation. Results indicate that our hypothesis seems valid in the sense that the visually observed events could be automatically detected using GeoMind.
翻訳日:2023-12-12 14:52:39 公開日:2023-12-11
# 抽象代数における初等証明の自動計画手法

Automated Planning Techniques for Elementary Proofs in Abstract Algebra ( http://arxiv.org/abs/2312.06490v1 )

ライセンス: Link先を確認
Alice Petrov, Christian Muise(参考訳) 本稿では, 自動定理証明への自動計画の適用について検討する。これは, 数学的証明を構築するためのアルゴリズムとコンピュータプログラムの開発に関する自動推論の一分野である。 特に, 群, 環, 体, 加群といった代数構造を研究するための厳密で公理的な枠組みを提供する抽象代数学における初等的証明を構築するための計画法の使用について検討する。 我々は、可換環をモデル化し、それらの基本的な結果を推測するために、決定論的および非決定論的領域の両方に基本的な意味、等性、規則を実装する。 この初期実装の成功は、自動化計画に見られる確立されたテクニックが、比較的新しい自動定理証明分野に適用可能であることを示唆している。 同様に、自動定理証明は、自動計画のための新しい挑戦的な領域を提供する。

This paper explores the application of automated planning to automated theorem proving, which is a branch of automated reasoning concerned with the development of algorithms and computer programs to construct mathematical proofs. In particular, we investigate the use of planning to construct elementary proofs in abstract algebra, which provides a rigorous and axiomatic framework for studying algebraic structures such as groups, rings, fields, and modules. We implement basic implications, equalities, and rules in both deterministic and non-deterministic domains to model commutative rings and deduce elementary results about them. The success of this initial implementation suggests that the well-established techniques seen in automated planning are applicable to the relatively newer field of automated theorem proving. Likewise, automated theorem proving provides a new, challenging domain for automated planning.
翻訳日:2023-12-12 14:52:21 公開日:2023-12-11
# HyPE-GT: グラフトランスフォーマーが双曲的位置エンコーディングに適合する

HyPE-GT: where Graph Transformers meet Hyperbolic Positional Encodings ( http://arxiv.org/abs/2312.06576v1 )

ライセンス: Link先を確認
Kushal Bose and Swagatam Das(参考訳) グラフトランスフォーマ(gts)は,ノード位置情報を考慮せずにノード対の自己一致を計算することにより,グラフ構造データの理解を容易にする。 この制限に対処するために、トランスフォーマーに位置エンコーディング(PE)を導入し、非ユークリッド領域である双曲空間における学習可能な位置エンコーディングのセットを生成する、革新的で効率的なフレームワークを導入する。 このアプローチは、双曲型ニューラルネットワークや双曲型グラフ畳み込みネットワークを利用して、特定の下流タスクのためのPEの最適選択のための多様な選択肢を探索することを可能にする。 さらに,深部グラフニューラルネットワーク(GNN)における過平滑化の影響を軽減するために,これらの位置符号化を再利用する。 分子ベンチマークデータセット、共著者および共購入ネットワークに関する総合的な実験は、深いGNNの性能向上における双曲的位置エンコーディングの有効性を裏付けるものである。

Graph Transformers (GTs) facilitate the comprehension of graph-structured data by calculating the self-attention of node pairs without considering node position information. To address this limitation, we introduce an innovative and efficient framework that introduces Positional Encodings (PEs) into the Transformer, generating a set of learnable positional encodings in the hyperbolic space, a non-Euclidean domain. This approach empowers us to explore diverse options for optimal selection of PEs for specific downstream tasks, leveraging hyperbolic neural networks or hyperbolic graph convolutional networks. Additionally, we repurpose these positional encodings to mitigate the impact of over-smoothing in deep Graph Neural Networks (GNNs). Comprehensive experiments on molecular benchmark datasets, co-author, and co-purchase networks substantiate the effectiveness of hyperbolic positional encodings in enhancing the performance of deep GNNs.
翻訳日:2023-12-12 14:45:32 公開日:2023-12-11
# EasyVolcap: 高速なニューラルボリュームビデオ研究

EasyVolcap: Accelerating Neural Volumetric Video Research ( http://arxiv.org/abs/2312.06575v1 )

ライセンス: Link先を確認
Zhen Xu, Tao Xie, Sida Peng, Haotong Lin, Qing Shuai, Zhiyuan Yu, Guangzhao He, Jiaming Sun, Hujun Bao, Xiaowei Zhou(参考訳) ボリュームビデオは、芸術的パフォーマンス、スポーツイベント、遠隔会話などの動的イベントをデジタル的に記録する技術である。 取得すると、どんな視点からでも、平らなスクリーンや3Dディスプレイ、VRヘッドセットでタイムスタンプを見ることができ、スポーツ放送、ビデオ会議、ゲーム、映画製作など、様々なアプリケーションで没入的な視聴体験とより柔軟なコンテンツ作成が可能になる。 近年の進歩と、ボリュームビデオのニューラルシーン表現への関心の高まりにより、この新興技術の様々なアルゴリズムと応用を開発するために、ボリュームビデオキャプチャー、再構成、レンダリングのプロセスを効率化するための統一されたオープンソースライブラリが緊急に必要である。 本稿では,多視点データ処理,4次元シーン再構成,効率的な動的ボリュームビデオレンダリングのプロセスを統合することを目的として,神経体積ビデオ研究を加速するpython & pytorchライブラリであるeasyvolcapを提案する。 ソースコードはhttps://github.com/zju3dv/EasyVolcap.comから入手可能です。

Volumetric video is a technology that digitally records dynamic events such as artistic performances, sporting events, and remote conversations. When acquired, such volumography can be viewed from any viewpoint and timestamp on flat screens, 3D displays, or VR headsets, enabling immersive viewing experiences and more flexible content creation in a variety of applications such as sports broadcasting, video conferencing, gaming, and movie productions. With the recent advances and fast-growing interest in neural scene representations for volumetric video, there is an urgent need for a unified open-source library to streamline the process of volumetric video capturing, reconstruction, and rendering for both researchers and non-professional users to develop various algorithms and applications of this emerging technology. In this paper, we present EasyVolcap, a Python & Pytorch library for accelerating neural volumetric video research with the goal of unifying the process of multi-view data processing, 4D scene reconstruction, and efficient dynamic volumetric video rendering. Our source code is available at https://github.com/zju3dv/EasyVolcap.
翻訳日:2023-12-12 14:45:16 公開日:2023-12-11
# ControlNet-XS:テキスト-画像拡散モデル制御のための効率的かつ効果的なアーキテクチャの設計

ControlNet-XS: Designing an Efficient and Effective Architecture for Controlling Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.06573v1 )

ライセンス: Link先を確認
Denis Zavadski, Johann-Friedrich Feiden, Carsten Rother(参考訳) 画像合成の分野はここ数年で飛躍的な進歩を遂げている。 テキストプロンプトで所望の出力画像を定義することに加えて、直感的なアプローチは深度マップのような画像の形で空間的ガイダンスを追加することである。 このため、最近の非常に人気のあるアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。 既存の制御ネットワークの設計を評価する際に、生成と制御プロセスの間を流れる情報の遅延と同じ問題に悩まされていることを観察する。 これは、制御ネットワークが生成能力を持つ必要があることを意味する。 本研究では,この問題に苦しむことなく,制御する学習のタスクに集中できる新しい制御アーキテクチャ,controlnet-xsを提案する。 ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍高速です。 さらに、生成された画像は高品質であり、制御は忠実度が高い。 すべてのコードと事前訓練されたモデルは公開されます。

The field of image synthesis has made tremendous strides forward in the last years. Besides defining the desired output image with text-prompts, an intuitive approach is to additionally use spatial guidance in form of an image, such as a depth map. For this, a recent and highly popular approach is to use a controlling network, such as ControlNet, in combination with a pre-trained image generation model, such as Stable Diffusion. When evaluating the design of existing controlling networks, we observe that they all suffer from the same problem of a delay in information flowing between the generation and controlling process. This, in turn, means that the controlling network must have generative capabilities. In this work we propose a new controlling architecture, called ControlNet-XS, which does not suffer from this problem, and hence can focus on the given task of learning to control. In contrast to ControlNet, our model needs only a fraction of parameters, and hence is about twice as fast during inference and training time. Furthermore, the generated images are of higher quality and the control is of higher fidelity. All code and pre-trained models will be made publicly available.
翻訳日:2023-12-12 14:44:55 公開日:2023-12-11
# Sparse but strong: 逆向きにロバストなグラフラテリティケットを作る

Sparse but Strong: Crafting Adversarially Robust Graph Lottery Tickets ( http://arxiv.org/abs/2312.06568v1 )

ライセンス: Link先を確認
Subhajit Dutta Chowdhury, Zhiyu Ni, Qingyuan Peng, Souvik Kundu, Pierluigi Nuzzo(参考訳) Graph Lottery Tickets(GLT)は、スパース隣接行列とスパースグラフニューラルネットワーク(GNN)から構成され、密度の高いグラフと比較して推論レイテンシと計算フットプリントを著しく削減することができる。 これらの利点にも拘わらず、敵構造摂動に対するそれらの性能はいまだに完全に検討されている。 本研究ではまず,GLTの異なる構造摂動攻撃に対する弾力性について検討し,非常に脆弱であり,分類精度が大きく低下していることを示す。 そこで我々は, グラフのホモフィリな特性と, テストノードの真のラベルと擬似ラベルの両方に関連付けられた情報を取得する新たな損失関数を最適化することにより, 隣接行列とGNN重み付けを具現化する, 逆向き頑健なグラフスペーシフィケーション(ARGS)フレームワークを提案する。 乱れグラフの隣接行列とGNNモデルの重み付けの両方にARGSを反復的に適用することにより、異なる訓練時間構造アタックの下で、非常に疎らで競争力のある逆向きの堅牢なグラフ抽選チケットを見つけることができる。 PGD, MetaAttack, Meta-PGD, PR-BCD などの異なる毒物構造攻撃を考慮し, 様々なベンチマークで評価した結果, 高い親密度条件下であってもARGS が生成する GLT はロバスト性を大幅に向上できることが示された。

Graph Lottery Tickets (GLTs), comprising a sparse adjacency matrix and a sparse graph neural network (GNN), can significantly reduce the inference latency and compute footprint compared to their dense counterparts. Despite these benefits, their performance against adversarial structure perturbations remains to be fully explored. In this work, we first investigate the resilience of GLTs against different structure perturbation attacks and observe that they are highly vulnerable and show a large drop in classification accuracy. Based on this observation, we then present an adversarially robust graph sparsification (ARGS) framework that prunes the adjacency matrix and the GNN weights by optimizing a novel loss function capturing the graph homophily property and information associated with both the true labels of the train nodes and the pseudo labels of the test nodes. By iteratively applying ARGS to prune both the perturbed graph adjacency matrix and the GNN model weights, we can find adversarially robust graph lottery tickets that are highly sparse yet achieve competitive performance under different untargeted training-time structure attacks. Evaluations conducted on various benchmarks, considering different poisoning structure attacks, namely, PGD, MetaAttack, Meta-PGD, and PR-BCD demonstrate that the GLTs generated by ARGS can significantly improve the robustness, even when subjected to high levels of sparsity.
翻訳日:2023-12-12 14:44:36 公開日:2023-12-11
# 多様性による対物ロバスト性の促進

Promoting Counterfactual Robustness through Diversity ( http://arxiv.org/abs/2312.06564v1 )

ライセンス: Link先を確認
Francesco Leofante and Nico Potyka(参考訳) ブラックボックスモデルの決定は、入力をどのように変更してモデルから好意的な決定(例えば、ローン申請が拒否された場合)を得るかを説明することで明らかにされる。 しかし、最近述べたように、インプットの微妙な変更が説明に大きな変化をもたらすという意味で、反事実的説明には堅牢性がない可能性がある。 これはユーザ側で混乱を引き起こし、敵の攻撃のドアを開く可能性がある。 本稿では,非ロバスト性の原因について検討する。 単一の反ファクトを返却する説明者がすべてのインスタンスで堅牢でないことには根本的な理由があるが、ある興味深い堅牢性保証は、単一の反ファクトを複数報告することで得られることを示す。 残念なことに、保持する理論的な保証のために報告されるべき反事実の数は、禁止的に大きい。 そこで本研究では,多様性基準を用いて,最も関係の深い説明の可能な数を選択し,その堅牢性を実証的に研究する近似アルゴリズムを提案する。 実験の結果,本手法はロバストな説明を生成できるが,他の望ましい特性を保ちながら計算性能を競うことができることがわかった。

Counterfactual explanations shed light on the decisions of black-box models by explaining how an input can be altered to obtain a favourable decision from the model (e.g., when a loan application has been rejected). However, as noted recently, counterfactual explainers may lack robustness in the sense that a minor change in the input can cause a major change in the explanation. This can cause confusion on the user side and open the door for adversarial attacks. In this paper, we study some sources of non-robustness. While there are fundamental reasons for why an explainer that returns a single counterfactual cannot be robust in all instances, we show that some interesting robustness guarantees can be given by reporting multiple rather than a single counterfactual. Unfortunately, the number of counterfactuals that need to be reported for the theoretical guarantees to hold can be prohibitively large. We therefore propose an approximation algorithm that uses a diversity criterion to select a feasible number of most relevant explanations and study its robustness empirically. Our experiments indicate that our method improves the state-of-the-art in generating robust explanations, while maintaining other desirable properties and providing competitive computational performance.
翻訳日:2023-12-12 14:44:06 公開日:2023-12-11
# メタプロンプティングについて

On Meta-Prompting ( http://arxiv.org/abs/2312.06562v1 )

ライセンス: Link先を確認
Adrian de Wynter, Xun Wang, Qilong Gu, Si-Qing Chen(参考訳) ある統計モデルは入力文字列を命令やプロンプトとして解釈し、それに基づいてタスクを実行することができる。 これらのモデルのプロンプトと事前学習には、これらのプロンプトの自動生成が含まれる。 これらのアプローチをメタプロンプトと呼ぶか、あるいはプロンプトを得るよう促す。 分類理論に基づく理論的枠組みを提案し,それらを一般化し,記述する。 このフレームワークはLLM確率性を考慮するのに十分な柔軟性があり、様々なメタプロンプト手法のタスク非依存性や等価性に関する公式な結果を得ることができる。 モデル研究の活発な領域である創造性と思考のメタプロンプトを実験する。 ユーザ好みのプロンプト(p < 0.01)は,タスクプロンプトを含む一連のハードコードされたベースラインプロンプトよりも,メタプロンプトで生成されたプロンプトとそれに対応するアウトプットを優先する。 我々はメタプロンプトが望ましい出力を生成する基本的なプロンプトよりも効果的であると主張している。

Certain statistical models are capable of interpreting input strings as instructions, or prompts, and carry out tasks based on them. Many approaches to prompting and pre-training these models involve the automated generation of these prompts. We call these approaches meta-prompting, or prompting to obtain prompts. We propose a theoretical framework based on category theory to generalize and describe them. This framework is flexible enough to account for LLM stochasticity; and allows us to obtain formal results around task agnosticity and equivalence of various meta-prompting approaches. We experiment with meta-prompting in two active areas of model research: creativity and ideation. We find that user preference favors (p < 0.01) the prompts generated under meta-prompting, as well as their corresponding outputs, over a series of hardcoded baseline prompts that include the original task prompt. Using our framework, we argue that meta-prompting is more effective than basic prompting at generating desirable outputs.
翻訳日:2023-12-12 14:43:44 公開日:2023-12-11
# ビデオからハイブリッドニューラル流体場を推定する

Inferring Hybrid Neural Fluid Fields from Videos ( http://arxiv.org/abs/2312.06561v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Yang Zheng, Yuan Gao, Yitong Deng, Bo Zhu, Jiajun Wu(参考訳) スパースマルチビュー映像からの流体密度と速度の回復について検討した。 既存のニューラル・ダイナミック・リコンストラクション法は、主に光学的フローに依存しているため、流体の形状が無く、安定した視覚的特徴が欠如しているため、流体速度の本質的な視覚的曖昧さにより、密度を正確に推定し、基礎となる速度を明らかにすることはできない。 この挑戦は、適切に設計された流体流速表現を要求する流体流の乱流の性質によってさらに強調される。 これらの課題に対処するため,我々は,流体密度と速度場を共同で推定するニューラルアプローチであるハイブリッドニューラル流体場(hyfluid)を提案する。 具体的には,流体速度の視覚的なあいまいさに対処するために,物理的に妥当な速度場を推定し,分散を伴わない密度輸送を駆動する物理学に基づく損失の組を導入する。 流体流速の乱流特性に対処するため, 残留乱流速度をモデル化した渦粒子速度と, ほとんど不整流エネルギーを捕捉するベースニューラル速度場を含むハイブリッドニューラル速度表現を設計した。 本手法は,渦流の詳細を復元できることを示す。 このアプローチは,流体の再シミュレーションと編集,将来の予測,ニューラルネットワークの動的シーン構成など,3次元非圧縮フローを中心とした様々な学習および再構成アプリケーションの可能性を開く。 プロジェクトウェブサイト:https://kovenyu.com/HyFluid/

We study recovering fluid density and velocity from sparse multiview videos. Existing neural dynamic reconstruction methods predominantly rely on optical flows; therefore, they cannot accurately estimate the density and uncover the underlying velocity due to the inherent visual ambiguities of fluid velocity, as fluids are often shapeless and lack stable visual features. The challenge is further pronounced by the turbulent nature of fluid flows, which calls for properly designed fluid velocity representations. To address these challenges, we propose hybrid neural fluid fields (HyFluid), a neural approach to jointly infer fluid density and velocity fields. Specifically, to deal with visual ambiguities of fluid velocity, we introduce a set of physics-based losses that enforce inferring a physically plausible velocity field, which is divergence-free and drives the transport of density. To deal with the turbulent nature of fluid velocity, we design a hybrid neural velocity representation that includes a base neural velocity field that captures most irrotational energy and a vortex particle-based velocity that models residual turbulent velocity. We show that our method enables recovering vortical flow details. Our approach opens up possibilities for various learning and reconstruction applications centered around 3D incompressible flow, including fluid re-simulation and editing, future prediction, and neural dynamic scene composition. Project website: https://kovenyu.com/HyFluid/
翻訳日:2023-12-12 14:43:26 公開日:2023-12-11
# 線形MMSEフィルタの自動正規化

Automatic Regularization for Linear MMSE Filters ( http://arxiv.org/abs/2312.06560v1 )

ライセンス: Link先を確認
Daniel Gomes de Pinho Zanco and Leszek Szczecinski and Jacob Benesty(参考訳) 本研究では,最小平均二乗誤差(MMSE)線形フィルタにおける正規化の問題を考える。 統計的機械学習手法との関係を生かして、観測信号から簡易かつ自動的に正規化パラメータを求める。 提案手法は, 自動正則化が最適に近い結果をもたらすシステム同定例を用いて示す。

In this work, we consider the problem of regularization in minimum mean-squared error (MMSE) linear filters. Exploiting the relationship with statistical machine learning methods, the regularization parameter is found from the observed signals in a simple and automatic manner. The proposed approach is illustrated through system identification examples, where the automatic regularization yields near-optimal results.
翻訳日:2023-12-12 14:42:59 公開日:2023-12-11
# 音声認識用深部フォトニック貯水池コンピュータ

Deep Photonic Reservoir Computer for Speech Recognition ( http://arxiv.org/abs/2312.06558v1 )

ライセンス: Link先を確認
Enrico Picco, Alessandro Lupo, Serge Massar(参考訳) 音声認識は人工知能の分野では重要な課題であり、大規模で複雑なニューラルネットワークのおかげで驚くべき進歩を遂げている。 代替のパラダイムである貯水池コンピューティングはエネルギー効率が高く、物理基板の実装に適しているが、よりリソース集約的な機械学習アルゴリズムと比較して性能に制限がある。 本研究では,相互接続型貯水池の異なるアーキテクチャを調査することで,この課題に対処した。 フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。 本研究では,高次元音声信号の高速処理を同時に実現しつつ,貯水池コンピュータの実装を簡略化することを目的とした設計選択について述べる。 全体として、本研究により、低消費電力で高性能なニューロモルフィックハードウェアの開発を支援したいと考えています。

Speech recognition is a critical task in the field of artificial intelligence and has witnessed remarkable advancements thanks to large and complex neural networks, whose training process typically requires massive amounts of labeled data and computationally intensive operations. An alternative paradigm, reservoir computing, is energy efficient and is well adapted to implementation in physical substrates, but exhibits limitations in performance when compared to more resource-intensive machine learning algorithms. In this work we address this challenge by investigating different architectures of interconnected reservoirs, all falling under the umbrella of deep reservoir computing. We propose a photonic-based deep reservoir computer and evaluate its effectiveness on different speech recognition tasks. We show specific design choices that aim to simplify the practical implementation of a reservoir computer while simultaneously achieving high-speed processing of high-dimensional audio signals. Overall, with the present work we hope to help the advancement of low-power and high-performance neuromorphic hardware.
翻訳日:2023-12-12 14:42:54 公開日:2023-12-11
# グラフDenoisingに基づくロバストグラフニューラルネットワーク

Robust Graph Neural Network based on Graph Denoising ( http://arxiv.org/abs/2312.06557v1 )

ライセンス: Link先を確認
Victor M. Tenorio, Samuel Rey, Antonio G. Marques(参考訳) グラフニューラルネットワーク(gnns)は、非ユークリッドデータセットを扱う学習問題の代替案として悪名高い。 しかし、ほとんどの研究はグラフが完全に知られていると仮定しているが、観測されたトポロジーは観測ノイズ、グラフ学習の限界、あるいは逆襲から生じる誤差に起因している。 無視すれば、これらの摂動はGNNの性能を著しく阻害する可能性がある。 この制限に対処するために、観測されたトポロジにおける摂動の存在を明確に説明するGNNの堅牢な実装を提案する。 GNNに関わるあらゆるタスクに対して、私たちの中核となるアイデアは、 i)gnnの学習可能なパラメータ上だけでなく、真のグラフ上でも最適化問題を解くこと、 二 グラフ上の不一致を記載した用語で適合コストを増強すること。 具体的には,グラフフィルタに基づく畳み込みgnnを考察し,勾配降下と投影近距離更新を組み合わせることで(非微分可能かつ制約付き)最適化問題を扱うための交互最適化手法に従う。 得られたアルゴリズムは特定の種類のグラフに限らず、摂動に関する事前情報を組み込むことができる。 最後に,いくつかの数値実験により提案手法の性能評価を行った。

Graph Neural Networks (GNNs) have emerged as a notorious alternative to address learning problems dealing with non-Euclidean datasets. However, although most works assume that the graph is perfectly known, the observed topology is prone to errors stemming from observational noise, graph-learning limitations, or adversarial attacks. If ignored, these perturbations may drastically hinder the performance of GNNs. To address this limitation, this work proposes a robust implementation of GNNs that explicitly accounts for the presence of perturbations in the observed topology. For any task involving GNNs, our core idea is to i) solve an optimization problem not only over the learnable parameters of the GNN but also over the true graph, and ii) augment the fitting cost with a term accounting for discrepancies on the graph. Specifically, we consider a convolutional GNN based on graph filters and follow an alternating optimization approach to handle the (non-differentiable and constrained) optimization problem by combining gradient descent and projected proximal updates. The resulting algorithm is not limited to a particular type of graph and is amenable to incorporating prior information about the perturbations. Finally, we assess the performance of the proposed method through several numerical experiments.
翻訳日:2023-12-12 14:42:38 公開日:2023-12-11
# HOI-Diff:拡散モデルを用いた3次元物体相互作用のテキスト駆動合成

HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models ( http://arxiv.org/abs/2312.06553v1 )

ライセンス: Link先を確認
Xiaogang Peng, Yiming Xie, Zizhao Wu, Varun Jampani, Deqing Sun, Huaizu Jiang(参考訳) テキストプロンプトによって駆動される現実的3次元オブジェクトインタラクション(hois)を生成する問題に対処する。 ひとつのモデルではなく、私たちの重要な洞察は、モジュール化された設計を行い、複雑なタスクをよりシンプルなサブタスクに分解することです。 まず,人間と物体の動作をコンディショニングする二重分岐拡散モデル(hoi-dm)を開発し,人間と物体の動作生成枝間の相互接続通信モジュールによるコヒーレント動作を促進する。 また,テキストプロンプトによって駆動される対話中の人間と物体の接触面積を予測するためのアフォーアンス予測拡散モデル(apdm)を開発した。 APDMはHOI-DMの結果とは独立であり、後者によって潜在的なエラーを修正することができる。 さらに、接触点を確率的に生成し、生成された動きを多様化する。 最後に,推定された接触点を分類器ガイドに組み込むことにより,人間と物体の高精度かつ密接な接触を実現する。 このアプローチをトレーニングし、評価するために、テキスト記述でBEHAVEデータセットに注釈を付ける。 実験の結果,様々なインタラクションと異なるタイプのオブジェクトで現実的なhoisを生成できることが実証された。

We address the problem of generating realistic 3D human-object interactions (HOIs) driven by textual prompts. Instead of a single model, our key insight is to take a modular design and decompose the complex task into simpler sub-tasks. We first develop a dual-branch diffusion model (HOI-DM) to generate both human and object motions conditioning on the input text, and encourage coherent motions by a cross-attention communication module between the human and object motion generation branches. We also develop an affordance prediction diffusion model (APDM) to predict the contacting area between the human and object during the interactions driven by the textual prompt. The APDM is independent of the results by the HOI-DM and thus can correct potential errors by the latter. Moreover, it stochastically generates the contacting points to diversify the generated motions. Finally, we incorporate the estimated contacting points into the classifier-guidance to achieve accurate and close contact between humans and objects. To train and evaluate our approach, we annotate BEHAVE dataset with text descriptions. Experimental results demonstrate that our approach is able to produce realistic HOIs with various interactions and different types of objects.
翻訳日:2023-12-12 14:42:20 公開日:2023-12-11
# LLM360: 完全透明なオープンソースLLMを目指して

LLM360: Towards Fully Transparent Open-Source LLMs ( http://arxiv.org/abs/2312.06550v1 )

ライセンス: Link先を確認
Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing(参考訳) LLaMA、Falcon、Mistralといった最近のオープンソースのLarge Language Models(LLMs)の急増は、AI実践者や研究者にさまざまな選択肢を提供している。 しかし、ほとんどのllmは最終的なモデル重みや推論コードのような部分的なアーティファクトのみをリリースしており、技術的レポートは高レベルの設計選択と表面統計の範囲をますます制限している。 これらの選択は、LLMのトレーニングに透明性を低下させ、トレーニングプロセスにおける多くの詳細を再発見させることによって、この分野の進歩を妨げる。 LLM360は、すべてのトレーニングコードとデータ、モデルチェックポイント、中間結果のコミュニティへの提供を提唱する、完全にオープンソースなLCMのイニシアチブである。 LLM360の目標は、すべての人がエンドツーエンドのLLMトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、トレーニングコード、データ、中間チェックポイント、分析(https://www.llm360.ai)を含む、スクラッチから事前トレーニングされた2つの7Bパラメータ、AmberとCrystalCoderをリリースします。 私たちは、このオープンソース活動を通じてLLMの境界を継続的に押し進めることにコミットしています。 より大規模で強力なモデルが進行中であり、将来リリースされる予定である。

The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
翻訳日:2023-12-12 14:41:58 公開日:2023-12-11
# KF-PLS:カーネルフローを用いたカーネル部分最小二乗(K-PLS)の最適化

KF-PLS: Optimizing Kernel Partial Least-Squares (K-PLS) with Kernel Flows ( http://arxiv.org/abs/2312.06547v1 )

ライセンス: Link先を確認
Zina-Sabrina Duma, Jouni Susiluoto, Otto Lamminp\"a\"a, Tuomas Sihvonen, Satu-Pia Reinikainen, Heikki Haario(参考訳) Partial Least-Squares (PLS) Regressionは、化学測定において多変量回帰を行うために広く使われているツールである。 PLSは、予測変数と応答の間の非線形関係をモデル化する限られた能力を持つ双線形法である。 Kernel PLS (K-PLS) は非線形予測応答関係をモデル化するために導入された。 k-plsでは、入力データはカーネル関数を介して再生カーネルヒルベルト空間(英語版)(rkh)にマッピングされ、応答と入力行列の間の依存性は線形であると仮定される。 K-PLSは、カーネル行列と依存変数の間のRKH空間で実行される。 ほとんどの研究は固定カーネルパラメータを使用する。 K-PLSのカーネルパラメータを最適化する研究はごくわずかである。 本稿では,gaussian process regression (gpr) のために開発された手法であるkernel flow (kf) に基づくカーネル関数最適化手法を提案する。 結果は4つのケーススタディで示される。 ケーススタディは、数値例と、分類および回帰タスクで使用される実データの両方を表す。 この研究でKFに最適化されたK-PLSはKF-PLSと呼ばれ、すべてのシナリオにおいて良好な結果が得られた。 本論文は,k-plsに適用するkf手法のクロスバリデーション研究とハイパーパラメータ解析について述べる。

Partial Least-Squares (PLS) Regression is a widely used tool in chemometrics for performing multivariate regression. PLS is a bi-linear method that has a limited capacity of modelling non-linear relations between the predictor variables and the response. Kernel PLS (K-PLS) has been introduced for modelling non-linear predictor-response relations. In K-PLS, the input data is mapped via a kernel function to a Reproducing Kernel Hilbert space (RKH), where the dependencies between the response and the input matrix are assumed to be linear. K-PLS is performed in the RKH space between the kernel matrix and the dependent variable. Most available studies use fixed kernel parameters. Only a few studies have been conducted on optimizing the kernel parameters for K-PLS. In this article, we propose a methodology for the kernel function optimization based on Kernel Flows (KF), a technique developed for Gaussian process regression (GPR). The results are illustrated with four case studies. The case studies represent both numerical examples and real data used in classification and regression tasks. K-PLS optimized with KF, called KF-PLS in this study, is shown to yield good results in all illustrated scenarios. The paper presents cross-validation studies and hyperparameter analysis of the KF methodology when applied to K-PLS.
翻訳日:2023-12-12 14:41:35 公開日:2023-12-11
# HPCデータセンターにおけるジョブの教師なしKPIクラスタリング

Unsupervised KPIs-Based Clustering of Jobs in HPC Data Centers ( http://arxiv.org/abs/2312.06546v1 )

ライセンス: Link先を確認
Mohamed S. Halawa and Rebeca P. D\'iaz-Redondo and Ana Fern\'andez-Vilas(参考訳) 性能分析はハイパフォーマンスコンピューティング(HPC)システムにおいて不可欠な課題であり、異常検出、最適資源配分、予算計画など様々な目的に応用されている。 HPCモニタリングタスクは、これらのシステムで実行されるジョブの状態を監視するために、多数のキーパフォーマンス指標(KPI)を生成する。 KPIはCPU使用量、メモリ使用量、ネットワーク(インターフェース)トラフィック、その他のハードウェアを監視するセンサーに関する情報を提供する。 このデータを分析して、その特性やパフォーマンス、失敗など、ジョブの実行に関する洞察力のある情報を得ることができる。 この論文の主な貢献は、hpcシステムにおける異なるタイプのジョブを識別・分類するのに最も適しているメトリクス/s(kpi)を特定することである。 本研究では,galician compute center (cesga) の実際のデータセットを用いて,異なるクラスタリング手法(分割および階層クラスタリングアルゴリズム)を適用した。 我々は結論づけました (i)ネットワーク(インターフェース)トラフィック監視に関連するこれらのメトリクス(KPI)は、クラスタHPCジョブに対して最適な凝集と分離を提供する。 (ii)階層的クラスタリングアルゴリズムはこの課題に最も適している。 提案手法は,同一のHPCセンターから異なる実データを用いて検証した。

Performance analysis is an essential task in High-Performance Computing (HPC) systems and it is applied for different purposes such as anomaly detection, optimal resource allocation, and budget planning. HPC monitoring tasks generate a huge number of Key Performance Indicators (KPIs) to supervise the status of the jobs running in these systems. KPIs give data about CPU usage, memory usage, network (interface) traffic, or other sensors that monitor the hardware. Analyzing this data, it is possible to obtain insightful information about running jobs, such as their characteristics, performance, and failures. The main contribution in this paper is to identify which metric/s (KPIs) is/are the most appropriate to identify/classify different types of jobs according to their behavior in the HPC system. With this aim, we have applied different clustering techniques (partition and hierarchical clustering algorithms) using a real dataset from the Galician Computation Center (CESGA). We have concluded that (i) those metrics (KPIs) related to the Network (interface) traffic monitoring provide the best cohesion and separation to cluster HPC jobs, and (ii) hierarchical clustering algorithms are the most suitable for this task. Our approach was validated using a different real dataset from the same HPC center.
翻訳日:2023-12-12 14:41:15 公開日:2023-12-11
# 情報完全量子過程の古典的侵襲的記述

Classical Invasive Description of Informationally-Complete Quantum Processes ( http://arxiv.org/abs/2312.06545v1 )

ライセンス: Link先を確認
Moritz F. Richter, Andrea Smirne, Walter T. Strunz, Dario Egloff(参考訳) 古典的確率論において、確率過程の合同確率分布はコルモゴロフ整合性条件の定義に従う。 このような過程を確率的な結果を伴う物理測定のシーケンスとして解釈すると、これらの条件は、測定が基礎となる物理系の状態を変化させるものではないことを反映している。 この仮定は量子力学の文脈では放棄されなければならないが、測定が測定システムに影響を与える古典的なプロセスもある。 ここでは、合理的な侵襲的測定によって探索される一意な古典的過程を特徴付ける条件を導出する。 次に,このような古典的過程が,情報完全測定に関連する量子過程から生じる統計をシミュレートできる状況下で解析する。 我々の調査は、非古典性、すなわちコヒーレンスと文脈性という2つの基本的な特徴の橋渡しに役立つと期待している。

In classical stochastic theory, the joint probability distributions of a stochastic process obey by definition the Kolmogorov consistency conditions. Interpreting such a process as a sequence of physical measurements with probabilistic outcomes, these conditions reflect that the measurements do not alter the state of the underlying physical system. Prominently, this assumption has to be abandoned in the context of quantum mechanics, yet there are also classical processes in which measurements influence the measured system. Here, we derive conditions that characterize uniquely classical processes that are probed by a reasonable class of invasive measurements. We then analyse under what circumstances such classical processes can simulate the statistics arising from quantum processes associated with informationally-complete measurements. We expect that our investigation will help build a bridge between two fundamental traits of non-classicality, namely, coherence and contextuality.
翻訳日:2023-12-12 14:40:55 公開日:2023-12-11
# AttenScribble: Scribble-Supervised Medical Image Segmentationのための注意的類似性学習

AttenScribble: Attentive Similarity Learning for Scribble-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2312.06614v1 )

ライセンス: Link先を確認
Mu Tian, Qinzhu Yang, Yi Gao(参考訳) 医療画像分割におけるディープネットワークの成功は、大量のラベル付きトレーニングデータに大きく依存している。 しかし、密集アノテーションの取得には時間がかかる。 弱い教師の手法は通常、より安価な監督形式を用いるが、その柔軟性により、最近はスクリブルが人気を集め始めた。 しかし、形状や境界情報がないため、ラベルなしのピクセルに一般化するクリブル上でディープネットワークを訓練することは極めて困難である。 本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。 近年の変圧器ベースセグメンテーションの進歩に触発されて,任意の完全畳み込みネットワーク(FCN)バックボーンの任意の内部特徴層上に,接続可能な空間自己保持モジュールを作成した。 このモジュールは、畳み込みの効率を保ちながら、グローバルな相互作用を注入する。 このモジュールから脱却し、正規化および対称性化された注意に基づく類似度計量を構築する。 この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課す新しい正規化損失をもたらす。 この注意的類似性損失は、FCNエンコーダのアライメント、アテンションマッピング、モデル予測を最適化する。 最終的に、提案したFCN+Attentionアーキテクチャは、部分的なセグメンテーション損失、カスタマイズされたマスク付き条件付きランダムフィールド、提案された注意的類似性損失の3つの学習目標の組み合わせで、エンドツーエンドで学習することができる。 公開データセット(ACDCとCHAOS)に関する大規模な実験は、我々のフレームワークが既存の最先端技術を上回るだけでなく、完全に監督されたベンチマークに密なパフォーマンスを提供することを示した。 コードは出版時に公開される。

The success of deep networks in medical image segmentation relies heavily on massive labeled training data. However, acquiring dense annotations is a time-consuming process. Weakly-supervised methods normally employ less expensive forms of supervision, among which scribbles started to gain popularity lately thanks to its flexibility. However, due to lack of shape and boundary information, it is extremely challenging to train a deep network on scribbles that generalizes on unlabeled pixels. In this paper, we present a straightforward yet effective scribble supervised learning framework. Inspired by recent advances of transformer based segmentation, we create a pluggable spatial self-attention module which could be attached on top of any internal feature layers of arbitrary fully convolutional network (FCN) backbone. The module infuses global interaction while keeping the efficiency of convolutions. Descended from this module, we construct a similarity metric based on normalized and symmetrized attention. This attentive similarity leads to a novel regularization loss that imposes consistency between segmentation prediction and visual affinity. This attentive similarity loss optimizes the alignment of FCN encoders, attention mapping and model prediction. Ultimately, the proposed FCN+Attention architecture can be trained end-to-end guided by a combination of three learning objectives: partial segmentation loss, a customized masked conditional random fields and the proposed attentive similarity loss. Extensive experiments on public datasets (ACDC and CHAOS) showed that our framework not just out-performs existing state-of-the-art, but also delivers close performance to fully-supervised benchmark. Code will be available upon publication.
翻訳日:2023-12-12 14:35:29 公開日:2023-12-11
# ニューラルテキストから調音音声:聴覚とフォトリアリズムを両立させたディープテキストから聴覚音声合成

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism ( http://arxiv.org/abs/2312.06613v1 )

ライセンス: Link先を確認
Georgios Milis, Panagiotis P. Filntisis, Anastasios Roussos, Petros Maragos(参考訳) シーケンシャルデータに対するディープラーニングの最近の進歩は、人間の会話のリアルなビデオを生成する高速で強力なモデルを生み出している。 トーキング・フェイス・ジェネレーションにおける技術の現状は、主にリップシンキングに焦点を合わせ、音声クリップに条件付けされている。 しかし、音声ではなくテキストの書き起こしから人間を合成する能力は、多くのアプリケーションにとって特に有益であり、近年の大規模言語モデルのブレークスルーに続き、より多くの注目を集めることが期待されている。 そのため、ほとんどの手法では音声合成モジュールのカスケード化された2段階アーキテクチャを実装し、その後に音声駆動の会話顔生成器が続くが、これは音声と視覚ストリームの間の非常に複雑な相互作用を無視している。 本稿では,トランスフォーマを用いたテキスト駆動音声合成システムについて,ケースドアプローチに従わず,私たちの知識を最大限活用するために,初めて提案する。 NEUral Text to ARticulate Talk (NEUTART) と呼ばれるこの手法は、音声による3D顔の再構成や、視覚的監視のための唇読みの喪失など、関節型音声視覚特徴空間を用いた話し顔生成装置である。 提案モデルでは,人間のような調音と映像ストリームを同期させた,フォトリアリスティックな対話型顔ビデオを生成する。 本実験では,映像や映像の映像から,客観的な計測値と人的評価値の両面から,最先端の音質が明らかとなった。

Recent advances in deep learning for sequential data have given rise to fast and powerful models that produce realistic videos of talking humans. The state of the art in talking face generation focuses mainly on lip-syncing, being conditioned on audio clips. However, having the ability to synthesize talking humans from text transcriptions rather than audio is particularly beneficial for many applications and is expected to receive more and more attention, following the recent breakthroughs in large language models. For that, most methods implement a cascaded 2-stage architecture of a text-to-speech module followed by an audio-driven talking face generator, but this ignores the highly complex interplay between audio and visual streams that occurs during speaking. In this paper, we propose the first, to the best of our knowledge, text-driven audiovisual speech synthesizer that uses Transformers and does not follow a cascaded approach. Our method, which we call NEUral Text to ARticulate Talk (NEUTART), is a talking face generator that uses a joint audiovisual feature space, as well as speech-informed 3D facial reconstructions and a lip-reading loss for visual supervision. The proposed model produces photorealistic talking face videos with human-like articulation and well-synced audiovisual streams. Our experiments on audiovisual datasets as well as in-the-wild videos reveal state-of-the-art generation quality both in terms of objective metrics and human evaluation.
翻訳日:2023-12-12 14:35:00 公開日:2023-12-11
# 確率力学系におけるモデル還元のための情報理論

Information theory for model reduction in stochastic dynamical systems ( http://arxiv.org/abs/2312.06608v1 )

ライセンス: Link先を確認
Matthew S. Schmitt, Maciej Koch-Janusz, Michel Fruchart, Daniel S. Seara, Vincenzo Vitelli(参考訳) モデル還元は、いくつかの関連する変数の観点から、多体系の力学の単純かつ予測的な記述の構築である。 モデル削減の前提条件は、これらの関連する変数の識別であり、一般的なメソッドは存在しないタスクである。 そこで我々は,情報ボトルネックに基づく系統的なアプローチを開発し,関連する変数を同定する。 これらの変数とダイナミクスを記述する伝達作用素の固有関数の関係を解析的に解明する。 さらに, 高圧縮の限界において, 関連する変数は, 最も遅い固有関数によって直接決定されることを示した。 情報ベースアプローチは,縮小モデルの複雑さの増大を最適に停止するタイミングを示す。 さらに、モデル削減を行う解釈可能なディープラーニングツールを構築するための強固な基盤を提供する。 これらのツールが動的システムのベンチマークにどのように機能するかを説明し、YouTubeから直接ダウンロードされた大気の流れの衛星映画など、未計算のデータセットにデプロイする。

Model reduction is the construction of simple yet predictive descriptions of the dynamics of many-body systems in terms of a few relevant variables. A prerequisite to model reduction is the identification of these relevant variables, a task for which no general method exists. Here, we develop a systematic approach based on the information bottleneck to identify the relevant variables, defined as those most predictive of the future. We elucidate analytically the relation between these relevant variables and the eigenfunctions of the transfer operator describing the dynamics. Further, we show that in the limit of high compression, the relevant variables are directly determined by the slowest-decaying eigenfunctions. Our information-based approach indicates when to optimally stop increasing the complexity of the reduced model. Further, it provides a firm foundation to construct interpretable deep learning tools that perform model reduction. We illustrate how these tools work on benchmark dynamical systems and deploy them on uncurated datasets, such as satellite movies of atmospheric flows downloaded directly from YouTube.
翻訳日:2023-12-12 14:34:34 公開日:2023-12-11
# DiAD:多クラス異常検出のための拡散ベースフレームワーク

DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection ( http://arxiv.org/abs/2312.06607v1 )

ライセンス: Link先を確認
Haoyang He, Jiangning Zhang, Hongxu Chen, Xuhai Chen, Zhishan Li, Xu Chen, Yabiao Wang, Chengjie Wang, Lei Xie(参考訳) 再構成に基づくアプローチは異常検出において顕著な結果をもたらした。 近年普及している拡散モデルの例外的な画像再構成能力は、異常画像の再構成にそれらを活用する研究のきっかけとなった。 それでもこれらの手法は、より実用的なマルチクラス設定において、画像カテゴリの保存と画素単位の構造的整合性に関する課題に直面する可能性がある。 上記の問題を解決するために, 画素空間オートエンコーダ, 安定拡散の復調ネットワークに接続した潜在空間セマンティックガイド(SG)ネットワーク, 特徴空間事前学習特徴抽出器からなる多クラス異常検出のための拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。 まず、元の画像の意味情報を保存しながら、異常領域を再構築するSGネットワークを提案する。 次に,空間認識機能融合(SFF)ブロックを導入し,広範に再構成された領域を扱う際の再構成精度を最大化する。 第3に、予め訓練された特徴抽出器により入力及び再構成された画像を処理し、異なるスケールで抽出された特徴に基づいて異常マップを生成する。 MVTec-AD データセットと VisA データセットの実験では,マルチクラス MVTec-AD データセット上でそれぞれ 96.8/52.6 と 97.2/99.0 (AUROC/AP) をローカライズし,検出するなど,最先端の手法を超えるアプローチの有効性が示されている。 コードはhttps://lewandofskee.github.io/projects/diadで入手できる。

Reconstruction-based approaches have achieved remarkable outcomes in anomaly detection. The exceptional image reconstruction capabilities of recently popular diffusion models have sparked research efforts to utilize them for enhanced reconstruction of anomalous images. Nonetheless, these methods might face challenges related to the preservation of image categories and pixel-wise structural integrity in the more practical multi-class setting. To solve the above problems, we propose a Difusion-based Anomaly Detection (DiAD) framework for multi-class anomaly detection, which consists of a pixel-space autoencoder, a latent-space Semantic-Guided (SG) network with a connection to the stable diffusion's denoising network, and a feature-space pre-trained feature extractor. Firstly, The SG network is proposed for reconstructing anomalous regions while preserving the original image's semantic information. Secondly, we introduce Spatial-aware Feature Fusion (SFF) block to maximize reconstruction accuracy when dealing with extensively reconstructed areas. Thirdly, the input and reconstructed images are processed by a pre-trained feature extractor to generate anomaly maps based on features extracted at different scales. Experiments on MVTec-AD and VisA datasets demonstrate the effectiveness of our approach which surpasses the state-of-the-art methods, e.g., achieving 96.8/52.6 and 97.2/99.0 (AUROC/AP) for localization and detection respectively on multi-class MVTec-AD dataset. Code will be available at https://lewandofskee.github.io/projects/diad.
翻訳日:2023-12-12 14:34:19 公開日:2023-12-11
# 行動プロトタイプを用いた早期行動認識

Early Action Recognition with Action Prototypes ( http://arxiv.org/abs/2312.06598v1 )

ライセンス: Link先を確認
Guglielmo Camporese, Alessandro Bergamo, Xunyu Lin, Joseph Tighe, Davide Modolo(参考訳) 早期行動認識は重要かつ困難な問題であり、活動が未完了あるいは開始の可能性がある部分的観察ビデオストリームからの行動認識を可能にする。 本研究では,各クラスに対する全動作の原型的表現を学習し,それを用いて部分的観測のアーキテクチャと視覚的表現を正則化する新しいモデルを提案する。 私たちのモデルは設計が非常にシンプルで、効率的です。 映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。 その後、デコーダは、最終的なクラス予測のために、すべてのクリップからオンラインファッション機能に集約される。 トレーニング中、各部分観察において、モデルはラベルと正規化子として機能するアクションプロトタイプ表現の両方を予測するように共同で訓練される。 我々は,複数の挑戦的な実世界のデータセットについて評価し,現状を著しく上回っている。 例えば、ビデオの最初の10%しか観察できない早期認識では、UCF-101では+2.23 Top-1、SSsub21では+3.68、EPIC-Kitchens-55では+5.03でSOTAの精度を+2.23 Top-1で改善する。 最後に,我々は設計選択を動機づけるため,徹底的なアブレーション研究を行い,モデルが意味的に学習しているものについての洞察を収集した。

Early action recognition is an important and challenging problem that enables the recognition of an action from a partially observed video stream where the activity is potentially unfinished or even not started. In this work, we propose a novel model that learns a prototypical representation of the full action for each class and uses it to regularize the architecture and the visual representations of the partial observations. Our model is very simple in design and also efficient. We decompose the video into short clips, where a visual encoder extracts features from each clip independently. Later, a decoder aggregates together in an online fashion features from all the clips for the final class prediction. During training, for each partial observation, the model is jointly trained to both predict the label as well as the action prototypical representation which acts as a regularizer. We evaluate our method on multiple challenging real-world datasets and outperform the current state-of-the-art by a significant margin. For example, on early recognition observing only the first 10% of each video, our method improves the SOTA by +2.23 Top-1 accuracy on Something-Something-v2, +3.55 on UCF-101, +3.68 on SSsub21, and +5.03 on EPIC-Kitchens-55, where prior work used either multi-modal inputs (e.g. optical-flow) or batched inference. Finally, we also present exhaustive ablation studies to motivate the design choices we made, as well as gather insights regarding what our model is learning semantically.
翻訳日:2023-12-12 14:33:45 公開日:2023-12-11
# ラジカル対とスーパーオキサイド増幅は、平面再生に対する磁場効果を説明できる

Radical pairs and superoxide amplification can explain magnetic field effects on planarian regeneration ( http://arxiv.org/abs/2312.06597v1 )

ライセンス: Link先を確認
Rishabh, Hadi Zadeh-Haghighi, Christoph Simon(参考訳) 弱い磁場の露光は、様々な生物の様々な生物学的過程に影響を与える。 近年,弱い磁場が活性酸素種 (ros) 濃度を調節し, プランナリアの再生に影響を与えることが観察されている。 これらの効果は、符号変化を含む磁場強度に異常な非線形依存を示す。 同じグループによる別の研究では、スーパーオキサイドは変調されている特定のROSとして同定される。 我々は,超酸化物生成の変調と平面再生への影響を説明するために,フラビン-スーパーオキシドラジカル対に基づくラジカル対機構を提案する。 計算の結果は三重子生まれのラジカルペアが好まれる。 我々の収率計算は、符号変化を含む観測された磁場依存性を再現することができる。 さらに,ros濃度に対する影響の大きさを説明するために,既知の生化学的機構に触発された単純な増幅モデルを提案し,その動作条件を整理する。 さらに,平面再生に対する低磁場効果に関する経験的予測を行った。

Weak magnetic field exposure can affect many biological processes across a wide range of living organisms. Recently, it has been observed that weak magnetic fields can modulate reactive oxygen species (ROS) concentration, affecting regeneration in planaria. These effects show unusual nonlinear dependence on magnetic field strength, including a sign change. In another study by the same group, superoxide is identified as the particular ROS being modulated. We propose a radical pair mechanism based on a flavin-superoxide radical pair to explain the modulation of superoxide production and its effect on planarian regeneration. The results of our calculations favor a triplet-born radical pair. Our yield calculations can reproduce the observed magnetic field dependence, including the sign change. Moreover, to explain the size of the effect on ROS concentration, we suggest a simple amplification model inspired by known biochemical mechanisms and lay out the conditions for such a model to work. Further, we also make empirical predictions concerning the hypomagnetic field effects on planarian regeneration.
翻訳日:2023-12-12 14:33:16 公開日:2023-12-11
# 画像作物における遠近歪み誘起形状あいまいさの緩和

Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops ( http://arxiv.org/abs/2312.06594v1 )

ライセンス: Link先を確認
Aditya Prakash, Arjun Gupta, Saurabh Gupta(参考訳) 物体は、カメラの視野を横切ると、様々な角度の歪みを受ける。 単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。 この位置情報を無視することは、2次元画像から3D推論を行う際の本来の曖昧さをさらに誇張し、モデルがトレーニングデータに適合することを防ぐことに留意する。 このあいまいさを軽減するために,画像とカメラの内在性における作物の位置に関する情報を組み込んだKPE(Intrinsics-Aware Positional Encoding)を提案する。 NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの3D形状予測という3つの一般的な3D画像ベンチマークの実験は、KPEの利点を示している。

Objects undergo varying amounts of perspective distortion as they move across a camera's field of view. Models for predicting 3D from a single image often work with crops around the object of interest and ignore the location of the object in the camera's field of view. We note that ignoring this location information further exaggerates the inherent ambiguity in making 3D inferences from 2D images and can prevent models from even fitting to the training data. To mitigate this ambiguity, we propose Intrinsics-Aware Positional Encoding (KPE), which incorporates information about the location of crops in the image and camera intrinsics. Experiments on three popular 3D-from-a-single-image benchmarks: depth prediction on NYU, 3D object detection on KITTI & nuScenes, and predicting 3D shapes of articulated objects on ARCTIC, show the benefits of KPE.
翻訳日:2023-12-12 14:33:00 公開日:2023-12-11
# コンピュータビジョンにおけるテキスト内学習のためのフレキシブルビジュアルプロンプト

Flexible visual prompts for in-context learning in computer vision ( http://arxiv.org/abs/2312.06592v1 )

ライセンス: Link先を確認
Thomas Foster, Ioana Croitoru, Robert Dorfman, Christoffer Edlund, Thomas Varsavsky, Jon Almaz\'an(参考訳) 本研究では,画像セグメント化の課題に対するインコンテキスト学習(ICL)に取り組み,視覚的インコンテキスト学習に近代的なビデオオブジェクトセグメンテーション(VOS)技術を適用する新しいアプローチを導入する。 この適応は、数例から効率的に柔軟にオブジェクトを学習できるvosメソッドの能力にインスパイアされている。 サポートセットのサイズやセグメンテーションデータセットの多岐にわたる評価を通じて,本手法は既存の手法を一貫して超越している。 特に、トレーニング中に遭遇しないクラスを含むデータに優れている。 さらに,このセットに含まれる最も関連性の高い画像を選択することを含む,集合選択を支援する手法を提案する。 サポートセットの選択を採用することで、追加のトレーニングや即時チューニングを必要とせずに、すべてのテストメソッドのパフォーマンスが向上する。 コードはhttps://github.com/v7labs/XMem_ICL/で見ることができる。

In this work, we address in-context learning (ICL) for the task of image segmentation, introducing a novel approach that adapts a modern Video Object Segmentation (VOS) technique for visual in-context learning. This adaptation is inspired by the VOS method's ability to efficiently and flexibly learn objects from a few examples. Through evaluations across a range of support set sizes and on diverse segmentation datasets, our method consistently surpasses existing techniques. Notably, it excels with data containing classes not encountered during training. Additionally, we propose a technique for support set selection, which involves choosing the most relevant images to include in this set. By employing support set selection, the performance increases for all tested methods without the need for additional training or prompt tuning. The code can be found at https://github.com/v7labs/XMem_ICL/.
翻訳日:2023-12-12 14:32:43 公開日:2023-12-11
# Wassersteinオートエンコーダを用いた並列密度推定:統計的考察

Concurrent Density Estimation with Wasserstein Autoencoders: Some Statistical Insights ( http://arxiv.org/abs/2312.06591v1 )

ライセンス: Link先を確認
Anish Chakrabarty, Arkaprabha Basu, Swagatam Das(参考訳) 変分オートエンコーダ(VAE)は、深層生成モデルの領域における先駆的な力である。 ワッサースタイン・オートエンコーダー(wassstein autoencoders、waes)は、特に、高次の生成品質と強い理論的バックボーンの二重提供によって際立っている。 WAEはエンコーディングとデコードネットワークで構成されており、対象とするものに類似した新しいサンプルを生成するための主要な目的とボトルネックを形成している。 その過程で,符号化されたデータの潜在表現を目標とする。 私たちの仕事はwaesの背後にある機械を理論的に理解する試みです。 統計的観点からは、ニューラルネットワークによる変換に基づく同時密度推定タスクとして問題を考える。 これにより、WAEがコミットする実際のエラーに対して決定論的上限を確立することができます。 また,敵の存在下での確率的誤りの伝播を解析した。 その結果、再構成された分布の大きなサンプル特性とWAEモデルのレジリエンスについて検討した。

Variational Autoencoders (VAEs) have been a pioneering force in the realm of deep generative models. Amongst its legions of progenies, Wasserstein Autoencoders (WAEs) stand out in particular due to the dual offering of heightened generative quality and a strong theoretical backbone. WAEs consist of an encoding and a decoding network forming a bottleneck with the prime objective of generating new samples resembling the ones it was catered to. In the process, they aim to achieve a target latent representation of the encoded data. Our work is an attempt to offer a theoretical understanding of the machinery behind WAEs. From a statistical viewpoint, we pose the problem as concurrent density estimation tasks based on neural network-induced transformations. This allows us to establish deterministic upper bounds on the realized errors WAEs commit. We also analyze the propagation of these stochastic errors in the presence of adversaries. As a result, both the large sample properties of the reconstructed distribution and the resilience of WAE models are explored.
翻訳日:2023-12-12 14:32:28 公開日:2023-12-11
# quickquakebuildings: 地震後sar-opticalデータセットによる早期損傷検出

QuickQuakeBuildings: Post-earthquake SAR-Optical Dataset for Quick Damaged-building Detection ( http://arxiv.org/abs/2312.06587v1 )

ライセンス: Link先を確認
Yao Sun, Yi Wang, Michael Eineder(参考訳) 地震後の衛星画像から素早くかつ自動で建物を損傷する検出は重要であるが、ロバストなアルゴリズムを開発するのに必要なトレーニングデータが不足しているため困難である。 このレターでは, 地震被害を受けた建物を, SAR(Synthetic Aperture Radar)と光学画像から検出するための最初のデータセットを提示する。 2023年のトルコ・シリア地震後に取得したオープン衛星画像とアノテーションを利用して,4万棟以上の建物を包含するsarおよび光学データの,コアギスタ化した建物の足跡と衛星画像パッチのデータセットを提供する。 損傷した建物検出のタスクはバイナリ画像分類問題として定式化され、極端なクラス不均衡による異常検出問題としても扱われる。 比較の参考となる基準となる方法と結果を提供する。 研究者はこのデータセットを使ってアルゴリズムの開発を迅速化し、将来の出来事に対応して損傷した建物を迅速に検出する。 詳細な説明とデータセットとコードは、 \url{https://github.com/ya0-sun/PostEQ-SARopt-BuildingDamage}で公開されている。

Quick and automated earthquake-damaged building detection from post-event satellite imagery is crucial, yet it is challenging due to the scarcity of training data required to develop robust algorithms. This letter presents the first dataset dedicated to detecting earthquake-damaged buildings from post-event very high resolution (VHR) Synthetic Aperture Radar (SAR) and optical imagery. Utilizing open satellite imagery and annotations acquired after the 2023 Turkey-Syria earthquakes, we deliver a dataset of coregistered building footprints and satellite image patches of both SAR and optical data, encompassing more than four thousand buildings. The task of damaged building detection is formulated as a binary image classification problem, that can also be treated as an anomaly detection problem due to extreme class imbalance. We provide baseline methods and results to serve as references for comparison. Researchers can utilize this dataset to expedite algorithm development, facilitating the rapid detection of damaged buildings in response to future events. The dataset and codes together with detailed explanations are made publicly available at \url{https://github.com/ya0-sun/PostEQ-SARopt-BuildingDamage}.
翻訳日:2023-12-12 14:32:15 公開日:2023-12-11
# 人間のデータを超えた: 言語モデルによる問題解決のための自己学習のスケーリング

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models ( http://arxiv.org/abs/2312.06585v1 )

ライセンス: Link先を確認
Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel(参考訳) 人間の生成したデータに対する微調整言語モデル~(lms)が普及している。 しかし、これらのモデルの性能はしばしば高品質な人間のデータの量と多様性によって制限される。 本稿では,スカラーフィードバックにアクセスできるタスク,例えば正当性を検証できる数学問題において,人間のデータを超えることができるかどうかを考察する。 そこで我々は,(1)モデルからサンプルを生成し,二元フィードバックを用いてフィルタリングし,(2)これらのサンプル上でモデルを微調整し,(3)このプロセスを数回繰り返す。 PaLM-2モデルを用いた高度なMATH推論とAPPS符号化ベンチマークを用いて、ReST$^{EM}$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回る。 総じて,フィードバックによる自己学習は,人間生成データへの依存を大幅に低減できることが示唆された。

Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST$^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST$^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
翻訳日:2023-12-12 14:31:43 公開日:2023-12-11
# 野生のエゴセントリック画像における3次元ハンドポース推定

3D Hand Pose Estimation in Egocentric Images in the Wild ( http://arxiv.org/abs/2312.06583v1 )

ライセンス: Link先を確認
Aditya Prakash, Ruisen Tu, Matthew Chang, Saurabh Gupta(参考訳) 野生の自我中心画像における3次元手ポーズ推定法であるWildHandsを提案する。 これは難しいことです (a)野生のイメージに対する3dハンドポーズアノテーションの欠如,及び (b)手まわりの作物の分析において生じる遠近的歪みによる形状曖昧さの一形態。 前者については,実験室データセットで利用可能な3次元監視に加えて,セグメンテーションマスクとグラブラベルという形で,wildデータに対する補助監督を行う。 後者については、カメラの視野における手作物の位置に関する空間的手がかりを提供する。 われわれのアプローチはARCTICのリーダーボード上で最高の3Dハンドポーズを実現し、EPIC-HandKpsデータセットで2Dハンドポーズを評価するとFrankMocapを45.3%向上させる。

We present WildHands, a method for 3D hand pose estimation in egocentric images in the wild. This is challenging due to (a) lack of 3D hand pose annotations for images in the wild, and (b) a form of perspective distortion-induced shape ambiguity that arises in the analysis of crops around hands. For the former, we use auxiliary supervision on in-the-wild data in the form of segmentation masks & grasp labels in addition to 3D supervision available in lab datasets. For the latter, we provide spatial cues about the location of the hand crop in the camera's field of view. Our approach achieves the best 3D hand pose on the ARCTIC leaderboard and outperforms FrankMocap, a popular and robust approach for estimating hand pose in the wild, by 45.3% when evaluated on 2D hand pose on our EPIC-HandKps dataset.
翻訳日:2023-12-12 14:31:16 公開日:2023-12-11
# コセットを用いたグロッキング群乗法

Grokking Group Multiplication with Cosets ( http://arxiv.org/abs/2312.06581v1 )

ライセンス: Link先を確認
Dashiell Stander and Qinan Yu and Honglu Fan and Stella Biderman(参考訳) 対称群 $s_n$ 上の群フーリエ変換を用いて、1層フィードフォワードネットワークをリバースエンジニアリングし、$s_5$ と $s_6$ を乗算した。 各モデルは全群の真の部分群構造を発見し、群の乗法を群の共役部分群の乗法に分解する回路上に収束する。 データとモデルの対称性を使って、それらのメカニズムを理解し、モデルがニューラルネットワークの計算の実装方法の興味深い例として使用する ``coset circuit''' を保持する価値を実証する。 また,本研究をChughtaiらと比較することにより,機械論的解釈可能性研究の課題にも注目する。 同じ問題に対して別のアルゴリズムを見つけるように要求する[6]。

We use the group Fourier transform over the symmetric group $S_n$ to reverse engineer a 1-layer feedforward network that has "grokked" the multiplication of $S_5$ and $S_6$. Each model discovers the true subgroup structure of the full group and converges on circuits that decompose the group multiplication into the multiplication of the group's conjugate subgroups. We demonstrate the value of using the symmetries of the data and models to understand their mechanisms and hold up the ``coset circuit'' that the model uses as a fascinating example of the way neural networks implement computations. We also draw attention to current challenges in conducting mechanistic interpretability research by comparing our work to Chughtai et al. [6] which alleges to find a different algorithm for this same problem.
翻訳日:2023-12-12 14:30:52 公開日:2023-12-11
# Amazon Lockerの容量管理

Amazon Locker Capacity Management ( http://arxiv.org/abs/2312.06579v1 )

ライセンス: Link先を確認
Samyukta Sethuraman, Ankur Bansal, Setareh Mardan, Mauricio G.C. Resende, Timothy L. Jacobs(参考訳) Amazon Lockerは、顧客が荷物をピックアップして返品するセルフサービス配送またはピックアップの場所である。 ロッカーへのパッケージ配送要求を受け付ける基本的な方針により、ロッカーは標準的な配送速度(3-5日配送)のパッケージで満たされ、翌日または2日配送の早いパッケージのスペースは残っていない。 本稿では,異なる船舶オプションパッケージを予約するロッカー容量を決定する問題に対する解決法を提案する。 収量管理は、航空会社、自動車レンタル、ホテル業界で広く利用されている分野である。 しかし、この分野ではamazon lockerがユニークな課題となっている。なぜなら、パッケージがロッカーで待つ日数(パッケージdwell time)は一般に未知数であるからだ。 提案手法は,ロッカー要求とパッケージドウェル時間を予測する機械学習技術と,ロッカーのスループットを最大化するための線形プログラミングを組み合わせた。 この最適化による決定変数は、異なる船舶オプションに対して最適なキャパシティ予約値を提供する。 この結果、2018年のホリデーシーズンに世界中のLockerスループットが9%増加し、数百万の顧客が影響を受けた。

Amazon Locker is a self-service delivery or pickup location where customers can pick up packages and drop off returns. A basic first-come-first-served policy for accepting package delivery requests to lockers results in lockers becoming full with standard shipping speed (3-5 day shipping) packages, and leaving no space left for expedited packages which are mostly Next-Day or Two-Day shipping. This paper proposes a solution to the problem of determining how much locker capacity to reserve for different ship-option packages. Yield management is a much researched field with popular applications in the airline, car rental, and hotel industries. However, Amazon Locker poses a unique challenge in this field since the number of days a package will wait in a locker (package dwell time) is, in general, unknown. The proposed solution combines machine learning techniques to predict locker demand and package dwell time, and linear programming to maximize throughput in lockers. The decision variables from this optimization provide optimal capacity reservation values for different ship options. This resulted in a year-over-year increase of 9% in Locker throughput worldwide during holiday season of 2018, impacting millions of customers.
翻訳日:2023-12-12 14:30:30 公開日:2023-12-11
# 最小マージンを最大化するマルチクラスサポートベクトルマシン

Multi-class Support Vector Machine with Maximizing Minimum Margin ( http://arxiv.org/abs/2312.06578v1 )

ライセンス: Link先を確認
Feiping Nie, Zhezheng Hao, Rong Wang(参考訳) サポートベクターマシン(svm)は、実用的なパターン認識タスクに広く適用される機械学習技術として際立っている。 インスタンスと決定境界の間の最小距離を表す "margin" を最大化することでバイナリ分類を実現する。 マルチクラスのケースに対するsvmの拡張には、1対1、その他に対する戦略など多くの努力がなされているが、十分なソリューションは開発されていない。 本稿では,クラス損失のペア化と最小マージンの最大化を両立するマルチクラスSVMの新たな手法を提案する。 この概念に則り、マルチクラスSVMの柔軟性を高める新しい定式化を受け入れます。 さらに,提案手法と複数種類のマルチクラスSVMの相関関係について検討した。 提案した正規化器は、"margin"の概念に似ており、深層学習におけるソフトマックスをシームレスに拡張し、ネットワークパラメータ学習のためのガイダンスを提供する。 実証的な評価は、既存のマルチクラス化メソッドよりも提案手法の有効性と優れていることを示している。

Support Vector Machine (SVM) stands out as a prominent machine learning technique widely applied in practical pattern recognition tasks. It achieves binary classification by maximizing the "margin", which represents the minimum distance between instances and the decision boundary. Although many efforts have been dedicated to expanding SVM for multi-class case through strategies such as one versus one and one versus the rest, satisfactory solutions remain to be developed. In this paper, we propose a novel method for multi-class SVM that incorporates pairwise class loss considerations and maximizes the minimum margin. Adhering to this concept, we embrace a new formulation that imparts heightened flexibility to multi-class SVM. Furthermore, the correlations between the proposed method and multiple forms of multi-class SVM are analyzed. The proposed regularizer, akin to the concept of "margin", can serve as a seamless enhancement over the softmax in deep learning, providing guidance for network parameter learning. Empirical evaluations demonstrate the effectiveness and superiority of our proposed method over existing multi-classification methods.Code is available at https://github.com/zz-haooo/M3SVM.
翻訳日:2023-12-12 14:29:46 公開日:2023-12-11
# AnyHome: 構造とテクスチャを備えた3Dホームのオープン語彙生成

AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes ( http://arxiv.org/abs/2312.06644v1 )

ライセンス: Link先を確認
Zehao Wen, Zichen Liu, Srinath Sridhar, Rao Fu(参考訳) 簡単なラベルから精巧な段落まで、オープンな語彙記述をハウススケールでよく構造化された3D屋内シーンに翻訳するフレームワークであるAnyHomeを紹介する。 認知理論にインスパイアされたanyhomeは、テキストの物語から3d空間的手がかりを捉え、エゴセントリックなインペインティングを使ってこれらのシーンを豊かにする。 この目的のために、我々はLarge Language Models (LLMs) のテンプレートプロンプトを特別に設計し、テキスト入力の正確な制御を可能にすることから始める。 次に、中間表現を用いて空間構造の一貫性を維持し、3dシーンがテキスト記述と密接に一致するようにする。 次に, 点数蒸留サンプリング法を適用し, 被写体の配置を精錬する。 最後に、エゴセントリックなインペインティングプロセスが組み込まれ、シーンのリアリズムと外観が強化される。 AnyHomeは、その階層的な構造化された表現とオープン語彙のテキスト解釈の汎用性によって際立っている。 これにより、様々なレベルの粒度の屋内シーンを広範囲にカスタマイズすることができる。 自由形式のテキスト入力に対応する詳細な空間構造とテクスチャを特徴とする,多様な室内シーンを,anyhomeが確実に生成できることを実証する。

We introduce AnyHome, a framework that translates open-vocabulary descriptions, ranging from simple labels to elaborate paragraphs, into well-structured and textured 3D indoor scenes at a house-scale. Inspired by cognition theories, AnyHome employs an amodal structured representation to capture 3D spatial cues from textual narratives and then uses egocentric inpainting to enrich these scenes. To this end, we begin by using specially designed template prompts for Large Language Models (LLMs), which enable precise control over the textual input. We then utilize intermediate representations to maintain the spatial structure's consistency, ensuring that the 3D scenes align closely with the textual description. Then, we apply a Score Distillation Sampling process to refine the placement of objects. Lastly, an egocentric inpainting process is incorporated to enhance the realism and appearance of the scenes. AnyHome stands out due to its hierarchical structured representation combined with the versatility of open-vocabulary text interpretation. This allows for extensive customization of indoor scenes at various levels of granularity. We demonstrate that AnyHome can reliably generate a range of diverse indoor scenes, characterized by their detailed spatial structures and textures, all corresponding to the free-form textual inputs.
翻訳日:2023-12-12 14:22:44 公開日:2023-12-11
# 産業用ロボット協調作業における共同活動開始時の視線検出と分析

Gaze Detection and Analysis for Initiating Joint Activity in Industrial Human-Robot Collaboration ( http://arxiv.org/abs/2312.06643v1 )

ライセンス: Link先を確認
Pooja Prajod, Matteo Lavit Nicora, Marta Mondellini, Giovanni Tauro, Rocco Vertechy, Matteo Malosio, Elisabeth Andr\'e(参考訳) コラボレーティブなロボット(コボット)は産業用途で広く使われているが、人間とロボットのコラボレーションやオペレーターの体験を高めるためにはまだ広範な研究が必要である。 コラボレーション体験を改善するための潜在的なアプローチは、オペレータからの自然なヒントに基づいてcobotの動作を適応させることである。 ヒトとヒトの相互作用に関する文献に触発され,コボットの視線が協調活動開始の引き金となるかどうかを検討するために,ウィザード・オブ・オズ研究を行った。 本研究では,37人の参加者が視線行動解析中に組み立て作業に従事した。 視線に基づく注意認識モデルを用いて,参加者がコボットを見るタイミングを識別する。 その結果,ほとんどの場合 (84.88\%) において, 関節活動はコボットの視線に先行することが明らかとなった。 さらに, 組立サイクル全体において, 参加者は共同作業の前後でコボットを見る傾向にある。 本研究は,ロボットとの共同作業を行う参加者の自然な視線行動を分析するための最初の研究である。

Collaborative robots (cobots) are widely used in industrial applications, yet extensive research is still needed to enhance human-robot collaborations and operator experience. A potential approach to improve the collaboration experience involves adapting cobot behavior based on natural cues from the operator. Inspired by the literature on human-human interactions, we conducted a wizard-of-oz study to examine whether a gaze towards the cobot can serve as a trigger for initiating joint activities in collaborative sessions. In this study, 37 participants engaged in an assembly task while their gaze behavior was analyzed. We employ a gaze-based attention recognition model to identify when the participants look at the cobot. Our results indicate that in most cases (84.88\%), the joint activity is preceded by a gaze towards the cobot. Furthermore, during the entire assembly cycle, the participants tend to look at the cobot around the time of the joint activity. To the best of our knowledge, this is the first study to analyze the natural gaze behavior of participants working on a joint activity with a robot during a collaborative assembly task.
翻訳日:2023-12-12 14:22:22 公開日:2023-12-11
# corresnerf: ニューラル・ラミアンス・フィールドのための画像対応優先

CorresNeRF: Image Correspondence Priors for Neural Radiance Fields ( http://arxiv.org/abs/2312.06642v1 )

ライセンス: Link先を確認
Yixing Lao, Xiaogang Xu, Zhipeng Cai, Xihui Liu, Hengshuang Zhao(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成と表面再構成タスクにおいて印象的な成果を上げている。 しかし、彼らのパフォーマンスは、スパース入力ビューの難しいシナリオに苦しむ。 我々は,NeRFトレーニングを監督するために,市販の方法によって計算された画像対応の事前情報を活用する新しい手法であるCorresNeRFを提案する。 我々は,濃密で高品質な対応を生成するために,拡張とフィルタリングのための適応プロセスを設計する。 その後、対応画素の再投影と深さ損失項によってNeRFトレーニングを規則化する。 我々は,異なるデータセット上での密度ベースおよびSDFベースのNeRFモデルを用いて,新しいビュー合成と表面再構成タスクの評価を行った。 本手法は,測光および測光の両方において従来手法よりも優れていた。 本手法は,異なるNeRF変種にまたがるプラグ・アンド・プレイモジュールとして適用可能であることを示す。 プロジェクトページはhttps://yxlao.github.io/corres-nerf。

Neural Radiance Fields (NeRFs) have achieved impressive results in novel view synthesis and surface reconstruction tasks. However, their performance suffers under challenging scenarios with sparse input views. We present CorresNeRF, a novel method that leverages image correspondence priors computed by off-the-shelf methods to supervise NeRF training. We design adaptive processes for augmentation and filtering to generate dense and high-quality correspondences. The correspondences are then used to regularize NeRF training via the correspondence pixel reprojection and depth loss terms. We evaluate our methods on novel view synthesis and surface reconstruction tasks with density-based and SDF-based NeRF models on different datasets. Our method outperforms previous methods in both photometric and geometric metrics. We show that this simple yet effective technique of using correspondence priors can be applied as a plug-and-play module across different NeRF variants. The project page is at https://yxlao.github.io/corres-nerf.
翻訳日:2023-12-12 14:22:04 公開日:2023-12-11
# 履歴平均依存コストによるオンライン意思決定(拡張)

Online Decision Making with History-Average Dependent Costs (Extended) ( http://arxiv.org/abs/2312.06641v1 )

ライセンス: Link先を確認
Vijeth Hebbar and Cedric Langbort(参考訳) 多くのオンライン意思決定シナリオにおいて、学習者の選択は現在のコストだけでなく将来のコストにも影響を及ぼす。 本研究は,過去の意思決定の時間平均に依存したコストが歴史の地平線に掛かる状況の特殊な事例を考察する。 まず,段階的な制約下での意思決定問題として,歴史依存コストを用いてこの問題を再キャストした。 そこで本研究では,適応正規化リード (ftarl) アルゴリズムを提案する。 我々の革新的なアルゴリズムは、過去の決定に明示的に依存する適応正規化器を組み込んでおり、段階的な制約を課すと同時に、厳密な後悔の境界を確立することができる。 また,歴史の地平線の長さが問題に対する非regretアルゴリズムの設計に与える影響についても考察し,それが完全な学習地平線である場合に不確実性を示す。

In many online sequential decision-making scenarios, a learner's choices affect not just their current costs but also the future ones. In this work, we look at one particular case of such a situation where the costs depend on the time average of past decisions over a history horizon. We first recast this problem with history dependent costs as a problem of decision making under stage-wise constraints. To tackle this, we then propose the novel Follow-The-Adaptively-Regularized-Leader (FTARL) algorithm. Our innovative algorithm incorporates adaptive regularizers that depend explicitly on past decisions, allowing us to enforce stage-wise constraints while simultaneously enabling us to establish tight regret bounds. We also discuss the implications of the length of history horizon on design of no-regret algorithms for our problem and present impossibility results when it is the full learning horizon.
翻訳日:2023-12-12 14:21:48 公開日:2023-12-11
# アップスケール・ア・ビデオ:リアルタイムビデオ超解法のための時間連続拡散モデル

Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution ( http://arxiv.org/abs/2312.06640v1 )

ライセンス: Link先を確認
Shangchen Zhou, Peiqing Yang, Jianyi Wang, Yihang Luo, Chen Change Loy(参考訳) テキストベースの拡散モデルは、生成と編集において顕著な成功を収めており、生成前の視覚的コンテンツを向上する大きな可能性を秘めている。 しかし, 拡散モデルの固有ランダム性が複雑であるため, 出力忠実性や時間的一貫性が要求されるため, ビデオ超解像へのモデルの適用は依然として困難である。 本研究は,ビデオアップスケーリングのためのテキスト誘導遅延拡散フレームワークであるUpscale-A-Videoを紹介する。 このフレームワークは、時間的階層をU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持するという2つの主要なメカニズムを通じて、時間的コヒーレンスを保証する。 拡散パラダイムにより、テキストプロンプトによりテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを保ち、忠実性と品質のトレードオフを可能にすることにより、柔軟性も向上する。 大規模な実験によると、Upscale-A-Videoは、人工的および現実世界のベンチマークとAI生成ビデオの両方で既存の方法を超えており、印象的なビジュアルリアリズムと時間的一貫性を示している。

Text-based diffusion models have exhibited remarkable success in generation and editing, showing great promise for enhancing visual content with their generative prior. However, applying these models to video super-resolution remains challenging due to the high demands for output fidelity and temporal consistency, which is complicated by the inherent randomness in diffusion models. Our study introduces Upscale-A-Video, a text-guided latent diffusion framework for video upscaling. This framework ensures temporal coherence through two key mechanisms: locally, it integrates temporal layers into U-Net and VAE-Decoder, maintaining consistency within short sequences; globally, without training, a flow-guided recurrent latent propagation module is introduced to enhance overall video stability by propagating and fusing latent across the entire sequences. Thanks to the diffusion paradigm, our model also offers greater flexibility by allowing text prompts to guide texture creation and adjustable noise levels to balance restoration and generation, enabling a trade-off between fidelity and quality. Extensive experiments show that Upscale-A-Video surpasses existing methods in both synthetic and real-world benchmarks, as well as in AI-generated videos, showcasing impressive visual realism and temporal consistency.
翻訳日:2023-12-12 14:21:35 公開日:2023-12-11
# 高調波移動マニピュレーション

Harmonic Mobile Manipulation ( http://arxiv.org/abs/2312.06639v1 )

ライセンス: Link先を確認
Ruihan Yang, Yejin Kim, Aniruddha Kembhavi, Xiaolong Wang, Kiana Ehsani(参考訳) 近年のロボット工学の進歩により、ロボットは複雑な場面をナビゲートしたり、さまざまな物体を個別に操作することができるようになった。 しかし、ドアを開くなどの協調動作を必要とする多くの家庭作業において、ロボットはいまだに非力である。 ナビゲーションと操作の因子化は、いくつかのタスクに有効だが、協調アクションを必要とするシナリオでは失敗する。 この課題に対処するために,ナビゲーションと操作の両方を最適化するエンドツーエンド学習手法であるHarmonicMMを導入する。 このアプローチはシミュレーションおよび実世界の環境で検証され、追加のチューニングなしで新しい目に見えない設定に適応する。 われわれのコントリビュートには、モバイル操作のための新しいベンチマークと、実際に見えないアパートでの展開の成功が含まれており、日常生活における実用的な屋内ロボットの展開の可能性を示している。 さらなる結果はプロジェクトのサイトにある。 https://rchalyang.github.io/HarmonicMM/

Recent advancements in robotics have enabled robots to navigate complex scenes or manipulate diverse objects independently. However, robots are still impotent in many household tasks requiring coordinated behaviors such as opening doors. The factorization of navigation and manipulation, while effective for some tasks, fails in scenarios requiring coordinated actions. To address this challenge, we introduce, HarmonicMM, an end-to-end learning method that optimizes both navigation and manipulation, showing notable improvement over existing techniques in everyday tasks. This approach is validated in simulated and real-world environments and adapts to novel unseen settings without additional tuning. Our contributions include a new benchmark for mobile manipulation and the successful deployment in a real unseen apartment, demonstrating the potential for practical indoor robot deployment in daily life. More results are on our project site: https://rchalyang.github.io/HarmonicMM/
翻訳日:2023-12-12 14:21:11 公開日:2023-12-11
# survbenim: 生存モデルを説明するためのberanベースの神経重要度モデル

SurvBeNIM: The Beran-Based Neural Importance Model for Explaining the Survival Models ( http://arxiv.org/abs/2312.06638v1 )

ライセンス: Link先を確認
Lev V. Utkin, Danila Y. Eremenko, Andrei V. Konstantinov(参考訳) Survival Beran-based Neural Importance Model (SurvBeNIM) と呼ばれる新しい手法を提案する。 これは、生存あるいは累積ハザード関数の形での機械学習サバイバルモデルの予測を説明することを目的としている。 SurvBeNIMの背景にある主な考え方は、カーネルに重要な関数を組み込むことでベラン推定器を拡張し、これらの重要な機能をニューラルネットワークの集合として実装し、エンドツーエンドで共同で訓練することである。 SurvBeNIMを実装するニューラルネットワーク全体の使用とトレーニングの2つの戦略を提案する。 まず1つのインスタンスを説明し、説明されたインスタンスごとにニューラルネットワークをトレーニングします。 第2の戦略によると、ニューラルネットワークはデータセットと生成されたすべてのインスタンスからのみ学習する。 次にニューラルネットワークを使用して、データセットドメイン内の任意のインスタンスを説明する。 様々な数値実験により、この手法は既存の異なる説明方法と比較される。 提案手法を実装したコードが公開されている。

A new method called the Survival Beran-based Neural Importance Model (SurvBeNIM) is proposed. It aims to explain predictions of machine learning survival models, which are in the form of survival or cumulative hazard functions. The main idea behind SurvBeNIM is to extend the Beran estimator by incorporating the importance functions into its kernels and by implementing these importance functions as a set of neural networks which are jointly trained in an end-to-end manner. Two strategies of using and training the whole neural network implementing SurvBeNIM are proposed. The first one explains a single instance, and the neural network is trained for each explained instance. According to the second strategy, the neural network only learns once on all instances from the dataset and on all generated instances. Then the neural network is used to explain any instance in a dataset domain. Various numerical experiments compare the method with different existing explanation methods. A code implementing the proposed method is publicly available.
翻訳日:2023-12-12 14:20:56 公開日:2023-12-11
# ハードウェア効率トレーニングによるゲートリニアアテンショントランス

Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v1 )

ライセンス: Link先を確認
Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim(参考訳) 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化できるため、(出力長に関して)線形推論の複雑さを享受できる。 RetNet (Sun et al., 2023) やTransNormerLLM (Qin et al., 2023a) のような最近の研究は、付加的なRNN更新規則に大域的な減衰項を加えることで性能が大幅に向上し、スケールで訓練するとソフトマックスの注意を払って標準のトランスフォーマーを上回ることがあることを観察している。 本研究では,データ依存型ゲーティング機構の追加によりパフォーマンスがさらに向上することを示す。 効率的なトレーニングを可能にするこのゲート付き線形注意層の並列形式を導出する。 しかし、この並列形式の単純で数値的に安定な実装では、数値安定性のためにログ空間における一般化された行列の乗算が必要となるため、標準行列の乗算に最適化された現代のgpuではテンソルコアを活用できない。 並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算によりテンソルコアを引き続き活用する。 15Bトークンでトレーニングされた中規模言語モデリング(340Mパラメータモデル、100Bトークンでトレーニングされた1.3Bパラメータモデル)の実験では、ゲート型線形アテンション(GLA)トランスフォーマーが、データ依存状態遷移機構を備えた最近導入された状態空間モデルであるMamba(Gu & Dao, 2023)と同様に、強力なLLaMAアーキテクチャトランスフォーマーベースライン(Touvron et al., 2023)と競合して動作することを示した。 トレーニング速度では, CUDA最適化FlashAttention-2(Dao, 2023)に対して, 通常の2048トレーニング長設定で比較して, 4096以上の長いシーケンスでのトレーニングでは, FlashAttention-2よりも優れていた。

Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear (with respect to output length) inference complexity. Recent works such as RetNet (Sun et al., 2023) and TransNormerLLM (Qin et al., 2023a) observe that adding a global decay term to the additive RNN update rule greatly improves performance, sometimes outperforming standard Transformers with softmax attention when trained at scale. In this work we show that adding a data-dependent gating mechanism further improves performance. We derive a parallel form of this gated linear attention layer that enables efficient training. However, a straightforward, numerically stable implementation of this parallel form requires generalized matrix multiplications in log-space for numerical stability, and thus cannot take advantage of tensor cores on modern GPUs which are optimized for standard matrix multiplications. We develop a hardware-efficient version of the parallel form that can still make use of tensor cores through block-parallel computations over sequence chunks. Experiments on moderate-scale language modeling (340M-parameter models trained on 15B tokens, 1.3B-parameter models trained on 100B tokens) show that gated linear attention (GLA) Transformers perform competitively against a strong LLaMA-architecture Transformer baseline (Touvron et al., 2023) as well as Mamba (Gu & Dao, 2023), a recently introduced state-space model with a data-dependent state transition mechanism. For training speed, our Triton-based implementation performs comparably to CUDA-optimized FlashAttention-2 (Dao, 2023) under the regular 2048 training length setting, while outperforming FlashAttention-2 when training on longer sequences beyond 4096.
翻訳日:2023-12-12 14:20:42 公開日:2023-12-11
# Deep Learning Reproducibilityにおける実装要因の影響の検討

Examining the Effect of Implementation Factors on Deep Learning Reproducibility ( http://arxiv.org/abs/2312.06633v1 )

ライセンス: Link先を確認
Kevin Coakley, Christine R. Kirkpatrick, Odd Erik Gundersen(参考訳) 出版された深層学習論文を再現してその結論を立証することは、不再現性のために困難である。 本研究では,実装要因が結果に与える影響と,それがディープラーニング研究の再現性に与える影響について検討する。 3つのディープラーニング実験が13の異なるハードウェア環境と4つの異なるソフトウェア環境でそれぞれ5回実施された。 780の合計結果の解析により、ハードウェアやソフトウェア環境のバリエーションだけで導入された同じ決定論的な例で6%以上の精度範囲が得られた。 これらの実装要因を考慮するために、研究者は異なるハードウェアとソフトウェア環境で実験を複数回実行して、結論が影響を受けていないことを確かめるべきである。

Reproducing published deep learning papers to validate their conclusions can be difficult due to sources of irreproducibility. We investigate the impact that implementation factors have on the results and how they affect reproducibility of deep learning studies. Three deep learning experiments were ran five times each on 13 different hardware environments and four different software environments. The analysis of the 780 combined results showed that there was a greater than 6% accuracy range on the same deterministic examples introduced from hardware or software environment variations alone. To account for these implementation factors, researchers should run their experiments multiple times in different hardware and software environments to verify their conclusions are not affected.
翻訳日:2023-12-12 14:19:56 公開日:2023-12-11
# 科学における人工知能の悪用の可能性に関する制御リスク

Control Risk for Potential Misuse of Artificial Intelligence in Science ( http://arxiv.org/abs/2312.06632v1 )

ライセンス: Link先を確認
Jiyan He, Weitao Feng, Yaosen Min, Jingwei Yi, Kunsheng Tang, Shuai Li, Jie Zhang, Kejiang Chen, Wenbo Zhou, Xing Xie, Weiming Zhang, Nenghai Yu, Shuxin Zheng(参考訳) 科学分野における人工知能(AI)の応用は、発見と革新の先例のない機会を示している。 しかし、この成長にはリスクはない。 科学におけるaiモデルは、悪質物質の生成や確立された規制の回避といったリスクを増幅することができる。 本研究では、科学におけるAI誤用の危険性の認識を高め、この分野におけるAI開発と利用の責任を負うことを目的とする。 まず、科学的な文脈でAIが引き起こすリスクを考察し、化学科学における誤用の実例を強調することでリスクを実証する。 これらのインスタンスは、効果的なリスク管理戦略の必要性を強調するものだ。 そこで我々は,科学におけるAIモデルの誤用リスクを制御するシステムSciGuardを提案する。 また、異なるシステムの安全性を評価するために、赤チームベンチマークSciMT-Safetyを提案する。 提案したSciGuardは,良性試験の性能を損なうことなく,評価に最も有害な影響を示す。 最後に、科学におけるAIモデルの安全かつ倫理的利用を保証するために、複数の学際的かつ協力的な取り組みの必要性を強調します。 我々の研究は、研究者、実践者、政策立案者、そして一般の人々の間で、AIを科学で倫理的に使用することについて生産的な議論を引き起こし、利益を最大化し、誤用のリスクを最小限にすることを期待している。

The expanding application of Artificial Intelligence (AI) in scientific fields presents unprecedented opportunities for discovery and innovation. However, this growth is not without risks. AI models in science, if misused, can amplify risks like creation of harmful substances, or circumvention of established regulations. In this study, we aim to raise awareness of the dangers of AI misuse in science, and call for responsible AI development and use in this domain. We first itemize the risks posed by AI in scientific contexts, then demonstrate the risks by highlighting real-world examples of misuse in chemical science. These instances underscore the need for effective risk management strategies. In response, we propose a system called SciGuard to control misuse risks for AI models in science. We also propose a red-teaming benchmark SciMT-Safety to assess the safety of different systems. Our proposed SciGuard shows the least harmful impact in the assessment without compromising performance in benign tests. Finally, we highlight the need for a multidisciplinary and collaborative effort to ensure the safe and ethical use of AI models in science. We hope that our study can spark productive discussions on using AI ethically in science among researchers, practitioners, policymakers, and the public, to maximize benefits and minimize the risks of misuse.
翻訳日:2023-12-12 14:19:46 公開日:2023-12-11
# tmt-vis:ビデオインスタンスセグメンテーションのための分類学アウェアマルチデータセット合同トレーニング

TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation ( http://arxiv.org/abs/2312.06630v1 )

ライセンス: Link先を確認
Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao(参考訳) 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。 当社が保有しているデータセットは,独立した多数のデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを共同でトレーニングすることが望ましいのです。 しかし、カテゴリ空間の多様性のため、データボリュームによってマスク精度が増加するため、複数のデータセットを単純に利用すれば、異なる分類に関するモデルの注意を薄めることができる。 したがって,分類精度を高めつつ,データスケールの増大と分類空間の充実が重要である。 本研究では,追加の分類情報を提供することが,モデルが特定の分類に集中するのに役立つことを分析し,ビデオインスタンスセグメンテーション(tmt-vis)のための分類アウェアマルチデータセット合同トレーニングモデルを提案する。 具体的には、2段階の分類集計モジュールを設計し、まず最初に入力ビデオから分類情報をコンパイルし、これらの分類先行情報を変換器デコーダの前にインスタンスクエリに集約する。 我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。 本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。 これらの魅力的で奨励的な結果は、我々のアプローチの有効性と一般化を示している。 コードはhttps://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)で入手できる。

Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models across the aggregation of datasets to enhance data volume and diversity. However, due to the heterogeneity in category space, as mask precision increases with the data volume, simply utilizing multiple datasets will dilute the attention of models on different taxonomies. Thus, increasing the data scale and enriching taxonomy space while improving classification precision is important. In this work, we analyze that providing extra taxonomy information can help models concentrate on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital challenge. Specifically, we design a two-stage taxonomy aggregation module that first compiles taxonomy information from input videos and then aggregates these taxonomy priors into instance queries before the transformer decoder. We conduct extensive experimental evaluations on four popular and challenging benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our model shows significant improvement over the baseline solutions, and sets new state-of-the-art records on all benchmarks. These appealing and encouraging results demonstrate the effectiveness and generality of our approach. The code is available at https://github.com/rkzheng99/TMT-VIS(https://github.com/rkzheng99/TMT-VIS)
翻訳日:2023-12-12 14:19:25 公開日:2023-12-11
# 大規模言語モデル間の社会的相互作用におけるスケールフリーネットワークの出現

Emergence of Scale-Free Networks in Social Interactions among Large Language Models ( http://arxiv.org/abs/2312.06619v1 )

ライセンス: Link先を確認
Giordano De Marzo, Luciano Pietronero, David Garcia(参考訳) スケールフリーネットワークは、創発的行動の最も有名な例の1つであり、社会システム、特にユーザーがフォローできるオンラインソーシャルメディアにおいてユビキタスである。 言語モデルとしてGPT3.5-turboを用いた複数生成エージェントの相互作用を解析することにより,人間の言語行動の模倣だけでなく,人間社会,特にスケールフリーネットワークの出現に固有の集団現象を示す能力を示す。 このプロセスは、GPT3.5-turboの配向前の歪んだトークンによって破壊され、ある種のアライメントとして極端に集中したネットワークにつながることが判明した。 エージェントがこれらのトークンを事前に削除し、モデルがランダムネットワークからより現実的なスケールフリーネットワークまで幅広いネットワークを生成する方法を示す。

Scale-free networks are one of the most famous examples of emergent behavior and are ubiquitous in social systems, especially online social media in which users can follow each other. By analyzing the interactions of multiple generative agents using GPT3.5-turbo as a language model, we demonstrate their ability to not only mimic individual human linguistic behavior but also exhibit collective phenomena intrinsic to human societies, in particular the emergence of scale-free networks. We discovered that this process is disrupted by a skewed token prior distribution of GPT3.5-turbo, which can lead to networks with extreme centralization as a kind of alignment. We show how renaming agents removes these token priors and allows the model to generate a range of networks from random networks to more realistic scale-free networks.
翻訳日:2023-12-12 14:18:30 公開日:2023-12-11
# コヒーレント情報からの正確な最適量子誤差補正しきい値

Accurate optimal quantum error correction thresholds from coherent information ( http://arxiv.org/abs/2312.06664v1 )

ライセンス: Link先を確認
Luis Colmenarez, Ze-Min Huang, Sebastian Diehl and Markus M\"uller(参考訳) 量子誤り訂正(QEC)符号は、誤り率が臨界誤差閾値以下である限り、量子情報をデコヒーレンスから保護する。 一般に、しきい値を取得することは、QEC手順をシミュレーションすることを意味し、一般に準最適復号法を用いる。 少数のケースと十分単純なノイズモデルでは、QEC符号の最適復号は、乱れた古典スピンモデルにおける位相遷移としてフレーム化することができる。 どちらの状況においても、しきい値の正確な推定には集中的な計算資源が必要である。 ここでは,ノイズの少ないqec符号の混合状態のコヒーレント情報を用いて,小距離符号から最適qec閾値を適度な計算コストで推定する。 本手法は, ビットフリップ・デポーラライズ雑音下での位相面およびカラーコードに最初に適用することにより, 有効性と汎用性を示す。 次に、コヒーレント情報に基づく手法を現象学的および量子回路レベルのノイズ設定に拡張する。 検討されたすべての例において、文献で報告されたしきい値に従って、符号の小さな、低距離のインスタンスから最適なエラー閾値の高精度な推定値を得る。 本研究は,現実的な雑音モデル下での最先端QEC符号の最適しきい値を計算するための信頼性の高い競争実践ツールとして,コヒーレント情報を確立した。

Quantum error correcting (QEC) codes protect quantum information from decoherence, as long as error rates fall below critical error thresholds. In general, obtaining thresholds implies simulating the QEC procedure using, in general, sub-optimal decoding strategies. In a few cases and for sufficiently simple noise models, optimal decoding of QEC codes can be framed as a phase transition in disordered classical spin models. In both situations, accurate estimation of thresholds demands intensive computational resources. Here we use the coherent information of the mixed state of noisy QEC codes to accurately estimate the associated optimal QEC thresholds already from small-distance codes at moderate computational cost. We show the effectiveness and versatility of our method by applying it first to the topological surface and color code under bit-flip and depolarizing noise. We then extend the coherent information based methodology to phenomenological and quantum circuit level noise settings. For all examples considered we obtain highly accurate estimates of optimal error thresholds from small, low-distance instances of the codes, in close accordance with threshold values reported in the literature. Our findings establish the coherent information as a reliable competitive practical tool for the calculation of optimal thresholds of state-of-the-art QEC codes under realistic noise models.
翻訳日:2023-12-12 14:11:42 公開日:2023-12-11
# CAD: 逆蒸留による光リアルな3D生成

CAD: Photorealistic 3D Generation via Adversarial Distillation ( http://arxiv.org/abs/2312.06663v1 )

ライセンス: Link先を確認
Ziyu Wan, Despoina Paschalidou, Ian Huang, Hongyu Liu, Bokui Shen, Xiaoyu Xiang, Jing Liao, Leonidas Guibas(参考訳) AR/VR、ロボティクス、ゲームアプリケーションにおける3Dデータの需要の増加は、高品質な3Dオブジェクトを合成できる強力な生成パイプラインを生み出した。 これらのモデルのほとんどはスコア蒸留サンプリング(sds)アルゴリズムに依存しており、レンダリングされた画像が事前訓練された拡散モデルによって評価される高い確率を維持するように3d表現を最適化している。 しかし、拡散モデルによって生成される高次元分布の正しいモードを見つけることは困難であり、しばしば過飽和、過平滑化、ヤヌスのようなアーティファクトといった問題につながる。 本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。 モード探索に焦点をあてる代わりに,マルチビューレンダリングと拡散先行の分布差を直接逆向きにモデル化し,高忠実度・光実写3Dコンテンツの生成を1つの画像に条件付きで解放し,プロンプトする。 さらに, GANの潜伏空間と表現拡散モデルの先行性を利用して, 単一視点再構成, 高多様性生成, オープン領域における連続的な3次元補間など, 多様な3次元アプリケーションを実現する。 実験は、生成品質と多様性の観点から、以前の作品と比較してパイプラインの優越性を示すものです。

The increased demand for 3D data in AR/VR, robotics and gaming applications, gave rise to powerful generative pipelines capable of synthesizing high-quality 3D objects. Most of these models rely on the Score Distillation Sampling (SDS) algorithm to optimize a 3D representation such that the rendered image maintains a high likelihood as evaluated by a pre-trained diffusion model. However, finding a correct mode in the high-dimensional distribution produced by the diffusion model is challenging and often leads to issues such as over-saturation, over-smoothing, and Janus-like artifacts. In this paper, we propose a novel learning paradigm for 3D synthesis that utilizes pre-trained diffusion models. Instead of focusing on mode-seeking, our method directly models the distribution discrepancy between multi-view renderings and diffusion priors in an adversarial manner, which unlocks the generation of high-fidelity and photorealistic 3D content, conditioned on a single image and prompt. Moreover, by harnessing the latent space of GANs and expressive diffusion model priors, our method facilitates a wide variety of 3D applications including single-view reconstruction, high diversity generation and continuous 3D interpolation in the open domain. The experiments demonstrate the superiority of our pipeline compared to previous works in terms of generation quality and diversity.
翻訳日:2023-12-12 14:11:21 公開日:2023-12-11
# 拡散モデルを用いたフォトリアリスティック映像生成

Photorealistic Video Generation with Diffusion Models ( http://arxiv.org/abs/2312.06662v1 )

ライセンス: Link先を確認
Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, Jos\'e Lezama(参考訳) 本稿では,拡散モデルを用いた映像生成のためのトランスフォーマティブ・アプローチであるw.a.l.tを提案する。 このアプローチには2つの重要な設計上の決定があります。 まず、因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。 第2に、記憶と訓練の効率化のために、共同空間および時空間生成モデルに適したウィンドウアテンションアーキテクチャを用いる。 これらの設計決定をまとめて、確立されたビデオ(UCF-101, Kinetics-600)と画像(ImageNet)生成ベンチマーク上で、分類器フリーガイダンスを使わずに、最先端のパフォーマンスを実現することができる。 最後に,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒896ドルの解像度で512 \times 896$の動画を生成する。

We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of $512 \times 896$ resolution at $8$ frames per second.
翻訳日:2023-12-12 14:10:58 公開日:2023-12-11
# UpFusion: 未観測のスパースビューからの新しいビュー拡散

UpFusion: Novel View Diffusion from Unposed Sparse View Observations ( http://arxiv.org/abs/2312.06661v1 )

ライセンス: Link先を確認
Bharath Raj Nagoor Kani, Hsin-Ying Lee, Sergey Tulyakov, Shubham Tulsiani(参考訳) 本稿では,参照画像のスパースセットが与えられたオブジェクトに対して,対応するポーズ情報なしで新しいビュー合成と3次元表現を推論できるUpFusionを提案する。 現在のスパースビュー3D推論法は、通常、入力ビューからの情報を幾何学的に集約するためにカメラのポーズに依存するが、そのような情報が利用できない/不正確な場合には、その内部で堅牢ではない。 対照的にupfusionは、新しいビューを合成するための条件付き生成モデルにおいて、利用可能なイメージをコンテキストとして暗黙的に活用することで、この要件を回避している。 入力ビューを利用した拡散モデルにコンディショニングの相補的な形式を2つ取り入れる。 a) シーンレベルのトランスフォーマを使用してクエリビューアラインメント機能を推論することにより b) 入力画像トークンを直接観察できる中間の注意層を介して。 この機構により高精細な新奇なビューを生成できると同時に、付加的な(想定外の)画像の合成品質を向上させることができる。 我々は、Co3Dv2およびGoogle Scanned Objectsデータセットに対するアプローチを評価し、追加のビューを活用できない単一ビューメソッドと同様に、ポーズ-リライアントなスパースビューメソッドよりも、メソッドの利点を実証する。 最後に,学習モデルがトレーニングカテゴリを超えた一般化が可能であり,さらに汎用オブジェクトの自己取得画像からの再構成も可能となることを示した。

We propose UpFusion, a system that can perform novel view synthesis and infer 3D representations for an object given a sparse set of reference images without corresponding pose information. Current sparse-view 3D inference methods typically rely on camera poses to geometrically aggregate information from input views, but are not robust in-the-wild when such information is unavailable/inaccurate. In contrast, UpFusion sidesteps this requirement by learning to implicitly leverage the available images as context in a conditional generative model for synthesizing novel views. We incorporate two complementary forms of conditioning into diffusion models for leveraging the input views: a) via inferring query-view aligned features using a scene-level transformer, b) via intermediate attentional layers that can directly observe the input image tokens. We show that this mechanism allows generating high-fidelity novel views while improving the synthesis quality given additional (unposed) images. We evaluate our approach on the Co3Dv2 and Google Scanned Objects datasets and demonstrate the benefits of our method over pose-reliant sparse-view methods as well as single-view methods that cannot leverage additional views. Finally, we also show that our learned model can generalize beyond the training categories and even allow reconstruction from self-captured images of generic objects in-the-wild.
翻訳日:2023-12-12 14:10:41 公開日:2023-12-11
# EdgeSAM:SAMのオンデバイス展開のためのロープ蒸留

EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM ( http://arxiv.org/abs/2312.06660v1 )

ライセンス: Link先を確認
Chong Zhou, Xiangtai Li, Chen Change Loy, Bo Dai(参考訳) 本稿では,パフォーマンスを最小限に抑えたエッジデバイス上での効率的な実行を最適化した,Segment Anything Model (SAM) の高速化版であるEdgeSAMを提案する。 我々のアプローチでは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留し、エッジデバイスに適している。 我々は,様々な蒸留戦略を慎重にベンチマークし,SAMで具現化された全知識の抽出にタスク非依存のエンコーダ蒸留は失敗することを示した。 このボトルネックを克服するため、蒸留工程ではプロンプトエンコーダとマスクデコーダの両方を、ループ内にボックスとポイントプロンプトを配置し、蒸留モデルによりユーザ入力とマスク生成の間の複雑なダイナミクスを正確に捉えることができる。 ポイントプロンプト蒸留から生じるデータセットバイアスの問題を緩和するため,エンコーダ内に軽量モジュールを組み込む。 EdgeSAMはオリジナルのSAMに比べて40倍の速度向上を実現しており、それぞれCOCOとLVISのmIoUを2.3倍、LVISの3.2倍の速さでMobileSAMを上回っている。 また、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種でもある。 コードとモデルはhttps://github.com/chongzhou96/EdgeSAMで公開されている。

This paper presents EdgeSAM, an accelerated variant of the Segment Anything Model (SAM), optimized for efficient execution on edge devices with minimal compromise in performance. Our approach involves distilling the original ViT-based SAM image encoder into a purely CNN-based architecture, better suited for edge devices. We carefully benchmark various distillation strategies and demonstrate that task-agnostic encoder distillation fails to capture the full knowledge embodied in SAM. To overcome this bottleneck, we include both the prompt encoder and mask decoder in the distillation process, with box and point prompts in the loop, so that the distilled model can accurately capture the intricate dynamics between user input and mask generation. To mitigate dataset bias issues stemming from point prompt distillation, we incorporate a lightweight module within the encoder. EdgeSAM achieves a 40-fold speed increase compared to the original SAM, and it also outperforms MobileSAM, being 14 times as fast when deployed on edge devices while enhancing the mIoUs on COCO and LVIS by 2.3 and 3.2 respectively. It is also the first SAM variant that can run at over 30 FPS on an iPhone 14. Code and models are available at https://github.com/chongzhou96/EdgeSAM.
翻訳日:2023-12-12 14:10:16 公開日:2023-12-11
# 差分プライバシーの付加除去モデルにおける平均推定

Mean estimation in the add-remove model of differential privacy ( http://arxiv.org/abs/2312.06658v1 )

ライセンス: Link先を確認
Alex Kulesza and Ananda Theertha Suresh and Yuyan Wang(参考訳) 差分プライバシーは、しばしば隣接するデータセットの2つの異なるモデル、すなわちアドレベーブモデルとスワップモデルの下で研究される。 スワップモデルは学術文献で広く使われているが、多くの実践的な図書館はより保守的な追加削除モデルを使用している。 しかし、Add-Removeモデルに基づく解析は煩雑であり、厳密な定数で結果を得るには若干の作業が必要である。 本稿では,差分プライバシーの付加除去モデルに基づく一次元平均推定問題について検討する。 提案手法では, 平均二乗誤差の先頭項における正定数が min-max 最適であり, この定数がスワップモデルにおける最適アルゴリズムと同じであることを示す。 その結果,付加除去モデルでは,データセットのサイズを公開情報として扱えないにもかかわらず,付加除去モデルとスワップモデルがほぼ同じ誤差を与えることがわかった。 さらに,本提案手法は,実際によく使用されるアルゴリズムよりも平均二乗誤差が2倍向上することを示す。

Differential privacy is often studied under two different models of neighboring datasets: the add-remove model and the swap model. While the swap model is used extensively in the academic literature, many practical libraries use the more conservative add-remove model. However, analysis under the add-remove model can be cumbersome, and obtaining results with tight constants requires some additional work. Here, we study the problem of one-dimensional mean estimation under the add-remove model of differential privacy. We propose a new algorithm and show that it is min-max optimal, that it has the correct constant in the leading term of the mean squared error, and that this constant is the same as the optimal algorithm in the swap model. Our results show that, for mean estimation, the add-remove and swap model give nearly identical error even though the add-remove model cannot treat the size of the dataset as public information. In addition, we demonstrate empirically that our proposed algorithm yields a factor of two improvement in mean squared error over algorithms often used in practice.
翻訳日:2023-12-12 14:09:50 公開日:2023-12-11
# 効率的な3D編集のための自然凝集外観の学習

Learning Naturally Aggregated Appearance for Efficient 3D Editing ( http://arxiv.org/abs/2312.06657v1 )

ライセンス: Link先を確認
Ka Leong Cheng and Qiuyu Wang and Zifan Shi and Kecheng Zheng and Yinghao Xu and Hao Ouyang and Qifeng Chen and Yujun Shen(参考訳) 3dシーンをカラーフィールドと密度フィールドとして表現したニューラルラミアンスフィールドは、新しいビュー合成において大きな進歩を見せているが、暗黙性のため編集には不向きである。 そこで本研究では,2次元画像処理による3次元編集を容易にカスタマイズできる,カノニカル画像(canonical image)と呼ばれる,明快な2次元表示アグリゲーションをカラーフィールドに置き換えることを提案する。 歪み効果を回避し、簡便な編集を容易にするため、テクスチャ検索のために3dポイントを2dピクセルにマッピングする投影場を標準画像を補完する。 このフィールドは擬似カノニカルカメラモデルで慎重に初期化され、アグリゲートされた外観の自然性を保証するためにオフセット規則性で最適化される。 3つのデータセットに関する広範な実験の結果は、agapと呼ばれる表現は、3d編集の様々な方法(スタイライゼーション、インタラクティブな描画、コンテンツ抽出など)をサポートしており、各ケースで再最適化する必要がなく、その一般化性と効率性を示している。 プロジェクトページはhttps://felixcheng97.github.io/agap/。

Neural radiance fields, which represent a 3D scene as a color field and a density field, have demonstrated great progress in novel view synthesis yet are unfavorable for editing due to the implicitness. In view of such a deficiency, we propose to replace the color field with an explicit 2D appearance aggregation, also called canonical image, with which users can easily customize their 3D editing via 2D image processing. To avoid the distortion effect and facilitate convenient editing, we complement the canonical image with a projection field that maps 3D points onto 2D pixels for texture lookup. This field is carefully initialized with a pseudo canonical camera model and optimized with offset regularity to ensure naturalness of the aggregated appearance. Extensive experimental results on three datasets suggest that our representation, dubbed AGAP, well supports various ways of 3D editing (e.g., stylization, interactive drawing, and content extraction) with no need of re-optimization for each case, demonstrating its generalizability and efficiency. Project page is available at https://felixcheng97.github.io/AGAP/.
翻訳日:2023-12-12 14:09:32 公開日:2023-12-11
# Sherpa3D: 粗い3D前処理による高忠実テキスト・ツー・3D生成

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior ( http://arxiv.org/abs/2312.06655v1 )

ライセンス: Link先を確認
Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan(参考訳) 近年,テキストプロンプトによる3次元コンテンツ生成は,2次元と3次元の拡散モデルを用いて顕著に進展している。 3D拡散モデルは、優れたマルチビュー一貫性を保証するが、高品質で多様な3Dアセットを生成する能力は、限られた3Dデータによって妨げられる。 対照的に、2次元拡散モデルは、3dデータなしで優れた一般化とリッチディテールを達成する蒸留アプローチを見つける。 しかし,2次元挙上法は視界に依存しないあいまいさに悩まされるため,重度の多面的ジャヌス問題が発生し,テキストプロンプトがコヒーレントな3D結果の学習に十分なガイダンスを与えられなかった。 コストのかかる視点認識モデルを再トレーニングする代わりに、容易にアクセス可能な粗い3d知識を十分に活用してプロンプトを強化する方法を検討し、2次元の昇降最適化を指導する。 本稿では,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3DフレームワークであるSherpa3Dを提案する。 具体的には,3次元拡散モデルによって事前に生成される粗い3Dから導かれる一対の案内戦略を設計する:幾何学的忠実度の構造的ガイダンスと3次元コヒーレンスの意味的ガイダンスである。 2次元拡散モデルでは,2次元拡散モデルが3次元コンテンツを多様かつ高品質な結果で高めている。 広範な実験により、sherpa3dは、品質と3d一貫性の観点から、最先端のtext-to-3dメソッドよりも優れていることが分かりました。

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.
翻訳日:2023-12-12 14:09:09 公開日:2023-12-11
# LightSim: 都市景観のニューラルライティングシミュレーション

LightSim: Neural Lighting Simulation for Urban Scenes ( http://arxiv.org/abs/2312.06654v1 )

ライセンス: Link先を確認
Ava Pun, Gary Sun, Jingkang Wang, Yun Chen, Ze Yang, Sivabalan Manivasagam, Wei-Chiu Ma, Raquel Urtasun(参考訳) 屋外照明条件の相違は都市景観の外観を大きく変え、訓練中に見られなければ画像に基づくロボット認識システムの性能を損なう可能性がある。 カメラシミュレーションは、異なる照明条件下で撮影された画像の大きなデータセットを作成するためのコスト効率の良いソリューションを提供する。 この目標に向けて,多様な,現実的で制御可能なデータ生成を可能にする,ニューラルライティングカメラシミュレーションシステムであるLightSimを提案する。 LightSimは、収集された生のセンサーデータから自動的に照明を意識したデジタルツインを構築し、シーンを正確な幾何学、外観、推定されたシーンライティングで動的アクターと静的な背景に分解する。 これらのデジタル双生児は、新たな視点から俳優の挿入、修正、削除、レンダリングを可能にする。 次にlightsimは、物理的ベースと学習可能な遅延レンダリングを組み合わせて、太陽の位置を変更したり、影を変えたり、太陽の明るさを変えたり、空間的かつ時間的に一貫性のあるカメラビデオを作成したりといった、修正されたシーンの現実的なリライトを行う。 我々の実験は、LightSimが以前の作業よりもリアルなリライティング結果を生成することを示している。 重要なのは、LightSimが生成したデータに対する知覚モデルのトレーニングによって、パフォーマンスが大幅に向上することです。

Different outdoor illumination conditions drastically alter the appearance of urban scenes, and they can harm the performance of image-based robot perception systems if not seen during training. Camera simulation provides a cost-effective solution to create a large dataset of images captured under different lighting conditions. Towards this goal, we propose LightSim, a neural lighting camera simulation system that enables diverse, realistic, and controllable data generation. LightSim automatically builds lighting-aware digital twins at scale from collected raw sensor data and decomposes the scene into dynamic actors and static background with accurate geometry, appearance, and estimated scene lighting. These digital twins enable actor insertion, modification, removal, and rendering from a new viewpoint, all in a lighting-aware manner. LightSim then combines physically-based and learnable deferred rendering to perform realistic relighting of modified scenes, such as altering the sun location and modifying the shadows or changing the sun brightness, producing spatially- and temporally-consistent camera videos. Our experiments show that LightSim generates more realistic relighting results than prior work. Importantly, training perception models on data generated by LightSim can significantly improve their performance.
翻訳日:2023-12-12 14:08:42 公開日:2023-12-11
# 潜在回廊による適応的人軌道予測

Adaptive Human Trajectory Prediction via Latent Corridors ( http://arxiv.org/abs/2312.06653v1 )

ライセンス: Link先を確認
Neerja Thakkar, Karttikeya Mangalam, Andrea Bajcsy, Jitendra Malik(参考訳) 人間の軌道予測は、通常ゼロショットの一般化問題として、訓練シーンにおける人間の動きのデータセットから学習され、未知のテストシーンに展開される。 このパラダイムは大きな進歩をもたらしたが、基本的には、デプロイメントシーンにおける人間の行動の傾向は、時間とともに一定である、と仮定している。 このように、現在の予測モデルは、一時的に集まる群衆や、雨の中を急いでいる歩行者、水たまりを避けたり、抗議活動など、シーン固有の一時的な人間の行動に適応できない。 本稿では,シーン固有の適応軌道予測の問題を形式化し,潜時廊下と呼ばれる即時チューニングにヒントを得た新しい適応手法を提案する。 学習可能な画像プロンプトにより、事前訓練されたヒト軌道予測装置の入力を増強することにより、非常に少量の新しいデータ(例えば、30秒間観察された2人の人間)の傾向を推測することにより、展開シーンを改善することができる。 0.1%の追加モデルパラメータでは、MOTSynthのシミュレーションデータの改善が23.9%、MOTおよびWildtrackにおけるADEが16.4%となる。 定性的には,非適応的予測者が捕獲に苦慮するシーン幾何学とシーン固有の人間の行動に意識を抱く潜伏廊下は,予測者によって予測される。 プロジェクトのwebサイトはhttps://neerja.me/atp_latent_corridors/にある。

Human trajectory prediction is typically posed as a zero-shot generalization problem: a predictor is learnt on a dataset of human motion in training scenes, and then deployed on unseen test scenes. While this paradigm has yielded tremendous progress, it fundamentally assumes that trends in human behavior within the deployment scene are constant over time. As such, current prediction models are unable to adapt to scene-specific transient human behaviors, such as crowds temporarily gathering to see buskers, pedestrians hurrying through the rain and avoiding puddles, or a protest breaking out. We formalize the problem of scene-specific adaptive trajectory prediction and propose a new adaptation approach inspired by prompt tuning called latent corridors. By augmenting the input of any pre-trained human trajectory predictor with learnable image prompts, the predictor can improve in the deployment scene by inferring trends from extremely small amounts of new data (e.g., 2 humans observed for 30 seconds). With less than 0.1% additional model parameters, we see up to 23.9% ADE improvement in MOTSynth simulated data and 16.4% ADE in MOT and Wildtrack real pedestrian data. Qualitatively, we observe that latent corridors imbue predictors with an awareness of scene geometry and scene-specific human behaviors that non-adaptive predictors struggle to capture. The project website can be found at https://neerja.me/atp_latent_corridors/.
翻訳日:2023-12-12 14:08:20 公開日:2023-12-11
# イスラム世界観に忠実なドメイン特化LDMの構築 - ミラージュか技術的可能性か?

Building Domain-Specific LLMs Faithful To The Islamic Worldview: Mirage or Technical Possibility? ( http://arxiv.org/abs/2312.06652v1 )

ライセンス: Link先を確認
Shabaz Patel, Hassan Kane, Rayhan Patel(参考訳) 大規模言語モデル(LLM)は多くの自然言語理解のユースケースで顕著な性能を示している。 しかし、この印象的なパフォーマンスには、ステレオタイプバイアスを永続する傾向や、存在しない事実を作る傾向など、固有の制限が伴う。 イスラム教とその表現の文脈では、クルアーンとスンナに根ざした信仰と教えの正確で事実的な表現が鍵となる。 本研究は、イスラム世界観に忠実なドメイン固有のLLMを構築することの課題に焦点を当て、そのようなシステムを構築し評価する方法を提案する。 まず、このオープンエンド目標を技術的問題として定義し、様々な解決策を提案する。 その後,各アプローチに固有の既知の課題を批判的に検討し,システム評価に使用できる評価方法論を強調する。 この研究は、機械学習とイスラムの奨学金を組み合わせた高品質なデータセット、評価、学際的な仕事の必要性を強調している。

Large Language Models (LLMs) have demonstrated remarkable performance across numerous natural language understanding use cases. However, this impressive performance comes with inherent limitations, such as the tendency to perpetuate stereotypical biases or fabricate non-existent facts. In the context of Islam and its representation, accurate and factual representation of its beliefs and teachings rooted in the Quran and Sunnah is key. This work focuses on the challenge of building domain-specific LLMs faithful to the Islamic worldview and proposes ways to build and evaluate such systems. Firstly, we define this open-ended goal as a technical problem and propose various solutions. Subsequently, we critically examine known challenges inherent to each approach and highlight evaluation methodologies that can be used to assess such systems. This work highlights the need for high-quality datasets, evaluations, and interdisciplinary work blending machine learning with Islamic scholarship.
翻訳日:2023-12-12 14:07:55 公開日:2023-12-11
# Dense X Retrieval:どの検索粒度を使うべきか?

Dense X Retrieval: What Retrieval Granularity Should We Use? ( http://arxiv.org/abs/2312.06648v1 )

ライセンス: Link先を確認
Tong Chen, Hongwei Wang, Sihao Chen, Wenhao Yu, Kaixin Ma, Xinran Zhao, Dong Yu, Hongming Zhang(参考訳) 密検索は、オープンドメインnlpタスクで関連する文脈や世界知識を得るための顕著な方法となっている。 推定時に検索コーパス上で学習された高密度検索器を使用する場合、しばしば見過ごされる設計選択は、文書、文、文などのコーパスをインデックス化する検索ユニットである。 検索ユニットの選択が検索タスクと下流タスクの両方のパフォーマンスに大きく影響することを発見した。 文や文を用いる典型的な手法とは別として,新しい検索単位である命題を導入し,密検索を行う。 命題はテキスト内のアトミック表現として定義され、それぞれ異なるファクトイドをカプセル化し、簡潔で自己完結した自然言語形式で示される。 我々は異なる検索粒度の実証的な比較を行う。 その結果, 提案に基づく検索は, 従来手法や文単位の検索方法を大きく上回ることがわかった。 さらに、提案による検索は、検索されたテキストが質問関連情報に凝縮されやすくなり、長い入力トークンの必要が減り、不要な情報を最小化するため、下流QAタスクの性能も向上する。

Dense retrieval has become a prominent method to obtain relevant context or world knowledge in open-domain NLP tasks. When we use a learned dense retriever on a retrieval corpus at inference time, an often-overlooked design choice is the retrieval unit in which the corpus is indexed, e.g. document, passage, or sentence. We discover that the retrieval unit choice significantly impacts the performance of both retrieval and downstream tasks. Distinct from the typical approach of using passages or sentences, we introduce a novel retrieval unit, proposition, for dense retrieval. Propositions are defined as atomic expressions within text, each encapsulating a distinct factoid and presented in a concise, self-contained natural language format. We conduct an empirical comparison of different retrieval granularity. Our results reveal that proposition-based retrieval significantly outperforms traditional passage or sentence-based methods in dense retrieval. Moreover, retrieval by proposition also enhances the performance of downstream QA tasks, since the retrieved texts are more condensed with question-relevant information, reducing the need for lengthy input tokens and minimizing the inclusion of extraneous, irrelevant information.
翻訳日:2023-12-12 14:07:41 公開日:2023-12-11
# 4m:巨大なマルチモーダルマスクモデリング

4M: Massively Multimodal Masked Modeling ( http://arxiv.org/abs/2312.06647v1 )

ライセンス: Link先を確認
David Mizrahi, Roman Bachmann, O\u{g}uzhan Fatih Kar, Teresa Yeo, Mingfei Gao, Afshin Dehghan, Amir Zamir(参考訳) 現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。 対照的に、最近の大規模言語モデルは幅広い機能を示しており、コンピュータビジョンにおける同様の多用途モデルの可能性を示している。 本稿では,この方向への一歩を踏み出し,4Mと呼ばれるマルチモーダルトレーニング手法を提案する。 それは、テキスト、画像、幾何学、意味的モダリティ、ニューラルネットワークの特徴マップを含む、幅広い入出力モダリティにわたってマスクモデリングの目的を用いて、単一の統一トランスフォーマエンコーダ-デコーダをトレーニングする。 4M は,任意のモダリティの表現空間を離散トークンにマッピングし,トークンのランダム化部分集合上でマルチモーダルマスクモデリングを行うことにより,スケーラビリティを実現する。 4m はいくつかの重要な能力を示すモデルをもたらす: (1) 様々な視覚タスクを最初から実行できる、(2) 知覚できない下流タスクや新しい入力モダリティのために微調整された時に優れている、(3) 任意のモダリティを条件とした生成モデルとして機能する、様々な表現力のあるマルチモーダル編集機能を可能にする。 実験分析により、視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするための4Mの可能性を示し、視覚や他の領域に対するマルチモーダル学習のさらなる探索のステージを設定した。

Current machine learning models for vision are often highly specialized and limited to a single modality and task. In contrast, recent large language models exhibit a wide range of capabilities, hinting at a possibility for similarly versatile models in computer vision. In this paper, we take a step in this direction and propose a multimodal training scheme called 4M. It consists of training a single unified Transformer encoder-decoder using a masked modeling objective across a wide range of input/output modalities - including text, images, geometric, and semantic modalities, as well as neural network feature maps. 4M achieves scalability by unifying the representation space of all modalities through mapping them into discrete tokens and performing multimodal masked modeling on a small randomized subset of tokens. 4M leads to models that exhibit several key capabilities: (1) they can perform a diverse set of vision tasks out of the box, (2) they excel when fine-tuned for unseen downstream tasks or new input modalities, and (3) they can function as a generative model that can be conditioned on arbitrary modalities, enabling a wide variety of expressive multimodal editing capabilities with remarkable flexibility. Through experimental analyses, we demonstrate the potential of 4M for training versatile and scalable foundation models for vision tasks, setting the stage for further exploration in multimodal learning for vision and other domains.
翻訳日:2023-12-12 14:07:21 公開日:2023-12-11
# 計算著作権:AI音楽生成プラットフォームのためのロイヤリティモデルを目指して

Computational Copyright: Towards A Royalty Model for AI Music Generation Platforms ( http://arxiv.org/abs/2312.06646v1 )

ライセンス: Link先を確認
Junwei Deng, Jiaqi Ma(参考訳) 生成的AIの進歩は、特に音楽産業において著作権問題に拍車をかけた。 本稿では,これらの課題の経済的側面に焦点をあて,著作権分野における経済的影響が中心的な課題となっていることを強調する。 ブラックボックス生成AI技術の複雑さは、示唆するだけでなく、アルゴリズム的なソリューションを必要とする。 しかし、このようなソリューションはほとんど失われており、この状況における規制上の課題につながった。 我々は、AI音楽生成プラットフォーム上での収益分配のためのロイヤリティモデルの提案によって、現在のアプローチのギャップを埋めることを目指している。 我々の手法は、SpotifyやYouTubeのようなプラットフォームにおける既存のロイヤリティモデルの詳細な分析と、これらをAI生成音楽のユニークなコンテキストに適応させることを含む。 私たちが対処する重要な課題は、トレーニングデータに影響力のある著作権コンテンツへのai生成音楽の帰属です。 そこで本研究では,データ帰属手法を用いたアルゴリズムソリューションを提案する。 実験結果は,これらの解の有効性を検証する。 この研究は、aiの分野における技術的進歩と経済的および法的考察を統合するための先駆的な取り組みであり、ai技術の不透明な性質によって生じる課題に対する計算的著作権ソリューションを提供する。

The advancement of generative AI has given rise to pressing copyright challenges, particularly in music industry. This paper focuses on the economic aspects of these challenges, emphasizing that the economic impact constitutes a central issue in the copyright arena. The complexity of the black-box generative AI technologies not only suggests but necessitates algorithmic solutions. However, such solutions have been largely missing, leading to regulatory challenges in this landscape. We aim to bridge the gap in current approaches by proposing potential royalty models for revenue sharing on AI music generation platforms. Our methodology involves a detailed analysis of existing royalty models in platforms like Spotify and YouTube, and adapting these to the unique context of AI-generated music. A significant challenge we address is the attribution of AI-generated music to influential copyrighted content in the training data. To this end, we present algorithmic solutions employing data attribution techniques. Our experimental results verify the effectiveness of these solutions. This research represents a pioneering effort in integrating technical advancements with economic and legal considerations in the field of generative AI, offering a computational copyright solution for the challenges posed by the opaque nature of AI technologies.
翻訳日:2023-12-12 14:06:53 公開日:2023-12-11
# beyond classification:定義と密度に基づく物体検出におけるキャリブレーションの推定

Beyond Classification: Definition and Density-based Estimation of Calibration in Object Detection ( http://arxiv.org/abs/2312.06645v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Aleksei Tiulpin, Matthew B. Blaschko(参考訳) 様々なコンピュータビジョンタスクにおける印象的な予測性能にもかかわらず、ディープニューラルネットワーク(DNN)は過度に自信を持って予測する傾向にあり、安全クリティカルなアプリケーションで広く使われることを妨げている。 近年、DNNを校正する試みがあるが、これらの取り組みの大部分は分類タスクに重点を置いており、DNNベースの物体検出器を無視している。 物体検出のためのキャリブレーションと微分可能なペナルティに関する最近の研究はいくつかあるが、いずれもキャリブレーションにおける確立された概念の一貫した推定者ではない。 本研究では,この課題に特化してキャリブレーション誤差の定義と推定に挑戦する。 特に,分類校正誤差の定義を,オブジェクト検出に関連するニュアンスや,構造化出力空間における予測をより一般的に扱うために適用する。 さらに,カーネル密度推定を用いた検出校正誤差の一貫した微分可能な推定器を提案する。 本実験は, 同様の検出性能を維持しつつ, 列車時およびポストホックキャリブレーション法に対する推定器の有効性を実証する。

Despite their impressive predictive performance in various computer vision tasks, deep neural networks (DNNs) tend to make overly confident predictions, which hinders their widespread use in safety-critical applications. While there have been recent attempts to calibrate DNNs, most of these efforts have primarily been focused on classification tasks, thus neglecting DNN-based object detectors. Although several recent works addressed calibration for object detection and proposed differentiable penalties, none of them are consistent estimators of established concepts in calibration. In this work, we tackle the challenge of defining and estimating calibration error specifically for this task. In particular, we adapt the definition of classification calibration error to handle the nuances associated with object detection, and predictions in structured output spaces more generally. Furthermore, we propose a consistent and differentiable estimator of the detection calibration error, utilizing kernel density estimation. Our experiments demonstrate the effectiveness of our estimator against competing train-time and post-hoc calibration methods, while maintaining similar detection performance.
翻訳日:2023-12-12 14:06:35 公開日:2023-12-11
# dreamoving:拡散モデルに基づく人間のビデオ生成フレームワーク

DreaMoving: A Human Video Generation Framework based on Diffusion Models ( http://arxiv.org/abs/2312.05107v2 )

ライセンス: Link先を確認
Mengyang Feng, Jinlin Liu, Kai Yu, Yuan Yao, Zheng Hui, Xiefan Guo, Xianhui Lin, Haolan Xue, Chen Shi, Xiaowen Li, Aojie Li, Xiaoyang Kang, Biwen Lei, Miaomiao Cui, Peiran Ren, Xuansong Xie(参考訳) 本稿では,ハイクオリティな人間の動画を制作するための拡散制御型ビデオ生成フレームワークdreamovingを提案する。 具体的には、ターゲットのアイデンティティと姿勢シーケンスが与えられた場合、DreaMovingは、姿勢シーケンスによって駆動される任意の場所で、ターゲットのアイデンティティが動いたり踊ったりするビデオを生成することができる。 そこで本研究では,モーションコントロールのためのVideo ControlNetと,ID保存のためのContent Guiderを提案する。 提案モデルの使用は容易であり,ほとんどのスタイライゼーション拡散モデルに適用して多様な結果を生成することができる。 プロジェクトページはhttps://dreamoving.github.io/dreamovingで閲覧できる。

In this paper, we present DreaMoving, a diffusion-based controllable video generation framework to produce high-quality customized human videos. Specifically, given target identity and posture sequences, DreaMoving can generate a video of the target identity moving or dancing anywhere driven by the posture sequences. To this end, we propose a Video ControlNet for motion-controlling and a Content Guider for identity preserving. The proposed model is easy to use and can be adapted to most stylized diffusion models to generate diverse results. The project page is available at https://dreamoving.github.io/dreamoving
翻訳日:2023-12-12 12:25:39 公開日:2023-12-11
# 自己知識蒸留による視覚言語モデルの固有知識と教師なし領域適応

Combining inherent knowledge of vision-language models with unsupervised domain adaptation through self-knowledge distillation ( http://arxiv.org/abs/2312.04066v2 )

ライセンス: Link先を確認
Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースデータセットを活用して、その知識を類似しているが異なるターゲットデータセットに転送することで、データラベリングの面倒な作業を克服しようとする。 一方、現在の視覚言語モデルは驚くべきゼロショット予測能力を示している。 本研究では,UDAを通して得られた知識と視覚言語モデル固有の知識を組み合わせる。 最初のステップでは、視覚言語モデルを用いて、ソースとターゲットデータセットのゼロショット予測を生成する。 ゼロショット予測は通常大きなエントロピーを示すため、クラス確率は均等に分布するので、まず分布を調整して勝利確率を強調する。 これはソースデータとターゲットデータの両方を使用して、ソースデータとターゲットデータの相対的な信頼性を維持する。 次に,従来のDA法を用いて,自己知識蒸留と組み合わせて,ソースデータセットから知識を得るとともに,視覚言語モデルの本質的知識を維持する。 さらに,本手法を段階的ソース領域拡張戦略(gsde)と組み合わせることで,ゼロショット予測を含めることで,この戦略が有益であることを示す。 我々は,OfficeHome,VisDA,DomainNetの3つのベンチマークの実験とアブレーション研究を行い,最先端の手法より優れている。 さらに、アルゴリズムの様々な部分の寄与についてアブレーション研究を行う。

Unsupervised domain adaptation (UDA) tries to overcome the tedious work of labeling data by leveraging a labeled source dataset and transferring its knowledge to a similar but different target dataset. On the other hand, current vision-language models exhibit astonishing zero-shot prediction capabilities. In this work, we combine knowledge gained through UDA with the inherent knowledge of vision-language models. In a first step, we generate the zero-shot predictions of the source and target dataset using the vision-language model. Since zero-shot predictions usually exhibit a large entropy, meaning that the class probabilities are rather evenly distributed, we first adjust the distribution to accentuate the winning probabilities. This is done using both source and target data to keep the relative confidence between source and target data. We then employ a conventional DA method, to gain the knowledge from the source dataset, in combination with self-knowledge distillation, to maintain the inherent knowledge of the vision-language model. We further combine our method with a gradual source domain expansion strategy (GSDE) and show that this strategy can also benefit by including zero-shot predictions. We conduct experiments and ablation studies on three benchmarks (OfficeHome, VisDA, and DomainNet) and outperform state-of-the-art methods. We further show in ablation studies the contributions of different parts of our algorithm.
翻訳日:2023-12-12 12:24:57 公開日:2023-12-11
# 個人軌跡の空間空間的表現学習

Jointly spatial-temporal representation learning for individual trajectories ( http://arxiv.org/abs/2312.04055v2 )

ライセンス: Link先を確認
Fei Huang, Jianrong Lv and Yang Yue(参考訳) 空間と時間にわたる人間と環境の相互作用情報に富んだ個々の軌道は、地理空間基盤モデル(GeoFM)の重要な入力となる。 しかし、軌道表現を学習しようとする試みは、軌道内における暗黙の空間-時間依存を見落としており、そのような依存を深層学習フレンドリーな形式にエンコードできていない。 これは汎用軌跡表現を得る上での課題である。 そこで本稿では,学習可能な時空間依存を軌道表現に変換するための時空間共同表現学習法(ST-GraphRL)を提案する。 提案したST-GraphRLは3つの構成からなる。 (i)空間次元と時間次元の両方の移動性相互作用を明示的に構築する重み付き空間時間グラフ 二 空間及び時刻情報を独立に分解し、統合することにより、絡み合う空間的-時間的依存関係を学ぶ二段階共同エンコーダ(デカップリング及び融合) (iii)デコーダは、軌道の空間-時間分布をシミュレートして、st-graphrlに明示的なモビリティの正則性を学習させる。 実世界の3つの人間の移動性データセットを用いて,ST-GraphRLは,移動時空間分布の予測と,空間時空間相関の高い軌道類似性の保存において,すべてのベースラインモデルより優れていた。 潜在空間で提示される時空間的特徴の分析は、ST-GraphRLが時空間的パターンを理解することを検証する。 本研究は,他の地理空間データの表現学習にも有効であり,汎用的なデータ表現とジオfms開発を前進させる。

Individual trajectories, rich in human-environment interaction information across space and time, serve as vital inputs for geospatial foundation models (GeoFMs). However, existing attempts at learning trajectory representations have overlooked the implicit spatial-temporal dependency within trajectories, failing to encode such dependency in a deep learning-friendly format. That poses a challenge in obtaining general-purpose trajectory representations. Therefore, this paper proposes a spatial-temporal joint representation learning method (ST-GraphRL) to formalize learnable spatial-temporal dependencies into trajectory representations. The proposed ST-GraphRL consists of three compositions: (i) a weighted directed spatial-temporal graph to explicitly construct mobility interactions in both space and time dimensions; (ii) a two-stage jointly encoder (i.e., decoupling and fusion), to learn entangled spatial-temporal dependencies by independently decomposing and jointly aggregating space and time information; (iii) a decoder guides ST-GraphRL to learn explicit mobility regularities by simulating the spatial-temporal distributions of trajectories. Tested on three real-world human mobility datasets, the proposed ST-GraphRL outperformed all the baseline models in predicting movement spatial-temporal distributions and preserving trajectory similarity with high spatial-temporal correlations. Analyzing spatial-temporal features presented in latent space validates that ST-GraphRL understands spatial-temporal patterns. This study may also benefit representation learnings of other geospatial data to achieve general-purpose data representations and advance GeoFMs development.
翻訳日:2023-12-12 12:24:36 公開日:2023-12-11
# moirai: 不均一デバイス上での分散推論の最適配置に向けて

Moirai: Towards Optimal Placement for Distributed Inference on Heterogeneous Devices ( http://arxiv.org/abs/2312.04025v2 )

ライセンス: Link先を確認
Beibei Zhang, Hongwei Zhu, Feng Gao, Zhihui Yang, Sean Xiaoyang Wang(参考訳) Deep Neural Networks(DNN)のエスカレートサイズは、複数のデバイスにまたがるDNNモデルのホスティングと提供に対する研究の関心を高めている。 デバイス間でDNNモデルを分割し、デバイス配置ソリューションを提供するいくつかの研究が報告されている。 しかし,本手法は,指数探索空間による配置性能の低下に悩まされるか,限定的なヒューリスティクスによる探索空間の縮小による最適配置を見逃すかのいずれかであった。 さらに、これらの手法は、グラフの粗化時に計算グラフの演算子間最適化を無視し、エンドツーエンドの推論性能を劣化させる。 本稿では,モデル内で実行時の演算子間融合をうまく活用して粗い計算グラフを描画し,推論バックエンドによるオペレータ間最適化を維持しながら探索空間を縮小するmoiraiを提案する。 Moiraiはまた、推論制約とデバイス不均一性を考慮し、デバイス配置アルゴリズムを多面的に一般化する。11の大規模なDNNによる大規模な実験的評価により、Moiraiは最先端の予測遅延(Placeto、m-SCT、GETF)を最大4.28$\times$で上回っている。 moirai コードは \url{https://github.com/moirai-placement/moirai} で匿名でリリースされる。

The escalating size of Deep Neural Networks (DNNs) has spurred a growing research interest in hosting and serving DNN models across multiple devices. A number of studies have been reported to partition a DNN model across devices, providing device placement solutions. The methods appeared in the literature, however, either suffer from poor placement performance due to the exponential search space or miss an optimal placement as a consequence of the reduced search space with limited heuristics. Moreover, these methods have ignored the runtime inter-operator optimization of a computation graph when coarsening the graph, which degrades the end-to-end inference performance. This paper presents Moirai that better exploits runtime inter-operator fusion in a model to render a coarsened computation graph, reducing the search space while maintaining the inter-operator optimization provided by inference backends. Moirai also generalizes the device placement algorithm from multiple perspectives by considering inference constraints and device heterogeneity.Extensive experimental evaluation with 11 large DNNs demonstrates that Moirai outperforms the state-of-the-art counterparts, i.e., Placeto, m-SCT, and GETF, up to 4.28$\times$ in reduction of the end-to-end inference latency. Moirai code is anonymously released at \url{https://github.com/moirai-placement/moirai}.
翻訳日:2023-12-12 12:24:09 公開日:2023-12-11
# 文脈内学習の校正に関する研究

A Study on the Calibration of In-context Learning ( http://arxiv.org/abs/2312.04021v2 )

ライセンス: Link先を確認
Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster, Eric Xing, Hima Lakkaraju, Sham Kakade(参考訳) 現代の自己回帰型言語モデルは、次のトークンを予測することで、幅広いデータのログ損失を最小限に抑えるために訓練され、次のトークン予測タスクで校正された回答が得られる。 本研究は,凍った大規模言語モデル(llm)を製作プロンプトを通じて適応させる手段として広く用いられているin-context learning (icl) について検討し,幅広い自然言語理解と推論タスクにおける性能とキャリブレーションのトレードオフについて検討する。 モデルサイズを増加させ、より多くのicl例を取り入れ、人間フィードバック(rlhf)からの指示、ダイアログ、強化学習を用いた微調整モデルが注意深く収集されたデータセット上で、このようなトレードオフが悪化する可能性があることを示すために、広範な実験を実施します。 さらに,温度スケーリングなどの一般的なリカレーション手法では,キャリブレーション誤差が限定的であり,モデルの信頼性が期待できるような設定に新たな手法が必要となる可能性が示唆された。

Modern auto-regressive language models are trained to minimize log loss on broad data by predicting the next token so they are expected to get calibrated answers in next-token prediction tasks. We study this for in-context learning (ICL), a widely used way to adapt frozen large language models (LLMs) via crafting prompts, and investigate the trade-offs between performance and calibration on a wide range of natural language understanding and reasoning tasks. We conduct extensive experiments to show that such trade-offs may get worse as we increase model size, incorporate more ICL examples, and fine-tune models using instruction, dialog, or reinforcement learning from human feedback (RLHF) on carefully curated datasets. Furthermore, we find that common recalibration techniques that are widely effective such as temperature scaling provide limited gains in calibration errors, suggesting that new methods may be required for settings where models are expected to be reliable.
翻訳日:2023-12-12 12:23:41 公開日:2023-12-11
# 仮想道路シーンにおけるオブジェクトインタラクションの効率的な生成のための自然言語駆動シミュレーションベンチマークとコパイロット

Natural-language-driven Simulation Benchmark and Copilot for Efficient Production of Object Interactions in Virtual Road Scenes ( http://arxiv.org/abs/2312.04008v2 )

ライセンス: Link先を確認
Kairui Yang, Zihao Guo, Gengjie Lin, Haotian Dong, Die Zuo, Jibin Peng, Zhao Huang, Zhecheng Xu, Fupeng Li, Ziyun Bai, Di Lin(参考訳) 自然言語駆動(nld)シミュレーションのアイデアを提唱し、仮想道路シーンにおける複数の物体間のオブジェクトインタラクションを効率的に生成し、予測不能な動きを伴う障害物との衝突を避けるために素早く行動すべき自律運転システムを指導し、テストする。 NLDシミュレーションにより、簡単な自然言語記述でオブジェクトの相互作用を制御でき、大量の対話データを作成するための人間の労力を大幅に削減できる。 NLDシミュレーションの研究を容易にするため、6種類の道路トポロジで12万の自然言語によるオブジェクトの相互作用を記述したL2Iベンチマークデータセットを収集した。 各記述はプログラムコードに関連付けられ、グラフィックレンダリングは仮想シーンのオブジェクトインタラクションを視覚的に再構築するために使用できる。 方法論的なコントリビューションとして,対話記述をレンダリング可能なコードに変換するためにSimCopilotを設計する。 我々はL2Iデータセットを用いて、SimCopilotの能力を評価し、オブジェクトの動きを制御し、複雑な相互作用を生成し、道路トポロジ間の相互作用を一般化する。 L2Iデータセットと評価結果はNLDシミュレーションの関連研究を動機付けている。

We advocate the idea of the natural-language-driven(NLD) simulation to efficiently produce the object interactions between multiple objects in the virtual road scenes, for teaching and testing the autonomous driving systems that should take quick action to avoid collision with obstacles with unpredictable motions. The NLD simulation allows the brief natural-language description to control the object interactions, significantly reducing the human efforts for creating a large amount of interaction data. To facilitate the research of NLD simulation, we collect the Language-to-Interaction(L2I) benchmark dataset with 120,000 natural-language descriptions of object interactions in 6 common types of road topologies. Each description is associated with the programming code, which the graphic render can use to visually reconstruct the object interactions in the virtual scenes. As a methodology contribution, we design SimCopilot to translate the interaction descriptions to the renderable code. We use the L2I dataset to evaluate SimCopilot's abilities to control the object motions, generate complex interactions, and generalize interactions across road topologies. The L2I dataset and the evaluation results motivate the relevant research of the NLD simulation.
翻訳日:2023-12-12 12:23:22 公開日:2023-12-11
# COCOおよび雑草データセットにおけるデータ拡張のための安定拡散

Stable diffusion for Data Augmentation in COCO and Weed Datasets ( http://arxiv.org/abs/2312.03996v2 )

ライセンス: Link先を確認
Boyang Deng(参考訳) 生成モデルはコンピュータビジョンからインテリアデザイン、その他の分野に至るまで、相対的なタスクにますます影響を与えている。 安定拡散は、テキストプロンプトや参照画像からの詳細な詳細で高解像度画像を生成するための優れた拡散モデルである。 イメージスパースカテゴリによる小さなデータセットの改善については、興味深いトピックになるでしょう。 本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリと3種の雑草種を用いた。 これらのクラスに属する合成画像の生成には,安定拡散を利用した3つの技術(画像から画像への変換,ドリームブート,コントロールネット)が活用された。 次に,これらの合成画像に基づいて分類・検出作業を行い,その性能を原画像で学習したモデルと比較した。 いくつかのクラスで結果が得られた。 このセミナルな研究は、異なる場への安定拡散モデルの適応を早めるかもしれない。

Generative models have increasingly impacted relative tasks, from computer vision to interior design and other fields. Stable diffusion is an outstanding diffusion model that paves the way for producing high-resolution images with thorough details from text prompts or reference images. It will be an interesting topic about gaining improvements for small datasets with image-sparse categories. This study utilized seven common categories and three widespread weed species to evaluate the efficiency of a stable diffusion model. In detail, Stable diffusion was used to generate synthetic images belonging to these classes; three techniques (i.e., Image-to-image translation, Dreambooth, and ControlNet) based on stable diffusion were leveraged for image generation with different focuses. Then, classification and detection tasks were conducted based on these synthetic images, whose performance was compared to the models trained on original images. Promising results have been achieved in some classes. This seminal study may expedite the adaption of stable diffusion models to different fields.
翻訳日:2023-12-12 12:22:43 公開日:2023-12-11
# Holmes: 異種NIC環境下でのクラスタ間の分散トレーニングを目指す

Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment ( http://arxiv.org/abs/2312.03549v3 )

ライセンス: Link先を確認
Fei Yang, Shuang Peng, Ning Sun, Fangyu Wang, Ke Tan, Fu Wu, Jiezhong Qiu, Aimin Pan(参考訳) GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。 しかし、これらのモデルのトレーニングにはかなりのコストがかかり、数ヶ月の連続運用には数万のgpuが必要となる。 通常、このトレーニングは、均一な高速リモートダイレクトメモリアクセス(RDMA)ネットワークインターフェースカード(NIC)を備えた専用GPUクラスタで実行される。 このような専用クラスタの獲得とメンテナンスは困難である。 現在のLLMトレーニングフレームワークであるMegatron-LMやMegatron-DeepSpeedは、主に同種クラスタ設定でのトレーニングの最適化に重点を置いている。 本稿では,不均一なNIC環境におけるデータとモデル並列化戦略を念頭に構築したLLMのトレーニングフレームワークであるHolmesを紹介する。 我々の主な技術的貢献は、LLMトレーニングにおける異なる計算タスクレットを、その接続NICの特性に基づいて特定のGPUデバイス群にインテリジェントに割り当てる新しいスケジューリング手法である。 さらに、パイプライン並列技術を利用した提案フレームワークでは、異なるクラスタ内のノード間の高速な相互接続のないシナリオにおいても、複数のGPUクラスタへのスケーラビリティを示す。 我々は異種NIC環境における様々なシナリオを含む包括的実験を行った。 ほとんどの場合、本フレームワークはRDMA対応ネットワーク(InfiniBandまたはRoCE)で達成可能な性能レベルに近い性能を達成し、純粋なイーサネット環境におけるトレーニング効率を大幅に上回る。 さらに,我々のフレームワークが,トレーニング効率の点で異種nic環境下で他の主流のllmフレームワークよりも優れており,それらをシームレスに統合できることを確認した。

Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks. However, training these models can incur significant expenses, often requiring tens of thousands of GPUs for months of continuous operation. Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs). The acquisition and maintenance of such dedicated clusters is challenging. Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings. In this paper, we introduce Holmes, a training framework for LLMs that employs thoughtfully crafted data and model parallelism strategies over the heterogeneous NIC environment. Our primary technical contribution lies in a novel scheduling method that intelligently allocates distinct computational tasklets in LLM training to specific groups of GPU devices based on the characteristics of their connected NICs. Furthermore, our proposed framework, utilizing pipeline parallel techniques, demonstrates scalability to multiple GPU clusters, even in scenarios without high-speed interconnects between nodes in distinct clusters. We conducted comprehensive experiments that involved various scenarios in the heterogeneous NIC environment. In most cases, our framework achieves performance levels close to those achievable with homogeneous RDMA-capable networks (InfiniBand or RoCE), significantly exceeding training efficiency within the pure Ethernet environment. Additionally, we verified that our framework outperforms other mainstream LLM frameworks under heterogeneous NIC environment in terms of training efficiency and can be seamlessly integrated with them.
翻訳日:2023-12-12 12:22:25 公開日:2023-12-11
# 編集可能なステップバイステップ記述によるインタラクティブテキスト間SQL生成

Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations ( http://arxiv.org/abs/2305.07372v4 )

ライセンス: Link先を確認
Yuan Tian, Zheng Zhang, Zheng Ning, Toby Jia-Jun Li, Jonathan K. Kummerfeld, Tianyi Zhang(参考訳) 関係データベースは、このビッグデータ時代において重要な役割を果たす。 しかし、SQLのようなデータベース言語に慣れていないため、非専門家がリレーショナルデータベースの分析能力を完全に解き放つことは困難である。 自然言語からSQLを自動的に生成する多くのテクニックが提案されているが、それらは2つの問題に悩まされている。(1) 依然として多くのミス、特に複雑なクエリ、(2) 非専門家のユーザが不正クエリを検証、洗練するための柔軟な方法を提供していない。 これらの問題に対処するために、ユーザがSQLエラーを修正するために、間違ったSQLのステップバイステップ説明を直接編集できる新しいインタラクションメカニズムを導入する。 スパイダーベンチマークの実験では、我々の手法は3つのSOTAアプローチを少なくとも31.6%上回っている。 24人の参加者によるユーザスタディでは、私たちのアプローチによって、より少ない時間と高い信頼性で、はるかに多くのSQLタスクを解決できることが示されています。

Relational databases play an important role in this Big Data era. However, it is challenging for non-experts to fully unleash the analytical power of relational databases, since they are not familiar with database languages such as SQL. Many techniques have been proposed to automatically generate SQL from natural language, but they suffer from two issues: (1) they still make many mistakes, particularly for complex queries, and (2) they do not provide a flexible way for non-expert users to validate and refine the incorrect queries. To address these issues, we introduce a new interaction mechanism that allows users directly edit a step-by-step explanation of an incorrect SQL to fix SQL errors. Experiments on the Spider benchmark show that our approach outperforms three SOTA approaches by at least 31.6% in terms of execution accuracy. A user study with 24 participants further shows that our approach helped users solve significantly more SQL tasks with less time and higher confidence, demonstrating its potential to expand access to databases, particularly for non-experts.
翻訳日:2023-12-12 12:21:15 公開日:2023-12-11