このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231129となっている論文です。

PDF登録状況(公開日: 20231129)

TitleAuthorsAbstract論文公表日・翻訳日
# TCP/IPサイドチャネルによるNATボックスのインターネット普及に関する研究

An Internet-wide Penetration Study on NAT Boxes via TCP/IP Side Channel ( http://arxiv.org/abs/2311.17392v1 )

ライセンス: Link先を確認
Xuan Feng, Shuo Chen, Haining Wang, (参考訳) ネットワークアドレス変換(NAT)は、内部のローカルエリアネットワーク内のデバイスを公共のインターネットから直接の悪意あるアクセスから保護する上で重要な役割を担っている。 しかし、最近の研究では、特定の状況下でNATボックスを浸透させる可能性を示している。 侵入されたNATボックスは攻撃者に悪用され、アクセス不能な内部ネットワークリソースを悪用し、重大なセキュリティ上の影響をもたらす。 本稿では,NATボックス上でのインターネット全体の浸透試験を実施することを目的とする。 私たちの研究と以前の研究の主な違いは、TCP/IPサイドチャネルをベースとしていることです。 我々は,研究文献におけるTCP/IP側チャネルについて検討し,一般性,倫理性,堅牢性の3つの要件を満たすため,共有IPID側チャネルがNAT接続テストに最も適していることを見出した。 このサイドチャネルに基づいて,インターネット全体のスキャンを5日間で行うことのできる適応型スキャナを,非攻撃的に開発する。 評価の結果,本手法は制御ネットワークと実ネットワークの両方において有効であることがわかった。 以上の結果から,3万以上のネットワークミドルボックスがNAT侵入に対して脆弱である可能性が示唆された。 それらは154の国と4,146の異なる組織に分散しており、NAT接続が深刻なセキュリティ上の脅威をもたらすことを示している。

Network Address Translation (NAT) plays an essential role in shielding devices inside an internal local area network from direct malicious accesses from the public Internet. However, recent studies show the possibilities of penetrating NAT boxes in some specific circumstances. The penetrated NAT box can be exploited by attackers as a pivot to abuse the otherwise inaccessible internal network resources, leading to serious security consequences. In this paper, we aim to conduct an Internet-wide penetration testing on NAT boxes. The main difference between our study and the previous ones is that ours is based on the TCP/IP side channels. We explore the TCP/IP side channels in the research literature, and find that the shared-IPID side channel is the most suitable for NAT-penetration testing, as it satisfies the three requirements of our study: generality, ethics, and robustness. Based on this side channel, we develop an adaptive scanner that can accomplish the Internet-wide scanning in 5 days in a very non-aggressive manner. The evaluation shows that our scanner is effective in both the controlled network and the real network. Our measurement results reveal that more than 30,000 network middleboxes are potentially vulnerable to NAT penetration. They are distributed across 154 countries and 4,146 different organizations, showing that NAT-penetration poses a serious security threat.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# フロンティアAI、生成AI、大規模AIモデルの時代におけるディープフェイク、誤情報、偽情報

Deepfakes, Misinformation, and Disinformation in the Era of Frontier AI, Generative AI, and Large AI Models ( http://arxiv.org/abs/2311.17394v1 )

ライセンス: Link先を確認
Mohamed R. Shoaib, Zefan Wang, Milad Taleby Ahvanooey, Jun Zhao, (参考訳) 高度な人工知能(AI)技術の出現により、ディープフェイクの拡散とm/disinformationの拡散は、世界中の情報エコシステムの完全性に対する恐ろしい脅威として現れてきた。 本稿では,現状の文献について概説する。 ディープフェイクを検出するための防衛メカニズムの開発におけるフロンティアAIの重要な応用の中で、我々は、大型モデル(LMベースGenAI)に基づく生成AIが、説得力のあるが製造された内容であるように見えるメカニズムを強調した。 我々は、LMベースのGenAIが社会、政治、個人のプライバシー侵害に与える影響を多面的に検討し、堅牢な防衛戦略の緊急の必要性を浮き彫りにしている。 これらの課題に対処するために,AIGC(AI-Generated Content)に関連するリスクを軽減するために,高度な検出アルゴリズム,クロスプラットフォームコラボレーション,ポリシ主導のイニシアティブを組み合わせた統合フレームワークを導入する。 マルチモーダル分析,デジタル透かし,機械学習に基づく認証技術を活用することで,進化を続ける自然のAI能力に適応可能な防御機構を提案する。 さらに,ジェンダイの倫理的利用に関する国際的コンセンサスと,m/disinformationに対する認知とレジリエンスを高めるためのサイバーウェルネス教育プログラムの実施を提唱する。 本研究は,技術革新と規制監督を包含する積極的な協調的アプローチが,ディープフェイクやGenAI対応のm/disinformationキャンペーンに対するサイバースペースと相互作用しながら,ネット市民の保護に不可欠であることを示唆している。

With the advent of sophisticated artificial intelligence (AI) technologies, the proliferation of deepfakes and the spread of m/disinformation have emerged as formidable threats to the integrity of information ecosystems worldwide. This paper provides an overview of the current literature. Within the frontier AI's crucial application in developing defense mechanisms for detecting deepfakes, we highlight the mechanisms through which generative AI based on large models (LM-based GenAI) craft seemingly convincing yet fabricated contents. We explore the multifaceted implications of LM-based GenAI on society, politics, and individual privacy violations, underscoring the urgent need for robust defense strategies. To address these challenges, in this study, we introduce an integrated framework that combines advanced detection algorithms, cross-platform collaboration, and policy-driven initiatives to mitigate the risks associated with AI-Generated Content (AIGC). By leveraging multi-modal analysis, digital watermarking, and machine learning-based authentication techniques, we propose a defense mechanism adaptable to AI capabilities of ever-evolving nature. Furthermore, the paper advocates for a global consensus on the ethical usage of GenAI and implementing cyber-wellness educational programs to enhance public awareness and resilience against m/disinformation. Our findings suggest that a proactive and collaborative approach involving technological innovation and regulatory oversight is essential for safeguarding netizens while interacting with cyberspace against the insidious effects of deepfakes and GenAI-enabled m/disinformation campaigns.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# Eden: 超高速で、おそらくセキュアで、完全に分散化されたブロックチェーン相互運用プロトコル

Eden: An Ultra Fast, Provably Secure, and Fully Decentralized Blockchain Interoperability Protocol ( http://arxiv.org/abs/2311.17454v1 )

ライセンス: Link先を確認
Ke Liang, (参考訳) ブロックチェーンエコシステムの進化と拡大が進むにつれ、異なるブロックチェーンネットワーク間のシームレスな相互運用性の必要性がますます高まっている。 相互運用性は、個々のブロックチェーンの機能とリーチを向上するだけでなく、分散化されたアプリケーションに対する新たな可能性の解放を可能にするコラボレーション環境も向上する。 本稿では,ゼロ知識MapReduceフレームワークを活用して,完全分散化を維持しつつ,超高速かつセキュアなクロスチェーン通信を容易にする,弾力性のある分散型送信ネットワークであるEdenを提案する。 Edenの設計選択、包括的セキュリティモデル、そして、困難なネットワーク条件下であっても、弾力性とレジリエンスを確保するために組み込まれている革新的なメカニズムについて詳述する。

As the blockchain ecosystem continues to evolve and expand, the need for seamless interoperability between disparate blockchain networks has become increasingly paramount. Interoperability not only enhances the functionality and reach of individual blockchains but also fosters a collaborative environment that can unlock new possibilities for decentralized applications. In this paper, we present Eden, an elastic decentralized envoy network that leverage zero-knowledge MapReduce framework to facilitates ultra-fast and secure cross-chain communication while maintaining complete decentralization. We detail the Eden's design choices, its comprehensive security model, and the innovative mechanisms it incorporates to ensure elasticity and resilience, even under challenging network conditions.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# 離散対数問題に基づく多人数共用ハッシュプロトコル

A Multiparty Commutative Hashing Protocol based on the Discrete Logarithm Problem ( http://arxiv.org/abs/2311.17498v1 )

ライセンス: Link先を確認
Daniel Zentai, Mihail Plesa, Robin Frot, (参考訳) P ={P_1,P_2,\dots,P_n\}$ あるメッセージのキー付きハッシュ値を$m\in\mathcal{X}$と$\mathcal{Y}$を2つの集合とし、参加者の集合である$P=\{P_1,P_2,\dots,P_n\}$と仮定する。 また、各参加者$P_i$が秘密値$x_i\in\mathcal{X}$を知っていると仮定する。 本稿では、この設定の参加者が値$y=H(m,x_1,x_2,\dots ,x_n)$のハッシュ関数$H:\mathcal{X}^{n+1}\rightarrow\mathcal{Y}$の値を計算できるプロトコルを提案し、関数$H$は一方関数であり、$P\backslash\{P_i\}$の参加者は$x_i$を得ることができず、データ所有者以外の参加者は$m$を得ることができず、ハッシュ値$y=H(m,x_1,x_2,\dots ,x_n)$は、秘密の$x_i$の順序に関わらず、同じままである。

Let $\mathcal{X}$ and $\mathcal{Y}$ be two sets and suppose that a set of participants $P=\{P_1,P_2,\dots,P_n\}$ would like to calculate the keyed hash value of some message $m\in\mathcal{X}$ known to a single participant in $P$ called the data owner. Also, suppose that each participant $P_i$ knows a secret value $x_i\in\mathcal{X}$. In this paper, we will propose a protocol that enables the participants in this setup to calculate the value $y=H(m,x_1,x_2,\dots ,x_n)$ of a hash function $H:\mathcal{X}^{n+1}\rightarrow\mathcal{Y}$ such that the function $H$ is a one-way function, participants in $P\backslash\{P_i\}$ cannot obtain $x_i$, participants other than the data owner cannot obtain $m$, and the hash value $y=H(m,x_1,x_2,\dots ,x_n)$ remains the same regardless the order of the secret $x_i$ values.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# 取締役会決定のためのサイバーセキュリティガバナンスへのデータ駆動アプローチ - システムレビュー

Data Driven Approaches to Cybersecurity Governance for Board Decision-Making -- A Systematic Review ( http://arxiv.org/abs/2311.17578v1 )

ライセンス: Link先を確認
Anita Modi, Ievgeniia Kuzminykh, Bogdan Ghita, (参考訳) サイバーセキュリティガバナンスは、サイバーリスクが効果的に管理されるように、戦略的意思決定の品質に影響を与える。 取締役会は、このリスクを管理する責任を負う意思決定者である。 彼らが直面する無数の課題に加えて、それらは技術やサイバーセキュリティの用語で十分に理解されていないことや、サイバーセキュリティを効果的に管理するための健全な決定を行うための適切なツールを提供していないことも多い。 ビジネスがサイバーレジリエントな組織を構築するためのアプローチを、BoDが明確にするためには、別のアプローチが必要である。 本稿では,既存のリスク計測機器,サイバーセキュリティ指標,およびBoDをサポートするための関連モデルについて検討する。 本研究の主な貢献の基盤となる7つの概念的テーマを文献分析により同定した。 その結果、高度なサイバーセキュリティツールが存在し、開発中であるにもかかわらず、取締役会が、彼らが理解している言語でサイバーセキュリティを管理するためのメトリクスとモデルの観点から、それらをサポートするための限られた情報が存在することがわかった。 このレビューはまた、取締役会に支援を提供するためにさらに調査できる理論やモデルに関する推奨事項も提供している。

Cybersecurity governance influences the quality of strategic decision-making to ensure cyber risks are managed effectively. Board of Directors are the decisions-makers held accountable for managing this risk; however, they lack adequate and efficient information necessary for making such decisions. In addition to the myriad of challenges they face, they are often insufficiently versed in the technology or cybersecurity terminology or not provided with the correct tools to support them to make sound decisions to govern cybersecurity effectively. A different approach is needed to ensure BoDs are clear on the approach the business is taking to build a cyber resilient organization. This systematic literature review investigates the existing risk measurement instruments, cybersecurity metrics, and associated models for supporting BoDs. We identified seven conceptual themes through literature analysis that form the basis of this study's main contribution. The findings showed that, although sophisticated cybersecurity tools exist and are developing, there is limited information for Board of Directors to support them in terms of metrics and models to govern cybersecurity in a language they understand. The review also provides some recommendations on theories and models that can be further investigated to provide support to Board of Directors.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# veTokenモデルの創発的成果

Emergent Outcomes of the veToken Model ( http://arxiv.org/abs/2311.17589v1 )

ライセンス: Link先を確認
Thomas Lloyd, Daire O'Broin, Martin Harrigan, (参考訳) 分散化された組織は、ガバナンスの基盤としてブロックチェーンを使用している。彼らは、投票の重み付け、提案の公開、投票、結果の実行にオンチェーントランザクションを使用している。 しかしながら、ブロックチェーンベースのガバナンス構造には、特に、匿名投票者の短期的な見通しと、分散化された組織の長期的な成長と成功を一致させる必要性が課題である。 投票富(veToken)モデルは、投票重量と引き換えに、投票者が長期にわたって価値のトークンをエスカローまたはロックすることを要求することで、この緊張を解消しようとするものである。 本稿では,veTokenモデルについて述べるとともに,その創発的結果を解析する。 投票行動は,より高いプロトコルによって設定された収賄に追従し,その取得方法によって投票ごとのコストが変化することを示す。 本稿では, 安定版自動市場メーカーであるCurve FinanceによるveTokenモデルの実装と, この実装の上に生じたプロトコルのエコシステムについて述べる。 我々は、Votiumのような投票市場が、コンベックス・ファイナンス(Convex Finance)による2週間の投票結果を大きく決定していることを示し、安定したコイン発行者であるFrax Financeが、Curveに比較的少ないトークンを直接ロックしているにもかかわらず、エコシステムにおいて中心的な役割を果たすことを示した。 代わりに、コンベックス・ファイナンスのような利回りアグリゲーターを通じて間接的にトークンをロックし、Votiumのような投票市場を通じて投票重量を購入する。 veTokenモデルは直接フォワードで簡単に説明できるが、多くの複雑で創発的な結果をもたらす。 分散化された組織は、モデルを採用する前にこれらの成果を検討するべきです。

Decentralised organisations use blockchains as a basis for governance: they use on-chain transactions to allocate voting weight, publish proposals, cast votes, and enact the results. However, blockchain-based governance structures have challenges, mostly notably, the need to align the short-term outlook of pseudononymous voters with the long-term growth and success of the decentralised organisation. The Vote-Escrowed Token (veToken) model attempts to resolve this tension by requiring voters to escrow or lock tokens of value for an extended period in exchange for voting weight. In this paper, we describe the veToken model and analyse its emergent outcomes. We show that voting behaviour follows bribes set by higher-level protocols, and that the cost per vote varies depending on how it is acquired. We describe the implementation of the veToken model by Curve Finance, a popular automated market maker for stablecoins, and the ecosystem of protocols that has arisen on top of this implementation. We show that voting markets such as Votium largely determine the outcome of fortnightly votes held by Convex Finance, and we show that Frax Finance, a stablecoin issuer, plays a central role in the ecosystem even though they directly lock relatively few tokens with Curve. Instead, they indirectly lock tokens through yield aggregators such as Convex Finance and purchase voting weight through voting markets such as Votium. Although the veToken model in isolation is straight-forward and easily explained, it leads to many complex and emergent outcomes. Decentralised organisations should consider these outcomes before adopting the model.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# sec-certs: より優れた脆弱性軽減のためのセキュリティ認定プラクティスの検討

sec-certs: Examining the security certification practice for better vulnerability mitigation ( http://arxiv.org/abs/2311.17603v1 )

ライセンス: Link先を確認
Adam Janovsky, Jan Jancar, Petr Svenda, Łukasz Chmielewski, Jiri Michalik, Vashek Matyas, (参考訳) Common Criteriaのようなセキュリティ認定フレームワークの下で認定された製品は、コストのかかる認定プロセスの間、かなり精査される。 しかし、プライベートキーリカバリ(ROCA、Minerva、TPM-Fail...)を含む重要な脆弱性は、高い保証レベルを持つ認定製品で発見される。 さらに、未構造化の認証関連データや証明書間の不明瞭な関係のため、このような脆弱性によってどの認定製品が影響を受けるかを評価することは複雑である。 これらの問題に対処するため、我々はCommon CriteriaとFIPS 140証明書の大規模自動解析を行った。 NISTのNational Vulnerability Databaseの脆弱性が既存の認定製品に与える影響と、認定された製品が相互に参照する方法を学ぶために、教師なしのモデルをトレーニングしました。 我々のツールは、数万の認証関連文書の分析を自動化し、手動による解析が不可能なマシン可読な特徴を抽出する。 さらに、より少ない脆弱性(平均値)で影響を受ける製品に関連するセキュリティ要件を特定します。 これは、認証のどの側面がより高いセキュリティと相関しているかを示しています。 当社のツールが、既知の高名な脆弱性の4つのケーススタディにおいて、より優れた脆弱性軽減にどのように使用できるかを実証する。 すべてのツールと継続的に更新された結果がhttps://seccerts.org.comで公開されている。

Products certified under security certification frameworks such as Common Criteria undergo significant scrutiny during the costly certification process. Yet, critical vulnerabilities, including private key recovery (ROCA, Minerva, TPM-Fail...), get discovered in certified products with high assurance levels. Furthermore, assessing which certified products are impacted by such vulnerabilities is complicated due to the large amount of unstructured certification-related data and unclear relationships between the certificates. To address these problems, we conducted a large-scale automated analysis of Common Criteria and FIPS 140 certificates. We trained unsupervised models to learn which vulnerabilities from NIST's National Vulnerability Database impact existing certified products and how certified products reference each other. Our tooling automates the analysis of tens of thousands of certification-related documents, extracting machine-readable features where manual analysis is unattainable. Further, we identify the security requirements that are associated with products being affected by fewer and less severe vulnerabilities (on average). This indicates which aspects of certification correlate with higher security. We demonstrate how our tool can be used for better vulnerability mitigation on four case studies of known, high-profile vulnerabilities. All tools and continuously updated results are available at https://seccerts.org.
翻訳日:2024-03-18 13:44:50 公開日:2023-11-29
# RACED:分散ハッシュテーブルを用いた支払チャネルネットワークのルーティング

RACED: Routing in Payment Channel Networks Using Distributed Hash Tables ( http://arxiv.org/abs/2311.17668v1 )

ライセンス: Link先を確認
Kartick Kolachala, Mohammed Ababneh, Roopa Vishwanathan, (参考訳) Bitcoinのスケーラビリティの問題により、ブロックチェーンに各トランザクションを書き込むことなく、マイクロペイメントトランザクションを含むさまざまな量のトランザクションを処理できる、支払いチャネルネットワーク(PCN)のようなオフチェーンの金融メカニズムが開発された。 PCNは経路ベースのトランザクションのみを許すため、送信者と受信者の間の経路を見つける効果的なセキュアなルーティングプロトコルはPCN操作の基本となる。 本稿では,分散ハッシュテーブル(DHT)の考え方を利用して,PCN内のトランザクションを高速かつセキュアにルーティングするルーティングプロトコル RACED を提案する。 実世界のトランザクションデータセットに対する我々の実験によると、RASDの平均トランザクション成功率は98.74%であり、平均パスフィニング時間は31.242秒であり、これは1.65*10^3$、1.8*10^3$、および4*10^2$である。 我々は,Universal ComposabilityフレームワークにおけるRASDのセキュリティを厳格に分析し,実証する。

The Bitcoin scalability problem has led to the development of off-chain financial mechanisms such as payment channel networks (PCNs) which help users process transactions of varying amounts, including micro-payment transactions, without writing each transaction to the blockchain. Since PCNs only allow path-based transactions, effective, secure routing protocols that find a path between a sender and receiver are fundamental to PCN operations. In this paper, we propose RACED, a routing protocol that leverages the idea of Distributed Hash Tables (DHTs) to route transactions in PCNs in a fast and secure way. Our experiments on real-world transaction datasets show that RACED gives an average transaction success ratio of 98.74%, an average pathfinding time of 31.242 seconds, which is $1.65*10^3$, $1.8*10^3$, and $4*10^2$ times faster than three other recent routing protocols that offer comparable security/privacy properties. We rigorously analyze and prove the security of RACED in the Universal Composability framework.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-29
# 対称型アルファ安定プライバシー機構

The Symmetric alpha-Stable Privacy Mechanism ( http://arxiv.org/abs/2311.17789v1 )

ライセンス: Link先を確認
Christopher Zawacki, Eyad Abed, (参考訳) デジタルプラットフォームが急速に成長するにつれ、個人データの収集、保存、利用に関する理解が高まっている。 これらの懸念は、データ漏洩やサイバー攻撃から、ターゲットとする広告や監視のための個人情報の誤用まで多岐にわたる。 その結果、ディファレンシャルプライバシ(DP)は、システムの保護レベルを定量化する重要なツールとして登場した。 ガウスのメカニズムは、ガウス密度が畳み込みの下で閉じているため、一般的に用いられる。 しかし、ガウスのメカニズムは近似的な差分プライバシーのみを満たす。 本研究では,Symmetric alpha-Stable (SaS) 機構の新しい解析法を提案する。 この機構は、畳み込みの下で閉じたまま、純粋に微分プライベートであることを示す。 分析から、プライバシに重点を置くアプリケーションには、SaSメカニズムが魅力的な選択だと信じています。

With the rapid growth of digital platforms, there is increasing apprehension about how personal data is being collected, stored, and used by various entities. These concerns range from data breaches and cyber-attacks to potential misuse of personal information for targeted advertising and surveillance. As a result, differential privacy (DP) has emerged as a prominent tool for quantifying a system's level of protection. The Gaussian mechanism is commonly used because the Gaussian density is closed under convolution, a common method utilized when aggregating datasets. However, the Gaussian mechanism only satisfies approximate differential privacy. In this work, we present novel analysis of the Symmetric alpha-Stable (SaS) mechanism. We prove that the mechanism is purely differentially private while remaining closed under convolution. From our analysis, we believe the SaS Mechanism is an appealing choice for privacy focused applications.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-29
# 対称置換暗号のセキュリティ向上のためのランダム化キーマトリックスの活用

Leveraging a Randomized Key Matrix to Enhance the Security of Symmetric Substitution Ciphers ( http://arxiv.org/abs/2311.18085v1 )

ライセンス: Link先を確認
Shubham Gandhi, Om Khare, Mihika Dravid, Mihika Sanghvi, Sunil Mane, Aadesh Gajaralwar, Saloni Gandhi, (参考訳) 対称置換暗号のセキュリティを強化するための革新的な戦略として、バイナリやテキストファイルに制限されない様々なファイル形式に適したランダム化キー行列を実装した。 その歴史的関連性にもかかわらず、対称置換暗号は、周波数分析や既知の平文攻撃のような暗号解析手法の脆弱性によって制限されている。 本研究の目的は, 異なるランダム化キーマトリックスを組み込んだ多糖質置換戦略を用いることで, これらの脆弱性を緩和することである。 このマトリックスは、上位文字と下位文字と数値文字と特殊文字の両方を包含し、対応する暗号文を導出する、ユニークなランダムキーを生成する上で重要な役割を担っている。 提案手法の有効性は, 計算速度, 周波数解析, キースペース試験, カシキ試験, エントロピー解析, 大規模言語モデルの利用を網羅した, 包括的テストと解析によって裏付けられる。

An innovative strategy to enhance the security of symmetric substitution ciphers is presented, through the implementation of a randomized key matrix suitable for various file formats, including but not limited to binary and text files. Despite their historical relevance, symmetric substitution ciphers have been limited by vulnerabilities to cryptanalytic methods like frequency analysis and known plaintext attacks. The aim of our research is to mitigate these vulnerabilities by employing a polyalphabetic substitution strategy that incorporates a distinct randomized key matrix. This matrix plays a pivotal role in generating a unique random key, comprising characters, encompassing both uppercase and lowercase letters, numeric, and special characters, to derive the corresponding ciphertext. The effectiveness of the proposed methodology in enhancing the security of conventional substitution methods for file encryption and decryption is supported by comprehensive testing and analysis, which encompass computational speed, frequency analysis, keyspace examination, Kasiski test, entropy analysis, and the utilization of a large language model.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-29
# AnonPSI:PSIの匿名性評価フレームワーク

AnonPSI: An Anonymity Assessment Framework for PSI ( http://arxiv.org/abs/2311.18118v1 )

ライセンス: Link先を確認
Bo Jiang, Jian Du, Qiang Yan, (参考訳) プライベート・セット・インターセクション(PSI)は、2つのパーティが共有データセットの区切られた部分で関数を安全に計算できるプロトコルであり、長年にわたって重要な研究対象となっている。 しかし、近年の研究では、複数のPSIプロトコルを呼び出し、敵が個人のメンバーシップを推論するSet Membership Inference Attacks(SMIA)の脆弱性を強調している。 このことは、PSIの最も厳密なバージョンにおいてさえ、交叉の基数だけを返すようなかなりのリスクをもたらす。 本稿では,PSIにおける匿名性の評価について検討する。 当初、既存の作業がプライバシー漏洩の測定に不足している理由を強調し、その後、これらの欠陥に対処する2つの攻撃戦略を提案する。 さらに,提案手法の性能を理論的に保証する。 これらに加えて、交差点のメンバー(PSI-SUM)に付随するペイロードの和などの補助情報の統合により、攻撃効率が向上することを示す。 本研究では,2つの実データを用いた各種攻撃戦略の総合的評価を行った。 本研究は,従来の研究成果と対比して,攻撃効率を著しく向上させることが示唆された。 { 効果的な攻撃は、既存のPSIプロトコルのみに依存すると、適切なレベルのプライバシー保証が得られないことを意味する。 プライバシー保護をさらに強化するために、プライバシー強化技術を相乗的に組み合わせることが推奨されている。

Private Set Intersection (PSI) is a widely used protocol that enables two parties to securely compute a function over the intersected part of their shared datasets and has been a significant research focus over the years. However, recent studies have highlighted its vulnerability to Set Membership Inference Attacks (SMIA), where an adversary might deduce an individual's membership by invoking multiple PSI protocols. This presents a considerable risk, even in the most stringent versions of PSI, which only return the cardinality of the intersection. This paper explores the evaluation of anonymity within the PSI context. Initially, we highlight the reasons why existing works fall short in measuring privacy leakage, and subsequently propose two attack strategies that address these deficiencies. Furthermore, we provide theoretical guarantees on the performance of our proposed methods. In addition to these, we illustrate how the integration of auxiliary information, such as the sum of payloads associated with members of the intersection (PSI-SUM), can enhance attack efficiency. We conducted a comprehensive performance evaluation of various attack strategies proposed utilizing two real datasets. Our findings indicate that the methods we propose markedly enhance attack efficiency when contrasted with previous research endeavors. {The effective attacking implies that depending solely on existing PSI protocols may not provide an adequate level of privacy assurance. It is recommended to combine privacy-enhancing technologies synergistically to enhance privacy protection even further.
翻訳日:2024-03-18 13:35:06 公開日:2023-11-29
# 部分シミュレーションからの外挿によるシミュレーションオプティマイザのインフォーマル安全性保証

Informal Safety Guarantees for Simulated Optimizers Through Extrapolation from Partial Simulations ( http://arxiv.org/abs/2401.16426v1 )

ライセンス: Link先を確認
Luke Marks(参考訳) 自己監督学習は、最先端の芸術言語モデリングのバックボーンである。 自己教師付きデータセットでの予測損失を伴うトレーニングはシミュレータを引き起こす、と論じられている: 実世界のシステムの構成を内部的に表現するエンティティ。 この仮定の下で、シミュレーターの数学的モデルは、埋め込みエージェントのデカルト的フレームモデルに基づいて構築され、2次元のフレームを任意の次元にスケールすることでマルチエージェントの世界に拡張される。 スケーリング次元を利用するこの変種はデカルト対象と呼ばれ、シミュレーション(個々のシムラクラがその対象のエージェントとデバイスである)を表現するのに使用される。 直交対象の周囲では、シミュレータの動作を形式化するためにトークン選択やシミュレーションの複雑さといった関数が説明され、シミュレータの文脈では、設計の検査によるシムラクラ間のアライメントの証明が不可能であることを示すために(l\"obian obstacle")用いられる。 続いて,低複雑度シミュレーションの評価を通じてl\"obian obstacleを回避することを目的とした部分的シミュレーション外挿法を提案する。

Self-supervised learning is the backbone of state of the art language modeling. It has been argued that training with predictive loss on a self-supervised dataset causes simulators: entities that internally represent possible configurations of real-world systems. Under this assumption, a mathematical model for simulators is built based in the Cartesian frames model of embedded agents, which is extended to multi-agent worlds through scaling a two-dimensional frame to arbitrary dimensions, where literature prior chooses to instead use operations on frames. This variant leveraging scaling dimensionality is named the Cartesian object, and is used to represent simulations (where individual simulacra are the agents and devices in that object). Around the Cartesian object, functions like token selection and simulation complexity are accounted for in formalizing the behavior of a simulator, and used to show (through the L\"obian obstacle) that a proof of alignment between simulacra by inspection of design is impossible in the simulator context. Following this, a scheme is proposed and termed Partial Simulation Extrapolation aimed at circumventing the L\"obian obstacle through the evaluation of low-complexity simulations.
翻訳日:2024-02-11 17:44:09 公開日:2023-11-29
# 畳み込みニューラルネットワークからの固定点作用

Fixed point actions from convolutional neural networks ( http://arxiv.org/abs/2311.17816v1 )

ライセンス: Link先を確認
Kieran Holland, Andreas Ipp, David I. M\"uller, Urs Wenger(参考訳) 格子ゲージ同変畳み込みニューラルネットワーク(L-CNN)は任意の形状のウィルソンループを形成することができ、格子上のゲージ共変関数やゲージ不変関数を近似することができる。 ここでは、再正規化群変換に基づく固定点(FP)作用を記述するためにL-CNNを用いる。 fp作用は古典的に完全であり、すなわち、古典的ゲージ場構成上の格子アーティファクトが運動方程式を満たすため、スケール不変なインスタントン解を持つ。 FP アクションは、格子間隔の全ての順序に改善されたツリーレベルシマンジックであり、粗い格子でさえ非常に小さな格子アーチファクトで物理的予測を生成することができる。 従来のアプローチに比べて,L-CNNはFP作用のパラメトリゼーションにおいてはるかに正確であることがわかった。 したがって、臨界的な減速や位相的凍結を回避し、連続体限界に向かって凍らせることができる。

Lattice gauge-equivariant convolutional neural networks (L-CNNs) can be used to form arbitrarily shaped Wilson loops and can approximate any gauge-covariant or gauge-invariant function on the lattice. Here we use L-CNNs to describe fixed point (FP) actions which are based on renormalization group transformations. FP actions are classically perfect, i.e., they have no lattice artifacts on classical gauge-field configurations satisfying the equations of motion, and therefore possess scale invariant instanton solutions. FP actions are tree-level Symanzik-improved to all orders in the lattice spacing and can produce physical predictions with very small lattice artifacts even on coarse lattices. We find that L-CNNs are much more accurate at parametrizing the FP action compared to older approaches. They may therefore provide a way to circumvent critical slowing down and topological freezing towards the continuum limit.
翻訳日:2024-01-22 13:01:47 公開日:2023-11-29
# open review-based (orb) dataset : 科学論文の自動評価と高エネルギー物理学実験の提案に向けて

The Open Review-Based (ORB) dataset: Towards Automatic Assessment of Scientific Papers and Experiment Proposals in High-Energy Physics ( http://arxiv.org/abs/2312.04576v1 )

ライセンス: Link先を確認
Jaroslaw Szumega, Lamine Bougueroua, Blerina Gkotse, Pierre Jouvelot, Federico Ravotti(参考訳) オープンサイエンスのアプローチが研究にとって重要になるにつれ、オープンな科学論文レビューへの進化が科学コミュニティに影響を与えている。 しかし、このテーマに関連する研究活動を行うための公的なリソースが不足しており、現在関心のある関係者のレビュープロセスへのアクセスを許可しているジャーナルやカンファレンスは限られている。 本稿では,新たな包括的オープンレビューベースデータセット(ORB)を紹介し,89,000以上のレビューと最終決定を伴う36,000以上の科学論文のキュレートリストを含む。 この情報はOpenReview.netとSciPost.orgの2つのサイトから収集しています。 しかし、このドメインの揮発性の性質を考えると、ORBデータセットを補完するソフトウェアインフラは、将来追加リソースに対応するように設計されている。 ORBの成果物には、(1)文書データとメタデータを構造化された高レベルな表現に変換するPythonコード(インタフェースと実装)、(2)ETLプロセス(Extract, Transform, Load)、(3)構造化されたデータを表すデータファイルからの自動更新を容易にする。 本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。 また,本研究では,(1)論文のテキスト組込みに基づく受容予測,(2)組込みから推定された統計値の格付けを目的とした自然言語処理に基づく予備実験についても述べる。 ORBはオープンサイエンスとレビューに関心のある研究者に貴重なリソースを提供し、さらなる分析と実験のためにこのデータの利用を緩和する。 我々は、ORBが成熟するにつれて更新し、高エネルギー物理学などの専門分野にさらに適合した新たな資源を導入する計画である。

With the Open Science approach becoming important for research, the evolution towards open scientific-paper reviews is making an impact on the scientific community. However, there is a lack of publicly available resources for conducting research activities related to this subject, as only a limited number of journals and conferences currently allow access to their review process for interested parties. In this paper, we introduce the new comprehensive Open Review-Based dataset (ORB); it includes a curated list of more than 36,000 scientific papers with their more than 89,000 reviews and final decisions. We gather this information from two sources: the OpenReview.net and SciPost.org websites. However, given the volatile nature of this domain, the software infrastructure that we introduce to supplement the ORB dataset is designed to accommodate additional resources in the future. The ORB deliverables include (1) Python code (interfaces and implementations) to translate document data and metadata into a structured and high-level representation, (2) an ETL process (Extract, Transform, Load) to facilitate the automatic updates from defined sources and (3) data files representing the structured data. The paper presents our data architecture and an overview of the collected data along with relevant statistics. For illustration purposes, we also discuss preliminary Natural-Language-Processing-based experiments that aim to predict (1) papers' acceptance based on their textual embeddings, and (2) grading statistics inferred from embeddings as well. We believe ORB provides a valuable resource for researchers interested in open science and review, with our implementation easing the use of this data for further analysis and experimentation. We plan to update ORB as the field matures as well as introduce new resources even more fitted to dedicated scientific domains such as High-Energy Physics.
翻訳日:2024-01-15 14:57:24 公開日:2023-11-29
# race-it:インメモリトランスフォーマーアクセラレーションのための再構成可能なアナログカムクロスバーエンジン

RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory Transformer Acceleration ( http://arxiv.org/abs/2312.06532v1 )

ライセンス: Link先を確認
Lei Zhao, Luca Buonanno, Ron M. Roth, Sergey Serebryakov, Archit Gajjar, John Moon, Jim Ignowski, Giacomo Pedretti(参考訳) Transformerモデルはディープニューラルネットワーク(DNN)の最先端を表現し、幅広い機械学習タスクで優れています。 しかし、これらのモデルを処理するにはかなりの計算資源が必要であり、結果としてかなりのメモリフットプリントが得られる。 メモリ内コンピューティング(IMC)は、高い計算並列性と最小のデータ移動を伴うマトリックス-ベクター乗算(MVM)の高速化を約束する一方で、DNN内で他の重要な演算子を実装するためにそれを活用することは、依然として恐ろしい作業である。 この課題は、注意機構内のSoftmaxとデータ依存行列乗算の広範な利用によって悪化する。 さらに,アナログ・デジタル・コンバータ(ADC)の面積とエネルギー集約性により,アナログMVM加速の利点を十分に活用する上で,既存のIMC設計は困難である。 これらの課題に対処するために、トランスフォーマー内で様々な非MVM操作を実行できる新しいCompute-ACAM(Compute-ACAM)構造を導入する。 RACE-ITアクセラレーションは,クロスバー構造とともに,アナログ領域におけるTransformerモデル内の全ての操作の効率的な実行を可能にする。 任意の操作を行うために提案したCompute-ACAMの柔軟性を考えると、RAS-ITはハードウェア修正を必要とせず、多様な非従来型および将来のDNNアーキテクチャへの適応性を示す。 アナログ入力を処理してデジタル出力を生成するCompute-ACAMの能力を活用して、ADCを置き換えることにより、全体の面積とエネルギーコストを削減できる。 RACE-ITは、最先端GPUと既存のMCアクセラレータに対して様々なTransformerモデルを評価することにより、パフォーマンスを10.7xと5.9xに向上し、それぞれ1193xと3.9xに削減する。

Transformer models represent the cutting edge of Deep Neural Networks (DNNs) and excel in a wide range of machine learning tasks. However, processing these models demands significant computational resources and results in a substantial memory footprint. While In-memory Computing (IMC) offers promise for accelerating Matrix-Vector Multiplications (MVMs) with high computational parallelism and minimal data movement, employing it for implementing other crucial operators within DNNs remains a formidable task. This challenge is exacerbated by the extensive use of Softmax and data-dependent matrix multiplications within the attention mechanism. Furthermore, existing IMC designs encounter difficulties in fully harnessing the benefits of analog MVM acceleration due to the area and energy-intensive nature of Analog-to-Digital Converters (ADCs). To tackle these challenges, we introduce a novel Compute Analog Content Addressable Memory (Compute-ACAM) structure capable of performing various non-MVM operations within Transformers. Together with the crossbar structure, our proposed RACE-IT accelerator enables efficient execution of all operations within Transformer models in the analog domain. Given the flexibility of our proposed Compute-ACAMs to perform arbitrary operations, RACE-IT exhibits adaptability to diverse non-traditional and future DNN architectures without necessitating hardware modifications. Leveraging the capability of Compute-ACAMs to process analog input and produce digital output, we also replace ADCs, thereby reducing the overall area and energy costs. By evaluating various Transformer models against state-of-the-art GPUs and existing IMC accelerators, RACE-IT increases performance by 10.7x and 5.9x, and reduces energy by 1193x, and 3.9x, respectively
翻訳日:2024-01-15 14:47:53 公開日:2023-11-29
# 適応的スムース・アクティベーションによる放射線画像からの疾患診断と臓器分画の改善

Adaptive Smooth Activation for Improved Disease Diagnosis and Organ Segmentation from Radiology Scans ( http://arxiv.org/abs/2312.11480v1 )

ライセンス: Link先を確認
Koushik Biswas, Debesh Jha, Nikhil Kumar Tomar, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Bohrani, Ulas Bagci(参考訳) 本研究では, 適応平滑化ユニット (ASAU) と呼ばれる新しい活性化関数を提案し, 医用画像解析における畳み込みネットワークの精度の向上を図る。 我々は,この新たな活性化機能を医療画像解析において重要な2つの一般的なタスク,すなわちCTとMRIにおける自動疾患診断と臓器分割に応用する。 radimagenet abdominal/pelvis (ct and mri) dataset and liver tumor segmentation benchmark (lits) 2017 を厳密に評価した結果,asau 統合フレームワークは,腹部ct と mri の分類精度 (disease detection) において relu よりも大幅に (4.80\%) 向上するだけでなく,'healthy liver tissue' セグメンテーションで広く使用されているアクティベーションと比較して dice 係数が 1 %-3 % 向上することが示された。 これらの改善は、診断ツールの開発、特に複雑で困難な病態のための新しいベースラインを提供する。 ASAUの優れた性能と適応性は、幅広い画像分類とセグメンテーションタスクに統合される可能性を強調している。

In this study, we propose a new activation function, called Adaptive Smooth Activation Unit (ASAU), tailored for optimized gradient propagation, thereby enhancing the proficiency of convolutional networks in medical image analysis. We apply this new activation function to two important and commonly used general tasks in medical image analysis: automatic disease diagnosis and organ segmentation in CT and MRI. Our rigorous evaluation on the RadImageNet abdominal/pelvis (CT and MRI) dataset and Liver Tumor Segmentation Benchmark (LiTS) 2017 demonstrates that our ASAU-integrated frameworks not only achieve a substantial (4.80\%) improvement over ReLU in classification accuracy (disease detection) on abdominal CT and MRI but also achieves 1\%-3\% improvement in dice coefficient compared to widely used activations for `healthy liver tissue' segmentation. These improvements offer new baselines for developing a diagnostic tool, particularly for complex, challenging pathologies. The superior performance and adaptability of ASAU highlight its potential for integration into a wide range of image classification and segmentation tasks.
翻訳日:2024-01-15 13:37:51 公開日:2023-11-29
# 量子ガロアノイズチャネルによる社会的意見伝達に関する議論モデル:エンタングルメント,スーパースプリーダー

Discussion Model for Propagation of Social Opinion via Quantum Galois Noise Channels:Entanglement, SuperSpreader ( http://arxiv.org/abs/2401.01352v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 古典的および量子チャネルの概念を意見力学のモデリングに適用し、個人と集団の意見の時間的変動を表現する確率的方法を提案する。 特に,量子ガロアノイズチャネルを用いて量子情報理論と社会的相互作用を結合し,誤り率と雑音効果を考慮した新たなオピニオンダイナミクスモデルを構築する。 このモデルは、部分的トレースと絡み合いの概念を取り入れることで、より複雑な意見の伝播と相互作用を捉える。 また,ノイズ情報とその抑制機構の伝播におけるスーパースプレッダの役割を考察し,これらのダイナミクスを数学的モデルで表現する。 我々は,ユニタリトランスフォーメーションを用いた個人間のインタラクションに対するスーパースプリーダーの影響をモデル化し,社会的信頼度を測定するための新しいアプローチを提案する。 さらに,holevoチャネルを用いた意見伝達と抑圧のモデル化について詳述する。 これらのモデルは、社会的相互作用をよりよく理解するための新しい枠組みを提供し、量子情報理論の潜在的な応用を広げる。

We apply the concepts of classical and quantum channels to the modeling of opinion dynamics and propose a stochastic method for representing the temporal variation of individual and group opinions. In particular, we use quantum Galois noise channels to couple quantum information theory with social interaction to construct a new model of opinion dynamics that accounts for error rates and noise effects. This model captures more complex opinion propagation and interaction by incorporating the concepts of partial traces and entanglement. We also consider the role of superspreaders in the propagation of noisy information and their suppression mechanisms, and represent these dynamics in a mathematical model. We model the influence of superspreaders on interactions between individuals using unitary transformations and propose a new approach to measure social trustworthiness. In addition, we elaborate on the modeling of opinion propagation and suppression using Holevo channels. These models provide a new framework for a better understanding of social interactions and expand the potential applications of quantum information theory.
翻訳日:2024-01-15 10:08:36 公開日:2023-11-29
# 機能的細胞型同定のための最も識別的な刺激

Most discriminative stimuli for functional cell type identification ( http://arxiv.org/abs/2401.05342v1 )

ライセンス: Link先を確認
Max F. Burg, Thomas Zenkel, Michaela Vystr\v{c}ilov\'a, Jonathan Oesterle, Larissa H\"ofling, Konstantin F. Willeke, Jan Lause, Sarah M\"uller, Paul G. Fahey, Zhiwei Ding, Kelli Restivo, Shashwat Sridhar, Tim Gollisch, Philipp Berens, Andreas S. Tolias, Thomas Euler, Matthias Bethge, Alexander S. Ecker(参考訳) 細胞型を同定し、その機能的特性を理解することは、認識と認知のメカニズムを明らかにするために重要である。 網膜では、機能型は慎重に選択された刺激によって識別することができるが、これは専門的なドメイン知識を必要とし、これまで知られていた細胞タイプへの手続きをバイアスする。 視覚野では、機能型とそれを特定する方法はまだ不明である。 したがって、網膜と視覚野の機能的細胞型を不偏に同定するには、新しいアプローチが必要である。 そこで本研究では, 深部予測モデルを用いた最適化に基づくクラスタリング手法を提案し, MDS(Most Discriminative Stimuli)を用いてニューロンの機能的クラスタを求める。 提案手法は,期待最大化アルゴリズムに類似したクラスタ再割り当てと刺激最適化を交互に行う。 このアルゴリズムはマウス網膜、マーモセット網膜およびマカク視覚領域V4の機能的クラスターを復元する。 このことから,本手法は, 種, 視覚系の段階, 記録技術間での識別的刺激を効果的に発見できることが示唆された。 結果として生じる最も差別的な刺激は、複雑な予測モデルを訓練したり、大きな自然のシーンデータセットを示す必要なしに、機能的な細胞タイプを高速かつオンザフライで割り当てるために使用され、実験時間によって制限された実験への道を開くことができる。 重要なことに、MDSは解釈可能であり、特定の種類のニューロンを明白に識別する特有の刺激パターンを可視化する。 コードは公開次第、オンラインで公開します。

Identifying cell types and understanding their functional properties is crucial for unraveling the mechanisms underlying perception and cognition. In the retina, functional types can be identified by carefully selected stimuli, but this requires expert domain knowledge and biases the procedure towards previously known cell types. In the visual cortex, it is still unknown what functional types exist and how to identify them. Thus, for unbiased identification of the functional cell types in retina and visual cortex, new approaches are needed. Here we propose an optimization-based clustering approach using deep predictive models to obtain functional clusters of neurons using Most Discriminative Stimuli (MDS). Our approach alternates between stimulus optimization with cluster reassignment akin to an expectation-maximization algorithm. The algorithm recovers functional clusters in mouse retina, marmoset retina and macaque visual area V4. This demonstrates that our approach can successfully find discriminative stimuli across species, stages of the visual system and recording techniques. The resulting most discriminative stimuli can be used to assign functional cell types fast and on the fly, without the need to train complex predictive models or show a large natural scene dataset, paving the way for experiments that were previously limited by experimental time. Crucially, MDS are interpretable: they visualize the distinctive stimulus patterns that most unambiguously identify a specific type of neuron. We will make our code available online upon publication.
翻訳日:2024-01-15 09:09:46 公開日:2023-11-29
# 抗体CDRH3設計のための安定オンライン・オフライン強化学習

Stable Online and Offline Reinforcement Learning for Antibody CDRH3 Design ( http://arxiv.org/abs/2401.05341v1 )

ライセンス: Link先を確認
Yannick Vogt, Mehdi Naouar, Maria Kalweit, Christoph Cornelius Miething, Justus Duyster, Roland Mertelsmann, Gabriel Kalweit, Joschka Boedecker(参考訳) 抗体ベースの治療の分野は近年大きく成長しており、標的抗体はパーソナライズされた治療に有効なアプローチとして登場している。 このような治療は、癌のような複雑で高度に個別の疾患に特に有用である。 しかし、この分野の進歩は、抗体設計の基礎となるアミノ酸配列の広範な探索空間によってしばしば制限される。 本研究では,本ドメインのユニークな課題に対処するための,新しい強化学習手法を提案する。 本手法は, オンラインインタラクションやオフラインデータセットを用いて, サイリコの複数ターゲットに対する高親和性抗体の設計を学習できることを実証する。 私たちの知る限りでは、私たちのアプローチは、Absolut!データベースでテストされたすべての抗原の既存の方法よりも優れています。

The field of antibody-based therapeutics has grown significantly in recent years, with targeted antibodies emerging as a potentially effective approach to personalized therapies. Such therapies could be particularly beneficial for complex, highly individual diseases such as cancer. However, progress in this field is often constrained by the extensive search space of amino acid sequences that form the foundation of antibody design. In this study, we introduce a novel reinforcement learning method specifically tailored to address the unique challenges of this domain. We demonstrate that our method can learn the design of high-affinity antibodies against multiple targets in silico, utilizing either online interaction or offline datasets. To the best of our knowledge, our approach is the first of its kind and outperforms existing methods on all tested antigens in the Absolut! database.
翻訳日:2024-01-15 09:09:23 公開日:2023-11-29
# MicroGlam:コスメティクスを用いた顕微鏡皮膚画像データセット

MicroGlam: Microscopic Skin Image Dataset with Cosmetics ( http://arxiv.org/abs/2401.05339v1 )

ライセンス: Link先を確認
Toby Chong, Alina Chadwick, I-chao Shen, Haoran Xie, Takeo Igarashi(参考訳) 本稿では化粧品特有の皮膚画像データセットを提案する。 3つの化粧品(foundation、blusher、highlighter)の下、サイズ8mm^*8mmの45ドルのパッチ($9$参加者からそれぞれ$5$のスキンパッチ)のスキン画像から成り立っている。 我々はライトステージにインスパイアされた新しい捕獲装置を設計した。 このデバイスを使って、さまざまな照明条件下で、各皮膚パッチの600ドル以上の画像を30ドル秒で撮影しました。 3種類の化粧品で同じ皮膚パッチの工程を繰り返した。 最後に,画像から画像への変換に基づく化粧品レンダリングパイプラインによるデータセットの生存可能性を示し,既存の化粧品レンダリング手法と比較した。

In this paper, we present a cosmetic-specific skin image dataset. It consists of skin images from $45$ patches ($5$ skin patches each from $9$ participants) of size $8mm^*8mm$ under three cosmetic products (i.e., foundation, blusher, and highlighter). We designed a novel capturing device inspired by Light Stage. Using the device, we captured over $600$ images of each skin patch under diverse lighting conditions in $30$ seconds. We repeated the process for the same skin patch under three cosmetic products. Finally, we demonstrate the viability of the dataset with an image-to-image translation-based pipeline for cosmetic rendering and compared our data-driven approach to an existing cosmetic rendering method.
翻訳日:2024-01-15 09:09:10 公開日:2023-11-29
# スムーズクリッピングによるアダム様アルゴリズムによる大域最小化:関数型SDEのエルゴディディティに基づく解析

Adam-like Algorithm with Smooth Clipping Attains Global Minima: Analysis Based on Ergodicity of Functional SDEs ( http://arxiv.org/abs/2312.02182v1 )

ライセンス: Link先を確認
Keisuke Suzuki(参考訳) 本稿では,スムーズなクリッピングをもつAdam型アルゴリズムが,正規化非凸損失関数の最小化に近づくことを示す。 滑らかなクリッピングと状態空間を全ての軌跡の集合として取り込むことにより、マルコフ半群のエルゴード理論をこのアルゴリズムに適用し、漸近的挙動を調べることができる。 本論文で確立したエルゴード理論は, 2つの関数的確率微分方程式(sdes)間のドリフト係数の差を評価する問題に対して, このアルゴリズムの収束, 一般化誤差, 離散誤差を評価する問題を軽減する。 解析の結果、このアルゴリズムは正規化された非凸損失関数を$n^{-1/2}$, $\eta^{1/4}$, $\beta^{-1} \log (\beta + 1)$, $e^{-c t}$の形で最小化することを示した。 ここで、$c$は定数であり、$n$、$\eta$、$\beta$、$t$はそれぞれトレーニングデータセット、学習率、逆温度、時間の大きさを表す。

In this paper, we prove that an Adam-type algorithm with smooth clipping approaches the global minimizer of the regularized non-convex loss function. Adding smooth clipping and taking the state space as the set of all trajectories, we can apply the ergodic theory of Markov semigroups for this algorithm and investigate its asymptotic behavior. The ergodic theory we establish in this paper reduces the problem of evaluating the convergence, generalization error and discretization error of this algorithm to the problem of evaluating the difference between two functional stochastic differential equations (SDEs) with different drift coefficients. As a result of our analysis, we have shown that this algorithm minimizes the the regularized non-convex loss function with errors of the form $n^{-1/2}$, $\eta^{1/4}$, $\beta^{-1} \log (\beta + 1)$ and $e^{- c t}$. Here, $c$ is a constant and $n$, $\eta$, $\beta$ and $t$ denote the size of the training dataset, learning rate, inverse temperature and time, respectively.
翻訳日:2023-12-11 03:34:58 公開日:2023-11-29
# 政府チャットボットにおける生成AIの有効利用

How Generative-AI can be Effectively used in Government Chatbots ( http://arxiv.org/abs/2312.02181v1 )

ライセンス: Link先を確認
Zeteng Lin(参考訳) 人工知能の急速な発展と機械学習と自然言語処理のブレークスルーにより、インテリジェントな質問応答ロボットは政府の問題に広く利用されている。 本稿では,広東省の政府チャットボットであるChatGPTと,2つの大きな言語モデルであるWenxin Ernieの水平比較を行い,既存の政府チャットボットとAIGC技術の長所と短所を分析した。 この研究は、政府のチャットボットと大きな言語モデルの間に大きな違いを見出した。 中国政府のチャットボットはまだ探索段階にあり、「知性」を達成するためのギャップがある。 政府のチャットボットの今後の方向性をより深く探求するため,本稿では,ジェネレーティブAIを政府チャットボットの会話に効果的に適用するための最適化手法を提案する。

With the rapid development of artificial intelligence and breakthroughs in machine learning and natural language processing, intelligent question-answering robots have become widely used in government affairs. This paper conducts a horizontal comparison between Guangdong Province's government chatbots, ChatGPT, and Wenxin Ernie, two large language models, to analyze the strengths and weaknesses of existing government chatbots and AIGC technology. The study finds significant differences between government chatbots and large language models. China's government chatbots are still in an exploratory stage and have a gap to close to achieve "intelligence." To explore the future direction of government chatbots more deeply, this research proposes targeted optimization paths to help generative AI be effectively applied in government chatbot conversations.
翻訳日:2023-12-11 03:34:33 公開日:2023-11-29
# DSText V2:DenseとSmall Textのための総合的なビデオテキストスポッティングデータセット

DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and Small Text ( http://arxiv.org/abs/2312.01938v1 )

ライセンス: Link先を確認
Weijia Wu, Yiming Zhang, Yefei He, Luoming Zhang, Zhenyu Lou, Hong Zhou, and Xiang Bai(参考訳) 近年,自然界における映像テキストの検出,追跡,認識がコンピュータビジョンコミュニティで盛んに行われている。 しかし、既存のアルゴリズムやベンチマークのほとんどは、一般的なテキストケース(例:正規サイズ、密度)と単一のシナリオに焦点を合わせながら、極端なビデオテキストの問題を無視している。 本稿では,DSText V2というビデオテキスト読解ベンチマークを構築し,様々なシナリオによるDenseとSmallテキスト読解課題に焦点を当てた。 提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。 1) 密集したビデオテキストは,ビデオテキストスポッターが追跡し,読み取ることの新たな課題である。 2)ビデオのぼやけや歪みと相まって,高頻度の小型テキストは,さらなる課題をもたらす。 3) ゲーム,スポーツなど,さまざまな新たなシナリオ。 提案するdstext v2は、7つのオープンシナリオからの140のビデオクリップを含み、ビデオテキスト検出(タスク1)、ビデオテキスト追跡(タスク2)、エンドツーエンドビデオテキストスポッティング(タスク3)という3つのタスクをサポートしている。 本稿では,データセット,タスク,評価プロトコル,結果要約の詳細な統計情報について述べる。 最も重要なのは,データセットから派生した3つのユニークな課題を対象とした,新たな洞察の提供を目的とした詳細な調査と分析です。 さらに、このベンチマークがコミュニティでビデオテキスト研究を約束することを期待しています。 dstext v2は、以前icdar 2023コンペティションを主催するために導入されたdstext v1上に構築されている。

Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. However, most existing algorithms and benchmarks focus on common text cases (e.g., normal size, density) and single scenario, while ignoring extreme video text challenges, i.e., dense and small text in various scenarios. In this paper, we establish a video text reading benchmark, named DSText V2, which focuses on Dense and Small text reading challenges in the video with various scenarios. Compared with the previous datasets, the proposed dataset mainly include three new challenges: 1) Dense video texts, a new challenge for video text spotters to track and read. 2) High-proportioned small texts, coupled with the blurriness and distortion in the video, will bring further challenges. 3) Various new scenarios, e.g., Game, Sports, etc. The proposed DSText V2 includes 140 video clips from 7 open scenarios, supporting three tasks, i.e., video text detection (Task 1), video text tracking (Task 2), and end-to-end video text spotting (Task 3). In this article, we describe detailed statistical information of the dataset, tasks, evaluation protocols, and the results summaries. Most importantly, a thorough investigation and analysis targeting three unique challenges derived from our dataset are provided, aiming to provide new insights. Moreover, we hope the benchmark will promise video text research in the community. DSText v2 is built upon DSText v1, which was previously introduced to organize the ICDAR 2023 competition for dense and small video text.
翻訳日:2023-12-11 03:33:12 公開日:2023-11-29
# ベイジアンネットワークのエントロピーとKulback-Leibler分散:計算複雑性と効率的な実装

Entropy and the Kullback-Leibler Divergence for Bayesian Networks: Computational Complexity and Efficient Implementation ( http://arxiv.org/abs/2312.01520v1 )

ライセンス: Link先を確認
Marco Scutari(参考訳) ベイズネットワーク(BN)は、機械学習と因果推論の基礎モデルである。 彼らのグラフィカルな構造は、高次元の問題に対処し、より小さな問題の集合に分割し、ジュディー・パールの因果関係を基礎とし、その説明可能性と解釈可能性を決定する。 その人気にもかかわらず、シャノンのエントロピーの計算方法や、BNのKL(Kulback-Leibler)の発散を最も一般的な分布仮定の下で計算する方法に関する文献は少ない。 本稿では,bnsのグラフィカルな構造を活かし,計算効率の良いアルゴリズムを両立し,それらの数値例の完全な集合を提示する。 この過程において,KL の計算複雑性をガウスBN の立方体から二次体に還元できることを示す。

Bayesian networks (BNs) are a foundational model in machine learning and causal inference. Their graphical structure can handle high-dimensional problems, divide-and-conquering them into a sparse collection of smaller ones; underlies Judea Pearl's causality; and determines their explainability and interpretability. Despite their popularity, there are few resources in the literature on how to compute Shannon's entropy and the Kullback-Leibler (KL) divergence for BNs under their most common distributional assumptions. In this paper, we provide computationally efficient algorithms for both by leveraging BNs' graphical structure, and we illustrate them with a complete set of numerical examples. In the process, we show it is possible to reduce the computational complexity of KL from cubic to quadratic for Gaussian BNs.
翻訳日:2023-12-11 03:32:32 公開日:2023-11-29
# AI生成データの永久運動マシンとChatGPT-as-scientistの気晴らし

The perpetual motion machine of AI-generated data and the distraction of ChatGPT-as-scientist ( http://arxiv.org/abs/2312.00818v1 )

ライセンス: Link先を確認
Jennifer Listgarten(参考訳) ChatGPTがうまく機能しているので、私たちはAIで科学を解決しようとしているのだろうか? AlphaFold2は、生物学と科学におけるLLMのポテンシャルが、より広範に制限されないことを示唆していないだろうか? AI自体を使って、科学におけるデータの欠如を埋めて、AIを訓練できるだろうか? ここではこれらの話題について論じる。

Since ChatGPT works so well, are we on the cusp of solving science with AI? Is not AlphaFold2 suggestive that the potential of LLMs in biology and the sciences more broadly is limitless? Can we use AI itself to bridge the lack of data in the sciences in order to then train an AI? Herein we present a discussion of these topics.
翻訳日:2023-12-11 03:32:15 公開日:2023-11-29
# TimelyGPT:ロング時系列表現のためのリカレント畳み込み変換器

TimelyGPT: Recurrent Convolutional Transformer for Long Time-series Representation ( http://arxiv.org/abs/2312.00817v1 )

ライセンス: Link先を確認
Ziyang Song, Qincheng Lu, Hao Xu, Yue Li(参考訳) 事前訓練されたモデル(PTM)は自然言語処理とコンピュータビジョンドメインで注目されている。 時系列PTMに関しては、開発は限られている。 それまでの時系列変圧器の研究は、主に小規模の作業に費やされてきたが、これらのモデルが従来のモデルを一貫して上回っているわけではない。 さらに、大規模なデータに対するこれらのトランスフォーマーの性能は未調査のままである。 これらの発見はTransformerの時間的依存関係のスケールアップとキャプチャ機能に疑問を呈する。 本研究では,時系列変換器を再検討し,先行研究の欠点を明らかにする。 これらの知見から、我々はTimely Generative Pre-trained Transformer (\model)と呼ばれる先駆的なアーキテクチャを導入する。 このアーキテクチャは再帰的注意と時間的畳み込みモジュールを統合し、長いシーケンスでグローバルローカルな時間依存を効果的に捉える。 時間減衰に埋め込まれた相対的な位置は、時系列の傾向や周期的なパターンを効果的に扱うことができる。 本実験は, 生体信号の連続計測におけるモデル・エクセルと, 縦型電子健康記録でよく見られる不規則サンプリング時系列データについて検討した。 このブレークスルーは、小さなモデリングからスクラッチから大規模な事前トレーニングへと移行した、時系列ディープラーニング研究の優先度シフトを示唆する。

Pre-trained models (PTMs) have gained prominence in Natural Language Processing and Computer Vision domains. When it comes to time-series PTMs, their development has been limited. Previous research on time-series transformers has mainly been devoted to small-scale tasks, yet these models have not consistently outperformed traditional models. Additionally, the performance of these transformers on large-scale data remains unexplored. These findings raise doubts about Transformer's capabilities to scale up and capture temporal dependencies. In this study, we re-examine time-series transformers and identify the shortcomings of prior studies. Drawing from these insights, we then introduce a pioneering architecture called Timely Generative Pre-trained Transformer (\model). This architecture integrates recurrent attention and temporal convolution modules to effectively capture global-local temporal dependencies in long sequences. The relative position embedding with time decay can effectively deal with trend and periodic patterns from time-series. Our experiments show that \model~excels in modeling continuously monitored biosignal as well as irregularly-sampled time-series data commonly observed in longitudinal electronic health records. This breakthrough suggests a priority shift in time-series deep learning research, moving from small-scale modeling from scratch to large-scale pre-training.
翻訳日:2023-12-11 03:32:08 公開日:2023-11-29
# 2次元言語を用いた動的対話型グループ決定法

Dynamic interactive group decision making method on two-dimensional language ( http://arxiv.org/abs/2312.03744v1 )

ライセンス: Link先を確認
Yukun Zhang(参考訳) 現在、対話型グループ決定法の言語評価情報は、一次元言語変数に基づいている。 同時に,2次元言語情報に基づく複数属性集団意思決定法では,単段および静的評価法のみを用いる。 本稿では,2次元言語情報に基づく動的グループ意思決定手法と2次元言語評価情報を組み合わせた2次元言語情報に基づく動的グループ意思決定手法を提案する。 最後に,グループ間相互作用の終了条件を定量化する群整合指数を提案する。 一つの例は、開発アプローチの検証とその有効性を示すために与えられる。

The language evaluation information of the interactive group decision method at present is based on the one-dimension language variable. At the same time, multi-attribute group decision making method based on two-dimension linguistic information only use single-stage and static evaluation method. In this paper, we propose a dynamic group decision making method based on two-dimension linguistic information, combining dynamic interactive group decision making methods with two-dimensional language evaluation information The method first use Two-Dimensional Uncertain Linguistic Generalized Weighted Aggregation (DULGWA) Operators to aggregate the preference information of each decision maker, then adopting dynamic information entropy method to obtain weights of attributes at each stage. Finally we propose the group consistency index to quantify the termination conditions of group interaction. One example is given to verify the developed approach and to demonstrate its effectiveness
翻訳日:2023-12-11 02:55:49 公開日:2023-11-29
# サイバーバブルの感性分析におけるデータ強化

Easy Data Augmentation in Sentiment Analysis of Cyberbullying ( http://arxiv.org/abs/2312.03743v1 )

ライセンス: Link先を確認
Alwan Wirawan, Hasan Dwi Cahyono, Winarno(参考訳) ソーシャルメディアプラットフォームであるinstagramは、2023年に20億人のアクティブユーザーを獲得した。 このプラットフォームでは、ユーザーは互いに写真やビデオを投稿できる。 しかし、インドネシアの若者の約50%がサイバーいじめに悩まされている。 この問題に対処するため、コメントフィルタリングのための感情分析では、SVM(Support Vector Machine)とEDA(Easy Data Augmentation)を使用している。 edaはデータセットを強化し、より多くのバリエーションを導入することで、サイバーいじめの堅牢な予測と分析を可能にします。 テストに基づいて、SVMとEDAの組み合わせにより、k-Fold Cross Validationスコアが2.52%増加した。 提案手法では精度が92.5%向上し,従来の手法よりも2.5%向上した。 この研究の再現性と複製性を維持するため、ソースコードはuns.id/eda_svmでアクセスできる。

Instagram, a social media platform, has in the vicinity of 2 billion active users in 2023. The platform allows users to post photos and videos with one another. However, cyberbullying remains a significant problem for about 50% of young Indonesians. To address this issue, sentiment analysis for comment filtering uses a Support Vector Machine (SVM) and Easy Data Augmentation (EDA). EDA will augment the dataset, enabling robust prediction and analysis of cyberbullying by introducing more variation. Based on the tests, SVM combination with EDA results in a 2.52% increase in the k-Fold Cross Validation score. Our proposed approach shows an improved accuracy of 92.5%, 2.5% higher than that of the existing state-of-the-art method. To maintain the reproducibility and replicability of this research, the source code can be accessed at uns.id/eda_svm.
翻訳日:2023-12-11 02:55:36 公開日:2023-11-29
# 言語モデルを用いた臨床リスク予測:利点と考察

Clinical Risk Prediction Using Language Models: Benefits And Considerations ( http://arxiv.org/abs/2312.03742v1 )

ライセンス: Link先を確認
Angeela Acharya, Sulabh Shrestha, Anyi Chen, Joseph Conte, Sanja Avramovic, Siddhartha Sikdar, Antonios Anastasopoulos, Sanmay Das(参考訳) 臨床リスク予測におけるElectronic Health Records(EHRs)の利用が増加している。 しかし、厳格なプライバシー規制は、包括的な健康記録へのアクセスを制限するため、標準的な機械学習アルゴリズムを現実のシナリオに適用することは困難である。 これまでの研究では、医療オントロジーを取り入れ、転送学習手法を採用することで、このデータ制限に対処してきた。 本研究では,言語モデル(LM)を補足的ドメイン知識を取り入れ,様々なリスク予測タスクの性能向上に活用する可能性について検討する。 臨床ノートなどの非構造化ehrデータにlmsを適用するのとは異なり、本研究は構造化ehr内のテキスト記述を用いて、その情報に基づいて予測を行う。 さまざまなデータタイプやサイズで、これまでのアプローチと比較します。 診断履歴などの構造化 EHR の表現に LM を用いると,多様なリスク予測タスクにおいて,少なくとも同等の性能が向上することがわかった。 さらに、LMベースのアプローチには、少人数の学習、これまで目に見えない医療概念を扱う能力、様々な医学用語への適応性など、多くの利点がある。 しかし,本研究は様々な実験を通じて,LMの信頼性に関する懸念が持続する中で,そのようなモデルを採用する上で慎重であることの重要性を強調している。

The utilization of Electronic Health Records (EHRs) for clinical risk prediction is on the rise. However, strict privacy regulations limit access to comprehensive health records, making it challenging to apply standard machine learning algorithms in practical real-world scenarios. Previous research has addressed this data limitation by incorporating medical ontologies and employing transfer learning methods. In this study, we investigate the potential of leveraging language models (LMs) as a means to incorporate supplementary domain knowledge for improving the performance of various EHR-based risk prediction tasks. Unlike applying LMs to unstructured EHR data such as clinical notes, this study focuses on using textual descriptions within structured EHR to make predictions exclusively based on that information. We extensively compare against previous approaches across various data types and sizes. We find that employing LMs to represent structured EHRs, such as diagnostic histories, leads to improved or at least comparable performance in diverse risk prediction tasks. Furthermore, LM-based approaches offer numerous advantages, including few-shot learning, the capability to handle previously unseen medical concepts, and adaptability to various medical vocabularies. Nevertheless, we underscore, through various experiments, the importance of being cautious when employing such models, as concerns regarding the reliability of LMs persist.
翻訳日:2023-12-11 02:55:24 公開日:2023-11-29
# 自己スーパービジョンによるオープンセットセミスーパービジョン学習の改善

Improving Open-Set Semi-Supervised Learning with Self-Supervision ( http://arxiv.org/abs/2301.10127v3 )

ライセンス: Link先を確認
Erik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand(参考訳) オープンセット半教師付き学習(OSSL)は、ラベル付き集合から欠席したクラスを含む、半教師付き学習の実践シナリオを具現化する。 既存のOSSLメソッドの多くは、これらのアウト・オブ・ディストリビューションデータは有害であると仮定し、トレーニング対象から未知のクラスに属するデータを除外する努力を払っている。 対照的に,自己スーパービジョンによるラベルなしデータからの学習を容易にするosslフレームワークを提案する。 さらに,エネルギベースのスコアを用いて既知のクラスに属するデータを正確に認識し,デプロイ時の未処理データの処理に適していることを示す。 提案手法は,OSSLの既存手法と比較して,クローズドセット精度とオープンセット認識の観点から,評価されたベンチマーク問題の多くに対して,最先端の結果が得られることを示す。 私たちのコードはhttps://github.com/walline/ssl-tf2-sefossで利用可能です。

Open-set semi-supervised learning (OSSL) embodies a practical scenario within semi-supervised learning, wherein the unlabeled training set encompasses classes absent from the labeled set. Many existing OSSL methods assume that these out-of-distribution data are harmful and put effort into excluding data belonging to unknown classes from the training objective. In contrast, we propose an OSSL framework that facilitates learning from all unlabeled data through self-supervision. Additionally, we utilize an energy-based score to accurately recognize data belonging to the known classes, making our method well-suited for handling uncurated data in deployment. We show through extensive experimental evaluations that our method yields state-of-the-art results on many of the evaluated benchmark problems in terms of closed-set accuracy and open-set recognition when compared with existing methods for OSSL. Our code is available at https://github.com/walline/ssl-tf2-sefoss.
翻訳日:2023-12-04 19:05:15 公開日:2023-11-29
# 予混合拡散モデルによる教師なしキーポイント

Unsupervised Keypoints from Pretrained Diffusion Models ( http://arxiv.org/abs/2312.00065v1 )

ライセンス: Link先を確認
Eric Hedlin, Gopal Sharma, Shweta Mahajan, Xingzhe He, Hossam Isack, Abhishek Kar Helge Rhodin, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) キーポイントとランドマークの教師なし学習は、現代のニューラルネットワークアーキテクチャの助けを借りて大きな進歩を遂げている。 我々は,テキストから画像への拡散モデルにおける創発的知識を,より堅牢な教師なしキーポイントへ活用する。 私たちの核となるアイデアは、画像(すなわちキーポイント)のコンパクトな領域に、生成モデルが一貫して出席するテキスト埋め込みを見つけることです。 そのため,本手法では,最小限の標準偏差を持つガウス系として,デノナイジングネットワーク内のクロスアテンションマップをローカライズするように,テキスト埋め込みを最適化する。 CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。 特に非アライメントやキュレーションの少ないデータに対して,精度が大幅に向上し,時には教師付きデータよりもパフォーマンスが向上する。 私たちのコードは公開されており、プロジェクトページから参照できます。 https://ubc-vision.github.io/stablekeypoints/

Unsupervised learning of keypoints and landmarks has seen significant progress with the help of modern neural network architectures, but performance is yet to match the supervised counterpart, making their practicability questionable. We leverage the emergent knowledge within text-to-image diffusion models, towards more robust unsupervised keypoints. Our core idea is to find text embeddings that would cause the generative model to consistently attend to compact regions in images (i.e. keypoints). To do so, we simply optimize the text embedding such that the cross-attention maps within the denoising network are localized as Gaussians with small standard deviations. We validate our performance on multiple datasets: the CelebA, CUB-200-2011, Tai-Chi-HD, DeepFashion, and Human3.6m datasets. We achieve significantly improved accuracy, sometimes even outperforming supervised ones, particularly for data that is non-aligned and less curated. Our code is publicly available and can be found through our project page: https://ubc-vision.github.io/StableKeypoints/
翻訳日:2023-12-04 17:26:05 公開日:2023-11-29
# MoMask:3D人間の動きの創発的マスクドモデリング

MoMask: Generative Masked Modeling of 3D Human Motions ( http://arxiv.org/abs/2312.00063v1 )

ライセンス: Link先を確認
Chuan Guo and Yuxuan Mu and Muhammad Gohar Javed and Sen Wang and Li Cheng(参考訳) テキスト駆動3次元モーション生成のための新しいマスキングモデリングフレームワークであるmomoskを紹介する。 モマスクでは、人間の動きを高忠実度な詳細を持つ多層離散運動トークンとして表現するために階層的量子化スキームが用いられる。 基底層から開始し、ベクトル量子化によって得られた一連の動きトークンを用いて、増加する順序の残留トークンを導出し、階層のその後の層に格納する。 その結果、2つの異なる双方向変換器が続く。 ベース層動作トークンについては、トレーニング段階でテキスト入力に条件付けされたランダムマスクされた動作トークンを予測するために、Masked Transformerが指定される。 空のシーケンスから生成(すなわち推論)段階の間、マスクトランスフォーマーは、欠落したトークンを反復的に満たし、その後、残差トランスフォーマーは、現在のレイヤの結果に基づいて、次のレイヤトークンを徐々に予測することを学びます。 MoMaskは、HumanML3Dデータセット上のFIDは0.045(例えばT2M-GPTの0.141)、KIT-ML上の0.228(vs 0.514)である。 MoMaskはテキスト誘導の時間的インペイントのような細調整をさらにモデル化することなく、関連するタスクにシームレスに適用することができる。

We introduce MoMask, a novel masked modeling framework for text-driven 3D human motion generation. In MoMask, a hierarchical quantization scheme is employed to represent human motion as multi-layer discrete motion tokens with high-fidelity details. Starting at the base layer, with a sequence of motion tokens obtained by vector quantization, the residual tokens of increasing orders are derived and stored at the subsequent layers of the hierarchy. This is consequently followed by two distinct bidirectional transformers. For the base-layer motion tokens, a Masked Transformer is designated to predict randomly masked motion tokens conditioned on text input at training stage. During generation (i.e. inference) stage, starting from an empty sequence, our Masked Transformer iteratively fills up the missing tokens; Subsequently, a Residual Transformer learns to progressively predict the next-layer tokens based on the results from current layer. Extensive experiments demonstrate that MoMask outperforms the state-of-art methods on the text-to-motion generation task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset, and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly applied in related tasks without further model fine-tuning, such as text-guided temporal inpainting.
翻訳日:2023-12-04 17:25:47 公開日:2023-11-29
# オープンデータエコシステム:スマートシティにおけるサービスイノベーションの共創モデルとは何か?

Open data ecosystems: what models to co-create service innovations in smart cities? ( http://arxiv.org/abs/2312.00060v1 )

ライセンス: Link先を確認
Arthur Sarazin (UGA, CERAG)(参考訳) スマートシティは最近、オープンなデータを提供しているが、この集合資源から生み出されたデータ、知識、関連製品、サービスの集合的創造をどのように行うかはまだ検討されていない。 本稿では、オープンデータエコシステムに関する文献レビューをまとめて、以下の研究課題に取り組むことを目的としている。 この問題は、地元デジタルエコシステムにおけるプラットフォーム(O'Reilly, 2010)としての地位を確立したリスボンなど、多くの自治体で現在問題となっている。 シティ・オペレーション・センター(coi)の実施により、リスボンの自治体は通信会社、自治体、エネルギー公益事業所、運輸会社など様々な種類の事業者に情報インフラ(bowker et al., 2009)を提供している。 このインフラを通じて、リスボンはこのようなアクターに異種データセットの収集、統合、リリースを奨励し、都市問題に対するデータ駆動ソリューションが出現するようにシナジーの編成を試みる(Carvalho and Vale, 2018)。 残る疑問は、この最先端のサービス革新を推進するために、リスボンのような自治体が頼るべきモデルは何だろうか?

While smart cities are recently providing open data, how to organise the collective creation of data, knowledge and related products and services produced from this collective resource, still remains to be thought. This paper aims at gathering the literature review on open data ecosystems to tackle the following research question: what models can be imagined to stimulate the collective co-creation of services between smart cities' stakeholders acting as providers and users of open data? Such issue is currently at stake in many municipalities such as Lisbon which decided to position itself as a platform (O'Reilly, 2010) in the local digital ecosystem. With the implementation of its City Operation Center (COI), Lisbon's municipality provides an Information Infrastructure (Bowker et al., 2009) to many different types of actors such as telecom companies, municipalities, energy utilities or transport companies. Through this infrastructure, Lisbon encourages such actors to gather, integrate and release heterogeneous datasets and tries to orchestrate synergies among them so data-driven solution to urban problems can emerge (Carvalho and Vale, 2018). The remaining question being: what models for the municipalities such as Lisbon to lean on so as to drive this cutting-edge type of service innovation?
翻訳日:2023-12-04 17:25:20 公開日:2023-11-29
# 移動感応性量子ビット遷移による半導体イオントラップの光誘起電荷キャリアダイナミクスの研究

Photo-induced charge carrier dynamics in a semiconductor-based ion trap investigated via motion-sensitive qubit transitions ( http://arxiv.org/abs/2312.00059v1 )

ライセンス: Link先を確認
Woojun Lee, Daun Chung, Honggi Jeon, Beomgeun Cho, KwangYeul Choi, SeungWoo Yoo, Changhyun Jung, Junho Jeong, Changsoon Kim, Dong-Il "Dan'' Cho, Taehyun Kim(参考訳) マイクロファブリケーションチップ上に構築されたイオントラップシステムは、再現可能でスケーラブルな構造を実現するための量子コンピューティングの有望なプラットフォームとして登場した。 しかし、そのようなチップ内の材料の光誘起帯電は、イオンの量子状態を破壊する望ましくない成層電界を発生させ、実用的な量子コンピューティングに必須な高忠実性量子制御を制限することができる。 この現象の粗雑な理解は過去数年間に大きくなりつつあるが、光発生電荷キャリアの力学の微視的なメカニズムの説明はいまだに解明されていない。 そこで,本研究では半導体の光誘起帯電モデルを提案し,チップのシリコン表面からの捕捉イオンと光誘起成層場との系統的相互作用によって検証を行う。 運動に敏感な量子ビット遷移を用いて、ストライ場を直接特徴づけ、捕捉されたイオンの量子力学への影響を分析する。 イオンの熱運動から生じる非コヒーレントな誤差とは対照的に、コヒーレントな誤差は、イオンの量子制御中に著しくインプリントされるストレイ場によって引き起こされる。 これらの誤差を深く調査し,その軽減法について考察する。 最後に、イオントラップで広く見られる他の光誘起帯電機構に本研究の影響を拡大する。

Ion trap systems built upon microfabricated chips have emerged as a promising platform for quantum computing to achieve reproducible and scalable structures. However, photo-induced charging of materials in such chips can generate undesired stray electric fields that disrupt the quantum state of the ion, limiting high-fidelity quantum control essential for practical quantum computing. While crude understanding of the phenomena has been gained heuristically over the past years, explanations for the microscopic mechanism of photo-generated charge carrier dynamics remains largely elusive. Here, we present a photo-induced charging model for semiconductors, whose verification is enabled by a systematic interaction between trapped ions and photo-induced stray fields from exposed silicon surfaces in our chip. We use motion-sensitive qubit transitions to directly characterize the stray field and analyze its effect on the quantum dynamics of the trapped ion. In contrast to incoherent errors arising from the thermal motion of the ion, coherent errors are induced by the stray field, whose effect is significantly imprinted during the quantum control of the ion. These errors are investigated in depth and methods to mitigate them are discussed. Finally, we extend the implications of our study to other photo-induced charging mechanisms prevalent in ion traps.
翻訳日:2023-12-04 17:24:56 公開日:2023-11-29
# テキスト・画像生成モデルにおける確率論的著作権保護

Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models ( http://arxiv.org/abs/2312.00057v1 )

ライセンス: Link先を確認
Xiang Li, Qianli Shen, Kenji Kawaguchi(参考訳) テキストから画像への生成モデルの利用が急増し、著作権侵害コンテンツを制作するリスクが高いとの懸念が高まっている。 本稿では,著作権保護機構の脆弱性を露呈する新たなオンラインアタックフレームワークであるva3(virtual assured amplification attack)について紹介する。 提案フレームワークは,生成モデルとの持続的相互作用における侵害内容の生成確率と,各エンゲージメントの低い成功確率を著しく増幅する。 提案手法の有効性を理論的および実験的に示し,テキスト対画像生成モデルの実用的応用において,確率的著作権保護を実施する潜在的リスクを浮き彫りにする。 コードはhttps://github.com/south7x/va3で入手できる。

The booming use of text-to-image generative models has raised concerns about their high risk of producing copyright-infringing content. While probabilistic copyright protection methods provide a probabilistic guarantee against such infringement, in this paper, we introduce Virtually Assured Amplification Attack (VA3), a novel online attack framework that exposes the vulnerabilities of these protection mechanisms. The proposed framework significantly amplifies the probability of generating infringing content on the sustained interactions with generative models and a lower-bounded success probability of each engagement. Our theoretical and experimental results demonstrate the effectiveness of our approach and highlight the potential risk of implementing probabilistic copyright protection in practical applications of text-to-image generative models. Code is available at https://github.com/South7X/VA3.
翻訳日:2023-12-04 17:24:35 公開日:2023-11-29
# LEAP: 自己中心型行動プログラムのLCM生成

LEAP: LLM-Generation of Egocentric Action Programs ( http://arxiv.org/abs/2312.00055v1 )

ライセンス: Link先を確認
Eadom Dessalene, Michael Maynord, Cornelia Ferm\"uller, and Yiannis Aloimonos(参考訳) 本稿では,Large Language Model (LLM) を用いてビデオグラウンドアクションプログラムを生成する新しい手法であるLEAP(図1)を紹介する。 これらの行動プログラムは行動の運動的、知覚的、構造的側面を表し、サブアクション、プレ・ポスト・コンディション、制御フローからなる。 leapのアクションプログラムは、エゴセントリックビデオを中心に、プログラム知識のソースとマルチモーダルビデオ情報の集約と評価の手段として、最近のllmの発展を採用している。 EPIC Kitchensデータセットのトレーニングセットの過半数 (87 %) にLEAPを適用し、その結果のアクションプログラムをここで公開データセットとしてリリースする(https://drive.google.com/drive/folders/1Cpkw_TI1IIxXdzor0pOXG3rWWuKU5Ex?usp=drive_link)。 我々は、行動認識および予測ネットワークに適用された損失項において、その行動プログラムを用いて、二次的な監視源としてLEAPを使用している。 LEAPデータセットによるトレーニングにより,両タスクのパフォーマンスが大幅に向上したことを示す。 本手法は,RGB入力に制限されたネットワークのうち,11月17日時点でEPIC Kitchens Action Recognitionのリーダーボードで1位を獲得している(補助材料参照)。

We introduce LEAP (illustrated in Figure 1), a novel method for generating video-grounded action programs through use of a Large Language Model (LLM). These action programs represent the motoric, perceptual, and structural aspects of action, and consist of sub-actions, pre- and post-conditions, and control flows. LEAP's action programs are centered on egocentric video and employ recent developments in LLMs both as a source for program knowledge and as an aggregator and assessor of multimodal video information. We apply LEAP over a majority (87\%) of the training set of the EPIC Kitchens dataset, and release the resulting action programs as a publicly available dataset here (https://drive.google.com/drive/folders/1Cpkw_TI1IIxXdzor0pOXG3rWJWuKU5Ex?usp=drive_link). We employ LEAP as a secondary source of supervision, using its action programs in a loss term applied to action recognition and anticipation networks. We demonstrate sizable improvements in performance in both tasks due to training with the LEAP dataset. Our method achieves 1st place on the EPIC Kitchens Action Recognition leaderboard as of November 17 among the networks restricted to RGB-input (see Supplementary Materials).
翻訳日:2023-12-04 17:24:22 公開日:2023-11-29
# 逆強化学習は標準強化学習よりも難しいか?

Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? ( http://arxiv.org/abs/2312.00054v1 )

ライセンス: Link先を確認
Lei Zhao, Mengdi Wang, Yu Bai(参考訳) 逆強化学習(irl) -- \emph{expert policy}のデモンストレーションから報酬関数を学習する問題 -- は、人間の行動を理解し模倣するなど、インテリジェントなシステムを開発する上で重要な役割を果たす。 応用において広く用いられているが、IRLの理論的理解は固有の課題を認め、標準のRL理論に比べて発展が遅れている。 例えば、標準的な 'emph{offline} 設定でIRLを効率的に行う方法については、事前に収集したデータで、状態は \emph{behavior policy} (これは専門家ポリシーそのものかもしれない)から取得され、アクションは専門家ポリシーからサンプリングされる。 本稿では,バニラのオフラインおよびオンライン設定において,多項式サンプルと実行時を用いた効率的なIRL結果の最初の行を提供する。 まず,オフライン設定のための新しいirlアルゴリズムを設計,ペシミズムによる報酬学習(rlp)を行い,mdpの大きさ,行動方針とエキスパートポリシーとの集中性係数,所望の精度で多項式サンプルの複雑性を達成することを示す。 RLP上に構築したReward Learning with Exploration(RLE)アルゴリズムは,学習者が積極的に環境を探索し,専門家のポリシーを問うことができる自然なオンライン環境で動作し,多項式サンプルからIRL保証というより強力な概念を得る。 rlpとrleがほぼ最適であることを示す両方の設定において、サンプル複雑性の下限を確立する。 最後に、応用として、学習した報酬関数が、元の(ソース)MDPと特定の類似性仮定を満たす場合、適切な保証で、他のターゲットMDPに \emph{transfer} を適用可能であることを示す。

Inverse Reinforcement Learning (IRL) -- the problem of learning reward functions from demonstrations of an \emph{expert policy} -- plays a critical role in developing intelligent systems, such as those that understand and imitate human behavior. While widely used in applications, theoretical understandings of IRL admit unique challenges and remain less developed compared with standard RL theory. For example, it remains open how to do IRL efficiently in standard \emph{offline} settings with pre-collected data, where states are obtained from a \emph{behavior policy} (which could be the expert policy itself), and actions are sampled from the expert policy. This paper provides the first line of results for efficient IRL in vanilla offline and online settings using polynomial samples and runtime. We first design a new IRL algorithm for the offline setting, Reward Learning with Pessimism (RLP), and show that it achieves polynomial sample complexity in terms of the size of the MDP, a concentrability coefficient between the behavior policy and the expert policy, and the desired accuracy. Building on RLP, we further design an algorithm Reward Learning with Exploration (RLE), which operates in a natural online setting where the learner can both actively explore the environment and query the expert policy, and obtain a stronger notion of IRL guarantee from polynomial samples. We establish sample complexity lower bounds for both settings showing that RLP and RLE are nearly optimal. Finally, as an application, we show that the learned reward functions can \emph{transfer} to another target MDP with suitable guarantees when the target MDP satisfies certain similarity assumptions with the original (source) MDP.
翻訳日:2023-12-04 17:23:49 公開日:2023-11-29
# ソフトマイニングによるニューラルフィールドトレーニングの高速化

Accelerating Neural Field Training via Soft Mining ( http://arxiv.org/abs/2312.00075v1 )

ライセンス: Link先を確認
Shakiba Kheradmand, Daniel Rebain, Gopal Sharma, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, and Kwang Moo Yi(参考訳) 本稿では,サンプリング位置を効率よく選択することで,ニューラルネットワークの訓練を加速する手法を提案する。 ニューラルフィールドは近年普及しているが、トレーニング領域を均一にサンプリングしたり、手作りのヒューリスティックスを通じてトレーニングされることが多い。 重大サンプリングに基づくソフトマイニング手法により, コンバージェンスの改善と最終トレーニング品質が達成できることを示し, ピクセルを完全に考慮または無視するのではなく, スカラーで対応する損失を評価した。 アイデアの実装には、Langevin Monte-Carloサンプルを使用します。 その結果, 誤差の高い領域がより頻繁に選択され, 収束速度が2倍以上に向上していることがわかった。 この研究のコードと関連リソースは、https://ubc-vision.github.io/nf-soft-mining/で公開されている。

We present an approach to accelerate Neural Field training by efficiently selecting sampling locations. While Neural Fields have recently become popular, it is often trained by uniformly sampling the training domain, or through handcrafted heuristics. We show that improved convergence and final training quality can be achieved by a soft mining technique based on importance sampling: rather than either considering or ignoring a pixel completely, we weigh the corresponding loss by a scalar. To implement our idea we use Langevin Monte-Carlo sampling. We show that by doing so, regions with higher error are being selected more frequently, leading to more than 2x improvement in convergence speed. The code and related resources for this study are publicly available at https://ubc-vision.github.io/nf-soft-mining/.
翻訳日:2023-12-04 17:12:02 公開日:2023-11-29
# 完全解法ランダム双対性理論による二元パーセプトロン容量

Binary perceptrons capacity via fully lifted random duality theory ( http://arxiv.org/abs/2312.00073v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 一般的なしきい値$\kappa$ を持つ古典二進受容器の統計容量について検討する。 キャパシティと双方向インデックス付き(bli)ランダムプロセスの関連性を認識した上で,このようなプロセスの研究の最近の進歩を利用してキャパシティを特徴づける。 特に、我々は \cite{Stojnicflrdt23} で確立された \emph{fully lifted} random duality theory (fl RDT) に頼り、知覚子の能力を研究するための一般的な枠組みを作る。 基礎となる数値的な評価は、フレームワーク(そして最終的にfl RDT機構全体)が完全に運用されるために必要である。 この方向から得られた結果から, キャパシティ特性が第2(第1(非自明な)レベルである \emph{stationarized} フルリフトで達成されることが判明した。 得られた結果のemph{exactly} は、統計物理学のレプリカ法で得られたレプリカ対称性の破れ予測と一致する。 最も注目すべきは、有名なゼロスレッショルドシナリオである$\kappa=0$に対して、よく知られた$\alpha\approx0.8330786$スケール容量を明らかにすることである。

We study the statistical capacity of the classical binary perceptrons with general thresholds $\kappa$. After recognizing the connection between the capacity and the bilinearly indexed (bli) random processes, we utilize a recent progress in studying such processes to characterize the capacity. In particular, we rely on \emph{fully lifted} random duality theory (fl RDT) established in \cite{Stojnicflrdt23} to create a general framework for studying the perceptrons' capacities. Successful underlying numerical evaluations are required for the framework (and ultimately the entire fl RDT machinery) to become fully practically operational. We present results obtained in that directions and uncover that the capacity characterizations are achieved on the second (first non-trivial) level of \emph{stationarized} full lifting. The obtained results \emph{exactly} match the replica symmetry breaking predictions obtained through statistical physics replica methods in \cite{KraMez89}. Most notably, for the famous zero-threshold scenario, $\kappa=0$, we uncover the well known $\alpha\approx0.8330786$ scaled capacity.
翻訳日:2023-12-04 17:11:49 公開日:2023-11-29
# CRAFT:顔矯正訓練のためのフィルタの文脈的再活性化

CRAFT: Contextual Re-Activation of Filters for face recogntion Training ( http://arxiv.org/abs/2312.00072v1 )

ライセンス: Link先を確認
Aman Bhatta(参考訳) ディープcnnバックボーンの第1レイヤは、イメージにフィルタを適用して、後のレイヤで使用可能な基本的な機能を抽出する。 トレーニング中、一部のフィルタは非アクティブになり、フィルター内の全ての重みがゼロに近づく。 最終モデルの非アクティブfil terは、有用な機能を抽出する機会の欠如を表している。 この現象は、顔認識(ImageNetなどとは対照的に)のような特殊なCNNで特に顕著である。 例えば、最も広く使われている顔認識モデル(arcface)では、第1層の畳み込みフィルタの約半分が非アクティブである。 本研究は,顔認識ネットワークの仕様を高度に設計・テストする新しい手法であるcraft: context re-activated of filter for face recognition trainingを提案する。 CRAFTはトレーニング中の不活性フィルタを特定し、トレーニングの段階で強いフィルタのコンテキストに基づいて再起動する。 CRAFTは,非活性フィルタの割合を平均で44%から32%に減らし,標準トレーニングでは見つからないフィルタパターンを発見する。 CRAFTは、リアクティベーションのない標準的なトレーニングと比較して、AgeDB-30、CPLFW、LFW、CALFW、CFP-FPといった標準的な顔認識ベンチマークデータセットや、IJBBやIJBCといったより困難なデータセットに対して、モデルの精度を向上することを示した。

The first layer of a deep CNN backbone applies filters to an image to extract the basic features available to later layers. During training, some filters may go inactive, mean ing all weights in the filter approach zero. An inactive fil ter in the final model represents a missed opportunity to extract a useful feature. This phenomenon is especially prevalent in specialized CNNs such as for face recogni tion (as opposed to, e.g., ImageNet). For example, in one the most widely face recognition model (ArcFace), about half of the convolution filters in the first layer are inactive. We propose a novel approach designed and tested specif ically for face recognition networks, known as "CRAFT: Contextual Re-Activation of Filters for Face Recognition Training". CRAFT identifies inactive filters during training and reinitializes them based on the context of strong filters at that stage in training. We show that CRAFT reduces fraction of inactive filters from 44% to 32% on average and discovers filter patterns not found by standard training. Compared to standard training without reactivation, CRAFT demonstrates enhanced model accuracy on standard face-recognition benchmark datasets including AgeDB-30, CPLFW, LFW, CALFW, and CFP-FP, as well as on more challenging datasets like IJBB and IJBC.
翻訳日:2023-12-04 17:11:26 公開日:2023-11-29
# sickle: 複数のキークロッピングパラメータでアノテートされたマルチセンサー衛星画像データセット

SICKLE: A Multi-Sensor Satellite Imagery Dataset Annotated with Multiple Key Cropping Parameters ( http://arxiv.org/abs/2312.00069v1 )

ライセンス: Link先を確認
Depanshu Sani, Sandeep Mahato, Sourabh Saini, Harsh Kumar Agarwal, Charu Chandra Devshali, Saket Anand, Gaurav Arora, Thiagarajan Jayaraman(参考訳) よく計算されたデータセットが利用可能になったことで、機械学習(ML)モデルの成功が導かれた。 農業における地球観測データへのアクセスは大きいが、キュレートされたデータセットやラベル付きデータセットは不足しており、農業におけるリモートセンシング(RS)のためのMLモデルのトレーニングに使用される可能性を制限する。 そこで本研究では,ランドサット-8,センチネル-1,センチネル-2の3つの衛星から得られた時系列のマルチレゾリューション画像を構成するシックルデータセットを提案する。 我々のデータセットは、2021年1月、マルチスペクトル、熱、マイクロ波センサーから構成される。 本研究は,インドのタミル・ナードゥ州カウリー・デルタ地域で主に水稲栽培に従事している農家を対象とし,複数の解像度(3m,10m,30m)でキークロッピングパラメータを付した画像にアノテートすることで,それぞれの時間系列を構築する。 このデータセットは388個のプロットから2370個の季節的なサンプルからなり、平均面積は0.38エーカーであり、デルタの4つの地区にまたがる21種類の作物を分類する。 2,370のサンプルのうち、145のプロットから採取された351の水田のサンプルは、水田の種類、生育時期、生産量など複数の作物パラメータでアノテートされている。 我々の研究は、作物の表現学に関連する季節活動(播種、移植、収穫日)を興味のあるパラメータとして考察した最初の研究の1つである。 作物種別,作物表現学(播種,移植,収穫),収量予測の3つの課題についてシックルをベンチマークした。

The availability of well-curated datasets has driven the success of Machine Learning (ML) models. Despite greater access to earth observation data in agriculture, there is a scarcity of curated and labelled datasets, which limits the potential of its use in training ML models for remote sensing (RS) in agriculture. To this end, we introduce a first-of-its-kind dataset called SICKLE, which constitutes a time-series of multi-resolution imagery from 3 distinct satellites: Landsat-8, Sentinel-1 and Sentinel-2. Our dataset constitutes multi-spectral, thermal and microwave sensors during January 2018 - March 2021 period. We construct each temporal sequence by considering the cropping practices followed by farmers primarily engaged in paddy cultivation in the Cauvery Delta region of Tamil Nadu, India; and annotate the corresponding imagery with key cropping parameters at multiple resolutions (i.e. 3m, 10m and 30m). Our dataset comprises 2,370 season-wise samples from 388 unique plots, having an average size of 0.38 acres, for classifying 21 crop types across 4 districts in the Delta, which amounts to approximately 209,000 satellite images. Out of the 2,370 samples, 351 paddy samples from 145 plots are annotated with multiple crop parameters; such as the variety of paddy, its growing season and productivity in terms of per-acre yields. Ours is also one among the first studies that consider the growing season activities pertinent to crop phenology (spans sowing, transplanting and harvesting dates) as parameters of interest. We benchmark SICKLE on three tasks: crop type, crop phenology (sowing, transplanting, harvesting), and yield prediction
翻訳日:2023-12-04 17:10:58 公開日:2023-11-29
# GLiDR: 疎LiDAR点雲のためのトポロジ的正規化グラフ生成ネットワーク

GLiDR: Topologically Regularized Graph Generative Network for Sparse LiDAR Point Clouds ( http://arxiv.org/abs/2312.00068v1 )

ライセンス: Link先を確認
Prashant Kumar, Kshitij Madhav Bhat, Vedang Bhupesh Shenvi Nadkarni, Prem Kalra(参考訳) 疎いLiDAR点雲は、静的構造の細部が著しく失われ、ナビゲーションに利用可能な静的点の密度が低下する。 密度の低下はいくつかのシナリオで航法に有害である。 空間密度が高いにもかかわらず、ほとんどの場合、静的構造を概説するLiDARのグローバルトポロジーを推定できる。 この特性を利用して、静的LiDARスキャンのバックボーン骨格を、そのグローバルトポロジのプロキシである単一の連結コンポーネントの形で取得する。 バックボーンを使って静的構造に沿って新しいポイントを拡大し、スパーシリティを克服します。 新しく導入されたポイントは、既存の静的構造や、以前動的オブジェクトによって妨げられていた静的なポイントに対応できる。 私たちの知る限りでは、この戦略をLiDARポイントクラウドのスパースに初めて使用しています。 我々のアプローチに近い既存のソリューションは、グローバルな静的LiDARトポロジーを特定し保存し、準最適点を生成することに失敗する。 本稿では,0次元永続ホモロジー(PH)制約を用いてトポロジカルに正規化されたグラフ生成ネットワークGLiDRを提案する。 これにより、GLiDRは、トポロジ的に一貫性のあるグローバルな静的LiDARバックボーンに沿って、より新しい静的ポイントを導入することができる。 GLiDRは32xスペーサーダイナミックスキャンを使用して正確な静的点を生成し、3つのデータセットのベースラインよりもパフォーマンスがよい。 新たに導入された静的ポイントにより、GLiDRは複数の設定でSLAMを使用してLiDARベースのナビゲーションより優れている。 GLiDRは価値のある副産物を生成する - 静的および動的オブジェクトの正確なバイナリセグメンテーションマスクで、制約のある環境でのナビゲーション計画と安全性に役立つ。

Sparse LiDAR point clouds cause severe loss of detail of static structures and reduce the density of static points available for navigation. Reduced density can be detrimental to navigation under several scenarios. We observe that despite high sparsity, in most cases, the global topology of LiDAR outlining the static structures can be inferred. We utilize this property to obtain a backbone skeleton of a static LiDAR scan in the form of a single connected component that is a proxy to its global topology. We utilize the backbone to augment new points along static structures to overcome sparsity. Newly introduced points could correspond to existing static structures or to static points that were earlier obstructed by dynamic objects. To the best of our knowledge, we are the first to use this strategy for sparse LiDAR point clouds. Existing solutions close to our approach fail to identify and preserve the global static LiDAR topology and generate sub-optimal points. We propose GLiDR, a Graph Generative network that is topologically regularized using 0-dimensional Persistent Homology (PH) constraints. This enables GLiDR to introduce newer static points along a topologically consistent global static LiDAR backbone. GLiDR generates precise static points using 32x sparser dynamic scans and performs better than the baselines across three datasets. The newly introduced static points allow GLiDR to outperform LiDAR-based navigation using SLAM in several settings. GLiDR generates a valuable byproduct - an accurate binary segmentation mask of static and dynamic objects that is helpful for navigation planning and safety in constrained environments.
翻訳日:2023-12-04 17:10:23 公開日:2023-11-29
# リスク調整mriスクリーニングと早期発見のためのaiによる乳癌予測

Predicting breast cancer with AI for individual risk-adjusted MRI screening and early detection ( http://arxiv.org/abs/2312.00067v1 )

ライセンス: Link先を確認
Lukas Hirsch, Yu Huang, Hernan A. Makse, Danny F. Martinez, Mary Hughes, Sarah Eskreis-Winkler, Katja Pinker, Elizabeth Morris, Lucas C. Parra, Elizabeth J. Sutton(参考訳) 乳がんのリスクが高まる女性は、年次スクリーニングmriを補助的に行う。 検診の負担軽減と早期発見の促進を目的として,現在のmriを用いて1年以内に乳癌を発症するリスクを予測することを提案する。 スクリーニングまたは診断を12年以上行った12,694人の乳がん患者から53,858人の乳がん患者にaiアルゴリズムが開発され、2331人のがんが確認された。 最初のU-Netは病変を分断し、関心のある領域を特定するために訓練された。 u-netで抽出された特徴を用いて,第2の畳み込みネットワークを用いて悪性腫瘍の検出を訓練した。 このネットワークは、放射線科医が正常または良性と見なす場合、がんの発生リスクを1年以内に見積もるために微調整された。 このAIによるリスク予測は、トレーニングに使用されなかったハイリスクスクリーニングコホートから9,183個の乳房の振り返り分析によって評価された。 統計的分析では、省略された試験数と負の予測値、潜在的な早期検出数と正の予測値とのトレードオフに注目した。 AIアルゴリズムは、スクリーン検出がんの52%で将来の腫瘍と一致する領域を特定した。 放射線科医によると、診断前のmriでは71.3%のがんが可視的相関を示し、その65%がaiモデルによって同定された。 高いAI予測リスクを持つ全ての症例の10%でこれらの領域を再評価すると、放射線学者が早期に検出した確率は最大33%となった。 また, 再発率を低下させることなく, 術後経過観察を推奨することで, リスクリスクの16%でスクリーニング負担を軽減できた。 データセットの増加と画質の向上により、このAI支援で適応的なスクリーニングにより、スクリーニングの負担を大幅に削減し、早期検出を改善することが期待されます。

Women with an increased life-time risk of breast cancer undergo supplemental annual screening MRI. We propose to predict the risk of developing breast cancer within one year based on the current MRI, with the objective of reducing screening burden and facilitating early detection. An AI algorithm was developed on 53,858 breasts from 12,694 patients who underwent screening or diagnostic MRI and accrued over 12 years, with 2,331 confirmed cancers. A first U-Net was trained to segment lesions and identify regions of concern. A second convolutional network was trained to detect malignant cancer using features extracted by the U-Net. This network was then fine-tuned to estimate the risk of developing cancer within a year in cases that radiologists considered normal or likely benign. Risk predictions from this AI were evaluated with a retrospective analysis of 9,183 breasts from a high-risk screening cohort, which were not used for training. Statistical analysis focused on the tradeoff between number of omitted exams versus negative predictive value, and number of potential early detections versus positive predictive value. The AI algorithm identified regions of concern that coincided with future tumors in 52% of screen-detected cancers. Upon directed review, a radiologist found that 71.3% of cancers had a visible correlate on the MRI prior to diagnosis, 65% of these correlates were identified by the AI model. Reevaluating these regions in 10% of all cases with higher AI-predicted risk could have resulted in up to 33% early detections by a radiologist. Additionally, screening burden could have been reduced in 16% of lower-risk cases by recommending a later follow-up without compromising current interval cancer rate. With increasing datasets and improving image quality we expect this new AI-aided, adaptive screening to meaningfully reduce screening burden and improve early detection.
翻訳日:2023-12-04 17:09:58 公開日:2023-11-29
# TabNetを用いた歩行者の衝突重症度に影響を与える要因の探索

Exploring Factors Affecting Pedestrian Crash Severity Using TabNet: A Deep Learning Approach ( http://arxiv.org/abs/2312.00066v1 )

ライセンス: Link先を確認
Amir Rafe and Patrick A. Singleton(参考訳) 本研究では,交通安全研究に内在する表データ解析に特に適している新しい表型深層学習手法 tabnet model を用いて,歩行者の衝突重大度を初めて調査する。 2010年から2022年までのユタ州の包括的データセットにTabNetを適用することで、歩行者事故の深刻度に寄与する複雑な要因が明らかになった。 TabNetモデルは、構造化されたデータとの互換性を生かし、従来のモデルに匹敵する予測精度を示す。 歩行者年齢、左右の旋回への関与、照明条件、アルコール摂取などの重要な変数を特定し、クラッシュの結果に大きな影響を及ぼす。 SHAP(SHapley Additive exPlanations)の利用は、TabNetモデルの予測を解釈し、ディープラーニングアプローチにおける透明性と理解性の確保を可能にする。 この分析から得られた知見は、交通安全技術者や政策立案者にとって貴重なコンパスとなり、歩行者の衝突の重大さに影響を与える重要な要因の特定を可能にする。 このような知識は、都市や農村の様々な環境における歩行者の安全を高めるために、正確でデータ駆動の介入を定式化するのに役立っている。

This study presents the first investigation of pedestrian crash severity using the TabNet model, a novel tabular deep learning method exceptionally suited for analyzing the tabular data inherent in transportation safety research. Through the application of TabNet to a comprehensive dataset from Utah covering the years 2010 to 2022, we uncover intricate factors contributing to pedestrian crash severity. The TabNet model, capitalizing on its compatibility with structured data, demonstrates remarkable predictive accuracy, eclipsing that of traditional models. It identifies critical variables, such as pedestrian age, involvement in left or right turns, lighting conditions, and alcohol consumption, which significantly influence crash outcomes. The utilization of SHapley Additive exPlanations (SHAP) enhances our ability to interpret the TabNet model's predictions, ensuring transparency and understandability in our deep learning approach. The insights derived from our analysis provide a valuable compass for transportation safety engineers and policymakers, enabling the identification of pivotal factors that affect pedestrian crash severity. Such knowledge is instrumental in formulating precise, data-driven interventions aimed at bolstering pedestrian safety across diverse urban and rural settings.
翻訳日:2023-12-04 17:09:25 公開日:2023-11-29
# Swin-UNETRを用いた空間的・時間的移動学習による降水学習

Precipitation Nowcasting With Spatial And Temporal Transfer Learning Using Swin-UNETR ( http://arxiv.org/abs/2312.00258v1 )

ライセンス: Link先を確認
Ajitabh Kumar(参考訳) 気候変動により、極端な気象現象の頻度が増加した。 早期警戒システムは災害や生命の喪失を防ぐことができる。 このようなイベントを管理することは、公的機関と民間機関の両方にとって課題である。 降水ノキャスティングは、関連機関がそのようなイベントに備えるのに役立ちます。 数値天気予報(NWP)は、伝統的に物理学に基づく予測に使われてきたが、近年では、学習に基づくアプローチにより、放送のターンアラウンド時間を短縮している。 本研究では,最近提案されたSwin-UNETR (Swin UNEt TRansformer) を用いて,ヨーロッパの10地域における降水量予測を行った。 Swin-UNETRは、Swin変換器をベースとしたエンコーダが衛星画像の複数の入力チャネルからマルチスケール特徴を抽出するU字型ネットワークを使用し、CNNベースのデコーダは予測を行う。 トレーニングされたモデルは、データが利用可能なリージョンだけでなく、データが利用できない新しいリージョンでも利用することができる。

Climate change has led to an increase in frequency of extreme weather events. Early warning systems can prevent disasters and loss of life. Managing such events remain a challenge for both public and private institutions. Precipitation nowcasting can help relevant institutions to better prepare for such events. Numerical weather prediction (NWP) has traditionally been used to make physics based forecasting, and recently deep learning based approaches have been used to reduce turn-around time for nowcasting. In this work, recently proposed Swin-UNETR (Swin UNEt TRansformer) is used for precipitation nowcasting for ten different regions of Europe. Swin-UNETR utilizes a U-shaped network within which a swin transformer-based encoder extracts multi-scale features from multiple input channels of satellite image, while CNN-based decoder makes the prediction. Trained model is capable of nowcasting not only for the regions for which data is available, but can also be used for new regions for which data is not available.
翻訳日:2023-12-04 16:01:16 公開日:2023-11-29
# 二重ベータ崩壊過程と量子シミュレーションへの応用のための格子ゲージ理論の理論展開

Theoretical Developments in Lattice Gauge Theory for Applications in Double-beta Decay Processes and Quantum Simulation ( http://arxiv.org/abs/2312.00780v1 )

ライセンス: Link先を確認
Saurabh V. Kadam(参考訳) 二重ベータ崩壊 (double beta decay) は、標準模型で観測される2つのニュートリノ二重ベータ崩壊と、素粒子物理学に深く影響する仮説上の二重ベータ崩壊の2つのモードにおいて起こる稀な核過程である。 実験的な制約から信頼できる結論を得るには、対称性群 su(3) を持つ非可換ゲージ理論である量子色力学 (qcd) によって記述された基底ハドロン相互作用の正確な予測が必要である。 QCD予測には観測可能量を計算するための非摂動的手法が必要であり、有限時空格子上に定式化されたQCDに基づく格子QCD (LQCD) は定量的結果を得るための唯一の信頼性の高い第一原理法である。 しかし、LQCDは観測値と数値結果とを一致させるために正式な処方薬を必要とする。 この論文は、LQCDフレームワークの有限体積効果を用いた二重ベータ崩壊の処方薬を提供する。 2核子二重ベータ崩壊振幅とLQCD計算によってアクセス可能な量、すなわち有限体積の核マトリックス要素と2核子エネルギースペクトルを結びつけるマッチング関係が提供される。 実効場理論の低エネルギー定数を将来のLQCD計算から決定できる精度について,不確実性の影響について検討した。 QCDのハミルトンシミュレーションは、従来のLQCDよりも適している場合もあるQCDを解く別の非摂動的方法である。 テンソルネットワーク法と量子シミュレーションの台頭により、格子ゲージ理論(LGT)のハミルトンシミュレーションが現実となった。 QCDを模擬する目的に向けて、1+1次元の物質を持つSU(3)LGTのループストリングハドロン(LSH)定式化をこの論文で開発し、SU(2)LGTのLSH定式化は他の定式化よりも有利であることを示す最近の研究に動機づけられた。

Double beta decays are rare nuclear processes that can occur in two modes: two-neutrino double beta decay, observed in the Standard Model, and neutrinoless double beta decay, a hypothetical process with profound implications for Particle Physics. To draw reliable conclusions from their experimental constraints, it is necessary to have accurate predictions of the underlying hadronic interactions described by quantum chromodynamics (QCD), a non-Abelian gauge theory with the symmetry group SU(3). QCD predictions require non-perturbative methods for calculating observables, and lattice QCD (LQCD), a numerical method based on QCD formulated on a finite space-time grid, is the only reliable first-principles technique for obtaining quantitative results. However, LQCD needs formal prescriptions to match numerical results with observables. This thesis provides such prescriptions for double beta decays using the finite volume effects in the LQCD framework. Matching relations that connect two-nucleon double beta decay amplitudes to quantities accessible via LQCD calculations, namely the nuclear matrix elements and two-nucleon energy spectra in a finite volume are provided. The impact of uncertainties is examined on the precision with which low-energy constants of the corresponding effective field theories can be determined from future LQCD calculations. Hamiltonian simulation of QCD is another non-perturbative method of solving QCD which can be more suitable in some cases than the conventional LQCD. The rise of tensor network methods and quantum simulation has made Hamiltonian simulation of lattice gauge theories (LGTs) a reality. Towards the goal of simulating QCD, a loop-string-hadron (LSH) formulation of an SU(3) LGT with matter in 1+1 dimensions is developed in this thesis, motivated by recent studies that showed the LSH formulation of an SU(2) LGT to be advantageous over other formulations.
翻訳日:2023-12-04 13:39:00 公開日:2023-11-29
# 真ローレンツ量子宇宙論

Truly Lorentzian quantum cosmology ( http://arxiv.org/abs/2211.00517v2 )

ライセンス: Link先を確認
Ding Jia(参考訳) ローレンツ経路積分に基づく量子宇宙論は有望な道である。 しかし、多くの以前の研究は実数直線全体に平方スケール係数を統合することでローレンツ的でない構成を可能にする。 ここで、正の2乗スケール係数を持つローレンツ構成に最小超空間パスを積分することで、期待値を大きく変えることができることを示す。 さらに、これは因果地平線とその量子揺らぎの研究を可能にし、非ローレンツ的特異な超超空間幾何学を除外することで自明な特異性回避を達成する。 この結果は、半古典的鞍点近似が真のローレンツ量子宇宙論において常に有効であるとは限らないことを示している。 その結果、トンネルや境界のない提案、バウンシング宇宙論、インフレーションの量子起源等に関する関連する研究が再検討される必要がある。

Quantum cosmology based on Lorentzian path integrals is a promising avenue. However, many previous works allow non-Lorentzian configurations by integrating the squared scale factor over the whole real line. Here we show that restricting the minisuperspace path integral to Lorentzian configurations with positive squared scale factor can significantly change the expectation values. In addition, this enables the study of causal horizons and their quantum fluctuations, and achieves singularity avoidance trivially by excluding singular minisuperspace geometries as non-Lorentzian. The results indicate that semiclassical saddle point approximation is not always valid in truly Lorentzian quantum cosmology. As a consequence, related works on the tunnelling and no-boundary proposals, bouncing cosmology, and the quantum origin of inflation etc. need to be reexamined.
翻訳日:2023-12-01 23:35:30 公開日:2023-11-29
# GraspCaps: Familiar 6DoF Object Graspingのためのカプセルネットワークアプローチ

GraspCaps: A Capsule Network Approach for Familiar 6DoF Object Grasping ( http://arxiv.org/abs/2210.03628v2 )

ライセンス: Link先を確認
Tomas van der Velde, Hamed Ayoobi, Hamidreza Kasaei(参考訳) 産業以外ではロボットがより広く利用できるようになるにつれて、信頼できる物体把握と操作の必要性が高まっている。 このような環境では、ロボットは様々な状況で新しい物体を掴み、操作できなければならない。 本稿では,親しみやすい物体に対してポイント単位の6次元把持構成を生成するためのカプセルネットワークに基づく新しいアーキテクチャであるgravecapsを提案する。 GraspCapsは、ポイントクラウド入力に存在するオブジェクトのリッチな特徴ベクトルを抽出し、ポイント単位の把握ベクトルを生成する。 このアプローチにより、ネットワークは各オブジェクトカテゴリの特定の把握戦略を学ぶことができる。 また,GraspCapsに加えて,シミュレーションアニーリングを用いた大規模オブジェクトグラスピングデータセットを生成する手法も提案した。 得られたデータセットは、gravecapsネットワークのトレーニングに使用される。 広範にわたる実験により,提案手法の性能,特に実・模擬シナリオにおいてよく知られた物体の把握の成功率について評価した。 実験結果から,提案手法の全体的なオブジェクトグラスピング性能は,選択したベースラインよりも有意に優れていた。 この優れたパフォーマンスは、さまざまなシナリオにわたるオブジェクトの把握を成功させる上で、gravecapsの有効性を強調している。

As robots become more widely available outside industrial settings, the need for reliable object grasping and manipulation is increasing. In such environments, robots must be able to grasp and manipulate novel objects in various situations. This paper presents GraspCaps, a novel architecture based on Capsule Networks for generating per-point 6D grasp configurations for familiar objects. GraspCaps extracts a rich feature vector of the objects present in the point cloud input, which is then used to generate per-point grasp vectors. This approach allows the network to learn specific grasping strategies for each object category. In addition to GraspCaps, the paper also presents a method for generating a large object-grasping dataset using simulated annealing. The obtained dataset is then used to train the GraspCaps network. Through extensive experiments, we evaluate the performance of the proposed approach, particularly in terms of the success rate of grasping familiar objects in challenging real and simulated scenarios. The experimental results showed that the overall object-grasping performance of the proposed approach is significantly better than the selected baseline. This superior performance highlights the effectiveness of the GraspCaps in achieving successful object grasping across various scenarios.
翻訳日:2023-12-01 23:35:05 公開日:2023-11-29
# 単純量子重力の光線ゆらぎと格子微細化

Light ray fluctuation and lattice refinement of simplicial quantum gravity ( http://arxiv.org/abs/2208.04982v2 )

ライセンス: Link先を確認
Ding Jia(参考訳) 非摂動量子重力のいくつかのアプローチにおいて、主要な課題は無限格子精製極限で有効な結果を得ることである。 ローレンツのsimplicial quantum gravityを用いて、3次元および4次元の格子上の光線ゆらぎ確率を計算する。 アインシュタイン・ヒルベルト作用を伴う単純化された箱モデルにおいて、格子の精細化は単に光線のゆらぎを抑制または強化するだけでなく、実際には非常に広く、非常に狭い光確率分布を中間体に向かって駆動することを示した。 格子間および結合間の比較は、結合の普遍性クラスに付随する格子精製固定点における数値的なヒントを明らかにする。 この結果は、光線ゆらぎによって反射される量子時空ゆらぎが、顕微鏡的に自然に始まり、巨視的に穏やかになるという直観に合致する。 洗練されたボックスモデルは、あらゆるスケールの剛体フレームの仮定によって制限される。 本結果は,モデルの単純化仮定を緩和するゼロカップリング限界に関するさらなる研究を示唆する。

In several approaches of non-perturbative quantum gravity, a major outstanding problem is to obtain results valid at the infinite lattice refinement limit. Working with Lorentzian simplicial quantum gravity, we compute light ray fluctuation probabilities in 3D and 4D across different lattices. In a simplified refined box model with the Einstein-Hilbert action, numerical results show that lattice refinement does not simply suppress or simply enhance light ray fluctuations, but actually drives very wide and very narrow light probability distributions towards intermediate ones. A comparison across lattices and across couplings reveals numerical hints at a lattice refinement fixed point associated with a universality class of couplings. The results fit the intuition that quantum spacetime fluctuations reflected by light ray fluctuations start wild microscopically and become mild macroscopically. The refined box model is limited by the assumption of a rigid frame at all scales. The present results suggest further studies around the zero-coupling limit to relax the simplifying assumptions of the model.
翻訳日:2023-12-01 23:33:46 公開日:2023-11-29
# 極低温原子の完全ユニタリ量子制御

Complete unitary qutrit control in ultracold atoms ( http://arxiv.org/abs/2208.00045v2 )

ライセンス: Link先を確認
Joseph Lindon, Arina Tashchilina, Logan W. Cooke, and Lindsay J. LeBlanc(参考訳) 物理量子システムは通常2つ以上のレベルで構成され、量子ビットを超えた高次元空間に情報をエンコードする能力を提供する。 ここでは、超低温の$^{87}$rbのアンサンブルに中性原子クトリットをエンコードし、任意のシングルクトリットsu(3)ゲートを示す。 3レベル$\Lambda$-schemeの2つの非連結レベル間の直接結合に影響を及ぼすゲートの合成を含む、2つの共振マイクロ波トーンのみを用いて、ゲートの完全なセットを生成する。 2つの異なるゲート集合を用いて、walsh-hadamardフーリエ変換を実装して特徴付けし、両者のアプローチから同様の最終状態忠実性と純度を求める。 この研究は、量子情報処理、$d$-dimensional quditsの拡張、および非自明な幾何学的位相を持つマルチレベル量子状態操作における探索のための有望なプラットフォームとして、超低温中性原子クォートを確立する。

Physical quantum systems are commonly composed of more than two levels and offer the capacity to encode information in higher-dimensional spaces beyond the qubit, starting with the three-level qutrit. Here, we encode neutral-atom qutrits in an ensemble of ultracold $^{87}$Rb and demonstrate arbitrary single-qutrit SU(3) gates. We generate a full set of gates using only two resonant microwave tones, including synthesizing a gate that effects a direct coupling between the two disconnected levels in the three-level $\Lambda$-scheme. Using two different gate sets, we implement and characterize the Walsh-Hadamard Fourier transform, and find similar final-state fidelity and purity from both approaches. This work establishes the ultracold neutral-atom qutrit as a promising platform for qutrit-based quantum information processing, extensions to $d$-dimensional qudits, and explorations in multilevel quantum state manipulations with nontrivial geometric phases.
翻訳日:2023-12-01 23:33:27 公開日:2023-11-29
# HCAIを活用した効果的な人間-AIコラボレーション:人間-AI共同認知システムの視点から

Applying HCAI in developing effective human-AI teaming: A perspective from human-AI joint cognitive systems ( http://arxiv.org/abs/2307.03913v5 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao(参考訳) 研究と応用は、AIシステムを開発するための新しいパラダイムとして、HAT(Human-AI Teaming)を使用している。 HATは、AIが単なるツールではなく、チームメイトとして機能することを認識している。 効果的な人間-AIチームは、各メンバの既知の課題と制限を克服しつつ、人間とAIの両方のユニークな能力を活用でき、人間の能力を増強し、どちらのエンティティよりも共同パフォーマンスを高める必要がある。 National AI Research and Strategic Plan 2023アップデートは、AIシステムの独立したパフォーマンスに重点を置く研究プログラムが、動的、適応的、協力的なチームの中でAIが提供しなければならない機能を考慮するのに失敗し、人間とAIのコラボレーションとコラボレーションに関するさらなる研究を求めることを認識している。 しかし、AIが人間とチームメイトとして機能するかどうかについては議論がある。 第一の懸念は、"チーム"パラダイムを採用することは、人間中心のAI(HCAI)アプローチと矛盾するため、AIシステムのコントロールを失うことである。 本稿では、HATパラダイムと議論をさらに分析する。 具体的には,人間とAIの協調認知システム(HAIJCS)の概念枠組みを詳述し,HCAI傘の下でのHAT表現に適用する。 HAIJCSはHCAIを有効化しながらHAIを採用するのに役立つと考えている。 HAIJCSの意義と今後の課題についても論じる。 洞察:aiは新しい形の人間-機械関係の出現につながった:人間-aiチーム(hat)、人間-aiシステムにおけるパラダイムシフト、新しいデザインパラダイムとして帽子を適用する際に人間中心のai(hcai)アプローチに従うこと、効果的な人間-aiチームを作るための帽子を表現・実装するための人間-ai合同認知システム(haijcs)の概念的枠組みを提案する。

Research and application have used human-AI teaming (HAT) as a new paradigm to develop AI systems. HAT recognizes that AI will function as a teammate instead of simply a tool in collaboration with humans. Effective human-AI teams need to be capable of taking advantage of the unique abilities of both humans and AI while overcoming the known challenges and limitations of each member, augmenting human capabilities, and raising joint performance beyond that of either entity. The National AI Research and Strategic Plan 2023 update has recognized that research programs focusing primarily on the independent performance of AI systems generally fail to consider the functionality that AI must provide within the context of dynamic, adaptive, and collaborative teams and calls for further research on human-AI teaming and collaboration. However, there has been debate about whether AI can work as a teammate with humans. The primary concern is that adopting the "teaming" paradigm contradicts the human-centered AI (HCAI) approach, resulting in humans losing control of AI systems. This article further analyzes the HAT paradigm and the debates. Specifically, we elaborate on our proposed conceptual framework of human-AI joint cognitive systems (HAIJCS) and apply it to represent HAT under the HCAI umbrella. We believe that HAIJCS may help adopt HAI while enabling HCAI. The implications and future work for HAIJCS are also discussed. Insights: AI has led to the emergence of a new form of human-machine relationship: human-AI teaming (HAT), a paradigmatic shift in human-AI systems; We must follow a human-centered AI (HCAI) approach when applying HAT as a new design paradigm; We propose a conceptual framework of human-AI joint cognitive systems (HAIJCS) to represent and implement HAT for developing effective human-AI teaming
翻訳日:2023-12-01 23:24:10 公開日:2023-11-29
# エンコーダ埋め込みと頂点ダイナミクスを用いた大規模ラベリングネットワークにおける通信パターンシフトの発見

Discovering Communication Pattern Shifts in Large-Scale Labeled Networks using Encoder Embedding and Vertex Dynamics ( http://arxiv.org/abs/2305.02381v2 )

ライセンス: Link先を確認
Cencheng Shen, Jonathan Larson, Ha Trinh, Xihan Qin, Youngser Park, Carey E. Priebe(参考訳) ソーシャルメディアや電子メール通信などの大規模時系列ネットワークデータの解析は、社会的ダイナミクスの理解、異常の検出、トレンド予測において大きな課題となる。 特に、グラフ解析のスケーラビリティは、大規模な下流推論の進歩を妨げる重要なハードルである。 この課題に対処するために,時間エンコーダ埋め込み方式を提案する。 このアプローチでは、接地あるいは推定頂点ラベルを活用して、大規模なグラフデータの効率的な埋め込みと数十億のエッジの処理を数分で実現する。 さらに、この埋め込みは、個々の頂点から頂点コミュニティ、全体グラフ構造まで、すべてのレベルにわたるコミュニケーションパターンシフトを検出可能な、時間的動的統計値を公開する。 ランダムグラフモデルの下でその健全性を確認するための理論的支援を提供し,進化するコミュニティを捉え,異常値を特定する上での数値的利点を実証する。 最後に,2019~2020年にかけての大規模組織から匿名化された時系列通信ネットワークを解析し,コビッド19が職場コミュニケーションパターンに与える影響を評価することで,我々のアプローチの実践的応用を実証する。

Analyzing large-scale time-series network data, such as social media and email communications, poses a significant challenge in understanding social dynamics, detecting anomalies, and predicting trends. In particular, the scalability of graph analysis is a critical hurdle impeding progress in large-scale downstream inference. To address this challenge, we introduce a temporal encoder embedding method. This approach leverages ground-truth or estimated vertex labels, enabling an efficient embedding of large-scale graph data and the processing of billions of edges within minutes. Furthermore, this embedding unveils a temporal dynamic statistic capable of detecting communication pattern shifts across all levels, ranging from individual vertices to vertex communities and the overall graph structure. We provide theoretical support to confirm its soundness under random graph models, and demonstrate its numerical advantages in capturing evolving communities and identifying outliers. Finally, we showcase the practical application of our approach by analyzing an anonymized time-series communication network from a large organization spanning 2019-2020, enabling us to assess the impact of Covid-19 on workplace communication patterns.
翻訳日:2023-12-01 23:22:22 公開日:2023-11-29
# openmm 8: 機械学習ポテンシャルを用いた分子動力学シミュレーション

OpenMM 8: Molecular Dynamics Simulation with Machine Learning Potentials ( http://arxiv.org/abs/2310.03121v2 )

ライセンス: Link先を確認
Peter Eastman, Raimondas Galvelis, Ra\'ul P. Pel\'aez, Charlles R. A. Abreu, Stephen E. Farr, Emilio Gallicchio, Anton Gorenko, Michael M. Henry, Frank Hu, Jing Huang, Andreas Kr\"amer, Julien Michel, Joshua A. Mitchell, Vijay S. Pande, Jo\~ao PGLM Rodrigues, Jaime Rodriguez-Guerra, Andrew C. Simmonett, Sukrit Singh, Jason Swails, Philip Turner, Yuanqing Wang, Ivy Zhang, John D. Chodera, Gianni De Fabritiis, Thomas E. Markland(参考訳) 機械学習は分子シミュレーションにおいて重要な役割を担っている。 openmm molecular dynamics toolkitの最新バージョンでは、機械学習ポテンシャルの使用をサポートする新機能が導入されている。 任意のPyTorchモデルはシミュレーションに追加でき、力とエネルギーを計算するのに使われる。 高レベルインタフェースにより、ユーザーは一般目的、事前訓練されたポテンシャル関数で興味ある分子を簡単にモデル化できる。 最適化されたCUDAカーネルとカスタムPyTorch操作のコレクションは、シミュレーションのスピードを大幅に向上させる。 これらの特徴は、水中のサイクリン依存性キナーゼ8 (CDK8) と緑色蛍光タンパク質 (GFP) のクロロフォアのシミュレーションで示される。 これらの特徴を組み合わせることで、機械学習を使用してシミュレーションの精度をわずかに高いコストで向上させることができる。

Machine learning plays an important and growing role in molecular simulation. The newest version of the OpenMM molecular dynamics toolkit introduces new features to support the use of machine learning potentials. Arbitrary PyTorch models can be added to a simulation and used to compute forces and energy. A higher-level interface allows users to easily model their molecules of interest with general purpose, pretrained potential functions. A collection of optimized CUDA kernels and custom PyTorch operations greatly improves the speed of simulations. We demonstrate these features on simulations of cyclin-dependent kinase 8 (CDK8) and the green fluorescent protein (GFP) chromophore in water. Taken together, these features make it practical to use machine learning to improve the accuracy of simulations at only a modest increase in cost.
翻訳日:2023-12-01 23:11:54 公開日:2023-11-29
# 計測問題は特徴であり、バグではない--情報的、(neo-)ボヘリアン的アプローチにおける観察者とオープンシステムの概念を融合する

The Measurement Problem Is a Feature, Not a Bug--Schematising the Observer and the Concept of an Open System on an Informational, or (Neo-)Bohrian, Approach ( http://arxiv.org/abs/2308.16371v3 )

ライセンス: Link先を確認
Michael E. Cuffaro(参考訳) 量子力学を解釈する情報的アプローチは、pitowskyやbub、最近では多くの著者によって擁護されているように、(neo-)bohrianである。 I argue that on this approach, quantum mechanics represents what Bohr called a ``natural generalisation of the ordinary causal description'' in the sense that the idea (which philosophers of science like Stein have argued for on the grounds of practical and epistemic necessity) that understanding a theory as a theory of physics requires that one be able to ``schematise the observer'' within it is elevated in quantum mechanics to the level of a postulate in the sense that interpreting the outcome of a measurement interaction, as providing us with information about the world, requires as a matter of principle, the specification of a schematic representation of an observer in the form of a `Boolean frame' -- the Boolean algebra representing the yes-or-no questions associated with a given observable representative of a given experimental context. I argue that the approach's central concern is with the methodological question of how to assign physical properties to what one takes to be a system in a given experimental context, rather than the metaphysical question of what a given state vector represents independently of any context, and I show how the quantum generalisation of the concept of an open system may be used to assuage Einstein's complaint that the orthodox approach to quantum mechanics runs afoul of the supposedly fundamental methodological requirement to the effect that one must always be able, according to Einstein, to treat spatially separated systems as isolated from one another.

I flesh out the sense in which the informational approach to interpreting quantum mechanics, as defended by Pitowsky and Bub and lately by a number of other authors, is (neo-)Bohrian. I argue that on this approach, quantum mechanics represents what Bohr called a ``natural generalisation of the ordinary causal description'' in the sense that the idea (which philosophers of science like Stein have argued for on the grounds of practical and epistemic necessity) that understanding a theory as a theory of physics requires that one be able to ``schematise the observer'' within it is elevated in quantum mechanics to the level of a postulate in the sense that interpreting the outcome of a measurement interaction, as providing us with information about the world, requires as a matter of principle, the specification of a schematic representation of an observer in the form of a `Boolean frame' -- the Boolean algebra representing the yes-or-no questions associated with a given observable representative of a given experimental context. I argue that the approach's central concern is with the methodological question of how to assign physical properties to what one takes to be a system in a given experimental context, rather than the metaphysical question of what a given state vector represents independently of any context, and I show how the quantum generalisation of the concept of an open system may be used to assuage Einstein's complaint that the orthodox approach to quantum mechanics runs afoul of the supposedly fundamental methodological requirement to the effect that one must always be able, according to Einstein, to treat spatially separated systems as isolated from one another.
翻訳日:2023-12-01 23:09:37 公開日:2023-11-29
# 単純量子前処理によるパリティ対AC0

Parity vs. AC0 with simple quantum preprocessing ( http://arxiv.org/abs/2311.13679v2 )

ライセンス: Link先を確認
Joseph Slote(参考訳) 最近の研究の行は、定数深度量子計算の非条件的優位性、または$\mathsf{QNC^0}$、$\mathsf{NC^0}$、$\mathsf{AC^0}$、および関連する古典計算のモデルを示している。 この利点を示す問題はパリティ関数に関連する探索およびサンプリングタスクであり、$\mathsf{qnc^0}$がパリティ自体を計算するのに役立つかどうかを問うのは自然である。 我々は$\mathsf{AC^0\circ QNC^0}$ -- $\mathsf{AC^0}$が$\mathsf{QNC^0}$回路の測定結果に基づいて動作するハイブリッド回路モデルについて研究し、$\mathsf{AC^0\circ QNC^0}$は$\Omega(1)$パリティとの相関が得られない。 この予想の証拠として、$\bullet$ が、$\mathsf{qnc^0}$回路がアンシラフリーであるとき、このモデルはパリティとの無視できない相関のみを達成する。 $\bullet$ 一般(非アンシラ自由)の場合、予想が近似次数 $o(n)$ を持つ任意の種類の後処理関数に対して持つ非局所ゲームとの接続を通して、$\mathsf{QNC^0}$ 回路が任意の量子アドバイスを受けるときでさえ、制限の下で閉じていることを示す。 既知の結果により、これは線型サイズ$\mathsf{AC^0}$回路の予想を確認する。 $\bullet$は、$\mathsf{AC^0\circ QNC^0}$のスイッチング補題に向けて、ブール関数の決定木複雑性に対する量子前処理の効果を研究する。 この見地からすると、非局所的チャネルはランダム性以上のものではないことが分かる:$n$の非局所的チャネルで予め構成されたブール関数$f$は、最大$\mathrm{dt}_\mathrm{depth}[f]$で最悪の場合の深さを持つランダム化された決定木に等しい。 以上の結果から,$\mathsf{QNC^0}$は,タスクの探索とサンプリングに驚くほど強力であるが,その出力のグローバルな相関は,決定問題を解くための単純な古典計算には到達できない。

A recent line of work has shown the unconditional advantage of constant-depth quantum computation, or $\mathsf{QNC^0}$, over $\mathsf{NC^0}$, $\mathsf{AC^0}$, and related models of classical computation. Problems exhibiting this advantage include search and sampling tasks related to the parity function, and it is natural to ask whether $\mathsf{QNC^0}$ can be used to help compute parity itself. We study $\mathsf{AC^0\circ QNC^0}$ -- a hybrid circuit model where $\mathsf{AC^0}$ operates on measurement outcomes of a $\mathsf{QNC^0}$ circuit, and conjecture $\mathsf{AC^0\circ QNC^0}$ cannot achieve $\Omega(1)$ correlation with parity. As evidence for this conjecture, we prove: $\bullet$ When the $\mathsf{QNC^0}$ circuit is ancilla-free, this model achieves only negligible correlation with parity. $\bullet$ For the general (non-ancilla-free) case, we show via a connection to nonlocal games that the conjecture holds for any class of postprocessing functions that has approximate degree $o(n)$ and is closed under restrictions, even when the $\mathsf{QNC^0}$ circuit is given arbitrary quantum advice. By known results this confirms the conjecture for linear-size $\mathsf{AC^0}$ circuits. $\bullet$ Towards a switching lemma for $\mathsf{AC^0\circ QNC^0}$, we study the effect of quantum preprocessing on the decision tree complexity of Boolean functions. We find that from this perspective, nonlocal channels are no better than randomness: a Boolean function $f$ precomposed with an $n$-party nonlocal channel is together equal to a randomized decision tree with worst-case depth at most $\mathrm{DT}_\mathrm{depth}[f]$. Our results suggest that while $\mathsf{QNC^0}$ is surprisingly powerful for search and sampling tasks, that power is "locked away" in the global correlations of its output, inaccessible to simple classical computation for solving decision problems.
翻訳日:2023-12-01 22:58:51 公開日:2023-11-29
# ChatGPTとポストテスト確率

ChatGPT and post-test probability ( http://arxiv.org/abs/2311.12188v2 )

ライセンス: Link先を確認
Samuel J. Weisenthal(参考訳) ChatGPTのような強化学習に基づく大規模言語モデルは、医療を含む多くの分野の人間専門家を支援する可能性があると考えられている。 しかし、chatgptの医療における重要なタスクを実行する能力には、形式的で確率的な医療診断推論という、ほとんど作業がない。 このタイプの推論は、例えば、テスト前確率をテスト後確率に更新するために使用される。 本研究では,ChatGPTのタスク実行能力について検討する。 特に、私たちはchatgptに医療診断にベイズルールを使う方法の例を示してもらいます。 私たちのプロンプトは、純粋確率(例えば、"posterior probability"の要求)から、医学診断文献から用語を使用するクエリ(例えば、"post-test probability"の要求)まで幅広い。 医療変数名の導入は、chatgptが犯すエラー数の増加にどのようにつながるかを示す。 また,この結果から,ChatGPTがエラーを部分的に回避する上で,プロンプトエンジニアリングをどのように利用できるかを示す。 我々は,最近の感度と特異性に関するコメンテータに照らして,その結果について考察する。 また,大規模言語モデルに対する新たな研究の方向性について述べる。

Reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability to perform a key task in healthcare: formal, probabilistic medical diagnostic reasoning. This type of reasoning is used, for example, to update a pre-test probability to a post-test probability. In this work, we probe ChatGPT's ability to perform this task. In particular, we ask ChatGPT to give examples of how to use Bayes rule for medical diagnosis. Our prompts range from queries that use terminology from pure probability (e.g., requests for a "posterior probability") to queries that use terminology from the medical diagnosis literature (e.g., requests for a "post-test probability"). We show how the introduction of medical variable names leads to an increase in the number of errors that ChatGPT makes. Given our results, we also show how one can use prompt engineering to facilitate ChatGPT's partial avoidance of these errors. We discuss our results in light of recent commentaries on sensitivity and specificity. We also discuss how our results might inform new research directions for large language models.
翻訳日:2023-12-01 22:57:45 公開日:2023-11-29
# トランスダクティブオンライン学習のためのトリコトミー

A Trichotomy for Transductive Online Learning ( http://arxiv.org/abs/2311.06428v2 )

ライセンス: Link先を確認
Steve Hanneke, Shay Moran, Jonathan Shafer(参考訳) 本稿は,Ben-David, Kushilevitz, Mansour (1997) のオンライン学習環境における学習者の誤り数に関する,新たな上限と下限を提示する。 この設定は標準的なオンライン学習と似ているが、敵はゲームの開始時にラベル付けされるインスタンスのシーケンスを$x_1,\dots,x_n$で修正し、このシーケンスは学習者に知られている。 定性的に、我々は三分法を証明し、学習者が$n$の増大で犯す誤りの最小数は、正確に3つの可能な値のうち、$n$、$\theta\left(\log (n)\right)$、$\theta(1)$のいずれかしか受け取らないことを述べる。 さらに、この挙動はVC次元とリトルストーン次元の組み合わせによって決定される。 定量的に、よく知られた組合せ次元に対する誤りの数に関連する様々な境界を示す。 特に、$\theta(1)$ の定数の既知の下限を$\omega\left(\sqrt{\log(d)}\right)$ から$\omega(\log(d))$ に改善し、ここで$d$ はリトルストーン次元である。 最後に、結果を多クラス分類と不可知設定に拡張する。

We present new upper and lower bounds on the number of learner mistakes in the `transductive' online learning setting of Ben-David, Kushilevitz and Mansour (1997). This setting is similar to standard online learning, except that the adversary fixes a sequence of instances $x_1,\dots,x_n$ to be labeled at the start of the game, and this sequence is known to the learner. Qualitatively, we prove a trichotomy, stating that the minimal number of mistakes made by the learner as $n$ grows can take only one of precisely three possible values: $n$, $\Theta\left(\log (n)\right)$, or $\Theta(1)$. Furthermore, this behavior is determined by a combination of the VC dimension and the Littlestone dimension. Quantitatively, we show a variety of bounds relating the number of mistakes to well-known combinatorial dimensions. In particular, we improve the known lower bound on the constant in the $\Theta(1)$ case from $\Omega\left(\sqrt{\log(d)}\right)$ to $\Omega(\log(d))$ where $d$ is the Littlestone dimension. Finally, we extend our results to cover multiclass classification and the agnostic setting.
翻訳日:2023-12-01 22:57:26 公開日:2023-11-29
# 素粒子物理学のためのニューラルネットワーク「19のパラメータ」

19 Parameters Is All You Need: Tiny Neural Networks for Particle Physics ( http://arxiv.org/abs/2310.16121v2 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, Jan T. Offermann(参考訳) 粒子加速器の衝突速度が向上し、ディープラーニングソリューションがその実現可能性を証明するにつれ、トリガーのような低レイテンシタスクのための軽量で高速なニューラルネットワークアーキテクチャの必要性が高まっている。 本稿では,最近のLorentz- and permutation-symmetric architectureであるPELICANの可能性を検証し,トップクォークジェットタグのバイナリ分類タスクと比較した場合に,数万のパラメータで汎用アーキテクチャを上回り,最大19個のトレーニング可能なパラメータを提示する。

As particle accelerators increase their collision rates, and deep learning solutions prove their viability, there is a growing need for lightweight and fast neural network architectures for low-latency tasks such as triggering. We examine the potential of one recent Lorentz- and permutation-symmetric architecture, PELICAN, and present its instances with as few as 19 trainable parameters that outperform generic architectures with tens of thousands of parameters when compared on the binary classification task of top quark jet tagging.
翻訳日:2023-12-01 22:55:38 公開日:2023-11-29
# ヒューマンAIエージェンシーの総合化 : LLMエージェントを用いたサービス共同作成のための23のヒューリスティックガイド

Synergizing Human-AI Agency: A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents ( http://arxiv.org/abs/2310.15065v2 )

ライセンス: Link先を確認
Qingxiao Zheng, Zhongwei Xu, Abhinav Choudhry, Yuting Chen, Yongming Li, Yun Huang(参考訳) この実証的研究は、関心のあるサービス提供者にとって、LLM(Large Language Models)技術が実践者やより広いコミュニティにどのように統合されるかを決定する原動力となる。 LLMをベースとしたサービス共同作成ツールCoAGentを通じて,非AI専門家とAIの相互学習について検討する。 3段階の参加型デザインプロセスを導入し、米国中の公立図書館の23のドメインエキスパートと協力して、AIを人間のワークフローに統合するという基本的な課題を明らかにしました。 私たちの発見は、23のアクション可能な“AIによるサービス共同創造のためのヒューリスティック”を提供し、人間とAIの間の微妙な共有責任を強調しています。 さらに、AIの9つの基礎機関の側面を例示し、所有権、公平な扱い、表現の自由といった本質を強調します。 我々の革新的なアプローチは、AIを重要な利害関係者として取り入れ、盲点を特定するためにAIとAIのインタラクションを活用することによって、参加型デザインモデルを強化します。 これらの洞察は、サービスコンテキストにおける相乗的かつ倫理的な人間-AI共同創造の道を開き、AIが共存する労働環境に備える。

This empirical study serves as a primer for interested service providers to determine if and how Large Language Models (LLMs) technology will be integrated for their practitioners and the broader community. We investigate the mutual learning journey of non-AI experts and AI through CoAGent, a service co-creation tool with LLM-based agents. Engaging in a three-stage participatory design processes, we work with with 23 domain experts from public libraries across the U.S., uncovering their fundamental challenges of integrating AI into human workflows. Our findings provide 23 actionable "heuristics for service co-creation with AI", highlighting the nuanced shared responsibilities between humans and AI. We further exemplar 9 foundational agency aspects for AI, emphasizing essentials like ownership, fair treatment, and freedom of expression. Our innovative approach enriches the participatory design model by incorporating AI as crucial stakeholders and utilizing AI-AI interaction to identify blind spots. Collectively, these insights pave the way for synergistic and ethical human-AI co-creation in service contexts, preparing for workforce ecosystems where AI coexists.
翻訳日:2023-12-01 22:55:27 公開日:2023-11-29
# Attribute Descent: コンテンツレベルとそれ以上のオブジェクト中心データセットのシミュレーション

Attribute Descent: Simulating Object-Centric Datasets on the Content Level and Beyond ( http://arxiv.org/abs/2202.14034v2 )

ライセンス: Link先を確認
Yue Yao, Liang Zheng, Xiaodong Yang, Milind Napthade, and Tom Gedeon(参考訳) この記事では、無料のアノテーションを持ち、おそらく現実世界のデータに強く似ている大量のトレーニングデータをシミュレートするために、グラフィックエンジンを使用します。 合成と現実の間には、コンテンツレベルと外観レベルを含む2段階のドメインギャップが存在する。 後者は外観スタイルに関するものであるが、前者はカメラ視点、物体配置、照明条件などの属性における内容ミスマッチという異なるメカニズムから生じる。 広く研究されている外観レベルのギャップとは対照的に、内容レベルの差は広く研究されていない。 コンテンツレベルの不一致に対処するために,エンジン属性を自動的に最適化し,合成データを実世界のデータを近似する属性降下手法を提案する。 我々は,オブジェクトが画像の大部分を占めるオブジェクト中心のタスクに対して,その手法を検証する。 これらのタスクでは、探索空間は比較的小さく、各属性の最適化によって十分に明確な監視信号が得られる。 我々は,新しい合成アセットである vehiclex を収集し,既存の合成アセット objectx と personx を再構成し,再利用する。 画像分類とオブジェクト再同定に関する広範囲な実験により、適応型合成データは、合成データのみによるトレーニング、データ拡張のトレーニング、データセットの内容の数値理解という3つのシナリオで効果的に使用できることが確認された。

This article aims to use graphic engines to simulate a large number of training data that have free annotations and possibly strongly resemble to real-world data. Between synthetic and real, a two-level domain gap exists, involving content level and appearance level. While the latter is concerned with appearance style, the former problem arises from a different mechanism, i.e, content mismatch in attributes such as camera viewpoint, object placement and lighting conditions. In contrast to the widely-studied appearance-level gap, the content-level discrepancy has not been broadly studied. To address the content-level misalignment, we propose an attribute descent approach that automatically optimizes engine attributes to enable synthetic data to approximate real-world data. We verify our method on object-centric tasks, wherein an object takes up a major portion of an image. In these tasks, the search space is relatively small, and the optimization of each attribute yields sufficiently obvious supervision signals. We collect a new synthetic asset VehicleX, and reformat and reuse existing the synthetic assets ObjectX and PersonX. Extensive experiments on image classification and object re-identification confirm that adapted synthetic data can be effectively used in three scenarios: training with synthetic data only, training data augmentation and numerically understanding dataset content.
翻訳日:2023-12-01 21:06:19 公開日:2023-11-29
# データストリームのためのアクティブラーニング:調査

Active learning for data streams: a survey ( http://arxiv.org/abs/2302.08893v4 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci(参考訳) オンラインアクティブな学習は機械学習のパラダイムであり、データストリームからラベルに最も情報のあるデータポイントを選択することを目的としている。 ラベル付き観測の収集に伴うコストを最小化する問題は近年,特にラベルなし形式でのみ利用可能となる実世界のアプリケーションにおいて注目されている。 それぞれの観測に注釈をつけるのは時間と費用がかかり、大量のラベル付きデータを得るのが難しくなる。 この問題を解決するために、この数十年間、機械学習モデルの性能を向上させるために、ラベル付けに関する最も有益な観察を選択するための、多くのアクティブラーニング戦略が提案されてきた。 これらのアプローチは、静的プールベースとストリームベースアクティブラーニングの2つのカテゴリに分けられる。 プールベースのアクティブラーニングは、ラベルなしデータのクローズドプールから観測のサブセットを選択することを含み、多くの調査や文献レビューの焦点となっている。 しかし、データストリームの可用性が高まるにつれ、オンラインのアクティブラーニングに重点を置くアプローチが増加し、ストリームに到達した観察を継続的に選択、ラベル付けすることが可能になる。 本研究の目的は、データストリームから最も情報性の高い観測をリアルタイムで選択するための、最近提案されたアプローチの概要を提供することである。 我々は,提案されている様々な技術についてレビューし,その強みと限界,及びこの分野に存在する課題と機会について論じる。

Online active learning is a paradigm in machine learning that aims to select the most informative data points to label from a data stream. The problem of minimizing the cost associated with collecting labeled observations has gained a lot of attention in recent years, particularly in real-world applications where data is only available in an unlabeled form. Annotating each observation can be time-consuming and costly, making it difficult to obtain large amounts of labeled data. To overcome this issue, many active learning strategies have been proposed in the last decades, aiming to select the most informative observations for labeling in order to improve the performance of machine learning models. These approaches can be broadly divided into two categories: static pool-based and stream-based active learning. Pool-based active learning involves selecting a subset of observations from a closed pool of unlabeled data, and it has been the focus of many surveys and literature reviews. However, the growing availability of data streams has led to an increase in the number of approaches that focus on online active learning, which involves continuously selecting and labeling observations as they arrive in a stream. This work aims to provide an overview of the most recently proposed approaches for selecting the most informative observations from data streams in real time. We review the various techniques that have been proposed and discuss their strengths and limitations, as well as the challenges and opportunities that exist in this area of research.
翻訳日:2023-12-01 20:59:17 公開日:2023-11-29
# 逆画像難読化に対するロバストネスのベンチマーク

Benchmarking Robustness to Adversarial Image Obfuscations ( http://arxiv.org/abs/2301.12993v2 )

ライセンス: Link先を確認
Florian Stimberg, Ayan Chakrabarti, Chun-Ta Lu, Hussein Hazimeh, Otilia Stretcu, Wei Qiao, Yintao Liu, Merve Kaya, Cyrus Rashtchian, Ariel Fuxman, Mehmet Tek, Sven Gowal(参考訳) コンテンツの自動フィルタリングとモデレーションは、オンラインプラットフォームが協力し、乱用を防ぐユーザーコミュニティを構築するための重要なツールである。 残念ながら、リソース豊富なアクターは、プラットフォームポリシーや行動規範に違反したコンテンツを投稿するために、自動フィルタをバイパスしようとする。 この目標を達成するために、これらの悪意あるアクターは、画像(例えば、慎重に選択された良性画像や視覚パターンによって有害な画像をオーバーレイする)に違反するポリシーを難読化して、機械学習モデルが正しい決定に達するのを防ぐことができる。 本稿では,この問題に研究者を招き,新たな画像ベンチマークを提案する。 ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。 ImageNet-$\textrm{C}$ と ImageNet-$\bar{\textrm{C}}$ を超えて、オリジナルコンテンツインテントを保存する汎用的で劇的な逆修正を提案する。 これは$\ell_p$-normの有界敵よりも一般的な敵の脅威に取り組むことを目的としている。 ベンチマークおよびトレーニングモデルにおける33の事前学習モデルの評価を行い,拡張度,アーキテクチャ,訓練方法によって一般化を計測した。 このベンチマークは、研究者が自身のモデルとメソッドをテストし、これらの難解性に対してより堅牢な新しいアプローチを見つけようとすることを願っている。

Automated content filtering and moderation is an important tool that allows online platforms to build striving user communities that facilitate cooperation and prevent abuse. Unfortunately, resourceful actors try to bypass automated filters in a bid to post content that violate platform policies and codes of conduct. To reach this goal, these malicious actors may obfuscate policy violating images (e.g. overlay harmful images by carefully selected benign images or visual patterns) to prevent machine learning models from reaching the correct decision. In this paper, we invite researchers to tackle this specific issue and present a new image benchmark. This benchmark, based on ImageNet, simulates the type of obfuscations created by malicious actors. It goes beyond ImageNet-$\textrm{C}$ and ImageNet-$\bar{\textrm{C}}$ by proposing general, drastic, adversarial modifications that preserve the original content intent. It aims to tackle a more common adversarial threat than the one considered by $\ell_p$-norm bounded adversaries. We evaluate 33 pretrained models on the benchmark and train models with different augmentations, architectures and training methods on subsets of the obfuscations to measure generalization. We hope this benchmark will encourage researchers to test their models and methods and try to find new approaches that are more robust to these obfuscations.
翻訳日:2023-12-01 20:58:53 公開日:2023-11-29
# Gotcha:チャレンジ応答によるリアルタイムビデオディープフェイク検出

Gotcha: Real-Time Video Deepfake Detection via Challenge-Response ( http://arxiv.org/abs/2210.06186v2 )

ライセンス: Link先を確認
Govind Mittal, Chinmay Hegde, Nasir Memon(参考訳) AI対応のリアルタイムディープフェイク(RTDF)の台頭により、オンラインビデオインタラクションの完全性が懸念されている。 rtdfsは、ライブビデオのやりとりでインポスターの顔を被害者に置き換えることを可能にした。 このようなディープフェイクの進歩は、検出をコックス化し、同じ基準に達する。 しかし、既存のディープフェイク検出技術は非同期であり、RTDFには適していない。 このギャップを埋めるために,実環境において真正性を確立する挑戦応答アプローチを提案する。 対話型ビデオインタラクションに注目し,rtdf生成パイプラインの固有の制限を特にターゲットとした,課題の分類法を提案する。 本研究では,8つの課題からなる独自のデータセットを収集することにより,分類学における代表例を評価する。 これらの結果は人間と新しい自動スコアリング機能の両方で相関しており、それぞれ88.6\%と73.2%のAUCとなっている。 この結果は,実シナリオで説明可能な,スケーラブルなリアルタイムディープフェイク検出のための課題応答システムの可能性を示している。

With the rise of AI-enabled Real-Time Deepfakes (RTDFs), the integrity of online video interactions has become a growing concern. RTDFs have now made it feasible to replace an imposter's face with their victim in live video interactions. Such advancement in deepfakes also coaxes detection to rise to the same standard. However, existing deepfake detection techniques are asynchronous and hence ill-suited for RTDFs. To bridge this gap, we propose a challenge-response approach that establishes authenticity in live settings. We focus on talking-head style video interaction and present a taxonomy of challenges that specifically target inherent limitations of RTDF generation pipelines. We evaluate representative examples from the taxonomy by collecting a unique dataset comprising eight challenges, which consistently and visibly degrades the quality of state-of-the-art deepfake generators. These results are corroborated both by humans and a new automated scoring function, leading to 88.6\% and 73.2% AUC, respectively. The findings underscore the promising potential of challenge-response systems for explainable and scalable real-time deepfake detection in practical scenarios.
翻訳日:2023-12-01 20:56:42 公開日:2023-11-29
# ビデオローカライズと質問応答のための自己連鎖型画像言語モデル

Self-Chained Image-Language Model for Video Localization and Question Answering ( http://arxiv.org/abs/2305.06988v2 )

ライセンス: Link先を確認
Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal(参考訳) 近年,ビデオ質問応答に事前学習した大規模画像言語モデルを用いることで有望な結果が得られた。 これらの画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップすることができるが、通常、一様にサンプリングされたビデオフレームを、明示的な言語を意識せず、時間的モデリングとして視覚入力として結合する。 ビデオ入力の一部だけが言語クエリに関連する場合、そのような均一なフレームサンプリングは、しばしば重要な視覚的手がかりを失う。 人間はしばしばビデオモーメントを見つけ、質問に答えるためにモーメントを戻そうとするが、クエリアウェアなビデオモーメントローカライザーのトレーニングには、高価なアノテーションと高い計算コストが必要になる。 そこで本研究では,単一の画像言語モデル(blip-2)を用いて,時間的キーフレームのローカライゼーションとビデオ上でのqaに取り組むための新しいフレームワークであるsevilaを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。 本稿では,これらのモジュールの連鎖化手法を提案する。 まず、フォワードチェーンでは、Localizerがビデオ中に複数の言語対応のキーフレームを見つけ、Answererが答えを予測するために使用する。 次に、Answererはキーフレームの擬似ラベルを生成してLocalizerを洗練させ、高価なビデオモーメントローカライゼーションアノテーションの必要性を軽減する。 我々のSeViLAフレームワークは,5つの挑戦的ビデオQAとイベント予測ベンチマークにおいて,いくつかの強力なベースラインを上回り,微細チューニング(NExT-QA, STAR)とゼロショット(NExT-QA, STAR, How2QA, VLEP)の両方で最先端を実現する。 また、ローカライザの影響、ローカライザと他の時間的ローカライズモデルとの比較、ローカライザの事前訓練/自己調整、キーフレーム数の変化についても分析する。

Recent studies have shown promising results on utilizing large pre-trained image-language models for video question answering. While these image-language models can efficiently bootstrap the representation learning of video-language models, they typically concatenate uniformly sampled video frames as visual inputs without explicit language-aware, temporal modeling. When only a portion of a video input is relevant to the language query, such uniform frame sampling can often lead to missing important visual cues. Although humans often find a video moment to focus on and rewind the moment to answer questions, training a query-aware video moment localizer often requires expensive annotations and high computational costs. To address this issue, we propose Self-Chained Video Localization-Answering (SeViLA), a novel framework that leverages a single image-language model (BLIP-2) to tackle both temporal keyframe localization and QA on videos. SeViLA framework consists of two modules: Localizer and Answerer, where both are parameter-efficiently fine-tuned from BLIP-2. We propose two ways of chaining these modules for cascaded inference and self-refinement. First, in the forward chain, the Localizer finds multiple language-aware keyframes in a video, which the Answerer uses to predict the answer. Second, in the reverse chain, the Answerer generates keyframe pseudo-labels to refine the Localizer, alleviating the need for expensive video moment localization annotations. Our SeViLA framework outperforms several strong baselines on 5 challenging video QA and event prediction benchmarks, and achieves the state-of-the-art in both fine-tuning (NExT-QA, STAR) and zero-shot (NExT-QA, STAR, How2QA, VLEP) settings. We also analyze the impact of Localizer, comparisons of Localizer with other temporal localization models, pre-training/self-refinement of Localizer, and varying the number of keyframes.
翻訳日:2023-12-01 20:48:28 公開日:2023-11-29
# テキストベースゲームにおける自然言語行動空間に対する最小アプローチ

A Minimal Approach for Natural Language Action Space in Text-based Games ( http://arxiv.org/abs/2305.04082v2 )

ライセンス: Link先を確認
Dongwon Kelvin Ryu, Meng Fang, Shirui Pan, Gholamreza Haffari, Ehsan Shareghi(参考訳) text-based games (tgs) は強化学習のための言語ベースのインタラクティブ環境である。 言語モデル (LM) と知識グラフ (KG) は、TGにおける大きな行動空間を扱うために一般的に使われているが、これらの手法が必要か過剰に使用されるかは定かではない。 本稿では,tgsにおける行動空間を探索する課題を再検討し,訓練段階において許容行動を利用するための最小のアプローチである \epsilon$-admissible exploration を提案する。 さらに,KGやLMを必要とせずに,ゲーム観察のみでテキストコマンドを生成するテキストベースのアクタクリティカル(TAC)エージェントを提案する。 我々の手法は,Jerichoから平均10ゲームにわたって,LMとKGを使用した強力なベースラインと最先端のエージェントを上回ります。 我々のアプローチは、より軽量なモデル設計、環境内の情報を活用する新しい視点、指数関数的に大きなアクション空間を効果的に探索するために十分であることを強調する。

Text-based games (TGs) are language-based interactive environments for reinforcement learning. While language models (LMs) and knowledge graphs (KGs) are commonly used for handling large action space in TGs, it is unclear whether these techniques are necessary or overused. In this paper, we revisit the challenge of exploring the action space in TGs and propose $ \epsilon$-admissible exploration, a minimal approach of utilizing admissible actions, for training phase. Additionally, we present a text-based actor-critic (TAC) agent that produces textual commands for game, solely from game observations, without requiring any KG or LM. Our method, on average across 10 games from Jericho, outperforms strong baselines and state-of-the-art agents that use LM and KG. Our approach highlights that a much lighter model design, with a fresh perspective on utilizing the information within the environments, suffices for an effective exploration of exponentially large action spaces.
翻訳日:2023-12-01 20:47:47 公開日:2023-11-29
# 深部ホログラフィー推定における領域シフト免疫の解析

Analyzing the Domain Shift Immunity of Deep Homography Estimation ( http://arxiv.org/abs/2304.09976v2 )

ライセンス: Link先を確認
Mingzhen Shao, Tolga Tasdizen, Sarang Joshi(参考訳) ホログラフィー推定は、幅広いアプリケーションにおける画像アライメントの基本的な技術として機能する。 畳み込みニューラルネットワークの出現は、この領域で顕著な効果を示す学習ベースの方法論を導入してきた。 しかし、これらのアプローチの異なる領域にわたる一般化性はいまだに未解明である。 他の従来のタスクとは異なり、cnnによるホモグラフィ推定モデルでは、ドメインシフトに対する独特の免責を示し、転送学習を必要とせずに、データセットから別のデータへのシームレスな展開を可能にする。 本研究では、ドメインシフトに対する様々な深層ホモグラフィー推定モデルのレジリエンスについて検討し、ネットワークアーキテクチャ自体がこの顕著な適応性に寄与しないことを示した。 モデルの焦点領域を精査し、入力画像に様々な修正を加えることにより、モデルがホモグラフィ推定のためにエッジやコーナーポイントといった局所的なテクスチャに大きく依存していることを確認した。 さらに,本分析は,ドメインシフト免疫自体が局所的なテクスチャの利用と密接に結びついていることを示す。

Homography estimation serves as a fundamental technique for image alignment in a wide array of applications. The advent of convolutional neural networks has introduced learning-based methodologies that have exhibited remarkable efficacy in this realm. Yet, the generalizability of these approaches across distinct domains remains underexplored. Unlike other conventional tasks, CNN-driven homography estimation models show a distinctive immunity to domain shifts, enabling seamless deployment from one dataset to another without the necessity of transfer learning. This study explores the resilience of a variety of deep homography estimation models to domain shifts, revealing that the network architecture itself is not a contributing factor to this remarkable adaptability. By closely examining the models' focal regions and subjecting input images to a variety of modifications, we confirm that the models heavily rely on local textures such as edges and corner points for homography estimation. Moreover, our analysis underscores that the domain shift immunity itself is intricately tied to the utilization of these local textures.
翻訳日:2023-12-01 20:45:27 公開日:2023-11-29
# 教師なしビデオオブジェクトセグメンテーションのためのガイドスロット注意

Guided Slot Attention for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2303.08314v2 )

ライセンス: Link先を確認
Minhyeok Lee, Suhwan Cho, Dogyoon Lee, Chaewon Park, Jungho Lee, Sangyoun Lee(参考訳) 教師なしビデオオブジェクトセグメンテーションは、ビデオシーケンスにおいて最も顕著なオブジェクトをセグメンテーションすることを目的としている。 しかし、複雑な背景と複数の前景オブジェクトの存在は、この課題を難しくしている。 To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. 提案モデルは2つの人気のあるデータセットで最先端のパフォーマンスを実現する。 さらに,様々な比較実験による挑戦場面におけるモデルの有効性を示す。

Unsupervised video object segmentation aims to segment the most prominent object in a video sequence. However, the existence of complex backgrounds and multiple foreground objects make this task challenging. To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. The proposed model achieves state-of-the-art performance on two popular datasets. Additionally, we demonstrate the robustness of the proposed model in challenging scenes through various comparative experiments.
翻訳日:2023-12-01 20:44:18 公開日:2023-11-29
# KL拡散誘導温度サンプリング

KL-Divergence Guided Temperature Sampling ( http://arxiv.org/abs/2306.01286v2 )

ライセンス: Link先を確認
Chung-Ching Chang, David Reitter, Renat Aksitov, Yun-Hsuan Sung(参考訳) 温度サンプリングは、大規模言語モデルの予測を多様化するための従来の手法である。 温度が上昇すると、予測は多様化するが幻覚にも弱い。 幻覚を緩和するための一般的なアプローチは、ソース/接地文書を提供することであり、モデルは、提供されたソースに結合し、帰属する予測を生成するように訓練される。 多様性と帰属の間にはトレードオフがあるようだ。 このようなトレードオフを緩和するために、復号ステップよりも温度が一定であることの制約を緩和し、KL偏差によるソースへの関係に応じて動的温度を誘導する機構を提案する。 提案手法は,従来のtop-kアルゴリズムやtop-pアルゴリズムよりも,対話型質問処理や要約タスクにおいて優れていることを示す。

Temperature sampling is a conventional approach to diversify large language model predictions. As temperature increases, the prediction becomes diverse but also vulnerable to hallucinations -- generating tokens that are sensible but not factual. One common approach to mitigate hallucinations is to provide source/grounding documents and the model is trained to produce predictions that bind to and are attributable to the provided source. It appears that there is a trade-off between diversity and attribution. To mitigate any such trade-off, we propose to relax the constraint of having a fixed temperature over decoding steps, and a mechanism to guide the dynamic temperature according to its relevance to the source through KL-divergence. Our experiments justifies the trade-off, and shows that our sampling algorithm outperforms the conventional top-k and top-p algorithms in conversational question-answering and summarization tasks.
翻訳日:2023-12-01 20:36:26 公開日:2023-11-29
# テキスト誘導拡散モデルの逆探索による故障モードの発見

Discovering Failure Modes of Text-guided Diffusion Models via Adversarial Search ( http://arxiv.org/abs/2306.00974v5 )

ライセンス: Link先を確認
Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille(参考訳) テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。 よくある失敗は (i)自然に見えるテキストは、間違った内容の画像を生成させるか、または (ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。 本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。 そこで本研究では, 離散的なプロンプト空間と高次元の潜在空間を体系的に探索し, 画像生成における望ましくない動作や障害ケースを自動的に発見する, TDM 上の最初の逆探索手法 SAGE を提案する。 画像分類器は,探索中にサロゲート損失関数として使用し,人間の検査を用いて識別された故障を検証する。 本手法は,人間の言語空間と難解な潜在空間の両方を効率的に探索することを可能にし,勾配消失問題を克服する。 次に、広く使われている5つの生成モデルにおけるSAGEの有効性を実証し、(1)入力テキストのセマンティクスを捉えない画像を生成する様々な自然なテキストプロンプトを見つける。 この結果に基づいて, 根本的な原因と潜在的な解決策についてさらに議論する。 2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間の領域を見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。 3) また,テキストプロンプトと無関係な自然画像を生成する潜在サンプルも発見し,潜在空間とプロンプト空間の誤認を示唆した。 (4)任意の入力プロンプトに単一の逆トークンを組み込むことで、さまざまなターゲットオブジェクトを生成することができる。 プロジェクトページ: https://sage-diffusion.github.io/

Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, the first adversarial search method on TDMs that systematically explores the discrete prompt space and the high-dimensional latent space, to automatically discover undesirable behaviors and failure cases in image generation. We use image classifiers as surrogate loss functions during searching, and employ human inspections to validate the identified failures. For the first time, our method enables efficient exploration of both the discrete and intricate human language space and the challenging latent space, overcoming the gradient vanishing problem. Then, we demonstrate the effectiveness of SAGE on five widely used generative models and reveal four typical failure modes: (1) We find a variety of natural text prompts that generate images failing to capture the semantics of input texts. We further discuss the underlying causes and potential solutions based on the results. (2) We find regions in the latent space that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that result in natural-looking images unrelated to the text prompt, implying a possible misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to any input prompts, we can generate a variety of specified target objects. Project page: https://sage-diffusion.github.io/
翻訳日:2023-12-01 20:36:11 公開日:2023-11-29
# 実測値の操作:インセンティブ、ランク付け、情報非対称性

Operationalizing Counterfactual Metrics: Incentives, Ranking, and Information Asymmetry ( http://arxiv.org/abs/2305.14595v2 )

ライセンス: Link先を確認
Serena Wang, Stephen Bates, P. M. Aronow, Michael I. Jordan(参考訳) 社会科学から機械学習まで、最適化されるべきメトリクスが必ずしも社会福祉と一致しているとは限らないことは十分に文書化されている。 Dranove et al. (2003) は、手術死亡率の公表は、提供者選択行動の増大によって病気患者の福祉を実際に損なうことを示した。 このような平均的な治療成績指標から生じるインセンティブの誤用を分析し,治療決定を駆動するインセンティブが患者の福祉の最大化に合致することを示す。 (i)不当な不当な結果の責任を負うこと、及び (II) 治療患者の平均値よりも全福祉を考慮した。 これを運用し, 患者指向のランキングシステムにおいて, 反事実的指標を合理的に振る舞うように修正する方法を示す。 プロバイダが規制機関よりも患者についてより多く観察する場合、私たちはプリンシパルとエージェント間の情報非対称性の度合いによってパフォーマンスの低下を制限した。 そこで本モデルでは,主エージェント情報非対称性と因果推論の不均一性を関連付ける。

From the social sciences to machine learning, it has been well documented that metrics to be optimized are not always aligned with social welfare. In healthcare, Dranove et al. (2003) showed that publishing surgery mortality metrics actually harmed the welfare of sicker patients by increasing provider selection behavior. We analyze the incentive misalignments that arise from such average treated outcome metrics, and show that the incentives driving treatment decisions would align with maximizing total patient welfare if the metrics (i) accounted for counterfactual untreated outcomes and (ii) considered total welfare instead of averaging over treated patients. Operationalizing this, we show how counterfactual metrics can be modified to behave reasonably in patient-facing ranking systems. Extending to realistic settings when providers observe more about patients than the regulatory agencies do, we bound the decay in performance by the degree of information asymmetry between principal and agent. In doing so, our model connects principal-agent information asymmetry with unobserved heterogeneity in causal inference.
翻訳日:2023-12-01 20:32:57 公開日:2023-11-29
# huging faceのmlモデルの炭素フットプリントの検討--レポジトリマイニングによる研究

Exploring the Carbon Footprint of Hugging Face's ML Models: A Repository Mining Study ( http://arxiv.org/abs/2305.11164v3 )

ライセンス: Link先を確認
Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch, Justus Bogner(参考訳) 機械学習(ML)システムの台頭は、能力とモデルサイズの増加により、その炭素フットプリントを悪化させた。 しかしながら、mlモデルの炭素フットプリントが実際に測定、報告、評価される方法についての知識は乏しい。 そこで本論文は,Hugging Faceにおける1,417のMLモデルと関連するデータセットの炭素フットプリントの測定を解析することを目的としている。 目標は、MLモデルの炭素効率を報告し最適化する方法に関する洞察とレコメンデーションを提供することだ。 この研究には、炭素排出量に関するHugging Face Hub APIに関する最初のリポジトリマイニング研究が含まれている。 この研究は,(1)MLモデル作成者がHugging Face Hub上でどのように二酸化炭素排出量を測定し,報告するかという2つの研究課題に答えようとしている。 トレーニングMLモデルの二酸化炭素排出量にどのような影響があるのか? この研究はいくつかの重要な発見をもたらした。 これには、炭素排出報告モデルの停滞率、過去2年間のハグ面における報告された炭素フットプリントのわずかな減少、メインアプリケーションドメインとしてのnlpの継続的な支配などが含まれる。 さらに、この研究は、二酸化炭素排出量とモデルサイズ、データセットサイズ、MLアプリケーションドメインといった様々な属性の相関関係を明らかにする。 これらの結果は、Hugging Faceコミュニティ内のエネルギーレポートのプラクティスを改善し、炭素効率の良いモデル開発を促進するためのソフトウェア測定の必要性を強調している。 この問題への対応として, 二酸化炭素排出報告に基づくモデル分類と, 炭素効率の分類の2つの分類が提案されている。 これらの分類提案の目的は、MLコミュニティにおける透明性と持続可能なモデル開発を促進することである。

The rise of machine learning (ML) systems has exacerbated their carbon footprint due to increased capabilities and model sizes. However, there is scarce knowledge on how the carbon footprint of ML models is actually measured, reported, and evaluated. In light of this, the paper aims to analyze the measurement of the carbon footprint of 1,417 ML models and associated datasets on Hugging Face, which is the most popular repository for pretrained ML models. The goal is to provide insights and recommendations on how to report and optimize the carbon efficiency of ML models. The study includes the first repository mining study on the Hugging Face Hub API on carbon emissions. This study seeks to answer two research questions: (1) how do ML model creators measure and report carbon emissions on Hugging Face Hub?, and (2) what aspects impact the carbon emissions of training ML models? The study yielded several key findings. These include a stalled proportion of carbon emissions-reporting models, a slight decrease in reported carbon footprint on Hugging Face over the past 2 years, and a continued dominance of NLP as the main application domain. Furthermore, the study uncovers correlations between carbon emissions and various attributes such as model size, dataset size, and ML application domains. These results highlight the need for software measurements to improve energy reporting practices and promote carbon-efficient model development within the Hugging Face community. In response to this issue, two classifications are proposed: one for categorizing models based on their carbon emission reporting practices and another for their carbon efficiency. The aim of these classification proposals is to foster transparency and sustainable model development within the ML community.
翻訳日:2023-12-01 20:31:59 公開日:2023-11-29
# S-TLLR:STDPによるスパイクニューラルネットワークの時間的局所学習ルール

S-TLLR: STDP-inspired Temporal Local Learning Rule for Spiking Neural Networks ( http://arxiv.org/abs/2306.15220v3 )

ライセンス: Link先を確認
Marco Paul E. Apolinario and Kaushik Roy(参考訳) スパイキングニューラルネットワーク(snn)は生物学的に妥当なモデルであり、特にシーケンシャルな学習タスクにおいて、エネルギー効率の高いインテリジェンスをエッジに展開するのに適していると認識されている。 しかし、SNNの訓練は、正確な時間的および空間的信用割当を必要とするため、重大な課題となる。 時間によるバックプロパゲーション (BPTT) アルゴリズムはこれらの問題に対処する最も広く使われている手法であるが、時間的依存のため計算コストが高い。 本研究では,S-TLLRを提案する。S-TLLRは,Spyke-Timing Dependent Plasticity(STDP)メカニズムにインスパイアされた,イベントベースの学習タスクにおける深層SNNのトレーニングを目的とした,3段階の時間的局所学習ルールである。 さらに、S-TLLRは、低消費電力エッジデバイス上でのオンライン学習に適した時間ステップに依存しない、低メモリと時間複雑性を持つように設計されている。 提案手法のスケーラビリティを実証するため,画像やジェスチャ認識,音声分類,光フロー推定など,幅広いアプリケーションを対象としたイベントベースデータセットの広範な評価を行った。 全ての実験において、S-TLLRはBPTTに匹敵する高い精度を達成し、メモリは5-50\times$と1.3-6.6\times$の乗算累積(MAC)演算を減らした。

Spiking Neural Networks (SNNs) are biologically plausible models that have been identified as potentially apt for deploying energy-efficient intelligence at the edge, particularly for sequential learning tasks. However, training of SNNs poses significant challenges due to the necessity for precise temporal and spatial credit assignment. Back-propagation through time (BPTT) algorithm, whilst the most widely used method for addressing these issues, incurs a high computational cost due to its temporal dependency. In this work, we propose S-TLLR, a novel three-factor temporal local learning rule inspired by the Spike-Timing Dependent Plasticity (STDP) mechanism, aimed at training deep SNNs on event-based learning tasks. Furthermore, S-TLLR is designed to have low memory and time complexities, which are independent of the number of time steps, rendering it suitable for online learning on low-power edge devices. To demonstrate the scalability of our proposed method, we have conducted extensive evaluations on event-based datasets spanning a wide range of applications, such as image and gesture recognition, audio classification, and optical flow estimation. In all the experiments, S-TLLR achieved high accuracy, comparable to BPTT, with a reduction in memory between $5-50\times$ and multiply-accumulate (MAC) operations between $1.3-6.6\times$.
翻訳日:2023-12-01 20:23:19 公開日:2023-11-29
# MagicBrush:手書きの注釈付き画像編集用データセット

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing ( http://arxiv.org/abs/2306.10012v2 )

ライセンス: Link先を確認
Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su(参考訳) テキスト誘導画像編集は、個人使用からPhotoshopなどのプロフェッショナルアプリケーションまで、日常生活で広く必要とされる。 しかし、既存の手法はゼロショットか、あるいは大量のノイズを含む自動合成データセットで訓練されている。 したがって、実際に望ましい結果を出すためには、まだ多くの手動チューニングが必要です。 この問題に対処するために、私たちはmagicbrush(https://osu-nlp-group.github.io/magicbrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーの編集といったさまざまなシナリオをカバーする、命令誘導の実画像編集のための、最初の大規模で手作業によるデータセットです。 MagicBrushは、手動で注釈付けされたトリプル(ソースイメージ、命令、ターゲットイメージ)で構成されており、大規模なテキスト誘導画像編集モデルのトレーニングをサポートする。 MagicBrushでInstructPix2Pixを微調整し、新しいモデルが人間の評価に応じてはるかに優れた画像を生成することを示す。 さらに、定量的、質的、人間的評価を含む多次元から現在の画像編集ベースラインを評価するための広範な実験を行う。 その結果、データセットの難易度と現在のベースラインと現実世界の編集ニーズのギャップが明らかになった。

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triplets (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
翻訳日:2023-12-01 20:22:30 公開日:2023-11-29
# スパース近代ホップフィールドモデルについて

On Sparse Modern Hopfield Model ( http://arxiv.org/abs/2309.12673v2 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Donglin Yang, Dennis Wu, Chenwei Xu, Bo-Yu Chen, Han Liu(参考訳) 現代のホップフィールドモデルのスパース拡張として、スパース近代ホップフィールドモデルを導入する。 密度の高いホップフィールドモデルと同様に、スパース・ホップフィールドモデルも1ステップ近似がスパース・アテンション・メカニズムに対応するメモリ・リトリーバル・ダイナミクスを備える。 理論的には、我々の重要な貢献は、スパースエントロピー正則化器の凸共役を用いた閉形スパースホップフィールドエネルギーの原理的導出である。 これに基づいて、スパースエネルギー関数からスパースメモリ検索ダイナミクスを導出し、その1ステップ近似がスパース構造の注意と等価であることを示す。 重要なこととして、我々は、その密度の高いアナログよりも確実に厳密な、スパーシティ依存型メモリ検索誤差境界を提供する。 そこで, スパーシティのメリットが生じる条件を特定し, 議論する。 さらに, 比較的現代的なホップフィールドモデルでは, 高速不動点収束や指数的メモリ容量など, 密接な理論特性を維持していることを示す。 実証的に、我々は合成と実世界の両方のデータセットを使用して、スパースホップフィールドモデルが多くの状況においてその密接なデータセットよりも優れていることを示す。

We introduce the sparse modern Hopfield model as a sparse extension of the modern Hopfield model. Like its dense counterpart, the sparse modern Hopfield model equips a memory-retrieval dynamics whose one-step approximation corresponds to the sparse attention mechanism. Theoretically, our key contribution is a principled derivation of a closed-form sparse Hopfield energy using the convex conjugate of the sparse entropic regularizer. Building upon this, we derive the sparse memory retrieval dynamics from the sparse energy function and show its one-step approximation is equivalent to the sparse-structured attention. Importantly, we provide a sparsity-dependent memory retrieval error bound which is provably tighter than its dense analog. The conditions for the benefits of sparsity to arise are therefore identified and discussed. In addition, we show that the sparse modern Hopfield model maintains the robust theoretical properties of its dense counterpart, including rapid fixed point convergence and exponential memory capacity. Empirically, we use both synthetic and real-world datasets to demonstrate that the sparse Hopfield model outperforms its dense counterpart in many situations.
翻訳日:2023-12-01 20:13:30 公開日:2023-11-29
# MarkovGen: 効率的なテキスト・画像生成のための構造化予測

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation ( http://arxiv.org/abs/2308.10997v2 )

ライセンス: Link先を確認
Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar(参考訳) 現代のテキスト画像生成モデルは、テキストプロンプトに忠実でフォトリアリスティックな高品質な画像を生成する。 これらのモデルのほとんどは反復的であり、大規模なモデルで何度もサンプリングを実行する必要がある。 この反復プロセスは、画像の異なる領域がテキストプロンプトと一致しているだけでなく、互いに互換性があることを保証するために必要である。 本研究では,マルコフランダム場(MRF)モデルを用いて,画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。 本手法の有効性を,潜在トークンベースのMuseテキスト・画像モデル上で実証する。 MRFは、異なる空間位置における画像トークン間の互換性を豊かに符号化し、品質を改善し、Museサンプリングの必要な回数を大幅に削減する。 MRFによる推論は非常に安価であり、そのパラメータは、MRF推論を微分可能なニューラルネットワーク層としてモデル化することで、バックプロパゲーションを通じて迅速に学習することができる。 私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。

Modern text-to-image generation models produce high-quality images that are both photorealistic and faithful to the text prompts. However, this quality comes at significant computational cost: nearly all of these models are iterative and require running sampling multiple times with large models. This iterative process is needed to ensure that different regions of the image are not only aligned with the text prompt, but also compatible with each other. In this work, we propose a light-weight approach to achieving this compatibility between different regions of an image, using a Markov Random Field (MRF) model. We demonstrate the effectiveness of this method on top of the latent token-based Muse text-to-image model. The MRF richly encodes the compatibility among image tokens at different spatial locations to improve quality and significantly reduce the required number of Muse sampling steps. Inference with the MRF is significantly cheaper, and its parameters can be quickly learned through back-propagation by modeling MRF inference as a differentiable neural-network layer. Our full model, MarkovGen, uses this proposed MRF model to both speed up Muse by 1.5X and produce higher quality images by decreasing undesirable image artifacts.
翻訳日:2023-12-01 20:10:04 公開日:2023-11-29
# 点および形状正規化データ合成による顕微鏡画像のセグメンテーション

Microscopy Image Segmentation via Point and Shape Regularized Data Synthesis ( http://arxiv.org/abs/2308.09835v2 )

ライセンス: Link先を確認
Shijie Li, Mengwei Ren, Thomas Ach, Guido Gerig(参考訳) 現在の深層学習に基づく顕微鏡画像のセグメンテーション手法は,高度なアノテーションを用いた大量のトレーニングデータに大きく依存している。 オブジェクトの完全な輪郭が描かれる完全なアノテーションに比べ、ポイントアノテーション、特にオブジェクトセントロイドは、取得がずっと簡単で、その後のセグメンテーションのための重要な情報を提供する。 本稿では,訓練中のみ点アノテーションへのアクセスを想定し,合成学習データを用いた顕微鏡画像分割のための統一パイプラインを開発する。 提案手法は,(1)ポイントアノテーションを取り,形状に制約のある擬似高密度セグメンテーションマスクをサンプリングする,(2)非対向的に訓練された画像生成モデルを用いて,オブジェクトレベルの一貫性によって正規化された現実的な顕微鏡画像に変換する,(3)合成画像と共に擬似マスクをペアワイズデータセットとしてアドホックセグメンテーションモデルを訓練する,の3段階を含む。 一般のmonusegデータセットでは,入力マスクと生成画像との一貫性を維持しつつ,ベースラインモデルよりも多様で現実的な画像を生成する。 同じセグメンテーションバックボーンを使用する場合、我々の合成データセットでトレーニングされたモデルは、擬似ラベルやベースライン生成画像でトレーニングされたモデルよりも大幅に優れている。 さらに,本フレームワークは,高密度ラベルを用いた実写顕微鏡画像の訓練モデルと比較し,顕微鏡画像セグメント化における作業集約的手動ピクセルワイドアノテーションの信頼性と高効率な代替手段としての可能性を示した。 コードは利用可能です。

Current deep learning-based approaches for the segmentation of microscopy images heavily rely on large amount of training data with dense annotation, which is highly costly and laborious in practice. Compared to full annotation where the complete contour of objects is depicted, point annotations, specifically object centroids, are much easier to acquire and still provide crucial information about the objects for subsequent segmentation. In this paper, we assume access to point annotations only during training and develop a unified pipeline for microscopy image segmentation using synthetically generated training data. Our framework includes three stages: (1) it takes point annotations and samples a pseudo dense segmentation mask constrained with shape priors; (2) with an image generative model trained in an unpaired manner, it translates the mask to a realistic microscopy image regularized by object level consistency; (3) the pseudo masks along with the synthetic images then constitute a pairwise dataset for training an ad-hoc segmentation model. On the public MoNuSeg dataset, our synthesis pipeline produces more diverse and realistic images than baseline models while maintaining high coherence between input masks and generated images. When using the identical segmentation backbones, the models trained on our synthetic dataset significantly outperform those trained with pseudo-labels or baseline-generated images. Moreover, our framework achieves comparable results to models trained on authentic microscopy images with dense labels, demonstrating its potential as a reliable and highly efficient alternative to labor-intensive manual pixel-wise annotations in microscopy image segmentation. The code is available.
翻訳日:2023-12-01 20:09:12 公開日:2023-11-29
# 大規模言語モデル支援による患者メッセージ応答の効果

The impact of responding to patient messages with large language model assistance ( http://arxiv.org/abs/2310.17703v2 )

ライセンス: Link先を確認
Shan Chen, Marco Guevara, Shalini Moningi, Frank Hoebers, Hesham Elhalawani, Benjamin H. Kann, Fallon E. Chipidza, Jonathan Leeman, Hugo J.W.L. Aerts, Timothy Miller, Guergana K. Savova, Raymond H. Mak, Maryam Lustberg, Majid Afshar, Danielle S. Bitterman(参考訳) ドキュメントの負担は臨床医のバーンアウトの大きな貢献であり、全国的に増加しており、患者のケア能力に対する緊急の脅威となっている。 ChatGPTのような人工知能(AI)チャットボットは、ドキュメントの支援によって臨床の負担を軽減することができる。 多くの病院が電子カルテシステムにそうしたシステムを積極的に組み込んでいるが、AIチャットボットの有用性と臨床意思決定への影響は研究されていない。 臨床医の患者質問に対する回答作成支援に, 大規模言語モデルの有用性を初めて検討した。 2段階の横断研究で、6人の腫瘍医が100のリアルな合成がん患者のシナリオと、一般的な医療状況を反映したポータルメッセージに回答しました。 AIによる応答は長く、読めないが、58%の時間を編集せずに許容できるドラフトを提供した。 AIアシストは効率を77%改善し、損傷リスクは低い(82%が安全)。 しかし、7.7%の未処理のAI応答は深刻なダメージを与える可能性がある。 31%の症例では、医師はAIドラフトは人間によるものだと考えた。 AI支援により、患者の教育勧告が増加し、手動の反応よりも臨床行動が少なくなった。 以上の結果から,aiはドキュメント作成を支援することで臨床医の効率と患者のケアを改善することが期待される。 安全な実装には、モデル出力の監視と人間とAIのインタラクションが不可欠だ。

Documentation burden is a major contributor to clinician burnout, which is rising nationally and is an urgent threat to our ability to care for patients. Artificial intelligence (AI) chatbots, such as ChatGPT, could reduce clinician burden by assisting with documentation. Although many hospitals are actively integrating such systems into electronic medical record systems, AI chatbots utility and impact on clinical decision-making have not been studied for this intended use. We are the first to examine the utility of large language models in assisting clinicians draft responses to patient questions. In our two-stage cross-sectional study, 6 oncologists responded to 100 realistic synthetic cancer patient scenarios and portal messages developed to reflect common medical situations, first manually, then with AI assistance. We find AI-assisted responses were longer, less readable, but provided acceptable drafts without edits 58% of time. AI assistance improved efficiency 77% of time, with low harm risk (82% safe). However, 7.7% unedited AI responses could severely harm. In 31% cases, physicians thought AI drafts were human-written. AI assistance led to more patient education recommendations, fewer clinical actions than manual responses. Results show promise for AI to improve clinician efficiency and patient care through assisting documentation, if used judiciously. Monitoring model outputs and human-AI interaction remains crucial for safe implementation.
翻訳日:2023-12-01 20:01:32 公開日:2023-11-29
# Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・画像生成の強化

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting ( http://arxiv.org/abs/2310.08129v2 )

ライセンス: Link先を確認
Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan(参考訳) この分野の大きな進歩にもかかわらず、個々のユーザーの欲求や好みと密接に一致するパーソナライズされた視覚的表現を作成することは依然として困難である。 このプロセスでは、ユーザーは自分のアイデアをモデルに理解できる言葉で表現し、ビジョンを正確に捉える必要があり、多くのユーザーに困難をもたらします。 本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。 本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。 書き直しモデルは、ユーザのプロンプトと意図した視覚出力の表現力とアライメントを高める。 実験結果は,新しいオフライン評価手法とオンラインテストで示されるような,ベースラインアプローチよりも優れた手法を示す。 私たちのコードとデータセットはhttps://github.com/zzjchen/tailored-visionsで利用可能です。

Despite significant progress in the field, it is still challenging to create personalized visual representations that align closely with the desires and preferences of individual users. This process requires users to articulate their ideas in words that are both comprehensible to the models and accurately capture their vision, posing difficulties for many users. In this paper, we tackle this challenge by leveraging historical user interactions with the system to enhance user prompts. We propose a novel approach that involves rewriting user prompts based on a newly collected large-scale text-to-image dataset with over 300k prompts from 3115 users. Our rewriting model enhances the expressiveness and alignment of user prompts with their intended visual outputs. Experimental results demonstrate the superiority of our methods over baseline approaches, as evidenced in our new offline evaluation method and online tests. Our code and dataset are available at https://github.com/zzjchen/Tailored-Visions .
翻訳日:2023-12-01 19:59:40 公開日:2023-11-29
# 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈

Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning ( http://arxiv.org/abs/2310.07918v2 )

ライセンス: Link先を確認
Jannik Deuschel, Caleb N. Ellington, Benjamin J. Lengerich, Yingtao Luo, Pascal Friederich, Eric P. Xing(参考訳) 解釈可能な政策学習は、観察された行動から理解可能な決定方針を推定することを目指すが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制することによって不足する。 このトレードオフは、人間の意思決定プロセスのデータ駆動解釈を制限する。 例えば、バイアスや準最適プラクティスの医学的決定を監査するには、複雑な振る舞いの簡潔な記述を提供する決定プロセスのモデルが必要です。 基本的に、既存のアプローチは、人間の決定が動的であり、文脈情報とともに劇的に変化する場合、基本的な決定プロセスが普遍的なポリシーとして表されるため、このトレードオフによって負担される。 そこで本研究では,複雑な意思決定過程を,複雑な意思決定方針がコンテキスト固有の方針から構成されるマルチタスク学習問題としてモデル化する,文脈化ポリシリカバリ(cpr)を提案する。 CPRは、コンテキスト固有のポリシーを線形観測対アクションマッピングとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しい決定モデル$\textit{on-demand}$を生成する。 CPRは完全にオフラインで部分的に監視可能な決定環境と互換性があり、繰り返し発生するブラックボックスモデルや解釈可能な決定モデルを統合するように調整できる。 我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(+22\%=AUROC vs. 以前のSOTA)とアルツハイマー病患者のMRI処方の予測(+7.7\%=AUROC vs. 以前のSOTA)の正準的タスクにおける最先端のパフォーマンスを達成した。 この予測性能の改善により、CPRはポリシー学習のための解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高分解能な探索と分析を可能にする。

Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models fall short by forcing a tradeoff between accuracy and interpretability. This tradeoff limits data-driven interpretations of human decision-making process. e.g. to audit medical decisions for biases and suboptimal practices, we require models of decision processes which provide concise descriptions of complex behaviors. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically with contextual information. Thus, we propose Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem in which complex decision policies are comprised of context-specific policies. CPR models each context-specific policy as a linear observation-to-action mapping, and generates new decision models $\textit{on-demand}$ as contexts are updated with new observations. CPR is compatible with fully offline and partially observable decision environments, and can be tailored to incorporate any recurrent black-box model or interpretable decision model. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on the canonical tasks of predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer's patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive performance, CPR closes the accuracy gap between interpretable and black-box methods for policy learning, allowing high-resolution exploration and analysis of context-specific decision models.
翻訳日:2023-12-01 19:59:25 公開日:2023-11-29
# LSTDとランダム特徴を用いた強化学習における二重明度について

On Double Descent in Reinforcement Learning with LSTD and Random Features ( http://arxiv.org/abs/2310.05518v3 )

ライセンス: Link先を確認
David Brellmann, Elo\"ise Berthier, David Filliat and Goran Frehse(参考訳) 時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている。 その性能はニューラルネットワークのサイズに大きく影響されている。 教師付き学習では、過度パラメータ化の体制とその利点はよく理解されているが、RLの状況は明らかになっていない。 本稿では,ネットワークサイズと$l_2$-regularizationが性能に与える影響を理論的に分析する。 パラメータ数と訪問状態数との比率を重要な要因として同定し,1以上の場合の過剰パラメータ化をレジームとして定義する。 さらに,二重降下現象,すなわち1のパラメータ/状態比付近で突然性能が低下する現象を観測した。 ランダムな特徴と遅延学習体制を生かし、パラメータ数と状態が無限に近づき、一定比を維持するため、漸近的条件下でのLSTD(Last-Square Temporal difference)アルゴリズムについて検討する。 経験的および真の平均二乗ベルマン誤差 (MSBE) の定式化限界を導出し, 二重発色の原因となる補正項を特徴付ける。 補正項は、$l_2$-レギュライゼーションが増加したり、見返りのない状態がゼロになったときに消滅する。 合成環境と小さな実環境における数値実験は、理論的な予測と密接に一致する。

Temporal Difference (TD) algorithms are widely used in Deep Reinforcement Learning (RL). Their performance is heavily influenced by the size of the neural network. While in supervised learning, the regime of over-parameterization and its benefits are well understood, the situation in RL is much less clear. In this paper, we present a theoretical analysis of the influence of network size and $l_2$-regularization on performance. We identify the ratio between the number of parameters and the number of visited states as a crucial factor and define over-parameterization as the regime when it is larger than one. Furthermore, we observe a double descent phenomenon, i.e., a sudden drop in performance around the parameter/state ratio of one. Leveraging random features and the lazy training regime, we study the regularized Least-Square Temporal Difference (LSTD) algorithm in an asymptotic regime, as both the number of parameters and states go to infinity, maintaining a constant ratio. We derive deterministic limits of both the empirical and the true Mean-Square Bellman Error (MSBE) that feature correction terms responsible for the double-descent. Correction terms vanish when the $l_2$-regularization is increased or the number of unvisited states goes to zero. Numerical experiments with synthetic and small real-world environments closely match the theoretical predictions.
翻訳日:2023-12-01 19:58:37 公開日:2023-11-29
# ポーズフリー汎用レンダリングトランス

Pose-Free Generalizable Rendering Transformer ( http://arxiv.org/abs/2310.03704v2 )

ライセンス: Link先を確認
Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang(参考訳) ノベルビュー合成の分野では、レンダリングの前にカメラのポーズを知る必要性(例えば、Structure from Motion)が一般的である。 しかし、正確なカメラポーズの連続的な取得は明らかにならず、ポーズ抽出におけるエラーは、ビュー合成プロセスに悪影響を及ぼす可能性がある。 この課題に対処するために、我々は、Generalizable Rendering Transformer用の新しいPF-GRTフレームワークを導入し、事前計算されたカメラポーズの必要性を排除し、データから直接学習した特徴マッチングを活用する。 PF-GRTは、ソース画像の1つを原点とする局所相対座標系を用いてパラメータ化される。 omniview トランスフォーマーは、ポーズフリー設定下でマルチビューのキューを融合するために設計されており、未設定のビュー融合とオリジン中心のアグリゲーションが行われる。 選択された原点面に投影してターゲット線に沿った3d点特徴をサンプリングする。 最終的なピクセル強度は、別のTransformerを使用して変調および復号化される。 pf-grtは、事前のカメラポーズを必要とせずに、トレーニング段階では見つからなかった新しいシーンに一般化する素晴らしい能力を示している。 llff, realestate-10k, shiny, blenderデータセット上でゼロショットレンダリングを行った結果,画像生成に優れた品質が得られた。 さらに、テストカメラのポーズにおけるノイズに対する堅牢性を示す。 コードはhttps://zhiwenfan.github.io/PF-GRT/で入手できる。

In the field of novel-view synthesis, the necessity of knowing camera poses (e.g., via Structure from Motion) before rendering has been a common practice. However, the consistent acquisition of accurate camera poses remains elusive, and errors in pose extraction can adversely impact the view synthesis process. To address this challenge, we introduce PF-GRT, a new Pose-Free framework for Generalizable Rendering Transformer, eliminating the need for pre-computed camera poses and instead leveraging feature-matching learned directly from data. PF-GRT is parameterized using a local relative coordinate system, where one of the source images is set as the origin. An OmniView Transformer is designed for fusing multi-view cues under the pose-free setting, where unposed-view fusion and origin-centric aggregation are performed. The 3D point feature along target ray is sampled by projecting onto the selected origin plane. The final pixel intensities are modulated and decoded using another Transformer. PF-GRT demonstrates an impressive ability to generalize to new scenes that were not encountered during the training phase, without the need of pre-computing camera poses. Our experiments with zero-shot rendering on the LLFF, RealEstate-10k, Shiny, and Blender datasets reveal that it produces superior quality in generating photo-realistic images. Moreover, it demonstrates robustness against noise in test camera poses. Code is available at https://zhiwenfan.github.io/PF-GRT/.
翻訳日:2023-12-01 19:58:16 公開日:2023-11-29
# 質と量:ファッションデザインにおけるテキストから画像への合成のための100万枚の高品質画像

Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design ( http://arxiv.org/abs/2311.12067v2 )

ライセンス: Link先を確認
Jia Yu, Lichao Zhang, Zijie Chen, Fayu Pan, MiaoMiao Wen, Yuming Yan, Fangsheng Weng, Shuai Zhang, Lili Pan, Zhenzhong Lan(参考訳) aiとファッションデザインの融合は有望な研究分野として現れてきた。 しかし、衣料品や試着段階に関する広範な相互関連データが欠如していることは、この領域におけるAIの潜在能力を妨げている。 そこで本研究では,複数年にわたる厳格な努力の成果であるファッション・ディフフュージョンデータセットを提案する。 このデータセットは、100万以上の高品質なファッション画像で構成され、詳細なテキスト記述と組み合わせられている。 さまざまな地理的位置と文化的背景から得られたデータセットは、世界的なファッショントレンドをカプセル化している。 この画像には、衣服や人間に関連する細かい属性が刻まれており、ファッションデザインプロセスを単純化してテキスト・ツー・イメージ(T2I)タスクにしている。 Fashion-Diffusionデータセットは、高品質なテキストイメージペアと多様なヒューマンガーメントペアを提供するだけでなく、人間に関する大規模なリソースとしても機能し、T2I世代の研究を促進する。 さらに、t2iベースのファッションデザイン分野における標準化を促進するために、ファッションデザインモデルの性能評価のための複数のデータセットからなる新しいベンチマークを提案する。 この研究は、AI駆動のファッションデザインの領域における大きな飛躍であり、この分野における将来の研究のための新しい標準を確立している。

The fusion of AI and fashion design has emerged as a promising research area. However, the lack of extensive, interrelated data on clothing and try-on stages has hindered the full potential of AI in this domain. Addressing this, we present the Fashion-Diffusion dataset, a product of multiple years' rigorous effort. This dataset, the first of its kind, comprises over a million high-quality fashion images, paired with detailed text descriptions. Sourced from a diverse range of geographical locations and cultural backgrounds, the dataset encapsulates global fashion trends. The images have been meticulously annotated with fine-grained attributes related to clothing and humans, simplifying the fashion design process into a Text-to-Image (T2I) task. The Fashion-Diffusion dataset not only provides high-quality text-image pairs and diverse human-garment pairs but also serves as a large-scale resource about humans, thereby facilitating research in T2I generation. Moreover, to foster standardization in the T2I-based fashion design field, we propose a new benchmark comprising multiple datasets for evaluating the performance of fashion design models. This work represents a significant leap forward in the realm of AI-driven fashion design, setting a new standard for future research in this field.
翻訳日:2023-12-01 19:49:56 公開日:2023-11-29
# AART: 新しいLLMアプリケーションのためのAI支援型リレーショナルデータ生成

AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications ( http://arxiv.org/abs/2311.08592v2 )

ライセンス: Link先を確認
Bhaktipriya Radharapu, Kevin Robinson, Lora Aroyo, Preethi Lahoti(参考訳) 大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。 本稿では,新しい下流アプリケーションにおけるllm生成の安全性をテストするために,逆評価データセットの自動生成手法を提案する。 AI支援のレッドチーム(AART)と呼ばれています。 aartは、再利用可能なカスタマイズ可能なレシピによるデータ生成と拡張のパイプラインを提供し、人的労力を大幅に削減し、新しい製品開発の早い段階で敵対的テストの統合を可能にする。 AARTは、効果的な敵対的テスト(例えば、広範囲の文化的・地理的領域や応用シナリオに特有で有害な概念)に不可欠な、コンテンツ特性の多様性の高い評価データセットを生成する。 データ生成はAI支援のレシピによって制御され、アプリケーションコンテキスト内の多様性を定義し、スコープし、優先順位付けする。 これは、評価優先順位をスケールアップする構造化LCM生成プロセスに影響を及ぼす。 最先端のツールと比較すると、aartはコンセプトカバレッジとデータ品質の観点から有望な結果を示している。

Adversarial testing of large language models (LLMs) is crucial for their safe and responsible deployment. We introduce a novel approach for automated generation of adversarial evaluation datasets to test the safety of LLM generations on new downstream applications. We call it AI-assisted Red-Teaming (AART) - an automated alternative to current manual red-teaming efforts. AART offers a data generation and augmentation pipeline of reusable and customizable recipes that reduce human effort significantly and enable integration of adversarial testing earlier in new product development. AART generates evaluation datasets with high diversity of content characteristics critical for effective adversarial testing (e.g. sensitive and harmful concepts, specific to a wide range of cultural and geographic regions and application scenarios). The data generation is steered by AI-assisted recipes to define, scope and prioritize diversity within the application context. This feeds into a structured LLM-generation process that scales up evaluation priorities. Compared to some state-of-the-art tools, AART shows promising results in terms of concept coverage and data quality.
翻訳日:2023-12-01 19:49:20 公開日:2023-11-29
# LLMは人間の反応バイアスを示すか? 調査設計における事例研究

Do LLMs exhibit human-like response biases? A case study in survey design ( http://arxiv.org/abs/2311.04076v2 )

ライセンス: Link先を確認
Lindia Tjuatja, Valerie Chen, Sherry Tongshuang Wu, Ameet Talwalkar, Graham Neubig(参考訳) 大規模言語モデル(LLM)の能力が向上するにつれて、調査や世論調査などの主観的ラベルが望まれる現実世界のタスクにおいて、LLMを人間のためのプロキシとして使用する可能性への興奮が高まっている。 しかし興味深いことに、人間は反応バイアスの形での変化を指示する感度も示しています。 したがって、LLMが人間の意見の近似に使用されるのであれば、LLMが人間の反応バイアスを反映する程度を調査する必要があると論じる。 本研究では,「プロンプット」の語句の置換による人間の反応バイアスが広範に研究されている事例研究として,サーベイデザインを用いた。 社会心理学における先行研究から,我々はデータセットを設計し,LLMが人間的な反応バイアスを示すかどうかを評価する枠組みを提案する。 9つのモデルの包括的評価からは,一般的なオープンおよび商用のllmは,一般的に人間的な行動を反映していないことが分かる。 これらの矛盾は、微調整されたモデルでは顕著である。 さらに,モデルがヒトと同じ方向において有意な変化を示す場合でも,ヒトの有意な変化を誘発しない摂動も同様の変化をもたらす可能性があることを見出した。 これらの結果は、アノテーションパイプラインの一部で人間を置換するためにLLMを使うことの潜在的な落とし穴を強調し、さらにモデル行動のよりきめ細かい特徴付けの重要性を強調している。 私たちのコード、データセット、収集したサンプルはhttps://github.com/lindiatjuatja/biasmonkeyで入手できます。

As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs is their sensitivity to prompt wording - but interestingly, humans also display sensitivities to instruction changes in the form of response biases. As such, we argue that if LLMs are going to be used to approximate human opinions, it is necessary to investigate the extent to which LLMs also reflect human response biases, if at all. In this work, we use survey design as a case study, where human response biases caused by permutations in wordings of "prompts" have been extensively studied. Drawing from prior work in social psychology, we design a dataset and propose a framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior. These inconsistencies tend to be more prominent in models that have been instruction fine-tuned. Furthermore, even if a model shows a significant change in the same direction as humans, we find that perturbations that are not meant to elicit significant changes in humans may also result in a similar change. These results highlight the potential pitfalls of using LLMs to substitute humans in parts of the annotation pipeline, and further underscore the importance of finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey
翻訳日:2023-12-01 19:47:48 公開日:2023-11-29
# 生成AI革命の時代における画像編集検出の再考

Rethinking Image Editing Detection in the Era of Generative AI Revolution ( http://arxiv.org/abs/2311.17953v1 )

ライセンス: Link先を確認
Zhihao Sun, Haipeng Fang, Xinying Zhao, Danding Wang and Juan Cao(参考訳) 生成AIの急速な進歩は、生成地域編集法の生存可能性と有効性を著しく向上させる。 この進化により画像操作がよりアクセスしやすくなり、元の画像内の伝達された情報の変更や誤情報の伝播のリスクが高まる。 したがって、編集された画像を検出するロバストに対する批判的な要求が存在する。 しかし、豊富で先進的な地域編集手法で編集された画像を含む総合的なデータセットの欠如は、対応する検出方法の進歩に大きな障害となっている。 大規模な生成地域編集データセットであるGREデータセットを構築することにより,空き容量を埋めることに努める。 1)2つの頻繁に編集されたシナリオに焦点を当てた実世界のオリジナル画像の収集。 2)様々なモードの複数の大規模モデルを活用した論理型およびシミュレーション型編集パイプラインの統合。 3)異なるアーキテクチャによる様々な編集アプローチを含める。 4)包括的な分析業務の提供。 提案した3つのタスクについて総合的な実験を行い、画像分類、編集方法属性、編集領域ローカライゼーション、異なる編集方法の分析、関連分野における検出方法の評価を行う。 GREデータセットは、生成領域編集検出の分野におけるさらなる研究と探索を促進することを期待する。

The accelerated advancement of generative AI significantly enhance the viability and effectiveness of generative regional editing methods. This evolution render the image manipulation more accessible, thereby intensifying the risk of altering the conveyed information within original images and even propagating misinformation. Consequently, there exists a critical demand for robust capable of detecting the edited images. However, the lack of comprehensive dataset containing images edited with abundant and advanced generative regional editing methods poses a substantial obstacle to the advancement of corresponding detection methods. We endeavor to fill the vacancy by constructing the GRE dataset, a large-scale generative regional editing dataset with the following advantages: 1) Collection of real-world original images, focusing on two frequently edited scenarios. 2) Integration of a logical and simulated editing pipeline, leveraging multiple large models in various modalities. 3) Inclusion of various editing approaches with distinct architectures. 4) Provision of comprehensive analysis tasks. We perform comprehensive experiments with proposed three tasks: edited image classification, edited method attribution and edited region localization, providing analysis of distinct editing methods and evaluation of detection methods in related fields. We expect that the GRE dataset can promote further research and exploration in the field of generative region editing detection.
翻訳日:2023-12-01 19:40:12 公開日:2023-11-29
# 視覚と言語同期:画像セグメンテーション参照のための双方向トークンマスキングオートエンコーダ

Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation ( http://arxiv.org/abs/2311.17952v1 )

ライセンス: Link先を確認
Minhyeok Lee, Dogyoon Lee, Jungho Lee, Suhwan Cho, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee(参考訳) Referring Image Segmentation (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。 近年のRISモデルは、事前訓練されたエンコーダからマルチモーダル特徴をモデル化するためのコンテキストトークンを生成し、トランスフォーマーベースのクロスモーダルアテンションを用いて効果的に融合することで、最先端のパフォーマンスを実現している。 これらの手法は言語の特徴と一致し、潜在的対象を効果的に識別するが、複雑で曖昧な文や場面で文脈情報を正しく理解するのに苦労することが多い。 この問題に対処するため,マスク付きオートエンコーダ (MAE) に触発された新しい双方向トークンマスキングオートエンコーダ (BTMAE) を提案する。 提案モデルは,トークンレベルで画像特徴と言語特徴の両方の欠落特徴を再構成することで,画像から言語へのコンテキストと画像へのコンテキストを学習する。 言い換えれば、このアプローチでは、画像と言語の機能を相互に補完し、ネットワークが2つのモダリティ間の相互接続された深いコンテキスト情報を理解することに焦点を当てます。 この学習方法は複雑な文やシーンにおけるRISパフォーマンスの堅牢性を高める。 BTMAEは3つの一般的なデータセットに対して最先端の性能を達成し,様々なアブレーション研究を通じて提案手法の有効性を実証する。

Referring Image Segmentation (RIS) aims to segment target objects expressed in natural language within a scene at the pixel level. Various recent RIS models have achieved state-of-the-art performance by generating contextual tokens to model multimodal features from pretrained encoders and effectively fusing them using transformer-based cross-modal attention. While these methods match language features with image features to effectively identify likely target objects, they often struggle to correctly understand contextual information in complex and ambiguous sentences and scenes. To address this issue, we propose a novel bidirectional token-masking autoencoder (BTMAE) inspired by the masked autoencoder (MAE). The proposed model learns the context of image-to-language and language-to-image by reconstructing missing features in both image and language features at the token level. In other words, this approach involves mutually complementing across the features of images and language, with a focus on enabling the network to understand interconnected deep contextual information between the two modalities. This learning method enhances the robustness of RIS performance in complex sentences and scenes. Our BTMAE achieves state-of-the-art performance on three popular datasets, and we demonstrate the effectiveness of the proposed method through various ablation studies.
翻訳日:2023-12-01 19:39:55 公開日:2023-11-29
# C3Net:マルチモーダルコンテンツ生成のための複合条件制御ネット

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation ( http://arxiv.org/abs/2311.17951v1 )

ライセンス: Link先を確認
Juntao Zhang, Yuehuai Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) マルチモーダルコンテンツ(画像,テキスト,音声など)を同時に合成し,複数のモーダルから条件を抽出する新しい生成型ニューラルアーキテクチャである複合条件制御ネットC3Netを提案する。 c3net は controlnet アーキテクチャを採用して,プロダクション対応の拡散モデルとそのトレーニング可能なコピーを共同でトレーニングし,推論する。 具体的には、C3Netはまず、マルチモーダル性からコントラストトレーニングに基づくモダリティ固有のエンコーダを用いて、同じセマンティック潜在空間に条件をアライメントする。 次に,C3-UNet と呼ばれる ControlNet のようなアーキテクチャを用いてセマンティック情報を結合した,アライメントされた潜在空間に基づくマルチモーダル出力を生成する。 このシステム設計では, 線形補間ではなく, 学習や多モード条件の説明を通じて, 共同モダリティ生成のための改良されたソリューションが提供される。 一方、条件を統一された潜在空間に合わせるため、C3Netはマルチモーダルなセマンティック情報を扱うためにトレーニング可能なC3-UNetのみを必要とする。 さらに, 条件アライメント段階においてユニモーダル事前トレーニングを行い, 比較的少ない訓練データでも非訓練アライメントを上回り, 高品質な複合条件生成を実現する。 我々は、c3netが第1次および第2次マルチモーダル世代に匹敵する、あるいは同等であるかどうかを定量的に検証する、最初の高品質なトライモーダル検証セットを寄贈する。 コードとトリモーダルデータセットがリリースされます。

We present Compound Conditioned ControlNet, C3Net, a novel generative neural architecture taking conditions from multiple modalities and synthesizing multimodal contents simultaneously (e.g., image, text, audio). C3Net adapts the ControlNet architecture to jointly train and make inferences on a production-ready diffusion model and its trainable copies. Specifically, C3Net first aligns the conditions from multi-modalities to the same semantic latent space using modality-specific encoders based on contrastive training. Then, it generates multimodal outputs based on the aligned latent space, whose semantic information is combined using a ControlNet-like architecture called Control C3-UNet. Correspondingly, with this system design, our model offers an improved solution for joint-modality generation through learning and explaining multimodal conditions instead of simply taking linear interpolations on the latent space. Meanwhile, as we align conditions to a unified latent space, C3Net only requires one trainable Control C3-UNet to work on multimodal semantic information. Furthermore, our model employs unimodal pretraining on the condition alignment stage, outperforming the non-pretrained alignment even on relatively scarce training data and thus demonstrating high-quality compound condition generation. We contribute the first high-quality tri-modal validation set to validate quantitatively that C3Net outperforms or is on par with first and contemporary state-of-the-art multimodal generation. Our codes and tri-modal dataset will be released.
翻訳日:2023-12-01 19:39:28 公開日:2023-11-29
# 様々なバックボーンと統計マッチングによる大規模データ凝縮

Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching ( http://arxiv.org/abs/2311.17950v1 )

ライセンス: Link先を確認
Shitong Shao, Zeyuan Yin, Muxin Zhou, Xindong Zhang and Zhiqiang Shen(参考訳) sre2lが導入した軽量な"local-match-global"マッチングは、224x224 imagenet-1kの包括的な情報を含む蒸留データセットの作成に成功した。 しかし、この一方的なアプローチは、蒸留データセットの一般化の改善を制限する特定のバックボーン、層、統計に限定されている。 十分かつ多様な「局所マッチンググローバル」マッチングは、単一のデータよりも正確かつ効果的であり、よりリッチな情報とより良い一般化を備えた蒸留データセットを作成することができると提案する。 本稿では、この視点を「一般化マッチング」と呼び、様々なバックボーンと統計マッチング(g-vbsm)を一般化し、密度を持つ合成データセットを作成し、様々なバックボーン、レイヤ、統計にまたがる完全なデータセットとの一貫性を確保することを目的としている。 実験的に実証されたように、G-VBSMは、小規模と大規模の両方のデータセットで強力な性能を得る最初のアルゴリズムである。 特に、G-VBSMは、CIFAR-100で128幅のConvNetで38.7%、Tiny-ImageNetで47.6%、ResNet18で224x224 ImageNet-1kで31.4%、クラス毎の画像(IPC)10,50,10でそれぞれパフォーマンスを達成した。 これらの結果はsoma法を3.9%,6.5%,10.1%のマージンで上回った。

The lightweight "local-match-global" matching introduced by SRe2L successfully creates a distilled dataset with comprehensive information on the full 224x224 ImageNet-1k. However, this one-sided approach is limited to a particular backbone, layer, and statistics, which limits the improvement of the generalization of a distilled dataset. We suggest that sufficient and various "local-match-global" matching are more precise and effective than a single one and has the ability to create a distilled dataset with richer information and better generalization. We call this perspective "generalized matching" and propose Generalized Various Backbone and Statistical Matching (G-VBSM) in this work, which aims to create a synthetic dataset with densities, ensuring consistency with the complete dataset across various backbones, layers, and statistics. As experimentally demonstrated, G-VBSM is the first algorithm to obtain strong performance across both small-scale and large-scale datasets. Specifically, G-VBSM achieves a performance of 38.7% on CIFAR-100 with 128-width ConvNet, 47.6% on Tiny-ImageNet with ResNet18, and 31.4% on the full 224x224 ImageNet-1k with ResNet18, under images per class (IPC) 10, 50, and 10, respectively. These results surpass all SOTA methods by margins of 3.9%, 6.5%, and 10.1%, respectively.
翻訳日:2023-12-01 19:38:47 公開日:2023-11-29
# Zero-shot Retrieval: 検索エンジンによる事前トレーニングモデルの拡張

Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines ( http://arxiv.org/abs/2311.17949v1 )

ライセンス: Link先を確認
Hamed Damirchi, Cristian Rodr\'iguez-Opazo, Ehsan Abbasnejad, Damien Teney, Javen Qinfeng Shi, Stephen Gould, Anton van den Hengel(参考訳) 大規模な事前訓練されたモデルは、問題解決に必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すことができない。 Webには、特定のアプリケーションに精通するために必要な情報が含まれている可能性が高いが、適切なデータを特定することは難しい。 本稿では,NLPとマルチモーダル学習の最近の進歩を利用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。 モデルが不確実なテストケースに基づいて,テスト時にWebから有用なデータを取得することを提案する。 既存の検索強化アプローチと異なり、この基盤となる不確実性に対処するためにモデルを更新する。 例えば、スタンフォード・カーズ・アンド・フラワーズ(Stanford Cars and Flowers)データセットの精度が15ポイント向上したなどです。 また、ノイズ検索と異なる学習戦略の影響を探索する広範な実験も提示する。

Large pre-trained models can dramatically reduce the amount of task-specific data required to solve a problem, but they often fail to capture domain-specific nuances out of the box. The Web likely contains the information necessary to excel on any specific application, but identifying the right data a priori is challenging. This paper shows how to leverage recent advances in NLP and multi-modal learning to augment a pre-trained model with search engine retrieval. We propose to retrieve useful data from the Web at test time based on test cases that the model is uncertain about. Different from existing retrieval-augmented approaches, we then update the model to address this underlying uncertainty. We demonstrate substantial improvements in zero-shot performance, e.g. a remarkable increase of 15 percentage points in accuracy on the Stanford Cars and Flowers datasets. We also present extensive experiments that explore the impact of noisy retrieval and different learning strategies.
翻訳日:2023-12-01 19:38:19 公開日:2023-11-29
# アクションスロット:交通場面におけるマルチラベル原子活動認識のための視覚行動中心表現

Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes ( http://arxiv.org/abs/2311.17948v1 )

ライセンス: Link先を確認
Chi-Hsi Kung, Shu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen(参考訳) 本稿では,マルチラベル原子活動認識について検討する。 行動認識の顕著な進歩にもかかわらず、複数の道路利用者の動きと文脈情報の総合的理解の欠如により、原子活動を認識することは依然として困難である。 本稿では,視覚行動中心表現を学習し,動作情報と文脈情報の両方をキャプチャするスロットアテンションに基づくアプローチであるaction-slotを提案する。 私たちのキーとなる考え方は、原子活動が起こる領域に注意を払うことができるアクションスロットを、明示的な知覚ガイダンスを必要とせずに設計することです。 スロット注目をさらに高めるために,アクションスロットと競合するバックグラウンドスロットを導入し,アクティビティのない背景領域への不要な集中を回避するためのトレーニングプロセスを支援する。 しかし、既存のデータセットにおける不均衡なクラス分布は、稀な活動の評価を妨げている。 この制限に対処するため,OATSより4倍大きく,原子活性のバランスの取れた分布を特徴とするTACOという合成データセットを収集した。 本手法の有効性を検証するため,様々な行動認識ベースラインに対する包括的実験およびアブレーション研究を行った。 また,実世界のデータセット上でのマルチラベル原子活動認識の性能は,TACO上での事前学習により向上できることを示す。 ソースコードとデータセットをリリースします。 ビジュアライゼーションの動画はプロジェクトページにある。 https://hcis-lab.github.io/action-slot/

In this paper, we study multi-label atomic activity recognition. Despite the notable progress in action recognition, it is still challenging to recognize atomic activities due to a deficiency in a holistic understanding of both multiple road users' motions and their contextual information. In this paper, we introduce Action-slot, a slot attention-based approach that learns visual action-centric representations, capturing both motion and contextual information. Our key idea is to design action slots that are capable of paying attention to regions where atomic activities occur, without the need for explicit perception guidance. To further enhance slot attention, we introduce a background slot that competes with action slots, aiding the training process in avoiding unnecessary focus on background regions devoid of activities. Yet, the imbalanced class distribution in the existing dataset hampers the assessment of rare activities. To address the limitation, we collect a synthetic dataset called TACO, which is four times larger than OATS and features a balanced distribution of atomic activities. To validate the effectiveness of our method, we conduct comprehensive experiments and ablation studies against various action recognition baselines. We also show that the performance of multi-label atomic activity recognition on real-world datasets can be improved by pretraining representations on TACO. We will release our source code and dataset. See the videos of visualization on the project page: https://hcis-lab.github.io/Action-slot/
翻訳日:2023-12-01 19:38:04 公開日:2023-11-29
# DreamSync: 画像理解フィードバックによるテキストから画像生成の調整

DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback ( http://arxiv.org/abs/2311.17946v1 )

ライセンス: Link先を確認
Jiao Sun, Deqing Fu, Yushi Hu, Su Wang, Royi Rassin, Da-Cheng Juan, Dana Alon, Charles Herrmann, Sjoerd van Steenkiste, Ranjay Krishna, Cyrus Rashtchian(参考訳) 広く普及したにもかかわらず、テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに美的かつ忠実なイメージを作成するのに依然として苦労している。 本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。 DreamSyncはTIFAの評価フレームワークから、大規模な視覚言語モデル(VLM)が生成した画像とテキスト入力の微妙な相違を効果的に識別できるという最近の知見を裏付けている。 DreamSyncはこの洞察を使ってラベル付きデータなしでT2Iモデルをトレーニングする。 まず、入力テキストに対して複数の候補画像を生成するようにモデルに促す。 次に、最良の世代を選ぶために2つのvlmを使用します。生成した画像とテキストのアライメントを測定するビジュアル質問応答モデルと、生成の美的品質を測定するモデルです。 選択後、我々はLoRAを使用してT2Iモデルを反復的に微調整し、その生成を選択された最良世代に向けて導く。 DreamSyncには追加のヒューマンアノテーションは必要ない。 モデルアーキテクチャの変更、あるいは強化学習。 単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力を改善し、複数のベンチマーク(TIFAで+1.7%、DSG1Kで+2.9%、VILAで+3.4%)と人間の評価によって証明された。

Despite their wide-spread success, Text-to-Image models (T2I) still struggle to produce images that are both aesthetically pleasing and faithful to the user's input text. We introduce DreamSync, a model-agnostic training algorithm by design that improves T2I models to be faithful to the text input. DreamSync builds off a recent insight from TIFA's evaluation framework -- that large vision-language models (VLMs) can effectively identify the fine-grained discrepancies between generated images and the text inputs. DreamSync uses this insight to train T2I models without any labeled data; it improves T2I models using its own generations. First, it prompts the model to generate several candidate images for a given input text. Then, it uses two VLMs to select the best generation: a Visual Question Answering model that measures the alignment of generated images to the text, and another that measures the generation's aesthetic quality. After selection, we use LoRA to iteratively finetune the T2I model to guide its generation towards the selected best generations. DreamSync does not need any additional human annotation. model architecture changes, or reinforcement learning. Despite its simplicity, DreamSync improves both the semantic alignment and aesthetic appeal of two diffusion-based T2I models, evidenced by multiple benchmarks (+1.7% on TIFA, +2.9% on DSG1K, +3.4% on VILA aesthetic) and human evaluation.
翻訳日:2023-12-01 19:37:42 公開日:2023-11-29
# 効果的な指導学習を支援するコントラスト視覚言語アライメント

Contrastive Vision-Language Alignment Makes Efficient Instruction Learner ( http://arxiv.org/abs/2311.17945v1 )

ライセンス: Link先を確認
Lizhao Liu, Xinyu Sun, Tianhang Xiang, Zhuangwei Zhuang, Liuren Yin, Mingkui Tan(参考訳) 大規模言語モデル(llm)を視覚言語インストラクションフォローモデルに拡張するタスクについて検討する。 LLMはテキストモダリティのみに基づいて訓練されており、視覚的モダリティを効果的に消化することが難しいため、この課題は極めて難しい。 既存の手法では、通常、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させる。 しかし、生成目的は、視覚と言語に対する弱いアライメントしか生み出すことができず、調整された視覚言語モデルは、微調整データに非常に飢えている。 本稿では,VET と LLM の表現を効果的に整合させるために,コントラスト的および生成的アライメント目的の両方を適用した CG-VLM を提案する。 共通コントラスト学習における画像レベルや文レベルのアライメントとは異なり、cg-vlmは画像-パッチレベルの特徴とテキスト-トケンレベルの埋め込みを整合させるが、標準的な画像キャプションデータセットでは明示的な接地パッチ-トケン関係がないため、達成は非常に困難である。 この問題に対処するために,画像パッチ機能とテキストトケ埋め込みの平均的類似性を最大化することを提案する。 CG-VLMは視覚言語に強いアライメントをもたらし,効率的な指導学習者であることを示す。 例えば、たった10%のインストラクションチューニングデータを用いて、ゼロショットScienceQA-Imageベンチマークにおいて、最先端のLLaVA[29]の95%のパフォーマンスを達成する。

We study the task of extending the large language model (LLM) into a vision-language instruction-following model. This task is crucial but challenging since the LLM is trained on text modality only, making it hard to effectively digest the visual modality. To address this, existing methods typically train a visual adapter to align the representation between a pre-trained vision transformer (ViT) and the LLM by a generative image captioning loss. However, we find that the generative objective can only produce weak alignment for vision and language, making the aligned vision-language model very hungry for the instruction fine-tuning data. In this paper, we propose CG-VLM that applies both Contrastive and Generative alignment objectives to effectively align the representation of ViT and LLM. Different from image level and sentence level alignment in common contrastive learning settings, CG-VLM aligns the image-patch level features and text-token level embeddings, which, however, is very hard to achieve as no explicit grounding patch-token relation provided in standard image captioning datasets. To address this issue, we propose to maximize the averaged similarity between pooled image-patch features and text-token embeddings. Extensive experiments demonstrate that the proposed CG-VLM produces strong vision-language alignment and is an efficient instruction learner. For example, using only 10% instruction tuning data, we reach 95% performance of state-of-the-art method LLaVA [29] on the zero-shot ScienceQA-Image benchmark.
翻訳日:2023-12-01 19:37:13 公開日:2023-11-29
# LALM:言語モデルによる長期的な行動予測

LALM: Long-Term Action Anticipation with Language Models ( http://arxiv.org/abs/2311.17944v1 )

ライセンス: Link先を確認
Sanghwan Kim, Daoji Huang, Yongqin Xian, Otmar Hilliges, Luc Van Gool, and Xi Wang(参考訳) 人間の活動を理解することは、カメラの装着者の視点から視覚的な視点を捉えることに焦点を当てたエゴセントリック・ビジョンにおいて、重要かつ複雑なタスクである。 効果的なビデオ表現を得ることは、人間の活動に固有の複雑さと変動性によって困難であることを証明する。さらに、ビデオベースの学習への排他的依存は、ロングテールクラスとアウト・オブ・ディストリビューションシナリオをまたいで一般化するモデルの能力を制限する可能性がある。 本研究では,言語モデル(lalm)を用いた長期行動予測のための新しいアプローチを提案する。 本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。 過去の出来事のコンテキストを活用することで,大規模言語モデル(LLM)を用いた行動予測の促進戦略を考案する。 さらに、LLMの文脈内学習を容易にするために、例えば選択など、最大Marginal Relevanceを実装した。 実験の結果, LALMはEgo4Dベンチマークの長期動作予測作業において最先端の手法を超越していることがわかった。 さらに、LALMを2つの追加ベンチマークで検証し、分類学の異なる複雑な活動にまたがる一般化の能力を確認する。 これらは特定の微調整なしで達成される。

Understanding human activity is a crucial yet intricate task in egocentric vision, a field that focuses on capturing visual perspectives from the camera wearer's viewpoint. While traditional methods heavily rely on representation learning trained on extensive video data, there exists a significant limitation: obtaining effective video representations proves challenging due to the inherent complexity and variability in human activities.Furthermore, exclusive dependence on video-based learning may constrain a model's capability to generalize across long-tail classes and out-of-distribution scenarios. In this study, we introduce a novel approach for long-term action anticipation using language models (LALM), adept at addressing the complex challenges of long-term activity understanding without the need for extensive training. Our method incorporates an action recognition model to track previous action sequences and a vision-language model to articulate relevant environmental details. By leveraging the context provided by these past events, we devise a prompting strategy for action anticipation using large language models (LLMs). Moreover, we implement Maximal Marginal Relevance for example selection to facilitate in-context learning of the LLMs. Our experimental results demonstrate that LALM surpasses the state-of-the-art methods in the task of long-term action anticipation on the Ego4D benchmark. We further validate LALM on two additional benchmarks, affirming its capacity for generalization across intricate activities with different sets of taxonomies. These are achieved without specific fine-tuning.
翻訳日:2023-12-01 19:36:41 公開日:2023-11-29
# layercollapse:ニューラルネットワークの適応圧縮

LayerCollapse: Adaptive compression of neural networks ( http://arxiv.org/abs/2311.17943v1 )

ライセンス: Link先を確認
Soheil Zibakhsh Shabgahi, Mohammad Soheil Shariff, Farinaz Koushanfar(参考訳) 現代のディープラーニングとトランスフォーマーベースのモデルの増大するスケールを扱うことは、大きな課題となる。 モデルアーキテクチャ探索や知識蒸留のようなモデル圧縮手法の最適化には大きな進歩があったが、データと計算資源の入手はこれらの最適化にとって大きなハードルとなっている。 本稿では,新しい適応モデル圧縮手法であるlayercollapseを提案する。 LayerCollapseはネットワーク内の非線形性を排除し、2つの連続した完全に接続されたレイヤを1つの線形変換に分解する。 このアプローチは同時にレイヤ数とパラメータ数の両方を削減し、モデル効率を向上させる。 また,データ品質とモデル表現性に合わせてモデルを圧縮する圧縮認識正規化器を導入し,タスク間のオーバーフィットを低減した。 以上の結果から,LayerCollapseの効率よい圧縮と正規化機能を複数のきめ細かい分類ベンチマークで示し,最大74%のトレーニング後圧縮を最小限の精度で達成した。 この方法と同一ターゲットネットワーク上の知識蒸留を比較し,imagenetデータセットの計算効率が5倍向上し,全体の精度が8%向上したことを示す。

Handling the ever-increasing scale of contemporary deep learning and transformer-based models poses a significant challenge. Although great strides have been made in optimizing model compression techniques such as model architecture search and knowledge distillation, the availability of data and computational resources remains a considerable hurdle for these optimizations. This paper introduces LayerCollapse, a novel alternative adaptive model compression methodology. LayerCollapse works by eliminating non-linearities within the network and collapsing two consecutive fully connected layers into a single linear transformation. This approach simultaneously reduces both the number of layers and the parameter count, thereby enhancing model efficiency. We also introduce a compression aware regularizer, which compresses the model in alignment with the dataset quality and model expressiveness, consequently reducing overfitting across tasks. Our results demonstrate LayerCollapse's effective compression and regularization capabilities in multiple fine-grained classification benchmarks, achieving up to 74% post training compression with minimal accuracy loss. We compare this method with knowledge distillation on the same target network, showcasing a five-fold increase in computational efficiency and 8% improvement in overall accuracy on the ImageNet dataset.
翻訳日:2023-12-01 19:36:16 公開日:2023-11-29
# オブジェクトベース(クラス非依存)ビデオドメイン適応

Object-based (yet Class-agnostic) Video Domain Adaptation ( http://arxiv.org/abs/2311.17942v1 )

ライセンス: Link先を確認
Dantong Niu, Amir Bar, Roei Herzig, Trevor Darrell, Anna Rohrbach(参考訳) 既存のビデオベースのアクション認識システムは、トレーニングデータに対して大きな分布シフトがある場合、一般的に、密集したアノテーションと環境の苦労を必要とする。 ビデオドメイン適応の現在の方法は、典型的には、ターゲットドメインデータのサブセットに完全に注釈付けされたデータを使用してモデルを微調整する。 近年のオブジェクト中心のアクション認識モデルにおけるオブジェクトの役割に着想を得て,対象ドメインにクラス非依存のオブジェクトアノテーションを付加したスパースセットを利用することで,既存のアクション認識システムを新しいドメインに適応するための,シンプルかつ効果的なフレームワークであるObject-based (yet Class-agnostic) Video Domain Adaptation (ODAPT)を提案する。 我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。 ODAPTは従来の教師なしのメソッドと組み合わせることができる一般的なフレームワークで、自己監督型のマルチモーダルメソッドMMSADAと組み合わせると+5.0、Epic-Kitchensの敵ベースのメソッドTA$^3$Nに追加すると+1.7のアップを提供する。

Existing video-based action recognition systems typically require dense annotation and struggle in environments when there is significant distribution shift relative to the training data. Current methods for video domain adaptation typically fine-tune the model using fully annotated data on a subset of target domain data or align the representation of the two domains using bootstrapping or adversarial learning. Inspired by the pivotal role of objects in recent supervised object-centric action recognition models, we present Object-based (yet Class-agnostic) Video Domain Adaptation (ODAPT), a simple yet effective framework for adapting the existing action recognition systems to new domains by utilizing a sparse set of frames with class-agnostic object annotations in a target domain. Our model achieves a +6.5 increase when adapting across kitchens in Epic-Kitchens and a +3.1 increase adapting between Epic-Kitchens and the EGTEA dataset. ODAPT is a general framework that can also be combined with previous unsupervised methods, offering a +5.0 boost when combined with the self-supervised multi-modal method MMSADA and a +1.7 boost when added to the adversarial-based method TA$^3$N on Epic-Kitchens.
翻訳日:2023-12-01 19:35:57 公開日:2023-11-29
# 前駆体マイクロRNAのための変分オートエンコーダによる記述生成

Description Generation using Variational Auto-Encoders for precursor microRNA ( http://arxiv.org/abs/2311.17970v1 )

ライセンス: Link先を確認
Marko Petkovi\'c, Vlado Menkovski(参考訳) マイクロRNA(micro RNA)は非コードRNAの一種で、遺伝子制御に関与し、がん、心血管疾患、神経疾患などの疾患に関連付けられる。 したがって、miRNAの全ゲノムを同定することは非常に関連性が高い。 新規前駆体miRNA(pre-miRNA)の検出法は複雑で高価であるため,MLを用いた計算検出が有用である。 既存のMLメソッドはしばしば複雑なブラックボックスであり、pre-miRNAの構造的記述を解釈できない。 本稿では, 変異自動エンコーダによる生成モデルを用いて, プレmiRNAの生成要因を明らかにする新しいフレームワークを提案する。 VAEを訓練した後、低次元潜在空間上の決定木を用いてプレmiRNA記述を開発する。 フレームワークをmiRNA分類に適用し、高い再構成と分類性能を得るとともに、正確なmiRNA記述も開発する。

Micro RNAs (miRNA) are a type of non-coding RNA, which are involved in gene regulation and can be associated with diseases such as cancer, cardiovascular and neurological diseases. As such, identifying the entire genome of miRNA can be of great relevance. Since experimental methods for novel precursor miRNA (pre-miRNA) detection are complex and expensive, computational detection using ML could be useful. Existing ML methods are often complex black boxes, which do not create an interpretable structural description of pre-miRNA. In this paper, we propose a novel framework, which makes use of generative modeling through Variational Auto-Encoders to uncover the generative factors of pre-miRNA. After training the VAE, the pre-miRNA description is developed using a decision tree on the lower dimensional latent space. Applying the framework to miRNA classification, we obtain a high reconstruction and classification performance, while also developing an accurate miRNA description.
翻訳日:2023-12-01 19:28:15 公開日:2023-11-29
# グラフ機械学習を用いた転写因子カスケードの合成と潜在的治療ターゲットの同定

Generation of a Compendium of Transcription Factor Cascades and Identification of Potential Therapeutic Targets using Graph Machine Learning ( http://arxiv.org/abs/2311.17969v1 )

ライセンス: Link先を確認
Sonish Sivarajkumar, Pratyush Tandale, Ankit Bhardwaj, Kipp W. Johnson, Anoop Titus, Benjamin S. Glicksberg, Shameer Khader, Kamlesh K. Yadav, Lakshminarayanan Subramanian(参考訳) 転写因子(tfs)は遺伝子発現の調節において重要な役割を果たすため、多くの細胞プロセスにおいて重要な役割を担っている。 本研究では,グラフ機械学習手法を用いて,文字列データベースから抽出したデータを用いてtfカスケードの補完を行う。 tfカスケード(tf cascade)は、tfネットワーク内の有向経路を形成する、相互に制御するtfのシーケンスである。 62個のTFからなる最も長いカスケードを持つ81,488個のTFカスケードの知識グラフを構築した。 その結果,複数のtfが協調して遺伝子発現を調節する,複雑なtf相互作用の性質が浮き彫りになった。 また、集中度測定に基づく規制の影響が最も大きい10個のtfを同定し、特定のtfsの研究に関心のある研究者に貴重な情報を提供した。 さらに, この経路の富化分析により, 癌やその他の疾患に関わるもの, 発生, 分化, 細胞シグナル伝達に関わるものなど, 様々な経路および機能的カテゴリーの著しい富化が認められた。 本研究で同定された濃縮経路は、転写因子の調節不全に関連する疾患に対する治療的介入の標的となる可能性がある。 我々はTFカスケード用のデータセット、知識グラフ、グラフMLメソッドをリリースし、その結果を表示するウェブサイトを作成しました。 本研究は,TF間の相互作用の複雑なネットワークとその細胞プロセスにおける制御的役割を理解するための貴重な資源を提供する。

Transcription factors (TFs) play a vital role in the regulation of gene expression thereby making them critical to many cellular processes. In this study, we used graph machine learning methods to create a compendium of TF cascades using data extracted from the STRING database. A TF cascade is a sequence of TFs that regulate each other, forming a directed path in the TF network. We constructed a knowledge graph of 81,488 unique TF cascades, with the longest cascade consisting of 62 TFs. Our results highlight the complex and intricate nature of TF interactions, where multiple TFs work together to regulate gene expression. We also identified 10 TFs with the highest regulatory influence based on centrality measurements, providing valuable information for researchers interested in studying specific TFs. Furthermore, our pathway enrichment analysis revealed significant enrichment of various pathways and functional categories, including those involved in cancer and other diseases, as well as those involved in development, differentiation, and cell signaling. The enriched pathways identified in this study may have potential as targets for therapeutic intervention in diseases associated with dysregulation of transcription factors. We have released the dataset, knowledge graph, and graphML methods for the TF cascades, and created a website to display the results, which can be accessed by researchers interested in using this dataset. Our study provides a valuable resource for understanding the complex network of interactions between TFs and their regulatory roles in cellular processes.
翻訳日:2023-12-01 19:27:58 公開日:2023-11-29
# ディープセット脳波デコーダによる潜時アライメント

Latent Alignment with Deep Set EEG Decoders ( http://arxiv.org/abs/2311.17968v1 )

ライセンス: Link先を確認
Stylianos Bakas, Siegfried Ludwig, Dimitrios A. Adamos, Nikolaos Laskaris, Yannis Panagakis and Stefanos Zafeiriou(参考訳) 異なる個人間の脳波信号の変動は、脳-コンピュータインターフェース(BCI)を実装する際に大きな課題となる。 この問題に対する一般的な解決策は、能力と一般化の増大によるディープラーニングモデルと、明示的なドメイン適応技術である。 本稿では,脳波伝達学習のベンチマーク(BEETL)コンテストで優勝した潜在アライメント法を紹介し,その定式化を対象被験者の試行セットに適用したディープセットとして提示する。 その性能は、様々な条件下での最近の統計領域適応技術と比較される。 実験パラダイムには、モーターイメージ(mi)、オッドボールイベント関連電位(erp)、睡眠ステージ分類(sleep stage classification)があり、それぞれのタスクに異なる確立されたディープラーニングモデルが適用される。 実験の結果,深層学習モデルにおいて後段の統計分布アライメントを行うことは分類精度に有益であり,提案手法で最も高い性能が得られることがわかった。 また,脳波復号における深層学習と統計的アライメントの文脈で発生する実践的考察についても検討する。 本稿では,ディープラーニングモデルの結果を飛躍的に改善するクラス識別アーティファクトと,クラス不均衡がアライメントに与える影響について検討する。 我々は、後続のモデリング段階でアライメントを行う際の分類精度の向上と、統計が計算される試行セットにおけるクラス不均衡に対する感受性とのトレードオフ関係を述べる。

The variability in EEG signals between different individuals poses a significant challenge when implementing brain-computer interfaces (BCI). Commonly proposed solutions to this problem include deep learning models, due to their increased capacity and generalization, as well as explicit domain adaptation techniques. Here, we introduce the Latent Alignment method that won the Benchmarks for EEG Transfer Learning (BEETL) competition and present its formulation as a deep set applied on the set of trials from a given subject. Its performance is compared to recent statistical domain adaptation techniques under various conditions. The experimental paradigms include motor imagery (MI), oddball event-related potentials (ERP) and sleep stage classification, where different well-established deep learning models are applied on each task. Our experimental results show that performing statistical distribution alignment at later stages in a deep learning model is beneficial to the classification accuracy, yielding the highest performance for our proposed method. We further investigate practical considerations that arise in the context of using deep learning and statistical alignment for EEG decoding. In this regard, we study class-discriminative artifacts that can spuriously improve results for deep learning models, as well as the impact of class-imbalance on alignment. We delineate a trade-off relationship between increased classification accuracy when alignment is performed at later modeling stages, and susceptibility to class-imbalance in the set of trials that the statistics are computed on.
翻訳日:2023-12-01 19:27:34 公開日:2023-11-29
# データセット蒸留による銀河の特徴発見

Discovering Galaxy Features via Dataset Distillation ( http://arxiv.org/abs/2311.17967v1 )

ライセンス: Link先を確認
Haowen Guan, Xuan Zhao, Zishi Wang, Zhiyang Li, and Julia Kempe(参考訳) 多くのアプリケーションにおいて、ニューラルネット(NN)は、人間の能力以上の分類性能を持つ。 さらに、nnsは分類対象の人間とは異なる基礎的な特徴を活用している可能性が高い。 科学的理解を深めるために、関連する機能を「リバースエンジニアリング」できるのか? ここでは、このアイデアを銀河分類の非常に難しいタスクに適用する:NNは、このタスクで高いパフォーマンスを達成したが、それが銀河を分類するとき、ニューラルネット(NN)は何を見るのか? 人間の目がタスクに役立ち、新たな洞察を与えるかもしれない形態学的特徴はあるだろうか? 初期の進化のトレーサを視覚化したり、さらにスペクトルデータを組み込んだりできますか? ニューラルネットワークのレンズを通して銀河形態を要約し視覚化する新しい手法を提案する。これは、大規模なデータセットから知識を抽出し、それをコンパクトな合成データセットに凝縮する、最近のディープラーニング手法であるデータセット蒸留を利用して、この合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルに匹敵する性能を達成する。 我々は、Galaxy Zoo 2データセットのクラスバランスと中規模高信頼度バージョンをキュレートし、正確なNN分類器からのデータセット蒸留を行い、銀河形態特徴の合成原型画像を作成し、その効果を実証した。 そこで本研究では,蒸留プロセスの自動化とコンピュータビジョンベンチマークの性能向上を目的とした,最先端のマッチングトラジェクトリアルゴリズムの自己適応版を導入する。

In many applications, Neural Nets (NNs) have classification performance on par or even exceeding human capacity. Moreover, it is likely that NNs leverage underlying features that might differ from those humans perceive to classify. Can we "reverse-engineer" pertinent features to enhance our scientific understanding? Here, we apply this idea to the notoriously difficult task of galaxy classification: NNs have reached high performance for this task, but what does a neural net (NN) "see" when it classifies galaxies? Are there morphological features that the human eye might overlook that could help with the task and provide new insights? Can we visualize tracers of early evolution, or additionally incorporated spectral data? We present a novel way to summarize and visualize galaxy morphology through the lens of neural networks, leveraging Dataset Distillation, a recent deep-learning methodology with the primary objective to distill knowledge from a large dataset and condense it into a compact synthetic dataset, such that a model trained on this synthetic dataset achieves performance comparable to a model trained on the full dataset. We curate a class-balanced, medium-size high-confidence version of the Galaxy Zoo 2 dataset, and proceed with dataset distillation from our accurate NN-classifier to create synthesized prototypical images of galaxy morphological features, demonstrating its effectiveness. Of independent interest, we introduce a self-adaptive version of the state-of-the-art Matching Trajectory algorithm to automate the distillation process, and show enhanced performance on computer vision benchmarks.
翻訳日:2023-12-01 19:27:10 公開日:2023-11-29
# 16S rRNA遺伝子配列データの類似性とクラスタリングによるノカルディア属の基準配列の決定

Defining Reference Sequences for Nocardia Species by Similarity and Clustering Analyses of 16S rRNA Gene Sequence Data ( http://arxiv.org/abs/2311.17965v1 )

ライセンス: Link先を確認
Manal Helal, Fanrong Kong, Sharon C. A. Chen, Michael Bain, Richard Christen, Vitali Sintchenko(参考訳) 細菌の種内および種間遺伝的多様性と、最も代表的である「参照」の欠如は、配列に基づく同定において重要な課題である。 本研究の目的は,16S rRNA遺伝子の364の配列をGenBankで定義した種,110の配列をNocardia属で同定し,その有効性を判定し,いくつかのクラスタリングおよび分類アルゴリズムの性能を比較することである。 ノカルディアの364種の16S rRNA遺伝子配列を調べた。 さらに、genbankへの提出時にnocardia属にのみ割り当てられた110個の16s rrna遺伝子配列を機械学習の分類実験に使用した。 異なるクラスタリングアルゴリズムを距離行列の新たなアルゴリズムや線形写像(LM)と比較した。 主成分分析は次元の減少と可視化に用いられた。 結果: LMアルゴリズムは最高性能を達成し, 364の16S rRNA配列を80個のクラスタに分類した。 個々のノカルディア種に対して最も代表的な16S rRNA配列は、他の全ての配列との距離を最小化する「センチロイド」として同定され、110の16S rRNA配列は、属レベルでのみ記録された。 単純なkNN機械学習は最高性能を示し、92.7%、平均周波数0.578のNocardia種配列を分類した。

The intra- and inter-species genetic diversity of bacteria and the absence of 'reference', or the most representative, sequences of individual species present a significant challenge for sequence-based identification. The aims of this study were to determine the utility, and compare the performance of several clustering and classification algorithms to identify the species of 364 sequences of 16S rRNA gene with a defined species in GenBank, and 110 sequences of 16S rRNA gene with no defined species, all within the genus Nocardia. A total of 364 16S rRNA gene sequences of Nocardia species were studied. In addition, 110 16S rRNA gene sequences assigned only to the Nocardia genus level at the time of submission to GenBank were used for machine learning classification experiments. Different clustering algorithms were compared with a novel algorithm or the linear mapping (LM) of the distance matrix. Principal Components Analysis was used for the dimensionality reduction and visualization. Results: The LM algorithm achieved the highest performance and classified the set of 364 16S rRNA sequences into 80 clusters, the majority of which (83.52%) corresponded with the original species. The most representative 16S rRNA sequences for individual Nocardia species have been identified as 'centroids' in respective clusters from which the distances to all other sequences were minimized; 110 16S rRNA gene sequences with identifications recorded only at the genus level were classified using machine learning methods. Simple kNN machine learning demonstrated the highest performance and classified Nocardia species sequences with an accuracy of 92.7% and a mean frequency of 0.578.
翻訳日:2023-12-01 19:26:44 公開日:2023-11-29
# 遺伝子配列をクラスタリングし、複数配列アライメントから参照配列を同定するための線形正規化ハッシュ関数

Linear normalised hash function for clustering gene sequences and identifying reference sequences from multiple sequence alignments ( http://arxiv.org/abs/2311.17964v1 )

ライセンス: Link先を確認
Manal Helal, Fanrong Kong, Sharon C-A Chen, Fei Zhou, Dominic E Dwyer, John Potter, Vitali Sintchenko(参考訳) 本研究の目的は,クラスタセンタロイドとクラスタの最適数を所定の感度レベルで識別し,異なるシーケンスデータセットに対して等しく機能する手法を開発することである。 線形マッピングハッシュ関数と多重シーケンスアライメント(MSA)を組み合わせた新しい手法を開発した。 この方法は、MSA出力から既にソートされた類似配列を利用しており、異なる種に対する参照遺伝子ボウチャーを表現できるクラスタ、クラスタカットオフ、クラスタセントロイドの最適な数を特定する。 線形写像ハッシュ関数は、既に順序付けられた類似度距離行列をインデックスにマッピングして、異なるクラスタの最適カットオフを識別できる値のギャップを明らかにすることができる。 本手法は、近縁な16s rrna遺伝子配列と高度に可変なエンテロウイルス71のvp1ゲノム領域のセットを用いて評価し、既存の教師なし機械学習クラスタリング法や次元縮小法よりも優れていた。 この方法は、クラスタの数やクラスタ間の距離に関する事前の知識を必要とせず、サイズや形状の異なるクラスタを処理し、データセットと線形にスケールする。 MSAと線形マッピングハッシュ関数の組み合わせは、遺伝子配列のクラスタリングの計算学的に効率的な方法であり、類似性の評価、異なる微生物ゲノムのクラスタリング、参照配列の同定、細菌とウイルスの進化の研究に有用なツールである。

The aim of this study was to develop a method that would identify the cluster centroids and the optimal number of clusters for a given sensitivity level and could work equally well for the different sequence datasets. A novel method that combines the linear mapping hash function and multiple sequence alignment (MSA) was developed. This method takes advantage of the already sorted by similarity sequences from the MSA output, and identifies the optimal number of clusters, clusters cut-offs, and clusters centroids that can represent reference gene vouchers for the different species. The linear mapping hash function can map an already ordered by similarity distance matrix to indices to reveal gaps in the values around which the optimal cut-offs of the different clusters can be identified. The method was evaluated using sets of closely related (16S rRNA gene sequences of Nocardia species) and highly variable (VP1 genomic region of Enterovirus 71) sequences and outperformed existing unsupervised machine learning clustering methods and dimensionality reduction methods. This method does not require prior knowledge of the number of clusters or the distance between clusters, handles clusters of different sizes and shapes, and scales linearly with the dataset. The combination of MSA with the linear mapping hash function is a computationally efficient way of gene sequence clustering and can be a valuable tool for the assessment of similarity, clustering of different microbial genomes, identifying reference sequences, and for the study of evolution of bacteria and viruses.
翻訳日:2023-12-01 19:26:17 公開日:2023-11-29
# chatillusion:ビジュアルインストラクションモデルによる効率の良いインターリーブ生成能力

ChatIllusion: Efficient-Aligning Interleaved Generation ability with Visual Instruction Model ( http://arxiv.org/abs/2311.17963v1 )

ライセンス: Link先を確認
Xiaowei Chi, Yijiang Liu, Zhengkai Jiang, Rongyu Zhang, Ziyi Lin, Renrui Zhang, Peng Gao, Chaoyou Fu, Shanghang Zhang, Qifeng Liu, Yike Guo(参考訳) LLM(Large-Language Models)の能力が広く認知されるにつれ、ヒューマンマシンチャットアプリケーションへの需要が高まっている。 gpt-4のような既存のllmベースのチャットボットは、テキストのみのコンテンツの生成に制限されているため、現在エミュレートされていない。 このギャップを埋めるために、私たちは、LLMの能力と視覚的理解だけでなく創造性も組み合わせた、先進的な生成型マルチモーダル言語モデル(MLLM)であるChatIllusionを紹介します。 具体的には、安定した拡散xlとllamaが統合されており、画像キャプチャーデータに基づいて微調整されている。 ChatIllusionの中心的なコンポーネントである"GenAdapter"は、基本的なモデルの変更を必要とせずに、視覚的表現の能力を備えたマルチモーダル言語モデルを備えた効率的なアプローチである。 提案手法の有効性を検証し,多様で高品質な画像出力を同時に生成する能力を示し,対話における意味的一貫性と制御を保ち,ユーザ体験の質(qoe)を著しく向上させる。 コードはhttps://github.com/litwellchi/chatillusionで入手できる。

As the capabilities of Large-Language Models (LLMs) become widely recognized, there is an increasing demand for human-machine chat applications. Human interaction with text often inherently invokes mental imagery, an aspect that existing LLM-based chatbots like GPT-4 do not currently emulate, as they are confined to generating text-only content. To bridge this gap, we introduce ChatIllusion, an advanced Generative multimodal large language model (MLLM) that combines the capabilities of LLM with not only visual comprehension but also creativity. Specifically, ChatIllusion integrates Stable Diffusion XL and Llama, which have been fine-tuned on modest image-caption data, to facilitate multiple rounds of illustrated chats. The central component of ChatIllusion is the "GenAdapter," an efficient approach that equips the multimodal language model with capabilities for visual representation, without necessitating modifications to the foundational model. Extensive experiments validate the efficacy of our approach, showcasing its ability to produce diverse and superior-quality image outputs Simultaneously, it preserves semantic consistency and control over the dialogue, significantly enhancing the overall user's quality of experience (QoE). The code is available at https://github.com/litwellchi/ChatIllusion.
翻訳日:2023-12-01 19:25:50 公開日:2023-11-29
# NowcastNet を用いた急速降水処理

Skilful Precipitation Nowcasting Using NowcastNet ( http://arxiv.org/abs/2311.17961v1 )

ライセンス: Link先を確認
Ajitabh Kumar(参考訳) 降水早期警報システムの設計には正確な短期予測システムが必要である。 気候変動は極端な気象現象の頻度を増加させ、このようなシステムは災害や生命の喪失を防ぐことができる。 このようなイベントを管理することは、公的機関と民間機関の両方にとって課題である。 降水ノキャスティングは、関連機関が農業、交通、公衆衛生、安全などに影響を与えるようなイベントに備えるのに役立つ。 物理学に基づく数値天気予報(NWP)は、計算のターンアラウンド時間が大きいため、現在放送ではうまく機能しない。 一方、ディープラーニングベースのモデルは、数秒以内に予測を行うことができる。 我々は最近提案する,物理条件付き深層生成ネットワークであるnowcastnetを用いて,衛星画像を用いたヨーロッパ各地域の降雨予測を行う。 空間的および時間的移動学習は、見えない地域と年を予測することによって行われる。 モデルは現実的な予測を行い、そのような予測タスクのベースラインを上回っます。

Designing early warning system for precipitation requires accurate short-term forecasting system. Climate change has led to an increase in frequency of extreme weather events, and hence such systems can prevent disasters and loss of life. Managing such events remain a challenge for both public and private institutions. Precipitation nowcasting can help relevant institutions to better prepare for such events as they impact agriculture, transport, public health and safety, etc. Physics-based numerical weather prediction (NWP) is unable to perform well for nowcasting because of large computational turn-around time. Deep-learning based models on the other hand are able to give predictions within seconds. We use recently proposed NowcastNet, a physics-conditioned deep generative network, to forecast precipitation for different regions of Europe using satellite images. Both spatial and temporal transfer learning is done by forecasting for the unseen regions and year. Model makes realistic predictions and is able to outperform baseline for such a prediction task.
翻訳日:2023-12-01 19:25:26 公開日:2023-11-29
# SAMを用いた病理組織像における弱視細胞分画のガイドプロンプト

Guided Prompting in SAM for Weakly Supervised Cell Segmentation in Histopathological Images ( http://arxiv.org/abs/2311.17960v1 )

ライセンス: Link先を確認
Aayush Kumar Tyagi, Vaibhav Mishra, Prathosh A.P., Mausam(参考訳) 病理組織像における細胞分画は多くの疾患の理解、診断、治療において重要な役割を担っている。 しかし、画像ごとに多数の細胞が存在する可能性があるため、このデータアノテーションは高価であり、画像のラベル付けには専門家の病理医が必要である。 代わりに、本論文では、セグメンタを誘導するために、関連タスクからのアノテーションである弱い監督を使うことに焦点をあてている。 SAM(Segment Anything)のような最近の基礎モデルは、推論中に追加の監視を活用するためにプロンプトを使用することができる。 SAMは自然画像のセグメンテーションタスクにおいて極めてよく機能しているが、細胞セグメンテーションへの適用性は研究されていない。 そこで本研究では,拘束箱の監督のみが可能である場合,SAMのプロンプト手順の導出について検討する。 本研究では,(1)SAM(D-SAM)に対するテストタイムプロンプトとしてのオブジェクト検出器の出力と,(2)SAM(SAM-S)の独立セグメンテーションモデル(SAM-S)のトレーニングデータに対する擬似マスク生成器としてのSAMの出力の2つのワークフローを開発する。 両ワークフローに相補的な長所があることから,2組のセグメンテーションマスクを分解する整数プログラミングに基づくアプローチを開発し,高い性能を実現する。 我々は、ConSep、MoNuSeg、TNBCの3つの公開セルセグメンテーションデータセットを実験し、SAMベースのソリューションが既存の弱教師付き画像セグメンテーションモデルを大幅に上回り、9~15 ptのDiceゲインが得られることを発見した。

Cell segmentation in histopathological images plays a crucial role in understanding, diagnosing, and treating many diseases. However, data annotation for this is expensive since there can be a large number of cells per image, and expert pathologists are needed for labelling images. Instead, our paper focuses on using weak supervision -- annotation from related tasks -- to induce a segmenter. Recent foundation models, such as Segment Anything (SAM), can use prompts to leverage additional supervision during inference. SAM has performed remarkably well in natural image segmentation tasks; however, its applicability to cell segmentation has not been explored. In response, we investigate guiding the prompting procedure in SAM for weakly supervised cell segmentation when only bounding box supervision is available. We develop two workflows: (1) an object detector's output as a test-time prompt to SAM (D-SAM), and (2) SAM as pseudo mask generator over training data to train a standalone segmentation model (SAM-S). On finding that both workflows have some complementary strengths, we develop an integer programming-based approach to reconcile the two sets of segmentation masks, achieving yet higher performance. We experiment on three publicly available cell segmentation datasets namely, ConSep, MoNuSeg, and TNBC, and find that all SAM-based solutions hugely outperform existing weakly supervised image segmentation models, obtaining 9-15 pt Dice gains.
翻訳日:2023-12-01 19:25:10 公開日:2023-11-29
# 急速衝突圧縮結果予測のための変圧器モデル--ウタパオ国際空港を事例として

Transformer Based Model for Predicting Rapid Impact Compaction Outcomes: A Case Study of Utapao International Airport ( http://arxiv.org/abs/2311.17959v1 )

ライセンス: Link先を確認
Sompote Youwai and Sirasak Detcheewa(参考訳) 本稿では, 落下ハンマーを用いて地盤を圧縮し, 充填層を充填する地盤改良技術であるrapid impact compaction (ric) により, 地盤の工学的特性を推定する新しい深層学習手法を提案する。 提案手法では, 入力特性, ハンマーエネルギー, 落下高さ, 打撃数, コーン抵抗などの出力変数の間の複雑な非線形関係を解析するために, トランスフォーマーベースニューラルネットワークを用いる。 このアプローチは、タイのユタパオ国際空港の新しいエプロン建設のための試行テストセクションから現実のデータセットに適用される。 その結果,提案手法は予測精度と効率において既存手法よりも優れており,RIC予測における特徴の重要性を明らかにするための解釈可能な注意マップを提供する。 深層学習手法をRCC予測に適用する際の限界と今後の方向性についても論じる。

This paper introduces a novel deep learning approach to predict the engineering properties of the ground improved by Rapid Impact Compaction (RIC), which is a ground improvement technique that uses a drop hammer to compact the soil and fill layers. The proposed approach uses transformer-based neural networks to capture the complex nonlinear relationships between the input features, such as the hammer energy, drop height, and number of blows, and the output variables, such as the cone resistance. The approach is applied to a real-world dataset from a trial test section for the new apron construction of the Utapao International Airport in Thailand. The results show that the proposed approach outperforms the existing methods in terms of prediction accuracy and efficiency and provides interpretable attention maps that reveal the importance of different features for RIC prediction. The paper also discusses the limitations and future directions of applying deep learning methods to RIC prediction.
翻訳日:2023-12-01 19:24:41 公開日:2023-11-29
# communityai: コミュニティベースの連合学習に向けて

CommunityAI: Towards Community-based Federated Learning ( http://arxiv.org/abs/2311.17958v1 )

ライセンス: Link先を確認
Ilir Murturi, Praveen Kumar Donta, Schahram Dustdar(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、機械学習モデルを協調的にトレーニングするための、有望なパラダイムとして登場した。 しかし、その普及はスケーラビリティ、異種データとデバイス、リソースの制約、セキュリティ上の懸念など、いくつかの課題に直面している。 FLは、その約束にもかかわらず、主にデータタイプとコンテキスト、デバイスと運用条件、環境要因、利害関係者の幅広い違いのために、コミュニティドメインに特化されていない。 これらの課題に対応するために,コミュニティAIと呼ばれるコミュニティベースのフェデレーション学習のための新しいフレームワークを提案する。 communityaiは、参加者が共通の関心、専門知識、あるいはデータ特性に基づいてコミュニティに組織することを可能にする。 コミュニティ参加者は、各グループ内のデータと参加者のプライバシを維持しながら、学習モデルのトレーニングと改善に協力する。 本稿では,解決すべき概念アーキテクチャ,システム要件,プロセス,今後の課題について論じる。 最後に,本稿の目標は,様々なコミュニティにおける協調学習プロセスの実現に関する我々のビジョンを示すことである。

Federated Learning (FL) has emerged as a promising paradigm to train machine learning models collaboratively while preserving data privacy. However, its widespread adoption faces several challenges, including scalability, heterogeneous data and devices, resource constraints, and security concerns. Despite its promise, FL has not been specifically adapted for community domains, primarily due to the wide-ranging differences in data types and context, devices and operational conditions, environmental factors, and stakeholders. In response to these challenges, we present a novel framework for Community-based Federated Learning called CommunityAI. CommunityAI enables participants to be organized into communities based on their shared interests, expertise, or data characteristics. Community participants collectively contribute to training and refining learning models while maintaining data and participant privacy within their respective groups. Within this paper, we discuss the conceptual architecture, system requirements, processes, and future challenges that must be solved. Finally, our goal within this paper is to present our vision regarding enabling a collaborative learning process within various communities.
翻訳日:2023-12-01 19:24:26 公開日:2023-11-29
# HandRefiner:拡散型条件印加による画像中の奇形ハンドの精製

HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting ( http://arxiv.org/abs/2311.17957v1 )

ライセンス: Link先を確認
Wenquan Lu, Yufei Xu, Jing Zhang, Chaoyue Wang, Dacheng Tao(参考訳) 拡散モデルは写実的画像の生成に顕著な成功を収めているが、不正確な指数や不規則な形状などの正確な手を生成するのに苦しむ。 この困難は、広範囲な変形と閉塞を伴う訓練画像から手の構造とポーズを学ぶという複雑な作業から生じる。 正しいハンド生成のために、本稿では$\textbf{handrefiner}$という軽量なポストプロセッシングソリューションを紹介します。 HandRefinerは、画像の他の部分を無傷で残しながら、不整形手を修正するための条件付き塗装アプローチを採用している。 適切な指数と手形に一貫して付着するハンドメッシュ再構成モデルを利用し,生成された画像に所望のハンドポーズを適合させることができる。 不正な手による画像生成が失敗した場合, controlnet モジュールを用いてその正確な手情報を再入力する。 さらに,制御強度の変化に伴い,制御ネット内の位相遷移現象を明らかにする。 これにより、現実的な手と合成手のドメインギャップに悩まされることなく、より簡単に利用できる合成データを活用することができる。 実験により、HandRefinerは生成品質を定量的に質的に著しく改善できることが示された。 コードはhttps://github.com/wenquanlu/HandRefinerで入手できる。

Diffusion models have achieved remarkable success in generating realistic images but suffer from generating accurate human hands, such as incorrect finger counts or irregular shapes. This difficulty arises from the complex task of learning the physical structure and pose of hands from training images, which involves extensive deformations and occlusions. For correct hand generation, our paper introduces a lightweight post-processing solution called $\textbf{HandRefiner}$. HandRefiner employs a conditional inpainting approach to rectify malformed hands while leaving other parts of the image untouched. We leverage the hand mesh reconstruction model that consistently adheres to the correct number of fingers and hand shape, while also being capable of fitting the desired hand pose in the generated image. Given a generated failed image due to malformed hands, we utilize ControlNet modules to re-inject such correct hand information. Additionally, we uncover a phase transition phenomenon within ControlNet as we vary the control strength. It enables us to take advantage of more readily available synthetic data without suffering from the domain gap between realistic and synthetic hands. Experiments demonstrate that HandRefiner can significantly improve the generation quality quantitatively and qualitatively. The code is available at https://github.com/wenquanlu/HandRefiner .
翻訳日:2023-12-01 19:24:10 公開日:2023-11-29
# QuadraNet:ハードウェア対応の2次ニューラルネットワークによる高次ニューラルインタラクション効率の改善

QuadraNet: Improving High-Order Neural Interaction Efficiency with Hardware-Aware Quadratic Neural Networks ( http://arxiv.org/abs/2311.17956v1 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Zirui Xu, Chenchen Liu, Jinjun Xiong, Xiang Chen(参考訳) コンピュータビジョン指向ニューラルネットワークの設計の最近の進歩は、主に入力と特徴間の高次神経相互作用を捉えることによる。 そして、Transformersやその変種など、これを実現するためのさまざまなアプローチが登場した。 しかし、これらの相互作用は大量の中間状態および/または強いデータ依存を生み出し、かなりのメモリ消費と計算コストをもたらし、結果としてランタイム全体のパフォーマンスを損なう。 この課題に対処するために、我々は2次コンピューティングアプローチで高階の対話型ニューラルネットワーク設計を再考する。 具体的には、ニューロン再構成から構造ブロックへの包括的モデル設計方法論であるQuadraNetを、最終的にはニューラルネットワーク全体の実装に提案する。 二次ニューロンの固有の高次アドバンテージと専用計算最適化スキームを活用することで、QuadraNetは最適な認識と計算性能を効果的に達成できる。 最先端のハードウェア対応ニューラルアーキテクチャサーチとシステム統合技術を組み込んだQuadraNetは、さまざまなハードウェア制約設定とデプロイメントシナリオで十分に一般化される。 この実験でquadranetは最大1.5$\times$のスループットを達成し、メモリフットプリントを30%削減し、同様の認識性能を実現している。

Recent progress in computer vision-oriented neural network designs is mostly driven by capturing high-order neural interactions among inputs and features. And there emerged a variety of approaches to accomplish this, such as Transformers and its variants. However, these interactions generate a large amount of intermediate state and/or strong data dependency, leading to considerable memory consumption and computing cost, and therefore compromising the overall runtime performance. To address this challenge, we rethink the high-order interactive neural network design with a quadratic computing approach. Specifically, we propose QuadraNet -- a comprehensive model design methodology from neuron reconstruction to structural block and eventually to the overall neural network implementation. Leveraging quadratic neurons' intrinsic high-order advantages and dedicated computation optimization schemes, QuadraNet could effectively achieve optimal cognition and computation performance. Incorporating state-of-the-art hardware-aware neural architecture search and system integration techniques, QuadraNet could also be well generalized in different hardware constraint settings and deployment scenarios. The experiment shows thatQuadraNet achieves up to 1.5$\times$ throughput, 30% less memory footprint, and similar cognition performance, compared with the state-of-the-art high-order approaches.
翻訳日:2023-12-01 19:23:50 公開日:2023-11-29
# PEAN:Scene Text Image Super-Resolutionのための拡散型事前注意ネットワーク

PEAN: A Diffusion-based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2311.17955v1 )

ライセンス: Link先を確認
Zuoyan Zhao, Shipeng Zhu, Pengfei Fang, Hui Xue(参考訳) シーンテキスト画像スーパーレゾリューション(STISR)は低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としており、下流認識タスクの性能を高める。 シーンテキスト画像における2つの要因,意味情報と視覚構造は,認識性能に大きく影響する。 そこで本稿では,これらの要因の影響を軽減するために,PEAN(Presideed-Enhanced Attention Network)を提案する。 具体的には、拡散ベースのモジュールが事前のテキストを強化するために開発され、SRネットワークが意味論的精度の高いSR画像を生成するためのより良いガイダンスを提供する。 一方,PEANでは,テキストの形状に関わらず,画像の局所的・グローバル的依存を的確に知覚することで,シーンテキストイメージの理解に注意に基づく変調モジュールを活用している。 マルチタスク学習パラダイムを用いてネットワークを最適化し、モデルが可読なSR画像を生成する。 その結果、PEANはTextZoomベンチマークで新しいSOTA結果を確立した。 また、SRネットワークの性能を向上させる手段として、拡張テキストの重要性を分析する実験も行われた。 コードはhttps://github.com/jdfxzzy/PEAN.comで公開される。

Scene text image super-resolution (STISR) aims at simultaneously increasing the resolution and readability of low-resolution scene text images, thus boosting the performance of the downstream recognition task. Two factors in scene text images, semantic information and visual structure, affect the recognition performance significantly. To mitigate the effects from these factors, this paper proposes a Prior-Enhanced Attention Network (PEAN). Specifically, a diffusion-based module is developed to enhance the text prior, hence offering better guidance for the SR network to generate SR images with higher semantic accuracy. Meanwhile, the proposed PEAN leverages an attention-based modulation module to understand scene text images by neatly perceiving the local and global dependence of images, despite the shape of the text. A multi-task learning paradigm is employed to optimize the network, enabling the model to generate legible SR images. As a result, PEAN establishes new SOTA results on the TextZoom benchmark. Experiments are also conducted to analyze the importance of the enhanced text prior as a means of improving the performance of the SR network. Code will be made available at https://github.com/jdfxzzy/PEAN.
翻訳日:2023-12-01 19:23:25 公開日:2023-11-29
# eコマースにおける画像検索強化のためのトランスフォーマティブマルチモーダルアイテム埋め込み

Transformer-empowered Multi-modal Item Embedding for Enhanced Image Search in E-Commerce ( http://arxiv.org/abs/2311.17954v1 )

ライセンス: Link先を確認
Chang Liu, Peng Hou, Anxiang Zeng, Han Yu(参考訳) 過去10年間で、電子商取引アプリケーションの画像検索の分野で大きな進歩があった。 テクスチャなどの画像の詳細のみに焦点を当てた従来の画像から画像への検索モデルは、画像に含まれる有用な意味情報を見落としてしまう傾向にある。 その結果、検索された製品は類似した画像の詳細を持っているかもしれないが、ユーザーの検索目標を満たせていない。 さらに、複数の画像を含む製品に対する画像から画像への検索モデルの使用により、オンライン製品の特徴的ストレージオーバーヘッドと複雑なマッピング実装が大幅に向上する。 本稿では,これらの制約に対処するためのマルチモーダル要素埋め込みモデル(MIEM)の設計と展開について報告する。 製品に関するテキスト情報と複数の画像の両方を利用して、有意義な製品機能を構築することができる。 画像からの意味情報を活用することで、MIEMは画像検索プロセスを効果的に補完し、検索結果の全体的な精度を向上させる。 MIEMはShopeeイメージ検索プラットフォームの一部となっている。 2023年3月の配備以来、ユーザ毎のクリック数で9.90%増加し、Shopee eコマースプラットフォームのイメージ検索機能では、ユーザ毎の注文数で4.23%増加した。

Over the past decade, significant advances have been made in the field of image search for e-commerce applications. Traditional image-to-image retrieval models, which focus solely on image details such as texture, tend to overlook useful semantic information contained within the images. As a result, the retrieved products might possess similar image details, but fail to fulfil the user's search goals. Moreover, the use of image-to-image retrieval models for products containing multiple images results in significant online product feature storage overhead and complex mapping implementations. In this paper, we report the design and deployment of the proposed Multi-modal Item Embedding Model (MIEM) to address these limitations. It is capable of utilizing both textual information and multiple images about a product to construct meaningful product features. By leveraging semantic information from images, MIEM effectively supplements the image search process, improving the overall accuracy of retrieval results. MIEM has become an integral part of the Shopee image search platform. Since its deployment in March 2023, it has achieved a remarkable 9.90% increase in terms of clicks per user and a 4.23% boost in terms of orders per user for the image search feature on the Shopee e-commerce platform.
翻訳日:2023-12-01 19:22:51 公開日:2023-11-29
# スコアベースプリミティブを用いた電波干渉計のベイズイメージング

Bayesian Imaging for Radio Interferometry with Score-Based Priors ( http://arxiv.org/abs/2311.18012v1 )

ライセンス: Link先を確認
Noe Dia, M. J. Yantovski-Barth, Alexandre Adam, Micah Bowles, Pablo Lemos, Anna M. M. Scaife, Yashar Hezaveh, Laurence Perreault-Levasseur(参考訳) 電波干渉法における逆イメージングタスクは、電波天文学におけるベイズの不確かさを計算的に効果的に検索するための重要な制限因子である。 我々は、DSHARPサーベイから原始惑星系円盤の画像を復元するために、銀河の光学画像から得られたスコアに基づく先行画像を用いている。 本手法は、銀河の誤認にもかかわらず、後続サンプルを生成できることを実証する。 提案手法は既存の電波干渉画像アルゴリズムと競合する結果が得られることを示す。

The inverse imaging task in radio interferometry is a key limiting factor to retrieving Bayesian uncertainties in radio astronomy in a computationally effective manner. We use a score-based prior derived from optical images of galaxies to recover images of protoplanetary disks from the DSHARP survey. We demonstrate that our method produces plausible posterior samples despite the misspecified galaxy prior. We show that our approach produces results which are competitive with existing radio interferometry imaging algorithms.
翻訳日:2023-12-01 19:15:47 公開日:2023-11-29
# 大規模天文学調査における分布外一般化に向けて:ロバストネットワークは同様の表現を学ぶ

Towards out-of-distribution generalization in large-scale astronomical surveys: robust networks learn similar representations ( http://arxiv.org/abs/2311.18007v1 )

ライセンス: Link先を確認
Yash Gondhalekar, Sultan Hassan, Naomi Saphra, Sambatra Andrianomena(参考訳) 機械学習(ml)モデルのout-of-distribution(ood)サンプルへの一般化は、今後の天文調査から情報を抽出する上で重要な課題である。 解釈可能性アプローチは、OOD一般化問題に対する洞察を得る自然な方法である。 ニューラルネットワーク表現の類似度尺度であるCentered Kernel Alignment (CKA) を用いて、CAMELS Multifield Dataset上の事前学習された畳み込みニューラルネットワーク(CNN)の表現類似度と性能の関係を検討する。 モデルが分散シフトに対して堅牢である場合、OODデータ上に層間でかなり異なる表現を生成することが分かりました。 しかし、一般化に失敗した場合、これらの表現はOODデータ上の層から層へと変化しない。 本稿では,CKAを誘導バイアスとして組み込んだモデル設計,トレーニング戦略,OOD問題の緩和における類似性表現の可能性について論じる。

The generalization of machine learning (ML) models to out-of-distribution (OOD) examples remains a key challenge in extracting information from upcoming astronomical surveys. Interpretability approaches are a natural way to gain insights into the OOD generalization problem. We use Centered Kernel Alignment (CKA), a similarity measure metric of neural network representations, to examine the relationship between representation similarity and performance of pre-trained Convolutional Neural Networks (CNNs) on the CAMELS Multifield Dataset. We find that when models are robust to a distribution shift, they produce substantially different representations across their layers on OOD data. However, when they fail to generalize, these representations change less from layer to layer on OOD data. We discuss the potential application of similarity representation in guiding model design, training strategy, and mitigating the OOD problem by incorporating CKA as an inductive bias during training.
翻訳日:2023-12-01 19:15:39 公開日:2023-11-29
# サブシステムCSSコード、より厳密な安定化-CSSマッピング、GoursatのLemma

Subsystem CSS codes, a tighter stabilizer-to-CSS mapping, and Goursat's Lemma ( http://arxiv.org/abs/2311.18003v1 )

ライセンス: Link先を確認
Michael Liaofan Liu, Nathanan Tantivasadakarn, and Victor V. Albert(参考訳) CSSコード構築は、量子コードの特徴を基礎となる2つの古典的コードの観点から表現するために使用される強力なフレームワークである。 そのサブシステム拡張は同様の表現を可能にするが、一般的なケースは十分に調査されていない。 aly etの以前の仕事の拡張。 アル そこで,<quant-ph/0610153>では,下位のcssコードパラメータを判定し,コードワードを表現し,基礎となる2つの古典的コードからのデータのみを用いて,ステイン型デコーダを開発する。 任意のサブシステムスタビライザコードを ``doubled'' とすることで、物理量、論理量、ゲージ数の2倍、コード距離の最大2倍のサブシステムcssコードを生成することができる。 この写像は局所性を保持し、Bravyi, Leemhuis, Terhal [New J. Phys. 12 083039 (2010)] のマヨラナ系マッピングよりも厳密である。 goursatの補題を用いて、特定の制約を満たす2つのネスト付きサブシステムcssコードから全てのサブシステム安定化コードを構築できることを示し、ネスト化されたコードの性質に基づいてサブシステム安定化コードを特徴付ける。

The CSS code construction is a powerful framework used to express features of a quantum code in terms of a pair of underlying classical codes. Its subsystem extension allows for similar expressions, but the general case has not been fully explored. Extending previous work of Aly et. al. [quant-ph/0610153], we determine subsystem CSS code parameters, express codewords, and develop a Steane-type decoder using only data from the two underlying classical codes. We show that any subsystem stabilizer code can be ``doubled'' to yield a subsystem CSS code with twice the number of physical, logical, and gauge qudits and up to twice the code distance. This mapping preserves locality and is tighter than the Majorana-based mapping of Bravyi, Leemhuis, and Terhal [New J. Phys. 12 083039 (2010)]. Using Goursat's Lemma, we show that every subsystem stabilizer code can be constructed from two nested subsystem CSS codes satisfying certain constraints, and we characterize subsystem stabilizer codes based on the nested codes' properties.
翻訳日:2023-12-01 19:15:24 公開日:2023-11-29
# ノイズのエコー:スコアベース類似度と先行値を持つファイン・ギャラクシー表面明度プロファイルの後方サンプル

Echoes in the Noise: Posterior Samples of Faint Galaxy Surface Brightness Profiles with Score-Based Likelihoods and Priors ( http://arxiv.org/abs/2311.18002v1 )

ライセンス: Link先を確認
Alexandre Adam, Connor Stone, Connor Bottrell, Ronan Legin, Yashar Hezaveh and Laurence Perreault-Levasseur(参考訳) 銀河団の詳細な構造を調べることは、その形成と進化のメカニズムに関する貴重な洞察を与える。 このような分析の障壁は、実際の天体画像の非自明なノイズ特性と、構造をぼかす点拡散関数(PSF)である。 本稿では,画像デコンボリューションのベイズ解析を行うために,近年のスコアベース確率推定モデルと拡散モデルを組み合わせたフレームワークを提案する。 この方法は、最小に処理された \emph{Hubble Space Telescope} (\emph{HST}) のデータに適用された場合、次世代の \emph{James Webb Space Telescope} (\emph{JWST}) でしか見えない構造を復元する。

Examining the detailed structure of galaxy populations provides valuable insights into their formation and evolution mechanisms. Significant barriers to such analysis are the non-trivial noise properties of real astronomical images and the point spread function (PSF) which blurs structure. Here we present a framework which combines recent advances in score-based likelihood characterization and diffusion model priors to perform a Bayesian analysis of image deconvolution. The method, when applied to minimally processed \emph{Hubble Space Telescope} (\emph{HST}) data, recovers structures which have otherwise only become visible in next-generation \emph{James Webb Space Telescope} (\emph{JWST}) imaging.
翻訳日:2023-12-01 19:14:59 公開日:2023-11-29
# 雑音量子コンピュータ上の量子重力のモデル

A model of quantum gravity on a noisy quantum computer ( http://arxiv.org/abs/2311.17991v1 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Raghav G. Jha, Bharath Sambasivam(参考訳) 我々は、IBMの超伝導量子ビット量子コンピュータ上で、量子重力の重要な玩具モデルであるSachdev-Ye-Kitaev(SYK)モデルを研究する。 量子化ハミルトニアンにおける項の可換クラスタ数を最小化するためにグラフ色アルゴリズムを用いることで、n$ majorana fermions に対する一階リー積公式を用いた時間発展の回路複雑性が $\mathcal{o}(n^5 j^{2}t^2/\epsilon)$ ここで $j$ は次元結合パラメータ、$t$ は進化時間、$\epsilon$ は所望の精度である。 この複雑さは、文献の既存の結果よりも大幅に改善されている。 この改良されたリソース要求により、最大300個の2ビットゲートを使用する$N=6, 8$の時間進化を行い、ノイズの多いハードウェア結果に対して異なるエラー軽減スキームを実行する。 従来のコンピュータとノイズレスシミュレータの正確な対角化によって得られた結果とよく一致している。 特に、量子多体系のカオス的性質を定量化する標準的な方法である時間$t$と時間外順序相関器(OTOC)の後の真空状態への回帰確率を計算する。

We study the Sachdev-Ye-Kitaev (SYK) model -- an important toy model for quantum gravity on IBM's superconducting qubit quantum computers. By using a graph-coloring algorithm to minimize the number of commuting clusters of terms in the qubitized Hamiltonian, we find the circuit complexity of the time evolution using the first-order Lie product formula for $N$ Majorana fermions is $\mathcal{O}(N^5 J^{2}t^2/\epsilon)$ where $J$ is the dimensionful coupling parameter, $t$ is the evolution time, and $\epsilon$ is the desired accuracy. This complexity is a significant improvement over existing result in the literature. With this improved resource requirement, we perform the time evolution for $N=6, 8$ using up to 300 two-qubit gates and perform different error mitigation schemes on the noisy hardware results. We find good agreement with the results obtained using exact diagonalization on classical computers and noiseless simulators. In particular, we compute the return probability to the vacuum state after time $t$ and out-of-time order correlators (OTOC) which is a standard method of quantifying the chaotic nature of quantum many-body systems.
翻訳日:2023-12-01 19:14:41 公開日:2023-11-29
# 低深さランダム回路符号を用いたフォールトトレラント量子メモリ

Fault-Tolerant Quantum Memory using Low-Depth Random Circuit Codes ( http://arxiv.org/abs/2311.17985v1 )

ライセンス: Link先を確認
Jon Nelson, Gregory Bentsen, Steven T. Flammia, Michael J. Gullans(参考訳) 低深さ乱数回路符号は量子誤り訂正に望ましい多くの特性を持っているが、これまでは符号化ゲートとシンドロームの測定がノイズを伴わないと仮定されるコード容量設定でのみ分析されてきた。 本研究では,すべてのゲートや測定値がノイズを受ける場合でも,一次元ランダム回路コードの符号化状態を生成するためのフォールトトレラント蒸留プロトコルを設計する。 これはフォールトトレラントな量子メモリには十分である。なぜなら、これらのエンコードされた状態はステインエラー補正のアンシラとして使用できるからである。 数値シミュレーションにより,本プロトコルは2〜%の誤差率で消去誤差を補正できることを示した。 さらに,darmawanらによる作業に類似した非分極ノイズに対して最大ラピッドデコーダを開発することにより,コード容量設定の結果を拡張する。 彼らの研究と同様に、デコード問題をテンソルネットワークの収縮として定式化し、低深さ構造を利用してネットワークを効率的に収縮する方法を示す。 テンソルネットワークをいわゆる'トロピカル'テンソルネットワークに置き換えることにより,最小ウェイトデコードの実行方法を示す。 これらのデコーダにより、有限レートのランダム回路コードの偏極誤差閾値を数値的に推定し、デコーダが最適でない場合でも、この閾値がハッシュバウンドと密接に一致することを示す。

Low-depth random circuit codes possess many desirable properties for quantum error correction but have so far only been analyzed in the code capacity setting where it is assumed that encoding gates and syndrome measurements are noiseless. In this work, we design a fault-tolerant distillation protocol for preparing encoded states of one-dimensional random circuit codes even when all gates and measurements are subject to noise. This is sufficient for fault-tolerant quantum memory since these encoded states can then be used as ancillas for Steane error correction. We show through numerical simulations that our protocol can correct erasure errors up to an error rate of $2\%$. In addition, we also extend results in the code capacity setting by developing a maximum likelihood decoder for depolarizing noise similar to work by Darmawan et al. As in their work, we formulate the decoding problem as a tensor network contraction and show how to contract the network efficiently by exploiting the low-depth structure. Replacing the tensor network with a so-called ''tropical'' tensor network, we also show how to perform minimum weight decoding. With these decoders, we are able to numerically estimate the depolarizing error threshold of finite-rate random circuit codes and show that this threshold closely matches the hashing bound even when the decoding is sub-optimal.
翻訳日:2023-12-01 19:14:17 公開日:2023-11-29
# 4D-fy:ハイブリッドスコア蒸留サンプリングによるテキストから4D生成

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling ( http://arxiv.org/abs/2311.17984v1 )

ライセンス: Link先を確認
Sherwin Bahmani, Ivan Skorokhodov, Victor Rong, Gordon Wetzstein, Leonidas Guibas, Peter Wonka, Sergey Tulyakov, Jeong Joon Park, Andrea Tagliasacchi, David B. Lindell(参考訳) 最近のtext-to-4d生成のブレークスルーは、事前に訓練されたtext-to-imageとtext-to-videoモデルを使用してダイナミックな3dシーンを生成する。 しかし、現在のテキストから4Dの手法は、シーンの外観、立体構造、動きの質の3方向のトレードオフに直面している。 例えば、テキストから画像へのモデルとその3d認識型は、インターネット規模の画像データセットでトレーニングされ、リアルな外観と3d構造を持つシーンを生成できる。 テキストからビデオへのモデルは、比較的小さなビデオデータセットで訓練され、動きのあるシーンを作ることができる。 これらのモデルは相補的な強みを持つが、相反する弱みを持つため、この3方向のトレードオフを緩和する方法でそれらを組み合わせることは困難である。 本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法について紹介する。 ハイブリッドSDSを用いて, 魅力的な外観, 3次元構造, 動きを持つ4次元シーンの合成を実演する。

Recent breakthroughs in text-to-4D generation rely on pre-trained text-to-image and text-to-video models to generate dynamic 3D scenes. However, current text-to-4D methods face a three-way tradeoff between the quality of scene appearance, 3D structure, and motion. For example, text-to-image models and their 3D-aware variants are trained on internet-scale image datasets and can be used to produce scenes with realistic appearance and 3D structure -- but no motion. Text-to-video models are trained on relatively smaller video datasets and can produce scenes with motion, but poorer appearance and 3D structure. While these models have complementary strengths, they also have opposing weaknesses, making it difficult to combine them in a way that alleviates this three-way tradeoff. Here, we introduce hybrid score distillation sampling, an alternating optimization procedure that blends supervision signals from multiple pre-trained diffusion models and incorporates benefits of each for high-fidelity text-to-4D generation. Using hybrid SDS, we demonstrate synthesis of 4D scenes with compelling appearance, 3D structure, and motion.
翻訳日:2023-12-01 19:13:52 公開日:2023-11-29
# 視覚トランスフォーマの忠実性向上

Improving Faithfulness for Vision Transformers ( http://arxiv.org/abs/2311.17983v1 )

ライセンス: Link先を確認
Lijie Hu, Yixin Liu, Ninghao Liu, Mengdi Huai, Lichao Sun, and Di Wang(参考訳) ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。 この成功の背景にある1つの理由は、神経アーキテクチャの振る舞いについて、正当な内在的な説明を提供する能力である。 しかし、ViTは、その焦点が敵の攻撃に対して脆弱であり、入力画像のわずかな摂動でも容易に変更できるため、説明の忠実さに関する問題に悩まされる。 本稿では,Fithful ViTs(FViTs)の導入により,これらの問題を緩和するための厳密なアプローチを提案する。 簡単に言えば、FViTは以下の2つの性質を持つべきである: 1) 自己注意ベクトルの上位$k$指数は、入力摂動の下でほとんど変化せず、安定な説明を示す; (2) 予測分布は摂動に対して堅牢である。 そこで本研究では, ランダムな平滑化と拡散に基づく復調を併用したDDS(Denoized Diffusion Smoothing)を提案する。 理論的には、DDSで直接ViTを処理することでFViTに変換できる。 また、ガウスノイズは $\ell_2$ と $\ell_\infty$-norm の場合にほぼ最適であることを示す。 最後に,本手法の有効性を総合的な実験と評価を通じて実証する。 具体的には,FViTと他のベースラインを,敵攻撃時の視覚的解釈とロバストネスの精度で比較する。 その結果,fvitは注意の説明性を維持しつつ,敵の攻撃に対してより頑健であり,高い忠実性を示すことが示された。

Vision Transformers (ViTs) have achieved state-of-the-art performance for various vision tasks. One reason behind the success lies in their ability to provide plausible innate explanations for the behavior of neural architectures. However, ViTs suffer from issues with explanation faithfulness, as their focal points are fragile to adversarial attacks and can be easily changed with even slight perturbations on the input image. In this paper, we propose a rigorous approach to mitigate these issues by introducing Faithful ViTs (FViTs). Briefly speaking, an FViT should have the following two properties: (1) The top-$k$ indices of its self-attention vector should remain mostly unchanged under input perturbation, indicating stable explanations; (2) The prediction distribution should be robust to perturbations. To achieve this, we propose a new method called Denoised Diffusion Smoothing (DDS), which adopts randomized smoothing and diffusion-based denoising. We theoretically prove that processing ViTs directly with DDS can turn them into FViTs. We also show that Gaussian noise is nearly optimal for both $\ell_2$ and $\ell_\infty$-norm cases. Finally, we demonstrate the effectiveness of our approach through comprehensive experiments and evaluations. Specifically, we compare our FViTs with other baselines through visual interpretation and robustness accuracy under adversarial attacks. Results show that FViTs are more robust against adversarial attacks while maintaining the explainability of attention, indicating higher faithfulness.
翻訳日:2023-12-01 19:13:32 公開日:2023-11-29
# VBench: ビデオ生成モデルのための総合ベンチマークスイート

VBench: Comprehensive Benchmark Suite for Video Generative Models ( http://arxiv.org/abs/2311.17982v1 )

ライセンス: Link先を確認
Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu(参考訳) ビデオ生成は大きな進歩を見せているが、これらのモデルの評価は依然として課題である。 ビデオ生成のための総合評価ベンチマークは2つの理由から不可欠である。 1)既存の指標は,人間の知覚と完全に一致しない。 2) 理想的な評価システムは,映像生成の今後の展開を知るための洞察を提供する必要がある。 そこで本研究では,映像生成品質」を具体的,階層的,異方的な次元に分類し,それぞれにプロンプトと評価手法を合わせた総合ベンチマークスイートvbenchを提案する。 VBenchには3つの魅力的な特性がある。 1) 包括次元: VBenchはビデオ生成において16次元からなる(例えば、主観的アイデンティティの不整合、運動の滑らか性、時間的フリッカリング、空間的関係など)。 きめ細かいレベルの評価指標は、個々のモデルの強みと弱みを明らかにする。 2) 人間のアライメント: 評価次元ごとに, ベンチマークと人間の知覚との整合性を評価するために, 人間の嗜好アノテーションのデータセットも提供する。 3)有意義な洞察: さまざまな評価範囲、さまざまなコンテンツタイプにまたがる現在のモデルの能力を考察する。 また,映像生成モデルと映像生成モデルとのギャップについても検討する。 我々はVBenchをオープンソースとして公開し、すべてのプロンプト、評価方法、生成されたビデオ、人間の嗜好アノテーションを含むとともに、VBenchにより多くのビデオ生成モデルを含め、ビデオ生成の分野を前進させる。

Video generation has witnessed significant advancements, yet evaluating these models remains a challenge. A comprehensive evaluation benchmark for video generation is indispensable for two reasons: 1) Existing metrics do not fully align with human perceptions; 2) An ideal evaluation system should provide insights to inform future developments of video generation. To this end, we present VBench, a comprehensive benchmark suite that dissects "video generation quality" into specific, hierarchical, and disentangled dimensions, each with tailored prompts and evaluation methods. VBench has three appealing properties: 1) Comprehensive Dimensions: VBench comprises 16 dimensions in video generation (e.g., subject identity inconsistency, motion smoothness, temporal flickering, and spatial relationship, etc). The evaluation metrics with fine-grained levels reveal individual models' strengths and weaknesses. 2) Human Alignment: We also provide a dataset of human preference annotations to validate our benchmarks' alignment with human perception, for each evaluation dimension respectively. 3) Valuable Insights: We look into current models' ability across various evaluation dimensions, and various content types. We also investigate the gaps between video and image generation models. We will open-source VBench, including all prompts, evaluation methods, generated videos, and human preference annotations, and also include more video generation models in VBench to drive forward the field of video generation.
翻訳日:2023-12-01 19:13:06 公開日:2023-11-29
# autarch: 考古学カタログのオブジェクト検出と自動記録のためのai支援ワークフロー

AutArch: An AI-assisted workflow for object detection and automated recording in archaeological catalogues ( http://arxiv.org/abs/2311.17978v1 )

ライセンス: Link先を確認
Kevin Klein, Alyssa Wohde, Alexander V. Gorelik, Volker Heyd, Yoan Diekmann, Maxime Brami(参考訳) 考古学的検索カタログなどの公開リソースから大規模なデータセットをコンパイルすることは、関連するコンテンツを識別し、手動で記録するという、時間を要する、反復的で、エラーを起こしやすいタスクという、根本的な課題を提示します。 データが有用であるためには、同等の品質でなければならないと同時に、同じ記録基準に準拠しなければならない。 本稿では,人工知能の最近の進歩を活かした新しいデータ収集手法を提案する。 我々のソフトウェアは、オブジェクト検出ニューラルネットワークとさらなる分類ネットワークを組み合わせて、考古学的図面や大容量PDFファイルの写真などのレガシーリソースからのデータ収集をスピードアップし、自動化し、標準化する。 ai支援ワークフローは、墓、骨格、陶磁器、装飾品、石器、地図などの考古学カタログに見られる一般的な物体を検出し、ページ上のこれらの物体を空間的に関連付けて分析し、北矢や規模に基づく墓の大きさや向きといった実際の属性を抽出する。 グラフィカルインターフェースは手動による検証を可能にする。 本手法の利点は, 豊富な考古学的カタログから様々な形状や数値特性を収集し, 10人のユーザによる実世界実験で評価することにある。 さらに,ランドマークに基づく幾何学的形態計測の代替として,輪郭検出による幾何学的全体アウトラインを記録する。

Compiling large datasets from published resources, such as archaeological find catalogues presents fundamental challenges: identifying relevant content and manually recording it is a time-consuming, repetitive and error-prone task. For the data to be useful, it must be of comparable quality and adhere to the same recording standards, which is hardly ever the case in archaeology. Here, we present a new data collection method exploiting recent advances in Artificial Intelligence. Our software uses an object detection neural network combined with further classification networks to speed up, automate, and standardise data collection from legacy resources, such as archaeological drawings and photographs in large unsorted PDF files. The AI-assisted workflow detects common objects found in archaeological catalogues, such as graves, skeletons, ceramics, ornaments, stone tools and maps, and spatially relates and analyses these objects on the page to extract real-life attributes, such as the size and orientation of a grave based on the north arrow and the scale. A graphical interface allows for and assists with manual validation. We demonstrate the benefits of this approach by collecting a range of shapes and numerical attributes from richly-illustrated archaeological catalogues, and benchmark it in a real-world experiment with ten users. Moreover, we record geometric whole-outlines through contour detection, an alternative to landmark-based geometric morphometrics not achievable by hand.
翻訳日:2023-12-01 19:12:41 公開日:2023-11-29
# Gaussian Shader:反射面のシェーディング機能を有する3次元ガウス散乱

GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces ( http://arxiv.org/abs/2311.17977v1 )

ライセンス: Link先を確認
Yingwenqi Jiang, Jiadong Tu, Yuan Liu, Xifeng Gao, Xiaoxiao Long, Wenping Wang, Yuexin Ma(参考訳) neural 3d gaussianの出現は、最近、ニューラルネットワークのレンダリングの分野で革命をもたらし、リアルタイムのスピードで高品質なレンダリングを生成するのに役立った。 しかし、明示的かつ離散的な表現は、反射面を特徴付ける場面に適用すると困難に直面する。 本稿では,3次元ガウシアンに簡易シェーディング機能を適用したガウシアンシェーダーについて,トレーニングとレンダリングの効率を保ちながら,反射面を持つシーンにおけるニューラルレンダリングを強化する手法を提案する。 シェーディング関数を適用する際の主な課題は、離散3次元ガウスの正確な正規推定にある。 具体的には, 3次元ガウス球面の最小軸方向を微妙に設計し, 正規面とガウス球面の幾何学の整合性を持たせるための新しい正規推定フレームワークを提案する。 実験の結果、gaussianshaderは効率と視覚品質のバランスを保っていることがわかった。 提案手法は,PSNRにおけるガウス散乱を超越し,1.57dBの改善を示した。 Ref-NeRFのような反射面を扱う以前の作業と比較して、最適化時間は大幅に加速される(23h vs. 0.58h)。 プロジェクトのWebサイトをクリックして、さらなる結果を確認してください。

The advent of neural 3D Gaussians has recently brought about a revolution in the field of neural rendering, facilitating the generation of high-quality renderings at real-time speeds. However, the explicit and discrete representation encounters challenges when applied to scenes featuring reflective surfaces. In this paper, we present GaussianShader, a novel method that applies a simplified shading function on 3D Gaussians to enhance the neural rendering in scenes with reflective surfaces while preserving the training and rendering efficiency. The main challenge in applying the shading function lies in the accurate normal estimation on discrete 3D Gaussians. Specifically, we proposed a novel normal estimation framework based on the shortest axis directions of 3D Gaussians with a delicately designed loss to make the consistency between the normals and the geometries of Gaussian spheres. Experiments show that GaussianShader strikes a commendable balance between efficiency and visual quality. Our method surpasses Gaussian Splatting in PSNR on specular object datasets, exhibiting an improvement of 1.57dB. When compared to prior works handling reflective surfaces, such as Ref-NeRF, our optimization time is significantly accelerated (23h vs. 0.58h). Please click on our project website to see more results.
翻訳日:2023-12-01 19:12:17 公開日:2023-11-29
# GeoDeformer: アクション認識のための幾何学的変形可能な変換器

GeoDeformer: Geometric Deformable Transformer for Action Recognition ( http://arxiv.org/abs/2311.17975v1 )

ライセンス: Link先を確認
Jinhui Ye, Jiaming Zhou, Hui Xiong, Junwei Liang(参考訳) 視覚トランスフォーマーは、行動認識のための畳み込みネットワークの効果的な代替として最近登場した。 しかし、視覚トランスフォーマーは未だにビデオデータに共通する幾何学的変化に苦しむ。 本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。 特に、geodeformerの中核は、与えられたビデオ内の潜在的な空間的および時間的幾何学的変形を識別および定量化するために設計された幾何変形予測モジュールである。 空間的変形は個々のフレーム内の幾何学を調整し、時間的変形はフレーム間の幾何学的ダイナミクスを捉え、動きと時間的進行を反映する。 提案手法の有効性を示すため,既存のMViTv2フレームワークに組み込んで,標準の自己注意ブロックをGeoDeformerブロックに置き換えた。 UCF101, HMDB51, Mini-K200 における実験により,Top-1 と Top-5 の精度が大幅に向上し,計算コストが極端に増大した新しい最先端結果が得られた。 さらに、可視化はジオデフォーマーが明示的な幾何学的変形を効果的に示し、幾何学的変化を最小化することを示す。 コードとチェックポイントがリリースされます。

Vision transformers have recently emerged as an effective alternative to convolutional networks for action recognition. However, vision transformers still struggle with geometric variations prevalent in video data. This paper proposes a novel approach, GeoDeformer, designed to capture the variations inherent in action video by integrating geometric comprehension directly into the ViT architecture. Specifically, at the core of GeoDeformer is the Geometric Deformation Predictor, a module designed to identify and quantify potential spatial and temporal geometric deformations within the given video. Spatial deformations adjust the geometry within individual frames, while temporal deformations capture the cross-frame geometric dynamics, reflecting motion and temporal progression. To demonstrate the effectiveness of our approach, we incorporate it into the established MViTv2 framework, replacing the standard self-attention blocks with GeoDeformer blocks. Our experiments at UCF101, HMDB51, and Mini-K200 achieve significant increases in both Top-1 and Top-5 accuracy, establishing new state-of-the-art results with only a marginal increase in computational cost. Additionally, visualizations affirm that GeoDeformer effectively manifests explicit geometric deformations and minimizes geometric variations. Codes and checkpoints will be released.
翻訳日:2023-12-01 19:11:55 公開日:2023-11-29
# 均質なニューラルネットワーク

Homogeneous Artificial Neural Network ( http://arxiv.org/abs/2311.17973v1 )

ライセンス: Link先を確認
Andrey Polyakov(参考訳) 本稿では, 一般化同質性(Generalized homogeneous)と呼ばれる, 関数のグローバルなクラスに対する近似器として, 人工ニューラルネットワーク(ANN)を提案する。 均質性とは、拡張の位相的特徴を持つ変換群に関する関数の対称性を意味する。 本稿では,いわゆる線形拡張のクラスについて考察する。 等質普遍近似定理が証明される。 既存のANNを均質なものにアップグレードするための手順を開発する。 理論結果は、様々な分野(コンピュータ科学、システム理論、自動制御)の例によって支持される。

The paper proposes an artificial neural network (ANN) being a global approximator for a special class of functions, which are known as generalized homogeneous. The homogeneity means a symmetry of a function with respect to a group of transformations having topological characterization of a dilation. In this paper, a class of the so-called linear dilations is considered. A homogeneous universal approximation theorem is proven. Procedures for an upgrade of an existing ANN to a homogeneous one are developed. Theoretical results are supported by examples from the various domains (computer science, systems theory and automatic control).
翻訳日:2023-12-01 19:11:33 公開日:2023-11-29
# 自己埋込コード生成

Self-Infilling Code Generation ( http://arxiv.org/abs/2311.17972v1 )

ライセンス: Link先を確認
Lin Zheng, Jianbo Yuan, Zhi Zhang, Hongxia Yang, Lingpeng Kong(参考訳) この作業は、インフィルディング操作を自動回帰デコードに組み込む一般的なコード生成フレームワークを導入している。 提案手法は,近年のコード言語モデルにおいて,事前定義したプレフィックスと接尾辞に基づいて中央に埋めることを目的としているのに対して,自己埋め込みは周囲のコンテキストと埋め込んだコンテンツの両方を逐次生成する。 我々はこの特徴を利用して,非単調な生成を容易にする拡張デコードプロセスを開発する。 このアプローチは、確定した接尾辞が確立されるまで不確実なコードスニペットの生成を延期し、生成シーケンスの制御を改善する。 さらに、循環的な方法で各生成を反復的に更新および同期することができるループ機構を容易にする。 提案する復号処理が,複数のコード生成ベンチマークにおける正規性と品質の向上に有効であることを示すため,大規模な実験を行った。

This work introduces a general code generation framework that incorporates infilling operations into auto-regressive decoding. Our approach capitalizes on the observation that recent code language models with infilling capabilities can perform \emph{self-infilling}: whereas infilling operations aim to fill in the middle based on a predefined prefix and suffix, self-infilling sequentially generates both such surrounding context and the infilled content. We utilize this feature to develop an infilling-augmented decoding process that facilitates non-monotonic generation. This approach allows for postponing the generation of uncertain code snippets until a definitive suffix is established, leading to improved control over the generation sequence. In addition, it facilitates a looping mechanism, which can iteratively update and synchronize each piece of generation in a cyclic manner. Extensive experiments are conducted to demonstrate that our proposed decoding process is effective in enhancing regularity and quality across several code generation benchmarks.
翻訳日:2023-12-01 19:11:26 公開日:2023-11-29
# GeoDream:高忠実で一貫した3D生成のための2次元および幾何学的優先事項の分離

GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and Consistent 3D Generation ( http://arxiv.org/abs/2311.17971v1 )

ライセンス: Link先を確認
Baorui Ma, Haoge Deng, Junsheng Zhou, Yu-Shen Liu, Tiejun Huang, Xinlong Wang(参考訳) 事前訓練された大規模テキストから画像への拡散モデルの蒸留によるテキストから3d生成は大きな期待が持たれているが、3次元幾何学的構造(ヤヌス問題)と重篤なアーティファクトに苦しめられている。 上記の問題は、リフト中の3次元認識を欠いた2次元拡散モデルに起因する。 本研究では,2次元拡散優先を伴う明示的な一般化3次元事前化を取り入れ,多様性や忠実性を犠牲にすることなく不明瞭な3次元整合幾何構造を得る能力を高める新しい手法であるgeodreamを提案する。 具体的には、まず、多視点拡散モデルを用いてポーズ画像を生成し、予測画像からコストボリュームを構築し、3次元空間における空間的一貫性を確保する。 さらに, 3次元幾何学的前駆体を用いて, 2次元拡散前駆体における3次元認識の大きな可能性を不連続設計により解き放つことを提案する。 特に、2Dと3Dの先行を遠ざけることで、さらに3Dの幾何学的先行を洗練できます。 改良された3次元幾何前駆体は2次元拡散前駆体の3次元認識能力を助長し、3次元幾何前駆体の改良のための優れたガイダンスを提供する。 我々の数値的および視覚的比較は、GeoDreamが高解像度のリアルレンダリング(1024$\times$1024)でより3D一貫性のあるテクスチャメッシュを生成し、セマンティックコヒーレンスにより密着していることを示している。

Text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models has shown great promise but still suffers from inconsistent 3D geometric structures (Janus problems) and severe artifacts. The aforementioned problems mainly stem from 2D diffusion models lacking 3D awareness during the lifting. In this work, we present GeoDream, a novel method that incorporates explicit generalized 3D priors with 2D diffusion priors to enhance the capability of obtaining unambiguous 3D consistent geometric structures without sacrificing diversity or fidelity. Specifically, we first utilize a multi-view diffusion model to generate posed images and then construct cost volume from the predicted image, which serves as native 3D geometric priors, ensuring spatial consistency in 3D space. Subsequently, we further propose to harness 3D geometric priors to unlock the great potential of 3D awareness in 2D diffusion priors via a disentangled design. Notably, disentangling 2D and 3D priors allows us to refine 3D geometric priors further. We justify that the refined 3D geometric priors aid in the 3D-aware capability of 2D diffusion priors, which in turn provides superior guidance for the refinement of 3D geometric priors. Our numerical and visual comparisons demonstrate that GeoDream generates more 3D consistent textured meshes with high-resolution realistic renderings (i.e., 1024 $\times$ 1024) and adheres more closely to semantic coherence.
翻訳日:2023-12-01 19:11:09 公開日:2023-11-29
# 独立成分分析によるガウス型LTIシステムの識別可能性の一考察

An Interventional Perspective on Identifiability in Gaussian LTI Systems with Independent Component Analysis ( http://arxiv.org/abs/2311.18048v1 )

ライセンス: Link先を確認
Goutham Rajendran, Patrik Reizinger, Wieland Brendel, Pradeep Ravikumar(参考訳) 動的システムにおけるシステム識別と介入設計の関係について検討する。 これまでの研究では、独立成分分析(ica)のような識別可能な表現学習手法が因果関係をいかに明らかにできるかが示されているが、データ収集の方法を考慮せずに受動的視点に依存していた。 本研究は,ガウス線形時間不変量 (lti) システムにおいて,多環境環境で多様な介入信号を導入することでシステムパラメータを同定できることを示す。 ica文献に動機づけられた適切な多様性の仮定を活用し,力学系における実験設計と表現識別性を結びつけた。 我々は、合成および(シミュレーション)物理データに関する知見を裏付ける。 さらに、隠れマルコフモデルや(ガウシアン) lti 系、特に連続パラメータを持つ因果的デ・フィニッティ定理の一般化について述べる。

We investigate the relationship between system identification and intervention design in dynamical systems. While previous research demonstrated how identifiable representation learning methods, such as Independent Component Analysis (ICA), can reveal cause-effect relationships, it relied on a passive perspective without considering how to collect data. Our work shows that in Gaussian Linear Time-Invariant (LTI) systems, the system parameters can be identified by introducing diverse intervention signals in a multi-environment setting. By harnessing appropriate diversity assumptions motivated by the ICA literature, our findings connect experiment design and representational identifiability in dynamical systems. We corroborate our findings on synthetic and (simulated) physical data. Additionally, we show that Hidden Markov Models, in general, and (Gaussian) LTI systems, in particular, fulfil a generalization of the Causal de Finetti theorem with continuous parameters.
翻訳日:2023-12-01 19:03:40 公開日:2023-11-29
# データ作業カウントの作成

Making Data Work Count ( http://arxiv.org/abs/2311.18046v1 )

ライセンス: Link先を確認
Srravya Chandhiramowuli, Alex Taylor, Sara Heitlinger, Ding Wang(参考訳) 本稿では,データアノテーションの研究について検討する。 具体的には,アノテーション作業の編成における数量化や定量化の役割に注目した。 インドにおける2つのアウトソーシングセンターにおけるデータアノテーションのエスノグラフィー研究に基づいて、カウントプラクティスとその関連するロジックが日々のアノテーション活動の不可欠な部分であることを観察した。 特に、私たちは、タスク、データセット、成果物から労働者、労働時間、品質、パフォーマンスに至るまで、全てをカウントするロジックを適用することで管理できるという考え方に注意を払っています。 本研究は, 社会学的, 社会技術的奨学金の定量化と, アノテーションの広汎なカウントの基盤となる特定のカウント, 実践, アクター, 構造を明確にする「カウントの登録」のレンズを開発するものである。 私たちは、AIサプライチェーンとデータワークの中で、数え上げ体制は、アノテーションプロセスに対するAIクライアント(要求者とも呼ばれる)による権威の主張を助け、それらを還元的、標準化され、均質なものとして構成することを発見した。 これがどのようにして 一 アノテーションの働き方及び労働者の価値 二 注釈において人間の判断が果たす役割 iii)aiに説明責任と単なるプラクティスを導入するためのより広範な取り組み。 これらの意味を通して、総計数可能性の論理における操作の限界を説明する。 その代わり、我々は、特定の利益によって形作られ、限られた方法でのみ説明できる、異なる地理的な位置にある部分的な数え上げという考え方を議論する。 そこで本研究では,データアノテーションにおけるカウント数とカウント数とを根本的に異なる向きに設定する。

In this paper, we examine the work of data annotation. Specifically, we focus on the role of counting or quantification in organising annotation work. Based on an ethnographic study of data annotation in two outsourcing centres in India, we observe that counting practices and its associated logics are an integral part of day-to-day annotation activities. In particular, we call attention to the presumption of total countability observed in annotation - the notion that everything, from tasks, datasets and deliverables, to workers, work time, quality and performance, can be managed by applying the logics of counting. To examine this, we draw on sociological and socio-technical scholarship on quantification and develop the lens of a 'regime of counting' that makes explicit the specific counts, practices, actors and structures that underpin the pervasive counting in annotation. We find that within the AI supply chain and data work, counting regimes aid the assertion of authority by the AI clients (also called requesters) over annotation processes, constituting them as reductive, standardised, and homogenous. We illustrate how this has implications for i) how annotation work and workers get valued, ii) the role human discretion plays in annotation, and iii) broader efforts to introduce accountable and more just practices in AI. Through these implications, we illustrate the limits of operating within the logic of total countability. Instead, we argue for a view of counting as partial - located in distinct geographies, shaped by specific interests and accountable in only limited ways. This, we propose, sets the stage for a fundamentally different orientation to counting and what counts in data annotation.
翻訳日:2023-12-01 19:03:23 公開日:2023-11-29
# 解析的可解モデルにおけるページ曲線絡み合いダイナミクス

Page curve entanglement dynamics in an analytically solvable model ( http://arxiv.org/abs/2311.18045v1 )

ライセンス: Link先を確認
Stefan Kehrein(参考訳) ブラックホールの絡み合いエントロピーは、ページ曲線に従うことが期待される。 時間とともに最初の線形増加の後、絡み合いエントロピーはページ時間で最大に達し、その後減少する。 このページ曲線の崩壊とホーキングの1975年の半古典的計算との明らかな矛盾は、ブラックホール情報パラドックスの中心にある。 このことから、非平衡量子多体系の立場から、エンタングルメントエントロピーの異常な挙動から、この論文は、そのようなページ曲線を明示的に示す、完全に解決可能な自由フェルミオンモデルを導入する:体積法則で飽和する代わりに、エンタングルメントエントロピーは、最近になって漸近的に消滅する。 粒子電流のような物理的観測性はページ時間に異常な挙動を示しず、粒子電流と絡み合い発生との間の半古典的関係がいかに崩壊するかを明示的に知ることができる。

The entanglement entropy of black holes is expected to follow the Page curve. After an initial linear increase with time the entanglement entropy should reach a maximum at the Page time and then decrease. This downbending of the Page curve and the apparent contradiction with Hawking's semiclassical calculation from 1975 is at the center of the black hole information paradox. Motivated by this - from the point of view of non-equilibrium quantum many-body systems - unusual behavior of the entanglement entropy, this paper introduces an exactly solvable model of free fermions that explicitly shows such a Page curve: Instead of saturating at a volume law the entanglement entropy vanishes asymptotically for late times. Physical observables like the particle current do not show any unusual behavior at the Page time and one can explicitly see how the semiclassical connection between particle current and entanglement generation breaks down.
翻訳日:2023-12-01 19:02:57 公開日:2023-11-29
# ロボット工学におけるトランスファー学習: 今後のブレークスルー? 約束と挑戦のレビュー

Transfer Learning in Robotics: An Upcoming Breakthrough? A Review of Promises and Challenges ( http://arxiv.org/abs/2311.18044v1 )

ライセンス: Link先を確認
No\'emie Jaquier, Michael C. Welle, Andrej Gams, Kunpeng Yao, Bernardo Fichera, Aude Billard, Ale\v{s} Ude, Tamim Asfour, Danica Kragi\'c(参考訳) トランスファーラーニングは、真にインテリジェントなエンボディエージェントを追求する概念的なパラダイムである。 新たな状況から学び、そこから学ぶための事前知識の再利用という中心的な概念は、人間が新しい状況に対処するためにうまく活用されている。 近年では、模倣学習、ドメイン適応、シミュレーションから実世界への体験の移譲など、さまざまな視点からコミュニティから新たな関心を集めている。 本稿では,ロボット工学における伝達学習の概念を統一し,ロボット,タスク,環境といった重要な概念を考慮に入れた最初の分類法を提供する。 この分野における約束と課題のレビューを通じて、異なる抽象レベルでの転送の必要性、転送ギャップの定量化の必要性、転送品質、および負の転送の危険性を特定する。 この立場から,ロボット工学における伝達学習の可能性を実現するために,コミュニティの努力を最も重要な道路ブロックへと導いていくことを願っている。

Transfer learning is a conceptually-enticing paradigm in pursuit of truly intelligent embodied agents. The core concept -- reusing prior knowledge to learn in and from novel situations -- is successfully leveraged by humans to handle novel situations. In recent years, transfer learning has received renewed interest from the community from different perspectives, including imitation learning, domain adaptation, and transfer of experience from simulation to the real world, among others. In this paper, we unify the concept of transfer learning in robotics and provide the first taxonomy of its kind considering the key concepts of robot, task, and environment. Through a review of the promises and challenges in the field, we identify the need of transferring at different abstraction levels, the need of quantifying the transfer gap and the quality of transfer, as well as the dangers of negative transfer. Via this position paper, we hope to channel the effort of the community towards the most significant roadblocks to realize the full potential of transfer learning in robotics.
翻訳日:2023-12-01 19:02:42 公開日:2023-11-29
# 表面コード量子コンピュータのためのコンパイル

Compilation for Surface Code Quantum Computers ( http://arxiv.org/abs/2311.18042v1 )

ライセンス: Link先を確認
Abtin Molavi, Amanda Xu, Swamit Tannu, Aws Albarghouthi(参考訳) 量子コンピューティングの実践的応用は、誤り訂正を伴う耐故障性デバイスに依存する。 今日、最も有望なアプローチは、surface codesと呼ばれるエラー訂正符号のクラスである。 本稿では,曲面符号を実装した量子コンピュータにおける量子回路のコンパイル問題について検討する。 問題は(1)デバイスキュービットへの回路キュービットのマッピング、(2)相互作用するキュービットのペア間の実行パスのルーティングである。 これを表面コードマッピングとルーティング問題(SCMR)と呼ぶ。 SCMRをほぼ最適に解くことは効率と正確性の両方に重要である。 最適な解法は、貴重な量子資源の観点から計算のコストを制限し、また、追加の時間ステップごとに増加する未検出論理誤差を発生させる確率を最小化する。 我々はscmrを理論的かつ実用的な観点から研究する。 まず、scmrは問題の制約付きバージョンと同様にnp完全であることが証明される。 次に,SAT符号化に基づくSCMRの最適解法を提案する。 第3に,ノード分割経路の問題を解くために,グリージーアルゴリズムを利用してSCMRを効率的に緩和する手法を提案する。 最後に,本アルゴリズムを実回路と合成回路の大規模な集合上で実装し,評価する。 結果は、リラクゼーションが現実的なワークロードをコンパイルするための強力なツールであることを示唆している。 緩和に基づくアルゴリズムは、最適なアルゴリズム(数分で数万のゲートを持つインスタンスを解決)よりも桁違いに高速であるが、高品質な解を見つけ、様々なベンチマークスイートから168個の回路のうち55個まで理論的に低い値が得られる。

Practical applications of quantum computing depend on fault-tolerant devices with error correction. Today, the most promising approach is a class of error-correcting codes called surface codes. In this paper, we study the problem of compiling quantum circuits for quantum computers implementing surface codes. The problem involves (1) mapping circuit qubits to the device qubits and (2) routing execution paths between pairs of interacting qubits. We call this the surface code mapping and routing problem (SCMR). Solving SCMR near-optimally is critical for both efficiency and correctness. An optimal solution limits the cost of a computation in terms of precious quantum resources and also minimizes the probability of incurring an undetected logical error, which increases with each additional time step. We study SCMR from a theoretical and practical perspective. First, we prove that SCMR, as well as a constrained version of the problem, is NP-complete. Second, we present a optimal algorithm for solving SCMR that is based on a SAT encoding. Third, we present a spectrum of efficient relaxations of SCMR, for example, by exploiting greedy algorithms for solving the problem of node-disjoint paths. Finally, we implement and evaluate our algorithms on a large suite of real and synthetic circuits. Our results suggest that our relaxations are a powerful tool for compiling realistic workloads. The relaxation-based algorithms are orders of magnitude faster than the optimal algorithm (solving instances with tens of thousands of gates in minutes), while still finding high-quality solutions, achieving the theoretical lower bound on up to 55 out of 168 circuits from a diverse benchmark suite.
翻訳日:2023-12-01 19:02:26 公開日:2023-11-29
# 小型言語モデルを用いたゼロショット会話要約評価

Zero-shot Conversational Summarization Evaluations with small Large Language Models ( http://arxiv.org/abs/2311.18041v1 )

ライセンス: Link先を確認
Ramesh Manuvinakurike, Saurav Sahay, Sangeeta Manepalli, Lama Nachman(参考訳) 大きな言語モデル(LLM)は強力な要約能力を示す。 しかし、会話の要約におけるそれらの能力はまだ検討中である。 本研究では,会話要約におけるllm(約100億パラメータ)を評価し,様々なプロンプトでの性能を示す。 モデルが生成するサマリーは命令に依存し,LSMの性能は異なる命令によって異なり,プロンプトが慎重に選択されていない場合,ROUGEスコアが急降下することがある。 また,人間評価によるモデルの評価を行い,会話要約におけるモデルの限界について考察する。

Large Language Models (LLMs) exhibit powerful summarization abilities. However, their capabilities on conversational summarization remains under explored. In this work we evaluate LLMs (approx. 10 billion parameters) on conversational summarization and showcase their performance on various prompts. We show that the summaries generated by models depend on the instructions and the performance of LLMs vary with different instructions sometimes resulting steep drop in ROUGE scores if prompts are not selected carefully. We also evaluate the models with human evaluations and discuss the limitations of the models on conversational summarization
翻訳日:2023-12-01 19:02:02 公開日:2023-11-29
# AI対応意思決定支援システムの信頼性評価:マルチソースAIスコアカードテーブル(MAST)の検証

Evaluating Trustworthiness of AI-Enabled Decision Support Systems: Validation of the Multisource AI Scorecard Table (MAST) ( http://arxiv.org/abs/2311.18040v1 )

ライセンス: Link先を確認
Pouria Salehi, Yang Ba, Nayoung Kim, Ahmadreza Mosallanezhad, Anna Pan, Myke C. Cohen, Yixuan Wang, Jieqiong Zhao, Shawaiz Bhatti, James Sung, Erik Blasch, Michelle V. Mancenido, Erin K. Chiou(参考訳) マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table、MAST)は、信頼できるAIシステムの設計と評価を知らせる、分析トレードクラフト標準に基づくチェックリストツールである。 本研究では,ai対応意思決定支援システム(ai-dsss)におけるマストと人々の信頼感との関連性を評価する。 AI-DSSの信頼を評価することは、研究者や実践者に課題をもたらす。 これらの課題には、DSSのパフォーマンスを駆動し、完全な手動検査を妨げる複雑なディープラーニングアルゴリズムに基づく、これらのシステムのコンポーネント、機能、ポテンシャルの特定が含まれる。 MAST基準を用いた2つの対話型AI-DSSテスト環境を開発した。 1つはセキュリティスクリーニングでid検証タスクをエミュレートし、もう1つはテキスト要約システムをエミュレートして調査報告タスクを支援する。 それぞれのテスト環境は、低いMASTレーティングにマッチするように設計されたバージョンと、高いMASTレーティングにマッチするように設計されたバージョンがあり、MASTレーティングはこれらのシステムの信頼レーティングに肯定的な関係があるという仮説がある。 これらのシステムと相互作用し評価するために、合計177人の主題の専門家が雇われた。 その結果,低MAST群と比較して高いMAST評価率を示し,信頼感尺度はMAST評価と高い相関性を示した。 我々は、MASTは、視覚スクリーニングやテキスト要約タスクをサポートするAI-DSSを含む、高い信頼感を育むシステムの設計と評価に有用なツールであると結論付けている。 しかし、より高いMASTレーティングは、より高いジョイントパフォーマンスには変換されない。

The Multisource AI Scorecard Table (MAST) is a checklist tool based on analytic tradecraft standards to inform the design and evaluation of trustworthy AI systems. In this study, we evaluate whether MAST is associated with people's trust perceptions in AI-enabled decision support systems (AI-DSSs). Evaluating trust in AI-DSSs poses challenges to researchers and practitioners. These challenges include identifying the components, capabilities, and potential of these systems, many of which are based on the complex deep learning algorithms that drive DSS performance and preclude complete manual inspection. We developed two interactive, AI-DSS test environments using the MAST criteria. One emulated an identity verification task in security screening, and another emulated a text summarization system to aid in an investigative reporting task. Each test environment had one version designed to match low-MAST ratings, and another designed to match high-MAST ratings, with the hypothesis that MAST ratings would be positively related to the trust ratings of these systems. A total of 177 subject matter experts were recruited to interact with and evaluate these systems. Results generally show higher MAST ratings for the high-MAST conditions compared to the low-MAST groups, and that measures of trust perception are highly correlated with the MAST ratings. We conclude that MAST can be a useful tool for designing and evaluating systems that will engender high trust perceptions, including AI-DSS that may be used to support visual screening and text summarization tasks. However, higher MAST ratings may not translate to higher joint performance.
翻訳日:2023-12-01 19:01:53 公開日:2023-11-29
# TransOpt:最適化問題分類のためのトランスフォーマーに基づく表現学習

TransOpt: Transformer-based Representation Learning for Optimization Problem Classification ( http://arxiv.org/abs/2311.18035v1 )

ライセンス: Link先を確認
Gjorgjina Cenikj, Ga\v{s}per Petelin, Tome Eftimov(参考訳) 本稿では, black-box optimization benchmarking (bbob)ベンチマークによる24問題クラスの問題分類タスク用にトレーニングされたtransformerベースのニューラルネットワークアーキテクチャを用いた最適化問題インスタンスの表現を提案する。 トランスフォーマティブ・ベースの手法は,異なる問題次元に対して70\%-80\%の範囲の確率で問題クラスを認識するように訓練できることを示し,ブラックボックス最適化問題に対する表現獲得におけるトランスフォーマアーキテクチャの応用の可能性を示した。

We propose a representation of optimization problem instances using a transformer-based neural network architecture trained for the task of problem classification of the 24 problem classes from the Black-box Optimization Benchmarking (BBOB) benchmark. We show that transformer-based methods can be trained to recognize problem classes with accuracies in the range of 70\%-80\% for different problem dimensions, suggesting the possible application of transformer architectures in acquiring representations for black-box optimization problems.
翻訳日:2023-12-01 19:01:26 公開日:2023-11-29
# hyperpolyglot llms:トークン埋め込みにおける言語間解釈可能性

Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings ( http://arxiv.org/abs/2311.18034v1 )

ライセンス: Link先を確認
Andrea W Wen-Yi, David Mimno(参考訳) 言語間移動学習は多言語大言語モデル(LLM)の重要な特性である。 しかし、LLMは言語間の関係をどう表現しますか? どの言語モデルにもトークンをベクトルにマップする入力層がある。 このユビキタスな言語モデルの層はしばしば見過ごされます。 これらの入力埋め込み間の類似性は非常に解釈可能であり、これらの埋め込みの幾何学はモデルファミリ間で異なる。 あるケース(XLM-RoBERTa)では、エンコード言語:異なる書き込みシステム内のトークンを平均99.2%の精度で線形に分離することができる。 他のファミリー(mt5)は言語間の意味的類似性を表しており、50の近辺のトークンは平均7.61の文字体系を表し、しばしば翻訳される。 この結果は、明示的な並列言語間トレーニングコーパスがなく、事前学習目的における翻訳に対する明示的なインセンティブがないことを考えると驚きである。 私たちの研究は調査の扉を開く 1)事前学習とモデルアーキテクチャが言語の表現および表現に及ぼす影響 2)言語モデルに埋め込まれた言語間表現の応用

Cross-lingual transfer learning is an important property of multilingual large language models (LLMs). But how do LLMs represent relationships between languages? Every language model has an input layer that maps tokens to vectors. This ubiquitous layer of language models is often overlooked. We find that similarities between these input embeddings are highly interpretable and that the geometry of these embeddings differs between model families. In one case (XLM-RoBERTa), embeddings encode language: tokens in different writing systems can be linearly separated with an average of 99.2% accuracy. Another family (mT5) represents cross-lingual semantic similarity: the 50 nearest neighbors for any token represent an average of 7.61 writing systems, and are frequently translations. This result is surprising given that there is no explicit parallel cross-lingual training corpora and no explicit incentive for translations in pre-training objectives. Our research opens the door for investigations in 1) The effect of pre-training and model architectures on representations of languages and 2) The applications of cross-lingual representations embedded in language models.
翻訳日:2023-12-01 19:01:18 公開日:2023-11-29
# 時系列外部予測のための受容場の一袋

A Bag of Receptive Fields for Time Series Extrinsic Predictions ( http://arxiv.org/abs/2311.18029v1 )

ライセンス: Link先を確認
Francesco Spinnato and Riccardo Guidotti and Anna Monreale and Mirco Nanni(参考訳) 高次元時系列データは、そのダイナミックな性質、様々な長さ、欠落した値の存在のために課題を提起する。 この種のデータには広範な前処理が必要であり、既存の時系列分類や時間軸回帰技術の適用性が制限されている。 そこで本研究では,時系列畳み込みと1d-saxの概念を取り入れ,長さや欠落値の異なる不定値・多変量時系列を扱う,受容場モデルであるborfを提案する。 本稿では,ueaとucrの全リポジトリを用いて,時系列分類と時系列回帰タスクのボルフを評価し,最新手法との競合性を示す。 最後に,この表現が自然にサリエンシーと特徴に基づく説明を提供する方法について概説する。

High-dimensional time series data poses challenges due to its dynamic nature, varying lengths, and presence of missing values. This kind of data requires extensive preprocessing, limiting the applicability of existing Time Series Classification and Time Series Extrinsic Regression techniques. For this reason, we propose BORF, a Bag-Of-Receptive-Fields model, which incorporates notions from time series convolution and 1D-SAX to handle univariate and multivariate time series with varying lengths and missing values. We evaluate BORF on Time Series Classification and Time Series Extrinsic Regression tasks using the full UEA and UCR repositories, demonstrating its competitive performance against state-of-the-art methods. Finally, we outline how this representation can naturally provide saliency and feature-based explanations.
翻訳日:2023-12-01 19:01:01 公開日:2023-11-29
# フィルタ付きセミマルコフcrf

Filtered Semi-Markov CRF ( http://arxiv.org/abs/2311.18028v1 )

ライセンス: Link先を確認
Urchade Zaratiana, Nadi Tomeh, Niama El Khbir, Pierre Holat, Thierry Charnois(参考訳) Semi-Markov CRFは、名前付きエンティティ認識(NER)のようなテキストセグメンテーションタスクのための従来の線形チェインCRFの代替として提案されている。 テキストセグメンテーションをトークンレベルの予測として扱うCRFとは異なり、Semi-CRFはセグメントを基本単位とみなし、表現力を高めている。 しかし、Semi-CRFは、(1)入力シーケンスの各スパンで動作するシーケンス長の2次複雑さと、(2)NERのようなシーケンスラベリングタスクのCRFに比べて性能が劣る2つの大きな欠点に悩まされている。 本稿では,不適切なセグメントを除去し,複雑性と検索空間を低減し,フィルタ処理を取り入れたセミCRFの変種であるフィルタセミマルコフCRFを紹介する。 提案手法はいくつかのNERベンチマークで評価され,CRFとSemi-CRFのどちらよりも高速である。 本手法の実装は \href{https://github.com/urchade/Filtered-Semi-Markov-CRF}{Github} で利用可能である。

Semi-Markov CRF has been proposed as an alternative to the traditional Linear Chain CRF for text segmentation tasks such as Named Entity Recognition (NER). Unlike CRF, which treats text segmentation as token-level prediction, Semi-CRF considers segments as the basic unit, making it more expressive. However, Semi-CRF suffers from two major drawbacks: (1) quadratic complexity over sequence length, as it operates on every span of the input sequence, and (2) inferior performance compared to CRF for sequence labeling tasks like NER. In this paper, we introduce Filtered Semi-Markov CRF, a variant of Semi-CRF that addresses these issues by incorporating a filtering step to eliminate irrelevant segments, reducing complexity and search space. Our approach is evaluated on several NER benchmarks, where it outperforms both CRF and Semi-CRF while being significantly faster. The implementation of our method is available on \href{https://github.com/urchade/Filtered-Semi-Markov-CRF}{Github}.
翻訳日:2023-12-01 19:00:44 公開日:2023-11-29
# グラフニューラルネットワークを用いたCFDにおけるデータ同化の強化

Enhancing Data-Assimilation in CFD using Graph Neural Networks ( http://arxiv.org/abs/2311.18027v1 )

ライセンス: Link先を確認
Michele Quattromini, Michele Alessandro Bucci, Stefania Cherubini, Onofrio Semeraro(参考訳) グラフニューラルネットワーク(GNN)モデルによる随伴最適化に基づく流体力学におけるデータ同化のための新しい機械学習手法を提案する。 我々はReynolds-Averaged Navier-Stokes(RANS)方程式のベースラインとして、未知が平均フローであり、Reynolds-stresstensorに基づく閉包モデルが解を正しく計算するために必要であると考えている。 エンド・ツー・エンドのプロセスがキャストされます。まず、クロージャ・タームのためにGNNモデルをトレーニングします。 第二に、GNNモデルはデータ同化のトレーニングプロセスにおいて導入され、RANS方程式は一貫した予測のための物理制約として機能する。 我々は,有限要素法(FEM)の解法に基づく直接数値シミュレーションを用いて,GNNモデルと解法の間の2次元のインターフェースにより,GNNの予測をFEM解析の処理後ステップに組み込むことができることを示す。 提案手法は, 特徴選択を伴わずに, 平均流の良好な再構成を行い, 予備結果は, 未知のフロー構成に対して有望な一般化特性を示す。

We present a novel machine learning approach for data assimilation applied in fluid mechanics, based on adjoint-optimization augmented by Graph Neural Networks (GNNs) models. We consider as baseline the Reynolds-Averaged Navier-Stokes (RANS) equations, where the unknown is the meanflow and a closure model based on the Reynolds-stress tensor is required for correctly computing the solution. An end-to-end process is cast; first, we train a GNN model for the closure term. Second, the GNN model is introduced in the training process of data assimilation, where the RANS equations act as a physics constraint for a consistent prediction. We obtain our results using direct numerical simulations based on a Finite Element Method (FEM) solver; a two-fold interface between the GNN model and the solver allows the GNN's predictions to be incorporated into post-processing steps of the FEM analysis. The proposed scheme provides an excellent reconstruction of the meanflow without any features selection; preliminary results show promising generalization properties over unseen flow configurations.
翻訳日:2023-12-01 19:00:25 公開日:2023-11-29
# 小型パイロットデータを用いた大規模データセットの分類精度予測のための確率的手法

A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets given Small Pilot Data ( http://arxiv.org/abs/2311.18025v1 )

ライセンス: Link先を確認
Ethan Harvey, Wansu Chen, David M. Kent, and Michael C. Hughes(参考訳) 分類器を構築する実践者は、多くの場合、小さなパイロットデータセットから始めて、近い将来、より大きなデータに拡張する予定です。 このようなプロジェクトには,分類器の精度を2倍,10倍,50倍に向上させるツールキットが必要だ。 既存の研究は、パワー法則のような様々な機能形式を用いて単一の「最適な」曲線を見つけることに重点を置いてきたが、予測の不確かさのモデリングと評価は重要でありながら、あまり注目されていない。 本稿では,データセットのサイズが増加するにつれて,精度や類似の性能指標の確率的外挿を求めるガウス過程モデルを提案する。 6つのデータセットにわたるエラー、可能性、カバレッジの観点から、私たちのアプローチを評価します。 我々は医療タスクや画像のモダリティに重点を置いているが、オープンソースアプローチはあらゆる種類の分類器に一般化する。

Practitioners building classifiers often start with a smaller pilot dataset and plan to grow to larger data in the near future. Such projects need a toolkit for extrapolating how much classifier accuracy may improve from a 2x, 10x, or 50x increase in data size. While existing work has focused on finding a single "best-fit" curve using various functional forms like power laws, we argue that modeling and assessing the uncertainty of predictions is critical yet has seen less attention. In this paper, we propose a Gaussian process model to obtain probabilistic extrapolations of accuracy or similar performance metrics as dataset size increases. We evaluate our approach in terms of error, likelihood, and coverage across six datasets. Though we focus on medical tasks and image modalities, our open source approach generalizes to any kind of classifier.
翻訳日:2023-12-01 18:59:59 公開日:2023-11-29
# ReLUネットワークを用いた高精度近似のためのトレーニング可能な多様体

A trainable manifold for accurate approximation with ReLU Networks ( http://arxiv.org/abs/2311.18022v1 )

ライセンス: Link先を確認
Max Milkert and Forrest Laine(参考訳) 本稿では,より正確な関数近似を生成するために,relu活性化ニューラルネットワークの重み付けをより制御するための新しい手法を提案する。 多くの理論的研究は、より小さなベースコンポーネントを使って複雑な演算をReLUネットワークにエンコードする。 これらの研究において、共通基底成分は x^2 に対する一定の幅近似であり、深さに関して指数関数的に誤差がある。 我々はこのブロックを拡張して、より広い凸一次元関数を表現する。 我々は、これらの新しいネットワークの出力が指数関数的に多くの分割線形セグメントを利用するような重みの多様体を導出する。 この多様体は、ランダム初期化と無支援勾配降下に関連する欠点を克服する訓練過程を導く。 我々は、これらのネットワークを多様体上に存在する必要のない近似関数に訓練し、従来の手法に比べて誤差値の大幅な低減を示す。

We present a novel technique for exercising greater control of the weights of ReLU activated neural networks to produce more accurate function approximations. Many theoretical works encode complex operations into ReLU networks using smaller base components. In these works, a common base component is a constant width approximation to x^2, which has exponentially decaying error with respect to depth. We extend this block to represent a greater range of convex one-dimensional functions. We derive a manifold of weights such that the output of these new networks utilizes exponentially many piecewise-linear segments. This manifold guides their training process to overcome drawbacks associated with random initialization and unassisted gradient descent. We train these networks to approximate functions which do not necessarily lie on the manifold, showing a significant reduction of error values over conventional approaches.
翻訳日:2023-12-01 18:59:45 公開日:2023-11-29
# 視覚言語モデルによる文脈学習の理解と改善

Understanding and Improving In-Context Learning on Vision-language Models ( http://arxiv.org/abs/2311.18021v1 )

ライセンス: Link先を確認
Shuo Chen, Zhen Han, Bailan He, Mark Buckley, Philip Torr, Volker Tresp, Jindong Gu(参考訳) 近年,大規模言語モデル (LLM) における文脈内学習 (ICL) が注目されており,この手法はLLM上に構築された視覚言語モデル (VLM) にも適用可能である。 これらのVLMは、画像、クエリ、回答で構成される一連のマルチモーダルなデモに対して応答を条件付けることで、クエリに応答することができる。 ICLはLLMで広く研究されているが、VLMの研究は限られている。 デモに視覚情報を追加することは、以下の研究課題を動機づける: デモにおける2つのモダリティのうちどちらがより重要であるか? ICL性能を高めるために効果的なマルチモーダルデモをどうやって選択できるのか? 本研究では視覚情報と言語情報の両方の重要性について検討する。 以上の結果から,VLMにおけるICLは実演におけるテキスト情報によって主に駆動されるが,実演における視覚情報はICLのパフォーマンスにはほとんど影響しないことがわかった。 次に, モデル情報の流れを分析し, icl設定の異なるモデル内部状態を比較することにより, 結果を理解する。 そこで本研究では,実演選択時の視覚的・言語的モダリティを考慮し,より優れたICL性能を示すMixed Modality In-Context Example Selection(MMICES)を提案する。 VLMのICL性能の発見,理解,改善を支援するため,広範囲な実験を行った。

Recently, in-context learning (ICL) on large language models (LLMs) has received great attention, and this technique can also be applied to vision-language models (VLMs) built upon LLMs. These VLMs can respond to queries by conditioning responses on a series of multimodal demonstrations, which comprise images, queries, and answers. Though ICL has been extensively studied on LLMs, its research on VLMs remains limited. The inclusion of additional visual information in the demonstrations motivates the following research questions: which of the two modalities in the demonstration is more significant? How can we select effective multimodal demonstrations to enhance ICL performance? This study investigates the significance of both visual and language information. Our findings indicate that ICL in VLMs is predominantly driven by the textual information in the demonstrations whereas the visual information in the demonstrations barely affects the ICL performance. Subsequently, we provide an understanding of the findings by analyzing the model information flow and comparing model inner states given different ICL settings. Motivated by our analysis, we propose a simple yet effective approach, termed Mixed Modality In-Context Example Selection (MMICES), which considers both visual and language modalities when selecting demonstrations and shows better ICL performance. Extensive experiments are conducted to support our findings, understanding, and improvement of the ICL performance of VLMs.
翻訳日:2023-12-01 18:59:32 公開日:2023-11-29
# 移動ナノ粒子の存在下での電磁界量子化

Electromagnetic field quantization in the presence of a moving nano-particle ( http://arxiv.org/abs/2311.18089v1 )

ライセンス: Link先を確認
Vahid Ameri, Alidad Askari, Morteza Rafiee, Mohammad Eghbai-Arani(参考訳) 運動するナノ粒子を半無限空間に含む系に適切なラグランジアンを考慮し、電磁場と物質場を定量化する。 吸収された電力放射の解析により、高速ナノ粒子が経験する量子摩擦は、ナノ粒子の放射能の散逸項として同定できることを示した。 移動ナノ粒子の吸収エネルギー放射を誘導し、静電粒子の吸収エネルギー放射と比較する。 2つの異なる温度シナリオを考慮し、運動するナノ粒子の吸収されたパワー放射が常に負の項を含むことが明確に示され、これは非接触量子摩擦によるパワー損失によるものである。

An appropriate Lagrangian is considered for a system comprising a moving nanoparticle in a semi-infinite space, and the electromagnetic and matter fields are quantized. Through an analysis of the absorbed power radiation, it is demonstrated that the quantum friction experienced by high-velocity nanoparticles can be identified as a dissipative term in the radiation power of the nanoparticle. The absorbed power radiation for a moving nanoparticle is derived and compared with that of a static one. By considering two different temperature scenarios, it is explicitly shown that the absorbed power radiation for a moving nanoparticle always contains a negative term in its power spectrum, which can be attributed to the power lost due to non-contact quantum friction.
翻訳日:2023-12-01 18:53:42 公開日:2023-11-29
# Meta Co-Training: 2つのビューは1より優れている

Meta Co-Training: Two Views are Better than One ( http://arxiv.org/abs/2311.18083v1 )

ライセンス: Link先を確認
Jay C. Rothenberger, Dimitrios I. Diochnos(参考訳) 多くの実用的なコンピュータビジョンシナリオでは、ラベルのないデータは豊富だが、ラベルは乏しく入手が難しい。 その結果,教師付き分類器の性能を高めるためにラベル付きデータを活用した半教師付き学習が近年注目されている。 半教師付きアルゴリズムの主要なクラスはコトレーニングである。 共同トレーニングでは、2つの異なるモデルが異なる独立性と十分なデータ"ビュー"を活用して、より優れた予測を行う。 共トレーニングの間、各モデルは他のモデルを改善するために使用されるラベルのない点に擬似ラベルを作成する。 独立ビューが利用できない一般的なケースでは、事前学習したモデルを使って安価にビューを構築することができる。 構築されたビューを共同トレーニングすることで、構築した個々のビューよりもパフォーマンスが向上し、セミ教師付き学習のアプローチに匹敵するパフォーマンスになりますが、望ましくない特性がいくつかあります。 共同学習で生じる問題を緩和するために,Meta Pseudo Labelsアプローチを複数の視点に拡張したMeta Co-Trainingを提案する。 提案手法は,ImageNet-10%において,トレーニングリソースの少ない新たな最先端性能を実現するとともに,他の細粒度画像分類データセットに対する半教師付き作業よりも優れる。

In many practical computer vision scenarios unlabeled data is plentiful, but labels are scarce and difficult to obtain. As a result, semi-supervised learning which leverages unlabeled data to boost the performance of supervised classifiers have received significant attention in recent literature. One major class of semi-supervised algorithms is co-training. In co-training two different models leverage different independent and sufficient "views" of the data to jointly make better predictions. During co-training each model creates pseudo labels on unlabeled points which are used to improve the other model. We show that in the common case when independent views are not available we can construct such views inexpensively using pre-trained models. Co-training on the constructed views yields a performance improvement over any of the individual views we construct and performance comparable with recent approaches in semi-supervised learning, but has some undesirable properties. To alleviate the issues present with co-training we present Meta Co-Training which is an extension of the successful Meta Pseudo Labels approach to multiple views. Our method achieves new state-of-the-art performance on ImageNet-10% with very few training resources, as well as outperforming prior semi-supervised work on several other fine-grained image classification datasets.
翻訳日:2023-12-01 18:53:05 公開日:2023-11-29
# Zooming Out on Zooming In:Advanced Super-Resolution for Remote Sensing

Zooming Out on Zooming In: Advancing Super-Resolution for Remote Sensing ( http://arxiv.org/abs/2311.18082v1 )

ライセンス: Link先を確認
Piper Wolters, Favyen Bastani, Aniruddha Kembhavi(参考訳) リモートセンシングのスーパーレゾリューションは、高精度で現実的な高解像度画像を頻繁かつグローバルなスケールで生成することで、惑星の監視に大きな影響を与える可能性がある。 多くの注意を払っているにもかかわらず、いくつかの矛盾や課題により、実際にデプロイされるのを妨げている。 これには、効果的なメトリクスの欠如、トレーニングのための断片化と比較的小規模なデータセット、一連のメソッド間の比較が不十分であること、マシン消費に超解像出力を使用することの明確な証拠が含まれる。 この研究は、これまでの広範な研究において、人間の判断と非常によく一致するスーパーレゾリューションのための新しい指標であるクリップスコアを提示している。 新しい大規模データセットであるS2-NAIPと既存の3つのベンチマークデータセットの4つの標準手法を評価するためにCLIPScoreを使用し、ジェネレーティブな敵対的ネットワークは従来のL2損失ベースモデルよりも容易に優れ、現代の拡散モデルよりも意味論的に正確であることを示す。 また,CLIPScoreを補助的損失として使用することで,GANのトレーニングを18倍に高速化し,出力の改善につながることが判明した。 データセット、事前トレーニングされたモデルウェイト、コードはhttps://github.com/allenai/satlas-super- resolution/で入手できる。

Super-Resolution for remote sensing has the potential for huge impact on planet monitoring by producing accurate and realistic high resolution imagery on a frequent basis and a global scale. Despite a lot of attention, several inconsistencies and challenges have prevented it from being deployed in practice. These include the lack of effective metrics, fragmented and relatively small-scale datasets for training, insufficient comparisons across a suite of methods, and unclear evidence for the use of super-resolution outputs for machine consumption. This work presents a new metric for super-resolution, CLIPScore, that corresponds far better with human judgments than previous metrics on an extensive study. We use CLIPScore to evaluate four standard methods on a new large-scale dataset, S2-NAIP, and three existing benchmark datasets, and find that generative adversarial networks easily outperform more traditional L2 loss-based models and are more semantically accurate than modern diffusion models. We also find that using CLIPScore as an auxiliary loss can speed up the training of GANs by 18x and lead to improved outputs, resulting in an effective model in diverse geographies across the world which we will release publicly. The dataset, pre-trained model weights, and code are available at https://github.com/allenai/satlas-super-resolution/.
翻訳日:2023-12-01 18:52:43 公開日:2023-11-29
# 時系列データによる建築電力需要の予測可能性

The Forecastability of Underlying Building Electricity Demand from Time Series Data ( http://arxiv.org/abs/2311.18078v1 )

ライセンス: Link先を確認
Mohamad Khalil, A. Stephen McGough, Hussain Kazmi, Sara Walker(参考訳) ビルのエネルギー消費予測は省エネルギー・最適化のためのビルのエネルギー管理システムにおいて有望な解決策となっている。 さらに、スマートグリッドの操作の効率的な管理において重要な役割を果たすことができる。 さまざまな規模の建物の将来のエネルギー需要を予測するデータ駆動アプローチは、さまざまな時間軸にわたって、広範な機械学習やディープラーニングアプローチを含む科学文献で見ることができる。 しかし、こうした建物のエネルギー需要を予測するために利用できる最も正確な予測モデルを特定することは依然として困難であり、本稿では、データ駆動予測モデルを利用することなく、建物の将来のエネルギー需要がどれだけ予測可能かを予測するデータ駆動アプローチの設計と実装について述べる。 調査は、英国ロンドンにある住宅群から収集された半時間間隔の歴史的な電力消費時系列データを利用している。

Forecasting building energy consumption has become a promising solution in Building Energy Management Systems for energy saving and optimization. Furthermore, it can play an important role in the efficient management of the operation of a smart grid. Different data-driven approaches to forecast the future energy demand of buildings at different scale, and over various time horizons, can be found in the scientific literature, including extensive Machine Learning and Deep Learning approaches. However, the identification of the most accurate forecaster model which can be utilized to predict the energy demand of such a building is still challenging.In this paper, the design and implementation of a data-driven approach to predict how forecastable the future energy demand of a building is, without first utilizing a data-driven forecasting model, is presented. The investigation utilizes a historical electricity consumption time series data set with a half-hour interval that has been collected from a group of residential buildings located in the City of London, United Kingdom
翻訳日:2023-12-01 18:52:19 公開日:2023-11-29
# エッジ上のスマートキャンパスのためのLiDARによる屋外群衆管理

LiDAR-based Outdoor Crowd Management for Smart Campus on the Edge ( http://arxiv.org/abs/2311.18077v1 )

ライセンス: Link先を確認
Yitao Chen, Krishna Gundu, Zohair Zaidi, Ming Zhao(参考訳) 群衆管理はスマートキャンパスにとって不可欠だ。 一般的な方法はカメラベースである。 しかし、従来のカメラベースのアプローチは、ユーザーの個人識別可能な機能を漏洩させ、ユーザーのプライバシーを損なう可能性がある。 本研究では、安価な光検出・測光(LiDAR)技術を用いて、エッジコンピューティングを活用した屋外群衆管理を行う。 具体的には、大学キャンパスの通路にいる人数を数えることを目的としている。 プライバシー保護の他に、LiDARセンサーはキャンパスの照明が良くないときに性能が損なわれることはないため、カメラより優れている。 ライトポールにLiDARセンサーを配置し、キャンパスの群衆からデータを収集し、エッジアクセラレータを利用してデータをローカルに処理します。 この研究で2つの異なる方法を提案しました 1)クラスタリングとオートエンコーダを用いた非畳み込みニューラルネットワーク(CNN)に基づくアプローチ 2) CNNベースのアプローチでは、まず雲を2次元平面に向け、次に従来のCNNでプロジェクションを処理する。 第1のアプローチは注意深い機能エンジニアリングに依存しますが,第2のアプローチではそのような努力は必要ありません。 しかし、CNNベースのアプローチは、我々の非CNNベースのアプローチよりも計算能力を必要とする。 キャンパスから収集した実生活データを用いて,両アプローチを総合的に評価した。 評価の結果,第1手法の精度は85.4%,第2手法は95.8%であった。 我々のCNNベースの手法は既存のソリューションを著しく上回ります。 また、エッジアクセラレーターであるTPUに2つのモデルをデプロイして、この特別なアクセラレーターを活用してスピードアップを測定します。

Crowd management is crucial for a smart campus. Popular methods are camera-based. However, conventional camera-based approaches may leak users' personally identifiable features, jeopardizing user's privacy, which limits its application. In this work, we investigate using affordable light detection and ranging (LiDAR) technology to perform outdoor crowd management leveraging edge computing. Specifically, we aim to count the number of people on a walkway of a university campus. Besides privacy protection, LiDAR sensors are superior to cameras since their performance will not be compromised when the campus is not well-illuminated. We deploy LiDAR sensors on light poles to collect data from the crowd on the campus and leverage edge accelerators to process data locally. We proposed two different methodologies in this work: 1) a non-convolutional neural network (CNN)-based approach, using clustering and autoencoder, and 2) a CNN-based approach that first projects point clouds to 2D planes and then processes the projection with conventional CNNs. Our first approach relies on careful feature engineering, whereas our second approach does not require such effort. However, the CNN-based approach requires more computational power than our non-CNN-based approach. We evaluate both approaches comprehensively with our hand-labeled real-life data collected from campus. Our evaluation results show that the first method achieves an accuracy of 85.4%, whereas the second method achieves 95.8%. Our CNN-based method outperforms existing solutions significantly. We also deploy our two models on an edge accelerator, TPU, to measure the speedup, leveraging this specialized accelerator.
翻訳日:2023-12-01 18:52:04 公開日:2023-11-29
# 距離を欠いたNystr\"om法

A Nystr\"om method with missing distances ( http://arxiv.org/abs/2311.18076v1 )

ライセンス: Link先を確認
Samuel Lichtenberg, Abiy Tasissa(参考訳) 移動ノード (mobile nodes) と呼ばれる$n$ 点の構成を,アンカーノード (anchor nodes) と呼ばれる固定点に対して対数距離を用いることで決定する問題について検討する。 標準設定では、アンカー間の距離(アンカー-アンカー)とアンカーと移動ノード間の距離(アンカー-モービル)に関する情報があるが、移動ノード間の距離(モバイル-モービル)は知られていない。 この設定のために、Nystr\"omメソッドは移動ノードの位置を推定するための実行可能なテクニックである。 本研究では,距離行列のアンカー移動ブロックが部分距離情報のみを含む設定に焦点を当てた。 まず,距離行列におけるアンカー移動ブロックの列とグラム行列の対応するブロックの列との間の関係をグラフラプラシアンによって確立する。 そこで本研究では,内積行列の低ランクリカバリとして位置推定問題を補足する新しいサンプリングモデルを提案し,その拡張係数のサブセットを非直交的に与える。 この基底とその双対基底--我々のモデルの中心要素-は明示的に導出される。 我々の解析は、Nystr\"om法に特有の点の特定の中心に基礎を置いている。 このことを念頭に置いて, ユークリッド距離幾何学における先行研究を, 任意の点を中心とする一般双対基底アプローチにより拡張する。

We study the problem of determining the configuration of $n$ points, referred to as mobile nodes, by utilizing pairwise distances to $m$ fixed points known as anchor nodes. In the standard setting, we have information about the distances between anchors (anchor-anchor) and between anchors and mobile nodes (anchor-mobile), but the distances between mobile nodes (mobile-mobile) are not known. For this setup, the Nystr\"om method is a viable technique for estimating the positions of the mobile nodes. This study focuses on the setting where the anchor-mobile block of the distance matrix contains only partial distance information. First, we establish a relationship between the columns of the anchor-mobile block in the distance matrix and the columns of the corresponding block in the Gram matrix via a graph Laplacian. Exploiting this connection, we introduce a novel sampling model that frames the position estimation problem as low-rank recovery of an inner product matrix, given a subset of its expansion coefficients in a special non-orthogonal basis. This basis and its dual basis--the central elements of our model--are explicitly derived. Our analysis is grounded in a specific centering of the points that is unique to the Nystr\"om method. With this in mind, we extend previous work in Euclidean distance geometry by providing a general dual basis approach for points centered anywhere.
翻訳日:2023-12-01 18:51:38 公開日:2023-11-29
# 大規模防犯制約直流最適潮流に対する自己教師付き学習

Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow ( http://arxiv.org/abs/2311.18072v1 )

ライセンス: Link先を確認
Seonho Park and Pascal Van Hentenryck(参考訳) SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムの成長とともに複雑化する。 PDL-SCOPFは,大規模SCOPF問題に対して,ミリ秒でほぼ最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFフレームワークである。 実際、PDL-SCOPFは最適なソリューションでトレーニングインスタンスに依存する教師付きシステムの制限を是正し、大規模なSCOPF問題では実用的ではない。 PDL-SCOPFは、原始解とラグランジアン乗算を学習する二元ネットワークを、制約のない最適化のために訓練するための拡張ラグランジアン法(ALM)を模倣する。 さらに、PDL-SCOPFは、名目ケースにおける電力収支の実現性を確保するための補修層と、自動一次応答(APR)を用いて演算する二分探索層とを具備し、発生器が緊急時にディスパッチする。 結果として得られる微分可能プログラムは、SCOPFの目的関数と事象のパワーバランス制約を使ってエンドツーエンドで訓練することができる。 実験結果から, PDL-SCOPFは最小限の最適性ギャップを持つ正確な実現可能な解を提供することが示された。 PDL-SCOPFの基盤となるフレームワークは、従来の最適化手法と機械学習のギャップを埋めることを目的としており、大規模最適化タスクのための自己教師付きエンドツーエンドの原始的双対学習の可能性を強調している。

Security-Constrained Optimal Power Flow (SCOPF) plays a crucial role in power grid stability but becomes increasingly complex as systems grow. This paper introduces PDL-SCOPF, a self-supervised end-to-end primal-dual learning framework for producing near-optimal solutions to large-scale SCOPF problems in milliseconds. Indeed, PDL-SCOPF remedies the limitations of supervised counterparts that rely on training instances with their optimal solutions, which becomes impractical for large-scale SCOPF problems. PDL-SCOPF mimics an Augmented Lagrangian Method (ALM) for training primal and dual networks that learn the primal solutions and the Lagrangian multipliers, respectively, to the unconstrained optimizations. In addition, PDL-SCOPF incorporates a repair layer to ensure the feasibility of the power balance in the nominal case, and a binary search layer to compute, using the Automatic Primary Response (APR), the generator dispatches in the contingencies. The resulting differentiable program can then be trained end-to-end using the objective function of the SCOPF and the power balance constraints of the contingencies. Experimental results demonstrate that the PDL-SCOPF delivers accurate feasible solutions with minimal optimality gaps. The framework underlying PDL-SCOPF aims at bridging the gap between traditional optimization methods and machine learning, highlighting the potential of self-supervised end-to-end primal-dual learning for large-scale optimization tasks.
翻訳日:2023-12-01 18:51:16 公開日:2023-11-29
# 音を消す:擬似ラベルによるテスト時間適応のための拡散モデル

Turn Down the Noise: Leveraging Diffusion Models for Test-time Adaptation via Pseudo-label Ensembling ( http://arxiv.org/abs/2311.18071v1 )

ライセンス: Link先を確認
Mrigank Raman, Rohan Shah, Akash Kannan, Pranit Chawla(参考訳) テストタイム適応の目標は、ソースデータに頼ることなく、継続的に変化するターゲットドメインにソース予測モデルを適用することである。 通常、これは対象ドメインからの入力を使用してモデルのパラメータ(モデル適応)を更新するか、あるいは入力自体を変更する(入力適応)ことによって行われる。 しかし、モデルを変更するメソッドはノイズの多い更新を複合する問題に苦しむ一方で、入力を変更するメソッドはスクラッチから新しいデータポイントに適応すると同時に、特定のドメインシフトに苦しむ必要がある。 本稿では,事前学習した拡散モデルを用いて,対象領域の画像がソース領域に近づくように投影し,擬似ラベルアンサンブルにより繰り返し更新する手法を提案する。 本手法はモデルと入力適応の利点を組み合わせ,欠点を緩和する。 CIFAR-10Cで行った実験では,15の多様な汚職において,最強のベースラインを平均1.7%上回り,最強の入力適応ベースラインを平均18%上回った。

The goal of test-time adaptation is to adapt a source-pretrained model to a continuously changing target domain without relying on any source data. Typically, this is either done by updating the parameters of the model (model adaptation) using inputs from the target domain or by modifying the inputs themselves (input adaptation). However, methods that modify the model suffer from the issue of compounding noisy updates whereas methods that modify the input need to adapt to every new data point from scratch while also struggling with certain domain shifts. We introduce an approach that leverages a pre-trained diffusion model to project the target domain images closer to the source domain and iteratively updates the model via pseudo-label ensembling. Our method combines the advantages of model and input adaptations while mitigating their shortcomings. Our experiments on CIFAR-10C demonstrate the superiority of our approach, outperforming the strongest baseline by an average of 1.7% across 15 diverse corruptions and surpassing the strongest input adaptation baseline by an average of 18%.
翻訳日:2023-12-01 18:50:46 公開日:2023-11-29
# ALSTER:オンライン3Dセマンティック再構築の専門家

ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction ( http://arxiv.org/abs/2311.18068v1 )

ライセンス: Link先を確認
Silvan Weder, Francis Engelmann, Johannes L. Sch\"onberger, Akihito Seki, Marc Pollefeys, Martin R. Oswald(参考訳) rgb-dフレームのストリームから3dセマンティックマップを漸進的に再構築するオンライン3dセマンティックセグメンテーション手法を提案する。 オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイム制約のあるシナリオに直接適用できます。 オンライン手法の本質的な課題を克服するために、主な貢献は2つある。 まず、入力されたRGB-Dビデオストリームから情報を効果的に抽出するために、3次元のフレームごとの幾何とセマンティックラベルを共同で推定する。 このアプローチの重要な焦点は、2d入力とローカル3dドメインの両方で意味的エンティティを推論し、空間的コンテキストとネットワークアーキテクチャの違いを活用することである。 本手法は市販セグメンテーションネットワークを用いて2次元特徴量を予測する。 抽出された2d特徴を軽量な3dネットワークにより洗練し、局所的な3d構造についての推論を可能にする。 第2に、入力されたRGB-Dフレームの無限ストリームを効率的に処理するために、2D、3D、過去の情報を学習方法で活用することにより、インクリメンタルなシーン更新を予測する時間的専門家として機能する。 これらの更新はグローバルなシーン表現に統合される。 これらの主な貢献により,実時間制約のあるシナリオを可能にし,新たな測定で定義された局所領域でのみシーンを処理し,更新することにより任意のシーンサイズにスケールすることができる。 実験では, ローカルで純粋に運用されている既存のオンライン手法と比較して, 結果が向上し, 補完的な情報ソースが性能を向上させることを示す。 我々は、異なるアーキテクチャの利点とアルゴリズム設計決定に関する徹底的なアブレーション研究を提供する。 提案手法は,ScanNetベンチマークとSceneNNデータセットの競合結果を得る。

We propose an online 3D semantic segmentation method that incrementally reconstructs a 3D semantic map from a stream of RGB-D frames. Unlike offline methods, ours is directly applicable to scenarios with real-time constraints, such as robotics or mixed reality. To overcome the inherent challenges of online methods, we make two main contributions. First, to effectively extract information from the input RGB-D video stream, we jointly estimate geometry and semantic labels per frame in 3D. A key focus of our approach is to reason about semantic entities both in the 2D input and the local 3D domain to leverage differences in spatial context and network architectures. Our method predicts 2D features using an off-the-shelf segmentation network. The extracted 2D features are refined by a lightweight 3D network to enable reasoning about the local 3D structure. Second, to efficiently deal with an infinite stream of input RGB-D frames, a subsequent network serves as a temporal expert predicting the incremental scene updates by leveraging 2D, 3D, and past information in a learned manner. These updates are then integrated into a global scene representation. Using these main contributions, our method can enable scenarios with real-time constraints and can scale to arbitrary scene sizes by processing and updating the scene only in a local region defined by the new measurement. Our experiments demonstrate improved results compared to existing online methods that purely operate in local regions and show that complementary sources of information can boost the performance. We provide a thorough ablation study on the benefits of different architectural as well as algorithmic design decisions. Our method yields competitive results on the popular ScanNet benchmark and SceneNN dataset.
翻訳日:2023-12-01 18:50:26 公開日:2023-11-29
# GELDA:データセットの視覚的バイアスを明らかにするジェネレーティブ言語アノテーションフレームワーク

GELDA: A generative language annotation framework to reveal visual biases in datasets ( http://arxiv.org/abs/2311.18064v1 )

ライセンス: Link先を確認
Krish Kabra, Kathleen M. Lewis, Guha Balakrishnan(参考訳) バイアス分析は、コンピュータビジョンモデルのトレーニングと評価のための公正なデータセットを作成するプロセスにおける重要なステップである。 データセット分析のボトルネックは、(1)データセットドメインに関連する属性のリストを指定すること、(2)各イメージ属性ペアを分類すること、である。 第2段階は自動化の急速な進歩を遂げたが、第1段階は人間中心のままであり、実験者はドメイン内の属性のリストをコンパイルする必要がある。 しかし、実験者は、アノテーションの"盲点"に繋がる視野が限られており、結果として下流のデータセット分析の欠陥につながる可能性がある。 そこで本稿では,大規模生成言語モデル(LLM)を利用した,ドメインのさまざまな属性の提案とラベル付けを行う,ほぼ自動的なフレームワークであるGELDAを提案する。 GELDAは、ユーザーが定義したドメインキャプション(例えば、鳥の写真、リビングルームの写真)を取り、LCMを使用して階層的に属性を生成する。 さらに、GELDAはLLMを使用して視覚言語モデル(VLM)のどれかを決め、それぞれの属性を画像に分類する。 実際のデータセットの結果から、GELDAは正確で多様な視覚的属性の提案を生成し、クラスラベルと背景特徴の一致などのバイアスを明らかにすることができる。 合成データセットの結果から,GELDAはテキスト間拡散モデルと生成対向ネットワークのバイアスを評価するのに有用であることが示された。 全体として、GELDAは人間のアノテーションを置き換えるほど正確ではないが、人間が安価で低便で柔軟な方法でデータセットを分析するのに役立つ補完ツールとして機能することを示している。

Bias analysis is a crucial step in the process of creating fair datasets for training and evaluating computer vision models. The bottleneck in dataset analysis is annotation, which typically requires: (1) specifying a list of attributes relevant to the dataset domain, and (2) classifying each image-attribute pair. While the second step has made rapid progress in automation, the first has remained human-centered, requiring an experimenter to compile lists of in-domain attributes. However, an experimenter may have limited foresight leading to annotation "blind spots," which in turn can lead to flawed downstream dataset analyses. To combat this, we propose GELDA, a nearly automatic framework that leverages large generative language models (LLMs) to propose and label various attributes for a domain. GELDA takes a user-defined domain caption (e.g., "a photo of a bird," "a photo of a living room") and uses an LLM to hierarchically generate attributes. In addition, GELDA uses the LLM to decide which of a set of vision-language models (VLMs) to use to classify each attribute in images. Results on real datasets show that GELDA can generate accurate and diverse visual attribute suggestions, and uncover biases such as confounding between class labels and background features. Results on synthetic datasets demonstrate that GELDA can be used to evaluate the biases of text-to-image diffusion models and generative adversarial networks. Overall, we show that while GELDA is not accurate enough to replace human annotators, it can serve as a complementary tool to help humans analyze datasets in a cheap, low-effort, and flexible manner.
翻訳日:2023-12-01 18:49:58 公開日:2023-11-29
# TurkBERTweet: ソーシャルメディア分析のための高速で信頼性の高い大規模言語モデル

TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis ( http://arxiv.org/abs/2311.18063v1 )

ライセンス: Link先を確認
Ali Najafi and Onur Varol(参考訳) トルコ語は世界で最も人気のある言語の一つである。 Twitter、Instagram、Tiktokなどのソーシャルメディアプラットフォームでこの言葉を広く利用し、世界の政治における国の戦略的地位は、ソーシャルネットワークの研究者や業界にアピールしている。 このニーズに対処するために、トルコのソーシャルメディア向けに9億近いツイートを使って構築された最初の大規模な事前学習言語モデルであるturkishbertweetを紹介します。 このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkよりもTurbaBERTweetが軽くなり、推論時間が大幅に短縮される。 我々はRoBERTaモデルと同じアプローチでモデルを訓練し、感性分類とヘイトスピーチ検出という2つのテキスト分類タスクで評価した。 TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低く、大規模なデータセットを処理する上で大きな利点があることを示す。 TurkBERTweetがスケーラブルで費用効率の良いソリューションであることを実証するために、当社のモデルを、コストとパフォーマンスの観点から、商用のOpenAIソリューションと比較しました。 我々の研究の一環として、我々は、トルコのソーシャルメディアにおける将来の研究と応用を促進するために、MITライセンスの下で述べたタスクのために、TurrkBERTweetとLoRAアダプタを微調整した。 TurkeyBERTweetモデルは、https://github.com/ViralLab/TurkishBERTweetで利用可能です。

Turkish is one of the most popular languages in the world. Wide us of this language on social media platforms such as Twitter, Instagram, or Tiktok and strategic position of the country in the world politics makes it appealing for the social network researchers and industry. To address this need, we introduce TurkishBERTweet, the first large scale pre-trained language model for Turkish social media built using almost 900 million tweets. The model shares the same architecture as base BERT model with smaller input length, making TurkishBERTweet lighter than BERTurk and can have significantly lower inference time. We trained our model using the same approach for RoBERTa model and evaluated on two text classification tasks: Sentiment Classification and Hate Speech Detection. We demonstrate that TurkishBERTweet outperforms the other available alternatives on generalizability and its lower inference time gives significant advantage to process large-scale datasets. We also compared our models with the commercial OpenAI solutions in terms of cost and performance to demonstrate TurkishBERTweet is scalable and cost-effective solution. As part of our research, we released TurkishBERTweet and fine-tuned LoRA adapters for the mentioned tasks under the MIT License to facilitate future research and applications on Turkish social media. Our TurkishBERTweet model is available at: https://github.com/ViralLab/TurkishBERTweet
翻訳日:2023-12-01 18:49:30 公開日:2023-11-29
# エージェントを理解する - 行動説明に大規模言語モデルを活用する

Understanding Your Agent: Leveraging Large Language Models for Behavior Explanation ( http://arxiv.org/abs/2311.18062v1 )

ライセンス: Link先を確認
Xijia Zhang, Yue Guo, Simon Stepputtis, Katia Sycara, Joseph Campbell(参考訳) ロボットのようなインテリジェントエージェントは、現実の安全を重要視する環境でますます展開される。 これらのエージェントが決定の背後にある理由を人間に対して説明できることは不可欠であるが、その行動はしばしばディープニューラルネットワークのような解釈不能なモデルによって生み出される。 本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。 このようなモデルに対しては,まず行動表現を学習し,その後に,事前学習した大規模言語モデルとのユーザインタラクションを可能にしながら,最小限の幻覚で表現可能な説明を生成する。 本手法をマルチエージェント検索・救助環境において評価し,様々な動作を行うエージェントに対する説明の有効性を示す。 ユーザスタディと実証実験を通じて,提案手法は,人間のドメインエキスパートが生成する説明を,明確化や反事実クエリといった有用なインタラクションを可能にしながら生成することを示す。

Intelligent agents such as robots are increasingly deployed in real-world, safety-critical settings. It is vital that these agents are able to explain the reasoning behind their decisions to human counterparts; however, their behavior is often produced by uninterpretable models such as deep neural networks. We propose an approach to generate natural language explanations for an agent's behavior based only on observations of states and actions, thus making our method independent from the underlying model's representation. For such models, we first learn a behavior representation and subsequently use it to produce plausible explanations with minimal hallucination while affording user interaction with a pre-trained large language model. We evaluate our method in a multi-agent search-and-rescue environment and demonstrate the effectiveness of our explanations for agents executing various behaviors. Through user studies and empirical experiments, we show that our approach generates explanations as helpful as those produced by a human domain expert while enabling beneficial interactions such as clarification and counterfactual queries.
翻訳日:2023-12-01 18:49:08 公開日:2023-11-29
# TransNAS-TSAD:時系列異常検出における多目的ニューラルネットワーク探索のためのハーネス変換器

TransNAS-TSAD: Harnessing Transformers for Multi-Objective Neural Architecture Search in Time Series Anomaly Detection ( http://arxiv.org/abs/2311.18061v1 )

ライセンス: Link先を確認
Ijaz Ul Haq, Byung Suk Lee(参考訳) 様々な産業におけるリアルタイムデータ収集の急増は、単変量および多変量時系列データの両方において高度な異常検出の必要性を浮き彫りにした。 従来の手法は包括的ではあるが、そのようなデータの複雑な相互依存を捉えるのに苦労することが多い。 本稿では,ニューラルアーキテクチャサーチ(NAS)とトランスフォーマーアーキテクチャを相乗化する新しいフレームワークであるTransNAS-TSADを紹介し,NSGA-IIアルゴリズムの最適化によって拡張した。 この革新的なアプローチは、不変量時系列と多変量時系列の両方の複雑さを効果的に取り組み、計算効率と検出精度のバランスをとる。 評価の結果,TransNAS-TSADは従来の異常検出モデルを超え,多様なデータシナリオにおいて顕著な改善が見られた。 また,効率・精度・複雑度スコア(eacs)をモデルの性能評価のための新しい指標として提案し,精度と計算資源の重要バランスを強調する。 TransNAS-TSADは時系列異常検出の新しいベンチマークを設定し、複雑な現実世界のアプリケーションに汎用的で効率的なソリューションを提供する。 この研究は、この分野の将来の発展への道を開き、幅広い産業応用におけるその可能性を強調している。

The surge in real-time data collection across various industries has underscored the need for advanced anomaly detection in both univariate and multivariate time series data. Traditional methods, while comprehensive, often struggle to capture the complex interdependencies in such data. This paper introduces TransNAS-TSAD, a novel framework that synergizes transformer architecture with neural architecture search (NAS), enhanced through NSGA-II algorithm optimization. This innovative approach effectively tackles the complexities of both univariate and multivariate time series, balancing computational efficiency with detection accuracy. Our evaluation reveals that TransNAS-TSAD surpasses conventional anomaly detection models, demonstrating marked improvements in diverse data scenarios. We also propose the Efficiency-Accuracy-Complexity Score (EACS) as a new metric for assessing model performance, emphasizing the crucial balance between accuracy and computational resources. TransNAS-TSAD sets a new benchmark in time series anomaly detection, offering a versatile, efficient solution for complex real-world applications. This research paves the way for future developments in the field, highlighting its potential in a wide range of industry applications.
翻訳日:2023-12-01 18:48:51 公開日:2023-11-29
# インタラクティブなコード例を持つ非線形ソフトウェアドキュメンテーション

Non Linear Software Documentation with Interactive Code Examples ( http://arxiv.org/abs/2311.18057v1 )

ライセンス: Link先を確認
Mathieu Nassif and Martin P. Robillard(参考訳) ドキュメンテーションにより、技術開発者とそのユーザ間で知識を共有することができる。 しかし、質の高い文書を作成することは難しい。文書は個人に圧倒されることなく、多くの聴衆のニーズを満たす必要がある。 私たちはCasdocという新しいドキュメントフォーマットでこの問題に対処します。 Casdocドキュメントはプログラマのためのコード例を中心としたインタラクティブなリソースである。 コード要素の説明は、読者がニーズに応じて示すアノテーションとして提示される。 ソフトウェア設計コースの一環として,300人以上の参加者を対象に,Casdocの評価を行った。 参加者の大多数は、調査中にベースラインフォーマットではなくcasdocを採用した。 対話型文書は,読者の注意をそらすことなく,静的文書よりも多くの情報を含むことができる。 また、他のフォーマットに適用可能なcasdocの5つの側面に関する洞察を集め、オンラインドキュメントのナビゲータビリティを向上させるための5つのガイドラインを提案しました。

Documentation enables sharing knowledge between the developers of a technology and its users. Creating quality documents, however, is challenging: Documents must satisfy the needs of a large audience without being overwhelming for individuals. We address this challenge with a new document format, named Casdoc. Casdoc documents are interactive resources centered around code examples for programmers. Explanations of the code elements are presented as annotations that the readers reveal based on their needs. We evaluated Casdoc in a field study with over 300 participants who used 126 documents as part of a software design course. The majority of participants adopted Casdoc instead of a baseline format during the study. We observed that interactive documents can contain more information than static documents without being distracting to readers. We also gathered insights into five aspects of Casdoc that can be applied to other formats, and propose five guidelines to improve navigability in online documents.
翻訳日:2023-12-01 18:48:30 公開日:2023-11-29
# あなたはそれを書かなかった! マシン生成テキスト識別のためのサンプリングに基づく透かし法

I Know You Did Not Write That! A Sampling Based Watermarking Method for Identifying Machine Generated Text ( http://arxiv.org/abs/2311.18054v1 )

ライセンス: Link先を確認
Kaan Efe Kele\c{s}, \"Omer Kaan G\"urb\"uz, Mucahid Kutlu(参考訳) 大量誤情報や盗作のような大規模言語モデルの潜在的な害は、機械で生成されたテキストを検出する信頼できる方法が存在する場合、部分的に軽減できる。 本稿では,機械生成テキストを検出する新しい透かし手法を提案する。 提案手法は, 生成したテキストにユニークなパターンを組み込んで, コンテンツの一貫性と自然性を保ちながら, アルゴリズムで識別可能な個別のマーカーを格納する。 具体的には、検出フェーズ中にトークン選択をトレース可能な方法でトークンサンプリングプロセスに介入する。 本研究では,透かしがテキスト品質にどのように影響するかを示し,提案手法と最先端の透かし手法を比較した。 本研究では,透かしと非透かしを区別し,テキスト品質を維持しつつ高い検出率を達成するための透かし方式の有効性を示す。

Potential harms of Large Language Models such as mass misinformation and plagiarism can be partially mitigated if there exists a reliable way to detect machine generated text. In this paper, we propose a new watermarking method to detect machine-generated texts. Our method embeds a unique pattern within the generated text, ensuring that while the content remains coherent and natural to human readers, it carries distinct markers that can be identified algorithmically. Specifically, we intervene with the token sampling process in a way which enables us to trace back our token choices during the detection phase. We show how watermarking affects textual quality and compare our proposed method with a state-of-the-art watermarking method in terms of robustness and detectability. Through extensive experiments, we demonstrate the effectiveness of our watermarking scheme in distinguishing between watermarked and non-watermarked text, achieving high detection rates while maintaining textual quality.
翻訳日:2023-12-01 18:48:17 公開日:2023-11-29
# 磁場によるかなり良好な分数再生:理論と例

Pretty good fractional revival via magnetic fields: theory and examples ( http://arxiv.org/abs/2311.18143v1 )

ライセンス: Link先を確認
Whitney Drazen, Mark Kempton, Gabor Lippner(参考訳) グラフの任意のサイズの部分集合において、任意のサイズの部分集合の分数コスペクトル性の理論を含む、かなり良い量子分数復活の理論を開発する。 この理論を用いて磁場がかなり良好な分数再生を誘導できる条件を与え、いくつかの例を示す。

We develop the theory of pretty good quantum fractional revival in arbitrary sized subsets of a graph, including the theory for fractional cospectrality of subsets of arbitrary size. We use this theory to give conditions under which a magnetic field can induce pretty good fractional revival, and give several examples.
翻訳日:2023-12-01 18:42:02 公開日:2023-11-29
# ROBBIE:大規模生成言語モデルのロバストバイアス評価

ROBBIE: Robust Bias Evaluation of Large Generative Language Models ( http://arxiv.org/abs/2311.18140v1 )

ライセンス: Link先を確認
David Esiobu, Xiaoqing Tan, Saghar Hosseini, Megan Ung, Yuchen Zhang, Jude Fernandes, Jane Dwivedi-Yu, Eleonora Presani, Adina Williams, Eric Michael Smith(参考訳) 生成型大規模言語モデル(llm)がより高性能で普及するにつれ、私たちはその公平性を測定し改善するための包括的なツールを開発する必要があります。 異なるプロンプトベースのデータセットは、複数のテキストドメインと人口統計学的軸にわたる社会的バイアスを測定するために使用することができる。 本研究の焦点は次の2つである:(1)ベンチマーク:12の人口動態軸と5つの生成LDMの家系にわたる6つの異なるプロンプトベースのバイアスと毒性の比較。 これら6つのメトリクスのうち、AdvPromptSetとHollisticBiasRは、論文で提案された新しいデータセットである。 これらのベンチマークを比較することで、比較モデルのバイアスと毒性に関する洞察が得られる。 そこで我々は, LLM事前学習コーパスにおける人口統計学用語の頻度とモデルバイアスとの関連性を検討する。 2)緩和:我々は,3つのバイアス/毒性緩和技術が測定群全体でどのように機能するかを包括的に検討する。 ROBBIEは、潜在的な害を計測するだけでなく、データを特徴付け、一度見つけた害を軽減し、トレードオフのバランスをとることでそれらがどのように起こるかを理解する必要があることを強調して、モデルをデプロイしながら実践者に洞察を提供することを目指している。 我々は、将来のLCMにおけるバイアスのより広範な測定を促進するために、分析コードをオープンソース化する。

As generative large language models (LLMs) grow more performant and prevalent, we must develop comprehensive enough tools to measure and improve their fairness. Different prompt-based datasets can be used to measure social bias across multiple text domains and demographic axes, meaning that testing LLMs on more datasets can potentially help us characterize their biases more fully, and better ensure equal and equitable treatment of marginalized demographic groups. In this work, our focus is two-fold: (1) Benchmarking: a comparison of 6 different prompt-based bias and toxicity metrics across 12 demographic axes and 5 families of generative LLMs. Out of those 6 metrics, AdvPromptSet and HolisticBiasR are novel datasets proposed in the paper. The comparison of those benchmarks gives us insights about the bias and toxicity of the compared models. Therefore, we explore the frequency of demographic terms in common LLM pre-training corpora and how this may relate to model biases. (2) Mitigation: we conduct a comprehensive study of how well 3 bias/toxicity mitigation techniques perform across our suite of measurements. ROBBIE aims to provide insights for practitioners while deploying a model, emphasizing the need to not only measure potential harms, but also understand how they arise by characterizing the data, mitigate harms once found, and balance any trade-offs. We open-source our analysis code in hopes of encouraging broader measurements of bias in future LLMs.
翻訳日:2023-12-01 18:41:56 公開日:2023-11-29
# シミュレーションによるアルゴリズムによる説得:生成AI時代の情報設計

Algorithmic Persuasion Through Simulation: Information Design in the Age of Generative AI ( http://arxiv.org/abs/2311.18138v1 )

ライセンス: Link先を確認
Keegan Harris, Nicole Immorlica, Brendan Lucier, Aleksandrs Slivkins(参考訳) 受信者の信念に関する限られた情報しか持たず、どのようにして受信者を説得できるのか。 生成AIが経済エージェントをシミュレートできることを示す研究によって動機づけられた私たちは、オラクルで情報デザインの研究を開始する。 送信者は、受信者の振る舞いをシミュレートすることによって、このオラクルに問い合わせることで、受信者についてもっと学ぶことができると仮定します。 汎用Large Language Models(LLMs)や問題固有の機械学習モデルといったAIモチベーション以外にも、顧客調査や少数のライブユーザへのクエリなど、別のモチベーションがある。 具体的には,受信者の信念に先立って送信者が第2の順序を持つベイズ的説得について検討する。 この事前を洗練するためにオラクルに一定数のクエリを送信した後、送信者は情報構造にコミットする。 メッセージを受け取ると、受信者は彼女の期待する効用を最大化するための支払い関連行動をとる。 我々は,このベイズ型説得ゲームにおいて,送信者の期待効用を最適化する多項式時間問合せアルゴリズムを設計する。 技術的貢献として、問い合わせが受信者の知識を定量化するために使用できる受信者の信念の空間の分割を形成することを示す。

How can an informed sender persuade a receiver, having only limited information about the receiver's beliefs? Motivated by research showing generative AI can simulate economic agents, we initiate the study of information design with an oracle. We assume the sender can learn more about the receiver by querying this oracle, e.g., by simulating the receiver's behavior. Aside from AI motivations such as general-purpose Large Language Models (LLMs) and problem-specific machine learning models, alternate motivations include customer surveys and querying a small pool of live users. Specifically, we study Bayesian Persuasion where the sender has a second-order prior over the receiver's beliefs. After a fixed number of queries to an oracle to refine this prior, the sender commits to an information structure. Upon receiving the message, the receiver takes a payoff-relevant action maximizing her expected utility given her posterior beliefs. We design polynomial-time querying algorithms that optimize the sender's expected utility in this Bayesian Persuasion game. As a technical contribution, we show that queries form partitions of the space of receiver beliefs that can be used to quantify the sender's knowledge.
翻訳日:2023-12-01 18:41:32 公開日:2023-11-29
# Trifecta: より深い前方ネットワークをトレーニングするための3つの簡単なテクニック

The Trifecta: Three simple techniques for training deeper Forward-Forward networks ( http://arxiv.org/abs/2311.18130v1 )

ライセンス: Link先を確認
Thomas Dooms, Ing Jyh Tsang, Jose Oramas(参考訳) 現代の機械学習モデルは、さまざまな非自明なタスクで人間より優れている。 しかし、モデルの複雑さが増すにつれて、かなりの量の電力を消費し、未発見のデータに対して効果的に一般化するのに苦労している。 モデルパラメータのサブセットを一度に更新することに焦点を当てたローカル学習は、これらの問題に対処するための有望なテクニックとして登場した。 近年,新しい局所学習アルゴリズムであるフォワードフォワード( forward-forward)が,その革新的学習アプローチによって広く注目を集めている。 残念ながら、そのアプリケーションはスケーラビリティの問題のために、より小さなデータセットに限定されている。 この目的のために,より深いネットワーク上でのフォワードフォワードアルゴリズムを大幅に改善する3つの単純な手法のコレクションであるThe Trifectaを提案する。 我々の実験は、我々のモデルが、単純なデータセットのトレーニング速度とテスト精度の両方において、同様に構造化されたバックプロパゲーションベースのモデルと同等であることを示した。 これは、レイヤごとにローカルに情報を提供する表現を学習し、アーキテクチャの深い層に伝播する際にその情報を保持する能力によって達成される。 これにより、CIFAR-10の精度は約84\%となり、元のFFアルゴリズムよりも顕著な改善(25\%)がなされた。 これらの結果は、バックプロパゲーションの真の競合であり、有望な研究手段としてのフォワードフォワードの可能性を強調している。

Modern machine learning models are able to outperform humans on a variety of non-trivial tasks. However, as the complexity of the models increases, they consume significant amounts of power and still struggle to generalize effectively to unseen data. Local learning, which focuses on updating subsets of a model's parameters at a time, has emerged as a promising technique to address these issues. Recently, a novel local learning algorithm, called Forward-Forward, has received widespread attention due to its innovative approach to learning. Unfortunately, its application has been limited to smaller datasets due to scalability issues. To this end, we propose The Trifecta, a collection of three simple techniques that synergize exceptionally well and drastically improve the Forward-Forward algorithm on deeper networks. Our experiments demonstrate that our models are on par with similarly structured, backpropagation-based models in both training speed and test accuracy on simple datasets. This is achieved by the ability to learn representations that are informative locally, on a layer-by-layer basis, and retain their informativeness when propagated to deeper layers in the architecture. This leads to around 84\% accuracy on CIFAR-10, a notable improvement (25\%) over the original FF algorithm. These results highlight the potential of Forward-Forward as a genuine competitor to backpropagation and as a promising research avenue.
翻訳日:2023-12-01 18:41:10 公開日:2023-11-29
# 資源制約不均質デバイスにおけるフェデレーション学習のための混合精度量子化

Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous Devices ( http://arxiv.org/abs/2311.18129v1 )

ライセンス: Link先を確認
Huancheng Chen and Haris Vikalo(参考訳) FLシステムは、しばしば量子化を利用して通信と計算のボトルネックと戦うが、これまでは固定精度の量子化方式に限られていた。 一方、深層学習モデルの異なる層にビット幅を割り当てる混合精度量子化(MPQ)の概念は、FL設定では未探索のままである。 資源不均一なFLシステムに混合精度量子化を導入する新しいFLアルゴリズムであるFedMPQを提案する。 具体的には、ビット幅制約を満たすように量子化された局所モデルは、性能劣化を伴わずに一部の層における精度の低下を促進する正規化項を含む目的関数を最適化して訓練される。 サーバはローカルモデルのアップデートを収集し、それらを完全精度モデルに分解し、グローバルモデルに集約する。 ローカルトレーニングの次のラウンドを初期化するために、サーバは前回のトレーニングで学んだ情報を頼りにして、異なるクライアントに配信されるモデルのビット幅割り当てをカスタマイズする。 いくつかのモデルアーキテクチャとiidおよび非id設定の異なるデータセットに関する広範なベンチマーク実験において、FedMPQは、固定精度量子化を利用するベースラインFLスキームよりも優れており、参加するデバイス上での計算オーバーヘッドはわずかである。

While federated learning (FL) systems often utilize quantization to battle communication and computational bottlenecks, they have heretofore been limited to deploying fixed-precision quantization schemes. Meanwhile, the concept of mixed-precision quantization (MPQ), where different layers of a deep learning model are assigned varying bit-width, remains unexplored in the FL settings. We present a novel FL algorithm, FedMPQ, which introduces mixed-precision quantization to resource-heterogeneous FL systems. Specifically, local models, quantized so as to satisfy bit-width constraint, are trained by optimizing an objective function that includes a regularization term which promotes reduction of precision in some of the layers without significant performance degradation. The server collects local model updates, de-quantizes them into full-precision models, and then aggregates them into a global model. To initialize the next round of local training, the server relies on the information learned in the previous training round to customize bit-width assignments of the models delivered to different clients. In extensive benchmarking experiments on several model architectures and different datasets in both iid and non-iid settings, FedMPQ outperformed the baseline FL schemes that utilize fixed-precision quantization while incurring only a minor computational overhead on the participating devices.
翻訳日:2023-12-01 18:40:48 公開日:2023-11-29
# 半Whittレジームにおけるマルチクラスキューの動的スケジューリング:高次元問題に対する計算的アプローチ

Dynamic Scheduling of a Multiclass Queue in the Halfin-Whitt Regime: A Computational Approach for High-Dimensional Problems ( http://arxiv.org/abs/2311.18128v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} Ata and Ebru Ka\c{s}{\i}karalar(参考訳) 我々は,システム管理者が利用可能なサーバを動的に顧客呼び出しに割り当てる電話センターのマルチクラス待ち行列モデルを検討する。 呼び出しは、サービス完了または顧客の放棄のいずれかで終了することができ、管理者は、保持コストと放棄コストを有限の地平線上で最小化する。 ハーディン=ウィット重交通体制に着目して拡散制御問題を近似し、Han et al. (2018) による以前の研究に基づいて、深層ニューラルネットワーク技術に大きく依存するそのような問題を解決するためのシミュレーションベースの計算手法を開発する。 この計算手法を用いて,従来の(事前限)コールセンタースケジューリング問題に対するポリシーを提案する。 最後に、このポリシーの性能を、利用可能なコールセンターデータに基づいてテスト問題を用いて評価する。 これまで検討されたテスト問題に対して、当社のポリシーは最良のベンチマークと同様に機能します。 さらに,本手法は,100以上の異なる顧客クラスを持つコールセンタに対して,少なくとも100次元まで計算可能となる。

We consider a multi-class queueing model of a telephone call center, in which a system manager dynamically allocates available servers to customer calls. Calls can terminate through either service completion or customer abandonment, and the manager strives to minimize the expected total of holding costs plus abandonment costs over a finite horizon. Focusing on the Halfin-Whitt heavy traffic regime, we derive an approximating diffusion control problem, and building on earlier work by Han et al. (2018), develop a simulation-based computational method for solution of such problems, one that relies heavily on deep neural network technology. Using this computational method, we propose a policy for the original (pre-limit) call center scheduling problem. Finally, the performance of this policy is assessed using test problems based on publicly available call center data. For the test problems considered so far, our policy does as well as the best benchmark we could find. Moreover, our method is computationally feasible at least up to dimension 100, that is, for call centers with 100 or more distinct customer classes.
翻訳日:2023-12-01 18:40:23 公開日:2023-11-29
# cs自己効力度レベルの異なる学生の足場コード作成におけるパーソンズ問題の利用効果の理解

Understanding the Effects of Using Parsons Problems to Scaffold Code Writing for Students with Varying CS Self-Efficacy Levels ( http://arxiv.org/abs/2311.18115v1 )

ライセンス: Link先を確認
Xinying Hou, Barbara J. Ericson, Xu Wang(参考訳) 入門プログラミングコースは、学生に独立してコードを書くことを教えることを目的としている。 しかし、実例の学習から自身のコード生成への移行は、学生、特にcsの自己効力率が低い学生にとって、しばしば困難でイライラする。 そこで我々は,CS自己効力のレベルが異なる学生を対象に,Parsons問題をコード記述の足場として利用することの影響を検討した。 パーソンズは、学生が正しい順序で混合コードブロックを配置するプログラミングタスクである。 学生にコード書き込みの専門知識が限られている課題について,大学生 (n=89) と授業間調査を行った。 学生はランダムに2つの条件のうちの1つに割り当てられた。 1つの条件の学生は足場のないコードを書き、もう1つの条件の学生は同等のパーソンズ問題の形で足場を提供する。 その結果,CS自己効力レベルが低い学生では,足場のない学生に比べて,足場を受講した学生は実践的パフォーマンスと実践的問題解決効率が有意に向上した。 さらに,実践中にパーソンズ問題を足場として与えた場合,csの自己効力が低い学生の方が解決しやすいことがわかった。 さらに,事前実践知識の高い学生は,parsonsの足場を効果的に活用する傾向が高かった。 本研究は,Parsons問題を利用した学生の筆記コード活動のメリットを示すものである。 また、生徒の現在の問題解決状況に基づいてパーソンズ問題をパーソンズに適応させ、パーソンズの足場体験を最適化することにも意味がある。

Introductory programming courses aim to teach students to write code independently. However, transitioning from studying worked examples to generating their own code is often difficult and frustrating for students, especially those with lower CS self-efficacy in general. Therefore, we investigated the impact of using Parsons problems as a code-writing scaffold for students with varying levels of CS self-efficacy. Parsons problems are programming tasks where students arrange mixed-up code blocks in the correct order. We conducted a between-subjects study with undergraduate students (N=89) on a topic where students have limited code-writing expertise. Students were randomly assigned to one of two conditions. Students in one condition practiced writing code without any scaffolding, while students in the other condition were provided with scaffolding in the form of an equivalent Parsons problem. We found that, for students with low CS self-efficacy levels, those who received scaffolding achieved significantly higher practice performance and in-practice problem-solving efficiency compared to those without any scaffolding. Furthermore, when given Parsons problems as scaffolding during practice, students with lower CS self-efficacy were more likely to solve them. In addition, students with higher pre-practice knowledge on the topic were more likely to effectively use the Parsons scaffolding. This study provides evidence for the benefits of using Parsons problems to scaffold students' write-code activities. It also has implications for optimizing the Parsons scaffolding experience for students, including providing personalized and adaptive Parsons problems based on the student's current problem-solving status.
翻訳日:2023-12-01 18:40:02 公開日:2023-11-29
# LTLfタスク仕様のための非決定的・確率的サービスの構成

Composition of Nondeterministic and Stochastic Services for LTLf Task Specifications ( http://arxiv.org/abs/2311.18114v1 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Marco Favorito, Luciana Silo(参考訳) 本稿では,有限トレース(LTLf)上での線形時間論理におけるタスク仕様を満たす動作を得るためのサービスの構成について検討する。 我々は、サービスが非決定論的で、ltlf仕様を正確に満たすことができる場合と、ltlf仕様の満足度を最大化し、同時にサービスの利用コストを最小化することに関心がある場合の問題を考察する。 そのために, LTLf合成, サービス構成 \`a la Roman Model, 反応性合成, およびMDP上での双方向レキソグラフィー最適化の手法を組み合わせる。 このフレームワークには、Smart ManufacturingやDigital Twinsなど、いくつかの興味深いアプリケーションがある。

In this paper, we study the composition of services so as to obtain runs satisfying a task specification in Linear Temporal Logic on finite traces (LTLf). We study the problem in the case services are nondeterministic and the LTLf specification can be exactly met, and in the case services are stochastic, where we are interested in maximizing the probability of satisfaction of the LTLf specification and, simultaneously, minimizing the utilization cost of the services. To do so, we combine techniques from LTLf synthesis, service composition \`a la Roman Model, reactive synthesis, and bi-objective lexicographic optimization on MDPs. This framework has several interesting applications, including Smart Manufacturing and Digital Twins.
翻訳日:2023-12-01 18:39:34 公開日:2023-11-29
# back to 3d: バックプロジェクションによる3dキーポイント検出

Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features ( http://arxiv.org/abs/2311.18113v1 )

ライセンス: Link先を確認
Thomas Wimmer, Peter Wonka, Maks Ovsjanikov(参考訳) 近年,データセットのサイズや計算資源の大幅な増加に伴い,nlpやビジョンタスクにおいて,いわゆる基盤モデルが普及している。 本研究では,3次元形状におけるキーポイント検出のための基礎モデルについて検討する。 キーポイント検出のユニークな特徴は、高い位置化精度を要求しながら意味的および幾何学的認識を必要とすることである。 この問題に対処するために,我々はまず,大規模な事前学習型2次元視覚モデルから3次元形状へのバックプロジェクト機能を提案する。 我々は,豊富な意味情報を含むロバストな3次元特徴と,異なる2次元基礎モデルから派生した複数の候補特徴を解析できることを示す。 第二に、キーポイント候補最適化モジュールを用いて、キーポイントの形状に対する平均的な分布を一致させ、バックプロジェクションされた特徴によってガイドされる。 結果として得られたアプローチは、KeyPointNetデータセット上の数ショットのキーポイント検出のための新しい技術状態を達成する。

With the immense growth of dataset sizes and computing resources in recent years, so-called foundation models have become popular in NLP and vision tasks. In this work, we propose to explore foundation models for the task of keypoint detection on 3D shapes. A unique characteristic of keypoint detection is that it requires semantic and geometric awareness while demanding high localization accuracy. To address this problem, we propose, first, to back-project features from large pre-trained 2D vision models onto 3D shapes and employ them for this task. We show that we obtain robust 3D features that contain rich semantic information and analyze multiple candidate features stemming from different 2D foundation models. Second, we employ a keypoint candidate optimization module which aims to match the average observed distribution of keypoints on the shape and is guided by the back-projected features. The resulting approach achieves a new state of the art for few-shot keypoint detection on the KeyPointNet dataset, almost doubling the performance of the previous best methods.
翻訳日:2023-12-01 18:39:20 公開日:2023-11-29
# 対応問題を回避する混合モデルに基づく物体姿勢推定のための確率幾何学的枠組み

A Stochastic-Geometrical Framework for Object Pose Estimation based on Mixture Models Avoiding the Correspondence Problem ( http://arxiv.org/abs/2311.18107v1 )

ライセンス: Link先を確認
Wolfgang Hoegele(参考訳) 背景: 剛体物体の姿勢推定は、光学メロロジーとコンピュータビジョンの実践的な課題である。 本稿では,複数の特徴点を観測し,対象ポーズ推定のための新しい確率幾何学的モデリングフレームワークを提案する。 方法: この確率幾何学的フレームワークは,対象空間における特徴点密度と実測値の解釈に混合モデルを利用する。 このアプローチの直接的な利点は、個々の特徴対応を解消し、マルチビューアプリケーションにおける正しい確率的依存関係を取り入れることである。 まず、一般的なモデリングフレームワークを提示し、第2に、ポーズ推定のための一般的なアルゴリズムを導出し、第3に、カメラ設定とラテラレーション設定のための2つのサンプルモデルを示す。 結果: 数値実験により, 測定精度, 物体変形, 強度測定ノイズなど, 3つの異なる観測システムに対するシミュレーションシナリオを4つ検討し, 本モデルと一般アルゴリズムの有効性を検証した。 混合モデルに基づくポーズ推定の確率的モデル化は、精度とロバストなポーズ推定につながると結論付けることができる。

Background: Pose estimation of rigid objects is a practical challenge in optical metrology and computer vision. In this paper a novel stochastic-geometrical modeling framework for object pose estimation is presented based on observing multiple feature points. Methods: This stochastic-geometrical framework utilizes mixture models for the feature point densities in object space as well as for interpreting real measurements. Direct advantages of this approach are the avoidance to resolve individual feature correspondences and to incorporate correct stochastic dependencies in multi-view applications. First, the general modeling framework is presented, second, a general algorithm for pose estimation is derived, and third, two example models for a camera setup as well as a lateration setup are presented. Results: The numerical experiments show the effectiveness of this modeling and general algorithm by investigating four simulation scenarios for three different observation systems, including the dependence on measurement resolution, object deformations as well as strong measurement noise. It can be concluded that the probabilistic modeling of pose estimation based on mixture models can lead to accurate and robust pose estimations.
翻訳日:2023-12-01 18:38:59 公開日:2023-11-29
# 効率的な学習画像圧縮のためのコーナーからセンターまでの長距離コンテキストモデル

Corner-to-Center Long-range Context Model for Efficient Learned Image Compression ( http://arxiv.org/abs/2311.18103v1 )

ライセンス: Link先を確認
Yang Sui, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Bo Yuan, Zhenzhong Chen(参考訳) 学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係を捉える上で重要な役割を果たす。 シリアル自己回帰的文脈モデルから生じる復号時間を削減するため、並列コンテキストモデルは復号フェーズで2つのパスしか必要とせず、現実のシナリオでの効率的な画像圧縮を容易にする代替として提案されている。 しかし、不完全なカジュアルコンテキストのために性能劣化が発生する。 この問題に対処するために,既存の並列コンテキストモデルで観測される性能劣化の詳細な分析を行い,文脈予測とデコードに使用される情報量と品質の2つの側面に焦点を当てた。 このような分析に基づいて、文脈予測と潜時予測を強化し、レート歪曲性能を向上させるように設計されたtextbf{Corner-to-Center transformer-based Context Model (C$^3$M)}を提案する。 具体的には、対数に基づく予測の順序を利用して、より多くの文脈特徴を順調に予測する。 さらに,解析および合成変換における受容領域を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM)を用いて,異なるチャネルに異なるウィンドウ形状を割り当てることで,長距離意味情報をキャプチャする。 大規模実験により,提案手法の有効性が示され,最先端並列手法よりも優れていることがわかった。 最後に,主観的分析により,トランスベース画像圧縮における詳細表現の改善が有望な方向であることが示唆された。

In the framework of learned image compression, the context model plays a pivotal role in capturing the dependencies among latent representations. To reduce the decoding time resulting from the serial autoregressive context model, the parallel context model has been proposed as an alternative that necessitates only two passes during the decoding phase, thus facilitating efficient image compression in real-world scenarios. However, performance degradation occurs due to its incomplete casual context. To tackle this issue, we conduct an in-depth analysis of the performance degradation observed in existing parallel context models, focusing on two aspects: the Quantity and Quality of information utilized for context prediction and decoding. Based on such analysis, we propose the \textbf{Corner-to-Center transformer-based Context Model (C$^3$M)} designed to enhance context and latent predictions and improve rate-distortion performance. Specifically, we leverage the logarithmic-based prediction order to predict more context features from corner to center progressively. In addition, to enlarge the receptive field in the analysis and synthesis transformation, we use the Long-range Crossing Attention Module (LCAM) in the encoder/decoder to capture the long-range semantic information by assigning the different window shapes in different channels. Extensive experimental evaluations show that the proposed method is effective and outperforms the state-of-the-art parallel methods. Finally, according to the subjective analysis, we suggest that improving the detailed representation in transformer-based image compression is a promising direction to be explored.
翻訳日:2023-12-01 18:38:42 公開日:2023-11-29
# PatchBMI-Net:BMI予測のための軽量顔パッチベースアンサンブル

PatchBMI-Net: Lightweight Facial Patch-based Ensemble for BMI Prediction ( http://arxiv.org/abs/2311.18102v1 )

ライセンス: Link先を確認
Parshuram N. Aarotale, Twyla Hill, Ajita Rattani(参考訳) 米国だけで9330万人の成人に影響を及ぼす肥満に関する不安な傾向のため、BMI(Body Mass Index)と体重計は様々な健康モニタリングアプリケーションに多大な関心を寄せている。 その結果、健康な体重モニタリングのための自己診断型顔画像に基づくBMI予測法が提案されている。 これらの手法は主に、顔画像からのBMI予測に、VGG19、ResNet50、Efficient-NetB0などの畳み込みニューラルネットワーク(CNN)ベースの回帰ベースラインを使用している。 しかし、これらの重み付きCNNモデルの高い計算要求は、リソース制限されたモバイルデバイスへの展開を制限するため、スマートフォンによる重み監視の妨げとなる。 本稿では,BMI予測のための軽量な顔パッチベースのアンサンブル(PatchBMI-Net)を開発し,スマートフォンによる展開と重量モニタリングを容易にすることを目的とする。 BMIアノテートされた顔画像データセットの大規模な実験により、提案したPatchBMI-Netモデルでは、[3.58, 6.51]の範囲で平均絶対誤差(MAE)が得られることが示唆された。 顔画像からBMI予測をトレーニングしたResNet-50やXceptionなどの重み付きモデルとの相互比較において,提案するPatchBMI-Netでは,モデルサイズが約5.4倍,平均推論時間が約3倍のMAEが得られた。 したがって、スマートフォンアプリケーションを使用したオンデバイスデプロイメントと重み監視において、パフォーマンス効率と低レイテンシを示すことができる。

Due to an alarming trend related to obesity affecting 93.3 million adults in the United States alone, body mass index (BMI) and body weight have drawn significant interest in various health monitoring applications. Consequently, several studies have proposed self-diagnostic facial image-based BMI prediction methods for healthy weight monitoring. These methods have mostly used convolutional neural network (CNN) based regression baselines, such as VGG19, ResNet50, and Efficient-NetB0, for BMI prediction from facial images. However, the high computational requirement of these heavy-weight CNN models limits their deployment to resource-constrained mobile devices, thus deterring weight monitoring using smartphones. This paper aims to develop a lightweight facial patch-based ensemble (PatchBMI-Net) for BMI prediction to facilitate the deployment and weight monitoring using smartphones. Extensive experiments on BMI-annotated facial image datasets suggest that our proposed PatchBMI-Net model can obtain Mean Absolute Error (MAE) in the range [3.58, 6.51] with a size of about 3.3 million parameters. On cross-comparison with heavyweight models, such as ResNet-50 and Xception, trained for BMI prediction from facial images, our proposed PatchBMI-Net obtains equivalent MAE along with the model size reduction of about 5.4x and the average inference time reduction of about 3x when deployed on Apple-14 smartphone. Thus, demonstrating performance efficiency as well as low latency for on-device deployment and weight monitoring using smartphone applications.
翻訳日:2023-12-01 18:38:13 公開日:2023-11-29
# ノイズ無線チャネル上での協調推論のための適応的早期脱出法

Adaptive Early Exiting for Collaborative Inference over Noisy Wireless Channels ( http://arxiv.org/abs/2311.18098v1 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) コラボレーション推論システムは、無線ネットワークエッジにディープニューラルネットワーク(DNN)をデプロイする新たなソリューションの1つである。 彼らの主なアイデアは、DNNを2つの部分に分割することであり、第1の部分は、限られた計算能力を持つエッジデバイスで確実に実行されるほど浅く、第2の部分は高い計算能力を持つエッジサーバで実行される。 このようなシステムの主な利点は、DNNの入力が圧縮され、後続の浅い部分の層がタスクに必要な情報のみを抽出することである。 その結果、生の入力サンプルを送信することに比べ、かなりの通信の節約が可能となる。 本研究では,あるサンプルのエッジデバイスにおいて,部分処理されたデータをエッジサーバに送信することなく,推論結果を得ることが可能な協調的推論の文脈において,早期の退出について検討する。 システムの中心となるのがtd(transmission-decision)機構で、早期出口からの情報と無線チャネルの状態とを考慮し、早期出口予測を維持するか、エッジサーバに送信するかを判断し、さらなる処理を行う。 本稿では,様々なtd機構を評価し,無線エッジ上の画像分類タスクにおいて,早期エグジットの適正な活用が性能向上と通信の大幅な節約をもたらすことを示す。

Collaborative inference systems are one of the emerging solutions for deploying deep neural networks (DNNs) at the wireless network edge. Their main idea is to divide a DNN into two parts, where the first is shallow enough to be reliably executed at edge devices of limited computational power, while the second part is executed at an edge server with higher computational capabilities. The main advantage of such systems is that the input of the DNN gets compressed as the subsequent layers of the shallow part extract only the information necessary for the task. As a result, significant communication savings can be achieved compared to transmitting raw input samples. In this work, we study early exiting in the context of collaborative inference, which allows obtaining inference results at the edge device for certain samples, without the need to transmit the partially processed data to the edge server at all, leading to further communication savings. The central part of our system is the transmission-decision (TD) mechanism, which, given the information from the early exit, and the wireless channel conditions, decides whether to keep the early exit prediction or transmit the data to the edge server for further processing. In this paper, we evaluate various TD mechanisms and show experimentally, that for an image classification task over the wireless edge, proper utilization of early exits can provide both performance gains and significant communication savings.
翻訳日:2023-12-01 18:37:43 公開日:2023-11-29
# 自律型望遠鏡:オフライン強化学習による天文観測キャンペーンの自律スケジューリング

Self-Driving Telescopes: Autonomous Scheduling of Astronomical Observation Campaigns with Offline Reinforcement Learning ( http://arxiv.org/abs/2311.18094v1 )

ライセンス: Link先を確認
Franco Terranova, M. Voetberg, Brian Nord, Amanda Pagul(参考訳) 現代の天文学実験は、銀河進化の研究から宇宙加速まで、複数の科学的目標を達成するように設計されている。 これらの目標には、様々な種類の夜空物体のデータが必要であり、それぞれが特定の観測ニーズを持っている。 これらの観測ニーズは、典型的には互いに強い競合関係にある。 これは未解決の多目的最適化問題を引き起こす。 自律システムの訓練に有用なパラダイムとしての強化学習(rl)の有効性は十分に評価されており、天文学キャンペーンのスケジューリングを最適化できる自律型望遠鏡の基礎となるかもしれない。 望遠鏡と天球上の空の離散的な位置の相互作用の例を含むシミュレーションデータセットは、RLモデルを訓練してこれらの場所からデータを順次収集し、収集されたデータの質の尺度として累積報酬を最大化することができる。 我々は、ストーンエッジ観測所(SEO)の観測スケジュールを最適化するために、シミュレーションデータを用いてディープQネットワーク(DQN)の複数の実装をテスト、比較する。 DQNの複数の改善とデータセットの調整を組み合わせることで、DQNはテストセットの各状態における達成可能な最大報酬の87%以上-6%の報酬を得られることを示す。 これは、特定の天文学的課題に対するオフラインRLアルゴリズムの最初の比較であり、そのような比較と評価を行うための最初のオープンソースフレームワークである。

Modern astronomical experiments are designed to achieve multiple scientific goals, from studies of galaxy evolution to cosmic acceleration. These goals require data of many different classes of night-sky objects, each of which has a particular set of observational needs. These observational needs are typically in strong competition with one another. This poses a challenging multi-objective optimization problem that remains unsolved. The effectiveness of Reinforcement Learning (RL) as a valuable paradigm for training autonomous systems has been well-demonstrated, and it may provide the basis for self-driving telescopes capable of optimizing the scheduling for astronomy campaigns. Simulated datasets containing examples of interactions between a telescope and a discrete set of sky locations on the celestial sphere can be used to train an RL model to sequentially gather data from these several locations to maximize a cumulative reward as a measure of the quality of the data gathered. We use simulated data to test and compare multiple implementations of a Deep Q-Network (DQN) for the task of optimizing the schedule of observations from the Stone Edge Observatory (SEO). We combine multiple improvements on the DQN and adjustments to the dataset, showing that DQNs can achieve an average reward of 87%+-6% of the maximum achievable reward in each state on the test set. This is the first comparison of offline RL algorithms for a particular astronomical challenge and the first open-source framework for performing such a comparison and assessment task.
翻訳日:2023-12-01 18:37:20 公開日:2023-11-29
# Fleming-Viotはバレンプラトーの存在下で変分量子アルゴリズムを高速化する

Fleming-Viot helps speed up variational quantum algorithms in the presence of barren plateaus ( http://arxiv.org/abs/2311.18090v1 )

ライセンス: Link先を確認
Daniel Mastropietro (1), Georgios Korpas (2 and 3), Vyacheslav Kungurtsev (3), Jakub Marecek (3) ((1) CNRS-IRIT, Universit\'e de Toulouse INP, Toulouse, France, (2) HSBC Lab, Innovation & Ventures, HSBC, London, United Kingdom, (3) Department of Computer Science, Czech Technical University in Prague, Czech Republic)(参考訳) Fleming-Viot 確率過程に着想を得て,与えられた変分形式の学習パラメータの古典的ステップの並列実装から恩恵を受ける変分量子アルゴリズムの変分を提案し,バレンプラトーと呼ばれるパラメータ空間の領域を避けることを目的とした。 フレミング・ヴィオットの伝統では、並列探索は粒子と呼ばれる。 提案手法では, 勾配が小さすぎたりうるさかったりした領域に遭遇すると, フレミング・ヴィオット粒子による探索が停止される。 停止された粒子は、パラメータ空間の他のより興味深い場所に再生成され、不毛高原から遠ざかる探索をバイアスした後、探索を継続する。 理論的な観点からフレミング・ヴィオット粒子の挙動を解析し, 合成問題およびグラフ上のマックスカット問題に対する数値実験を基礎として, 大規模不毛高原が存在する場合の平原バニラ変種よりも優れた性能を示す。

Inspired by the Fleming-Viot stochastic process, we propose a variant of Variational Quantum Algorithms benefitting from a parallel implementation of the classical step of learning parameters of a given variational form, with the aim of avoiding regions of the parameter space known as barren plateaus. In the Fleming-Viot tradition, parallel searches are called particles. In our proposed approach, the search by a Fleming-Viot particle is stopped when it encounters a region where the gradient is too small or noisy. The stopped particle continues the search after being regenerated at another potentially more interesting location of the parameter space, biasing the exploration away from barren plateaus. We analyze the behavior of the Fleming-Viot particles from a theoretical standpoint, backed up with numerical experiments on synthetic problems as well as on selected instances of the Max-Cut problem on graphs, which show that our method performs better than plain-vanilla variants when there are large barren plateaus.
翻訳日:2023-12-01 18:36:56 公開日:2023-11-29
# マルチホップ質問応答を改善する不確実性ガイド付きグローバルメモリ

Uncertainty Guided Global Memory Improves Multi-Hop Question Answering ( http://arxiv.org/abs/2311.18151v1 )

ライセンス: Link先を確認
Alsu Sagirova, Mikhail Burtsev(参考訳) トランスフォーマーは多くの自然言語処理タスク、特にマルチホップ質問応答(MHQA)のゴールドスタンダードになっている。 このタスクには、長いドキュメントの処理と、その複数の部分に対する推論が含まれる。 MHQAアプローチの展望は、2つの主要なカテゴリに分類される。 最初のグループは、証拠を抽出することに焦点を当て、QAモデルのコンテキストを予測された事実に制限する。 逆に、第2群は、マルチホップ推論を容易にするために、長入力符号化モデルの注意機構に依存する。 しかし、注意に基づくトークン表現には、推論ステップを接続するためのグローバルなコンテキスト情報がない。 これらの問題に対処するために、まず文書全体からメモリに関連情報を収集し、それをローカルコンテキストと組み合わせてタスクを解決する2段階の手法であるGEMFormerを提案する。 実験結果から, メモリ拡張入力を用いた事前学習モデルの微調整により, ベースラインと比較して, 3つのMHQAデータセットの性能が向上することがわかった。 また,グローバルな明示記憶には,正しい回答に必要な事実を裏付ける情報が含まれていることがわかった。

Transformers have become the gold standard for many natural language processing tasks and, in particular, for multi-hop question answering (MHQA). This task includes processing a long document and reasoning over the multiple parts of it. The landscape of MHQA approaches can be classified into two primary categories. The first group focuses on extracting supporting evidence, thereby constraining the QA model's context to predicted facts. Conversely, the second group relies on the attention mechanism of the long input encoding model to facilitate multi-hop reasoning. However, attention-based token representations lack explicit global contextual information to connect reasoning steps. To address these issues, we propose GEMFormer, a two-stage method that first collects relevant information over the entire document to the memory and then combines it with local context to solve the task. Our experimental results show that fine-tuning a pre-trained model with memory-augmented input, including the most certain global elements, improves the model's performance on three MHQA datasets compared to the baseline. We also found that the global explicit memory contains information from supporting facts required for the correct answer.
翻訳日:2023-12-01 18:26:16 公開日:2023-11-29
# STF : 軌道予測のための時空間核融合

STF: Spatial Temporal Fusion for Trajectory Prediction ( http://arxiv.org/abs/2311.18149v1 )

ライセンス: Link先を確認
Pengqian Han, Partha Roop, Jiamou Liu, Tianzhe Bao, Yifei Wang(参考訳) 軌道予測は,自動車や歩行者の将来の軌道を,その歴史的位置に基づいて短時間で予測することを目的とした課題である。 主な理由は、軌道は空間情報や時間情報を含む複雑なデータの一種であり、正確な予測には不可欠であるからである。 直感的には、モデルがキャプチャできる情報が増えるほど、将来の軌道はより正確に予測できる。 しかし,従来の深層学習法に基づく研究は,空間情報と時間情報を別々に処理し,空間情報の取得が不十分であった。 したがって、車両のインタラクションにおいて、情報をより完全かつ効果的に捉えることが重要である。 本研究では,空間エッジと時間エッジを併用した3次元統合グラフを提案する。 これに基づいて,クロスタイムインタラクション情報を考慮した統合3dグラフを提案する。 具体的には,多層認識(MLP)とグラフ注意(GAT)を含む時空間融合(STF)モデルを設計し,空間的・時間的情報履歴の軌跡を3次元グラフ上で同時に捉える。 ApolloScape Trajectory Datasets 実験により,提案した STF は,特に長期水平軌道予測において,いくつかのベースライン法よりも優れた性能を示した。

Trajectory prediction is a challenging task that aims to predict the future trajectory of vehicles or pedestrians over a short time horizon based on their historical positions. The main reason is that the trajectory is a kind of complex data, including spatial and temporal information, which is crucial for accurate prediction. Intuitively, the more information the model can capture, the more precise the future trajectory can be predicted. However, previous works based on deep learning methods processed spatial and temporal information separately, leading to inadequate spatial information capture, which means they failed to capture the complete spatial information. Therefore, it is of significance to capture information more fully and effectively on vehicle interactions. In this study, we introduced an integrated 3D graph that incorporates both spatial and temporal edges. Based on this, we proposed the integrated 3D graph, which considers the cross-time interaction information. In specific, we design a Spatial-Temporal Fusion (STF) model including Multi-layer perceptions (MLP) and Graph Attention (GAT) to capture the spatial and temporal information historical trajectories simultaneously on the 3D graph. Our experiment on the ApolloScape Trajectory Datasets shows that the proposed STF outperforms several baseline methods, especially on the long-time-horizon trajectory prediction.
翻訳日:2023-12-01 18:25:58 公開日:2023-11-29
# DisCGen: 談話インフォームド音声生成のためのフレームワーク

DisCGen: A Framework for Discourse-Informed Counterspeech Generation ( http://arxiv.org/abs/2311.18147v1 )

ライセンス: Link先を確認
Sabit Hassan, Malihe Alikhani(参考訳) counterspeechは、ソーシャルメディア上で憎しみのあるコンテンツと戦う効果的な方法である。 自動対音声生成はこのプロセスに役立つ。 しかし、これらの要因が有効性と適切性の両方に影響を与えるのは、トピック、オーディエンス、センシティブといった文脈においてのみである。 本研究では,対談と憎しみのあるコメントを結びつける推論的リンクを研究するために,談話理論に基づく新しい枠組みを提案する。 この枠組みの中で、我々は次のように提案する。 一 談話の枠組みから派生した対訳の分類、及び 二 文脈的接地音声を生成するための言論インフォームド・プロンプト戦略 このフレームワークの構築と検証を行うため,Reddit から現在地にある対音声データセットを収集するプロセスを提案する。 このプロセスを使用して、3.9kのredditコメントペアのデータセットにhatspeechとcounterspeechの存在を手動で注釈付けします。 提案する分類法では, 正のペアは10クラスにアノテートされる。 攻撃性や一人称参照を除去するために,これらのペアに言い換えて注釈を付ける。 我々のデータセットとフレームワークを使用することで、大きな言語モデルが談話理論から情報を得た文脈的に接頭辞を生成することができることを示します。 人間の評価によれば、我々のアプローチは言論非依存モデルの致命的な失敗に対する保護として機能する。

Counterspeech can be an effective method for battling hateful content on social media. Automated counterspeech generation can aid in this process. Generated counterspeech, however, can be viable only when grounded in the context of topic, audience and sensitivity as these factors influence both the efficacy and appropriateness. In this work, we propose a novel framework based on theories of discourse to study the inferential links that connect counter speeches to the hateful comment. Within this framework, we propose: i) a taxonomy of counterspeech derived from discourse frameworks, and ii) discourse-informed prompting strategies for generating contextually-grounded counterspeech. To construct and validate this framework, we present a process for collecting an in-the-wild dataset of counterspeech from Reddit. Using this process, we manually annotate a dataset of 3.9k Reddit comment pairs for the presence of hatespeech and counterspeech. The positive pairs are annotated for 10 classes in our proposed taxonomy. We annotate these pairs with paraphrased counterparts to remove offensiveness and first-person references. We show that by using our dataset and framework, large language models can generate contextually-grounded counterspeech informed by theories of discourse. According to our human evaluation, our approaches can act as a safeguard against critical failures of discourse-agnostic models.
翻訳日:2023-12-01 18:25:35 公開日:2023-11-29
# 大深度量子ニューラルネットワークにおける動的相転移

Dynamical phase transition in quantum neural networks with large depth ( http://arxiv.org/abs/2311.18144v1 )

ライセンス: Link先を確認
Bingzhi Zhang, Junyu Liu, Xiao-Chuan Wu, Liang Jiang and Quntao Zhuang(参考訳) 量子ニューラルネットワークのトレーニングダイナミクスを理解することは、物理学、化学、機械学習に大きな影響を与える量子情報科学の基本的なタスクである。 本研究では,量子ニューラルネットワークの後期トレーニングダイナミクスを一般化したロッカ・ボルテラ方程式によって記述し,相転移を誘導することを示す。 コスト関数の目標値が上から下へ到達可能な最小値を超えた場合、動的は凍結カーネル相から凍結エラー相へと進化し、量子ニューラルタンジェントカーネルと総誤差の双対性を示す。 どちらの位相においても、固定点への収束は指数関数であり、臨界点では多項式となる。 トレーニングダイナミクスのヘッシアンを想像上のハミルトニアンにマッピングすることで、指数 $\nu=1$ と相転移の性質が第二次であることを明らかにし、そこではスケール不変性と閉ギャップが臨界点で観測される。 また、出力状態が定常状態に近づくと、遅くに制限されたハールアンサンブルを介して位相遷移を説明する非摂動解析理論を提供する。 この理論はibm量子デバイス上で実験的に検証される。

Understanding the training dynamics of quantum neural networks is a fundamental task in quantum information science with wide impact in physics, chemistry and machine learning. In this work, we show that the late-time training dynamics of quantum neural networks can be described by the generalized Lotka-Volterra equations, which lead to a dynamical phase transition. When the targeted value of cost function crosses the minimum achievable value from above to below, the dynamics evolve from a frozen-kernel phase to a frozen-error phase, showing a duality between the quantum neural tangent kernel and the total error. In both phases, the convergence towards the fixed point is exponential, while at the critical point becomes polynomial. Via mapping the Hessian of the training dynamics to a Hamiltonian in the imaginary time, we reveal the nature of the phase transition to be second-order with the exponent $\nu=1$, where scale invariance and closing gap are observed at critical point. We also provide a non-perturbative analytical theory to explain the phase transition via a restricted Haar ensemble at late time, when the output state approaches the steady state. The theory findings are verified experimentally on IBM quantum devices.
翻訳日:2023-12-01 18:25:15 公開日:2023-11-29
# ランダムボソニック回転符号の性能

The performance of random bosonic rotation codes ( http://arxiv.org/abs/2311.16089v2 )

ライセンス: Link先を確認
Saurabh Totey, Akira Kyle, Steven Liu, Pratik J. Barge, Noah Lordi, and Joshua Combes(参考訳) ボソニック誤り訂正符号は調和振動子の無限次元ヒルベルト空間を利用して量子ビットを符号化する。 ボソニック回転符号は,そのウィグナー関数における離散的回転対称性を特徴とし,猫や二項符号などの符号を含む。 最善のランダム回転符号は,損失が大きく,誤差が小さいパラメータ領域において,猫や二項符号よりも優れることがわかった。

Bosonic error correcting codes utilize the infinite dimensional Hilbert space of a harmonic oscillator to encode a qubit. Bosonic rotation codes are characterized by a discrete rotation symmetry in their Wigner functions and include codes such as the cat and binomial codes.We define two different notions of random bosonic rotation codes and numerically explore their performance against loss and dephasing. We find that the best random rotation codes can outperform cat and binomial codes in a certain parameter regime where loss is large and dephasing errors are small.
翻訳日:2023-12-01 13:08:57 公開日:2023-11-29
# DiffInDScene:拡散に基づく高品質3D室内シーン生成

DiffInDScene: Diffusion-based High-Quality 3D Indoor Scene Generation ( http://arxiv.org/abs/2306.00519v4 )

ライセンス: Link先を確認
Xiaoliang Ju, Zhaoyang Huang, Yijin Li, Guofeng Zhang, Yu Qiao, Hongsheng Li(参考訳) DiffInDSceneは高品質な屋内シーン生成問題に対処するための新しいフレームワークであり、室内シーンの複雑さと多様性のため課題である。 拡散型生成モデルは画像生成やオブジェクトレベルの3D生成において,これまでは顕著な性能を示してきたが,計算集約コストのため,まだ部屋レベルの3D生成には適用されていない。 差分法では,tsdf (truncated signed distance function) の高効率かつ強力な生成性能を有するカスケード3次元拡散パイプラインを提案する。 パイプライン全体は、粗大な方法でスパース占有空間で実行されるように設計されている。 KinectFusionのインクリメンタルアライメントと局所TSDFボリュームの融合にインスパイアされた本研究では,局所TSDFボリュームを反復的に拡散・融合させる拡散型SDF融合手法を提案する。 生成した結果は,スクラッチから始めて,高品位な部屋生成を3次元空間で直接実現できることを実証した。 シーン生成に加えて、DiffInDSceneの最終部分は、マルチビューステレオから3D再構成結果を洗練するための後処理モジュールとして使用できる。 ユーザ調査によると、私たちのDiffInDSceneによって生成されたメッシュ品質は、ScanNetが提供する地上の真理メッシュよりも優れています。 最新の進捗とデモについては、プロジェクトページを参照してください。

We present DiffInDScene, a novel framework for tackling the problem of high-quality 3D indoor scene generation, which is challenging due to the complexity and diversity of the indoor scene geometry. Although diffusion-based generative models have previously demonstrated impressive performance in image generation and object-level 3D generation, they have not yet been applied to room-level 3D generation due to their computationally intensive costs. In DiffInDScene, we propose a cascaded 3D diffusion pipeline that is efficient and possesses strong generative performance for Truncated Signed Distance Function (TSDF). The whole pipeline is designed to run on a sparse occupancy space in a coarse-to-fine fashion. Inspired by KinectFusion's incremental alignment and fusion of local TSDF volumes, we propose a diffusion-based SDF fusion approach that iteratively diffuses and fuses local TSDF volumes, facilitating the generation of an entire room environment. The generated results demonstrate that our work is capable to achieve high-quality room generation directly in three-dimensional space, starting from scratch. In addition to the scene generation, the final part of DiffInDScene can be used as a post-processing module to refine the 3D reconstruction results from multi-view stereo. According to the user study, the mesh quality generated by our DiffInDScene can even outperform the ground truth mesh provided by ScanNet. Please visit our project page for the latest progress and demonstrations: https://github.com/AkiraHero/diffindscene.
翻訳日:2023-12-01 13:04:38 公開日:2023-11-29
# the falcon series of open language model(英語)

The Falcon Series of Open Language Models ( http://arxiv.org/abs/2311.16867v2 )

ライセンス: Link先を確認
Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, M\'erouane Debbah, \'Etienne Goffinet, Daniel Hesslow, Julien Launay, Quentin Malartic, Daniele Mazzotta, Badreddine Noune, Baptiste Pannier, Guilherme Penedo(参考訳) 7B, 40B, 180Bパラメーター因果デコーダのみのモデルで, Webデータから主に組み立てた高品質コーパスをトレーニングした。 最大のモデルであるfalcon-180bは3.5兆以上のテキストのトークンで訓練されている。 Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。 GPT-4 と PaLM-2-Large とともに世界で最も優れた3つの言語モデルのうちの1つである。 詳細な評価や、falconの事前トレーニングに使用するメソッドやカスタムツールの詳細について報告する。 特に、当社のカスタム分散トレーニングコードベースについて報告し、接続に制限のあるクラウドAWSインフラストラクチャ上で、これらのモデルを最大4,096 A100で効率的に事前トレーニングできるようにしました。 我々は、オープンサイエンスを育み、大規模言語モデルのオープンエコシステムの開発を加速するために、許容ライセンスの下で、Webデータセットの600Bトークン抽出とFalcon-7/40/180Bモデルをリリースします。

We introduce the Falcon series: 7B, 40B, and 180B parameters causal decoder-only models trained on a diverse high-quality corpora predominantly assembled from web data. The largest model, Falcon-180B, has been trained on over 3.5 trillion tokens of text--the largest openly documented pretraining run. Falcon-180B significantly outperforms models such as PaLM or Chinchilla, and improves upon concurrently developed models such as LLaMA 2 or Inflection-1. It nears the performance of PaLM-2-Large at a reduced pretraining and inference cost, making it, to our knowledge, one of the three best language models in the world along with GPT-4 and PaLM-2-Large. We report detailed evaluations, as well as a deep dive into the methods and custom tooling employed to pretrain Falcon. Notably, we report on our custom distributed training codebase, allowing us to efficiently pretrain these models on up to 4,096 A100s on cloud AWS infrastructure with limited interconnect. We release a 600B tokens extract of our web dataset, as well as the Falcon-7/40/180B models under a permissive license to foster open-science and accelerate the development of an open ecosystem of large language models.
翻訳日:2023-12-01 12:23:32 公開日:2023-11-29
# llms for science: コード生成とデータ分析のための利用

LLMs for Science: Usage for Code Generation and Data Analysis ( http://arxiv.org/abs/2311.16733v2 )

ライセンス: Link先を確認
Mohamed Nejjar, Luca Zacharias, Fabian Stiehle and Ingo Weber(参考訳) 大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。 研究分野としての科学研究は例外ではなく、科学者の日々の作業を支援するLLMベースのツールの可能性は、分野によって議論の的になっている。 しかし、私たちはこの研究の始まりに過ぎません。 LLMのポテンシャルが研究実践においてどのように成立するかは、まだ不明である。 本研究では,研究プロセスにおけるLSMの使用に関する実証的研究を行った。 我々は,科学研究におけるLLMツールの一連のユースケースを調査し,現在のツールがどの程度役に立つかを評価するための最初の研究を行った。 本稿では,アプリケーションコード生成やデータ解析用のスクリプトの開発など,ソフトウェア工学に関連するユースケースを具体的に報告する。 一見単純なユースケースを検討したが、ツール間での結果は大きく異なる。 以上の結果から,LLMベースのツール全般の約束が強調されているが,これらのツールが提供するアウトプットの完全性に関して,さまざまな問題も観察している。

Large language models (LLMs) have been touted to enable increased productivity in many areas of today's work life. Scientific research as an area of work is no exception: the potential of LLM-based tools to assist in the daily work of scientists has become a highly discussed topic across disciplines. However, we are only at the very onset of this subject of study. It is still unclear how the potential of LLMs will materialise in research practice. With this study, we give first empirical evidence on the use of LLMs in the research process. We have investigated a set of use cases for LLM-based tools in scientific research, and conducted a first study to assess to which degree current tools are helpful. In this paper we report specifically on use cases related to software engineering, such as generating application code and developing scripts for data analytics. While we studied seemingly simple use cases, results across tools differ significantly. Our results highlight the promise of LLM-based tools in general, yet we also observe various issues, particularly regarding the integrity of the output these tools provide.
翻訳日:2023-12-01 12:23:14 公開日:2023-11-29
# CoSeR:認知的超解法のための画像と言語

CoSeR: Bridging Image and Language for Cognitive Super-Resolution ( http://arxiv.org/abs/2311.16512v2 )

ライセンス: Link先を確認
Haoze Sun, Wenbo Li, Jianzhuang Liu, Haoyu Chen, Renjing Pei, Xueyi Zou, Youliang Yan, Yujiu Yang(参考訳) 既存の超解像モデル(SR)は主に局所的なテクスチャの詳細の復元に焦点を当てており、しばしばシーン内のグローバルな意味情報を無視する。 この見落としは、重要な意味的詳細の欠落や、回復プロセス中に不正確なテクスチャの導入につながる可能性がある。 本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。 我々は、画像の外観と言語理解を結合して認知埋め込みを生成することで、大きなテキスト・画像拡散モデルから事前情報を活性化するだけでなく、高品質な参照画像を生成することでSRプロセスの最適化を実現する。 画像の忠実度をより高めるために,全ての条件情報を単一のモジュールに統合する"All-in-Attention"と呼ばれる新しい条件注入方式を提案する。 その結果,本手法は意味論的・フォトリアリスティックな詳細を復元し,複数のベンチマークで最先端の性能を実証することに成功した。 コード:https://github.com/VINHYU/CoSeR

Existing super-resolution (SR) models primarily focus on restoring local texture details, often neglecting the global semantic information within the scene. This oversight can lead to the omission of crucial semantic details or the introduction of inaccurate textures during the recovery process. In our work, we introduce the Cognitive Super-Resolution (CoSeR) framework, empowering SR models with the capacity to comprehend low-resolution images. We achieve this by marrying image appearance and language understanding to generate a cognitive embedding, which not only activates prior information from large text-to-image diffusion models but also facilitates the generation of high-quality reference images to optimize the SR process. To further improve image fidelity, we propose a novel condition injection scheme called "All-in-Attention", consolidating all conditional information into a single module. Consequently, our method successfully restores semantically correct and photorealistic details, demonstrating state-of-the-art performance across multiple benchmarks. Code: https://github.com/VINHYU/CoSeR
翻訳日:2023-12-01 12:22:06 公開日:2023-11-29
# Animatable 3D Gaussian: 複数のヒトアバターの高速かつ高品質な再構成

Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple Human Avatars ( http://arxiv.org/abs/2311.16482v2 )

ライセンス: Link先を確認
Yang Liu, Xiang Huang, Minghan Qin, Qinwei Lin, Haoqian Wang(参考訳) 神経放射野は高品質な人間のアバターを再構築できるが、訓練やレンダリングには費用がかかる。 本稿では,入力画像とポーズから人間のアバターを学習するAnimatable 3D Gaussianを提案する。 我々は3次元ガウスアンを3次元ガウスアンと対応する骨格を標準空間でモデル化し、入力されたポーズに応じて3次元ガウスアンを空間に変形させることにより、ダイナミックな人間のシーンに拡張する。 また,複雑な動きや動的影を含むシーンにおいて,より高品質な再構成を実現するための時間依存型オクルージョンを提案する。 新規なビュー合成と新規ポーズ合成の両タスクにおいて,本手法はトレーニング時間,レンダリング速度,再現性において既存手法よりも優れる。 本手法は,25秒のトレーニングで10人のシーンにおいて,複数のシーンに容易に拡張可能であり,それと同等の新規ビュー合成結果が得られる。

Neural radiance fields are capable of reconstructing high-quality drivable human avatars but are expensive to train and render. To reduce consumption, we propose Animatable 3D Gaussian, which learns human avatars from input images and poses. We extend 3D Gaussians to dynamic human scenes by modeling a set of skinned 3D Gaussians and a corresponding skeleton in canonical space and deforming 3D Gaussians to posed space according to the input poses. We introduce hash-encoded shape and appearance to speed up training and propose time-dependent ambient occlusion to achieve high-quality reconstructions in scenes containing complex motions and dynamic shadows. On both novel view synthesis and novel pose synthesis tasks, our method outperforms existing methods in terms of training time, rendering speed, and reconstruction quality. Our method can be easily extended to multi-human scenes and achieve comparable novel view synthesis results on a scene with ten people in only 25 seconds of training.
翻訳日:2023-12-01 12:21:29 公開日:2023-11-29
# 学習速度認識サンプリングによる自己教師型学習ロバスト化

Making Self-supervised Learning Robust to Spurious Correlation via Learning-speed Aware Sampling ( http://arxiv.org/abs/2311.16361v2 )

ライセンス: Link先を確認
Weicheng Zhu, Sheng Liu, Carlos Fernandez-Granda, Narges Razavian(参考訳) 自己教師付き学習(ssl)はラベルのないデータからリッチ表現を学習するための強力な技術として登場した。 データ表現は多くの基本的なデータ属性をキャプチャすることができ、下流の予測タスクで有用である。 現実の環境では、いくつかの属性(例えば人種、性別、年齢)と下流のタスクのラベルの間に急激な相関関係がしばしば存在し、例えば、がんは高齢者に多く見られる。 本稿では,sprious correlationsの存在下でのsslについて検討し,下流タスクに他の重要な予測機能が存在するにもかかわらず,それらの重要特性に関連する特徴のサブセットのみをキャプチャすることで,sslのトレーニング損失を最小化できることを示す。 この問題に対処するために,SSLの学習動態を調査し,そのような相関関係に矛盾するサンプル(例えば,がんのない高齢者)の学習が遅いことを観察する。 これらの知見に触発され,学習速度に逆相関する確率で各トレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。 異なる属性の相関関係を示す3つのデータセット上でLA-SSLを評価し、下流の分類タスクにおける事前学習された表現のロバスト性を改善することを示す。

Self-supervised learning (SSL) has emerged as a powerful technique for learning rich representations from unlabeled data. The data representations are able to capture many underlying attributes of data, and be useful in downstream prediction tasks. In real-world settings, spurious correlations between some attributes (e.g. race, gender and age) and labels for downstream tasks often exist, e.g. cancer is usually more prevalent among elderly patients. In this paper, we investigate SSL in the presence of spurious correlations and show that the SSL training loss can be minimized by capturing only a subset of the conspicuous features relevant to those sensitive attributes, despite the presence of other important predictive features for the downstream tasks. To address this issue, we investigate the learning dynamics of SSL and observe that the learning is slower for samples that conflict with such correlations (e.g. elder patients without cancer). Motivated by these findings, we propose a learning-speed aware SSL (LA-SSL) approach, in which we sample each training data with a probability that is inversely related to its learning speed. We evaluate LA-SSL on three datasets that exhibit spurious correlations between different attributes, demonstrating that it improves the robustness of pretrained representations on downstream classification tasks.
翻訳日:2023-12-01 12:21:11 公開日:2023-11-29
# Diffusion-TTA: 生成フィードバックによる識別モデルのテスト時間適応

Diffusion-TTA: Test-time Adaptation of Discriminative Models via Generative Feedback ( http://arxiv.org/abs/2311.16102v2 )

ライセンス: Link先を確認
Mihir Prabhudesai and Tsung-Wei Ke and Alexander C. Li and Deepak Pathak and Katerina Fragkiadaki(参考訳) 生成的モデリングの進歩、特に拡散モデルの出現は、基本的な問題を引き起こした:これらのモデルは、どのようにして差別的タスクに効果的に使用できるのか? 本研究では, 判別モデルに対して, 生成モデルが優れたテスト時アダプタとなりうることを示す。 Diffusion-TTAは,画像分類器,セグメンタ,深度予測器などの事前学習した識別モデルを,拡散モデルからの生成的フィードバックを用いて,テストセット内の各未学習例に適用する。 識別モデルの出力を用いて拡散モデルのコンディショニングを変調することでこれを実現する。 次に、勾配を識別モデルのパラメータにバックプロパゲーションすることにより、画像のゆらぎ目標を最大化する。 Diffusion-TTAは、画像ネット分類器、CLIPモデル、画像ピクセルラベルラー、画像深度予測器など、様々な大規模事前学習型識別モデルの精度を著しく向上させる。 Diffusion-TTA は TTT-MAE や TENT などの既存のテスト時間適応手法よりも優れており、特にオンライン適応方式では差別モデルがテストセットの各例に継続的に適応している。 私たちのwebサイトでは、コード、結果、視覚化へのアクセスを提供しています。

The advancements in generative modeling, particularly the advent of diffusion models, have sparked a fundamental question: how can these models be effectively used for discriminative tasks? In this work, we find that generative models can be great test-time adapters for discriminative models. Our method, Diffusion-TTA, adapts pre-trained discriminative models such as image classifiers, segmenters and depth predictors, to each unlabelled example in the test set using generative feedback from a diffusion model. We achieve this by modulating the conditioning of the diffusion model using the output of the discriminative model. We then maximize the image likelihood objective by backpropagating the gradients to discriminative model's parameters. We show Diffusion-TTA significantly enhances the accuracy of various large-scale pre-trained discriminative models, such as, ImageNet classifiers, CLIP models, image pixel labellers and image depth predictors. Diffusion-TTA outperforms existing test-time adaptation methods, including TTT-MAE and TENT, and particularly shines in online adaptation setups, where the discriminative model is continually adapted to each example in the test set. We provide access to code, results, and visualizations on our website: https://diffusion-tta.github.io/.
翻訳日:2023-12-01 12:20:42 公開日:2023-11-29
# アルミニウム超伝導共振器の2レベル飽和下での異常損失低減

Anomalous Loss Reduction Below Two-Level System Saturation in Aluminum Superconducting Resonators ( http://arxiv.org/abs/2109.11742v6 )

ライセンス: Link先を確認
Tamin Tai, Jingnan Cai, Steven M. Anlage(参考訳) 超伝導共振器は量子コンピューティングのためのキュービットリードアウトや運動インダクタンス検出器など多くの用途で広く使われている。 これらの共振器は、多くの損失とノイズ機構、特に、少数の光子と低温状態において主な損失源となる2レベル系(TLS)による消音の影響を受けやすい。 本研究では, 容量結合型半波長コプラナー導波路共振器について検討した。 意外なことに, 共振器の損失は低励磁温度とTLS飽和度以下の温度で減少することが観察された。 この挙動は、TLSの離散アンサンブルにおけるTLSと共振光子周波数の遅延を減らし、TLSの温度と電力を低下させることによるTLS共鳴応答帯域の減少に起因する。 TLSの応答帯域幅が共振器からの遅延よりも小さい場合、共振器応答が小さくなり、損失が減少する。 より高い励起力では、損失は一般化トンネルモデル(GTM)の予測と一致する対数的パワー依存に従う。 離散TLSアンサンブルとGTMを組み合わせたモデルを提案し、測定した共振器内部損失の温度と電力依存性を合理的パラメータと一致させる。

Superconducting resonators are widely used in many applications such as qubit readout for quantum computing, and kinetic inductance detectors. These resonators are susceptible to numerous loss and noise mechanisms, especially the dissipation due to two-level systems (TLS) which become the dominant source of loss in the few-photon and low temperature regime. In this study, capacitively-coupled aluminum half-wavelength coplanar waveguide resonators are investigated. Surprisingly, the loss of the resonators was observed to decrease with a lowering temperature at low excitation powers and temperatures below the TLS saturation. This behavior is attributed to the reduction of the TLS resonant response bandwidth with decreasing temperature and power to below the detuning between the TLS and the resonant photon frequency in a discrete ensemble of TLS. When response bandwidths of TLS are smaller than their detunings from the resonance, the resonant response and thus the loss is reduced. At higher excitation powers, the loss follows a logarithmic power dependence, consistent with predictions from the generalized tunneling model (GTM). A model combining the discrete TLS ensemble with the GTM is proposed and matches the temperature and power dependence of the measured internal loss of the resonator with reasonable parameters.
翻訳日:2023-12-01 04:33:07 公開日:2023-11-29
# 縮退量子符号用論理制御位相回路の低オーバヘッドスポータブルなフォールトトレラント構成

Low-overhead pieceable fault-tolerant construction of logical controlled-phase circuit for degenerate quantum code ( http://arxiv.org/abs/2105.07133v8 )

ライセンス: Link先を確認
Chen Lin, Guowu Yang(参考訳) 一般[n,1,d]縮退量子コードのための論理制御位相ゲートの非推移的だがフォールトトレラントな構成を見つけるために探索アルゴリズムを設計した。 次に、ベア[[7, 1, 3]]コードと呼ばれる量子コードのアルゴリズムを説明する例を示す。 このコードは、特定の探索基準に基づいて得られ、標準偏光誤差モデルの下で、よりシンプルなフラグ支援フォールトトレラント症候群測定回路を有する。 より少ない量子ビット資源を必要とするシンドローム抽出回路は,論理的誤り率の低下を狙う高次基本論理ゲート回路など,大規模量子計算の実現を容易にするため,探索手法に従い,この符号上にフォールトトレラントな3成分論理CZ回路を求める。 また,回路の論理誤差率を解析するための数値シミュレーションも行った。

We designed an search algorithm in order to find a non-transversal but fault-tolerant construction of a logical controlled-phase gate for general [[n,1,d]] degenerate quantum code. Then we give an example to illustrate our algorithm for a quantum code called bare [[7, 1, 3]] code. This code is obtained under certain search criteria, and it possesses a simpler flag-assisted fault-tolerant syndrome measurement circuit under a standard depolarizing error model. Since a syndrome extraction circuit requiring fewer ancillary qubit resources would facilitate the realization of large-scale quantum computations, such as concatenated high level elementary logical gate circuits when aim to achieve lower logical error rates, we follow our search scheme and find a 3-pieceable fault-tolerant logical CZ circuit on this code. Numerical simulations are also performed to further analyze the logical error rate of our circuit.
翻訳日:2023-12-01 04:32:43 公開日:2023-11-29
# トモグラフィーデータへの量子ノイズモデルの適用

Fitting quantum noise models to tomography data ( http://arxiv.org/abs/2103.17243v3 )

ライセンス: Link先を確認
Emilio Onorati, Tamara Kohler, and Toby S. Cubitt(参考訳) ノイズの存在は、現在、大規模な量子計算を達成するための主要な障害の1つである。 量子ハードウェアにおけるノイズプロセスの特徴付けと理解の戦略は、特に完全なエラー修正とフォールトトレランスのオーバーヘッドが現在のハードウェアの範囲を超えているため、それを緩和する重要な部分である。 非マルコフ効果は特に望ましくない種類のノイズであり、標準技術を用いて解析することは困難であり、誤り訂正を用いて制御することが困難である。 本研究では,マルコフマスター方程式の厳密な数学的理論に基づいて,未知雑音過程の解析・評価を行う効率的なアルゴリズムを開発した。 マルコフ進化に整合した力学の場合、我々のアルゴリズムは最も適したリンドブラディアン、すなわち、トモグラフィーデータを与えられた精度内で最も近似したメモリレス量子チャネルの生成を出力する。 非マルコフ力学の場合、このアルゴリズムは等方性雑音付加の観点で非マルコフ性についての定量的かつ操作上有意義な尺度を返す。 我々は全てのアルゴリズムのpython実装を提供し、cirqプラットフォームを用いて生成された合成雑音トモグラフィデータの1ビットおよび2量子ビットのサンプルでこれらをベンチマークします。 数値計算の結果から,本アルゴリズムは,計測力学に対する最適リンドブラジアンの完全な記述と,解析計算に適合する非マルコフ性を正確に計算することに成功した。

The presence of noise is currently one of the main obstacles to achieving large-scale quantum computation. Strategies to characterise and understand noise processes in quantum hardware are a critical part of mitigating it, especially as the overhead of full error correction and fault-tolerance is beyond the reach of current hardware. Non-Markovian effects are a particularly unfavourable type of noise, being both harder to analyse using standard techniques and more difficult to control using error correction. In this work we develop a set of efficient algorithms, based on the rigorous mathematical theory of Markovian master equations, to analyse and evaluate unknown noise processes. In the case of dynamics consistent with Markovian evolution, our algorithm outputs the best-fit Lindbladian, i.e., the generator of a memoryless quantum channel which best approximates the tomographic data to within the given precision. In the case of non-Markovian dynamics, our algorithm returns a quantitative and operationally meaningful measure of non-Markovianity in terms of isotropic noise addition. We provide a Python implementation of all our algorithms, and benchmark these on a range of 1- and 2-qubit examples of synthesised noisy tomography data, generated using the Cirq platform. The numerical results show that our algorithms succeed both in extracting a full description of the best-fit Lindbladian to the measured dynamics, and in computing accurate values of non-Markovianity that match analytical calculations.
翻訳日:2023-12-01 04:32:26 公開日:2023-11-29
# MRI再構成のためのゼロショット自己監督学習

Zero-Shot Self-Supervised Learning for MRI Reconstruction ( http://arxiv.org/abs/2102.07737v4 )

ライセンス: Link先を確認
Burhaneddin Yaman, Seyed Amir Hossein Hosseini, Mehmet Ak\c{c}akaya(参考訳) ディープラーニング(DL)は、MRI再建を加速するための強力なツールとして登場したが、トレーニングのためには、完全にサンプリングされた測定のデータベースを必要とすることが多い。 最近の自己教師型および教師なし学習アプローチは、完全なサンプルデータなしでトレーニングを可能にする。 しかし、多くのシナリオでは、特にコントラストや翻訳による取得を含むスキャンでは、アンダーサンプル測定のデータベースは利用できない。 さらに, データベース学習モデルでは, サンプリングパターン, 加速度速度, snr, 画像コントラスト, 解剖学の点で見当たらない測定値が異なっても, 十分一般化できないことが示された。 このような課題は、外部のトレーニングデータセットを使わずに、対象特異的なDL MRI再構成を可能にするための新しい方法論を必要とする。 そこで本研究では,この課題に対処するために,被写体特異的加速型DL MRI再構成を行うゼロショット自己教師型学習手法を提案する。 提案手法は、単一のスキャンから利用可能な測定値を3つの解離集合に分割する。 これら2つのセットはデータの一貫性を強制し、自己監視のためのトレーニング中に損失を定義するために使用され、最後のセットは自己評価に役立ち、早期停止基準を確立する。 画像特性の異なるデータベース上で事前学習されたモデルが存在する場合,提案手法と転送学習を組み合わせることで,収束時間を短縮し,計算複雑性を低減できることを示す。 コードは \url{https://github.com/byaman14/zs-ssl} で入手できる。

Deep learning (DL) has emerged as a powerful tool for accelerated MRI reconstruction, but often necessitates a database of fully-sampled measurements for training. Recent self-supervised and unsupervised learning approaches enable training without fully-sampled data. However, a database of undersampled measurements may not be available in many scenarios, especially for scans involving contrast or translational acquisitions in development. Moreover, recent studies show that database-trained models may not generalize well when the unseen measurements differ in terms of sampling pattern, acceleration rate, SNR, image contrast, and anatomy. Such challenges necessitate a new methodology to enable subject-specific DL MRI reconstruction without external training datasets, since it is clinically imperative to provide high-quality reconstructions that can be used to identify lesions/disease for \emph{every individual}. In this work, we propose a zero-shot self-supervised learning approach to perform subject-specific accelerated DL MRI reconstruction to tackle these issues. The proposed approach partitions the available measurements from a single scan into three disjoint sets. Two of these sets are used to enforce data consistency and define loss during training for self-supervision, while the last set serves to self-validate, establishing an early stopping criterion. In the presence of models pre-trained on a database with different image characteristics, we show that the proposed approach can be combined with transfer learning for faster convergence time and reduced computational complexity. The code is available at \url{https://github.com/byaman14/ZS-SSL}.
翻訳日:2023-12-01 04:32:02 公開日:2023-11-29
# 対話依存関係を用いたマルチターン応答選択

Multi-turn Response Selection using Dialogue Dependency Relations ( http://arxiv.org/abs/2010.01502v2 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Siyu Ren, Kenny Q. Zhu, Haifeng Tang(参考訳) マルチターン応答選択は対話エージェントを開発するために設計されたタスクである。 このタスクのパフォーマンスは、事前訓練された言語モデルで著しく改善されている。 しかし、これらのモデルは単に対話履歴のターンを入力として結合し、ターン間の依存関係をほとんど無視する。 本稿では,対話履歴を依存関係に基づいてスレッドに変換する対話抽出アルゴリズムを提案する。 各スレッドは自己完結したサブダイアログと見なすことができる。 また,事前学習したトランスフォーマによってスレッドや候補をコンパクト表現にエンコードし,最後にアテンション層を通してマッチングスコアを得るスレッドエンコーダモデルを提案する。 実験により,依存関係関係は対話コンテキストの理解に有効であることが示され,私たちのモデルはDSTC7とDSTC8*の双方で最先端のベースラインよりも優れており,UbuntuV2では競合する結果が得られている。

Multi-turn response selection is a task designed for developing dialogue agents. The performance on this task has a remarkable improvement with pre-trained language models. However, these models simply concatenate the turns in dialogue history as the input and largely ignore the dependencies between the turns. In this paper, we propose a dialogue extraction algorithm to transform a dialogue history into threads based on their dependency relations. Each thread can be regarded as a self-contained sub-dialogue. We also propose Thread-Encoder model to encode threads and candidates into compact representations by pre-trained Transformers and finally get the matching score through an attention layer. The experiments show that dependency relations are helpful for dialogue context understanding, and our model outperforms the state-of-the-art baselines on both DSTC7 and DSTC8*, with competitive results on UbuntuV2.
翻訳日:2023-12-01 04:31:35 公開日:2023-11-29
# 絡み合いと非局所性の相互作用の理解--絡み合い理論の新分野の動機付けと展開

Understanding the interplay of entanglement and nonlocality: motivating and developing a new branch of entanglement theory ( http://arxiv.org/abs/2004.09194v3 )

ライセンス: Link先を確認
David Schmid, Thomas C. Fraser, Ravi Kunjwal, Ana Belen Sainz, Elie Wolfe, Robert W. Spekkens(参考訳) 資源を定量化するための標準的なアプローチは、資源のどの操作が自由に利用できるかを決定し、自由操作の下での変換可能性の関係によって引き起こされる資源上の部分順序を推定することである。 興味のある資源が量子状態(すなわち絡み合い)に具現化された相関の非古典性であれば、自由操作の適切な選択は局所的操作と古典的通信(locc)である、という仮定が一般的である。 ここでは自由操作の異なる選択、すなわち局所操作と共有ランダム性(losr)の研究を提唱し、ベル実験における状態の絡み合いと相関関係の非局所性の間の相互作用を理解する上での有用性を実証する。 具体的には ロスのパラダイムが (i)非局所性の異常を解決し、部分的絡み合い状態は最大絡み合い状態よりも非局所性を示す。 (ii) 従来の概念の病理学的特徴を欠いた真の多元的絡み合いと非局所性の新たな概念を包含する。 (iii)事前結果を一般化し単純化する絡み合った状態の自己テストについて、資源理論的な説明が可能となる。 その過程で、losr下での純粋なエンタングル状態間の変換性に必要な十分条件に関する基礎的な結果が導出され、二成分純粋な状態の触媒化の不可能性など、それらの結果のいくつかを強調する。 資源理論の観点からも、ベルの不等式に違反しない混合絡み状態が存在することは驚きでも問題でもない。 本研究は,新しい絡み合い理論の分野としてのLOSR絡み合いの研究を動機づけるものである。

A standard approach to quantifying resources is to determine which operations on the resources are freely available, and to deduce the partial order over resources that is induced by the relation of convertibility under the free operations. If the resource of interest is the nonclassicality of the correlations embodied in a quantum state, i.e., entanglement, then the common assumption is that the appropriate choice of free operations is Local Operations and Classical Communication (LOCC). We here advocate for the study of a different choice of free operations, namely, Local Operations and Shared Randomness (LOSR), and demonstrate its utility in understanding the interplay between the entanglement of states and the nonlocality of the correlations in Bell experiments. Specifically, we show that the LOSR paradigm (i) provides a resolution of the anomalies of nonlocality, wherein partially entangled states exhibit more nonlocality than maximally entangled states, (ii) entails new notions of genuine multipartite entanglement and nonlocality that are free of the pathological features of the conventional notions, and (iii) makes possible a resource-theoretic account of the self-testing of entangled states which generalizes and simplifies prior results. Along the way, we derive some fundamental results concerning the necessary and sufficient conditions for convertibility between pure entangled states under LOSR and highlight some of their consequences, such as the impossibility of catalysis for bipartite pure states. The resource-theoretic perspective also clarifies why it is neither surprising nor problematic that there are mixed entangled states which do not violate any Bell inequality. Our results motivate the study of LOSR-entanglement as a new branch of entanglement theory.
翻訳日:2023-12-01 04:31:19 公開日:2023-11-29
# Recommendation-Dependent Preferenceによるアルゴリズム支援

Algorithmic Assistance with Recommendation-Dependent Preferences ( http://arxiv.org/abs/2208.07626v2 )

ライセンス: Link先を確認
Bryce McLaughlin and Jann Spiess(参考訳) リスクアセスメントにアルゴリズムを使用する場合、一般的にこれらの予測は、裁判官や医師にリスクスコアが提示された場合など、人間の判断に対する有用なインプットを提供するものだと考えています。 しかし、意思決定者がアルゴリズム支援を得た場合、彼らは情報にのみ反応するわけではない。 意思決定者は、アルゴリズムの入力をデフォルトのアクションを推奨していると見なすことができ、例えば、裁判官が被告のリスクの高い評価を覆すのを嫌う場合や、医者が推奨された手続きから逸脱する結果を恐れる場合など、逸脱するコストがかかる。 本稿では,人間-機械共同意思決定のプリンシパルエージェントモデルを提案する。 本モデルでは,信念を変えるだけでなく,好みを変えることによって選択に影響を与えるアルゴリズムレコメンデーションの効果と設計を検討する。 我々は、監査を避けたいという願望のような機関的要因や、このアルゴリズムが設定する参照点に対する損失回避を予測する行動科学の確立されたモデルから、この仮定を動機付けている。 推薦依存の選好は、意思決定者が推薦に過度に反応する非効率性を生み出す。 潜在的な救済策として、戦略的に推奨を控えたアルゴリズムを議論し、最終決定の質をいかに改善できるかを示す。

When we use algorithms to produce risk assessments, we typically think of these predictions as providing helpful input to human decisions, such as when risk scores are presented to judges or doctors. But when a decision-maker obtains algorithmic assistance, they may not only react to the information. The decision-maker may view the input of the algorithm as recommending a default action, making it costly for them to deviate, such as when a judge is reluctant to overrule a high-risk assessment of a defendant or a doctor fears the consequences of deviating from recommended procedures. In this article, we propose a principal-agent model of joint human-machine decision-making. Within this model, we consider the effect and design of algorithmic recommendations when they affect choices not just by shifting beliefs, but also by altering preferences. We motivate this assumption from institutional factors, such as a desire to avoid audits, as well as from well-established models in behavioral science that predict loss aversion relative to a reference point, which here is set by the algorithm. We show that recommendation-dependent preferences create inefficiencies where the decision-maker is overly responsive to the recommendation. As a potential remedy, we discuss algorithms that strategically withhold recommendations, and show how they can improve the quality of final decisions.
翻訳日:2023-12-01 04:28:24 公開日:2023-11-29
# 不完全知識によるリカバリ:リアルタイム量子メモリの基本的境界

Recovery With Incomplete Knowledge: Fundamental Bounds on Real-Time Quantum Memories ( http://arxiv.org/abs/2208.04427v2 )

ライセンス: Link先を確認
Arshag Danageozian(参考訳) デコヒーレンスからの脆弱な量子状態の回復は、量子通信から量子コンピューティングまで幅広い応用を含む量子メモリの構築の基礎である。 量子誤差補正のような多くのリカバリ技術は、最高の性能を達成するために環境騒音パラメータのアプリオリ知識に依存している。 しかし、そのようなパラメータは、長期間の量子記憶を実装するという文脈で時間とともに漂う可能性が高い。 これは、リアルタイムにノイズパラメータを推定する"スペクタ"システムを使用して、リカバリプロトコルの結果を古典的なサイド情報としてフィードフォワードする。 したがって、メモリキュービットとオブザーバシステムは、リアルタイム(ドリフト適応)量子メモリのためのビルディングブロックを構成する。 本稿では, オブザーバベース(不完全な知識)回復プロトコルを実時間パラメータ推定問題(一般的にはニュアンスパラメータが存在する)とみなし, 続いてメモリキュービットへの「ベストゲス」回復マップの適用を, 推定結果から判断する。 本稿では,このプロトコルの性能に関する情報理論的およびメトロロジー的境界について述べる。「ベストゲス」リカバリと最適なリカバリ結果とのダイアモンド距離によって定量化され,リアルタイム量子メモリにおける適応コストを同定する。 最後に、繰り返し不等式という形で、多サイクルリカバリの基本的境界を提供する。 後者は、様々なサイクルからの誤りが合わさっているため、ノイズの不完全な知識が有利である可能性を示唆している。 これらの結果は振幅減衰チャネルの[4,1] コードに対して説明され、様々な分野との関係について論じる。

The recovery of fragile quantum states from decoherence is the basis of building a quantum memory, with applications ranging from quantum communications to quantum computing. Many recovery techniques, such as quantum error correction, rely on the apriori knowledge of the environment noise parameters to achieve their best performance. However, such parameters are likely to drift in time in the context of implementing long-time quantum memories. This necessitates using a "spectator" system, which estimates the noise parameter in real-time, then feed-forwards the outcome to the recovery protocol as a classical side-information. The memory qubits and the spectator system hence comprise the building blocks for a real-time (i.e. drift-adapting) quantum memory. In this article, I consider spectator-based (incomplete knowledge) recovery protocols as a real-time parameter estimation problem (generally with nuisance parameters present), followed by the application of the "best-guess" recovery map to the memory qubits, as informed by the estimation outcome. I present information-theoretic and metrological bounds on the performance of this protocol, quantified by the diamond distance between the "best-guess" recovery and optimal recovery outcomes, thereby identifying the cost of adaptation in real-time quantum memories. Finally, I provide fundamental bounds for multi-cycle recovery in the form of recurrence inequalities. The latter suggests that incomplete knowledge of the noise could be an advantage, as errors from various cycles can cohere. These results are illustrated for the approximate [4,1] code of the amplitude-damping channel and relations to various fields are discussed.
翻訳日:2023-12-01 04:28:00 公開日:2023-11-29
# 量子チャネル上の古典的通信における実現可能性の単純かつ厳密な導出

Simple and Tighter Derivation of Achievability for Classical Communication over Quantum Channels ( http://arxiv.org/abs/2208.02132v2 )

ライセンス: Link先を確認
Hao-Chung Cheng(参考訳) 情報理論における達成可能性(英語: Achievability in information theory)とは、基礎となるタスクに対する所定のパフォーマンスベンチマークを達成するコーディング戦略を示すこと。 量子情報理論において、巧みに作られた林長岡作用素不等式は、様々な問題に束縛された結合に効果的に類似するため、一発の達成可能性境界の富を証明する上で必須の技術である。 本研究では,良好な測定値が自然に結合結合の役割を担っていることを示す。 古典量子 (c-q) チャネル符号化におけるワンショット達成可能性の導出は、エレガントな3行証明によって大幅に単純化される。 提案した分析は,以下の特徴を享受する。 (i)確立された単発境界は、祝いのホレヴォ・ヘルストロム理論のように閉形式の表現を認める。 すなわち、c-qチャネルを介して$M$メッセージを送信するエラー確率は、結合チャネル入力出力状態と$(M-1)$非結合な製品状態とを区別する最小誤差によって上限づけられる。 (ii)我々の束縛は,大偏差,小偏差,中程度の偏差レジームを統一的に生成する漸近的な結果をもたらす。 (iii)林長岡作用素の不等式を適用する際の係数はもはや不要である。 これにより、林長岡作用素の不等式を頼りに既存の結果を研ぎ澄ませる。 特に,c-qチャネルの符号化において,最大で到達可能な$\epsilon$-one-shot 容量を得ることができ,漸近的シナリオにおける3次符号化速度が向上する。 (iv)この結果は無限次元ヒルベルト空間に対して成り立つ。 提案手法は,量子側情報を用いた古典的データ圧縮のワンショット達成性,量子チャネル上のエンタングルメント支援型古典的通信,および様々な量子ネットワーク情報処理プロトコルを導出する。

Achievability in information theory refers to demonstrating a coding strategy that accomplishes a prescribed performance benchmark for the underlying task. In quantum information theory, the crafted Hayashi-Nagaoka operator inequality is an essential technique in proving a wealth of one-shot achievability bounds since it effectively resembles a union bound in various problems. In this work, we show that the pretty-good measurement naturally plays a role as the union bound as well. A judicious application of it considerably simplifies the derivation of one-shot achievability for classical-quantum (c-q) channel coding via an elegant three-line proof. The proposed analysis enjoys the following favorable features. (i) The established one-shot bound admits a closed-form expression as in the celebrated Holevo-Helstrom Theorem. Namely, the error probability of sending $M$ messages through a c-q channel is upper bounded by the minimum error of distinguishing the joint channel input-output state against $(M-1)$ decoupled products states. (ii) Our bound directly yields asymptotic results in the large deviation, small deviation, and moderate deviation regimes in a unified manner. (iii) The coefficients incurred in applying the Hayashi-Nagaoka operator inequality are no longer needed. Hence, the derived one-shot bound sharpens existing results relying on the Hayashi-Nagaoka operator inequality. In particular, we obtain the tightest achievable $\epsilon$-one-shot capacity for c-q channel coding heretofore, improving the third-order coding rate in the asymptotic scenario. (iv) Our result holds for infinite-dimensional Hilbert space. (v) The proposed method applies to deriving one-shot achievability for classical data compression with quantum side information, entanglement-assisted classical communication over quantum channels, and various quantum network information-processing protocols.
翻訳日:2023-12-01 04:27:32 公開日:2023-11-29
# グラフに基づく分子表現学習

Graph-based Molecular Representation Learning ( http://arxiv.org/abs/2207.04869v3 )

ライセンス: Link先を確認
Zhichun Guo, Kehan Guo, Bozhao Nan, Yijun Tian, Roshni G. Iyer, Yihong Ma, Olaf Wiest, Xiangliang Zhang, Wei Wang, Chuxu Zhang, Nitesh V. Chawla(参考訳) 分子表現学習(mrl)は、機械学習と化学科学の間のつながりを構築するための重要なステップである。 特に、分子を分子構造と特徴を保存する数値ベクトルとして符号化し、その上で下流のタスク(例えば、特性予測)を実行することができる。 近年、MRLは特に深層分子グラフ学習に基づく手法において大きな進歩を遂げている。 本研究では,これらのグラフに基づく分子表現手法,特に化学ドメイン知識を組み込んだ手法を体系的に検討する。 具体的には,まず2次元および3次元分子グラフの特徴を紹介する。 次に,MRL法を入力に基づいて3つのグループにまとめ,分類する。 さらに,MRLが支持する典型的な化学応用について述べる。 この高速開発領域の研究を容易にするために、ベンチマークや一般的なデータセットも論文にリストアップしています。 最後に,今後の研究方向性について考察する。

Molecular representation learning (MRL) is a key step to build the connection between machine learning and chemical science. In particular, it encodes molecules as numerical vectors preserving the molecular structures and features, on top of which the downstream tasks (e.g., property prediction) can be performed. Recently, MRL has achieved considerable progress, especially in methods based on deep molecular graph learning. In this survey, we systematically review these graph-based molecular representation techniques, especially the methods incorporating chemical domain knowledge. Specifically, we first introduce the features of 2D and 3D molecular graphs. Then we summarize and categorize MRL methods into three groups based on their input. Furthermore, we discuss some typical chemical applications supported by MRL. To facilitate studies in this fast-developing area, we also list the benchmarks and commonly used datasets in the paper. Finally, we share our thoughts on future research directions.
翻訳日:2023-12-01 04:26:56 公開日:2023-11-29
# 金属有機フレームワーク(MOF-KG)のためのオープン知識グラフの構築 : 課題と事例研究

Building Open Knowledge Graph for Metal-Organic Frameworks (MOF-KG): Challenges and Case Studies ( http://arxiv.org/abs/2207.04502v2 )

ライセンス: Link先を確認
Yuan An, Jane Greenberg, Xintong Zhao, Xiaohua Hu, Scott McCLellan, Alex Kalinowski, Fernando J. Uribe-Romo, Kyle Langlois, Jacob Furst, Diego A. G\'omez-Gualdr\'on, Fernando Fajardo-Rojas, Katherine Ardila(参考訳) 金属有機フレームワーク(英: Metal-Organic Frameworks、MOF)は、ガス貯蔵、分子分離、化学センシング、触媒、薬物の放出といった応用に革命をもたらす大きな可能性を持つモジュラーで多孔質の結晶材料である。 ケンブリッジ構造データベース (CSD) は、10,636個の合成MOF結晶を報告している。 114,373基のMOF構造。 合成された(さらに合成可能な)MOF構造は、研究者がMOF候補のスクリーニングと分離を行うための計算技術を追求する必要がある。 本稿では,MOF予測,発見,合成を容易にする知識グラフ手法の活用に向けた取り組みについて述べる。 本稿では,(1)構造化及び非構造化ソースからMOF知識グラフ(MOF-KG)を構築すること,(2)新しい知識の発見にMOF-KGを活用することの課題と事例について述べる。

Metal-Organic Frameworks (MOFs) are a class of modular, porous crystalline materials that have great potential to revolutionize applications such as gas storage, molecular separations, chemical sensing, catalysis, and drug delivery. The Cambridge Structural Database (CSD) reports 10,636 synthesized MOF crystals which in addition contains ca. 114,373 MOF-like structures. The sheer number of synthesized (plus potentially synthesizable) MOF structures requires researchers pursue computational techniques to screen and isolate MOF candidates. In this demo paper, we describe our effort on leveraging knowledge graph methods to facilitate MOF prediction, discovery, and synthesis. We present challenges and case studies about (1) construction of a MOF knowledge graph (MOF-KG) from structured and unstructured sources and (2) leveraging the MOF-KG for discovery of new or missing knowledge.
翻訳日:2023-12-01 04:26:45 公開日:2023-11-29
# 実験グレーボックス量子システム同定と制御

Experimental graybox quantum system identification and control ( http://arxiv.org/abs/2206.12201v4 )

ライセンス: Link先を確認
Akram Youssry, Yang Yang, Robert J. Chapman, Ben Haylock, Francesco Lenzini, Mirko Lobino, Alberto Peruzzo(参考訳) エンジニアリングされた量子システムの理解と制御は、実用的な量子技術を開発するための鍵である。 しかし、製造の不完全さや環境騒音といった現在の技術的限界を考えると、これは必ずしも可能とは限らない。 これらの問題に対処するため、量子システム同定と制御のための理論的および数値的手法が数多く開発されている。 これらの手法は、システムを記述するモデルの精度によって制限される従来の曲線フィッティングから、効率的な制御ソリューションを提供するが、モデルの出力を超えた制御や、基礎となる物理プロセスへの洞察を提供する機械学習手法まで、幅広い。 ここでは,量子システムの物理モデルを構築し,最適制御を設計するための"グレーボックス"手法を実験的に実証する。 標準教師付き機械学習モデルでは使用できない量であるユニタリとハミルトニアンを生成する一方で,モデルフィッティングよりも優れた性能を示す。 提案手法は,物理原理と高精度機械学習を組み合わせることで,必要な制御量を直接測定できない問題に対して有効である。 この方法は自然に時間依存的かつオープンな量子システムに拡張され、量子ノイズ分光とキャンセルへの応用がある。

Understanding and controlling engineered quantum systems is key to developing practical quantum technology. However, given the current technological limitations, such as fabrication imperfections and environmental noise, this is not always possible. To address these issues, a great deal of theoretical and numerical methods for quantum system identification and control have been developed. These methods range from traditional curve fittings, which are limited by the accuracy of the model that describes the system, to machine learning methods, which provide efficient control solutions but no control beyond the output of the model, nor insights into the underlying physical process. Here we experimentally demonstrate a "graybox" approach to construct a physical model of a quantum system and use it to design optimal control. We report superior performance over model fitting, while generating unitaries and Hamiltonians, which are quantities not available from the structure of standard supervised machine learning models. Our approach combines physics principles with high-accuracy machine learning and is effective with any problem where the required controlled quantities cannot be directly measured in experiments. This method naturally extends to time-dependent and open quantum systems, with applications in quantum noise spectroscopy and cancellation.
翻訳日:2023-12-01 04:26:27 公開日:2023-11-29
# D-CIPHER:閉形式部分微分方程式の発見

D-CIPHER: Discovery of Closed-form Partial Differential Equations ( http://arxiv.org/abs/2206.10586v3 )

ライセンス: Link先を確認
Krzysztof Kacprzyk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 偏微分方程式や高次常微分方程式を含む閉形式微分方程式は、科学者が自然現象をモデル化し理解するのに最も重要な道具の一つである。 データからこれらの方程式を直接発見することは、データ(方程式-データミスマッチ)で観測されない様々な導関数間の関係をモデル化する必要があるため困難である。 現在のアプローチは方程式の形式について強い仮定をしており、多くのよく知られたシステムを見つけられなかった。 さらに、導関数を推定することで方程式データミスマッチを解消することが多く、ノイズやサンプルの少ないシステムでは不十分である。 この目的のために,D-CIPHERを提案する。これは人工物の測定に頑健であり,新しい,非常に一般的な微分方程式のクラスを明らかにすることができる。 さらに,D-CIPHERを効率的に探索するための新しい最適化手法であるCoLLieを設計する。 最後に、現在の手法の能力を超える多くのよく知られた方程式を発見できることを実証的に示す。

Closed-form differential equations, including partial differential equations and higher-order ordinary differential equations, are one of the most important tools used by scientists to model and better understand natural phenomena. Discovering these equations directly from data is challenging because it requires modeling relationships between various derivatives that are not observed in the data (equation-data mismatch) and it involves searching across a huge space of possible equations. Current approaches make strong assumptions about the form of the equation and thus fail to discover many well-known systems. Moreover, many of them resolve the equation-data mismatch by estimating the derivatives, which makes them inadequate for noisy and infrequently sampled systems. To this end, we propose D-CIPHER, which is robust to measurement artifacts and can uncover a new and very general class of differential equations. We further design a novel optimization procedure, CoLLie, to help D-CIPHER search through this class efficiently. Finally, we demonstrate empirically that it can discover many well-known equations that are beyond the capabilities of current methods.
翻訳日:2023-12-01 04:26:07 公開日:2023-11-29
# 凸結合攻撃に基づくデバイス独立量子鍵分布における鍵レートの上限

Upper bounds on key rates in device-independent quantum key distribution based on convex-combination attacks ( http://arxiv.org/abs/2206.06245v3 )

ライセンス: Link先を確認
Karol {\L}ukanowski, Maria Balanz\'o-Juand\'o, M\'at\'e Farkas, Antonio Ac\'in and Jan Ko{\l}ody\'nski(参考訳) デバイスに依存しないフレームワークは、実装を信頼しない量子プロトコルに対する最も実践的なアプローチを構成する。 セキュリティに関するすべての主張は、エンドユーザの手による最終古典的データのレベルで行う必要がある。 これは、デバイス非依存の量子鍵分布(DIQKD)において達成可能なキーレートを決定する上で大きな課題となるが、悪意のあるサードパーティが生成したデータに起因した盗聴攻撃も考慮すべきである。 本研究では,この経路を探索し,上界DIQKD鍵レートの効率的かつ使いやすい手法として凸結合攻撃を提案する。 片道通信か双方向通信かにかかわらず、最先端プロトコルのキーレートの低い境界の精度を検証することができる。 特に, 有限可視性や検出効率などの実験的不完全性に対する diqkd プロトコルのロバスト性に関する現在予測されている制約が, 究極の許容しきい値に非常に近いことを実証する。

The device-independent framework constitutes the most pragmatic approach to quantum protocols that does not put any trust in their implementations. It requires all claims, about e.g. security, to be made at the level of the final classical data in hands of the end-users. This imposes a great challenge for determining attainable key rates in device-independent quantum key distribution (DIQKD), but also opens the door for consideration of eavesdropping attacks that stem from the possibility of a given data being just generated by a malicious third-party. In this work, we explore this path and present the convex-combination attack as an efficient, easy-to-use technique for upper-bounding DIQKD key rates. It allows verifying the accuracy of lower bounds on key rates for state-of-the-art protocols, whether involving one-way or two-way communication. In particular, we demonstrate with its help that the currently predicted constraints on the robustness of DIQKD protocols to experimental imperfections, such as the finite visibility or detection efficiency, are already very close to the ultimate tolerable thresholds.
翻訳日:2023-12-01 04:25:20 公開日:2023-11-29
# 波動-粒子双対性、不確かさ原理、位相空間、ミクロ状態のハイライト関係

Highlighting relations between Wave-particle duality, Uncertainty principle, Phase space and Microstates ( http://arxiv.org/abs/2205.08538v4 )

ライセンス: Link先を確認
Ravo Tokiniaina Ranaivoson, Voriraza S\'eraphin Hejesoa, Raoelina Andriambololona, Nirina Gilbert Rasolofoson, Hanitriarivo Rakotoson, Jacqueline Rabesahala Raoelina Andriambololona, Lala Rarivomanantsoa, Naivo Rabesiranana(参考訳) 波動粒子の双対性はしばしば2000年以上の疑問を経て、光の性質の問題に対する現代の答えとみなされる。 これは物質粒子や他の放射線の性質に関する量子物理学の解でもある。 この研究の主な目的は、この波動-粒子二重性の概念、不確実性原理、位相空間の概念と統計力学で考慮されたミクロ状態の関係を分析することである。 位相空間とミクロ状態の概念は、波と粒子の双対性の発見以前には既に古典物理学に導入されたが、量子位相空間の概念と不確実性原理に直接関係する量子力学の位相空間表現を用いなければ、それらの正しい理解は達成できないことが強調されている。 量子位相空間の概念と量子力学の位相空間表現を用いることによって、波動粒子双対性のより深い説明と、量子デコヒーレンスや測定問題のような量子力学の基礎問題に関連する最近の問題の研究に役立つ可能性についても論じる。

Wave-particle duality is often considered as the modern answer to the problem of the nature of light after more than 2000 years of questioning. It is also the answer given by quantum physics concerning the nature of matter particles and any other radiations. The main objective of this work is to analyze the relations that are existing between this concept of wave-particle duality, the uncertainty principle and the concepts of phase space and microstates considered in statistical mechanics. It is mainly highlighted that while the concepts of phase space and microstates were already introduced in classical physics before the discovery of the wave-particle duality, a correct understanding of them cannot be achieved without the use of the concept of quantum phase space and phase space representation of quantum mechanics which are directly related to the uncertainty principle. The possibility of using these concepts of quantum phase space and phase space representations of quantum mechanics to help in a deeper description of the wave-particle duality and in the study of some current issues related to foundational problems of quantum mechanics like quantum decoherence and the measurement problem is also discussed.
翻訳日:2023-12-01 04:24:26 公開日:2023-11-29
# 非対称粒子-反粒子ディラック方程式:第一量子化

Asymmetric particle-antiparticle Dirac equation: first quantization ( http://arxiv.org/abs/2205.04516v2 )

ライセンス: Link先を確認
Gustavo Rigolin(参考訳) 我々は、同じ波動数を共有する粒子と反粒子が異なるエネルギーとモーメントを持つような非対称ディラック方程式を導出する。 この方程式は適切なローレンツ変換(ブーストと空間回転)の下でローレンツ共変であることを示し、波動関数の対応する変換則を決定する。 我々は、非対称ディラック方程式と標準ディラック方程式の間の形式的な接続を求め、現在の波動方程式の自由パラメータを適切に調整することで、通常のディラック方程式の予測を再現できることを示す。 非対称ディラック方程式の理論的枠組みにおける粒子の静止質量は、固有ローレンツ変換の下で相対論的不変量である4つのパラメータの集合の関数である。 これら4つのパラメータは、標準ディラック方程式に現れる質量の類似である。 非対称ディラック方程式のパリティと時間反転演算(不適切なローレンツ変換)と電荷共役演算の下での共分散を保証するために、これらの4つのパラメータは4つのベクトルの4つの成分と全く同じ方法で符号を変える。 しかし、これらのパラメータの平方数の関数である質量は不変である。 また、非対称ディラック方程式に対する自由粒子平面波動解を広範囲に研究し、エネルギー、ヘリシティ、スピンプロジェクション作用素、ゴードンのアイデンティティを導出する。 水素原子は非対称ディラック方程式に最小結合式を適用した後に現在の文脈で解決され、非相対論的極限も適切に得られる。

We derive a Dirac-like equation, the asymmetric Dirac equation, where particles and antiparticles sharing the same wave number have different energies and momenta. We show that this equation is Lorentz covariant under proper Lorentz transformations (boosts and spatial rotations) and also determine the corresponding transformation law for its wave function. We obtain a formal connection between the asymmetric Dirac equation and the standard Dirac equation and we show that by properly adjusting the free parameters of the present wave equation we can make it reproduce the predictions of the usual Dirac equation. We show that the rest mass of a particle in the theoretical framework of the asymmetric Dirac equation is a function of a set of four parameters, which are relativistic invariants under proper Lorentz transformations. These four parameters are the analog to the mass that appears in the standard Dirac equation. We prove that in order to guarantee the covariance of the asymmetric Dirac equation under parity and time reversal operations (improper Lorentz transformations) as well as under the charge conjugation operation, these four parameters change sign in exactly the same way as the four components of a four-vector. The mass, though, being a function of the square of those parameters remains an invariant. We also extensively study the free particle plane wave solutions to the asymmetric Dirac equation and derive its energy, helicity, and spin projection operators as well as several Gordon's identities. The hydrogen atom is solved in the present context after applying the minimal coupling prescription to the asymmetric Dirac equation, which also allows us to appropriately obtain its non-relativistic limit.
翻訳日:2023-12-01 04:24:06 公開日:2023-11-29
# CD-GAN : 不均一センサを用いた非監視リモートセンシング変化検出のためのロバスト核融合による生成対向ネットワーク

CD-GAN: a robust fusion-based generative adversarial network for unsupervised remote sensing change detection with heterogeneous sensors ( http://arxiv.org/abs/2203.00948v4 )

ライセンス: Link先を確認
Jin-Ju Wang, Nicolas Dobigeon, Marie Chabert, Ding-Cheng Wang, Ting-Zhu Huang and Jie Huang(参考訳) 地球観測の文脈では、変化検出は、空間分解能やスペクトル分解能の異なるセンサー(光学やレーダーなど)によって異なるタイミングで取得された画像を比較するために沸騰する。 光画像のみを考えると、センサーが空間分解能やスペクトル分解能によって異なるため、このタスクは困難であることが証明されている。 本稿では、このような異種光センサによって取得された画像に特有な教師なし変化検出手法を提案する。 これは、変更検出タスクを堅牢な融合フレームワークに定式化する最近の進歩を生かしている。 この定式化を採用し、本論文では、異なる空間的および/またはスペクトル解像度の光学的画像を融合するために事前訓練された市販のネットワークは、同じアーキテクチャのネットワークで容易に補完でき、逆のフレームワークに埋め込まれて変化検出を行うことができることを示した。 最先端の変更検出手法との比較により,提案手法の有効性と有効性を示す。

In the context of Earth observation, change detection boils down to comparing images acquired at different times by sensors of possibly different spatial and/or spectral resolutions or different modalities (e.g., optical or radar). Even when considering only optical images, this task has proven to be challenging as soon as the sensors differ by their spatial and/or spectral resolutions. This paper proposes a novel unsupervised change detection method dedicated to images acquired by such so-called heterogeneous optical sensors. It capitalizes on recent advances which formulate the change detection task into a robust fusion framework. Adopting this formulation, the work reported in this paper shows that any off-the-shelf network trained beforehand to fuse optical images of different spatial and/or spectral resolutions can be easily complemented with a network of the same architecture and embedded into an adversarial framework to perform change detection. A comparison with state-of-the-art change detection methods demonstrates the versatility and the effectiveness of the proposed approach.
翻訳日:2023-12-01 04:23:35 公開日:2023-11-29
# 条件付承認投票における勝者決定の複雑さと戦略統制について

On the Complexity of Winner Determination and Strategic Control in Conditional Approval Voting ( http://arxiv.org/abs/2202.01660v2 )

ライセンス: Link先を確認
Evangelos Markakis and Georgios Papasotiropoulos(参考訳) 我々は、barrot と lang (2016) によって導入された古典的なミニサム承認投票ルールの一般化に焦点をあて、優先的な依存関係を持つ多項目選挙のための条件付きミニサム (cms) と呼ぶ。 このルールの下では、有権者は異なる問題間の依存関係を宣言することができるが、この高い表現力のレベルのために支払わなければならない価格は、計算的に難しいルールに終わることである。 そこで我々はまず,CMSの効率的なアルゴリズムを認める特別な事例の発見に焦点をあてる。 この方向の主な結果は、(与えられた投票から生じる適切なグラフの)有界木幅の条件を、共通の複雑性仮定の下で、正確な多項式アルゴリズムに必要な十分条件として識別することである。 その後、近似アルゴリズムの設計に移行する。 二分問題(英語版)の場合には、投票者の投票に対する自然な制限を特定し、この問題に対する最初の乗法近似アルゴリズムを提供する。 この制限は、ある問題が他の問題に持てる依存関係の数と、投票者が承認できる問題ごとの代替案の数に上限がある。 最後に, 条件付き承認選挙の戦略的制御に関わる問題の複雑性について, 投票者や代替案の追加・削除によって検討し, それらの問題の多くにおいて, CMSは制御に対して計算的に抵抗的であることを示す。 全体として、CMSは、表現性と計算効率の良好なトレードオフを実現するソリューションであり、問題間の依存関係が限られていると同時に、制御に対する十分な抵抗を示すものであると結論付けている。

We focus on a generalization of the classic Minisum approval voting rule, introduced by Barrot and Lang (2016), and referred to as Conditional Minisum (CMS), for multi-issue elections with preferential dependencies. Under this rule, voters are allowed to declare dependencies between different issues, but the price we have to pay for this higher level of expressiveness is that we end up with a computationally hard rule. Motivated by this, we first focus on finding special cases that admit efficient algorithms for CMS. Our main result in this direction is that we identify the condition of bounded treewidth (of an appropriate graph, emerging from the provided ballots) as the necessary and sufficient condition for exact polynomial algorithms, under common complexity assumptions. We then move to the design of approximation algorithms. For the (still hard) case of binary issues, we identify natural restrictions on the voters' ballots, under which we provide the first multiplicative approximation algorithms for the problem. The restrictions involve upper bounds on the number of dependencies an issue can have on the others and on the number of alternatives per issue that a voter can approve. Finally, we also investigate the complexity of problems related to the strategic control of conditional approval elections by adding or deleting either voters or alternatives and we show that in most variants of these problems, CMS is computationally resistant against control. Overall, we conclude that CMS can be viewed as a solution that achieves a satisfactory tradeoff between expressiveness and computational efficiency, when we have a limited number of dependencies among issues, while at the same time exhibiting sufficient resistance to control.
翻訳日:2023-12-01 04:23:15 公開日:2023-11-29
# 循環型予測ネットワークによる自然・敵対的ボケレンダリング

Natural & Adversarial Bokeh Rendering via Circle-of-Confusion Predictive Network ( http://arxiv.org/abs/2111.12971v3 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Geguang Pu, Yang Liu(参考訳) ボケ効果(bokeh effect)は、被写界深度の浅い自然現象である。 近年,芸術的,美的目的で,ボケの自動的,現実的ボケレンダリング手法が提案されている。 彼らは通常、複雑なトレーニング戦略とネットワークアーキテクチャを持つ最先端のデータ駆動型深層生成ネットワークを使用している。 しかし、これらの研究はボケ効果が実際の現象として、その後の視覚的知性タスク(認識など)に必然的に影響を及ぼすことを無視し、そのデータ駆動性はボケに関連する物理的パラメータ(すなわち深度)が知的タスクに与える影響を研究することを妨げている。 このギャップを埋めるために,我々は,現実的かつ自然なボケのレンダリングと,視覚知覚モデル(すなわちボケに基づく敵対的攻撃)の騙しという2つの目的からなる,自然と敵対的なボケのレンダリングという,まったく新しい問題の研究を行った。 この目的のために,データ駆動方式と物理認識方式のそれぞれの利点を生かしてハイブリッドな代替案を提案する。 具体的には、全焦点画像と深度画像を入力として、ボケの物理モデルによる最終画像のレンダリングに使用される各画素の輪郭パラメータを推定することにより、コンフュージョン予測ネットワーク(CoCNet)を提案する。 ハイブリッドソリューションにより,本手法はよりリアルなレンダリングを,より簡単なトレーニング戦略とより軽量なネットワークで実現することができる。

Bokeh effect is a natural shallow depth-of-field phenomenon that blurs the out-of-focus part in photography. In recent years, a series of works have proposed automatic and realistic bokeh rendering methods for artistic and aesthetic purposes. They usually employ cutting-edge data-driven deep generative networks with complex training strategies and network architectures. However, these works neglect that the bokeh effect, as a real phenomenon, can inevitably affect the subsequent visual intelligent tasks like recognition, and their data-driven nature prevents them from studying the influence of bokeh-related physical parameters (i.e., depth-of-the-field) on the intelligent tasks. To fill this gap, we study a totally new problem, i.e., natural & adversarial bokeh rendering, which consists of two objectives: rendering realistic and natural bokeh and fooling the visual perception models (i.e., bokeh-based adversarial attack). To this end, beyond the pure data-driven solution, we propose a hybrid alternative by taking the respective advantages of data-driven and physical-aware methods. Specifically, we propose the circle-of-confusion predictive network (CoCNet) by taking the all-in-focus image and depth image as inputs to estimate circle-of-confusion parameters for each pixel, which are employed to render the final image through a well-known physical model of bokeh. With the hybrid solution, our method could achieve more realistic rendering results with the naive training strategy and a much lighter network.
翻訳日:2023-12-01 04:22:47 公開日:2023-11-29
# NMR実験のディジタル量子シミュレーション

Digital quantum simulation of NMR experiments ( http://arxiv.org/abs/2109.13298v2 )

ライセンス: Link先を確認
Kushal Seetharam, Debopriyo Biswas, Crystal Noel, Andrew Risinger, Daiwei Zhu, Or Katz, Sambuddha Chattopadhyay, Marko Cetina, Christopher Monroe, Eugene Demler, Dries Sels(参考訳) 核磁気共鳴(NMR)実験のシミュレーションは、分子構造に関する情報を抽出し、実験プロトコルを最適化するための重要なツールであるが、タンパク質のような大きな分子やゼロフィールドNMRのようなプロトコルのための古典的なコンピュータでは、しばしば難解である。 本研究では,アセトニトリルのメチル基のゼロ場スペクトルをトラップイオン量子コンピュータの4キュービットを用いて計算し,NMRスペクトルの最初の量子シミュレーションを行った。 我々は、圧縮センシング技術を用いて、量子シミュレーションのサンプリングコストを桁違いに削減する。 NMRシステムの本質的なデコヒーレンスにより、比較的短期的な量子ハードウェア上での古典的硬質分子のゼロフィールドシミュレーションが可能となり、実験によって実証された量子アルゴリズムが、より成熟したデバイス上での科学的および技術的に関連する固体NMR実験を効率的にシミュレートする方法について論じる。 我々の研究は量子計算の実践的応用を開放する。

Simulations of nuclear magnetic resonance (NMR) experiments can be an important tool for extracting information about molecular structure and optimizing experimental protocols but are often intractable on classical computers for large molecules such as proteins and for protocols such as zero-field NMR. We demonstrate the first quantum simulation of an NMR spectrum, computing the zero-field spectrum of the methyl group of acetonitrile using four qubits of a trapped-ion quantum computer. We reduce the sampling cost of the quantum simulation by an order of magnitude using compressed sensing techniques. We show how the intrinsic decoherence of NMR systems may enable the zero-field simulation of classically hard molecules on relatively near-term quantum hardware and discuss how the experimentally demonstrated quantum algorithm can be used to efficiently simulate scientifically and technologically relevant solid-state NMR experiments on more mature devices. Our work opens a practical application for quantum computation.
翻訳日:2023-12-01 04:22:04 公開日:2023-11-29
# Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image Captioning

Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image Captioning ( http://arxiv.org/abs/2302.02124v2 )

ライセンス: Link先を確認
Jingqiang Chen(参考訳) コヒーレントなエンティティアウェアマルチイメージキャプションは、ニュースドキュメント内の隣接画像に対するコヒーレントキャプションを生成することを目的としている。 同一の実体や事象をしばしば記述するため、隣り合う画像の間にはコヒーレンス関係がある。 これらの関係は、エンティティ対応のマルチイメージキャプションにおいて重要であるが、エンティティ対応のシングルイメージキャプションでは無視される。 既存の作品の多くは単一画像キャプションに焦点を当てているが、複数画像キャプションはこれまでに研究されていない。 そこで本稿では,コヒーレンス関係を利用したコヒーレントなエンティティ対応多画像キャプションモデルを提案する。 このモデルはトランスフォーマーベースのキャプション生成モデルと2種類のコントラスト学習ベースのコヒーレンス機構から構成される。 生成モデルは、画像及び付随するテキストに注意を払ってキャプションを生成する。 キャプション・キャプチャ・コヒーレンス機構は、キャプション内のエンティティを隣り合う画像のキャプションにもレンダリングすることを目的としている。 キャプション・イメージ・テキスト・コヒーレンス機構は、画像のキャプション内のエンティティを付随するテキストにもレンダリングすることを目的としている。 キャプション間のコヒーレンスを評価するために,2つのコヒーレンス評価指標を提案する。 新しいデータセットDM800Kは、既存の2つのデータセットであるGoodNewsとNYT800Kよりもドキュメント当たりの画像が多く、マルチイメージキャプションに適している。 3つのデータセットの実験では、提案されたキャプションモデルがBLUE, Rouge, METEOR, およびエンティティ精度とリコールスコアに従って7つのベースラインを上回っている。 実験の結果, 生成したキャプションは, キャプションエンティティスコア, キャプションルージュスコア, 提案した2つのコヒーレンス評価指標, 人的評価に基づいて, ベースラインよりもコヒーレントであることがわかった。

Coherent entity-aware multi-image captioning aims to generate coherent captions for neighboring images in a news document. There are coherence relationships among neighboring images because they often describe same entities or events. These relationships are important for entity-aware multi-image captioning, but are neglected in entity-aware single-image captioning. Most existing work focuses on single-image captioning, while multi-image captioning has not been explored before. Hence, this paper proposes a coherent entity-aware multi-image captioning model by making use of coherence relationships. The model consists of a Transformer-based caption generation model and two types of contrastive learning-based coherence mechanisms. The generation model generates the caption by paying attention to the image and the accompanying text. The caption-caption coherence mechanism aims to render entities in the caption of the image be also in captions of neighboring images. The caption-image-text coherence mechanism aims to render entities in the caption of the image be also in the accompanying text. To evaluate coherence between captions, two coherence evaluation metrics are proposed. The new dataset DM800K is constructed that has more images per document than two existing datasets GoodNews and NYT800K, and is more suitable for multi-image captioning. Experiments on three datasets show the proposed captioning model outperforms 7 baselines according to BLUE, Rouge, METEOR, and entity precision and recall scores. Experiments also show that the generated captions are more coherent than that of baselines according to caption entity scores, caption Rouge scores, the two proposed coherence evaluation metrics, and human evaluations.
翻訳日:2023-12-01 04:14:55 公開日:2023-11-29
# 拡散モデルを用いたエンドツーエンドチャネル符号化の学習

Learning End-to-End Channel Coding with Diffusion Models ( http://arxiv.org/abs/2302.01714v2 )

ライセンス: Link先を確認
Muah Kim, Rick Fritschek, Rafael F. Schaefer(参考訳) e2e(deep-learning-based end-to-end)チャネル符号化システムでは,学習過程と勾配・発光最適化法に基づく既知のチャネルモデルに依存することが知られている。 これにより、パイロットシグナリングによって現実のシナリオで生成されたサンプルからチャネルやその誘導体を近似または生成する。 現在、この問題を解決する方法は2つある。 1つは、生成的逆ネットワーク(gan)を介してチャネルを生成し、もう1つは、基本的に、強化学習手法による勾配を近似することである。 その他の方法はスコアベースの方法、変分オートエンコーダ、相互情報に基づく方法などである。 本稿では,生成モデルに着目し,特に画像ベースのタスクにおいて高い生成品質を示す拡散モデルと呼ばれる新しい有望な手法について述べる。 無線E2Eシナリオでは拡散モデルが利用可能であり,Wasserstein GANと同等に機能し,より安定したトレーニング手順と,テストにおける一般化能力を有することを示す。

It is a known problem that deep-learning-based end-to-end (E2E) channel coding systems depend on a known and differentiable channel model, due to the learning process and based on the gradient-descent optimization methods. This places the challenge to approximate or generate the channel or its derivative from samples generated by pilot signaling in real-world scenarios. Currently, there are two prevalent methods to solve this problem. One is to generate the channel via a generative adversarial network (GAN), and the other is to, in essence, approximate the gradient via reinforcement learning methods. Other methods include using score-based methods, variational autoencoders, or mutual-information-based methods. In this paper, we focus on generative models and, in particular, on a new promising method called diffusion models, which have shown a higher quality of generation in image-based tasks. We will show that diffusion models can be used in wireless E2E scenarios and that they work as good as Wasserstein GANs while having a more stable training procedure and a better generalization ability in testing.
翻訳日:2023-12-01 04:14:21 公開日:2023-11-29
# タイムキーピングデバイスの基本精度と精度のトレードオフ

Fundamental accuracy-resolution trade-off for timekeeping devices ( http://arxiv.org/abs/2301.05173v3 )

ライセンス: Link先を確認
Florian Meier, Emanuel Schwarzhans, Paul Erker, Marcus Huber(参考訳) 熱力学の観点からは、全ての時計は不可逆過程によって駆動される。 さらに、振動系を用いて熱力学的フラックスを平衡に時間的に変調することができる。 最も基本的な熱化現象に着目して、この変調はこれらの事象の時間的確率集中と見なすことができる。 時計の性能を制限する2つの基本的な要因がある: 1つのレベルでは、振動系の避けられないドリフトは、現在の時計の驚くべき精度につながる安定した原子または核遷移を見つけることによって対処される。 他方のレベルでは、クロックの動作がベースとなる不可逆事象の本質的な確率的性質が存在する。 これは、時計の解像度を高い精度で最大化しようとするときに重要となるが、これは最終的に基準時間単位あたりの確率的事象の数によって制限される。 我々は、このクロック精度と分解能の基本的なトレードオフに対処し、基本的な熱化イベントがメモリレスである全てのクロックの普遍的な境界を証明した。

From a thermodynamic point of view, all clocks are driven by irreversible processes. Additionally, one can use oscillatory systems to temporally modulate the thermodynamic flux towards equilibrium. Focusing on the most elementary thermalization events, this modulation can be thought of as a temporal probability concentration for these events. There are two fundamental factors limiting the performance of clocks: On the one level, the inevitable drifts of the oscillatory system, which are addressed by finding stable atomic or nuclear transitions that lead to astounding precision of today's clocks. On the other level, there is the intrinsically stochastic nature of the irreversible events upon which the clock's operation is based. This becomes relevant when seeking to maximize a clock's resolution at high accuracy, which is ultimately limited by the number of such stochastic events per reference time unit. We address this essential trade-off between clock accuracy and resolution, proving a universal bound for all clocks whose elementary thermalization events are memoryless.
翻訳日:2023-12-01 04:13:57 公開日:2023-11-29
# エンタングルメント効率の二部分散量子コンピューティング

Entanglement-efficient bipartite-distributed quantum computing ( http://arxiv.org/abs/2212.12688v3 )

ライセンス: Link先を確認
Jun-Yi Wu, Kosuke Matsui, Tim Forrer, Akihito Soeda, Pablo Andr\'es-Mart\'inez, Daniel Mills, Luciana Henaut, Mio Murao(参考訳) ノイズの多い中間スケールの量子コンピューティングでは、単一量子処理ユニット(QPU)の限られたスケーラビリティは分散量子コンピューティング(DQC)によって拡張され、2つのQPU上でのグローバルな演算を、絡み合い支援された局所演算と古典的な通信によって実装することができる。 このタイプのDQCを実験で容易にするためには、絡み合い効率の高いプロトコルが必要である。 この目的のために,本プロトコルを (Eisert et. al., PRA, 62:052317(2000)] で拡張し, 各非局所制御単位ゲートを1つの最大絡み合ったペアでローカルに実装し, 最大絡み合ったペアで複数の非局所制御単位ゲートをローカルにパックする。 特に2種類のパッキングプロセスがビルディングブロック、すなわち配布プロセスと組込みプロセスとして導入されている。 各分配プロセスは、1つの絡み合ったペアで対応するゲートをローカルに分配する。 エンタングルメントの効率は、2つの非シーケンス分散プロセスをマージしてエンタングルメントコストを節約する埋め込みプロセスによって向上する。 量子回路の分散性と埋め込み性の構造は、対応するパッキンググラフとコンフリクトグラフによって完全に表現できることを示す。 これらのグラフに基づいて、与えられた量子回路の分配過程の絡み合い効率のよいパッキングを見つけるためのヒューリスティックアルゴリズムを導出する。 これらのアルゴリズムは、DQC内の局所補助量子ビットの必要個数を決定できる。 これらのアルゴリズムをユニタリ結合クラスタ回路の2分割DQCに適用し、埋め込みによる絡み合いコストを大幅に削減する。 この方法は、量子回路のDQCの絡み合いコストに関する構築上の上限を決定することができる。

In noisy intermediate-scale quantum computing, the limited scalability of a single quantum processing unit (QPU) can be extended through distributed quantum computing (DQC), in which one can implement global operations over two QPUs by entanglement-assisted local operations and classical communication. To facilitate this type of DQC in experiments, we need an entanglement-efficient protocol. To this end, we extend the protocol in [Eisert et. al., PRA, 62:052317(2000)] implementing each nonlocal controlled-unitary gate locally with one maximally entangled pair to a packing protocol, which can pack multiple nonlocal controlled-unitary gates locally using one maximally entangled pair. In particular, two types of packing processes are introduced as the building blocks, namely the distributing processes and embedding processes. Each distributing process distributes corresponding gates locally with one entangled pair. The efficiency of entanglement is then enhanced by embedding processes, which merge two non-sequential distributing processes and hence save the entanglement cost. We show that the structure of distributability and embeddability of a quantum circuit can be fully represented by the corresponding packing graphs and conflict graphs. Based on these graphs, we derive heuristic algorithms for finding an entanglement-efficient packing of distributing processes for a given quantum circuit to be implemented by two parties. These algorithms can determine the required number of local auxiliary qubits in the DQC. We apply these algorithms for bipartite DQC of unitary coupled-cluster circuits and find a significant reduction of entanglement cost through embeddings. This method can determine a constructive upper bound on the entanglement cost for the DQC of quantum circuits.
翻訳日:2023-12-01 04:13:41 公開日:2023-11-29
# 並列シーケンス学習のための拡散グランシング変換器

Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning ( http://arxiv.org/abs/2212.10240v2 )

ライセンス: Link先を確認
Lihua Qian, Mingxuan Wang, Yang Liu, Hao Zhou(参考訳) 従来、非自己回帰モデルは、複数の目標モダリティのモデリングが困難であるため、生成効率は優れているが、生成品質は劣っていると広く認識されていた。 マルチモダリティモデリング能力を向上させるために,モダリティ拡散過程と残留グライシングサンプリングを用いた拡散グライシングトランスを提案する。 モダリティ拡散過程は、復号過程に沿って多重モーダル分布を補間する離散過程であり、残留グラランシングサンプリングアプローチはモデルを誘導し、残りのモダリティを層全体で連続的に学習する。 各種機械翻訳およびテキスト生成ベンチマークの実験結果から、DIFFGLATは自己回帰モデルと非自己回帰モデルの両方と比較して高速な復号速度を維持しつつ、より優れた生成精度を実現することが示された。

Previously, non-autoregressive models were widely perceived as being superior in generation efficiency but inferior in generation quality due to the difficulties of modeling multiple target modalities. To enhance the multi-modality modeling ability, we propose the diffusion glancing transformer, which employs a modality diffusion process and residual glancing sampling. The modality diffusion process is a discrete process that interpolates the multi-modal distribution along the decoding steps, and the residual glancing sampling approach guides the model to continuously learn the remaining modalities across the layers. Experimental results on various machine translation and text generation benchmarks demonstrate that DIFFGLAT achieves better generation accuracy while maintaining fast decoding speed compared with both autoregressive and non-autoregressive models.
翻訳日:2023-12-01 04:13:11 公開日:2023-11-29
# 説明手法によるトランスフォーマーとcnnによる意思決定機構の比較

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods ( http://arxiv.org/abs/2212.06872v3 )

ライセンス: Link先を確認
Mingqi Jiang, Saeed Khorram and Li Fuxin(参考訳) 異なる視覚認識バックボーンが意思決定を行う方法についてより深く学ぶため、データセット全体にわたって深層説明アルゴリズムを体系的に適用し、説明の量と性質から生成された統計を比較して、異なるモデルの意思決定に関する洞察を得る手法を提案する。 具体的には,サブスプランテーションカウントとクロステストという2つの手法を提案する。 これらの手法は、構成性と可分性と呼ばれる2つの性質の観点から、ネットワーク間の差異を明らかにする。 トランスフォーマーとConvNeXtは、画像の複数の部分を共同で検討し、従来のCNNと蒸留トランスフォーマーはより構成的であり、より分離的であるため、複数の多様な、より小さな部品を用いて、自信ある予測を下すことができる。 さらなる実験を通じて、モデルの構成性において特に重要な正規化の選択は、バッチ正規化によって構成性が低下する一方、グループおよび層正規化はより重要となる。 最後に、異なるバックボーンで共有される機能を分析し、その機能利用の類似性に基づいて異なるモデルのランドスケープをプロットします。

In order to learn better about how different visual recognition backbones make decisions, we propose a methodology that systematically applies deep explanation algorithms on a dataset-wide basis, and compares the statistics generated from the amount and nature of the explanations to gain insights about the decision-making of different models. Specifically, we propose two methodologies called sub-explanation counting and cross-testing. These methodologies reveal the difference among networks in terms of two properties called compositionality and disjunctivism. Transformers and ConvNeXt are found to be more compositional, in the sense that they jointly consider multiple parts of the image in building their decisions, whereas traditional CNNs and distilled transformers are less compositional and more disjunctive, which means that they use multiple diverse but smaller set of parts to achieve a confident prediction. Through further experiments, we pinpointed the choice of normalization to be especially important in the compositionality of a model, in that batch normalization leads to less compositionality while group and layer normalization lead to more. Finally, we also analyze the features shared by different backbones and plot a landscape of different models based on their feature-use similarity.
翻訳日:2023-12-01 04:12:40 公開日:2023-11-29
# 古典的雑音の存在下での自己保護量子シミュレーションと量子位相推定

Self-protected quantum simulation and quantum phase estimation in the presence of classical noise ( http://arxiv.org/abs/2212.03664v3 )

ライセンス: Link先を確認
Lian-Ao Wu(参考訳) デコヒーレンス現象は必然的に量子コンピューティングプロセスに存在する。 したがって、動的デカップリングや量子誤り訂正符号(QECC)などによるデコヒーレンスの動的抑制は、既知の量子アルゴリズムや、現在開発中の量子アルゴリズムの正確な実行に不可欠である。 このダイナミックゼロノイズ戦略は量子コンピューティングの将来への期待に合致するが、現状を踏まえると、我々は15年以上にわたって自己保護型量子アルゴリズムを、反対のリビング・アンド・ノイズ戦略に基づいて立ち上げてきた。 本稿では,古典的雑音に免疫する自己保護量子シミュレーションを提案する。 したがって、読み出しには従来の量子位相推定を古典雑音の存在下でのアップグレード版に一般化する。

The decoherence phenomenon inevitably exists in quantum computing processes. Consequently, dynamic suppression of decoherence for instance via dynamical decoupling, quantum error correction codes (QECC) etc. is crucial in accurately executing known or to-be-developed quantum algorithms. While this dynamic zero noise strategy well fits into our expectations for the future of quantum computing, given the status quo, we have launched self-protected quantum algorithms for over 15 years based on the opposite living-with-noise strategy. Here we propose self-protected quantum simulations immune to a large class of classical noise. Accordingly, for readout we generalize the conventional quantum phase estimation to its upgraded version in the presence of classical noise.
翻訳日:2023-12-01 04:12:19 公開日:2023-11-29
# LibSignal: トラフィック信号制御のためのオープンライブラリ

LibSignal: An Open Library for Traffic Signal Control ( http://arxiv.org/abs/2211.10649v2 )

ライセンス: Link先を確認
Hao Mei, Xiaoliang Lei, Longchao Da, Bin Shi, Hua Wei(参考訳) 本稿では,信号制御タスクにおける強化学習モデルのクロスシミュレータ比較のためのライブラリを提案する。 このライブラリは、拡張可能なインターフェースとクロスシミュレーター評価メトリクスを統一した最新の最先端強化学習モデルを実装するために開発された。 交通信号制御タスクで一般的に使用されるシミュレーター(SUMO)やCityFlow、公正な比較のための複数のベンチマークデータセットなど)をサポートする。 我々は,モデルの実装を検証する実験を行い,シミュレータのキャリブレーションを行い,一方のシミュレータによる実験を他方のシミュレータに参照できるようにした。 検証されたモデルと校正環境に基づいて、異なるデータセットやシミュレータ間での現在の最先端RLアルゴリズムの性能を比較し、報告する。 これらの手法が、異なるシミュレーターで同じデータセットでかなり比較されたのはこれが初めてである。

This paper introduces a library for cross-simulator comparison of reinforcement learning models in traffic signal control tasks. This library is developed to implement recent state-of-the-art reinforcement learning models with extensible interfaces and unified cross-simulator evaluation metrics. It supports commonly-used simulators in traffic signal control tasks, including Simulation of Urban MObility(SUMO) and CityFlow, and multiple benchmark datasets for fair comparisons. We conducted experiments to validate our implementation of the models and to calibrate the simulators so that the experiments from one simulator could be referential to the other. Based on the validated models and calibrated environments, this paper compares and reports the performance of current state-of-the-art RL algorithms across different datasets and simulators. This is the first time that these methods have been compared fairly under the same datasets with different simulators.
翻訳日:2023-12-01 04:12:07 公開日:2023-11-29
# 変分量子計算化学のシミュレーションのための微分行列積状態

Differentiable matrix product states for simulating variational quantum computational chemistry ( http://arxiv.org/abs/2211.07983v3 )

ライセンス: Link先を確認
Chu Guo, Yi Fan, Zhiqian Xu, Honghui Shang(参考訳) 量子コンピューティングは量子化学問題の究極の解であると考えられている。 大規模でフォールトトレラントな量子コンピュータが出現する以前、変分量子固有ソルバ(vqe)は、有望なヒューリスティック量子アルゴリズムであり、近距離ノイズ量子コンピュータにおける実世界の量子化学問題を解決する。 本稿では,量子状態の行列積状態表現に基づくvqe用高度並列化可能な古典的シミュレータを提案する。 シミュレーションでは、量子回路の進化を古典的自己微分フレームワークにシームレスに統合することで、勾配を古典的ディープニューラルネットワークと同様の効率良く計算し、変動パラメータの数に依存しないスケーリングを行うことができる。 応用として、我々のシミュレーターを用いて、一般的なHF、HCl、LiH、H$_2$Oなどの小分子と、最大40ドルの量子ビットを持つより大きな分子CO$_2$、BeH$_2$、H$_4$を研究する。 量子ビット数とパラメータ数に対するシミュレータのスケーリングは、近距離量子アルゴリズムの理想的なテスト基盤となり、ノイズの多い量子コンピュータで大規模なVQE実験を行うための完璧なベンチマークベースラインとなる。

Quantum Computing is believed to be the ultimate solution for quantum chemistry problems. Before the advent of large-scale, fully fault-tolerant quantum computers, the variational quantum eigensolver~(VQE) is a promising heuristic quantum algorithm to solve real world quantum chemistry problems on near-term noisy quantum computers. Here we propose a highly parallelizable classical simulator for VQE based on the matrix product state representation of quantum state, which significantly extend the simulation range of the existing simulators. Our simulator seamlessly integrates the quantum circuit evolution into the classical auto-differentiation framework, thus the gradients could be computed efficiently similar to the classical deep neural network, with a scaling that is independent of the number of variational parameters. As applications, we use our simulator to study commonly used small molecules such as HF, HCl, LiH and H$_2$O, as well as larger molecules CO$_2$, BeH$_2$ and H$_4$ with up to $40$ qubits. The favorable scaling of our simulator against the number of qubits and the number of parameters could make it an ideal testing ground for near-term quantum algorithms and a perfect benchmarking baseline for oncoming large scale VQE experiments on noisy quantum computers.
翻訳日:2023-12-01 04:11:54 公開日:2023-11-29
# グラフニューラルネットワークの分散トレーニングに関する総合調査

A Comprehensive Survey on Distributed Training of Graph Neural Networks ( http://arxiv.org/abs/2211.05368v3 )

ライセンス: Link先を確認
Haiyang Lin, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Shirui Pan, Wenguang Chen, Yuan Xie(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習する上で有効であるために、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。 gnnトレーニングを大規模かつ成長を続けるグラフにスケールアップするには、最も有望なソリューションは、複数のコンピューティングノードにトレーニングのワークロードを分散する分散トレーニングである。 現在、分散gnnトレーニングに関する関連する研究の量は、非常に広範囲に及び、非常に急速な出版ペースが伴っている。 さらに、これらの研究で報告されたアプローチは大きな違いを示す。 この状況は新参者にとって大きな課題となり、ワークフロー、計算パターン、通信戦略、分散GNNトレーニングで使用される最適化技術に関する包括的な理解を阻害する。 その結果、この分野における正しい認識、分析、比較を提供するための調査の必要性が高まっている。 本稿では,分散GNNトレーニングにおける各種最適化手法を探索し,分散GNNトレーニングの総合的な調査を行う。 まず、分散GNNトレーニングはワークフローに応じていくつかのカテゴリに分類される。 また,それらの計算パターンと通信パターン,および最近の研究で提案されている最適化手法についても紹介する。 第二に、分散GNNトレーニングのソフトウェアフレームワークとハードウェアプラットフォームもより深く理解するために導入されています。 第3に、分散GNNトレーニングは、分散GNNトレーニングの独自性を強調したディープニューラルネットワークの分散トレーニングと比較される。 最後に、この分野における興味深い問題と機会について論じる。

Graph neural networks (GNNs) have been demonstrated to be a powerful algorithmic model in broad application fields for their effectiveness in learning over graphs. To scale GNN training up for large-scale and ever-growing graphs, the most promising solution is distributed training which distributes the workload of training across multiple computing nodes. At present, the volume of related research on distributed GNN training is exceptionally vast, accompanied by an extraordinarily rapid pace of publication. Moreover, the approaches reported in these studies exhibit significant divergence. This situation poses a considerable challenge for newcomers, hindering their ability to grasp a comprehensive understanding of the workflows, computational patterns, communication strategies, and optimization techniques employed in distributed GNN training. As a result, there is a pressing need for a survey to provide correct recognition, analysis, and comparisons in this field. In this paper, we provide a comprehensive survey of distributed GNN training by investigating various optimization techniques used in distributed GNN training. First, distributed GNN training is classified into several categories according to their workflows. In addition, their computational patterns and communication patterns, as well as the optimization techniques proposed by recent work are introduced. Second, the software frameworks and hardware platforms of distributed GNN training are also introduced for a deeper understanding. Third, distributed GNN training is compared with distributed training of deep neural networks, emphasizing the uniqueness of distributed GNN training. Finally, interesting issues and opportunities in this field are discussed.
翻訳日:2023-12-01 04:11:29 公開日:2023-11-29
# 確率的勾配降下法に対する厳密な動的平均場理論

Rigorous dynamical mean field theory for stochastic gradient descent methods ( http://arxiv.org/abs/2210.06591v3 )

ライセンス: Link先を確認
Cedric Gerbelot, Emanuele Troiani, Francesca Mignacco, Florent Krzakala and Lenka Zdeborova(参考訳) 経験的リスク最小化を伴うガウスデータを用いた観測から推定器(例えば、m-推定器、浅いニューラルネットワーク、...)を学習し、一階勾配に基づく手法の厳密な高次元漸近性に対する閉形式方程式を証明した。 これには確率勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。 得られた方程式は、勾配流に適用した場合の統計物理学からの力学平均場理論(DMFT)方程式の離散化の結果と一致する。 提案手法では,メモリカーネルの効率的な動的構造を明示的に記述し,非同一性共分散行列を持つデータセットに非分離性更新関数を含めることができる。 最後に,SGDの一般化されたバッチサイズおよび定常学習率を持つ方程式の数値的実装を提案する。

We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, ...) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates.
翻訳日:2023-12-01 04:10:55 公開日:2023-11-29
# TCDM: 知覚的クラウド品質評価のための変換複雑度に基づく歪み指標

TCDM: Transformational Complexity Based Distortion Metric for Perceptual Point Cloud Quality Assessment ( http://arxiv.org/abs/2210.04671v3 )

ライセンス: Link先を確認
Yujie Zhang, Qi Yang, Yifei Zhou, Xiaozhong Xu, Le Yang, Yiling Xu(参考訳) 客観的クラウド品質評価(PCQA)研究の目標は、ポイントクラウド品質を知覚的に一貫した方法で測定する定量的メトリクスを開発することである。 本稿では,認知科学と人間の視覚システム(HVS)の直観を融合させ,歪んだ点雲を基準に戻す複雑さを計測することにより,点雲の品質を評価する。 この目的のために,まず3次元ボロノイ図に基づいて,参照点雲と歪点雲の空間分割を行い,一連の局所パッチペアを得る。 次に,予測符号化理論に触発されて,空間認識ベクトル自己回帰(sa-var)モデルを用いて,各参照パッチの形状と色チャネルをそれぞれ歪むパッチの有無で符号化する。 残差誤差が多変量ガウス分布に従うと仮定すると、参照と歪んだサンプル間の参照と変換の複雑さは共分散行列を用いて計算される。 また、最終品質予測を促進するために、sa-varが生成する予測項を補助機能として導入する。 提案手法であるtcdm(transformal complexity based distortion metric)の有効性を,5つのパブリッククラウド品質評価データベース上で広範な実験により評価した。 その結果、TCDMは最先端(SOTA)の性能を達成し、さらに分析により様々なシナリオにおける堅牢性を確認した。 コードはhttps://github.com/zyj1318053/TCDMで公開されている。

The goal of objective point cloud quality assessment (PCQA) research is to develop quantitative metrics that measure point cloud quality in a perceptually consistent manner. Merging the research of cognitive science and intuition of the human visual system (HVS), in this paper, we evaluate the point cloud quality by measuring the complexity of transforming the distorted point cloud back to its reference, which in practice can be approximated by the code length of one point cloud when the other is given. For this purpose, we first make space segmentation for the reference and distorted point clouds based on a 3D Voronoi diagram to obtain a series of local patch pairs. Next, inspired by the predictive coding theory, we utilize a space-aware vector autoregressive (SA-VAR) model to encode the geometry and color channels of each reference patch with and without the distorted patch, respectively. Assuming that the residual errors follow the multi-variate Gaussian distributions, the self-complexity of the reference and transformational complexity between the reference and distorted samples are computed using covariance matrices. Additionally, the prediction terms generated by SA-VAR are introduced as one auxiliary feature to promote the final quality prediction. The effectiveness of the proposed transformational complexity based distortion metric (TCDM) is evaluated through extensive experiments conducted on five public point cloud quality assessment databases. The results demonstrate that TCDM achieves state-of-the-art (SOTA) performance, and further analysis confirms its robustness in various scenarios. The code is publicly available at https://github.com/zyj1318053/TCDM.
翻訳日:2023-12-01 04:10:40 公開日:2023-11-29
# 大規模言語モデルを用いた人型翻訳戦略の探索

Exploring Human-Like Translation Strategy with Large Language Models ( http://arxiv.org/abs/2305.04118v3 )

ライセンス: Link先を確認
Zhiwei He, Tian Liang, Wenxiang Jiao, Zhuosheng Zhang, Yujiu Yang, Rui Wang, Zhaopeng Tu, Shuming Shi, Xing Wang(参考訳) 大規模言語モデル(LLM)は一般的なシナリオにおいて印象的な能力を示しており、人間レベルの知性を超えている面もある。 数多くの技術の中で、LLMの翻訳能力に大きな注目を集めている。 ソースからターゲットへのマッピングのみに焦点を当てた一般的な機械翻訳と比較して、llmベースの翻訳は、高品質翻訳を確実にするために準備段階を要した人間の翻訳プロセスを模倣する可能性がある。 本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。 具体的には、まずLLMが与えられたソース文を分析し、キーワード、トピック、関連するデモという翻訳関連知識の3つの側面を誘導し、最終翻訳プロセスを導く。 さらに, 品質推定に基づく選択機構を用いて, うるさい知識や役に立たない知識をフィルタリングする。 automatic (3 llms x 11 direction x 2 automatic metrics) と human evaluation (preference study and mqm) の両方がmapsの有効性を示している。 さらに、ヒトの翻訳過程を模倣することにより、MAPSは幻覚、曖昧さ、誤訳、ぎこちないスタイル、翻訳されていないテキスト、省略といった様々な翻訳エラーを減らす。 ソースコードはhttps://github.com/zwhe99/maps-mtで入手できる。

Large language models (LLMs) have demonstrated impressive capabilities in general scenarios, exhibiting a level of aptitude that approaches, in some aspects even surpasses, human-level intelligence. Among their numerous skills, the translation abilities of LLMs have received considerable attention. Compared to typical machine translation that focuses solely on source-to-target mapping, LLM-based translation can potentially mimic the human translation process which might take preparatory steps to ensure high-quality translation. This work explores this possibility by proposing the MAPS framework, which stands for Multi-Aspect Prompting and Selection. Specifically, we enable LLMs first to analyze the given source sentence and induce three aspects of translation-related knowledge: keywords, topics, and relevant demonstrations to guide the final translation process. Moreover, we employ a selection mechanism based on quality estimation to filter out noisy and unhelpful knowledge. Both automatic (3 LLMs x 11 directions x 2 automatic metrics) and human evaluation (preference study and MQM) demonstrate the effectiveness of MAPS. Further analysis shows that by mimicking the human translation process, MAPS reduces various translation errors such as hallucination, ambiguity, mistranslation, awkward style, untranslated text, and omission. Source code is available at https://github.com/zwhe99/MAPS-mt.
翻訳日:2023-12-01 04:05:13 公開日:2023-11-29
# キャビティ-マグノン-クビット系における量子ビットの2トーン駆動によるマグノンスクイーズ

Magnon squeezing by two-tone driving of a qubit in cavity-magnon-qubit systems ( http://arxiv.org/abs/2304.10760v4 )

ライセンス: Link先を確認
Qi Guo, Jiong Cheng, Huatang Tan, Jie Li(参考訳) ハイブリッドキャビティ-マグノン-量子ビット系におけるマグノン圧縮状態の生成手法を提案する。 このシステムは、磁気双極子相互作用を介してマクロイットリウム-鉄-ガーネット(YIG)球のマグノンモードと同時に結合するマイクロ波空洞と、電気双極子相互作用を介してトランスモン型超伝導量子ビットからなる。 マグノン量子系から遠く離れることで、マイクロ波空洞は断熱的に除去される。 マグノンモードと量子ビットはマイクロ波共振器の仮想光子の仲介によって効果的に結合される。 2つのマイクロ波場で量子ビットを駆動し、駆動周波数と強度を適切に選択することで、マグノニックパラメトリック増幅を実現し、真空ゆらぎ以下のノイズでマグノン二次スクイーズを生じさせることを示した。 我々は,マグノンスクイーズを実現するための最適条件を提案し,現在利用可能なパラメータを用いて適度なスクイーズを得ることができる。 生成したスクイーズ状態は10^{18}$スピン以上を含むマグノンモードであり、従ってマクロ量子状態である。 この研究は、マグノンに基づく量子情報処理と高精度測定、およびマクロ量子状態の研究に有望な応用を見出すことができる。

We propose a scheme for preparing magnon squeezed states in a hybrid cavity-magnon-qubit system. The system consists of a microwave cavity that simultaneously couples to a magnon mode of a macroscopic yttrium-iron-garnet (YIG) sphere via the magnetic-dipole interaction and to a transmon-type superconducting qubit via the electric-dipole interaction. By far detuning from the magnon-qubit system, the microwave cavity is adiabatically eliminated. The magnon mode and the qubit then get effectively coupled via the mediation of virtual photons of the microwave cavity. We show that by driving the qubit with two microwave fields and by appropriately choosing the drive frequencies and strengths, magnonic parametric amplification can be realized, which leads to magnon quadrature squeezing with the noise below vacuum fluctuation. We provide optimal conditions for achieving magnon squeezing, and moderate squeezing can be obtained using currently available parameters. The generated squeezed states are of a magnon mode involving more than $10^{18}$ spins and thus macroscopic quantum states. The work may find promising applications in quantum information processing and high-precision measurements based on magnons and in the study of macroscopic quantum states.
翻訳日:2023-12-01 04:04:49 公開日:2023-11-29
# spcolor:意味的事前ガイドに基づく画像カラー化

SPColor: Semantic Prior Guided Exemplar-based Image Colorization ( http://arxiv.org/abs/2304.06255v3 )

ライセンス: Link先を確認
Siqi Chen, Xueming Li, Xianlin Zhang, Mingdao Wang, Yu Zhang, Yue Zhang(参考訳) Exemplar-based image colorizationは、色基準画像に基づいて対象のグレースケール画像をカラー化することを目的としており、鍵となるのは、これらの2つの画像間の正確なピクセルレベルのセマンティック対応を確立することである。 以前の手法では、参照画像全体にわたって対応を検索しており、このタイプのグローバルマッチングはミスマッチが容易である。 1)基準画像が対象画像に関連するオブジェクトの一部のみを含む場合,不適切な対応が非関連領域に確立される。 2) 物体の形状やテクスチャが容易に混同される地域では, ミスマッチが生じやすい。 これらの課題を克服するために,先進的な先進的な画像カラー化フレームワークであるSPColorを提案する。 従来の手法と異なり、SPColorはまず、参照画像とターゲット画像の画素をセマンティック先行の指示の下で複数の擬似クラスに分類し、その後、新たに設計されたセマンティック先行対応ネットワークを介して、同一クラスの画素間でのみ対応性を確立する。 このように、異なる意味クラス間の不適切な対応は明示的に除外され、明らかにミスマッチは緩和される。 また、色を基準からよりよく保つために、知覚的損失を隠蔽する類似性を設計する。 慎重に設計されたSPColorは、教師なしセグメンテーションモデルによって提供されるセグメンテーションの事前設定を利用する。 実験により,我々のモデルは,公開データセット上で定量的かつ定性的に,最新の最先端手法よりも優れていることが証明された。

Exemplar-based image colorization aims to colorize a target grayscale image based on a color reference image, and the key is to establish accurate pixel-level semantic correspondence between these two images. Previous methods search for correspondence across the entire reference image, and this type of global matching is easy to get mismatch. We summarize the difficulties in two aspects: (1) When the reference image only contains a part of objects related to target image, improper correspondence will be established in unrelated regions. (2) It is prone to get mismatch in regions where the shape or texture of the object is easily confused. To overcome these issues, we propose SPColor, a semantic prior guided exemplar-based image colorization framework. Different from previous methods, SPColor first coarsely classifies pixels of the reference and target images to several pseudo-classes under the guidance of semantic prior, then the correspondences are only established locally between the pixels in the same class via the newly designed semantic prior guided correspondence network. In this way, improper correspondence between different semantic classes is explicitly excluded, and the mismatch is obviously alleviated. Besides, to better reserve the color from reference, a similarity masked perceptual loss is designed. Noting that the carefully designed SPColor utilizes the semantic prior provided by an unsupervised segmentation model, which is free for additional manual semantic annotations. Experiments demonstrate that our model outperforms recent state-of-the-art methods both quantitatively and qualitatively on public dataset.
翻訳日:2023-12-01 04:04:26 公開日:2023-11-29
# クロスアテンションガイダンスを用いたトレーニングフリーレイアウト制御

Training-Free Layout Control with Cross-Attention Guidance ( http://arxiv.org/abs/2304.03373v2 )

ライセンス: Link先を確認
Minghao Chen, Iro Laina, Andrea Vedaldi(参考訳) 最近の拡散型ジェネレータはテキストプロンプトから高品質な画像を生成することができる。 しかし、しばしば構成の空間配置を規定するテキスト命令を無視している。 画像生成器のトレーニングや微調整を必要とせず,ロバストなレイアウト制御を実現するシンプルな手法を提案する。 本手法は,モデルがテキスト情報と視覚情報をインタフェースするために使用するクロス・アテンション・レイヤを操作し,ユーザが指定したレイアウトなど,所望の方向に生成を制御する。 注意を最もよく導く方法を決定するために,注意マップの役割を研究し,前方と後方の2つの戦略を探求する。 我々は、3つのベンチマークに対するアプローチを徹底的に評価し、いくつかの質的例と、前もっての作業と同様に後ろ向きのガイダンスの優位性を示す2つの戦略の比較分析を行った。 さらに,実画像のレイアウトやコンテキストの編集などのアプリケーションに拡張することにより,レイアウトガイダンスの汎用性を示す。

Recent diffusion-based generators can produce high-quality images from textual prompts. However, they often disregard textual instructions that specify the spatial layout of the composition. We propose a simple approach that achieves robust layout control without the need for training or fine-tuning of the image generator. Our technique manipulates the cross-attention layers that the model uses to interface textual and visual information and steers the generation in the desired direction given, e.g., a user-specified layout. To determine how to best guide attention, we study the role of attention maps and explore two alternative strategies, forward and backward guidance. We thoroughly evaluate our approach on three benchmarks and provide several qualitative examples and a comparative analysis of the two strategies that demonstrate the superiority of backward guidance compared to forward guidance, as well as prior work. We further demonstrate the versatility of layout guidance by extending it to applications such as editing the layout and context of real images.
翻訳日:2023-12-01 04:03:55 公開日:2023-11-29
# 多孔質結晶材料の等変パラメータ共有

Equivariant Parameter Sharing for Porous Crystalline Materials ( http://arxiv.org/abs/2304.01628v3 )

ライセンス: Link先を確認
Marko Petkovi\'c, Pablo Romero-Marimon, Vlado Menkovski and Sofia Calero(参考訳) 多孔質結晶材料の特性を効率的に予測することは、第1原理モデルを用いたシミュレーションが計算コストが高いため、新しい材料を開発するための高スループットスクリーニングプロセスを加速する大きな可能性を秘めている。 深層学習法を効果的に活用し,これらの材料をモデル化するためには,その空間群によって定義される結晶に存在する対称性を利用する必要がある。 既存の結晶特性予測法は、制限的すぎる対称性の制約を持つか、単位セル間で対称性を組み込むのみである。 さらに、これらのモデルは結晶の多孔質構造を明示的にモデル化していない。 本稿では,結晶の単位セルの対称性をその構造に組み込んだモデルを開発し,その多孔質構造を明示的にモデル化する。 モルデナイトゼオライトの異なる組成に対するCO$_2$の吸着熱を予測し,本モデルの評価を行った。 本手法は, 既存の結晶特性予測法よりも優れた性能を示し, 細孔の内包によりより効率的なモデルが得られることを確認した。

Efficiently predicting properties of porous crystalline materials has great potential to accelerate the high throughput screening process for developing new materials, as simulations carried out using first principles model are often computationally expensive. To effectively make use of Deep Learning methods to model these materials, we need to utilize the symmetries present in the crystals, which are defined by their space group. Existing methods for crystal property prediction either have symmetry constraints that are too restrictive or only incorporate symmetries between unit cells. In addition, these models do not explicitly model the porous structure of the crystal. In this paper, we develop a model which incorporates the symmetries of the unit cell of a crystal in its architecture and explicitly models the porous structure. We evaluate our model by predicting the heat of adsorption of CO$_2$ for different configurations of the mordenite zeolite. Our results confirm that our method performs better than existing methods for crystal property prediction and that the inclusion of pores results in a more efficient model.
翻訳日:2023-12-01 04:03:40 公開日:2023-11-29
# ホーキング効果はシュワルツシルト時空における量子テレポーテーションの忠実度を常に低下させるか?

Does Hawking effect always degrade fidelity of quantum teleportation in Schwarzschild spacetime? ( http://arxiv.org/abs/2304.00984v2 )

ライセンス: Link先を確認
Shu-Min Wu, Xiao-Wei Fan, Rui-Di Wang, Hao-Yu Wu, Xiao-Li Huang, Hao-Sheng Zeng(参考訳) 以前の研究では、ホーキング効果がシュワルツシルトブラックホールにおける量子相関と量子テレポーテーションの忠実性を破壊することが示されている。 本稿では,シュワルツシルト時空におけるユーザ間のディラック場の量子テレポーテーションの忠実性について検討する。 ホーキング温度が上昇すると、量子テレポーテーションの忠実度は初期状態の選択によって単調に増加し、単調に減少し、あるいは単調に増加し、つまりホーキング効果が量子テレポーテーションの純忠実度を生成できる。 この顕著な結果は、ブラックホールのホーキング効果が量子テレポーテーションの忠実さを損なうことができるという広範な信念を覆す。 また、量子ステアリングはシュワルツシルト時空における量子テレポーテーションの完全性を保証することはできない。 この新しい予期せぬ情報源は、ホーキング効果の実験的な証拠に新しいアイデアをもたらすかもしれない。

Previous studies have shown that the Hawking effect always destroys quantum correlations and the fidelity of quantum teleportation in the Schwarzschild black hole. Here, we investigate the fidelity of quantum teleportation of Dirac fields between users in Schwarzschild spacetime. We find that, with the increase of the Hawking temperature, the fidelity of quantum teleportation can monotonically increase, monotonically decrease, or non-monotonically increase, depending on the choice of the initial state, which means that the Hawking effect can create net fidelity of quantum teleportation. This striking result banishes the extended belief that the Hawking effect of the black hole can only destroy the fidelity of quantum teleportation. We also find that quantum steering cannot fully guarantee the fidelity of quantum teleportation in Schwarzschild spacetime. This new unexpected source may provide a new idea for the experimental evidence of the Hawking effect.
翻訳日:2023-12-01 04:03:23 公開日:2023-11-29
# スケッチに基づく映像オブジェクトの定位

Sketch-based Video Object Localization ( http://arxiv.org/abs/2304.00450v3 )

ライセンス: Link先を確認
Sangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee, Changick Kim(参考訳) 入力スケッチで検索した映像に時空間オブジェクトボックスをローカライズすることを目的とした新しいタスクであるsketch-based video object localization (svol)を提案する。 まず、SVOLタスクの課題の概要を説明し、以下の設計原則でSketch-Video Attention Network(SVANet)を構築します。 (i)映像の時間的情報を考慮して,スケッチと映像のドメイン間ギャップを埋めること。 (ii)複数のオブジェクトを同時に正確に識別し、ローカライズすること (iii)様々な様式のスケッチを扱うこと。 (4)非分類である。 特に、SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、アテンション操作によるビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えており、グローバルなビデオコンテキストを利用してフレーム単位のマッチング戦略を学習する。 新たにキュレートされたSVOLデータセット上でSVANetを評価する。 設計により、svanetはクエリスケッチとビデオオブジェクトのマッピングをうまく学習し、svolベンチマークで最先端の結果を得た。 さらに、広範囲なアブレーション研究と可視化を通してSVANetの有効性を確認する。 最後に,未知のデータセットと新しいカテゴリでその転送能力を示し,実世界のアプリケーションで高いスケーラビリティを示唆する。

We introduce Sketch-based Video Object Localization (SVOL), a new task aimed at localizing spatio-temporal object boxes in video queried by the input sketch. We first outline the challenges in the SVOL task and build the Sketch-Video Attention Network (SVANet) with the following design principles: (i) to consider temporal information of video and bridge the domain gap between sketch and video; (ii) to accurately identify and localize multiple objects simultaneously; (iii) to handle various styles of sketches; (iv) to be classification-free. In particular, SVANet is equipped with a Cross-modal Transformer that models the interaction between learnable object tokens, query sketch, and video through attention operations, and learns upon a per-frame set matching strategy that enables frame-wise prediction while utilizing global video context. We evaluate SVANet on a newly curated SVOL dataset. By design, SVANet successfully learns the mapping between the query sketches and video objects, achieving state-of-the-art results on the SVOL benchmark. We further confirm the effectiveness of SVANet via extensive ablation studies and visualizations. Lastly, we demonstrate its transfer capability on unseen datasets and novel categories, suggesting its high scalability in real-world applications.
翻訳日:2023-12-01 04:03:04 公開日:2023-11-29
# FedAgg: Aggregated Gradientsによる適応的なフェデレーション学習

FedAgg: Adaptive Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v3 )

ライセンス: Link先を確認
Wenhao Yuan and Xuehe Wang(参考訳) 分散モデルトレーニングでは,複数のデバイスが協調して,プライベートデータをローカライズしながら,中央サーバがスケジュールする自身のデータセットを活用した共有モデルをトレーニングできる,フェデレーション学習(federated learning, fl)が新たな標準となっている。 しかし,訓練過程において,不均一クライアント上で生成した非独立分散(Non-IID)データと参加者間の頻繁なコミュニケーションは,トレーニング性能に大きな影響を与え,収束率を低下させ,通信消費を増加させる可能性がある。 本稿では,各局所更新期間に集計勾配を導入することで,標準確率勾配降下法を改善し,さらに局所パラメータと大域パラメータの偏差を考慮した適応学習率反復アルゴリズムを提案する。 上記の適応学習率設計機構は、全クライアントのローカル情報を必要とするため、ローカル更新期間に通信がないため、難しい。 本研究では,各クライアントに対する分散適応学習率を得るために,平均フィールド項を用いて各クライアントのローカル情報を時間とともに交換することなく,平均ローカルパラメータと勾配を推定する手法を提案する。 理論的解析により,本手法がモデルトレーニングの収束保証を提供し,クライアントドリフト項の収束上限を導出できることが証明された。 IIDおよび非IIDデータ分布を持つ実世界のデータセットにおけるモデル精度と収束率の両方において,提案手法は最先端のFLスキームよりも優れていることを示す。

Federated Learning (FL) has become an emerging norm for distributed model training, which enables multiple devices cooperatively to train a shared model utilizing their own datasets scheduled by a central server while keeping private data localized. However, during the training process, the non-independent-and-identically-distributed (Non-IID) data generated on heterogeneous clients and frequent communication across participants may significantly influence the training performance, slow down the convergent rate, and increase communication consumption. In this paper, we ameliorate the standard stochastic gradient descent approach by introducing the aggregated gradients at each local update epoch and propose an adaptive learning rate iterative algorithm that further takes the deviation between the local parameter and global parameter into account. The aforementioned adaptive learning rate design mechanism requires local information of all clients, which is challenging as there is no communication during the local update epochs. To obtain a decentralized adaptive learning rate for each client, we introduce the mean-field approach by utilizing two mean-field terms to estimate the average local parameters and gradients respectively without exchanging clients' local information with each other over time. Through theoretical analysis, we prove that our method can provide the convergence guarantee for model training and derive a convergent upper bound for the client drifting term. Extensive numerical results show that our proposed framework is superior to the state-of-the-art FL schemes in both model accuracy and convergent rate on real-world datasets with IID and Non-IID data distribution.
翻訳日:2023-12-01 04:02:44 公開日:2023-11-29
# 時系列予測のための予測可能な潜在因子の発見

Discovering Predictable Latent Factors for Time Series Forecasting ( http://arxiv.org/abs/2303.10426v2 )

ライセンス: Link先を確認
Jingyi Hou, Zhen Dong, Jiayu Zhou, Zhijie Liu(参考訳) Transformerなどの最新の時系列予測手法は、シーケンシャルなデータモデリングにおいて強力な能力を示している。 高いパフォーマンスを達成するには、変数間の複雑な関係をモデル化し、パラメータを大規模データでチューニングするために、通常は冗長あるいは説明不能な構造に依存する。 しかし、多くの実世界のデータマイニングタスクは関係推論に十分な変数を欠いているため、これらの手法はそのような予測問題に適切に対処できない。 データ不足により、時系列は多くの外生変数に影響を受け、モデリングは不安定になり予測不能になる。 この問題に取り組むため,本論文では,可観測時系列に含意される固有潜在因子を推定する新しいアルゴリズムフレームワークを開発した。 推定された因子は、長期的な効率のためにスパースな関係推論を可能にする複数の独立かつ予測可能な信号成分を形成するだけでなく、正確な予測のために将来の時間データを再構成するために用いられる。 これを実現するために,予測可能性,充足性,識別性という3つの特徴を導入し,予測可能な信号成分を推定するために,強力な潜時力学モデルを用いてこれらの特徴をモデル化する。 複数の実データを用いた実験結果から,様々な時系列予測に対する提案手法の有効性を示す。 統計的解析は学習された潜在因子の予測可能性を検証する。

Modern time series forecasting methods, such as Transformer and its variants, have shown strong ability in sequential data modeling. To achieve high performance, they usually rely on redundant or unexplainable structures to model complex relations between variables and tune the parameters with large-scale data. Many real-world data mining tasks, however, lack sufficient variables for relation reasoning, and therefore these methods may not properly handle such forecasting problems. With insufficient data, time series appear to be affected by many exogenous variables, and thus, the modeling becomes unstable and unpredictable. To tackle this critical issue, in this paper, we develop a novel algorithmic framework for inferring the intrinsic latent factors implied by the observable time series. The inferred factors are used to form multiple independent and predictable signal components that enable not only sparse relation reasoning for long-term efficiency but also reconstructing the future temporal data for accurate prediction. To achieve this, we introduce three characteristics, i.e., predictability, sufficiency, and identifiability, and model these characteristics via the powerful deep latent dynamics models to infer the predictable signal components. Empirical results on multiple real datasets show the efficiency of our method for different kinds of time series forecasting. The statistical analysis validates the predictability of the learned latent factors.
翻訳日:2023-12-01 04:01:55 公開日:2023-11-29
# モジュラー量子化アウェアトレーニング:6次元物体ポーズ推定における精度の低下による精度の向上

Modular Quantization-Aware Training: Increasing Accuracy by Decreasing Precision in 6D Object Pose Estimation ( http://arxiv.org/abs/2303.06753v2 )

ライセンス: Link先を確認
Saqib Javed, Chengkun Li, Andrew Price, Yinlin Hu, Mathieu Salzmann(参考訳) コラボレーティブロボティクスや宇宙船ランデブーといったエッジアプリケーションは、リソース制約のある組み込みプラットフォーム上での効率的な6dオブジェクトポーズ推定を要求する。 既存の6Dポーズ推定ネットワークは、そのようなデプロイメントには大きすぎることが多く、信頼性を維持しながら圧縮を必要とする。 この課題に対処するために、現代の6次元ポーズ推定アーキテクチャのモジュラ構造を利用する適応的かつ混合的量子化対応トレーニング戦略であるMQAT(Modular Quantization-Aware Training)を導入する。 MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。 実験では、データセット、アーキテクチャ、量子化アルゴリズムにおけるmqatの汎用性を示す。 注目すべきは、MQATでトレーニングされた量子化モデルは、ベースラインの完全精度ネットワーク上で大きな精度向上(>7%)を達成すると同時に、モデルサイズを4倍以上削減することです。

Edge applications, such as collaborative robotics and spacecraft rendezvous, demand efficient 6D object pose estimation on resource-constrained embedded platforms. Existing 6D pose estimation networks are often too large for such deployments, necessitating compression while maintaining reliable performance. To address this challenge, we introduce Modular Quantization-Aware Training (MQAT), an adaptive and mixed-precision quantization-aware training strategy that exploits the modular structure of modern 6D pose estimation architectures. MQAT guides a systematic gradated modular quantization sequence and determines module-specific bit precisions, leading to quantized models that outperform those produced by state-of-the-art uniform and mixed-precision quantization techniques. Our experiments showcase the generality of MQAT across datasets, architectures, and quantization algorithms. Remarkably, MQAT-trained quantized models achieve a significant accuracy boost (>7%) over the baseline full-precision network while reducing model size by a factor of 4x or more.
翻訳日:2023-12-01 04:00:34 公開日:2023-11-29
# ロバスト欠陥定位のためのサンプルとマスクの関係を探る

Exploring the Relationship between Samples and Masks for Robust Defect Localization ( http://arxiv.org/abs/2306.10720v5 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. 難解なmvtec adデータセットのテクスチャクラスにおける実験結果から, f1-score の sota メソッドよりも2.9%高いが, 一般論では sota メソッドを実質的に上回っていることがわかった。

Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. Explicit information that could indicate the position of defects is intentionally excluded to avoid learning any direct mapping.Experimental results on the texture class of the challenging MVTec AD dataset show that the proposed method is 2.9% higher than the SOTA methods in F1-Score, while substantially outperforming SOTA methods in generalizability.
翻訳日:2023-12-01 03:51:16 公開日:2023-11-29
# クリフォードユニタリのループのホモトピー分類

Homotopy Classification of loops of Clifford unitaries ( http://arxiv.org/abs/2306.09903v3 )

ライセンス: Link先を確認
Roman Geiko and Yichen Hu(参考訳) クリフォード量子回路は、パウリ作用素をパウリ作用素に写像する量子システムの初等可逆変換である。 クリフォード回路の周期的な1パラメータ族、すなわちクリフォード回路のループを、素数$p$-次元四重項の$\mathsf{d}$-次元格子に作用させる。 代数的ホモトピーの概念を用いて位相的に等価なループを同定する。 そのようなループのホモトピー類を任意の奇数$p$と$\mathsf{d}=0,1,2,3$,4$で計算する。 我々の主なツールはエルミート k-理論であり、特にシンプレクティック幾何学からのマスロフ指数の一般化である。 我々は,$(\mathsf{d}+1)$-dimensions におけるクリフォード回路のループのホモトピークラスが,$\mathsf{d}$-dimensions におけるクリフォード量子セルオートマトンと格子変換の商と一致することを観測する。

Clifford quantum circuits are elementary invertible transformations of quantum systems that map Pauli operators to Pauli operators. We study periodic one-parameter families of Clifford circuits, called loops of Clifford circuits, acting on $\mathsf{d}$-dimensional lattices of prime $p$-dimensional qudits. We propose to use the notion of algebraic homotopy to identify topologically equivalent loops. We calculate homotopy classes of such loops for any odd $p$ and $\mathsf{d}=0,1,2,3$, and $4$. Our main tool is the Hermitian K-theory, particularly a generalization of the Maslov index from symplectic geometry. We observe that the homotopy classes of loops of Clifford circuits in $(\mathsf{d}+1)$-dimensions coincide with the quotient of the group of Clifford Quantum Cellular Automata modulo shallow circuits and lattice translations in $\mathsf{d}$-dimensions.
翻訳日:2023-12-01 03:51:03 公開日:2023-11-29
# 自動マスク生成によるイメージブレンドアルゴリズム

Image Blending Algorithm with Automatic Mask Generation ( http://arxiv.org/abs/2306.05382v3 )

ライセンス: Link先を確認
Haochen Xue, Mingyu Jin, Chong Zhang, Yuxuan Huang, Qian Weng, Xiaobo Jin(参考訳) 近年、画像のブレンディングは視覚的に素晴らしいコンテンツを作る能力で人気を集めている。 しかし、現在の画像ブレンディングアルゴリズムには、主に次のような問題がある: 画像ブレンディングマスクを手動で作成するには、多くの人力と材料資源が必要である; 画像ブレンディングアルゴリズムは、明るさ歪みと低解像度の問題を効果的に解決できない。 そこで本研究では,提案する彩度損失と2段階のパンアルゴリズムによる輝度ゆらぎと低分解能問題を解決するため,意味的物体検出とセグメンテーションとマスク生成を組み合わせた新しい画像ブレンディング手法を提案する。 提案手法はPSNRやSSIMなど,様々なパフォーマンス指標において,従来の画像ブレンディングアルゴリズムよりも優れていた。

In recent years, image blending has gained popularity for its ability to create visually stunning content. However, the current image blending algorithms mainly have the following problems: manually creating image blending masks requires a lot of manpower and material resources; image blending algorithms cannot effectively solve the problems of brightness distortion and low resolution. To this end, we propose a new image blending method with automatic mask generation: it combines semantic object detection and segmentation with mask generation to achieve deep blended images based on our proposed new saturation loss and two-stage iteration of the PAN algorithm to fix brightness distortion and low-resolution issues. Results on publicly available datasets show that our method outperforms other classical image blending algorithms on various performance metrics, including PSNR and SSIM.
翻訳日:2023-12-01 03:50:41 公開日:2023-11-29
# ハイブリッド量子古典探索空間削減ヒューリスティックのための電気自動車充電・ルーティング問題の定式化

Formulation of the Electric Vehicle Charging and Routing Problem for a Hybrid Quantum-Classical Search Space Reduction Heuristic ( http://arxiv.org/abs/2306.04414v2 )

ライセンス: Link先を確認
M. Garcia de Andoin, A. Bottarelli, S. Schmitt, I. Oregi, P. Hauke and M. Sanz(参考訳) 近年、組合せ最適化問題は量子コンピューティングコミュニティの関心を惹きつけており、量子優位を示すためのテストベッドとしての可能性を秘めている。 本稿では,制約量子最適化のためのアルゴリズム構築のために,量子情報のマルチレベルキャリア – キューディット – を利用する方法を示す。 これらのシステムは量子最適化の文脈で最近導入され、通常量子ビット系にマッピングされる問題よりも一般的な問題を扱うことができる。 特に,制約付き解のサンプル化を可能にしつつ,問題の探索空間を大幅に削減し,より少ない量子資源の利用を最適化するハイブリッドな古典的量子ヒューリスティック戦略を提案する。 一例として、電気自動車の充電・ルーティング問題(EVCRP)に焦点を当てる。 我々は古典的な問題を量子システムに変換し、我々の手法の有効性を示すおもちゃの例で有望な結果を得る。

Combinatorial optimization problems have attracted much interest in the quantum computing community in the recent years as a potential testbed to showcase quantum advantage. In this paper, we show how to exploit multilevel carriers of quantum information -- qudits -- for the construction of algorithms for constrained quantum optimization. These systems have been recently introduced in the context of quantum optimization and they allow us to treat more general problems than the ones usually mapped into qubit systems. In particular, we propose a hybrid classical quantum heuristic strategy that allows us to sample constrained solutions while greatly reducing the search space of the problem, thus optimizing the use of fewer quantum resources. As an example, we focus on the Electric Vehicle Charging and Routing Problem (EVCRP). We translate the classical problem and map it into a quantum system, obtaining promising results on a toy example which shows the validity of our technique.
翻訳日:2023-12-01 03:50:27 公開日:2023-11-29
# 透かし拡散過程による拡散モデルの知的財産保護

Intellectual Property Protection of Diffusion Models via the Watermark Diffusion Process ( http://arxiv.org/abs/2306.03436v2 )

ライセンス: Link先を確認
Sen Peng, Yufei Chen, Cong Wang, Xiaohua Jia(参考訳) 拡散モデルは、今日の需要の増加を考えると、急速に深層生成アーキテクチャーの重要な部分となっている。 大規模で高性能な拡散モデルを持つことは、保護に値する知的財産としての重要性を強調し、重要な資源を必要とする。 しかし,拡散モデルに適用した場合,既存の所有権検証のための透かし技術は不十分である。 ウォーターマーク拡散モデルに関する最近の研究は、タスク生成中にウォーターマークを公開するか、あるいはウォーターマークをトリガーするプロンプトを必要とする条件付き拡散モデルのために開発されている。 本稿では,タスク生成時に透かしを印字せずに拡散モデルに新しい透かし手法であるWDMを紹介する。 タスク生成のための標準的な拡散プロセスと並行して、透かしを埋め込むための透かし拡散プロセス(WDP)を同時に学習するモデルを訓練する。 我々は,wdpトレーニングとサンプリングの詳細な理論的解析を行い,同じ逆雑音によるガウス拡散過程と関連づけた。 各種トリガおよび透かしデータ構成におけるアプローチの有効性とロバスト性を検証するため,大規模な実験を行った。

Diffusion models have rapidly become a vital part of deep generative architectures, given today's increasing demands. Obtaining large, high-performance diffusion models demands significant resources, highlighting their importance as intellectual property worth protecting. However, existing watermarking techniques for ownership verification are insufficient when applied to diffusion models. Very recent research in watermarking diffusion models either exposes watermarks during task generation, which harms the imperceptibility, or is developed for conditional diffusion models that require prompts to trigger the watermark. This paper introduces WDM, a novel watermarking solution for diffusion models without imprinting the watermark during task generation. It involves training a model to concurrently learn a Watermark Diffusion Process (WDP) for embedding watermarks alongside the standard diffusion process for task generation. We provide a detailed theoretical analysis of WDP training and sampling, relating it to a shifted Gaussian diffusion process via the same reverse noise. Extensive experiments are conducted to validate the effectiveness and robustness of our approach in various trigger and watermark data configurations.
翻訳日:2023-12-01 03:49:59 公開日:2023-11-29
# オープン量子システムにおける定常量子カオス

Steady-state quantum chaos in open quantum systems ( http://arxiv.org/abs/2305.15479v2 )

ライセンス: Link先を確認
Filippo Ferrari, Luca Gravina, Debbie Eeltink, Pasquale Scarlino, Vincenzo Savona, Fabrizio Minganti(参考訳) オープン量子多体系における一般現象として定常量子カオスの概念を導入する。 孤立あるいは開量子系を可積分あるいはカオスとして分類することは、一般にその時間発展を支配する方程式の性質に依存する。 しかし、これは量子力学の実際の性質を予測するのに失敗する可能性があり、それは初期状態によって規則的またはカオス的になる。 開量子系の定常状態におけるカオスと積分性は、時間進化生成器のスペクトル構造によって一意に決定される。 安定状態の量子カオスを特徴づけるために、量子軌道のスペクトル統計(SSQT)に基づくスペクトル分析を導入する。 SSQT基準の一般性と信頼性をいくつかの散逸系で検証し,カオス構造を有する開系がカオス的あるいは可積分的な定常状態へと進化可能であることを示す。 粒子数保存のない非平衡ボゾン系のパラダイム的例である, 駆動散逸型ボース・ハバードモデルにおける定常カオスについて検討した。 このシステムは、量子計算やセンシングへの応用を含む、最先端のうるさい中間スケール量子デバイスにおけるビルディングブロックとして広く利用されている。 最後に,本解析は,古典的および半古典的極限が可積分な振る舞いを示す,創発的散逸量子カオスの存在を示す。 この発散性量子カオスは、散逸機構に関連する量子的および古典的なゆらぎから生じる。 我々の研究は、オープン量子システムの積分可能でカオス的なダイナミクスを基礎的に理解し、散逸する量子カオスとその量子技術への影響を調査するための道を開く。

We introduce the notion of steady-state quantum chaos as a general phenomenon in open quantum many-body systems. Classifying an isolated or open quantum system as integrable or chaotic relies in general on the properties of the equations governing its time evolution. This however may fail in predicting the actual nature of the quantum dynamics, that can be either regular or chaotic depending on the initial state. Chaos and integrability in the steady state of an open quantum system are instead uniquely determined by the spectral structure of the time evolution generator. To characterize steady-state quantum chaos we introduce a spectral analysis based on the spectral statistics of quantum trajectories (SSQT). We test the generality and reliability of the SSQT criterion on several dissipative systems, further showing that an open system with chaotic structure can evolve towards either a chaotic or integrable steady state. We study steady-state chaos in the driven-dissipative Bose-Hubbard model, a paradigmatic example of out-of-equilibrium bosonic system without particle number conservation. This system is widely employed as a building block in state-of-the-art noisy intermediate-scale quantum devices, with applications in quantum computation and sensing. Finally, our analysis shows the existence of an emergent dissipative quantum chaos, where the classical and semi-classical limits display an integrable behaviour. This emergent dissipative quantum chaos arises from the quantum and classical fluctuations associated with the dissipation mechanism. Our work establishes a fundamental understanding of the integrable and chaotic dynamics of open quantum systems and paves the way for the investigation of dissipative quantum chaos and its consequences on quantum technologies.
翻訳日:2023-12-01 03:48:40 公開日:2023-11-29
# SVDinsTN:正規化モデリングの観点からの効率的な構造探索のためのテンソルネットワークパラダイム

SVDinsTN: A Tensor Network Paradigm for Efficient Structure Search from Regularized Modeling Perspective ( http://arxiv.org/abs/2305.14912v3 )

ライセンス: Link先を確認
Yu-Bang Zheng, Xi-Le Zhao, Junhua Zeng, Chao Li, Qibin Zhao, Heng-Chao Li, Ting-Zhu Huang(参考訳) テンソルネットワーク(TN)表現はコンピュータビジョンと機械学習の強力な技術である。 TN構造探索(TN-SS)は、コンパクトな表現を実現するためにカスタマイズされた構造を探すことを目的としている。 近年のsampling-evaluation-based (sampling-evaluation-based) 手法では,大規模な構造コレクションのサンプリングと評価が求められている。 この問題を解決するために,SVD-インスパイアされたTN分解(SVDinsTN)と呼ばれる新しいTNパラダイムを提案する。 具体的には、完全に接続されたTNの各エッジに対角係数を挿入することにより、SVDinsTNはTNコアと対角因子を同時に計算し、コンパクトなTN構造を明らかにする。 理論的には,提案手法の収束保証を証明する。 実験結果から,提案手法は最先端のTN-SS法と比較して約100~1000倍の高速化を実現し,同等の表現能力を維持した。

Tensor network (TN) representation is a powerful technique for computer vision and machine learning. TN structure search (TN-SS) aims to search for a customized structure to achieve a compact representation, which is a challenging NP-hard problem. Recent "sampling-evaluation-based" methods require sampling an extensive collection of structures and evaluating them one by one, resulting in prohibitively high computational costs. To address this issue, we propose a novel TN paradigm, named SVD-inspired TN decomposition (SVDinsTN), which allows us to efficiently solve the TN-SS problem from a regularized modeling perspective, eliminating the repeated structure evaluations. To be specific, by inserting a diagonal factor for each edge of the fully-connected TN, SVDinsTN allows us to calculate TN cores and diagonal factors simultaneously, with the factor sparsity revealing a compact TN structure. In theory, we prove a convergence guarantee for the proposed method. Experimental results demonstrate that the proposed method achieves approximately 100 to 1000 times acceleration compared to the state-of-the-art TN-SS methods while maintaining a comparable representation ability.
翻訳日:2023-12-01 03:48:15 公開日:2023-11-29
# 航空領域における文変換器の適応

Adapting Sentence Transformers for the Aviation Domain ( http://arxiv.org/abs/2305.09556v2 )

ライセンス: Link先を確認
Liya Wang, Jason Chou, Dave Rouck, Alex Tien, Diane M Baumgartner(参考訳) 効果的な文表現の学習は多くの自然言語処理(NLP)タスクにおいて重要であり、セマンティック検索、セマンティックテキスト類似性(STS)、クラスタリングなどがある。 文埋め込み学習のために複数のトランスフォーマーモデルが開発されているが、これらのモデルは、技術用語、略語、非慣習文法のようなユニークな特徴を持つ航空のような専門領域を扱う場合に最適に機能しない。 さらにラベル付きデータセットがないため、航空分野に特化したモデルをトレーニングすることは困難である。 これらの課題に対処するため,航空分野における文変換器の適応手法を提案する。 本手法は,事前学習と微調整からなる2段階プロセスである。 事前学習中、航空用テキストデータを入力としてトランスフォーマとシーケンシャルデノージングオートエンコーダ(tsdae)を使用して初期モデルの性能を向上させる。 その後、SBERTアーキテクチャによるSentence Bidirectional Encoder Representationsの自然言語推論(NLI)データセットを用いて、モデルの微調整を行い、オーバーフィッティング問題を緩和する。 いくつかの下流課題における実験結果から, 適応文変換器は汎用トランスを著しく上回り, 航空領域のニュアンスを捕捉する手法の有効性を実証した。 本研究は,航空などの専門産業を対象とした高品質なNLPソリューション開発において,ドメイン固有適応の重要性を強調した。

Learning effective sentence representations is crucial for many Natural Language Processing (NLP) tasks, including semantic search, semantic textual similarity (STS), and clustering. While multiple transformer models have been developed for sentence embedding learning, these models may not perform optimally when dealing with specialized domains like aviation, which has unique characteristics such as technical jargon, abbreviations, and unconventional grammar. Furthermore, the absence of labeled datasets makes it difficult to train models specifically for the aviation domain. To address these challenges, we propose a novel approach for adapting sentence transformers for the aviation domain. Our method is a two-stage process consisting of pre-training followed by fine-tuning. During pre-training, we use Transformers and Sequential Denoising AutoEncoder (TSDAE) with aviation text data as input to improve the initial model performance. Subsequently, we fine-tune our models using a Natural Language Inference (NLI) dataset in the Sentence Bidirectional Encoder Representations from Transformers (SBERT) architecture to mitigate overfitting issues. Experimental results on several downstream tasks show that our adapted sentence transformers significantly outperform general-purpose transformers, demonstrating the effectiveness of our approach in capturing the nuances of the aviation domain. Overall, our work highlights the importance of domain-specific adaptation in developing high-quality NLP solutions for specialized industries like aviation.
翻訳日:2023-12-01 03:46:49 公開日:2023-11-29
# GeoAdapt: 幾何学的優先度を用いたLiDAR位置認識における自己監督テスト時間適応

GeoAdapt: Self-Supervised Test-Time Adaptation in LiDAR Place Recognition Using Geometric Priors ( http://arxiv.org/abs/2308.04638v2 )

ライセンス: Link先を確認
Joshua Knights, Stephen Hausler, Sridha Sridharan, Clinton Fookes, Peyman Moghadam(参考訳) ディープラーニングに基づくLiDARの位置認識アプローチは、トレーニングデータセットとテストデータセットの分布にシフトがある場合、大きなパフォーマンス劣化に悩まされ、しばしばピークパフォーマンスを達成するためにネットワークを再トレーニングする必要がある。 しかしながら、新しいトレーニングデータのための正確な根拠データを得ることは、特に複雑な環境やgps不足環境では、非常に高価である。 この問題に対処するために,GeoAdaptを提案する。これは,未知の環境を自己管理的に再学習するための擬似ラベルを生成するための,新しい補助的分類ヘッドである。 geoadaptは以前の方法として幾何学的一貫性を使用し、生成された擬似ラベルのドメインシフトに対する堅牢性を改善し、テスト時適応アプローチのパフォーマンスと信頼性を改善します。 総合的な実験により、geoadaptは中程度から重度のドメインシフトにおける位置認識性能を著しく向上させ、完全に監督されたテスト時間適応アプローチと競合することが示された。 私たちのコードはhttps://github.com/csiro-robotics/GeoAdaptで利用可能です。

LiDAR place recognition approaches based on deep learning suffer from significant performance degradation when there is a shift between the distribution of training and test datasets, often requiring re-training the networks to achieve peak performance. However, obtaining accurate ground truth data for new training data can be prohibitively expensive, especially in complex or GPS-deprived environments. To address this issue we propose GeoAdapt, which introduces a novel auxiliary classification head to generate pseudo-labels for re-training on unseen environments in a self-supervised manner. GeoAdapt uses geometric consistency as a prior to improve the robustness of our generated pseudo-labels against domain shift, improving the performance and reliability of our Test-Time Adaptation approach. Comprehensive experiments show that GeoAdapt significantly boosts place recognition performance across moderate to severe domain shifts, and is competitive with fully supervised test-time adaptation approaches. Our code is available at https://github.com/csiro-robotics/GeoAdapt.
翻訳日:2023-12-01 03:41:02 公開日:2023-11-29
# 任意の二次集団-スピン相互作用を持つ非線形時間反転干渉法

Nonlinear time-reversal interferometry with arbitrary quadratic collective-spin interaction ( http://arxiv.org/abs/2308.04042v2 )

ライセンス: Link先を確認
Zhiyao Hu, Qixian Li, Xuanchen Zhang, He-bin Zhang, Long-Gang Huang, Yong-Chun Liu(参考訳) 原子間非線形干渉法は量子力学や量子情報科学に広く応用されている。 本稿では、任意の二次的集団-スピン相互作用によって生じるスピンスクイーズに基づいて、高ロバスト性およびメソジカルゲインを有する非線形時間反転干渉法を提案し、これをLipkin-Meshkov-Glick(LMG)モデルで記述する。 LMGモデルの2つの特定のケース, 1軸ねじれ, 2軸ねじれは, それぞれ頑健さと精度で優れており, スクイーズ処理, 符号化処理, アンチスクイーズ処理を最適化する。 さらに,原子系における等価時間反転を実現するFloquet駆動方式を提案し,精度,ロバスト性,操作性が向上した。 本研究では,原子非線形干渉法において高精度かつロバスト性を達成するためのベンチマークを設定する。

Atomic nonlinear interferometry has wide applications in quantum metrology and quantum information science. Here we propose a nonlinear time-reversal interferometry scheme with high robustness and metrological gain based on the spin squeezing generated by arbitrary quadratic collective-spin interaction, which could be described by the Lipkin-Meshkov-Glick (LMG) model. We optimize the squeezing process, encoding process, and anti-squeezing process, finding that the two particular cases of the LMG model, one-axis twisting and two-axis twisting outperform in robustness and precision, respectively. Moreover, we propose a Floquet driving method to realize equivalent time reverse in the atomic system, which leads to high performance in precision, robustness, and operability. Our study sets a benchmark in achieving high precision and robustness in atomic nonlinear interferometry.
翻訳日:2023-12-01 03:40:43 公開日:2023-11-29
# 逆問題に対するスパース符号法とマイクロ波トモグラフィーへの応用

A sparse coding approach to inverse problems with application to microwave tomography ( http://arxiv.org/abs/2308.03818v2 )

ライセンス: Link先を確認
Cesar F. Caiafa, Ramiro M. Irastorza(参考訳) 逆画像問題は、医学的診断から天文学的な研究まで、科学と技術の複数の領域で発生することがある。 不完全かつ歪んだデータから画像を再構成するためには、これらの測定を生成する物理メカニズムと解析対象の画像の固有の特性の両方を考慮に入れたアルゴリズムを作成する必要がある。 本研究では,哺乳類の視覚系に触発された自然画像に対する,現実的でコンパクトで効果的な生成モデルである画像のスパース表現について概説する。 膨大な画像群でモデルをトレーニングすることで,不適切な線形逆問題に対処することができる。 さらに,マイクロ波トモグラフィー画像における非線形および不適切な問題に対するスパース符号化の適用を拡大し,最先端のアルゴリズムを著しく改善する可能性がある。

Inverse imaging problems that are ill-posed can be encountered across multiple domains of science and technology, ranging from medical diagnosis to astronomical studies. To reconstruct images from incomplete and distorted data, it is necessary to create algorithms that can take into account both, the physical mechanisms responsible for generating these measurements and the intrinsic characteristics of the images being analyzed. In this work, the sparse representation of images is reviewed, which is a realistic, compact and effective generative model for natural images inspired by the visual system of mammals. It enables us to address ill-posed linear inverse problems by training the model on a vast collection of images. Moreover, we extend the application of sparse coding to solve the non-linear and ill-posed problem in microwave tomography imaging, which could lead to a significant improvement of the state-of-the-arts algorithms.
翻訳日:2023-12-01 03:40:27 公開日:2023-11-29
# 逆イジング鎖におけるバリアリングクエンチのダイナミクス--キブル・ズレック、飽和、および前飽和状態

Varying quench dynamics in the transverse Ising chain: the Kibble-Zurek, saturated, and pre-saturated regimes ( http://arxiv.org/abs/2307.08599v3 )

ライセンス: Link先を確認
Han-Chuan Kou and Peng Li(参考訳) kibble-zurek機構によれば、臨界点を通過する遅い線形クエンチ中の欠陥密度とクエンチ速度の間には普遍的なパワーロー関係が存在する。 一般に、高速なクエンチは、キブルズレークのスケーリング法則から逸脱し、欠陥密度の飽和台地を形成することが受け入れられている。 クエンチ速度を遅い値から非常に速い値に調整することにより、様々なクエンチダイナミクスを観察し、飽和状態とキブルズレック状態の間にある飽和状態を特定する。 この有意な結果は、まず断熱的インパルス近似によって解明され、その後、横方向イジング鎖の厳密な解析によって検証される。 飽和状態から飽和状態への転換点に近づくにつれ,スケーリング法則の変化に気付き,最初の横方向の磁場の増加に伴い,飽和状態が消滅するまでの縮小が見られた。 キブル・ズレークから先飽和状態への別の転向点において, 減弱効果の減衰と, ガウス崩壊から指数崩壊へのキンク・キンク相関関数の挙動の変化を観察した。 最後に、クエンチ後のコヒーレント多体振動は3つの状態において異なる挙動を示し、S型とPS型の間でスケーリングの挙動に大きな変化を示す。

According to the Kibble-Zurek mechanism, there is a universal power-law relationship between the defect density and the quench rate during a slow linear quench through a critical point. It is generally accepted that a fast quench results in a deviation from the Kibble-Zurek scaling law and leads to the formation of a saturated plateau in the defect density. By adjusting the quench rate from slow to very fast limits, we observe the varying quench dynamics and identify a pre-saturated regime that lies between the saturated and Kibble-Zurek regimes. This significant result is elucidated through the adiabatic-impulse approximation first, then verified by a rigorous analysis on the transverse Ising chain as well. As we approach the turning point from the saturated to pre-saturated regimes, we notice a change in scaling laws and, with an increase in the initial transverse field, a shrinking of the saturated regime until it disappears. During another turning point from the Kibble-Zurek to pre-saturated regimes, we observe an attenuation of the dephasing effect and a change in the behavior of the kink-kink correlation function from a Gaussian decay to an exponential decay. Finally, the coherent many-body oscillation after quench exhibits different behaviors in the three regimes and shows a significant change of scaling behavior between the S and PS regimes.
翻訳日:2023-12-01 03:39:41 公開日:2023-11-29
# 量子コヒーレンスの進化方程式

Evolution equation for quantum coherence ( http://arxiv.org/abs/2307.08454v2 )

ライセンス: Link先を確認
Xinzhi Zhao, Jianwei Shao, Yi Zheng, Chengjie Zhang(参考訳) 量子コヒーレンス(quantum coherence)は、量子資源理論において重要な役割を果たす。 エンタングルメント発展方程式と同様に、完全かつ厳密に非コヒーレント操作(fsio)チャネルを通じて量子状態のコヒーレンス発展方程式を見つける。 クーディ状態の完全コヒーレンスを定量化するために、GコヒーレンスのGコヒーレンスと凸屋根を定義し、Gコヒーレンスが強いコヒーレンスモノトンであり、Gコヒーレンスの凸屋根がそれぞれFSIOの下でコヒーレンス測度であることを証明する。 さらに、fsioチャネルの下で任意の$d$-次元量子純および混合状態に対するコヒーレンス発展方程式を証明し、二成分純状態の絡み合い発展方程式を一般化する。 この結果は動的コヒーレンス測度の単純化において重要な役割を果たす。

Quantum coherence plays an important role in quantum resource theory, which is strongly related with entanglement. Similar to the entanglement evolution equation, we find the coherence evolution equation of quantum states through fully and strictly incoherent operation (FSIO) channels. In order to quantify the full coherence of qudit states, we define G-coherence and convex roof of G-coherence, and prove that the G-coherence is a strong coherence monotone and the convex roof of G-coherence is a coherence measure under FSIO, respectively. Furthermore, we prove a coherence evolution equation for arbitrary $d$-dimensional quantum pure and mixed states under FSIO channels, which generalizes the entanglement evolution equation for bipartite pure states. Our results will play an important role in the simplification of dynamical coherence measure.
翻訳日:2023-12-01 03:39:15 公開日:2023-11-29
# Vlasov-PoissonからSchr\"odinger-Poisson:量子変動時間進化アルゴリズムによる暗黒物質シミュレーション

From Vlasov-Poisson to Schr\"odinger-Poisson: dark matter simulation with a quantum variational time evolution algorithm ( http://arxiv.org/abs/2307.06032v2 )

ライセンス: Link先を確認
Luca Cappelli, Francesco Tacchino, Giuseppe Murante, Stefano Borgani and Ivano Tavernelli(参考訳) 自己重力衝突のないダークマター(dm)流体の膨張背景における密度摂動の進化を記述する宇宙論的シミュレーションは、広いダイナミックレンジでの宇宙構造の形成を追従する強力なツールである。 最も広く採用されているアプローチは、衝突のないVlasov-Poisson(VP)方程式のNボディの離散化に基づいて、単一銀河の形成と最大の宇宙構造の形成を同時にカバーするために必要な幅広いスケールをシミュレートするときに、好ましくないスケーリングによって妨げられる。 VP方程式によって記述される力学は、拡大するスケールの範囲をシミュレートするために必要な分解能要素の数の増加によって制限される。 最近の研究では、DM摂動の進化をシミュレートするために、6次元+1(6D+1)VP問題をより可換な3次元+1非線形Schr\"odinger-Poisson (SP)問題にマッピングした。 これにより、量子コンピューティングを用いた時間伝播シミュレーションのスケーリングを改善する可能性が開ける。 本稿では,自己整合性,非線形性,問題に変動的リアルタイム進化アプローチを適用することで,(SP)方程式をシミュレートする量子アルゴリズムを提案する。 これを実現するために、元のポアソン方程式の解と対応する時間依存シュリンガー方程式の解との接続を確立する新しい量子回路を設計した。 また, 非線形性が観測値の分散に与える影響を解析した。 さらに,SP力学が古典的極限に近づくにつれて空間分解能がどのように振る舞うかを考察し,必要量子ビット数とSP方程式のスケールとの間に経験的対数関係を見出した。 このアプローチは、古典的アルゴリズムを用いてvlasov-poisson(vp)方程式を解くための効率的な代替手段となる可能性を秘めている。

Cosmological simulations describing the evolution of density perturbations of a self-gravitating collisionless Dark Matter (DM) fluid in an expanding background, provide a powerful tool to follow the formation of cosmic structures over wide dynamic ranges. The most widely adopted approach, based on the N-body discretization of the collisionless Vlasov-Poisson (VP) equations, is hampered by an unfavorable scaling when simulating the wide range of scales needed to cover at the same time the formation of single galaxies and of the largest cosmic structures. The dynamics described by the VP equations is limited by the rapid increase of the number of resolution elements which is required to simulate an ever growing range of scales. Recent studies showed an interesting mapping of the 6-dimensional+1 (6D+1) VP problem into a more amenable 3D+1 non-linear Schr\"odinger-Poisson (SP) problem for simulating the evolution of DM perturbations. This opens up the possibility of improving the scaling of time propagation simulations using quantum computing. In this paper, we introduce a quantum algorithm for simulating the (SP) equation by adapting a variational real-time evolution approach to a self-consistent, non-linear, problem. To achieve this, we designed a novel set of quantum circuits that establish connections between the solution of the original Poisson equation and the solution of the corresponding time-dependent Schr\"odinger equation. We also analyzed how nonlinearity impacts the variance of observables. Furthermore, we explored how the spatial resolution behaves as the SP dynamics approaches the classical limit and discovered an empirical logarithmic relationship between the required number of qubits and the scale of the SP equation. This entire approach holds the potential to serve as an efficient alternative for solving the Vlasov-Poisson (VP) equation by means of classical algorithms.
翻訳日:2023-12-01 03:38:57 公開日:2023-11-29
# エゴセントリックビデオにおける音声・視覚対応による空間特徴の学習

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos ( http://arxiv.org/abs/2307.04760v2 )

ライセンス: Link先を確認
Sagnik Majumder, Ziad Al-Halah, Kristen Grauman(参考訳) 本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。 本手法では,マスク付き自動符号化フレームワークを用いて,マスク付きバイノーラル(マルチチャネル)音声を音声と視覚の相乗効果により合成し,両者の空間的関係を学習する。 社会的シナリオにおける空間的理解を必要とする2つの下流ビデオ課題:能動的話者検出と空間音声デニュージング。 広範な実験を通じて、我々の機能は、両タスクにおける複数の最先端ベースラインよりも、バイノーラルオーディオ、EgoCom、EasyComを提供する2つの挑戦的なエゴセントリックなビデオデータセットにおいて、十分に汎用的であることを示す。 プロジェクト: http://vision.cs.utexas.edu/projects/ego_av_corr。

We propose a self-supervised method for learning representations based on spatial audio-visual correspondences in egocentric videos. Our method uses a masked auto-encoding framework to synthesize masked binaural (multi-channel) audio through the synergy of audio and vision, thereby learning useful spatial relationships between the two modalities. We use our pretrained features to tackle two downstream video tasks requiring spatial understanding in social scenarios: active speaker detection and spatial audio denoising. Through extensive experiments, we show that our features are generic enough to improve over multiple state-of-the-art baselines on both tasks on two challenging egocentric video datasets that offer binaural audio, EgoCom and EasyCom. Project: http://vision.cs.utexas.edu/projects/ego_av_corr.
翻訳日:2023-12-01 03:37:49 公開日:2023-11-29
# インテリジェント・ロボット・ソノグラフィー:少数のデモから得た相互情報に基づく遠方学習

Intelligent Robotic Sonographer: Mutual Information-based Disentangled Reward Learning from Few Demonstrations ( http://arxiv.org/abs/2307.03705v2 )

ライセンス: Link先を確認
Zhongliang Jiang, Yuan Bi, Mingchuan Zhou, Ying Hu, Michael Burke and Nassir Navab(参考訳) 超音波(us)イメージングは、リアルタイムで放射線のない利点があるため、体内臓器の生体計測や診断に広く使われている。 しかし、操作者間の違いのため、画像はソノグラフィーの経験に大きく依存する。 この研究は、自律的に標的解剖を「爆発」し、専門家から学び、米国探査機を関連する2d飛行機に誘導する知的ロボットソノグラファーを提案する。 専門家による基礎となる高レベルの生理学的知識は、自己監督的な方法でランク付けされたペア画像比較アプローチを用いて、神経報酬関数によって推測される。 この過程を「ソノグラフィーの言語」を理解することと呼ぶことができる。 患者間変動を克服する一般化能力を考えると、相互情報はネットワークによって推定され、潜在空間におけるタスク関連およびドメインの特徴を明示的に切り離す。 ロボットの局所化は、Bモード画像に付随する予測報酬に基づいて粗大なモードで行われる。 提案する報酬推論ネットワークの有効性を検証するために,血管ファントム(「ライン」標的」),2種類の生体内臓器(「キッケンハート」と「ラム腎臓」)ファントム(「ポイント」標的」)および生体内ヒト頸動脈を代表的に実験した。 自律獲得フレームワークの性能をさらに検証するために、3つのファントム(血管、鶏の心臓、羊の腎臓)で物理的ロボットによる獲得が行われた。 以上の結果から,提案する高度なフレームワークは,ヒトの頸動脈内データだけでなく,さまざまな幻影や無影の幻影を強く扱えることが示された。

Ultrasound (US) imaging is widely used for biometric measurement and diagnosis of internal organs due to the advantages of being real-time and radiation-free. However, due to inter-operator variations, resulting images highly depend on the experience of sonographers. This work proposes an intelligent robotic sonographer to autonomously "explore" target anatomies and navigate a US probe to a relevant 2D plane by learning from the expert. The underlying high-level physiological knowledge from experts is inferred by a neural reward function, using a ranked pairwise image comparisons approach in a self-supervised fashion. This process can be referred to as understanding the "language of sonography". Considering the generalization capability to overcome inter-patient variations, mutual information is estimated by a network to explicitly disentangle the task-related and domain features in latent space. The robotic localization is carried out in coarse-to-fine mode based on the predicted reward associated with B-mode images. To validate the effectiveness of the proposed reward inference network, representative experiments were performed on vascular phantoms ("line" target), two types of ex-vivo animal organs (chicken heart and lamb kidney) phantoms ("point" target) and in-vivo human carotids, respectively. To further validate the performance of the autonomous acquisition framework, physical robotic acquisitions were performed on three phantoms (vascular, chicken heart, and lamb kidney). The results demonstrated that the proposed advanced framework can robustly work on a variety of seen and unseen phantoms as well as in-vivo human carotid data.
翻訳日:2023-12-01 03:37:37 公開日:2023-11-29
# 大質量星のオッペンハイマー・スナイダーモデルによる量子系

Quantum system ascribed to the Oppenheimer-Snyder model of massive star ( http://arxiv.org/abs/2307.02026v2 )

ライセンス: Link先を確認
A. G\'o\'zd\'z, J. J. Ostrowski, A. P\c{e}drak, W. Piechocki(参考訳) 積分量子化法を用いてブラックホールのオッペンハイマー・スナイダーモデルを量子化する。 古典レベルと量子レベルの両方で同じ基底上で空間座標と時間座標を扱う。 我々の量子化は古典的曲率不変量の特異性を解き、あるいは解き放つ。 バウンスを持つ量子軌道は、特異な古典的軌道を置き換えることができる。 量子ブラックホールは有限バウンシング時間を持つ可能性がある。 副産物として、シュワルツシルトブラックホールの量子レベルでの重力特異性の解を得る。

We quantize the Oppenheimer-Snyder model of black hole using the integral quantization method. We treat spatial and temporal coordinates on the same footing both at classical and quantum levels. Our quantization resolves or smears the singularities of the classical curvature invariants. Quantum trajectories with bounces can replace singular classical ones. The considered quantum black hole may have finite bouncing time. As a byproduct, we obtain the resolution of the gravitational singularity of the Schwarzschild black hole at quantum level.
翻訳日:2023-12-01 03:37:10 公開日:2023-11-29
# 大規模自己監視プリトレインによる内視鏡映像解析の基礎モデル

Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2306.16741v3 )

ライセンス: Link先を確認
Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou(参考訳) 基礎モデルは、疾患診断やテキストレポート生成など、様々な応用で顕著な成功を収めている。 現在まで,内視鏡的映像解析の基礎モデルが欠落している。 本稿では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。 まず,空間的および時間的次元にまたがる局所的および大域的長距離依存性をキャプチャするビデオトランスフォーマーを構築する。 第2に,グローバルおよびローカルビューを用いたトランスフォーマーモデルの事前学習を行い,空間的・時間的変動に頑健にし,異なる場面で識別できるようにする。 基礎モデルを開発するために,上海の蓮華病院の青山支部から収集した9つの公開データセットとプライベートデータセットを組み合わせることで,大規模内視鏡映像データセットを構築した。 私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。 トレーニング済みのEndo-FMは、バックボーンとして機能し、微調整により、所定の下流タスクに容易に適用できる。 分類,セグメンテーション,検出を含む3種類のダウンストリームタスクの実験により,私たちのEndo-FMは,VCL(3.1% F1,4.8% Dice,5.5% F1,分類,セグメンテーション,検出)やST-Adapter(5.9% F1,9.6% Dice,9.9% F1,分類,セグメンテーション,検出)といった,現在の最先端技術(SOTA)の自己指導型事前訓練およびアダプタベースのトランスファー学習手法をはるかに上回っている。 コード、データセット、モデルはhttps://github.com/med-air/Endo-FMでリリースされている。

Foundation models have exhibited remarkable success in various applications, such as disease diagnosis and text report generation. To date, a foundation model for endoscopic video analysis is still lacking. In this paper, we propose Endo-FM, a foundation model specifically developed using massive endoscopic video data. First, we build a video transformer, which captures both local and global long-range dependencies across spatial and temporal dimensions. Second, we pre-train our transformer model using global and local views via a self-supervised manner, aiming to make it robust to spatial-temporal variations and discriminative across different scenes. To develop the foundation model, we construct a large-scale endoscopy video dataset by combining 9 publicly available datasets and a privately collected dataset from Baoshan Branch of Renji Hospital in Shanghai, China. Our dataset overall consists of over 33K video clips with up to 5 million frames, encompassing various protocols, target organs, and disease types. Our pre-trained Endo-FM can be easily adopted for a given downstream task via fine-tuning by serving as the backbone. With experiments on 3 different types of downstream tasks, including classification, segmentation, and detection, our Endo-FM surpasses the current state-of-the-art (SOTA) self-supervised pre-training and adapter-based transfer learning methods by a significant margin, such as VCL (3.1% F1, 4.8% Dice, and 5.5% F1 for classification, segmentation, and detection) and ST-Adapter (5.9% F1, 9.6% Dice, and 9.9% F1 for classification, segmentation, and detection). Code, datasets, and models are released at https://github.com/med-air/Endo-FM.
翻訳日:2023-12-01 03:37:04 公開日:2023-11-29
# RSPrompter: Visual Foundation Modelに基づくリモートセンシングインスタンスセグメンテーションのためのプロンプト学習

RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model ( http://arxiv.org/abs/2306.16269v2 )

ライセンス: Link先を確認
Keyan Chen, Chenyang Liu, Hao Chen, Haotian Zhang, Wenyuan Li, Zhengxia Zou, and Zhenwei Shi(参考訳) SA-1Bからの広範なトレーニングデータを活用することで、SAM(Segment Anything Model)は驚くべき一般化とゼロショット機能を示している。 しかし、カテゴリに依存しないインスタンスセグメンテーションの方法として、SAMはポイント、ボックス、粗いきめ細かいマスクを含む以前の手動ガイダンスに大きく依存している。 さらに、リモートセンシング画像セグメンテーションタスクにおけるその性能は、ほとんど探索されておらず、証明されていない。 本稿では,基本的なSAMモデルに基づくリモートセンシング画像の自動インスタンスセグメンテーション手法を開発し,セマンティックなカテゴリ情報を統合することを目的とする。 本稿では,素早い学習からインスピレーションを得てSAMの適切なプロンプトの生成を学習する手法を提案する。 これにより、SAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。 また,セグメンテーションタスクの実施例,samコミュニティにおける最近の進歩について,rsprompterとの比較を行った。 WHUビルディング,NWPU VHR-10,SSDDデータセットから得られた大規模な実験結果から,提案手法の有効性を検証した。 我々のメソッドのコードはkychen.me/RSPrompterで公開されている。

Leveraging the extensive training data from SA-1B, the Segment Anything Model (SAM) demonstrates remarkable generalization and zero-shot capabilities. However, as a category-agnostic instance segmentation method, SAM heavily relies on prior manual guidance, including points, boxes, and coarse-grained masks. Furthermore, its performance in remote sensing image segmentation tasks remains largely unexplored and unproven. In this paper, we aim to develop an automated instance segmentation approach for remote sensing images, based on the foundational SAM model and incorporating semantic category information. Drawing inspiration from prompt learning, we propose a method to learn the generation of appropriate prompts for SAM. This enables SAM to produce semantically discernible segmentation results for remote sensing images, a concept we have termed RSPrompter. We also propose several ongoing derivatives for instance segmentation tasks, drawing on recent advancements within the SAM community, and compare their performance with RSPrompter. Extensive experimental results, derived from the WHU building, NWPU VHR-10, and SSDD datasets, validate the effectiveness of our proposed method. The code for our method is publicly available at kychen.me/RSPrompter.
翻訳日:2023-12-01 03:36:02 公開日:2023-11-29
# 2レベルまたは3レベルの巨大原子に結合した1次元導波路における相関2光子散乱

Correlated two-photon scattering in a one-dimensional waveguide coupled to two- or three-level giant atoms ( http://arxiv.org/abs/2306.13836v2 )

ライセンス: Link先を確認
Wenju Gu, He Huang, Zhen Yi, Lei Chen, Lihui Sun, Huatang Tan(参考訳) 本研究では, 1次元導波路中の2光子散乱過程を, 2レベルまたは3レベルの巨大原子にそれぞれ結合させた。 2つの結合点間の累積位相シフトを利用して散乱過程を変化させることができる。 我々は、リップマン・シュウィンガー形式に倣い、これらの2つの系の正確な相互作用する2光子散乱波動関数を求め、そこから非コヒーレントパワースペクトルの解析的表現と2階相関も導出する。 境界状態の相関によって定義される非コヒーレントスペクトルは、光子-光子相関の有用な指標となる。 2階相関関数は光子-光子相関を直接測定する。 2段階の巨大原子が散乱する光子に対し、累積位相シフトは光子-光子相関を改善し、二階相関の進化を調整できる。 3レベルの巨大原子の系では、光子-光子相関が著しく増加する。 さらに、累積位相シフトをチューニングすることにより、散乱光子の光子-光子相互作用と相関距離をさらに向上させることができる。

We study the two-photon scattering processes in a one-dimensional waveguide coupled to a two- or three-level giant atom, respectively. The accumulated phase shift between the two coupling points can be utilized to alter the scattering processes. We obtain the exact interacting two-photon scattering wavefunction of these two systems following the Lippmann-Schwinger formalism, from which the analytical expressions of incoherent power spectra and second-order correlations are also derived. The incoherent spectrum, defined by the correlation of the bound state, serves as a useful indication of photon-photon correlation. The second-order correlation function gives a direct measure of photon-photon correlation. For photons scattered by the two-level giant atom, the accumulated phase shift can be used to improve photon-photon correlation,and adjust the evolution of the second-order correlation. In the system of the three-level giant atom, the photon-photon correlation can be substantially increased. Moreover, the photon-photon interactions and correlation distance of scattered photons can be further enhanced by tuning the accumulated phase shift.
翻訳日:2023-12-01 03:35:33 公開日:2023-11-29
# CO2フローパターンの推測-実現可能性研究

Inference of CO2 flow patterns -- a feasibility study ( http://arxiv.org/abs/2311.00290v2 )

ライセンス: Link先を確認
Abhinav Prakash Gahlot and Huseyin Tuna Erdinc and Rafael Orozco and Ziyi Yin and Felix J. Herrmann(参考訳) 気候変動との戦いにおいて、炭素捕獲・隔離技術(CCS)のグローバル展開が増大するにつれて、特に貯水池のシールの既存または誘導された欠陥によって、地下のCO2漏れの堅牢なモニタリングと検出機構を確立することがますます重要になっている。 履歴マッチングやCO2貯蔵の時間ラプス地震モニタリングといった手法は、地下のCO2プラムの進化の追跡に成功しているが、これらの手法はCO2プラムの挙動に関する不確実性を特徴付けるための原則的なアプローチを欠いている。 リスク軽減には,不確実性の体系的評価を含めることが必要である。 (i)CO2配管による変化は小さく、地震データもノイズが多い。 (ii)規則的及び不規則的(例えばリークによる)フローパターンの変化は小さい。 (iii)流動を制御する貯留層特性は強く異質であり、分布としてのみ使用可能である。 正常および不規則な流れの流動パターンを井戸および地震データから推定できる定式化に着くためには, 一連の慎重に設計された数値実験で条件付き正規化流の性能を解析する。 また, 初期のCO2漏れ検出システムでは, 予測は予備的だが, 条件付き正規化流による推定は, 漏れの有無にかかわらずCO2配管の高忠実度推定を導出できることが示唆された。 また、推定不確実性は観測された誤差と相関するので妥当であると確信している。 この不確実性は、地震データのノイズと貯水池の流動特性に関する正確な知識の欠如に起因する。

As the global deployment of carbon capture and sequestration (CCS) technology intensifies in the fight against climate change, it becomes increasingly imperative to establish robust monitoring and detection mechanisms for potential underground CO2 leakage, particularly through pre-existing or induced faults in the storage reservoir's seals. While techniques such as history matching and time-lapse seismic monitoring of CO2 storage have been used successfully in tracking the evolution of CO2 plumes in the subsurface, these methods lack principled approaches to characterize uncertainties related to the CO2 plumes' behavior. Inclusion of systematic assessment of uncertainties is essential for risk mitigation for the following reasons: (i) CO2 plume-induced changes are small and seismic data is noisy; (ii) changes between regular and irregular (e.g., caused by leakage) flow patterns are small; and (iii) the reservoir properties that control the flow are strongly heterogeneous and typically only available as distributions. To arrive at a formulation capable of inferring flow patterns for regular and irregular flow from well and seismic data, the performance of conditional normalizing flow will be analyzed on a series of carefully designed numerical experiments. While the inferences presented are preliminary in the context of an early CO2 leakage detection system, the results do indicate that inferences with conditional normalizing flows can produce high-fidelity estimates for CO2 plumes with or without leakage. We are also confident that the inferred uncertainty is reasonable because it correlates well with the observed errors. This uncertainty stems from noise in the seismic data and from the lack of precise knowledge of the reservoir's fluid flow properties.
翻訳日:2023-12-01 03:29:48 公開日:2023-11-29
# $k$-ユニフォーム量子状態のバウンド

Bounds on $k$-Uniform Quantum States ( http://arxiv.org/abs/2310.06378v2 )

ライセンス: Link先を確認
Fei Shi, Yu Ning, Qi Zhao and Xiande Zhang(参考訳) n$-partite $k$-uniform 状態は常に $k\leq \lfloor\frac{n}{2}\rfloor-1$ で存在するか? 本研究では、1999年にrains' boundを延長し、2004年にscott's boundを改良した$(\mathbb{c}^{d})^{\otimes n}$ when $d=3,4,5$ において、$k$-uniform 状態が存在するためのパラメータ $k$ の新たな上限を提供する。 $(\mathbb{c}^{d})^{\otimes n}$ の$k$-一様状態は、純粋な$((n,1,k+1))_{d}$ 量子誤り訂正符号に対応するので、最小距離の$k+1$ of pure $((n,1,k+1))_d$ 量子エラー訂正符号も与える。 さらに、異種系へのスコットの束縛を一般化し、$\mathbb{C}^{d_1}\otimes(\mathbb{C}^{d_2})^{\otimes 2n}$ において絶対極大に絡み合った状態のいくつかの非存在結果を示す。

Do $N$-partite $k$-uniform states always exist when $k\leq \lfloor\frac{N}{2}\rfloor-1$? In this work, we provide new upper bounds on the parameter $k$ for the existence of $k$-uniform states in $(\mathbb{C}^{d})^{\otimes N}$ when $d=3,4,5$, which extend Rains' bound in 1999 and improve Scott's bound in 2004. Since a $k$-uniform state in $(\mathbb{C}^{d})^{\otimes N}$ corresponds to a pure $((N,1,k+1))_{d}$ quantum error-correcting codes, we also give new upper bounds on the minimum distance $k+1$ of pure $((N,1,k+1))_d$ quantum error-correcting codes. Furthermore, we generalize Scott's bound to heterogeneous systems, and show some non-existence results of absolutely maximally entangled states in $\mathbb{C}^{d_1}\otimes(\mathbb{C}^{d_2})^{\otimes 2n}$.
翻訳日:2023-12-01 03:29:21 公開日:2023-11-29
# ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.05199v5 )

ライセンス: Link先を確認
Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。 このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。 しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。 長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。 本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。 我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。 偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。 提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。

Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn't equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
翻訳日:2023-12-01 03:28:27 公開日:2023-11-29
# FairTune:医療画像解析におけるフェアネスのための最適パラメータ調整

FairTune: Optimizing Parameter Efficient Fine Tuning for Fairness in Medical Image Analysis ( http://arxiv.org/abs/2310.05055v2 )

ライセンス: Link先を確認
Raman Dutt, Ondrej Bohdal, Sotirios A. Tsaftaris, Timothy Hospedales(参考訳) 医用診断などの倫理的に敏感な応用分野において,頑健なグループフェアネス特性を持つトレーニングモデルは重要である。 AIにおける人口統計バイアスを最小化しようとする動きが増えているにもかかわらず、この問題は依然として困難である。 高容量のディープラーニングモデルは、すべてのトレーニングデータをほぼ完璧に適合させ、トレーニング中に完璧な公正性を示すことができます。 この場合、偏見は、部分群間で一般化性能が異なる場合にのみ現れる。 これは、公正な学習に対する二段階の最適化の視点を取る動機となる: 検証の公平性に基づいた学習戦略の最適化。 具体的には、パラメータ効率細調整(PEFT)技術を用いて、トレーニング済みモデルを下流の医療画像タスクに適応するワークフローを効果的に検討する。 より多くのパラメータの更新、関心のあるタスクへの適合性の向上、パラメータの削減、一般化のギャップの低減など、トレードオフがある。 このトレードオフを管理するために、フェアネスに関するPEFTパラメータの選択を最適化するフレームワークであるFairTuneを提案する。 FairTuneが医療画像データセットの公平性を改善することを実証的に示す。

Training models with robust group fairness properties is crucial in ethically sensitive application areas such as medical diagnosis. Despite the growing body of work aiming to minimise demographic bias in AI, this problem remains challenging. A key reason for this challenge is the fairness generalisation gap: High-capacity deep learning models can fit all training data nearly perfectly, and thus also exhibit perfect fairness during training. In this case, bias emerges only during testing when generalisation performance differs across subgroups. This motivates us to take a bi-level optimisation perspective on fair learning: Optimising the learning strategy based on validation fairness. Specifically, we consider the highly effective workflow of adapting pre-trained models to downstream medical imaging tasks using parameter-efficient fine-tuning (PEFT) techniques. There is a trade-off between updating more parameters, enabling a better fit to the task of interest vs. fewer parameters, potentially reducing the generalisation gap. To manage this tradeoff, we propose FairTune, a framework to optimise the choice of PEFT parameters with respect to fairness. We demonstrate empirically that FairTune leads to improved fairness on a range of medical imaging datasets.
翻訳日:2023-12-01 03:28:05 公開日:2023-11-29
# backdiff: 一般化された転写性タンパク質バックマップのための拡散モデル

Backdiff: a diffusion model for generalized transferable protein backmapping ( http://arxiv.org/abs/2310.01768v2 )

ライセンス: Link先を確認
Yikai Liu, Ming Chen, Guang Lin(参考訳) 粗粒モデル(CG)は、タンパク質構造、タンパク質の熱力学特性、タンパク質配座ダイナミクスの研究において重要な役割を果たす。 粗粒化過程における情報損失のため、詳細な原子表現が必要な場合、CGから全原子構成へのバックマッピングは多くのタンパク質設計や創薬への応用において不可欠である。 データ駆動型バックマッピング手法の最近の進歩にもかかわらず、様々なCGモデルやタンパク質に普遍的に適用可能なバックマッピング法の開発は未解決のままである。 本研究では,タンパク質のバックマッピング問題における一般化と信頼性を実現するための新しい生成モデルであるBackDiffを提案する。 バックディフは幾何表現を持つ条件付きスコアベースの拡散モデルを利用する。 異なるCGモデルは、選択された原子(CG原子)と単純なCG補助関数(CG補助変数)を含む粗粒の異なる部位を含むことができるので、異なるCG原子に適応するための自己教師付きトレーニングフレームワークを設計し、任意のCG補助変数で拡散サンプリング経路を制約する。 本手法は,エンド・ツー・エンドのトレーニングを容易にするとともに,リトレーニングを必要とせず,異なるタンパク質および多様なCGモデルを効率的にサンプリングすることができる。 複数の一般的なCGモデルに対する総合的な実験は、バックディフが既存の最先端アプローチよりも優れた性能を示し、これらのアプローチが達成できない一般化と柔軟性を示している。 事前訓練されたBackDiffモデルは、タンパク質研究者にとって便利な、信頼性の高いプラグイン・アンド・プレイソリューションを提供する。

Coarse-grained (CG) models play a crucial role in the study of protein structures, protein thermodynamic properties, and protein conformation dynamics. Due to the information loss in the coarse-graining process, backmapping from CG to all-atom configurations is essential in many protein design and drug discovery applications when detailed atomic representations are needed for in-depth studies. Despite recent progress in data-driven backmapping approaches, devising a backmapping method that can be universally applied across various CG models and proteins remains unresolved. In this work, we propose BackDiff, a new generative model designed to achieve generalization and reliability in the protein backmapping problem. BackDiff leverages the conditional score-based diffusion model with geometric representations. Since different CG models can contain different coarse-grained sites which include selected atoms (CG atoms) and simple CG auxiliary functions of atomistic coordinates (CG auxiliary variables), we design a self-supervised training framework to adapt to different CG atoms, and constrain the diffusion sampling paths with arbitrary CG auxiliary variables as conditions. Our method facilitates end-to-end training and allows efficient sampling across different proteins and diverse CG models without the need for retraining. Comprehensive experiments over multiple popular CG models demonstrate BackDiff's superior performance to existing state-of-the-art approaches, and generalization and flexibility that these approaches cannot achieve. A pretrained BackDiff model can offer a convenient yet reliable plug-and-play solution for protein researchers, enabling them to investigate further from their own CG models.
翻訳日:2023-12-01 03:27:31 公開日:2023-11-29
# humannorm: 高品質かつ現実的な3d生成のための正規拡散モデル

HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation ( http://arxiv.org/abs/2310.01406v2 )

ライセンス: Link先を確認
Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu, Qing Wang(参考訳) 拡散モデルを用いた最近のテキスト・ツー・3D法は, 人間の3次元生成に大きな進歩をもたらした。 しかし、これらのアプローチは3d構造の理解を欠いたテキストから画像への拡散モデルの制限のため、課題に直面している。 その結果、これらの手法は高品質な人間生成を達成するのに苦労し、滑らかな幾何学や漫画のような外観をもたらす。 本稿では,高品質かつ現実的な3d生成のための新しいアプローチであるhumannormを提案する。 主なアイデアは、正規適応拡散モデルと正規アライメント拡散モデルを学習することにより、モデルの3次元形状の2次元知覚を強化することである。 正規適応拡散モデルは、ビュー依存およびボディアウェアテキストによるユーザのプロンプトに対応する高忠実度正規マップを生成することができる。 正規配向拡散モデルは、通常の地図に沿った色画像を生成することを学習し、物理的幾何学的詳細を現実的な外観に変換する。 提案する正規拡散モデルを利用して, プログレッシブな幾何生成戦略と多段階スコア蒸留サンプリング(sds)損失を考案し, 3次元人間の生成性能を向上させる。 包括的実験により、人間ノルムは複雑な形状とリアルな外観を持つ3d人間を生成できる。 HumanNormは、テクスチャとテクスチャの質の両方において、既存のテキストから3Dメソッドよりも優れています。 HumanNormのプロジェクトページはhttps://humannorm.github.io/。

Recent text-to-3D methods employing diffusion models have made significant advancements in 3D human generation. However, these approaches face challenges due to the limitations of text-to-image diffusion models, which lack an understanding of 3D structures. Consequently, these methods struggle to achieve high-quality human generation, resulting in smooth geometry and cartoon-like appearances. In this paper, we propose HumanNorm, a novel approach for high-quality and realistic 3D human generation. The main idea is to enhance the model's 2D perception of 3D geometry by learning a normal-adapted diffusion model and a normal-aligned diffusion model. The normal-adapted diffusion model can generate high-fidelity normal maps corresponding to user prompts with view-dependent and body-aware text. The normal-aligned diffusion model learns to generate color images aligned with the normal maps, thereby transforming physical geometry details into realistic appearance. Leveraging the proposed normal diffusion model, we devise a progressive geometry generation strategy and a multi-step Score Distillation Sampling (SDS) loss to enhance the performance of 3D human generation. Comprehensive experiments substantiate HumanNorm's ability to generate 3D humans with intricate geometry and realistic appearances. HumanNorm outperforms existing text-to-3D methods in both geometry and texture quality. The project page of HumanNorm is https://humannorm.github.io/.
翻訳日:2023-12-01 03:27:03 公開日:2023-11-29
# ディープニューラルネットワークにおけるノード摂動による効果的な学習

Effective Learning with Node Perturbation in Deep Neural Networks ( http://arxiv.org/abs/2310.00965v2 )

ライセンス: Link先を確認
Sander Dalm, Marcel van Gerven, Nasir Ahmad(参考訳) バックプロパゲーション(BP)は、ディープニューラルネットワークモデルのパラメータをトレーニングするための支配的かつ最も成功した手法である。 しかし、bpは2つの計算学的に異なるフェーズに依存しており、生物学的学習の十分な説明を提供しておらず、不連続やうるさいノードダイナミクスを持つネットワークのトレーニングに適用することが困難である。 比較して、ノード摂動(np)は、ネットワークアクティベーションへのノイズの注入による学習と、その後に誘発された損失変化の測定を提案する。 NPは2つの前方(推論)パスに依存し、ネットワークデリバティブを使用しず、生物学的システムにおける学習のモデルとして提案されている。 しかし、標準npは非誘導ノイズに基づく検索プロセスのため、非効率で不安定である。 本研究では,np の異なる定式化について検討し,方向微分の概念と関連づけるとともに,それと層別入力の相関機構を組み合わせる。 指向性デリバティブと各層での入力デコリレーションとの密接なアライメントにより,NP学習の性能が著しく向上し,BPと競合する列車セットの性能が向上し,ノイズ処理自体がアクセス不能なシステムへの適用が可能となった。

Backpropagation (BP) is the dominant and most successful method for training parameters of deep neural network models. However, BP relies on two computationally distinct phases, does not provide a satisfactory explanation of biological learning, and can be challenging to apply for training of networks with discontinuities or noisy node dynamics. By comparison, node perturbation (NP) proposes learning by the injection of noise into the network activations, and subsequent measurement of the induced loss change. NP relies on two forward (inference) passes, does not make use of network derivatives, and has been proposed as a model for learning in biological systems. However, standard NP is highly data inefficient and unstable due to its unguided noise-based search process. In this work, we investigate different formulations of NP and relate it to the concept of directional derivatives as well as combining it with a decorrelating mechanism for layer-wise inputs. We find that a closer alignment with directional derivatives together with input decorrelation at every layer significantly enhances performance of NP learning, making its performance on the train set competitive with BP and allowing its application to noisy systems in which the noise process itself is inaccessible.
翻訳日:2023-12-01 03:26:40 公開日:2023-11-29
# 解釈可能な模倣学習のための動的DAG探索

Dynamic DAG Discovery for Interpretable Imitation Learning ( http://arxiv.org/abs/2310.00489v3 )

ライセンス: Link先を確認
Tianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong Chen, Yanchi Liu, Wei Cheng, Haifeng Chen(参考訳) 専門家のデモンストレーションを模倣してエージェントポリシーを学ぶImitation Learningは、医療制度や自動運転車など多くの応用において有望な結果を示している。 しかし,エージェントが学習した制御方針を解釈することは依然として難しい課題である。 困難は主に2つの側面から生じる。 1)模倣学習のエージェントは通常,ブラックボックスモデルであり,解釈性に欠けるディープニューラルネットワークとして実装される。 2) エージェントの判断の背景にある因果的メカニズムは, 時間経過を通じて静的に留まるのではなく, 軌道に沿って変化する可能性がある。 透明性を高め,ニューラルネットワークの解釈可能性を高めるために,ノードが動作し,状態変数とエッジが予測の背後にある因果関係を示すような,有向非巡回因果グラフの形で取得した知識を公開することを提案する。 さらに,この因果発見プロセスを状態依存的に設計し,潜在因果グラフのダイナミクスをモデル化する。 具体的には, グレンジャー因果関係の観点から因果関係の発見を行い, 自己説明可能な模倣学習フレームワーク, {\method} を提案する。 提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。 モデルが学習されると、その決定の背後にある状態と行動変数間の因果関係が得られ、そこから学んだポリシーを公開する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法の動的因果グラフ学習における有効性を示し,予測精度を高く保ちながら模倣学習の意思決定を理解する。

Imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Difficulties mainly come from two aspects: 1) agents in imitation learning are usually implemented as deep neural networks, which are black-box models and lack interpretability; 2) the latent causal mechanism behind agents' decisions may vary along the trajectory, rather than staying static throughout time steps. To increase transparency and offer better interpretability of the neural agent, we propose to expose its captured knowledge in the form of a directed acyclic causal graph, with nodes being action and state variables and edges denoting the causal relations behind predictions. Furthermore, we design this causal discovery process to be state-dependent, enabling it to model the dynamics in latent causal graphs. Concretely, we conduct causal discovery from the perspective of Granger causality and propose a self-explainable imitation learning framework, {\method}. The proposed framework is composed of three parts: a dynamic causal discovery module, a causality encoding module, and a prediction module, and is trained in an end-to-end manner. After the model is learned, we can obtain causal relations among states and action variables behind its decisions, exposing policies learned by it. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of the proposed {\method} in learning the dynamic causal graphs for understanding the decision-making of imitation learning meanwhile maintaining high prediction accuracy.
翻訳日:2023-12-01 03:26:19 公開日:2023-11-29
# 冷磁化プラズマにおける電磁波伝播の量子コンピューティング的展望

Quantum Computing Perspective for Electromagnetic Wave Propagation in Cold Magnetized Plasmas ( http://arxiv.org/abs/2309.12492v2 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, George Vahala, Min Soe, Linda Vahala and Abhay K. Ram(参考訳) Electromagnetic waves are an inherent part of all plasmas -- laboratory fusion plasmas or astrophysical plasmas. The conventional methods for studying properties of electromagnetic waves rely on discretization of Maxwell equations suitable for implementing on classical, present day, computers. The traditional methodology is not efficient for quantum computing implementation -- a future computational source offering a tantalizing possibility of enormous speed up and a significant reduction in computational cost. 本稿では,量子コンピュータ上でのマクスウェル方程式の実装に関する2つのトピックについて述べる。 1つ目は、冷たく均一な磁化プラズマにおける波動伝播のためのマックスウェル方程式の量子シュロディンガー表現の定式化である。 この表現はユニタリ、エネルギー保存、進化を許容し、量子コンピュータの適切な離散化に都合よく寄与する。 これらの結果に基づいて、第2のトピックは、量子格子アルゴリズム(QLA)の基礎となるユニタリ演算子の系列の開発である。 量子コンピュータに適したQLAは、既存の古典的コンピュータ上で実装およびテストが可能であり、利用可能なプロセッサの数とともに計算時間のスケーリングを行うことができる。 マクスウェル方程式のqlaを説明するために、空間に局在する非分散誘電体媒体による電磁波パケットの伝播と散乱の時間発展のフルウェーブシミュレーションから結果が得られた。

Electromagnetic waves are an inherent part of all plasmas -- laboratory fusion plasmas or astrophysical plasmas. The conventional methods for studying properties of electromagnetic waves rely on discretization of Maxwell equations suitable for implementing on classical, present day, computers. The traditional methodology is not efficient for quantum computing implementation -- a future computational source offering a tantalizing possibility of enormous speed up and a significant reduction in computational cost. This paper addresses two topics relevant to implementing Maxwell equations on a quantum computer. The first is on formulating a quantum Schrodinger representation of Maxwell equations for wave propagation in a cold, inhomogeneous, magnetized plasma. This representation admits unitary, energy preserving, evolution and conveniently lends itself to appropriate discretization for a quantum computer. Riding on the coattails of these results, the second topic is on developing a sequence of unitary operators which form the basis for a qubit lattice algorithm (QLA). The QLA, suitable for quantum computers, can be implemented and tested on existing classical computers for accuracy as well as scaling of computational time with the number of available processors. In order to illustrate the QLA for Maxwell equations, results are presented from a time evolving, full wave simulation of propagation and scattering of an electromagnetic wave packet by non-dispersive dielectric medium localized in space.
翻訳日:2023-12-01 03:25:52 公開日:2023-11-29
# 敵対的攻撃の強化:類似の標的法

Enhancing Adversarial Attacks: The Similar Target Method ( http://arxiv.org/abs/2308.10743v3 )

ライセンス: Link先を確認
Shuo Zhang, Ziruo Wang, Zikai Zhou, Huanran Chen(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、モデルのアプリケーションに脅威を与え、セキュリティ上の懸念を提起する。 逆例の興味深い性質は、その強い伝達性である。 それらの効果を示すアンサンブル攻撃を含む、転送可能性を高めるいくつかの方法が提案されている。 しかし、事前のアプローチは単にモデルアンサンブルのロジット、確率、損失の平均であり、なぜモデルアンサンブルが転送可能性を大幅に改善するかの包括的な分析を欠いている。 本稿では,類似ターゲット~(st)と呼ばれる類似ターゲット攻撃手法を提案する。 各モデルの勾配のコサイン類似性を推し進めることにより、最適化方向を規則化し、全ての代理モデルに同時に攻撃する。 この戦略は一般化能力を高めることが証明されている。 ImageNetの実験結果から, 対向転写性向上のためのアプローチの有効性が検証された。 本手法は,18の識別的分類器と対角訓練モデルにおいて,最先端の攻撃者より優れる。

Deep neural networks are vulnerable to adversarial examples, posing a threat to the models' applications and raising security concerns. An intriguing property of adversarial examples is their strong transferability. Several methods have been proposed to enhance transferability, including ensemble attacks which have demonstrated their efficacy. However, prior approaches simply average logits, probabilities, or losses for model ensembling, lacking a comprehensive analysis of how and why model ensembling significantly improves transferability. In this paper, we propose a similar targeted attack method named Similar Target~(ST). By promoting cosine similarity between the gradients of each model, our method regularizes the optimization direction to simultaneously attack all surrogate models. This strategy has been proven to enhance generalization ability. Experimental results on ImageNet validate the effectiveness of our approach in improving adversarial transferability. Our method outperforms state-of-the-art attackers on 18 discriminative classifiers and adversarially trained models.
翻訳日:2023-12-01 03:25:32 公開日:2023-11-29
# 生物学的データ分類のための二乗馬群最適化アルゴリズムに基づく高次元遺伝子選択法

An Efficient High-Dimensional Gene Selection Approach based on Binary Horse Herd Optimization Algorithm for Biological Data Classification ( http://arxiv.org/abs/2308.09791v2 )

ライセンス: Link先を確認
Niloufar Mehrabi, Sayed Pedram Haeri Boroujeni, Elnaz Pashaei(参考訳) Horse Herd Optimization Algorithm (HOA)は、異なる年齢の馬の行動に基づく新しいメタヒューリスティックアルゴリズムである。 HOAは、複雑で高次元の問題を解決するために最近導入された。 本稿では、離散的な問題を解き、特徴部分集合を選択するために、Horse Herd Optimization Algorithm(BHOA)のバイナリバージョンを提案する。 さらに,本研究では,BHOAと最小冗長最大値(MRMR)フィルタに基づく新しいハイブリッド特徴選択フレームワークを提案する。 このハイブリッドな特徴選択は、より計算的に効率的であり、関連する特徴と情報的特徴の有益なサブセットを生成する。 特徴選択は二元問題であるため、連続的な問題を二元探索空間に変換する X-shape TF と呼ばれる新しい転送関数(TF)を適用した。 さらに,SVM(Support Vector Machine)を用いて,Lymphoma, Prostate, Brain-1, DLBCL, SRBCT, Leukemia, Ovarian, Colon, Lung, MLLの10種類のマイクロアレイデータセットに対して,提案手法の有効性を検討する。 Gray Wolf (GW) や Particle Swarm Optimization (PSO) や Genetic Algorithm (GA) といった他の最先端技術と比較して,提案手法は精度と最小選択特性において優れた性能を示す。 また、実験結果から、X字型BHOAアプローチが他の手法よりも優れていることが証明された。

The Horse Herd Optimization Algorithm (HOA) is a new meta-heuristic algorithm based on the behaviors of horses at different ages. The HOA was introduced recently to solve complex and high-dimensional problems. This paper proposes a binary version of the Horse Herd Optimization Algorithm (BHOA) in order to solve discrete problems and select prominent feature subsets. Moreover, this study provides a novel hybrid feature selection framework based on the BHOA and a minimum Redundancy Maximum Relevance (MRMR) filter method. This hybrid feature selection, which is more computationally efficient, produces a beneficial subset of relevant and informative features. Since feature selection is a binary problem, we have applied a new Transfer Function (TF), called X-shape TF, which transforms continuous problems into binary search spaces. Furthermore, the Support Vector Machine (SVM) is utilized to examine the efficiency of the proposed method on ten microarray datasets, namely Lymphoma, Prostate, Brain-1, DLBCL, SRBCT, Leukemia, Ovarian, Colon, Lung, and MLL. In comparison to other state-of-the-art, such as the Gray Wolf (GW), Particle Swarm Optimization (PSO), and Genetic Algorithm (GA), the proposed hybrid method (MRMR-BHOA) demonstrates superior performance in terms of accuracy and minimum selected features. Also, experimental results prove that the X-Shaped BHOA approach outperforms others methods.
翻訳日:2023-12-01 03:25:17 公開日:2023-11-29
# ニューラルネットワークを用いた痛み強度推定における不確かさの定量化

Uncertainty Quantification in Neural-Network Based Pain Intensity Estimation ( http://arxiv.org/abs/2311.08569v2 )

ライセンス: Link先を確認
Burcu Ozek, Zhenyuan Lu, Srinivasan Radhakrishnan, Sagar Kamarthi(参考訳) 不適切な痛み管理は、苦痛を含む重度の身体的または精神的な結果を引き起こし、オピオイド依存のリスクが増加する。 痛みの存在と重症度を評価することは、そのような結果の予防と適切な介入を決定するために不可欠である。 しかし,痛みは個人によって異なるため,痛み強度の評価は困難である。 これを克服するために、研究者は痛みの強さを客観的に評価するために機械学習モデルを採用した。 しかし、これらの取り組みは主に痛みのポイント推定に重点を置いており、データやモデルに存在する固有の不確実性と変動性を無視している。 したがって、ポイント推定は臨床意思決定のための部分的情報のみを提供する。 本研究では,不確実性定量化を取り入れたニューラルネットワークを用いた客観的痛覚区間推定手法を提案する。 本研究は, ブートストラップ法, 遺伝的アルゴリズムで最適化された下境界推定(LossL), 勾配降下アルゴリズムで最適化された下境界推定(LossS)の3つのアルゴリズムについて検討する。 実験の結果,LossSは予測間隔を狭めることで,他の2つよりも優れることがわかった。 その結果,LossSは痛み評価のシナリオを3つに分けて評価した。(1)一般化されたアプローチ(集団全体の単一モデル),(2)パーソナライズされたアプローチ(個々人の個別モデル),(3)ハイブリッドアプローチ(個々人のクラスタごとの分離モデル)。 本研究は, 臨床応用におけるハイブリットアプローチの優れた性能を示すものである。 臨床医にとって貴重なツールであり、不確実性を考慮して客観的な痛み強度評価を可能にする可能性がある。 この能力は、効果的な痛み管理の促進と不適切な治療に伴うリスクの軽減に不可欠である。

Improper pain management can lead to severe physical or mental consequences, including suffering, and an increased risk of opioid dependency. Assessing the presence and severity of pain is imperative to prevent such outcomes and determine the appropriate intervention. However, the evaluation of pain intensity is challenging because different individuals experience pain differently. To overcome this, researchers have employed machine learning models to evaluate pain intensity objectively. However, these efforts have primarily focused on point estimation of pain, disregarding the inherent uncertainty and variability present in the data and model. Consequently, the point estimates provide only partial information for clinical decision-making. This study presents a neural network-based method for objective pain interval estimation, incorporating uncertainty quantification. This work explores three algorithms: the bootstrap method, lower and upper bound estimation (LossL) optimized by genetic algorithm, and modified lower and upper bound estimation (LossS) optimized by gradient descent algorithm. Our empirical results reveal that LossS outperforms the other two by providing a narrower prediction interval. As LossS outperforms, we assessed its performance in three different scenarios for pain assessment: (1) a generalized approach (single model for the entire population), (2) a personalized approach (separate model for each individual), and (3) a hybrid approach (separate model for each cluster of individuals). Our findings demonstrate the hybrid approach's superior performance, with notable practicality in clinical contexts. It has the potential to be a valuable tool for clinicians, enabling objective pain intensity assessment while taking uncertainty into account. This capability is crucial in facilitating effective pain management and reducing the risks associated with improper treatment.
翻訳日:2023-12-01 03:17:42 公開日:2023-11-29
# DeepEMplanner: 反復的なインタラクションを備えたエンドツーエンドのEMモーションプランナ

DeepEMplanner: An End-to-End EM Motion Planner with Iterative Interactions ( http://arxiv.org/abs/2311.08100v2 )

ライセンス: Link先を確認
Zhili Chen, Maosheng Ye, Shuangjie Xu, Tongyi Cao, Qifeng Chen(参考訳) 動き計画(英: motion planning)は、周囲のエージェントの予測、環境理解、歴史的および将来の文脈に基づいて、有効な軌道の列を求める計算問題である。 エージェントは他のエージェントの意図や遭遇する環境に従って次の動きを継続的に計画し、インクリメンタルなアクションによって最終的な目標を達成するゲームと見なすこともできる。 動的な計画と相互作用のプロセスをモデル化するために,段階的な相互作用を考慮した新しいフレームワークであるdeepemplannerを提案する。 エゴ車両は、エージェントからのステップワイズ期待と今後の道路条件に基づいて、各ステップ動作を最大化し、最終的な運転結果に到達する。 一方、エージェントは、遭遇する環境下でのステップワイズ行動と、egoや他のエージェントからの期待を最大化するために、同じ哲学に従う。 我々のDeepEMplannerは、期待と最大化のプロセスをインターリーブすることで、エゴ、エージェント、動的環境間の相互作用を自己回帰的にモデル化する。 さらに, ego-to-agents, ego-to-map, ego-to-bev相互作用機構を階層的な動的キーオブジェクトで設計し, 相互作用のモデル化に注目する。 nuScenesベンチマークの実験から,本手法は最先端の結果が得られることが示された。

Motion planning is a computational problem that finds a sequence of valid trajectories, often based on surrounding agents' forecasting, environmental understanding, and historical and future contexts. It can also be viewed as a game in which agents continuously plan their next move according to other agents' intentions and the encountering environment, further achieving their ultimate goals through incremental actions. To model the dynamic planning and interaction process, we propose a novel framework, DeepEMplanner, which takes the stepwise interaction into account for fine-grained behavior learning. The ego vehicle maximizes each step motion to reach its eventual driving outcome based on the stepwise expectation from agents and its upcoming road conditions. On the other hand, the agents also follow the same philosophy to maximize their stepwise behavior under the encountering environment and the expectations from ego and other agents. Our DeepEMplanner models the interactions among ego, agents, and the dynamic environment in an autoregressive manner by interleaving the Expectation and Maximization processes. Further, we design ego-to-agents, ego-to-map, and ego-to-BEV interaction mechanisms with hierarchical dynamic key objects attention to better model the interactions. Experiments on the nuScenes benchmark show that our approach achieves state-of-the-art results.
翻訳日:2023-12-01 03:17:11 公開日:2023-11-29
# GPT-4Vを改良したビジュアルインストラクションチューニングの試行

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning ( http://arxiv.org/abs/2311.07574v2 )

ライセンス: Link先を確認
Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang(参考訳) 既存の視覚インストラクションチューニング手法は、通常、テキスト記述を持つ大きな言語モデルに命令追従データを生成するように促す。 達成される有望な性能にもかかわらず、これらの記述は、しばしば粗い粒度の画像アノテーションに由来する。 さらに、命令は視覚的コンテキスト全体を観察せずに視覚的内容と矛盾することもある。 この課題に対処するために,220Kの視覚的アライメントと,LVISの画像で強力なGPT-4Vをプロンプトすることで生成されたコンテキスト認識命令を含む,きめ細かい視覚的インストラクションデータセットLVIS-Instruct4Vを導入する。 実験的な検証とケーススタディを通じて、高品質なビジュアルインストラクションデータが、最先端の大規模マルチモーダルモデルであるllava-1.5の性能を、広い範囲のベンチマークでクリアマージンで改善できることを実証する。 例えば、LLaVA$^w$ (76.7 vs. 70.7) や MM-Vet (40.2 vs. 35.4) といった最も難しい LMM ベンチマークでは、LLaVA-Instruct を LVIS-Instruct4V に置き換えることで、LLaVA よりも優れた結果が得られる。 我々は、データとモデルをhttps://github.com/X2FD/LVIS-INSTRUCT4Vでリリースします。

Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Furthermore, the instructions might even contradict the visual content without observing the entire visual context. To address this challenge, we introduce a fine-grained visual instruction dataset, LVIS-Instruct4V, which contains 220K visually aligned and context-aware instructions produced by prompting the powerful GPT-4V with images from LVIS. Through experimental validation and case studies, we demonstrate that high-quality visual instructional data could improve the performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a wide spectrum of benchmarks by clear margins. Notably, by simply replacing the LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA on most challenging LMM benchmarks, e.g., LLaVA$^w$ (76.7 vs. 70.7) and MM-Vet (40.2 vs. 35.4). We release our data and model at https://github.com/X2FD/LVIS-INSTRUCT4V.
翻訳日:2023-12-01 03:16:50 公開日:2023-11-29
# 量子ハードウェアにおける変動最適化のための実時間誤差軽減

Real-time error mitigation for variational optimization on quantum hardware ( http://arxiv.org/abs/2311.05680v2 )

ライセンス: Link先を確認
Matteo Robbiati, Alejandro Sopena, Andrea Papaluca, Stefano Carrazza(参考訳) 本研究では,変分量子回路(vqc)モデルの学習過程における誤り軽減ルーチンの導入について検討した。 本稿では,VQCを用いた量子チップ上の関数の適合を支援するために,RTQEM(Real Time Quantum Error Mitigation)アルゴリズムを定義する。 現状のQEM法では, ノイズによる指数的損失集中に対処できないが, 我々のRTQEMルーチンは, 損失関数の劣化を低減し, VQCのトレーニング性を向上させることができることを示す。 我々は, 超伝導単一量子ビットデバイス上での一次元$\textit{u}$-quark parton分布関数(pdf)の適合性をシミュレーションし, デプロイし, 多次元適合を最大8量子ビットでシミュレーションすることにより, 提案手法のスケーラビリティをさらに解析した。

In this work we put forward the inclusion of error mitigation routines in the process of training Variational Quantum Circuit (VQC) models. In detail, we define a Real Time Quantum Error Mitigation (RTQEM) algorithm to assist in fitting functions on quantum chips with VQCs. While state-of-the-art QEM methods cannot address the exponential loss concentration induced by noise in current devices, we demonstrate that our RTQEM routine can enhance VQCs' trainability by reducing the corruption of the loss function. We tested the algorithm by simulating and deploying the fit of a monodimensional $\textit{u}$-Quark Parton Distribution Function (PDF) on a superconducting single-qubit device, and we further analyzed the scalability of the proposed technique by simulating a multidimensional fit with up to 8 qubits.
翻訳日:2023-12-01 03:16:23 公開日:2023-11-29
# 高マルチモーダル光マッター系における量子揺らぎの理解と制御のためのab initioフレームワーク

An ab initio framework for understanding and controlling quantum fluctuations in highly multimoded light-matter systems ( http://arxiv.org/abs/2311.05535v2 )

ライセンス: Link先を確認
Shiekh Zia Uddin, Nicholas Rivera, Devin Seyler, Yannick Salamin, Jamison Sloan, Charles Roques-Carmes, Shutao Xu, Michelle Sander, and Marin Soljacic(参考訳) 量子力学は物理量にゆらぎを課し、古典世界にないノイズの原因となる。 光の場合、量子揺らぎは高感度、解像度、帯域幅を必要とする多くのアプリケーションを制限する。 多くの場合、量子揺らぎを改ざんするには、光と物質の両方の自由度を持つ高度にマルチモードなシステムを扱う必要がある。 本研究では,光・物質多モード系における量子ノイズを記述するための新しい理論的枠組みを,量子感度解析により導入し,実験的に検証する。 この枠組みは量子ノイズ伝搬の新しい一般的な規則と機構を導き、非線形光学における既知の全ての量子ノイズ現象を正確にモデル化する。 超高速マルチモードシステムの量子ノイズ力学における理論の未解明側面をテストする実験を開発した。 例えば、超連続生成に関する物理的効果では、真空変動の強い非線形増幅により個々の波長が非常にノイズが大きいにもかかわらず、超低雑音対の波長の拡散を観察し、説明する。 次に、量子ノイズのスペクトル力学を利用して、非線形性やラマン散乱の真空変動のスペクトル力学を利用して、非常にノイズの多い複雑な光状態であっても、圧縮状態のような量子光状態を生成することができることを示す。 このような効果は、量子メートルロジーに使える光源の範囲を広く広げ、より高いパワーとより複雑なソースに量子光学をもたらすことができる。 私たちが開発したフレームワークは、量子力学によって設定された究極の限界にパフォーマンスが近づく電磁スペクトル全体にわたる光源を実現するための、多くの新しいアプローチを可能にします。

Quantum mechanics imposes fluctuations onto physical quantities, leading to sources of noise absent in the classical world. For light, quantum fluctuations limit many applications requiring high sensitivities, resolutions, or bandwidths. In many cases, taming quantum fluctuations requires dealing with highly multimode systems with both light and matter degrees of freedom - a regime which has traditionally eluded mechanistic insights, and for which general rules are largely lacking. In this work, we introduce and experimentally test a new theoretical framework for describing quantum noise in multimode systems of light and matter, called quantum sensitivity analysis. The framework leads to new general rules and mechanisms for quantum noise propagation - and accurately models all known quantum noise phenomena in nonlinear optics. We develop experiments to test unexplored aspects of our theory in the quantum noise dynamics of ultrafast multimode systems. For example, in physical effects related to supercontinuum generation, we observe and account for a proliferation of ultra low-noise pairs of wavelengths, despite that individual wavelengths are very noisy due to strong nonlinear amplification of vacuum fluctuations. We then show that by taking advantage of the spectral dynamics of quantum noise, it is possible to generate quantum light states, such as squeezed states, even with very noisy and complex light states - by exploiting the spectral dynamics of vacuum fluctuations undergoing nonlinearity and Raman scattering. Effects like these can widely extend the range of sources that can be used for quantum metrology, bringing quantum optics to higher powers and more complex sources. Broadly, the framework we developed will enable many new approaches for realizing light sources across the entire electromagnetic spectrum whose performance approaches ultimate limits set by quantum mechanics.
翻訳日:2023-12-01 03:16:04 公開日:2023-11-29
# ZoomNeXt:カモフラージュ物体検出のための統一協調ピラミッドネットワーク

ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection ( http://arxiv.org/abs/2310.20208v2 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu(参考訳) 最近のcamouflaged object detection (COD)は、現実世界のシナリオでは極めて複雑で困難である、視覚的にブレンドされた物体を周囲に分割しようとする試みである。 カモフラージュされた物体とそれらの背景の間の本質的な類似性は別として、物体は通常、スケールが多様であり、外観がファジィで、さらに密閉されている。 そこで本研究では,曖昧な画像や映像を観察する際に人間の行動を模倣し,ズームインとズームアウトを行う,効果的な協調ピラミッドネットワークを提案する。 具体的には,マルチヘッドスケール統合による識別的混合スケールセマンティクスを学習するためのズーム戦略と,候補対象と背景環境との不可避な手がかりを十分に探究するために設計されたリッチな粒度知覚単位を用いる。 前者の本質的なマルチヘッドアグリゲーションは、より多様な視覚パターンを提供する。 後者のルーティング機構は、時空間シナリオにおけるフレーム間差異を効果的に伝播し、静的表現を適応的に無視することができる。 静的および動的codのための統一アーキテクチャを実現するための強固な基盤を提供する。 さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,候補領域に高い信頼を抱く予測を促進するため,単純で効果的な正規化,不確実性認識損失を構築した。 当社のタスクフレンドリーなフレームワークは、画像およびビデオcodベンチマークにおいて、既存の最先端のメソッドを一貫して上回っています。 コードは \url{https://github.com/lartpang/ZoomNeXt} で入手できる。

Recent camouflaged object detection (COD) attempts to segment objects visually blended into their surroundings, which is extremely complex and difficult in real-world scenarios. Apart from the high intrinsic similarity between camouflaged objects and their background, objects are usually diverse in scale, fuzzy in appearance, and even severely occluded. To this end, we propose an effective unified collaborative pyramid network which mimics human behavior when observing vague images and videos, \textit{i.e.}, zooming in and out. Specifically, our approach employs the zooming strategy to learn discriminative mixed-scale semantics by the multi-head scale integration and rich granularity perception units, which are designed to fully explore imperceptible clues between candidate objects and background surroundings. The former's intrinsic multi-head aggregation provides more diverse visual patterns. The latter's routing mechanism can effectively propagate inter-frame difference in spatiotemporal scenarios and adaptively ignore static representations. They provides a solid foundation for realizing a unified architecture for static and dynamic COD. Moreover, considering the uncertainty and ambiguity derived from indistinguishable textures, we construct a simple yet effective regularization, uncertainty awareness loss, to encourage predictions with higher confidence in candidate regions. Our highly task-friendly framework consistently outperforms existing state-of-the-art methods in image and video COD benchmarks. The code will be available at \url{https://github.com/lartpang/ZoomNeXt}.
翻訳日:2023-12-01 03:15:19 公開日:2023-11-29
# SentMix-3L: 感性分析のためのBangla- English-Hindi Code-Mixed Dataset

SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2310.18023v2 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios Anastasopoulos, Marcos Zampieri(参考訳) コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。 コードミキシングの計算モデルをトレーニングする目的で、いくつかのデータセットが構築されている。 複数の言語でコードミキシングを観測することは一般的だが、利用可能なほとんどのデータセットは2つの言語の間でのみコードミキシングされる。 本稿では,バングラ語,英語,ヒンディー語の3言語間のコード混合データを含む感情分析のための新しいデータセットであるSentMix-3Lを紹介する。 SentMix-3Lを用いて総合評価を行う。 GPT-3.5によるゼロショットプロンプトは、SentMix-3L上のすべてのトランスフォーマーモデルより優れていることを示す。

Code-mixing is a well-studied linguistic phenomenon when two or more languages are mixed in text or speech. Several datasets have been build with the goal of training computational models for code-mixing. Although it is very common to observe code-mixing with multiple languages, most datasets available contain code-mixed between only two languages. In this paper, we introduce SentMix-3L, a novel dataset for sentiment analysis containing code-mixed data between three languages Bangla, English, and Hindi. We carry out a comprehensive evaluation using SentMix-3L. We show that zero-shot prompting with GPT-3.5 outperforms all transformer-based models on SentMix-3L.
翻訳日:2023-12-01 03:14:52 公開日:2023-11-29
# CADS: 条件付きサンプリングによる拡散モデルの多様性の解放

CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling ( http://arxiv.org/abs/2310.17347v2 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber(参考訳) 条件付き拡散モデルは、データ分布をよくカバーしていることが知られているが、特に最適な画像品質のための分類なしガイダンス尺度や、小さなデータセットで訓練された場合、出力の多様性の制限に直面している。 この問題を推論における条件づけ信号の役割と位置づけ、特に高誘導スケールにおいて、サンプル品質の損失を最小限に抑えながら、生成の多様性を高める拡散モデルのためのサンプリング戦略の改善を提供する。 提案手法は, 推定中にガウス雑音を条件付けベクトルに単調に減少させ, ダイバーシティと条件アライメントのバランスをとることにより, 条件付け信号をアニールする。 条件付き拡散サンプリング(CADS)は,任意の事前学習モデルとサンプリングアルゴリズムで使用することができ,様々な条件生成タスクにおける拡散モデルの多様性を高めることを示す。 さらに、既存の事前訓練拡散モデルを用いて、CADSは256$\times$256と512$\times$512のクラス条件の画像ネット生成に対して、1.70と2.31の最先端FIDをそれぞれ達成している。

While conditional diffusion models are known to have good coverage of the data distribution, they still face limitations in output diversity, particularly when sampled with a high classifier-free guidance scale for optimal image quality or when trained on small datasets. We attribute this problem to the role of the conditioning signal in inference and offer an improved sampling strategy for diffusion models that can increase generation diversity, especially at high guidance scales, with minimal loss of sample quality. Our sampling strategy anneals the conditioning signal by adding scheduled, monotonically decreasing Gaussian noise to the conditioning vector during inference to balance diversity and condition alignment. Our Condition-Annealed Diffusion Sampler (CADS) can be used with any pretrained model and sampling algorithm, and we show that it boosts the diversity of diffusion models in various conditional generation tasks. Further, using an existing pretrained diffusion model, CADS achieves a new state-of-the-art FID of 1.70 and 2.31 for class-conditional ImageNet generation at 256$\times$256 and 512$\times$512 respectively.
翻訳日:2023-12-01 03:14:42 公開日:2023-11-29
# 時空間ネットワークとマルチモデル融合による学生教室の行動検出

Student Classroom Behavior Detection based on Spatio-Temporal Network and Multi-Model Fusion ( http://arxiv.org/abs/2310.16267v2 )

ライセンス: Link先を確認
Fan Yang and Xiaofei Wang(参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績の分析と授業効果の向上に有望なアプローチである。 しかし、学生の行動に関する一般公開された時空間データセットの欠如や、このようなデータセットを手動でラベル付けするコストの高騰は、この分野の研究者にとって大きな課題となっている。 そこで,本稿では,学生教室シナリオ(scb-st-dataset4)における時空間行動データセットの拡張手法を提案する。 SCB-ST-Dataset4は757265枚の画像と25810個のラベルで構成され、手作り、読み書きの3つの行動に焦点を当てている。 提案手法は,手動ラベリングを必要とせず,時空間の行動データセットを高速に生成できる。 さらに,行動の類似性を検討するために行動類似度指標(bsi)を提案した。 YOLOv5, YOLOv7, YOLOv8, SlowFastアルゴリズムを用いて, 平均精度(マップ)を82.3%まで向上させた。 最後に,様々な視点から学生行動関連データを生成するために,複数のモデルを融合した。 この実験は,さらに本手法の有効性を示す。 そして、SCB-ST-Dataset4は、将来の学生の行動検出研究のための堅牢な基盤を提供し、この分野の進歩に寄与する可能性がある。 SCB-ST-Dataset4 は https://github.com/Whiffe/SCB-dataset でダウンロードできる。

Using deep learning methods to detect students' classroom behavior automatically is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available spatio-temporal datasets on student behavior, as well as the high cost of manually labeling such datasets, pose significant challenges for researchers in this field. To address this issue, we proposed a method for extending the spatio-temporal behavior dataset in Student Classroom Scenarios (SCB-ST-Dataset4) through image dataset. Our SCB-ST-Dataset4 comprises 757265 images with 25810 labels, focusing on 3 behaviors: hand-raising, reading, writing. Our proposed method can rapidly generate spatio-temporal behavior datasets without requiring extra manual labeling. Furthermore, we proposed a Behavior Similarity Index (BSI) to explore the similarity of behaviors. We evaluated the dataset using the YOLOv5, YOLOv7, YOLOv8, and SlowFast algorithms, achieving a mean average precision (map) of up to 82.3%. Last, we fused multiple models to generate student behavior-related data from various perspectives. The experiment further demonstrates the effectiveness of our method. And SCB-ST-Dataset4 provides a robust foundation for future research in student behavior detection, potentially contributing to advancements in this field. The SCB-ST-Dataset4 is available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2023-12-01 03:14:19 公開日:2023-11-29
# 開ホログラフィーにおける影響関数:絡みとR'enyiエントロピー

The Influence Functional in open holography: entanglement and R\'enyi entropies ( http://arxiv.org/abs/2310.13047v2 )

ライセンス: Link先を確認
Pietro Pelliconi, Julian Sonner(参考訳) オープン量子系は、通常のユニタリ量子論として定義され、自由度の集合と結合し、観測されていない環境の r\^ole に導かれる。 ここでは、正則双対性で生じる場の理論を含む、いわゆるFeynman-Vernon Influence Functional (IF) の助けを借りて、オープン量子場理論の例を研究する。 我々は、IFの存在下で、未観測環境の効果を捉えることができるオープン有効場理論としてシステムを解釈する。 我々の主な焦点は、そのようなシステムにおけるR'enyiと絡み合いのエントロピーの計算であり、その内訳はIF(Open EFT)である。 オープン量子系におけるエンタングルメント-R'enyiエントロピーの計算の問題は驚くほどリッチであり、IFの処方薬が選択の応用によってどのように適切であるかを指摘する。 提案手法の顕著な適用例は、例えばブラックホールから放出されるホーキング放射を考える場合など、設定に重力を含める際のサブシステムの微細なエントロピーに関するものである。 このケースでは、IFの処方薬の1つがユニタリな進化と一致した回答を導き、もう1つは単に標準のETF結果を再現するだけであり、ユニタリなグローバルな進化とは矛盾することが知られている。 これらの結果は漸近的に任意の次元の重力に作用し、2次元の物質結合jt重力の場合のifに対する明示的な解析式で示される。

Open quantum systems are defined as ordinary unitary quantum theories coupled to a set of external degrees of freedom, which are introduced to take on the r\^ole of an unobserved environment. Here we study examples of open quantum field theories, with the aid of the so-called Feynman- Vernon Influence Functional (IF), including field theories that arise in holographic duality. We interpret the system in the presence of an IF as an open effective field theory, able to capture the effect of the unobserved environment. Our main focus is on computing R\'enyi and entanglement entropies in such systems, whose description from the IF, or "open EFT", point of view we develop in this paper. The issue of computing the entanglement-R\'enyi entropies in open quantum systems is surprisingly rich, and we point out how different prescriptions for the IF may be appropriate depending on the application of choice. A striking application of our methods concerns the fine-grained entropy of subsystems when including gravity in the setup, for example when considering the Hawking radiation emitted by black holes. In this case we show that one prescription for the IF leads to answers consistent with unitary evolution, while the other merely reproduces standard EFT results, well known to be inconsistent with unitary global evolution. We establish these results for asymptotically AdS gravity in arbitrary dimensions, and illustrate them with explicit analytical expressions for the IF in the case of matter-coupled JT gravity in two dimensions.
翻訳日:2023-12-01 03:13:55 公開日:2023-11-29
# 時系列予測のための新しい分解型時系列予測フレームワーク : ボラティリティ情報の取り込み

A novel decomposed-ensemble time series forecasting framework: capturing underlying volatility information ( http://arxiv.org/abs/2310.08812v4 )

ライセンス: Link先を確認
Zhengtao Gui, Haoyuan Li, Sijie Xu, Yu Chen(参考訳) 時系列予測は様々な分野において重要かつ困難なタスクである。 近年,局所的な特徴を捉え,データから固有モードを抽出するという利点から,モード分解に基づく手法が複雑な時系列予測を優位に立たしている。 残念なことに、ほとんどのモデルは重要な情報を含む暗黙のボラティリティを捉えていない。 現代における多種多様かつ複雑な時系列の予測を強化するために,分解と,その基礎となる変動情報を捉える能力を統合する新しい時系列予測パラダイムを提案する。 本手法では,時系列をK個のサブモードに分解する変動モード分解アルゴリズムを実装した。 この分解に続いて、一般化自己回帰条件ヘテロスケダスティック性(GARCH)モデルを適用し、これらのサブモードのボラティリティ情報を抽出する。 その後、各サブモードの数値データとボラティリティ情報の両方を利用してニューラルネットワークを訓練する。 このネットワークはサブモードの情報を予測するのに適しており、全てのサブモードの予測を集約して最終的な出力を生成する。 econometric and artificial intelligence (econometric and artificial intelligence) の手法を統合し,時系列の数値的および変動性情報の両方を考慮し,mse,rmse,mapeの有意な減少を比較実験結果で示し,時系列予測における優れた性能を示す。

Time series forecasting represents a significant and challenging task across various fields. Recently, methods based on mode decomposition have dominated the forecasting of complex time series because of the advantages of capturing local characteristics and extracting intrinsic modes from data. Unfortunately, most models fail to capture the implied volatilities that contain significant information. To enhance the prediction of contemporary diverse and complex time series, we propose a novel time series forecasting paradigm that integrates decomposition with the capability to capture the underlying fluctuation information of the series. In our methodology, we implement the Variational Mode Decomposition algorithm to decompose the time series into K distinct sub-modes. Following this decomposition, we apply the Generalized Autoregressive Conditional Heteroskedasticity (GARCH) model to extract the volatility information in these sub-modes. Subsequently, both the numerical data and the volatility information for each sub-mode are harnessed to train a neural network. This network is adept at predicting the information of the sub-modes, and we aggregate the predictions of all sub-modes to generate the final output. By integrating econometric and artificial intelligence methods, and taking into account both the numerical and volatility information of the time series, our proposed framework demonstrates superior performance in time series forecasting, as evidenced by the significant decrease in MSE, RMSE, and MAPE in our comparative experimental results.
翻訳日:2023-12-01 03:12:46 公開日:2023-11-29
# 任意層状騒音モデルにおける雑音誘起不毛高原の発生

Emergence of noise-induced barren plateaus in arbitrary layered noise models ( http://arxiv.org/abs/2310.08405v2 )

ライセンス: Link先を確認
Marco Schumann, Frank K. Wilhelm, and Alessandro Ciani(参考訳) 変分量子アルゴリズムでは、パラメータ化された量子回路のパラメータは、問題の解を符号化するコスト関数を最小化するために最適化される。 バレンプラトー現象は, 変動パラメータに対するコスト関数の指数関数的依存性として現れ, 最適化過程を阻害する。 層状雑音モデルを用いたパラメータ化量子回路において、ノイズ誘起バレンプラトー現象がどのように出現するか、その意味について論じる。 前報では, 局所的なパウリノイズ(arXiv: 2007.14384)の存在下での騒音誘起バレン台地の存在が確認されている。 これらの結果を解析的に、任意の完全正のトレース保存マップに拡張する。 1)パラメータシフト規則が成立する場合 2) 各層におけるパラメタライズド量子回路は, ユニタリな2ドル設計となる。 第2の例は、表現力に富んだユニタリが標準的な不毛高原 [arxiv:1803.11173] だけでなく、ノイズによって引き起こされるものに対してもどのように生み出すかを示している。 本論文の第2部では,$d$正則グラフと振幅減衰雑音の最大カット問題に着目し,qaoa回路におけるノイズ誘起不毛高原の発生を数値的に検討する。

In variational quantum algorithms the parameters of a parameterized quantum circuit are optimized in order to minimize a cost function that encodes the solution of the problem. The barren plateau phenomenon manifests as an exponentially vanishing dependence of the cost function with respect to the variational parameters, and thus hampers the optimization process. We discuss how, and in which sense, the phenomenon of noise-induced barren plateaus emerges in parameterized quantum circuits with a layered noise model. Previous results have shown the existence of noise-induced barren plateaus in the presence of local Pauli noise [arXiv:2007.14384]. We extend these results analytically to arbitrary completely-positive trace preserving maps in two cases: 1) when a parameter-shift rule holds, 2) when the parameterized quantum circuit at each layer forms a unitary $2$-design. The second example shows how highly expressive unitaries give rise not only to standard barren plateaus [arXiv:1803.11173], but also to noise-induced ones. In the second part of the paper, we study numerically the emergence of noise-induced barren plateaus in QAOA circuits focusing on the case of MaxCut problems on $d$-regular graphs and amplitude damping noise.
翻訳日:2023-12-01 03:12:23 公開日:2023-11-29
# LLM応用における脆弱性の特定と緩和

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications ( http://arxiv.org/abs/2311.16153v2 )

ライセンス: Link先を確認
Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo Li, Radha Poovendran(参考訳) 大規模言語モデル(LLM)は、コード補完やAIによる検索といったLLM統合アプリケーションのバックエンドとして、ますます多くデプロイされている。 LLM統合されたアプリケーションは、ユーザーのクエリをドメイン固有の知識で洗練し、LCMにより良い情報を与え、応答を強化するミドルウェアとして機能する。 多数の機会と利点にもかかわらず、llm統合アプリケーションは新しい攻撃面も導入している。 これらの新興の攻撃面を理解し、最小化し、排除することは、新しい研究分野である。 本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。 我々は、ユーザのクエリから始まる通信ラウンドに注目し、サービスバックエンドでllmsを使用して、クエリに対する応答をllmに統合したアプリケーションで終了します。 このクエリ応答プロトコルでは、悪意のあるアプリケーション開発者や、データベースアクセスを制御できる外部の脅威イニシアチブから発生しうる潜在的な脆弱性を特定し、ユーザにとってリスクの高いデータを操作する。 特定された脆弱性のエクスプロイトに成功したユーザは、脅威開始者の意図に合わせた応答を受け取ることになる。 我々は,OpenAI GPT-3.5 と GPT-4 で強化された LLM 統合アプリケーションに対する脅威を評価する。 実験の結果、この脅威はOpenAIの制限やモデレーションポリシーを効果的に回避でき、その結果、ユーザーはバイアス、有害コンテンツ、プライバシーリスク、偽情報を含む応答を受け取ります。 これらの脅威を軽減するため、安全なLLM統合アプリケーションによって満たされる必要がある4つの重要な特性、すなわち、整合性、ソース識別、攻撃検出性、ユーティリティ保存を特定し、定義する。 これらの特性に基づいて、内部および外部の脅威を緩和する軽量で脅威に依存しない防御を開発する。

Large language models (LLMs) are increasingly deployed as the service backend for LLM-integrated applications such as code completion and AI-powered search. LLM-integrated applications serve as middleware to refine users' queries with domain-specific knowledge to better inform LLMs and enhance the responses. Despite numerous opportunities and benefits, LLM-integrated applications also introduce new attack surfaces. Understanding, minimizing, and eliminating these emerging attack surfaces is a new area of research. In this work, we consider a setup where the user and LLM interact via an LLM-integrated application in the middle. We focus on the communication rounds that begin with user's queries and end with LLM-integrated application returning responses to the queries, powered by LLMs at the service backend. For this query-response protocol, we identify potential vulnerabilities that can originate from the malicious application developer or from an outsider threat initiator that is able to control the database access, manipulate and poison data that are high-risk for the user. Successful exploits of the identified vulnerabilities result in the users receiving responses tailored to the intent of a threat initiator. We assess such threats against LLM-integrated applications empowered by OpenAI GPT-3.5 and GPT-4. Our empirical results show that the threats can effectively bypass the restrictions and moderation policies of OpenAI, resulting in users receiving responses that contain bias, toxic content, privacy risk, and disinformation. To mitigate those threats, we identify and define four key properties, namely integrity, source identification, attack detectability, and utility preservation, that need to be satisfied by a safe LLM-integrated application. Based on these properties, we develop a lightweight, threat-agnostic defense that mitigates both insider and outsider threats.
翻訳日:2023-12-01 03:05:31 公開日:2023-11-29
# ai共同パイロットの台頭: 航空やその先からデザインを学ぶ

The Rise of the AI Co-Pilot: Lessons for Design from Aviation and Beyond ( http://arxiv.org/abs/2311.14713v2 )

ライセンス: Link先を確認
Abigail Sellen and Eric Horvitz(参考訳) AIの急速な進歩は、知識労働の様々な側面に革命をもたらすことを約束し、その影響を日常生活や専門分野にも広げる。 我々は、AIが単なるツールではなく、人間の指導の下で働く共同パイロットと見なされるパラダイムを提唱する。 ヒューマン・コンピュータ・インタラクションとヒューマンファクター・エンジニアリングの分野における関連する研究と文献から、AIインタラクションにおける人間の監視を維持することの重要性を強調します。 航空からの教訓を反映して,人間の警戒力の低下や技術侵食といった,自動化を過度に考慮する危険性に対処する。 本稿では,AIパートナーシップにおける積極的な人間関与,制御,スキル向上を重視したデザインアプローチを提案する。 私たちは、AIの対話能力とソフトウェアアプリケーションを設計し、人間の機関の優位性を実現し、祝福するための重要なニーズを特に挙げています。 これにより、人間のユーザーに対する究極のコントロールと責任をパイロットとして引き継ぐ、人間とAIのパートナーシップのための設計が求められます。

The fast pace of advances in AI promises to revolutionize various aspects of knowledge work, extending its influence to daily life and professional fields alike. We advocate for a paradigm where AI is seen as a collaborative co-pilot, working under human guidance rather than as a mere tool. Drawing from relevant research and literature in the disciplines of Human-Computer Interaction and Human Factors Engineering, we highlight the criticality of maintaining human oversight in AI interactions. Reflecting on lessons from aviation, we address the dangers of over-relying on automation, such as diminished human vigilance and skill erosion. Our paper proposes a design approach that emphasizes active human engagement, control, and skill enhancement in the AI partnership, aiming to foster a harmonious, effective, and empowering human-AI relationship. We particularly call out the critical need to design AI interaction capabilities and software applications to enable and celebrate the primacy of human agency. This calls for designs for human-AI partnership that cede ultimate control and responsibility to the human user as pilot, with the AI co-pilot acting in a well-defined supporting role.
翻訳日:2023-12-01 03:05:01 公開日:2023-11-29
# ソーシャルaiは若い女性の幸福感を改善する

Social AI Improves Well-Being Among Female Young Adults ( http://arxiv.org/abs/2311.14706v2 )

ライセンス: Link先を確認
Ebony Zhang, Xiaoding Lu(参考訳) ChatGPTのような言語モデルの台頭は、新しいエンターテイメントの形式としてSocial AIを導入している。 本稿では,これらの相互作用が利用者の社会的・精神的幸福に及ぼす影響について考察する。 私たちの調査では、ソーシャルAIプラットフォームChaiのユーザ5,260を調査しました。 この発見は大きな利益を示しており、人口動態に顕著な変化がある。 43.4%は、ソーシャルAIが男性ユーザーを10.5%以上上回り、彼らのメンタルヘルスに肯定的な影響を与えたことに強く同意した。 社会不安の管理において、女性38.9%は男性30.0%、他の性別27.1%に対して肯定的な影響に強く同意した。 歴史的に、新しいメディアとテクノロジーは、しばしば根拠のない道徳的パニックに遭い、社会的な人物は実質的な危害の証拠なしに懸念を提起した。 本研究は,これらの主張に注意してアプローチすることの重要性を示し,新興技術の行動効果に関する議論においてエビデンスに基づく視点の必要性を強調する。

The rise of language models like ChatGPT has introduced Social AI as a new form of entertainment, particularly among young adults who engage with AI-powered agents. This paper investigates the effects of these interactions on users' social and mental well-being, a subject that has incited extensive debate among both the public and scholars. Our study involved a survey of 5,260 users of Chai, a Social AI Platform. The findings indicate significant benefits, with notable variations across demographics. Female users, in particular, reported the most substantial improvements: 43.4% strongly agreed that Social AI positively impacted their mental health, exceeding male users by 10.5%. In managing social anxieties, 38.9% of females strongly agreed on a positive impact, compared to 30.0% for males and 27.1% for other genders. Historically, new media and technology have often been met with groundless moral panic, with societal figures raising concerns without substantial evidence of harm. Our research indicates the importance of approaching such claims with caution and emphasizes the necessity of an evidence-based perspective in discussions about the behavioral effects of emerging technologies.
翻訳日:2023-12-01 03:04:38 公開日:2023-11-29
# 分断的要因設計を用いたビジネス政策実験:ドアダッシュの消費者維持

Business Policy Experiments using Fractional Factorial Designs: Consumer Retention on DoorDash ( http://arxiv.org/abs/2311.14698v2 )

ライセンス: Link先を確認
Yixin Tang, Yicong Lin, Navdeep S. Sahni(参考訳) 本稿では,ビジネス政策のファクタリングによる実験による学習コストの低減と,その評価に分数的因子的実験設計を採用する手法について検討する。 本手法は,不均質な治療効果の推定の進歩と統合し,その利点と基礎的前提を明らかにした。 当社のアプローチの実装とメリットを実証的に実証し,米国最大の配送プラットフォームであるDoorDashにおける消費者プロモーション政策の評価における妥当性を評価する。 当社のアプローチでは,5%増益で実装コストが67%低減したポリシを見出した。

This paper investigates an approach to both speed up business decision-making and lower the cost of learning through experimentation by factorizing business policies and employing fractional factorial experimental designs for their evaluation. We illustrate how this method integrates with advances in the estimation of heterogeneous treatment effects, elaborating on its advantages and foundational assumptions. We empirically demonstrate the implementation and benefits of our approach and assess its validity in evaluating consumer promotion policies at DoorDash, which is one of the largest delivery platforms in the US. Our approach discovers a policy with 5% incremental profit at 67% lower implementation cost.
翻訳日:2023-12-01 03:04:18 公開日:2023-11-29
# 相同型筋電図エンコーダを用いた高速・表現的ジェスチャー認識

Fast and Expressive Gesture Recognition using a Combination-Homomorphic Electromyogram Encoder ( http://arxiv.org/abs/2311.14675v2 )

ライセンス: Link先を確認
Niklas Smedemark-Margulies, Yunus Bicer, Elifnur Sunger, Tales Imbiriba, Eugene Tunik, Deniz Erdogmus, Mathew Yarossi, Robin Walters(参考訳) 本稿では,EMG(Electromyography)によるジェスチャー認識の課題について検討し,新しい被験者が校正データを提供するのに必要な時間を最小化しつつ,高精度な人-コンピュータインタラクションを実現することを目的とする。 これらの目標を達成するために、方向成分と変調器成分からなる組み合わせジェスチャーを定義する。 新しい被験者は単一のコンポーネントジェスチャのみを示し、これらから可能なすべてのシングルまたはコンビネーションジェスチャに外挿することを求めます。 実際の単一のジェスチャーの特徴ベクトルを組み合わせて合成学習データを生成することで、見知らぬ組み合わせのジェスチャーに外挿する。 この戦略により,より大きくフレキシブルなジェスチャー語彙が提供できると同時に,組合せ的に多くのジェスチャーを示すために新しい主題を必要としない。 我々は,自己スーパービジョンを用いたエンコーダと組み合わせ演算子を事前訓練することにより,未確認被験者に対して有用な合成訓練データを作成することができる。 提案手法を評価するために,実世界のEMGデータセットを収集し,対象者からの単一のジェスチャーデータのみを訓練した部分教師付きモデルと,対象者からの実際の単独および実組み合わせジェスチャーデータで訓練した完全教師付きモデルと,2つのベースラインに対する強化監視の効果を測定する。 提案手法は,部分教師付きモデルよりも劇的に改善され,場合によっては完全教師付きモデルの性能にアプローチする有用な分類精度が得られた。

We study the task of gesture recognition from electromyography (EMG), with the goal of enabling expressive human-computer interaction at high accuracy, while minimizing the time required for new subjects to provide calibration data. To fulfill these goals, we define combination gestures consisting of a direction component and a modifier component. New subjects only demonstrate the single component gestures and we seek to extrapolate from these to all possible single or combination gestures. We extrapolate to unseen combination gestures by combining the feature vectors of real single gestures to produce synthetic training data. This strategy allows us to provide a large and flexible gesture vocabulary, while not requiring new subjects to demonstrate combinatorially many example gestures. We pre-train an encoder and a combination operator using self-supervision, so that we can produce useful synthetic training data for unseen test subjects. To evaluate the proposed method, we collect a real-world EMG dataset, and measure the effect of augmented supervision against two baselines: a partially-supervised model trained with only single gesture data from the unseen subject, and a fully-supervised model trained with real single and real combination gesture data from the unseen subject. We find that the proposed method provides a dramatic improvement over the partially-supervised model, and achieves a useful classification accuracy that in some cases approaches the performance of the fully-supervised model.
翻訳日:2023-12-01 03:04:07 公開日:2023-11-29
# アルゴリズム指向量子ビットマッピングによるdigitized counterdiabatic quantum optimizationの性能向上

Improving the Performance of Digitized Counterdiabatic Quantum Optimization via Algorithm-Oriented Qubit Mapping ( http://arxiv.org/abs/2311.14624v2 )

ライセンス: Link先を確認
Yanjun Ji, Kathrin F. Koenig, Ilia Polian(参考訳) 本稿では, ゲート列, アルゴリズムパラメータ, キュービットマッピングの共最適化により, ディジタル化された反断熱量子最適化アルゴリズムの性能向上手法を提案する。 短期量子デバイスに関する実証は、アルゴリズムとハードウェアの両方の利点を利用して、これらの戦略の有効性を検証する。 提案手法は,QiskitとTketと比較して,CXゲート数と回路深さを28.8%,回路深さを33.4%減らしながら,誤差緩和を伴わない平均4.49$\times$と84.8%の誤差緩和率で近似比を増大させる。 これらの知見は、量子ビットマッピングとアルゴリズムパラメータを最適化するために調整されたアルゴリズム実装の符号に関する貴重な洞察を与え、短期量子デバイスにおけるアルゴリズム性能の向上に広く影響している。

This paper presents strategies to improve the performance of digitized counterdiabatic quantum optimization algorithms by cooptimizing gate sequences, algorithm parameters, and qubit mapping. Demonstrations on near-term quantum devices validate the effectiveness of these strategies, leveraging both algorithmic and hardware advantages. Our approach increases the approximation ratio by an average of 4.49$\times$ without error mitigation and 84.8% with error mitigation, while reducing CX gate count and circuit depth by 28.8% and 33.4%, respectively, compared to Qiskit and Tket. These findings provide valuable insights into the codesign of algorithm implementation, tailored to optimize qubit mapping and algorithm parameters, with broader implications for enhancing algorithm performance on near-term quantum devices.
翻訳日:2023-12-01 03:03:38 公開日:2023-11-29
# 情報富化拡散モデルを用いたパラグラフ画像生成

Paragraph-to-Image Generation with Information-Enriched Diffusion Model ( http://arxiv.org/abs/2311.14284v2 )

ライセンス: Link先を確認
Weijia Wu, Zhuang Li, Yefei He, Mike Zheng Shou, Chunhua Shen, Lele Cheng, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang(参考訳) text-to-image (t2i)モデルは最近急速に発展し、忠実性とテキストアライメント能力の観点から驚くべきパフォーマンスを達成している。 しかし、長い段落(最大512語)を考えると、これらの世代のモデルは強固なアライメントを達成するのに苦労し、複雑なシーンを描いた画像を生成することができない。 本稿では,大規模言語モデルの広範な意味理解能力から画像生成タスクへ移行するパラディフフュージョン(paradiffusion)と呼ばれる,パラディフフュージョンタスクのための情報エンリッチ拡散モデルを提案する。 コアとなるのは大きな言語モデル(例えばLlama V2)を使って長文をエンコードし、次にLORAを使ってテキストイメージの特徴空間を生成タスクで調整する。 長文セマンティックアライメントのトレーニングを容易にするため,パライメージという高品質なパライメージペアデータセットをキュレートした。 このデータセットは、少量の高品質で微妙な注釈付きデータと、視覚言語モデルを用いて長いテキスト記述が生成される大規模な合成データセットを含む。 実験により、paradiffusionはvlg-300とparapromptsの最先端モデル(sd xl、deepfloyd if)よりも優れており、それぞれ15パーセントと45%の投票率改善を達成している。 コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。

Text-to-image (T2I) models have recently experienced rapid development, achieving astonishing performance in terms of fidelity and textual alignment capabilities. However, given a long paragraph (up to 512 words), these generation models still struggle to achieve strong alignment and are unable to generate images depicting complex scenes. In this paper, we introduce an information-enriched diffusion model for paragraph-to-image generation task, termed ParaDiffusion, which delves into the transference of the extensive semantic comprehension capabilities of large language models to the task of image generation. At its core is using a large language model (e.g., Llama V2) to encode long-form text, followed by fine-tuning with LORA to alignthe text-image feature spaces in the generation task. To facilitate the training of long-text semantic alignment, we also curated a high-quality paragraph-image pair dataset, namely ParaImage. This dataset contains a small amount of high-quality, meticulously annotated data, and a large-scale synthetic dataset with long text descriptions being generated using a vision-language model. Experiments demonstrate that ParaDiffusion outperforms state-of-the-art models (SD XL, DeepFloyd IF) on ViLG-300 and ParaPrompts, achieving up to 15% and 45% human voting rate improvements for visual appeal and text faithfulness, respectively. The code and dataset will be released to foster community research on long-text alignment.
翻訳日:2023-12-01 03:03:20 公開日:2023-11-29
# DPSUR: 選択的更新とリリースによる個人性確率勾配の高速化

DPSUR: Accelerating Differentially Private Stochastic Gradient Descent Using Selective Update and Release ( http://arxiv.org/abs/2311.14056v2 )

ライセンス: Link先を確認
Jie Fu, Qingqing Ye, Haibo Hu, Zhili Chen, Lulu Wang, Kuncan Wang, Xun Ran(参考訳) マシンラーニングモデルは、トレーニング損失を減らすためにプライベートデータを記憶することが知られており、モデルインバージョンやメンバシップ推論といったプライバシ攻撃によって不注意に悪用される可能性がある。 これらの攻撃から保護するために、差分プライバシー(dp)は、特にdpsgdのような確率的勾配降下を用いた一般的なトレーニングアルゴリズムにおいて、プライバシ保存機械学習のデファクトスタンダードとなっている。 それでも、DPSGDは、収束が遅いために、依然として深刻なユーティリティー損失に悩まされている。 これは、勾配にバイアスとばらつきをもたらすランダムサンプリングと、勾配更新の変動を引き起こすガウスノイズによって部分的に引き起こされる。 これらの問題に対処するための重要なアイデアは、モデルトレーニングに選択的に更新を適用することです。 そこで本研究では,各イテレーションからの勾配を検証テストに基づいて評価し,収束に至る更新のみをモデルに適用する,選択的更新とリリースに基づく差分プライベートなトレーニングフレームワークdpsurを提案する。 したがって、DPSURは正しい方向のトレーニングを確実にし、DPSGDよりも早く収束することができる。 主な課題は2つの側面にある – 勾配評価に起因するプライバシの懸念と、モデル更新のための勾配選択戦略だ。 この課題に対処するため、DPSURは、更新ランダム化のためのクリッピング戦略と、勾配選択のためのしきい値メカニズムを導入した。 MNIST、FMNIST、CIFAR-10、IMDBのデータセットで行った実験では、DPSURは収束速度とモデルユーティリティの点で、従来よりも大幅に優れていた。

Machine learning models are known to memorize private data to reduce their training loss, which can be inadvertently exploited by privacy attacks such as model inversion and membership inference. To protect against these attacks, differential privacy (DP) has become the de facto standard for privacy-preserving machine learning, particularly those popular training algorithms using stochastic gradient descent, such as DPSGD. Nonetheless, DPSGD still suffers from severe utility loss due to its slow convergence. This is partially caused by the random sampling, which brings bias and variance to the gradient, and partially by the Gaussian noise, which leads to fluctuation of gradient updates. Our key idea to address these issues is to apply selective updates to the model training, while discarding those useless or even harmful updates. Motivated by this, this paper proposes DPSUR, a Differentially Private training framework based on Selective Updates and Release, where the gradient from each iteration is evaluated based on a validation test, and only those updates leading to convergence are applied to the model. As such, DPSUR ensures the training in the right direction and thus can achieve faster convergence than DPSGD. The main challenges lie in two aspects -- privacy concerns arising from gradient evaluation, and gradient selection strategy for model update. To address the challenges, DPSUR introduces a clipping strategy for update randomization and a threshold mechanism for gradient selection. Experiments conducted on MNIST, FMNIST, CIFAR-10, and IMDB datasets show that DPSUR significantly outperforms previous works in terms of convergence speed and model utility.
翻訳日:2023-12-01 03:02:43 公開日:2023-11-29
# NeISF: 形状と材料推定のためのニューラルネットワークインシデントストークスフィールド

NeISF: Neural Incident Stokes Field for Geometry and Material Estimation ( http://arxiv.org/abs/2311.13187v2 )

ライセンス: Link先を確認
Chenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara, Yusuke Moriuchi(参考訳) 多視点逆レンダリングは、異なる視点で撮影された一連の画像から形状、材料、照明などのシーンパラメータを推定する問題である。 しかし、多くのアプローチは単一光のバウンスを想定しており、反射間の挑戦的なシナリオを回復することができない。 一方、これらの手法を単にマルチバウンス光に拡張するには、曖昧さを軽減するためにより多くの仮定が必要である。 この問題に対処するため,多視点逆レンダリングフレームワークであるNeISF(Neural Incident Stokes Fields)を提案する。 偏光キューを使用する主な動機は、多面体光の蓄積であり、幾何学や材料についての豊富な情報を提供することである。 この知識に基づき、提案する入射ストークス場は、物理ベースの微分可能偏光レンダラの支援により累積偏光効果を効率的にモデル化する。 最後に,本手法が既存の合成・実シナリオよりも優れていることを示す。

Multi-view inverse rendering is the problem of estimating the scene parameters such as shapes, materials, or illuminations from a sequence of images captured under different viewpoints. Many approaches, however, assume single light bounce and thus fail to recover challenging scenarios like inter-reflections. On the other hand, simply extending those methods to consider multi-bounced light requires more assumptions to alleviate the ambiguity. To address this problem, we propose Neural Incident Stokes Fields (NeISF), a multi-view inverse rendering framework that reduces ambiguities using polarization cues. The primary motivation for using polarization cues is that it is the accumulation of multi-bounced light, providing rich information about geometry and material. Based on this knowledge, the proposed incident Stokes field efficiently models the accumulated polarization effect with the aid of an original physically-based differentiable polarimetric renderer. Lastly, experimental results show that our method outperforms the existing works in synthetic and real scenarios.
翻訳日:2023-12-01 03:01:58 公開日:2023-11-29
# SuGaR:効率的な3次元メッシュ再構成と高品質メッシュレンダリングのための表面配向ガウススティング

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering ( http://arxiv.org/abs/2311.12775v2 )

ライセンス: Link先を確認
Antoine Gu\'edon and Vincent Lepetit(参考訳) 本研究では, 3次元ガウススメッティングから高精度かつ超高速のメッシュ抽出を実現する方法を提案する。 gaussian splattingは最近、narfsよりもトレーニングがかなり速く、リアルなレンダリングをもたらすため、非常に人気がある。 しかし、これらのガウシアンは最適化後に組織化されず、これまで提案されていないため、何百万もの小さな3dガウシアンからメッシュを抽出することは困難である。 私たちの最初の重要な貢献は、ガウスがシーンの表面とうまく一致するように促す正規化の用語です。 次に,このアライメントを利用して,高速でスケーラブルで詳細を保存するポアソン再構成法を用いて,gaussianからメッシュを抽出する手法を提案する。 最後に、gaussianをメッシュの表面にバインドするオプションのリファインメント戦略を導入し、gaussian splattingレンダリングを通じてこれらのgaussianと meshを共同で最適化する。 これにより、ガウス人自身の代わりにメッシュを操作することで、従来のソフトウェアを使用して、ガウス人の編集、彫刻、リギング、アニメーション、合成、リライトが容易になる。 このような編集可能なメッシュの検索は、ニューラルネットワークsdfsの最先端のメソッドに比べて数分以内に行われ、より優れたレンダリング品質を提供する。 私たちのプロジェクトページは以下のとおりです。

We propose a method to allow precise and extremely fast mesh extraction from 3D Gaussian Splatting. Gaussian Splatting has recently become very popular as it yields realistic rendering while being significantly faster to train than NeRFs. It is however challenging to extract a mesh from the millions of tiny 3D gaussians as these gaussians tend to be unorganized after optimization and no method has been proposed so far. Our first key contribution is a regularization term that encourages the gaussians to align well with the surface of the scene. We then introduce a method that exploits this alignment to extract a mesh from the Gaussians using Poisson reconstruction, which is fast, scalable, and preserves details, in contrast to the Marching Cubes algorithm usually applied to extract meshes from Neural SDFs. Finally, we introduce an optional refinement strategy that binds gaussians to the surface of the mesh, and jointly optimizes these Gaussians and the mesh through Gaussian splatting rendering. This enables easy editing, sculpting, rigging, animating, compositing and relighting of the Gaussians using traditional softwares by manipulating the mesh instead of the gaussians themselves. Retrieving such an editable mesh for realistic rendering is done within minutes with our method, compared to hours with the state-of-the-art methods on neural SDFs, while providing a better rendering quality. Our project page is the following: https://imagine.enpc.fr/~guedona/sugar/
翻訳日:2023-12-01 03:01:41 公開日:2023-11-29
# 安定化器状態とクリフォードゲートの古典的仕様に対する高速アルゴリズム

Fast algorithms for classical specifications of stabiliser states and Clifford gates ( http://arxiv.org/abs/2311.10357v2 )

ライセンス: Link先を確認
Nadish de Silva, Wilfred Salmon, Ming Yin(参考訳) 安定化器形式は、量子コンピューティング、エラー修正、フォールトトレランスにおいて中心的な役割を果たす。 安定化状態は量子データを符号化するために使用される。 クリフォードゲートは、最も一般的な誤り訂正スキームでフォールトトレラントに実行できるものである。 その数学的性質は重要な研究対象となっている。 数値実験は、スタビリザー形式を含む予想の定式化と検証に不可欠である。 スタビリザー状態の異なる仕様とクリフォードゲート間の変換もまた、量子回路をシミュレートする古典的なアルゴリズムの重要な構成要素である。 本稿では,ベクトルが安定化状態であることを検証し,その仕様を振幅,二次形式,チェック行列として相互変換する高速な方法を提案する。 与えられたユニタリ行列がクリフォードゲートであるかどうかを迅速に確認し、クリフォードゲートの行列とそのコンパクトな仕様を安定化テーブルーとして変換する。 例えば、クリフォードゲート行列のstabiliser tableau を$n^2$エントリで取り出すと、o(n^3 \log n)$ time, in time $o(n \log n)$ となる。 本手法は, 量子ビット数に指数関数的な漸近的改善を伴い, 最もよく知られたブルート力法を数桁上回った。 我々はpythonでアルゴリズムの実装を例に挙げる。

The stabiliser formalism plays a central role in quantum computing, error correction, and fault-tolerance. Stabiliser states are used to encode quantum data. Clifford gates are those which can be easily performed fault-tolerantly in the most common error correction schemes. Their mathematical properties are the subject of significant research interest. Numerical experiments are critical to formulating and testing conjectures involving the stabiliser formalism. Conversions between different specifications of stabiliser states and Clifford gates are also important components of classical algorithms for simulating quantum circuits. In this note, we provide fast methods for verifying that a vector is a stabiliser state, and interconverting between its specification as amplitudes, a quadratic form, and a check matrix. We use these to rapidly check if a given unitary matrix is a Clifford gate and to convert between the matrix of a Clifford gate and its compact specification as a stabiliser tableau. For example, we extract the stabiliser tableau of a Clifford gate matrix with $N^2$ entries, which naively requires $O(N^3 \log N)$ time, in time $O(N \log N)$. Our methods outperform the best-known brute force methods by some orders of magnitude with asymptotic improvements that are exponential in the number of qubits. We provide example implementations of our algorithms in Python.
翻訳日:2023-12-01 03:01:14 公開日:2023-11-29
# 画像の逆問題に対する最適輸送と凸解析に基づく教師なしアプローチ

Unsupervised approaches based on optimal transport and convex analysis for inverse problems in imaging ( http://arxiv.org/abs/2311.08972v2 )

ライセンス: Link先を確認
Marcello Carioni, Subhadip Mukherjee, Hong Ye Tan, Junqi Tang(参考訳) 教師なしの深層学習アプローチは, 高品質の訓練データがほとんど入手できない場合でも, 表現力と強力な再構成演算子を学習する能力から, 画像化における重要な研究領域の1つとなっている。 本章では,画像逆問題を解くための理論的に原理的な教師なし学習スキームについて検討し,特に最適移動解析と凸解析に根ざした手法に着目した。 まず,サイクル整合性に基づくモデルや,確率論的解釈が明確な逆正則化法などの,最適輸送に基づく教師なしアプローチを概観することから始める。 次に,画像逆問題に対する解法を高速化するために適用した有理収束学習最適化アルゴリズムに関する最近の研究の概要と,教師なしの学習手法について述べる。 また,画像問題に対して最も重要かつ広く適用されている非教師なしアプローチの一つである,収束可能なプラグ・アンド・プレイアルゴリズム(勾配ステップの深いデノイザに基づく)についても検討した。 この調査の最後には、集中型スキームを補完するいくつかの非教師なし学習フレームワークの概要を紹介します。 詳細な調査とともに,議論の自己完結性を維持するために,章で検討した手法を裏付ける重要な数学的結果の概要を述べる。

Unsupervised deep learning approaches have recently become one of the crucial research areas in imaging owing to their ability to learn expressive and powerful reconstruction operators even when paired high-quality training data is scarcely available. In this chapter, we review theoretically principled unsupervised learning schemes for solving imaging inverse problems, with a particular focus on methods rooted in optimal transport and convex analysis. We begin by reviewing the optimal transport-based unsupervised approaches such as the cycle-consistency-based models and learned adversarial regularization methods, which have clear probabilistic interpretations. Subsequently, we give an overview of a recent line of works on provably convergent learned optimization algorithms applied to accelerate the solution of imaging inverse problems, alongside their dedicated unsupervised training schemes. We also survey a number of provably convergent plug-and-play algorithms (based on gradient-step deep denoisers), which are among the most important and widely applied unsupervised approaches for imaging problems. At the end of this survey, we provide an overview of a few related unsupervised learning frameworks that complement our focused schemes. Together with a detailed survey, we provide an overview of the key mathematical results that underlie the methods reviewed in the chapter to keep our discussion self-contained.
翻訳日:2023-12-01 03:00:40 公開日:2023-11-29
# Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析

Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling ( http://arxiv.org/abs/2311.08745v3 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。 本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。 その結果,ミニバッチ確率勾配を持つ確率勾配勾配(SGD)は,学習速度とバッチサイズによって決定される関数の平滑化効果を示すことがわかった。 この発見は、大規模なバッチサイズがシャープなローカルミニマに陥る理由、学習率の低下とバッチサイズの増加が、固定された学習率とバッチサイズよりも優れている理由、最適な学習率スケジューリングがどのようなものであるかに関する理論的洞察を提供する。 我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。 さらに, 劣化する学習率とバッチサイズを増大させる新たな段階最適化フレームワークを解析し, 理論的結果を支持する画像分類の実験結果について報告する。

The graduated optimization approach is a heuristic method for finding globally optimal solutions for nonconvex functions and has been theoretically analyzed in several studies. This paper defines a new family of nonconvex functions for graduated optimization, discusses their sufficient conditions, and provides a convergence analysis of the graduated optimization algorithm for them. It shows that stochastic gradient descent (SGD) with mini-batch stochastic gradients has the effect of smoothing the function, the degree of which is determined by the learning rate and batch size. This finding provides theoretical insights on why large batch sizes fall into sharp local minima, why decaying learning rates and increasing batch sizes are superior to fixed learning rates and batch sizes, and what the optimal learning rate scheduling is. To the best of our knowledge, this is the first paper to provide a theoretical explanation for these aspects. Moreover, a new graduated optimization framework that uses a decaying learning rate and increasing batch size is analyzed and experimental results of image classification that support our theoretical findings are reported.
翻訳日:2023-12-01 03:00:16 公開日:2023-11-29
# Knockoffs-SPR: ノイズラベルによる学習におけるクリーンサンプル選択

Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels ( http://arxiv.org/abs/2301.00545v4 )

ライセンス: Link先を確認
Yikai Wang, Yanwei Fu, and Xinwei Sun(参考訳) ノイズの多いトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。 本稿では,ノイズラベルを用いた学習のための新しいクリーンサンプル選択フレームワークを提案する。 具体的には,ネットワーク特徴量と1ホットラベルとの線形関係をモデル化するために,まずSPR(Scalable Penalized Regression)法を提案する。 SPRでは、クリーンデータは回帰モデルで解決されたゼロ平均シフトパラメータによって識別される。 理論的には、SPRはいくつかの条件下でクリーンなデータを復元できることを示す。 一般的なシナリオでは、条件はもはや満たされず、一部のノイズデータは誤ってクリーンデータとして選択される。 この問題を解決するために,選択したクリーンデータ中のFalse-Selection-Rate(FSR)を制御可能なKnockoffフィルタ(Knockoffs-SPR)を用いたスケーラブルなペナル化回帰法を提案する。 効率を改善するために、トレーニングセット全体を小さな断片に分割して、フレームワークを大規模データセットにスケーラブルにするために並列に解決できる分割アルゴリズムを提案する。 knockoffs-sprは標準教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができるが、半教師付きアルゴリズムと組み合わせることで、ノイズデータのサポートをラベルなしデータとして活用する。 いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から、フレームワークの有効性を示し、Knockoffs-SPRの理論的結果を検証する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/yikai-wang/knockoffs-sprで利用可能です。

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models are available at https://github.com/Yikai-Wang/Knockoffs-SPR.
翻訳日:2023-12-01 01:15:37 公開日:2023-11-29
# 分散を超えて:"純粋"相関を持つ分布に対するテスト時間ラベルシフト適応

Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions with "Spurious" Correlations ( http://arxiv.org/abs/2211.15646v4 )

ライセンス: Link先を確認
Qingyao Sun (Cornell University), Kevin Murphy (Google DeepMind), Sayna Ebrahimi (Google Cloud AI Research), Alexander D'Amour (Google DeepMind)(参考訳) テスト時のデータ分布の変化は、予測モデル $p(y|x)$ のパフォーマンスに有害な影響を与える可能性がある。 我々は、分散におけるそのような変化を考慮に入れた$z$で表される追加のメタデータラベル(グループラベルなど)が存在する状況を考える。 特に、クラスラベル $y$ と "nuisance" 因子 $z$ の間の依存性をモデル化する以前の分布 $p(y, z)$ は、これらの用語間の相関の変化や、それらの限界の変化によって、ドメイン間で変化する可能性があると仮定する。 しかし、特徴量 $p(x|y,z)$ の生成モデルは領域間で不変であると仮定する。 これは広く使われている"ラベルシフト"の仮定の拡張版に対応しており、ラベルにはニュアサンス係数である$z$も含まれている。 この観察に基づいて,対象領域の非ラベルサンプルに対してemを適用した$p(y,z)$を用いたジョイント分布の変化に対応するテスト時間ラベルシフト補正,$p_t(x)$を提案する。 重要なことに、生成モデル $p(x|y, z)$ の適合を避けることができ、単に、ソース分布で訓練された判別モデル $p_s(y, z|x)$ の出力を再重み付けする必要がある。 我々は,CheXpertの胸部X線データセットと同様に,いくつかの標準画像およびテキストデータセット上でTTLSA(Test-Time Label-Shift Adaptation)と呼ぶ手法を評価し,分布の変化に対する不変性を目標とした手法と,ベースラインの実証的リスク最小化手法の性能向上を示す。 実験を再現するためのコードはhttps://github.com/nalzok/test-time-label-shiftで入手できる。

Changes in the data distribution at test time can have deleterious effects on the performance of predictive models $p(y|x)$. We consider situations where there are additional meta-data labels (such as group labels), denoted by $z$, that can account for such changes in the distribution. In particular, we assume that the prior distribution $p(y, z)$, which models the dependence between the class label $y$ and the "nuisance" factors $z$, may change across domains, either due to a change in the correlation between these terms, or a change in one of their marginals. However, we assume that the generative model for features $p(x|y,z)$ is invariant across domains. We note that this corresponds to an expanded version of the widely used "label shift" assumption, where the labels now also include the nuisance factors $z$. Based on this observation, we propose a test-time label shift correction that adapts to changes in the joint distribution $p(y, z)$ using EM applied to unlabeled samples from the target domain distribution, $p_t(x)$. Importantly, we are able to avoid fitting a generative model $p(x|y, z)$, and merely need to reweight the outputs of a discriminative model $p_s(y, z|x)$ trained on the source distribution. We evaluate our method, which we call "Test-Time Label-Shift Adaptation" (TTLSA), on several standard image and text datasets, as well as the CheXpert chest X-ray dataset, and show that it improves performance over methods that target invariance to changes in the distribution, as well as baseline empirical risk minimization methods. Code for reproducing experiments is available at https://github.com/nalzok/test-time-label-shift .
翻訳日:2023-12-01 01:14:43 公開日:2023-11-29
# 弱視の普遍化

Universalizing Weak Supervision ( http://arxiv.org/abs/2112.03865v3 )

ライセンス: Link先を確認
Changho Shin, Winfred Li, Harit Vishwakarma, Nicholas Roberts, Frederic Sala(参考訳) 弱い監督(ws)フレームワークは、データ格納モデルのトレーニングのために大規模なデータセットを手ラベルでバイパスする一般的な方法である。 これらのアプローチは、複数のノイズの多いが安価なラベルの推定値を下流トレーニング用の高品質な擬似ラベルに合成する。 しかし、合成技術はバイナリラベルやシーケンスのような特定の種類のラベルに特化しており、それぞれの新しいラベルタイプは手動で新しい合成アルゴリズムを設計する必要がある。 代わりに, 実用的柔軟性, 計算効率, 理論的保証など, 望ましい特性を提供しつつ, 任意のラベルタイプに対して弱い監督を可能にする普遍的手法を提案する。 我々は、このテクニックを、ハイパーボリック空間におけるランク付け、回帰、学習を含むWSフレームワークがこれまで取り組まなかった重要な問題に適用する。 理論的には、我々の合成アプローチは指数族モデルの難しいが重要な一般化を学ぶための一貫した推定器を生成する。 実験では,双曲多様体上の学習とともに,実世界の学習と回帰問題を含む多様な設定において,ベースラインよりも精度が向上することを示す。

Weak supervision (WS) frameworks are a popular way to bypass hand-labeling large datasets for training data-hungry models. These approaches synthesize multiple noisy but cheaply-acquired estimates of labels into a set of high-quality pseudolabels for downstream training. However, the synthesis technique is specific to a particular kind of label, such as binary labels or sequences, and each new label type requires manually designing a new synthesis algorithm. Instead, we propose a universal technique that enables weak supervision over any label type while still offering desirable properties, including practical flexibility, computational efficiency, and theoretical guarantees. We apply this technique to important problems previously not tackled by WS frameworks including learning to rank, regression, and learning in hyperbolic space. Theoretically, our synthesis approach produces a consistent estimators for learning some challenging but important generalizations of the exponential family model. Experimentally, we validate our framework and show improvement over baselines in diverse settings including real-world learning-to-rank and regression problems along with learning on hyperbolic manifolds.
翻訳日:2023-12-01 01:13:41 公開日:2023-11-29
# バイアスのない見積もりを学ぶ

Learning to Estimate Without Bias ( http://arxiv.org/abs/2110.12403v3 )

ライセンス: Link先を確認
Tzvi Diskin, Yonina C. Eldar and Ami Wiesel(参考訳) ガウス・マルコフの定理 (gauss markov theorem) は、重み付き最小二乗推定子は線型モデルにおける最小分散不偏推定 (mvue) であると述べている。 本稿では,バイアス制約のある深層学習を通じて,この結果を非線形設定に拡張する第一歩を踏み出す。 非線型MVUEを設計する古典的なアプローチは、しばしば計算的に挑戦的な最適化を伴う最大推定(MLE)によって行われる。 一方,深層学習法では,計算複雑性が一定である非線形推定器が利用可能である。 学習に基づく推定器は、トレーニングセットに関して平均的に最適に実行するが、他のパラメータに重大なバイアスを被る可能性がある。 そこで本研究では,損失関数に単純なバイアス制約を加え,バイアス制約付き推定器(bce)と呼ぶ推定器を提案する。 これは古典的 MLE と同様に振る舞う漸近的 MVUE を生じさせ、漸近的にクラマーラオ境界に達することを証明している。 本稿では,信号対雑音比推定および共分散推定の文脈において,提案手法の利点を示す。 BCEの第二の動機は、同じ未知の複数の推定値を平均化してパフォーマンスを向上させるアプリケーションである。 例えば、分散センサーネットワークやテスト時のデータ拡張がある。 このようなアプリケーションでは、BCE が漸近的に一貫した推定に繋がることを示す。

The Gauss Markov theorem states that the weighted least squares estimator is a linear minimum variance unbiased estimation (MVUE) in linear models. In this paper, we take a first step towards extending this result to non linear settings via deep learning with bias constraints. The classical approach to designing non-linear MVUEs is through maximum likelihood estimation (MLE) which often involves computationally challenging optimizations. On the other hand, deep learning methods allow for non-linear estimators with fixed computational complexity. Learning based estimators perform optimally on average with respect to their training set but may suffer from significant bias in other parameters. To avoid this, we propose to add a simple bias constraint to the loss function, resulting in an estimator we refer to as Bias Constrained Estimator (BCE). We prove that this yields asymptotic MVUEs that behave similarly to the classical MLEs and asymptotically attain the Cramer Rao bound. We demonstrate the advantages of our approach in the context of signal to noise ratio estimation as well as covariance estimation. A second motivation to BCE is in applications where multiple estimates of the same unknown are averaged for improved performance. Examples include distributed sensor networks and data augmentation in test-time. In such applications, we show that BCE leads to asymptotically consistent estimators.
翻訳日:2023-12-01 01:12:58 公開日:2023-11-29
# マルチペナルティ分布回帰の学習率の推定

Estimates on Learning Rates for Multi-Penalty Distribution Regression ( http://arxiv.org/abs/2006.09017v2 )

ライセンス: Link先を確認
Zhan Yu, Daniel W. C. Ho(参考訳) 本稿では,2段階のサンプル分布回帰を利用して機能学習を行う。 本研究では,分布回帰のための複数ペナルティ正則化アルゴリズムを学習理論の枠組みで検討する。 このアルゴリズムは確率測度から実値出力に回帰することを目的としている。 分布回帰の理論的な解析は、実用環境では第2段階のサンプルのみが観測可能であるため、成熟度や非常に困難である。 このアルゴリズムでは、サンプルから情報を変換するために、分布を平均埋め込み技法でマーサーカーネル $k$ に関連付けられた再生カーネルヒルベルト空間 $\mathcal{h}_k$ に埋め込む。 この論文の主な貢献は、分散回帰の特徴を捉え、アルゴリズムの最適学習率を導出するための、新しいマルチペナルティ正規化アルゴリズムを提案することである。 この研究は、既存の文献では研究されていない非標準設定 $f_{\rho}\notin\mathcal{H}_K$ における分布回帰の学習率も導出している。 さらに,大規模データや情報問題に直面する分散回帰に基づく分散学習アルゴリズムを提案する。 最適学習率を分散学習アルゴリズムに導出する。 新しいアルゴリズムを提供し、学習率を示すことによって、文学における既存の作業を異なる側面で改善する。

This paper is concerned with functional learning by utilizing two-stage sampled distribution regression. We study a multi-penalty regularization algorithm for distribution regression under the framework of learning theory. The algorithm aims at regressing to real valued outputs from probability measures. The theoretical analysis on distribution regression is far from maturity and quite challenging, since only second stage samples are observable in practical setting. In the algorithm, to transform information from samples, we embed the distributions to a reproducing kernel Hilbert space $\mathcal{H}_K$ associated with Mercer kernel $K$ via mean embedding technique. The main contribution of the paper is to present a novel multi-penalty regularization algorithm to capture more features of distribution regression and derive optimal learning rates for the algorithm. The work also derives learning rates for distribution regression in the nonstandard setting $f_{\rho}\notin\mathcal{H}_K$, which is not explored in existing literature. Moreover, we propose a distribution regression-based distributed learning algorithm to face large-scale data or information challenge. The optimal learning rates are derived for the distributed learning algorithm. By providing new algorithms and showing their learning rates, we improve the existing work in different aspects in the literature.
翻訳日:2023-12-01 01:12:17 公開日:2023-11-29
# 大規模離散行動空間の動的近傍構築

Dynamic Neighborhood Construction for Structured Large Discrete Action Spaces ( http://arxiv.org/abs/2305.19891v3 )

ライセンス: Link先を確認
Fabian Akkerman, Julius Luy, Wouter van Heeswijk, Maximilian Schiffer(参考訳) 大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。 既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。 しかし、物流、生産、輸送システムにおける現実世界のアプリケーションの多くは、小さなインスタンスでも数百万以上のアクションを展開する複合的なアクションスペースを持っている。 幸いなことに、そのような作用空間は構造、例えば等間隔の離散リソース単位を示す。 本稿では,現在のベンチマークでは処理できないサイズで構造化lda(sldas)を扱うことに焦点を当て,sldasの新しい活用パラダイムであるdynamic neighborhood construction(dnc)を提案する。 本稿では,このパラダイムを応用したスケーラブルな近傍探索ヒューリスティックを提案し,最大10〜73ドルのアクションを持つ構造化された行動空間における連続的プロキシアクションの周囲の離散的近傍を効率的に探索する。 2つの異なる環境にまたがる大きな離散的アクション空間向けに設計された3つの最先端のアプローチに対してベンチマークすることで,本手法の性能を実証する。 以上の結果から,dncは計算効率が向上しつつ,最先端の手法に匹敵することを示した。 さらに,本手法は,既存の手法では計算的に難解な動作空間にスケールする。

Large discrete action spaces (LDAS) remain a central challenge in reinforcement learning. Existing solution approaches can handle unstructured LDAS with up to a few million actions. However, many real-world applications in logistics, production, and transportation systems have combinatorial action spaces, whose size grows well beyond millions of actions, even on small instances. Fortunately, such action spaces exhibit structure, e.g., equally spaced discrete resource units. With this work, we focus on handling structured LDAS (SLDAS) with sizes that cannot be handled by current benchmarks: we propose Dynamic Neighborhood Construction (DNC), a novel exploitation paradigm for SLDAS. We present a scalable neighborhood exploration heuristic that utilizes this paradigm and efficiently explores the discrete neighborhood around the continuous proxy action in structured action spaces with up to $10^{73}$ actions. We demonstrate the performance of our method by benchmarking it against three state-of-the-art approaches designed for large discrete action spaces across two distinct environments. Our results show that DNC matches or outperforms state-of-the-art approaches while being computationally more efficient. Furthermore, our method scales to action spaces that so far remained computationally intractable for existing methodologies.
翻訳日:2023-12-01 01:07:55 公開日:2023-11-29
# 方向性指向多目的学習:単純で証明可能な確率的アルゴリズム

Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms ( http://arxiv.org/abs/2305.18409v3 )

ライセンス: Link先を確認
Peiyao Xiao, Hao Ban, Kaiyi Ji(参考訳) 多目的最適化(MOO)は、複数の基準による学習やマルチタスク学習(MTL)など、多くの機械学習問題において重要なフレームワークとなっている。 本稿では,MTLにおける平均損失などの目的の線形結合を最適化する方向の近傍において,共通降下方向を正規化することにより,新たな方向指向多目的問題を提案する。 この定式化には特殊ケースとしてGDとMGDAが含まれ、CAGradのような方向指向の利点を享受し、確率的アルゴリズムの設計を容易にする。 そこで本研究では,SGD方式の簡易な更新による確率方向指向型多目的勾配降下(SDMGrad)と,目的数が大きければ効率的な客観的サンプリングを行うSDMGrad-OSを提案する。 定数レベルの正則化パラメータ $\lambda$ に対して、SDMGrad と SDMGrad-OS がパレート定常点に確実に収束することを示す。 増加する$\lambda$ に対して、この収束点は目的の線形結合の定常点に還元される。 マルチタスク型教師付き学習と強化学習の一連の課題において提案手法の優れた性能を示す。 コードはhttps://github.com/ml-opt-lab/sdmgrad.comで提供される。

Multi-objective optimization (MOO) has become an influential framework in many machine learning problems with multiple objectives such as learning with multiple criteria and multi-task learning (MTL). In this paper, we propose a new direction-oriented multi-objective problem by regularizing the common descent direction within a neighborhood of a direction that optimizes a linear combination of objectives such as the average loss in MTL. This formulation includes GD and MGDA as special cases, enjoys the direction-oriented benefit as in CAGrad, and facilitates the design of stochastic algorithms. To solve this problem, we propose Stochastic Direction-oriented Multi-objective Gradient descent (SDMGrad) with simple SGD type of updates, and its variant SDMGrad-OS with an efficient objective sampling in the setting where the number of objectives is large. For a constant-level regularization parameter $\lambda$, we show that SDMGrad and SDMGrad-OS provably converge to a Pareto stationary point with improved complexities and milder assumptions. For an increasing $\lambda$, this convergent point reduces to a stationary point of the linear combination of objectives. We demonstrate the superior performance of the proposed methods in a series of tasks on multi-task supervised learning and reinforcement learning. Code is provided at https://github.com/ml-opt-lab/sdmgrad.
翻訳日:2023-12-01 01:07:36 公開日:2023-11-29
# 大量鉱石から溶出する金: 臨界試料選択による効率的なデータセット蒸留

Distill Gold from Massive Ores: Efficient Dataset Distillation via Critical Samples Selection ( http://arxiv.org/abs/2305.18381v3 )

ライセンス: Link先を確認
Yue Xu, Yong-Lu Li, Kaitong Cui, Ziyu Wang, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang(参考訳) データ効率のよい学習は、特に大規模マルチモーダルモデルのトレンドを考えると、大きな注目を集めている。 近年, データセットの蒸留はデータ効率に有効な手法となっているが, 蒸留プロセス自体が効率的でない場合もある。 本研究では,情報伝達の文脈におけるデータセット蒸留タスクをモデル化する。 蒸留に固有のデータ冗長性を観察することにより, 蒸留作業における試料の有用性をより強調する。 我々は,最も価値のあるサンプルを活用すべく,データユーティリティ推定器群と最適なデータ選択法を紹介し,検証する。 この戦略はトレーニングコストを大幅に削減し、様々な既存の蒸留アルゴリズムを、より大きく多様化したデータセットに拡張する。 本手法は,imagenet-1k や kinetics-400 など,より大規模で異種なデータセットにおいても,蒸留アルゴリズムを一貫して強化する。 このパラダイムは蒸留のダイナミクスに新たな道を開き、効率的なデータセット蒸留への道を開く。 私たちのコードはhttps://github.com/silicx/GoldFromOresで利用可能です。

Data-efficient learning has garnered significant attention, especially given the current trend of large multi-modal models. Recently, dataset distillation becomes an effective approach for data-efficiency; however, the distillation process itself can still be inefficient. In this work, we model the dataset distillation task within the context of information transport. By observing the substantial data redundancy inherent in the distillation, we argue to put more emphasis on the samples' utility for the distillation task. We introduce and validate a family of data utility estimators and optimal data selection methods to exploit the most valuable samples. This strategy significantly reduces the training costs and extends various existing distillation algorithms to larger and more diversified datasets, e.g., in some cases only 0.04% training data is sufficient for comparable distillation performance. Our method consistently enhances the distillation algorithms, even on much larger-scale and more heterogeneous datasets, e.g. ImageNet-1K and Kinetics-400. This paradigm opens up new avenues in the dynamics of distillation and paves the way for efficient dataset distillation. Our code is available on https://github.com/silicx/GoldFromOres .
翻訳日:2023-12-01 01:07:12 公開日:2023-11-29
# MuLER: 詳細でスケーラブルなリファレンスベースの評価

MuLER: Detailed and Scalable Reference-based Evaluation ( http://arxiv.org/abs/2305.14991v2 )

ライセンス: Link先を確認
Taelin Karidi, Leshem Choshen, Gal Patel, Omri Abend(参考訳) 本稿では,機械翻訳(MT)などのテキスト生成のための基準ベース評価基準を,微細な解析ツールに変換する手法(MulER)を提案する。 システムとメトリックが与えられたとき、ミューラーは選択されたメトリックが特定のエラータイプをどれだけペナルティ化するか(例えば、場所の名前の変換エラー)を定量化する。 MuLERは、特定の現象に対する目標となる改善作業に繋がる、詳細なエラー解析を可能にする。 我々は,MulERの妥当性を実証し,MT評価におけるユーザビリティや要約などのタスクを示すために,合成的および自然主義的な設定の両方で実験を行う。 2014-2020年のWMTへの全ての申請を分析し、一貫した傾向を見出した。 例えば、名詞と動詞は最も頻繁に使われるPOSタグの1つである。 しかし、翻訳は最も難しいものの一つである。 ほとんどのPOSタグのパフォーマンスはシステム全体のパフォーマンスによって改善されるが、いくつかのものは相関しない(言語から言語へのアイデンティティの変更)。 要約による予備実験も同様の傾向を示す。

We propose a novel methodology (namely, MuLER) that transforms any reference-based evaluation metric for text generation, such as machine translation (MT) into a fine-grained analysis tool. Given a system and a metric, MuLER quantifies how much the chosen metric penalizes specific error types (e.g., errors in translating names of locations). MuLER thus enables a detailed error analysis which can lead to targeted improvement efforts for specific phenomena. We perform experiments in both synthetic and naturalistic settings to support MuLER's validity and showcase its usability in MT evaluation, and other tasks, such as summarization. Analyzing all submissions to WMT in 2014-2020, we find consistent trends. For example, nouns and verbs are among the most frequent POS tags. However, they are among the hardest to translate. Performance on most POS tags improves with overall system performance, but a few are not thus correlated (their identity changes from language to language). Preliminary experiments with summarization reveal similar trends.
翻訳日:2023-12-01 01:06:54 公開日:2023-11-29
# BertRLFuzzer: BERTと強化学習ベースのファザ

BertRLFuzzer: A BERT and Reinforcement Learning based Fuzzer ( http://arxiv.org/abs/2305.12534v3 )

ライセンス: Link先を確認
Piyush Jha, Joseph Scott, Jaya Sriram Ganeshna, Mudit Singh, Vijay Ganesh(参考訳) 本稿では,BERT と Reinforcement Learning (RL) ベースのファジィザである BertRLFuzzer を提案する。 bertrlfuzzerは次のように機能する: シード入力のセットが与えられたとき、fuzzerは文法的および攻撃的変異操作を実行し、候補攻撃ベクターを生成する。 BertRLFuzzerの重要な洞察は、ファザーを誘導するエージェントとしてBERTモデルを用いたRLを使用して、文法順守と攻撃誘発突然変異演算子を効率的に学習することである。 BertRLFuzzerの有効性を確立するために、合計で13個のブラックボックスとホワイトボックスのファザを、9つの犠牲者ウェブサイトと16KLOCのベンチマークで比較した。 攻撃開始までの時間(54%未満)、新たに発見された17の新しい脆弱性、攻撃速度(攻撃ベクトルが4.4%増加した)といった点で、最も近い競合ツールと比較して大きな改善が見られた。

We present a novel tool BertRLFuzzer, a BERT and Reinforcement Learning (RL) based fuzzer aimed at finding security vulnerabilities for Web applications. BertRLFuzzer works as follows: given a set of seed inputs, the fuzzer performs grammar-adhering and attack-provoking mutation operations on them to generate candidate attack vectors. The key insight of BertRLFuzzer is the use of RL with a BERT model as an agent to guide the fuzzer to efficiently learn grammar-adhering and attack-provoking mutation operators. In order to establish the efficacy of BertRLFuzzer we compare it against a total of 13 black box and white box fuzzers over a benchmark of 9 victim websites with over 16K LOC. We observed a significant improvement relative to the nearest competing tool in terms of time to first attack (54% less), new vulnerabilities found (17 new vulnerabilities), and attack rate (4.4% more attack vectors generated).
翻訳日:2023-12-01 01:06:36 公開日:2023-11-29
# コンテンツに基づく非制限的攻撃

Content-based Unrestricted Adversarial Attack ( http://arxiv.org/abs/2305.10665v2 )

ライセンス: Link先を確認
Zhaoyu Chen and Bo Li and Shuang Wu and Kaixun Jiang and Shouhong Ding and Wenqiang Zhang(参考訳) 制限のない敵対的攻撃は、通常、画像(例えば色やテクスチャ)のセマンティックな内容を操作して、効果的でフォトリアリスティックな例を作成し、人間の知覚とディープニューラルネットワークを、ステルスと成功で騙す能力を示す。 しかし、現在の作品は通常、制限のない程度を犠牲にして、その攻撃性能を制限する制限のない敵対的な例のフォトリアリズムを保証するために、いくつかの画像コンテンツを主観的に選択する。 敵のサンプルのフォトリアリズムを確保し,攻撃性能を高めるために,コンテンツベース非拘束攻撃と呼ばれる新しい非制限攻撃フレームワークを提案する。 自然像を表す低次元多様体を利用することで、像を多様体上に写像し、その逆方向に沿って最適化する。 そこで,本フレームワークでは,安定拡散に基づく逆コンテンツアタックを実装し,様々な逆コンテンツを用いた高い転送性を持つ非制限逆の例を生成する。 大規模な実験と可視化は、通常訓練されたモデルと防御手法でそれぞれ平均13.3-50.4%と16.8-48.0%の最先端攻撃を克服するACAの有効性を示す。

Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic, demonstrating their ability to deceive human perception and deep neural networks with stealth and success. However, current works usually sacrifice unrestricted degrees and subjectively select some image content to guarantee the photorealism of unrestricted adversarial examples, which limits its attack performance. To ensure the photorealism of adversarial examples and boost attack performance, we propose a novel unrestricted attack framework called Content-based Unrestricted Adversarial Attack. By leveraging a low-dimensional manifold that represents natural images, we map the images onto the manifold and optimize them along its adversarial direction. Therefore, within this framework, we implement Adversarial Content Attack based on Stable Diffusion and can generate high transferable unrestricted adversarial examples with various adversarial contents. Extensive experimentation and visualization demonstrate the efficacy of ACA, particularly in surpassing state-of-the-art attacks by an average of 13.3-50.4% and 16.8-48.0% in normally trained models and defense methods, respectively.
翻訳日:2023-12-01 01:06:19 公開日:2023-11-29
# 言語ベース非協力ゲームにおける人間選択予測:シミュレーションに基づくオフポリシー評価

Human Choice Prediction in Language-based Non-Cooperative Games: Simulation-based Off-Policy Evaluation ( http://arxiv.org/abs/2305.10361v3 )

ライセンス: Link先を確認
Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart(参考訳) 説得ゲームは経済学やAI研究において基本的であり、重要な実践的応用がある。 この分野の最近の研究は、従来のスタイル化されたメッセージ設定を超えて、自然言語を取り入れ始めた。 しかし、これまでの研究では、トレインデータとテストデータが同じ分布を持つオンポリシー予測に重点を置いてきた。 本稿では,言語に基づく説得ゲームにおけるオフ政治評価(OPE)の課題に対処する。 本研究では,本セットアップにおける人間のデータ収集の難しさに対処するため,実データとシミュレーションデータを組み合わせた新しい手法を提案する。 我々のシミュレーションデータは、意思決定者(DM)がランダムな行動と決定論的行動の混合から始まり、時間とともに改善するという、外因性モデルによって生成される。 本稿では,実際のインタラクションとシミュレーションデータを効果的に統合し,インタラクションデータのみをトレーニングするモデルよりも大幅に改善するディープラーニングトレーニングアルゴリズムを提案する。 本研究は,OPEの高コストかつスケーラブルな解法として,実対話とシミュレーションの混在の可能性を示すものである。 私たちのコードと生成した巨大なデータセットは補足資料として提出され、GitHubリポジトリで公開されている。

Persuasion games have been fundamental in economics and AI research, and have significant practical applications. Recent works in this area have started to incorporate natural language, moving beyond the traditional stylized message setting. However, previous research has focused on on-policy prediction, where the train and test data have the same distribution, which is not representative of real-life scenarios. In this paper, we tackle the challenging problem of off-policy evaluation (OPE) in language-based persuasion games. To address the inherent difficulty of human data collection in this setup, we propose a novel approach which combines real and simulated human-bot interaction data. Our simulated data is created by an exogenous model assuming decision makers (DMs) start with a mixture of random and decision-theoretic based behaviors and improve over time. We present a deep learning training algorithm that effectively integrates real interaction and simulated data, substantially improving over models that train only with interaction data. Our results demonstrate the potential of real interaction and simulation mixtures as a cost-effective and scalable solution for OPE in language-based persuasion games. Our code and the large dataset we collected and generated are submitted as supplementary material and publicly available in our GitHub repository: https://github.com/eilamshapira/HumanChoicePrediction
翻訳日:2023-12-01 01:05:58 公開日:2023-11-29
# 回転検出変圧器の適応的問合せによるハウスドルフ距離マッチング

Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer ( http://arxiv.org/abs/2305.07598v4 )

ライセンス: Link先を確認
Hakjin Lee, Minki Song, Jamyoung Koo, Junghoon Seo(参考訳) Detection Transformer (DETR) はオブジェクト検出タスクにおいて重要な役割を担い、エンドツーエンドの設計とスケーラビリティのために新しいパフォーマンスベンチマークを設定している。 その進歩にもかかわらず、回転物体検出におけるdetrの応用は、確立された向き付け物体検出器に対する準最適性能を示している。 ハンガリーマッチングに使用されるl1コストは、向き付け対象検出における正方形問題による予測の重複につながるため、検出器のトレーニングプロセスが阻害される。 ハンガリーマッチングのためのハウスドルフ距離ベースのコストを導入し、予測と基底真理の差をより正確に定量化する。 さらに, 静的デノナイジング手法は, 特に検出器の予測がノイズのある地上の真実の質を超えた場合, 回転DETRの訓練を妨げている。 本稿では,ハンガリーマッチングを用いた適応的問合せ手法を提案し,モデル改善に役立たない余分なノイズのある問合せを選択的にフィルタリングする。 提案した DETR の改良により,従来の回転型 DETR モデルや他の代替モデルよりも優れた性能が得られた。 これは、DOTA-v1.0/v1.5/v2.0やDIOR-Rといったベンチマークにおける我々のモデルの現状によって証明されている。

The Detection Transformer (DETR) has emerged as a pivotal role in object detection tasks, setting new performance benchmarks due to its end-to-end design and scalability. Despite its advancements, the application of DETR in detecting rotated objects has demonstrated suboptimal performance relative to established oriented object detectors. Our analysis identifies a key limitation: the L1 cost used in Hungarian Matching leads to duplicate predictions due to the square-like problem in oriented object detection, thereby obstructing the training process of the detector. We introduce a Hausdorff distance-based cost for Hungarian matching, which more accurately quantifies the discrepancy between predictions and ground truths. Moreover, we note that a static denoising approach hampers the training of rotated DETR, particularly when the detector's predictions surpass the quality of noised ground truths. We propose an adaptive query denoising technique, employing Hungarian matching to selectively filter out superfluous noised queries that no longer contribute to model improvement. Our proposed modifications to DETR have resulted in superior performance, surpassing previous rotated DETR models and other alternatives. This is evidenced by our model's state-of-the-art achievements in benchmarks such as DOTA-v1.0/v1.5/v2.0, and DIOR-R.
翻訳日:2023-12-01 01:05:35 公開日:2023-11-29
# SUR-adapter: 大規模言語モデルを用いたテキスト・画像間の事前学習拡散モデルの実現

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.05189v4 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) 拡散モデルは、テキスト対画像生成モデルとして人気を博し、テキストプロンプトによって導かれる高品質でコンテンツに富んだ画像を生成することができる。 しかし、入力プロンプトが簡潔なナラティブである場合、既存のモデルでは意味理解と常識推論に制限があり、結果として低品質の画像を生成する。 物語のプロンプトのキャパシティを向上させるために,事前学習した拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる単純なパラメータ効率の良い微調整手法を提案する。 この目標を達成するために、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集、注釈付けします。 各サンプルには単純なナラティブプロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれている。 次に, 物語プロンプトの意味表現を複雑なプロンプトに整合させ, 大規模言語モデル(llm)の知識を知識蒸留により超適応者に伝達することで, テキストから画像への高品質な意味表現を構築するための強力な意味理解と推論能力を得る。 画像品質の劣化を伴わない簡潔な自然言語の理解と推論を可能にするために,複数のLLMと一般的な事前学習拡散モデルを統合する実験を行った。 提案手法は,ユーザフレンドリーなテキスト・ツー・イメージ生成モデルの開発を,単純な物語のプロンプトと複雑なキーワードベースのプロンプトのセマンティックギャップを埋めることによって促進する可能性を示した。 コードはhttps://github.com/qrange-group/sur-adapterでリリースされる。

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts. The code is released at https://github.com/Qrange-group/SUR-adapter.
翻訳日:2023-12-01 01:05:05 公開日:2023-11-29
# エッジコンピューティングを用いた疎分散カメラネットワークを用いた屋内位置推定と多人数追跡の可能性

A Feasibility Study on Indoor Localization and Multi-person Tracking Using Sparsely Distributed Camera Network with Edge Computing ( http://arxiv.org/abs/2305.05062v2 )

ライセンス: Link先を確認
Hyeokhyen Kwon, Chaitra Hegde, Yashar Kiarashi, Venkata Siva Krishna Madala, Ratan Singh, ArjunSinh Nakum, Robert Tweedy, Leandro Miletto Tonetto, Craig M. Zimring, Matthew Doiron, Amy D. Rodriguez, Allan I. Levey, and Gari D. Clifford(参考訳) カメラベースのアクティビティ監視システムは、コンピュータビジョンとエッジコンピューティング技術の進歩により、スマートビルディングアプリケーションにとって魅力的なソリューションになりつつある。 本稿では,大規模屋内空間におけるエッジコンピューティングデバイスに実装されたカメラを用いた屋内位置推定と多人数追跡システムの実現可能性とシステム解析について述べる。 この目的のために、我々は、複数のカメラを利用したエンドツーエンドのエッジコンピューティングパイプラインをデプロイし、プライバシー保護に重点を置きながら、1700m^2$の大規模な治療空間における複数の個人の位置推定、身体の向き推定、追跡を実現した。 私たちのパイプラインは、屋内空間の天井にテンソルプロセッシングユニット(TPU)を備えた39台のエッジコンピューティングカメラシステムで構成されています。 個人のプライバシーを確保するため、リアルタイムマルチパーソンポーズ推定アルゴリズムは、コンピュータカメラシステムのtpu上で動作する。 本アルゴリズムは,屋内位置推定,身体方向推定,多人数追跡に利用されるポーズ・バウンディングボックスを抽出する。 パイプラインの平均定位誤差は1.41m、多目的追跡精度スコアは88.6\%、絶対体方向誤差は29\degreeであった。 これらの結果から,大規模屋内空間における個人の位置推定と追跡は,プライバシーの制約があっても実現可能であることが示された。

Camera-based activity monitoring systems are becoming an attractive solution for smart building applications with the advances in computer vision and edge computing technologies. In this paper, we present a feasibility study and systematic analysis of a camera-based indoor localization and multi-person tracking system implemented on edge computing devices within a large indoor space. To this end, we deployed an end-to-end edge computing pipeline that utilizes multiple cameras to achieve localization, body orientation estimation and tracking of multiple individuals within a large therapeutic space spanning $1700m^2$, all while maintaining a strong focus on preserving privacy. Our pipeline consists of 39 edge computing camera systems equipped with Tensor Processing Units (TPUs) placed in the indoor space's ceiling. To ensure the privacy of individuals, a real-time multi-person pose estimation algorithm runs on the TPU of the computing camera system. This algorithm extracts poses and bounding boxes, which are utilized for indoor localization, body orientation estimation, and multi-person tracking. Our pipeline demonstrated an average localization error of 1.41 meters, a multiple-object tracking accuracy score of 88.6\%, and a mean absolute body orientation error of 29\degree. These results shows that localization and tracking of individuals in a large indoor space is feasible even with the privacy constrains.
翻訳日:2023-12-01 01:04:27 公開日:2023-11-29
# 幾何適応型プリコンディショナーによるメタラーニング

Meta-Learning with a Geometry-Adaptive Preconditioner ( http://arxiv.org/abs/2304.01552v2 )

ライセンス: Link先を確認
Suhyun Kang, Duhun Hwang, Moonjung Eo, Taesup Kim, Wonjong Rhee(参考訳) モデル非依存メタ学習(maml)は、最も成功したメタ学習アルゴリズムの1つである。 外ループプロセスは共有初期化を学習し、内ループプロセスはタスク固有の重みを最適化する二段階最適化構造を持つ。 MAMLはインナーループの標準勾配降下に依存するが、最近の研究ではメタ学習プレコンディショナーによるインナーループの勾配降下の制御が有用であることが示されている。 しかし、既存のプリコンディショナーはタスク固有のパス依存の方法で同時に適応することはできない。 さらに、それらはリーマン計量条件を満たさず、事前条件付き勾配で最も急降下学習を可能にする。 本研究では,MAMLの制約を克服できる幾何適応型事前条件勾配降下(GAP)を提案する。GAPはタスク固有のパラメータに依存する事前条件を効率的にメタ学習することができ,その事前条件はリーマン計量であることを示す。 この2つの特性により、幾何適応型プレコンディショナーはインナーループ最適化の改善に有効である。 実験結果から,GAPは最先端のMAMLファミリーとプレコンディショニング・グラデーション・マML(PGD-MAML)ファミリーを多種多様なショット学習タスクで上回ることがわかった。 コードは以下の通り。 https://github.com/Suhyun777/CVPR23-GAP。

Model-agnostic meta-learning (MAML) is one of the most successful meta-learning algorithms. It has a bi-level optimization structure where the outer-loop process learns a shared initialization and the inner-loop process optimizes task-specific weights. Although MAML relies on the standard gradient descent in the inner-loop, recent studies have shown that controlling the inner-loop's gradient descent with a meta-learned preconditioner can be beneficial. Existing preconditioners, however, cannot simultaneously adapt in a task-specific and path-dependent way. Additionally, they do not satisfy the Riemannian metric condition, which can enable the steepest descent learning with preconditioned gradient. In this study, we propose Geometry-Adaptive Preconditioned gradient descent (GAP) that can overcome the limitations in MAML; GAP can efficiently meta-learn a preconditioner that is dependent on task-specific parameters, and its preconditioner can be shown to be a Riemannian metric. Thanks to the two properties, the geometry-adaptive preconditioner is effective for improving the inner-loop optimization. Experiment results show that GAP outperforms the state-of-the-art MAML family and preconditioned gradient descent-MAML (PGD-MAML) family in a variety of few-shot learning tasks. Code is available at: https://github.com/Suhyun777/CVPR23-GAP.
翻訳日:2023-12-01 01:03:40 公開日:2023-11-29
# Fairer Weak Supervisionのソースバイアスの緩和

Mitigating Source Bias for Fairer Weak Supervision ( http://arxiv.org/abs/2303.17713v3 )

ライセンス: Link先を確認
Changho Shin, Sonia Cromp, Dyah Adila, Frederic Sala(参考訳) 弱い監督は、基底真理ラベルの必要性を減らすことによって、トレーニングセットの効率的な開発を可能にする。 しかし、未知のラベルを推定するために信号源を統合するなど、弱い監督を魅力的にする技術は、生成した疑似ラベルが非常に偏っている危険性も伴う。 驚いたことに、日常の使用とバイアスの増加の可能性を考えると、公正の観点からは、弱い監督は研究されていない。 本研究は,接地ラベルへのアクセスが可能なデータセットから公平なモデルを構築することができる場合でも,弱い監督によってラベル付けされた対応するデータセットは任意に不公平である,という観察から開始する。 これに対処するために,弱い監督下でのソースの不公平さのモデルを提案し,実証的に検証し,これらのバイアスを軽減できる単純な反事実的公平性に基づく手法を導入する。 理論的には、トレードオフに苦しむ標準的な公正なアプローチとは対照的に、精度と公平性の両方を同時に改善することが可能である。 実験により,本手法は,弱監視ベースラインの精度を最大32\%向上させるとともに,人口格差を82.5\%低減することを示した。 WRENCHベンチマークの10つのデータセットのうち5つにおいて,性能の最大化を目的とした簡単な拡張を行った。

Weak supervision enables efficient development of training sets by reducing the need for ground truth labels. However, the techniques that make weak supervision attractive -- such as integrating any source of signal to estimate unknown labels -- also entail the danger that the produced pseudolabels are highly biased. Surprisingly, given everyday use and the potential for increased bias, weak supervision has not been studied from the point of view of fairness. We begin such a study, starting with the observation that even when a fair model can be built from a dataset with access to ground-truth labels, the corresponding dataset labeled via weak supervision can be arbitrarily unfair. To address this, we propose and empirically validate a model for source unfairness in weak supervision, then introduce a simple counterfactual fairness-based technique that can mitigate these biases. Theoretically, we show that it is possible for our approach to simultaneously improve both accuracy and fairness -- in contrast to standard fairness approaches that suffer from tradeoffs. Empirically, we show that our technique improves accuracy on weak supervision baselines by as much as 32\% while reducing demographic parity gap by 82.5\%. A simple extension of our method aimed at maximizing performance produces state-of-the-art performance in five out of ten datasets in the WRENCH benchmark.
翻訳日:2023-12-01 01:03:00 公開日:2023-11-29
# 現代のベイズ実験設計

Modern Bayesian Experimental Design ( http://arxiv.org/abs/2302.14545v2 )

ライセンス: Link先を確認
Tom Rainforth, Adam Foster, Desi R Ivanova and Freddie Bickford Smith(参考訳) ベイズ実験設計 (bed) は実験の設計を最適化するための強力で汎用的なフレームワークを提供する。 しかし、その展開はしばしば、その実用性を損なうような重大な計算上の課題を引き起こす。 本稿では,近年の進歩がこれらの課題を克服し,BEDを効果的に活用する能力にどのように変化をもたらしたかを概説する。

Bayesian experimental design (BED) provides a powerful and general framework for optimizing the design of experiments. However, its deployment often poses substantial computational challenges that can undermine its practical use. In this review, we outline how recent advances have transformed our ability to overcome these challenges and thus utilize BED effectively, before discussing some key areas for future development in the field.
翻訳日:2023-12-01 01:02:16 公開日:2023-11-29
# DeepSpeed-VisualChat:マルチモーダル因果注意によるマルチラウンドマルチイメージインターリーブチャット

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention ( http://arxiv.org/abs/2309.14327v3 )

ライセンス: Link先を確認
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He(参考訳) 既存のマルチモーダルモデルのほとんどは、マルチイメージ、マルチラウンドの対話において、インターリーブされた画像とテキストの入力を積極的に管理する能力に妨げられ、トレーニングとデータアクセシビリティのためのリソース割り当てにかなりの制約に直面し、様々な相互作用領域にわたる適応性とスケーラビリティに影響を与える。 そこで本研究では,複数モーダル機能を組み込んだ大規模言語モデル(LLM)の最適化を目的としたDeepSpeed-VisualChatフレームワークを提案する。 本フレームワークは,(1)マルチラウンドおよびマルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果的注意機構の導入,(3)既存のデータセットへのデータブレンディング技術を活用したマルチラウンド・マルチイメージ対話におけるシームレスなインタラクションの実現,で注目に値する。 既存のフレームワークと比較して、deepspeed-visualchatは、70bのパラメータ言語モデルサイズまでの優れたスケーラビリティを示し、マルチモーダル言語モデルの大幅な進歩を示し、将来の調査のための確かな基盤を設定する。

Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.
翻訳日:2023-12-01 00:55:50 公開日:2023-11-29
# うるさく説明可能なモデルを用いたアラビア語感情分析

Arabic Sentiment Analysis with Noisy Deep Explainable Model ( http://arxiv.org/abs/2309.13731v2 )

ライセンス: Link先を確認
Md. Atabuzzaman, Md Shajalal, Maksuda Bilkis Baby, Alexander Boden(参考訳) 感性分析(SA)は多くの現実世界のアプリケーションに必須のタスクである。 限られた資源言語(アラビア語、ベンガル語)と比較すると、SAに関する研究の大部分は高資源言語(英語、中国語)で行われている。 さらに、高度な人工知能(AI)ベースのアプローチを利用したアラビア語の感情分析手法の予測の背後にある理由は、ブラックボックスのようなもので、理解が難しい。 本稿では,Bi-Directional Long Short-Term Memory (BiLSTM) と Convolutional Neural Networks (CNN)-BiLSTM モデルにノイズ層を導入し,過度に適合する問題を克服し,アラビア語の感情分類フレームワークを提案する。 提案フレームワークは,特定の感情(肯定的あるいは否定的)が予測されている理由を理解するために,局所的な代理説明可能なモデルを訓練することにより,特定の予測を説明することができる。 アラビア語saデータセットの公開ベンチマーク実験を行った。 その結果,アラビア語に対する感情分析におけるノイズ層の追加は,過度な適合を減らし,その手法が既知の最先端手法よりも優れていた。 さらに、ノイズレイヤによる説明可能性を導入することで、モデルを透明性と説明責任が向上し、実際にAI対応システムを採用する上で役立ちます。

Sentiment Analysis (SA) is an indispensable task for many real-world applications. Compared to limited resourced languages (i.e., Arabic, Bengali), most of the research on SA are conducted for high resourced languages (i.e., English, Chinese). Moreover, the reasons behind any prediction of the Arabic sentiment analysis methods exploiting advanced artificial intelligence (AI)-based approaches are like black-box - quite difficult to understand. This paper proposes an explainable sentiment classification framework for the Arabic language by introducing a noise layer on Bi-Directional Long Short-Term Memory (BiLSTM) and Convolutional Neural Networks (CNN)-BiLSTM models that overcome over-fitting problem. The proposed framework can explain specific predictions by training a local surrogate explainable model to understand why a particular sentiment (positive or negative) is being predicted. We carried out experiments on public benchmark Arabic SA datasets. The results concluded that adding noise layers improves the performance in sentiment analysis for the Arabic language by reducing overfitting and our method outperformed some known state-of-the-art methods. In addition, the introduced explainability with noise layer could make the model more transparent and accountable and hence help adopting AI-enabled system in practice.
翻訳日:2023-12-01 00:55:27 公開日:2023-11-29
# 欠落データに基づく不確実性を考慮したトラヒック予測

Uncertainty-aware Traffic Prediction under Missing Data ( http://arxiv.org/abs/2309.06800v5 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Zhiming Liang, Guanjie Zheng, Bin Shi, Hua Wei(参考訳) 交通分野の応用範囲が広いため、交通予測は重要なトピックである。 近年,様々な研究が有望な成果を上げている。 しかし、ほとんどの研究は予測場所が完全な、あるいは少なくとも部分的な歴史記録を持っていると仮定しており、歴史的に記録されていない場所まで拡張することはできない。 実際のシナリオでは、予算の制限とインストールの可用性のためにセンサーの配置が制限される可能性があるため、現在のほとんどのモデルでは適用できない。 欠落した場所の交通状態を暗示しようとする文献は少ないが、これらの手法にはセンサーで同時に観測されるデータが必要であるため、予測タスクには適用できない。 もうひとつの欠点は、予測の不確実性の測定の欠如であり、以前の作業がリスクに敏感なタスクや意思決定に適さないことだ。 このギャップを埋めるために、従来のインダクティブグラフニューラルネットワークに触発された本研究では、不確実性を認識するフレームワークを提案する。 1) 過去の記録のない場所への予測を延長し, センサの配置を減少させながら, 予測位置の空間的範囲を著しく拡大する。 2) 下流作業におけるリスクと意思決定の管理を支援するため, 不確実性定量化による確率予測を生成する。 実生活データセットを広範囲に実験した結果,予測課題において有望な結果が得られ,不確かさの定量化により,過去のデータと無関係な場所と高い相関性が得られた。 また,センサ配置予算を限定した精度向上のために,交通分野におけるセンサ展開タスクを支援できることを示す。

Traffic prediction is a crucial topic because of its broad scope of applications in the transportation domain. Recently, various studies have achieved promising results. However, most studies assume the prediction locations have complete or at least partial historical records and cannot be extended to non-historical recorded locations. In real-life scenarios, the deployment of sensors could be limited due to budget limitations and installation availability, which makes most current models not applicable. Though few pieces of literature tried to impute traffic states at the missing locations, these methods need the data simultaneously observed at the locations with sensors, making them not applicable to prediction tasks. Another drawback is the lack of measurement of uncertainty in prediction, making prior works unsuitable for risk-sensitive tasks or involving decision-making. To fill the gap, inspired by the previous inductive graph neural network, this work proposed an uncertainty-aware framework with the ability to 1) extend prediction to missing locations with no historical records and significantly extend spatial coverage of prediction locations while reducing deployment of sensors and 2) generate probabilistic prediction with uncertainty quantification to help the management of risk and decision making in the down-stream tasks. Through extensive experiments on real-life datasets, the result shows our method achieved promising results on prediction tasks, and the uncertainty quantification gives consistent results which highly correlated with the locations with and without historical data. We also show that our model could help support sensor deployment tasks in the transportation field to achieve higher accuracy with a limited sensor deployment budget.
翻訳日:2023-12-01 00:54:49 公開日:2023-11-29
# DTW+S: 時系列と順序付き局所トレンドの比較

DTW+S: Shape-based Comparison of Time-series with Ordered Local Trend ( http://arxiv.org/abs/2309.03579v2 )

ライセンス: Link先を確認
Ajitesh Srivastava(参考訳) 時系列データ間の距離や類似度を測定することは、分類、クラスタリング、アンサンブル/アライメントを含む多くのアプリケーションの基本的側面である。 既存の措置では、地域傾向(形)の類似性を捉えられず、誤解を招く結果を生み出すこともある。 当社の目標は、同様の傾向が同じ時期に発生し、適用領域の研究者にとって容易に解釈可能な指標を開発することです。 これは、流行(ピークまで上昇して減少する)のような、順序付けられた有意義な局所的な傾向のシーケンスを持つアプリケーションにとって特に有用である。 本稿では,各列が局所的傾向を表す時系列の解釈可能な「閉鎖性保存」行列表現を作成し,それらの行列間の距離を計算するために動的時間ワープを適用する新しい尺度DTW+Sを提案する。 我々は,この表現の選択を支援する理論的解析を行う。 いくつかのタスクでDTW+Sの有用性を示す。 流行曲線のクラスタリングでは,DTW+Sが基準線に比べて優れたクラスタリングを実現できる唯一の指標であることを示す。 アンサンブル・ビルディングにはDTW+Sとバリーセンタ平均化の組み合わせが提案され,基礎となる軌道特性の保存が最善である。 また,大規模ではなく局所的な傾向が決定的な役割を担っている場合,我々のアプローチは,データセットのクラスに対する動的時間ワープよりも優れた分類をもたらすことを示す。

Measuring distance or similarity between time-series data is a fundamental aspect of many applications including classification, clustering, and ensembling/alignment. Existing measures may fail to capture similarities among local trends (shapes) and may even produce misleading results. Our goal is to develop a measure that looks for similar trends occurring around similar times and is easily interpretable for researchers in applied domains. This is particularly useful for applications where time-series have a sequence of meaningful local trends that are ordered, such as in epidemics (a surge to an increase to a peak to a decrease). We propose a novel measure, DTW+S, which creates an interpretable "closeness-preserving" matrix representation of the time-series, where each column represents local trends, and then it applies Dynamic Time Warping to compute distances between these matrices. We present a theoretical analysis that supports the choice of this representation. We demonstrate the utility of DTW+S in several tasks. For the clustering of epidemic curves, we show that DTW+S is the only measure able to produce good clustering compared to the baselines. For ensemble building, we propose a combination of DTW+S and barycenter averaging that results in the best preservation of characteristics of the underlying trajectories. We also demonstrate that our approach results in better classification compared to Dynamic Time Warping for a class of datasets, particularly when local trends rather than scale play a decisive role.
翻訳日:2023-12-01 00:54:22 公開日:2023-11-29
# CoLA: 自動かつ効率的な数値線形代数のための構成構造爆発

CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra ( http://arxiv.org/abs/2309.03060v2 )

ライセンス: Link先を確認
Andres Potapczynski, Marc Finzi, Geoff Pleiss, Andrew Gordon Wilson(参考訳) 機械学習と科学の多くの分野は、固有分解、線形システムの解法、行列指数計算、トレース推定などの大きな線形代数問題を含む。 関係する行列はクロネッカー、畳み込み、ブロック対角形、和、積構造を持つことが多い。 本稿では,機械学習における大規模線形代数問題に対して,CoLA(Compositional Linear Algebra)という,単純だが汎用的なフレームワークを提案する。 線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。 さらに、CoLAは、JAXとPyTorchの両方でメモリ効率のよい自動微分、低精度の計算、GPUアクセラレーションを提供すると同時に、新しいオブジェクト、オペレーション、ルールを複数のディスパッチを介して下流パッケージに格納する。 CoLAは、多くの代数演算を加速し、行列構造やアルゴリズムのプロトタイプを容易にし、線形代数を必要とする任意の計算作業に対して魅力的なドロップインツールを提供する。 我々は、偏微分方程式、ガウス過程、同変モデル構築、教師なし学習を含む幅広い応用でその効果を示す。

Many areas of machine learning and science involve large linear algebra problems, such as eigendecompositions, solving linear systems, computing matrix exponentials, and trace estimation. The matrices involved often have Kronecker, convolutional, block diagonal, sum, or product structure. In this paper, we propose a simple but general framework for large-scale linear algebra problems in machine learning, named CoLA (Compositional Linear Algebra). By combining a linear operator abstraction with compositional dispatch rules, CoLA automatically constructs memory and runtime efficient numerical algorithms. Moreover, CoLA provides memory efficient automatic differentiation, low precision computation, and GPU acceleration in both JAX and PyTorch, while also accommodating new objects, operations, and rules in downstream packages via multiple dispatch. CoLA can accelerate many algebraic operations, while making it easy to prototype matrix structures and algorithms, providing an appealing drop-in tool for virtually any computational effort that requires linear algebra. We showcase its efficacy across a broad range of applications, including partial differential equations, Gaussian processes, equivariant model construction, and unsupervised learning.
翻訳日:2023-12-01 00:53:56 公開日:2023-11-29
# 異常検出のための総合的拡張フレームワーク

A Comprehensive Augmentation Framework for Anomaly Detection ( http://arxiv.org/abs/2308.15068v3 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) データ拡張法は一般に異常検出モデルのトレーニングに統合される。 Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. MVTec異常検出データセットを用いて行った評価は,本手法が従来の最先端手法,特にオブジェクトクラスよりも優れていることを示す。 一般化性を評価するため,本試験では,特定の種類の異常しか含まないため,多様な特徴を持つ異常を含むシミュレーションデータセットを生成する。 実験の結果,実世界のシナリオで発生する様々な予期せぬ異常に対して効果的に一般化できる可能性が示された。

Data augmentation methods are commonly integrated into the training of anomaly detection models. Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. The evaluations conducted on the MVTec anomaly detection dataset demonstrate that our method outperforms the previous state-of-the-art approach, particularly in terms of object classes. To evaluate generalizability, we generate a simulated dataset comprising anomalies with diverse characteristics since the original test samples only include specific types of anomalies and may lead to biased evaluations. Experimental results demonstrate that our approach exhibits promising potential for generalizing effectively to various unforeseen anomalies encountered in real-world scenarios.
翻訳日:2023-12-01 00:53:11 公開日:2023-11-29
# AnyLoc: ユニバーサルな視覚的場所認識を目指して

AnyLoc: Towards Universal Visual Place Recognition ( http://arxiv.org/abs/2308.00688v2 )

ライセンス: Link先を確認
Nikhil Keetha, Avneesh Mishra, Jay Karhade, Krishna Murthy Jatavallabhula, Sebastian Scherer, Madhava Krishna, Sourav Garg(参考訳) 視覚的位置認識(VPR)はロボットの局所化に不可欠である。 これまでのところ、最もパフォーマンスの高いVPRアプローチは環境に特化しており、構造化された環境(主に都市部での運転)で強いパフォーマンスを示す一方で、その性能は非構造化環境で著しく低下し、ほとんどのアプローチが堅牢な実環境への展開に脆弱である。 本研究は,vprの普遍的な解決法を開発することを目的としている。この手法は,再訓練や微調整をすることなく,広い範囲の構造化・非構造化環境(都市,屋外,屋内,空中,水中,地下環境)にまたがる。 このような汎用的なVPRソリューションを構築する上で,VPR固有のトレーニングを伴わない市販の自己教師型モデルから派生した汎用的特徴表現が正しい基盤であることを実証する。 これらの派生した機能と教師なしの機能集約を組み合わせることで、AnyLocというメソッドが既存のアプローチよりも最大4倍高いパフォーマンスを実現できます。 さらに,これらの特徴のセマンティクス特性を特徴付け,類似した環境からデータセットをカプセル化したユニークなドメインを明らかにすることで,性能が6%向上した。 私たちの詳細な実験と分析は、どこでも、いつでも、そしてanyviewを通じてデプロイ可能なvprソリューションを構築するための基盤となります。 私たちは読者に対して、プロジェクトページとインタラクティブなデモを探索することを勧めています。

Visual Place Recognition (VPR) is vital for robot localization. To date, the most performant VPR approaches are environment- and task-specific: while they exhibit strong performance in structured environments (predominantly urban driving), their performance degrades severely in unstructured environments, rendering most approaches brittle to robust real-world deployment. In this work, we develop a universal solution to VPR -- a technique that works across a broad range of structured and unstructured environments (urban, outdoors, indoors, aerial, underwater, and subterranean environments) without any re-training or fine-tuning. We demonstrate that general-purpose feature representations derived from off-the-shelf self-supervised models with no VPR-specific training are the right substrate upon which to build such a universal VPR solution. Combining these derived features with unsupervised feature aggregation enables our suite of methods, AnyLoc, to achieve up to 4X significantly higher performance than existing approaches. We further obtain a 6% improvement in performance by characterizing the semantic properties of these features, uncovering unique domains which encapsulate datasets from similar environments. Our detailed experiments and analysis lay a foundation for building VPR solutions that may be deployed anywhere, anytime, and across anyview. We encourage the readers to explore our project page and interactive demos: https://anyloc.github.io/.
翻訳日:2023-12-01 00:52:33 公開日:2023-11-29
# 破壊破壊リプシッツの文脈探索

Corruption-Robust Lipschitz Contextual Search ( http://arxiv.org/abs/2307.13903v3 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) リプシッツ関数を劣化したバイナリ信号で学習する問題について研究する。 学習者は、相手が選択した$L$-Lipschitz関数 $f: [0,1]^d \rightarrow [0,L]$を学習しようとする。 合計で$T$のラウンドがある。 各ラウンド$t$において、相手は入力空間内のコンテキストベクトル$x_t$を選択し、学習者は真関数値$f(x_t)$に推測を行い、推測値が高いか低いかを示すバイナリ信号を受け取る。 合計$C$ラウンドでは、信号は破損する可能性があるが、学習者には$C$の値は \emph{unknown} である。 学習者の目標は、小さな累積損失を負うことである。 本研究は,新しいアルゴリズム手法であるemph{agnostic check}と新しい解析手法を紹介する。 対称損失に対して、学習者は、$d = 1$ で、$l\cdot o_d(c\log t + t^{(d-1)/d})$ で、$d > 1$ で、 学習者は、$l\cdot \widetilde{o} (t^{d/(d+1)} + c\cdot t^{1/(d+1)})$ で後悔する。

I study the problem of learning a Lipschitz function with corrupted binary signals. The learner tries to learn a $L$-Lipschitz function $f: [0,1]^d \rightarrow [0, L]$ that the adversary chooses. There is a total of $T$ rounds. In each round $t$, the adversary selects a context vector $x_t$ in the input space, and the learner makes a guess to the true function value $f(x_t)$ and receives a binary signal indicating whether the guess is high or low. In a total of $C$ rounds, the signal may be corrupted, though the value of $C$ is \emph{unknown} to the learner. The learner's goal is to incur a small cumulative loss. This work introduces the new algorithmic technique \emph{agnostic checking} as well as new analysis techniques. I design algorithms which: for the symmetric loss, the learner achieves regret $L\cdot O(C\log T)$ with $d = 1$ and $L\cdot O_d(C\log T + T^{(d-1)/d})$ with $d > 1$; for the pricing loss, the learner achieves regret $L\cdot \widetilde{O} (T^{d/(d+1)} + C\cdot T^{1/(d+1)})$.
翻訳日:2023-12-01 00:52:10 公開日:2023-11-29
# 自己回帰モデルにおける軌跡からの意味表現

Meaning Representations from Trajectories in Autoregressive Models ( http://arxiv.org/abs/2310.18348v3 )

ライセンス: Link先を確認
Tian Yu Liu, Matthew Trager, Alessandro Achille, Pramuditha Perera, Luca Zancato, Stefano Soatto(参考訳) 入力テキストを拡張可能な全ての形容詞の分布を考慮し,自己回帰言語モデルから意味表現を抽出する。 この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。 さらに、ベクトルベースの表現とは異なり、分布ベースの表現は、可能性関数間の代数的操作を用いて非対称関係(例えば、論理的包含方向、ハイパーネム/ハイポニム関係)をモデル化することもできる。 これらの概念はセマンティクスの分布的観点に基礎を置き、オートマトン理論の標準構成と結びついているが、我々の知識では現代の言語モデルには適用されていない。 我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。 最後に,マルチモーダル自己回帰モデルを用いて,異なるモーダル(画像やテキストなど)のデータを表現する手法を拡張した。 私たちのコードは、https://github.com/tianyu139/meaning-as-trajectoriesで利用可能です。

We propose to extract meaning representations from autoregressive language models by considering the distribution of all possible trajectories extending an input text. This strategy is prompt-free, does not require fine-tuning, and is applicable to any pre-trained autoregressive model. Moreover, unlike vector-based representations, distribution-based representations can also model asymmetric relations (e.g., direction of logical entailment, hypernym/hyponym relations) by using algebraic operations between likelihood functions. These ideas are grounded in distributional perspectives on semantics and are connected to standard constructions in automata theory, but to our knowledge they have not been applied to modern language models. We empirically show that the representations obtained from large models align well with human annotations, outperform other zero-shot and prompt-free methods on semantic similarity tasks, and can be used to solve more complex entailment and containment tasks that standard embeddings cannot handle. Finally, we extend our method to represent data from different modalities (e.g., image and text) using multimodal autoregressive models. Our code is available at: https://github.com/tianyu139/meaning-as-trajectories
翻訳日:2023-12-01 00:44:27 公開日:2023-11-29
# テキスト基準に基づく画像クラスタリング

Image Clustering Conditioned on Text Criteria ( http://arxiv.org/abs/2310.18297v3 )

ライセンス: Link先を確認
Sehyun Kwon, Jaeseung Park, Minkyu Kim, Jaewoong Cho, Ernest K. Ryu, Kangwook Lee(参考訳) 古典的なクラスタリング手法では,クラスタリング結果を直接制御することができず,クラスタリング結果がユーザの意識する関連する基準と一致しない場合がある。 本研究では,現代視覚言語モデルと大規模言語モデルを活用することで,ユーザ特定テキスト基準に基づく画像クラスタリングを行う手法を提案する。 提案手法は,テキスト基準(ic|tc)を条件とした画像クラスタリングと呼び,画像クラスタリングの異なるパラダイムを表す。 IC|TCは人間の介入を最小限かつ実用的に必要としており、ユーザーはクラスタリングの結果に対してかなりの制御を行うことができる。 実験の結果、IC|TCは、人間の行動、身体的位置、気分などの様々な基準で画像を効果的にクラスタリングし、ベースラインを大幅に上回っていることがわかった。

Classical clustering methods do not provide users with direct control of the clustering results, and the clustering results may not be consistent with the relevant criterion that a user has in mind. In this work, we present a new methodology for performing image clustering based on user-specified text criteria by leveraging modern vision-language models and large language models. We call our method Image Clustering Conditioned on Text Criteria (IC|TC), and it represents a different paradigm of image clustering. IC|TC requires a minimal and practical degree of human intervention and grants the user significant control over the clustering results in return. Our experiments show that IC|TC can effectively cluster images with various criteria, such as human action, physical location, or the person's mood, while significantly outperforming baselines.
翻訳日:2023-12-01 00:44:03 公開日:2023-11-29
# 運動の法則を用いた2次元ラベルからの単眼3次元物体定位学習に向けて

Towards Learning Monocular 3D Object Localization From 2D Labels using the Physical Laws of Motion ( http://arxiv.org/abs/2310.17462v2 )

ライセンス: Link先を確認
Daniel Kienzle, Julian Lorenz, Katja Ludwig, Rainer Lienhart(参考訳) 本論文では,2dラベルのみを用いた単一キャリブレーションカメラからの単一画像における高精度3次元物体定位法を提案する。 高価な3Dラベルは必要ない。 したがって、3Dラベルの代わりに、物体の動きの物理的知識とともに、容易に注釈付けできる2Dラベルで訓練する。 この情報から、モデルはトレーニング中にこの情報を見たことがなくても、潜在する3次元を推測することができる。 提案手法は, 合成データと実世界データの両方で評価され, 実データに対する実験において, 平均距離誤差を6cmに抑えることができる。 以上の結果から,3次元データ収集が不可能である3次元物体位置推定学習へのステップとしての手法の可能性が示唆された。

We present a novel method for precise 3D object localization in single images from a single calibrated camera using only 2D labels. No expensive 3D labels are needed. Thus, instead of using 3D labels, our model is trained with easy-to-annotate 2D labels along with the physical knowledge of the object's motion. Given this information, the model can infer the latent third dimension, even though it has never seen this information during training. Our method is evaluated on both synthetic and real-world datasets, and we are able to achieve a mean distance error of just 6 cm in our experiments on real data. The results indicate the method's potential as a step towards learning 3D object location estimation, where collecting 3D data for training is not feasible.
翻訳日:2023-12-01 00:43:50 公開日:2023-11-29
# polymatrix decomposability によるマルチプレイヤーゲームにおけるセルフプレイの保証

Guarantees for Self-Play in Multiplayer Games via Polymatrix Decomposability ( http://arxiv.org/abs/2310.11518v3 )

ライセンス: Link先を確認
Revan MacQueen, James R. Wright(参考訳) セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。 セルフプレイは学習のための大量のデータを生成するのに有用であるが、学習者が学習後に直面するエージェントが、学習者が自分自身と対話することによって予想される行動と劇的に異なる行動をとるという欠点がある。 2人プレイの定額制ゲームの場合、ナッシュ均衡に達するセルフプレイは、トレーニング後の対戦相手に対してうまく機能する戦略を生み出すことが保証されるが、マルチプレイヤーゲームにはそのような保証はない。 そこで、グローバル$\epsilon$-nash equilibria が各サブゲーム(サブゲーム安定性と呼ばれる)のnash equilibriaと境界的に離れている2人のプレイヤーにほぼ分解されるゲームにおいて、自己プレイによって学習する非外部レグレットアルゴリズムは、境界的な脆弱性を持つ戦略を生成する。 本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。 我々はLeduc pokerの実験を通してこの知見を実証した。

Self-play is a technique for machine learning in multi-agent systems where a learning algorithm learns by interacting with copies of itself. Self-play is useful for generating large quantities of data for learning, but has the drawback that the agents the learner will face post-training may have dramatically different behavior than the learner came to expect by interacting with itself. For the special case of two-player constant-sum games, self-play that reaches Nash equilibrium is guaranteed to produce strategies that perform well against any post-training opponent; however, no such guarantee exists for multiplayer games. We show that in games that approximately decompose into a set of two-player constant-sum games (called constant-sum polymatrix games) where global $\epsilon$-Nash equilibria are boundedly far from Nash equilibria in each subgame (called subgame stability), any no-external-regret algorithm that learns by self-play will produce a strategy with bounded vulnerability. For the first time, our results identify a structural property of multiplayer games that enable performance guarantees for the strategies produced by a broad class of self-play algorithms. We demonstrate our findings through experiments on Leduc poker.
翻訳日:2023-12-01 00:42:57 公開日:2023-11-29
# Chameleon: 検索強化言語モデルのための異種・非凝集型加速器システム

Chameleon: a heterogeneous and disaggregated accelerator system for retrieval-augmented language models ( http://arxiv.org/abs/2310.09949v3 )

ライセンス: Link先を確認
Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso(参考訳) Retrieval-Augmented Language Model (RALM)は、外部データベースからコンテキスト固有の知識を取得することで、生成言語モデルを拡張する。 この戦略は、小さなモデルでも印象的なテキスト生成品質を促進し、計算要求の桁違いを削減します。 しかし、ALMは独自のシステム設計の課題を導入している。 (a)lm推論と検索の多様なワークロード特性 (b)モデルサイズ,データベースサイズ,検索頻度など,さまざまなALM構成に対するさまざまなシステム要件とボトルネック。 分散アーキテクチャにおいてlmと検索アクセラレータを統合したヘテロジニアスアクセラレータシステムchameleonを提案する。 不均一性は、LM推論と検索の両方の効率的な加速を保証する一方、加速器の分解により、システムは両方のタイプの加速器を独立にスケールし、様々なRALM要求を満たすことができる。 我々のChameleonプロトタイプはFPGA上で検索アクセラレータを実装し、LM推論をGPUに割り当て、CPUサーバがこれらのアクセラレータをネットワーク上でオーケストレーションする。 CPUベースとCPU-GPUベクターサーチシステムと比較して、Chameleonは最大23.72倍のスピードアップと26.2倍のエネルギー効率を実現している。 様々なRALMを評価したChameleonは、ハイブリッドCPU-GPUアーキテクチャと比較してレイテンシが2.16倍、スループットが3.18倍に向上した。 これらの有望な結果は、将来のRALMシステムに加速器の不均一性と分解をもたらす道を開く。

A Retrieval-Augmented Language Model (RALM) augments a generative language model by retrieving context-specific knowledge from an external database. This strategy facilitates impressive text generation quality even with smaller models, thus reducing orders of magnitude of computational demands. However, RALMs introduce unique system design challenges due to (a) the diverse workload characteristics between LM inference and retrieval and (b) the various system requirements and bottlenecks for different RALM configurations such as model sizes, database sizes, and retrieval frequencies. We propose Chameleon, a heterogeneous accelerator system that integrates both LM and retrieval accelerators in a disaggregated architecture. The heterogeneity ensures efficient acceleration of both LM inference and retrieval, while the accelerator disaggregation enables the system to independently scale both types of accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements retrieval accelerators on FPGAs and assigns LM inference to GPUs, with a CPU server orchestrating these accelerators over the network. Compared to CPU-based and CPU-GPU vector search systems, Chameleon achieves up to 23.72x speedup and 26.2x energy efficiency. Evaluated on various RALMs, Chameleon exhibits up to 2.16x reduction in latency and 3.18x speedup in throughput compared to the hybrid CPU-GPU architecture. These promising results pave the way for bringing accelerator heterogeneity and disaggregation into future RALM systems.
翻訳日:2023-12-01 00:42:34 公開日:2023-11-29
# GROOT:ゲームプレイ動画を視聴して指導をフォローする学習

GROOT: Learning to Follow Instructions by Watching Gameplay Videos ( http://arxiv.org/abs/2310.08235v2 )

ライセンス: Link先を確認
Shaofei Cai, Bowei Zhang, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang(参考訳) オープンワールド環境においてオープンエンド命令を追従できるコントローラの構築の問題について検討する。 我々は,高額なテキストゲームアノテーションを不要にしつつ,表現力のある目標仕様を提供する指示として参照ビデオに従うことを提案する。 新しい学習フレームワークは、構造化された目標空間を誘導するビデオ命令エンコーダを作成しながら、ゲームプレイビデオからそのような指示追従コントローラを学習できるようにする。 我々はエージェントGROOTを、因果変換器をベースとしたシンプルで効果的なエンコーダデコーダアーキテクチャで実装する。 我々は,minecraft skillforgeベンチマークを用いて,オープンワールドと人間プレイヤーのgrootを評価する。 eloの評価は、grootが人間と機械のギャップを縮め、最高のジェネラリストエージェントのベースラインよりも70%の勝利率を示していることをはっきりと示している。 誘導ゴール空間の質的解析は、ゴール構成や複雑なゲームプレイ行動合成など、いくつかの興味深い創発的特性をさらに示している。 プロジェクトページはhttps://craftjarvis-groot.github.ioで閲覧できる。

We study the problem of building a controller that can follow open-ended instructions in open-world environments. We propose to follow reference videos as instructions, which offer expressive goal specifications while eliminating the need for expensive text-gameplay annotations. A new learning framework is derived to allow learning such instruction-following controllers from gameplay videos while producing a video instruction encoder that induces a structured goal space. We implement our agent GROOT in a simple yet effective encoder-decoder architecture based on causal transformers. We evaluate GROOT against open-world counterparts and human players on a proposed Minecraft SkillForge benchmark. The Elo ratings clearly show that GROOT is closing the human-machine gap as well as exhibiting a 70% winning rate over the best generalist agent baseline. Qualitative analysis of the induced goal space further demonstrates some interesting emergent properties, including the goal composition and complex gameplay behavior synthesis. The project page is available at https://craftjarvis-groot.github.io.
翻訳日:2023-12-01 00:42:09 公開日:2023-11-29
# 最適, 再構成可能, 可変解拡散モデリングのためのスタックブルおよびスキップブルLEGOれんがの学習

Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling ( http://arxiv.org/abs/2310.06389v2 )

ライセンス: Link先を確認
Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou(参考訳) 拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、トレーニングとサンプリングの両方においてかなりの計算コストがかかる。 様々な手法がこれらの計算課題に対処する一方で、探索の少ない問題は、反復的な改善のために効率的で適応可能なネットワークバックボーンを設計することである。 U-NetやVision Transformerのような現在のオプションは、しばしばリソース集約のディープネットワークに依存しており、可変解像度またはトレーニングで使用されるよりも小さなネットワークで画像を生成するのに必要な柔軟性を欠いている。 本研究では,局所機能強化とグローバルコンテンツオーケストレーションをシームレスに統合したlego bricksを紹介する。 これらのブロックを積み重ねて、テスト時間再構成可能な拡散バックボーンを作成することで、レンガの選択的スキップによりサンプリングコストを削減し、トレーニングデータよりも高解像度の画像を生成することができる。 LEGOブロックは、ローカルリージョンをMLPで豊かにし、Transformerブロックを使用して変換し、すべてのブロックにわたって一貫したフル解像度のイメージを維持します。 実験結果から,LEGOれんがの訓練効率の向上,収束の迅速化,画像の可変分解能の向上,生成性能の向上が示された。 さらにlegoは、他の方法に比べてサンプリング時間を大幅に削減し、拡散モデルの貴重な拡張として確立する。

Diffusion models excel at generating photo-realistic images but come with significant computational costs in both training and sampling. While various techniques address these computational challenges, a less-explored issue is designing an efficient and adaptable network backbone for iterative refinement. Current options like U-Net and Vision Transformer often rely on resource-intensive deep networks and lack the flexibility needed for generating images at variable resolutions or with a smaller network than used in training. This study introduces LEGO bricks, which seamlessly integrate Local-feature Enrichment and Global-content Orchestration. These bricks can be stacked to create a test-time reconfigurable diffusion backbone, allowing selective skipping of bricks to reduce sampling costs and generate higher-resolution images than the training data. LEGO bricks enrich local regions with an MLP and transform them using a Transformer block while maintaining a consistent full-resolution image across all bricks. Experimental results demonstrate that LEGO bricks enhance training efficiency, expedite convergence, and facilitate variable-resolution image generation while maintaining strong generative performance. Moreover, LEGO significantly reduces sampling time compared to other methods, establishing it as a valuable enhancement for diffusion models.
翻訳日:2023-12-01 00:41:22 公開日:2023-11-29
# denoising diffusion probabilistic modelによる生成量子機械学習

Generative quantum machine learning via denoising diffusion probabilistic models ( http://arxiv.org/abs/2310.05866v2 )

ライセンス: Link先を確認
Bingzhi Zhang, Peng Xu, Xiaohui Chen and Quntao Zhuang(参考訳) 深層生成モデルはコンピュータビジョン、テキスト生成、および大規模言語モデルにとって重要な技術である。 denoising diffusion probabilistic models (ddpms) は、多くのコンピュータビジョンタスクで多様で高品質なサンプルを生成する能力と、柔軟なモデルアーキテクチャと比較的単純なトレーニングスキームを組み込むことによって、最近注目を集めている。 量子生成モデルは、絡み合いと重ね合わせによって強化され、古典的および量子データの学習に新たな洞察をもたらした。 量子化拡散確率モデル(QuDDPM)を提案し,量子データの学習を効率的に学習できるようにする。 quddpmは、表現性を保証するのに十分な回路層を採用する一方で、ターゲット分布とノイズの補間として複数の中間トレーニングタスクを導入し、不毛高原を避け、効率的なトレーニングを保証する。 学習誤差の境界を提供し,量子ノイズモデル,量子多体位相,量子データのトポロジカル構造を学習する上でのquddpmの能力を示す。 この結果は、汎用的で効率的な量子生成学習のパラダイムを提供する。

Deep generative models are key-enabling technology to computer vision, text generation and large language models. Denoising diffusion probabilistic models (DDPMs) have recently gained much attention due to their ability to generate diverse and high-quality samples in many computer vision tasks, as well as to incorporate flexible model architectures and relatively simple training scheme. Quantum generative models, empowered by entanglement and superposition, have brought new insight to learning classical and quantum data. Inspired by the classical counterpart, we propose the quantum denoising diffusion probabilistic models (QuDDPM) to enable efficiently trainable generative learning of quantum data. QuDDPM adopts sufficient layers of circuits to guarantee expressivity, while introduces multiple intermediate training tasks as interpolation between the target distribution and noise to avoid barren plateau and guarantee efficient training. We provide bounds on the learning error and demonstrate QuDDPM's capability in learning correlated quantum noise model, quantum many-body phases and topological structure of quantum data. The results provide a paradigm for versatile and efficient quantum generative learning.
翻訳日:2023-12-01 00:41:02 公開日:2023-11-29
# siameseエンコーダの帰属法

An Attribution Method for Siamese Encoders ( http://arxiv.org/abs/2310.05703v3 )

ライセンス: Link先を確認
Lucas M\"oller, Dmitry Nikolaev, Sebastian Pad\'o(参考訳) 文変換器(ST)のようなシームズエンコーダモデルの成功にもかかわらず、それらが注意を払う入力の側面についてはほとんど知られていない。 障害は、それらの予測が1つの入力を処理するのではなく2つの入力を比較するため、個々の特徴に起因するものではないことである。 本稿では,複数の入力を持つモデルに対して統合勾配の原理を一般化し,シャムエンコーダの局所帰属法を導出する。 この解は特徴対属性の形式を採り、ST のトークントークン行列に還元することができる。 我々の手法は、積分ヤコビアンを導入し、積分勾配の有利な形式的特性を継承する:それはモデルの完全な計算グラフを考慮に入れ、実際の予測に収束することが保証される。 パイロットによる研究では、ごく少数のトークンペアが多くの予測を説明でき、名詞と動詞に焦点を当てていることが示されている。 正確な予測のためには、トークンの大部分と音声の一部に出席する必要がある。

Despite the success of Siamese encoder models such as sentence transformers (ST), little is known about the aspects of inputs they pay attention to. A barrier is that their predictions cannot be attributed to individual features, as they compare two inputs rather than processing a single one. This paper derives a local attribution method for Siamese encoders by generalizing the principle of integrated gradients to models with multiple inputs. The solution takes the form of feature-pair attributions, and can be reduced to a token-token matrix for STs. Our method involves the introduction of integrated Jacobians and inherits the advantageous formal properties of integrated gradients: it accounts for the model's full computation graph and is guaranteed to converge to the actual prediction. A pilot study shows that in an ST few token-pairs can often explain large fractions of predictions, and it focuses on nouns and verbs. For accurate predictions, it however needs to attend to the majority of tokens and parts of speech.
翻訳日:2023-12-01 00:40:42 公開日:2023-11-29
# SmoothLLM: 大規模な言語モデルを脱獄攻撃から守る

SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2310.03684v3 )

ライセンス: Link先を確認
Alexander Robey and Eric Wong and Hamed Hassani and George J. Pappas(参考訳) 大きな言語モデル(LLM)を人間の価値観に合わせる努力にもかかわらず、GPT、Llama、Claude、PaLMといった広く使われているLLMはジェイルブレイク攻撃の影響を受けやすい。 この脆弱性に対処するために,LLMに対するジェイルブレーキング攻撃を軽減するために設計された最初のアルゴリズムであるSmoothLLMを提案する。 敵が生成したプロンプトが文字レベルの変更に対して脆弱であることから,我々はまず入力プロンプトの複数のコピーをランダムに摂動させ,対応する予測を集約して敵の入力を検出する。 SmoothLLMは、多くの人気のあるLCMの攻撃成功率を1パーセント以下に減らし、不要な保守性を避け、攻撃緩和の保証を認める。 さらに、我々の防御は、既存の攻撃よりも指数関数的に少ないクエリを使用し、あらゆるllmと互換性がある。 私たちのコードは以下のリンクで公開されています。

Despite efforts to align large language models (LLMs) with human values, widely-used LLMs such as GPT, Llama, Claude, and PaLM are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks on LLMs. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense first randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. SmoothLLM reduces the attack success rate on numerous popular LLMs to below one percentage point, avoids unnecessary conservatism, and admits provable guarantees on attack mitigation. Moreover, our defense uses exponentially fewer queries than existing attacks and is compatible with any LLM. Our code is publicly available at the following link: https://github.com/arobey1/smooth-llm.
翻訳日:2023-12-01 00:40:25 公開日:2023-11-29
# faser: 中間表現を用いたバイナリコードの類似性検索

FASER: Binary Code Similarity Search through the use of Intermediate Representations ( http://arxiv.org/abs/2310.03605v3 )

ライセンス: Link先を確認
Josh Collyer, Tim Watson and Iain Phillips(参考訳) クロスアーキテクチャソフトウェアに関心のある機能を特定できることは、マルウェアの分析、ソフトウェアサプライチェーンの確保、脆弱性調査の実施などにおいて有用である。 クロスアーキテクチャ バイナリコード類似性検索は、多くの研究で研究され、その目的を達成するために様々なデータソースを使用してきた。 データソースは通常、関数制御フローグラフやバイナリレベルのコールグラフ、分解プロセスの出力、動的解析アプローチの出力などのバイナリから派生した共通構造を描画する。 あまり注目されていないデータソースはバイナリ中間表現である。 バイナリ中間表現は2つの興味深い特性を持っている:それらは本質的にクロスアーキテクチャであり、下流の使用をサポートするために明示的に関数の意味をエンコードする。 本稿では,長い文書トランスフォーマーと中間表現を用いて,手作業による特徴処理や事前学習,動的解析のステップを必要とせずに,クロスアーキテクチャ機能探索が可能なモデルを作成する,文字列符号化表現(faser)としての関数を提案する。 提案手法は,汎用関数探索タスクとターゲット脆弱性探索タスクという,2つのタスクに対する一連のベースラインアプローチと比較した。 我々のアプローチは、両方のタスクにまたがって強力なパフォーマンスを示し、すべてのベースラインアプローチよりも優れたパフォーマンスを示します。

Being able to identify functions of interest in cross-architecture software is useful whether you are analysing for malware, securing the software supply chain or conducting vulnerability research. Cross-Architecture Binary Code Similarity Search has been explored in numerous studies and has used a wide range of different data sources to achieve its goals. The data sources typically used draw on common structures derived from binaries such as function control flow graphs or binary level call graphs, the output of the disassembly process or the outputs of a dynamic analysis approach. One data source which has received less attention is binary intermediate representations. Binary Intermediate representations possess two interesting properties: they are cross architecture by their very nature and encode the semantics of a function explicitly to support downstream usage. Within this paper we propose Function as a String Encoded Representation (FASER) which combines long document transformers with the use of intermediate representations to create a model capable of cross architecture function search without the need for manual feature engineering, pre-training or a dynamic analysis step. We compare our approach against a series of baseline approaches for two tasks; A general function search task and a targeted vulnerability search task. Our approach demonstrates strong performance across both tasks, performing better than all baseline approaches.
翻訳日:2023-12-01 00:40:03 公開日:2023-11-29
# 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠

Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models ( http://arxiv.org/abs/2310.01929v2 )

ライセンス: Link先を確認
Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart(参考訳) DALL-E や StableDiffusion のようなテキスト・ツー・イメージ(TTI)モデルは、顕著なプロンプトベースの画像生成能力を示している。 多言語エンコーダは、言語が文化の導管であるため、これらのモデルの文化機関に大きな影響を与える可能性がある。 本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。 このオントロジーに基づいて,TTIモデルにおける文化的知識を解き放つためのテンプレートを導き,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価などの総合的評価手法を提案し,TTI生成画像の文化的内容を評価する。 そこで本研究では、4つの異なるttiモデルから派生し、10言語にまたがるcultext2iデータセットを紹介する。 実験は, ttiモデルにおける文化エンコーディングの性質について, do, what, how, and research questions on the nature of cultural encoding in tti model, paving to cross-cultural applications of these model に関する知見を提供する。

Text-To-Image (TTI) models, such as DALL-E and StableDiffusion, have demonstrated remarkable prompt-based image generation capabilities. Multilingual encoders may have a substantial impact on the cultural agency of these models, as language is a conduit of culture. In this study, we explore the cultural perception embedded in TTI models by characterizing culture across three hierarchical tiers: cultural dimensions, cultural domains, and cultural concepts. Based on this ontology, we derive prompt templates to unlock the cultural knowledge in TTI models, and propose a comprehensive suite of evaluation techniques, including intrinsic evaluations using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA) model and human assessments, to evaluate the cultural content of TTI-generated images. To bolster our research, we introduce the CulText2I dataset, derived from four diverse TTI models and spanning ten languages. Our experiments provide insights regarding Do, What, Which and How research questions about the nature of cultural encoding in TTI models, paving the way for cross-cultural applications of these models.
翻訳日:2023-12-01 00:39:38 公開日:2023-11-29
# cpu上の拡散モデルの有効量子化

Effective Quantization for Diffusion Models on CPUs ( http://arxiv.org/abs/2311.16133v2 )

ライセンス: Link先を確認
Hanwen Chang, Haihao Shen, Yiyang Cai, Xinyu Ye, Zhenzhong Xu, Wenhua Cheng, Kaokao Lv, Weiwei Zhang, Yintong Lu, Heng Guo(参考訳) 拡散モデルはテキスト記述から画像を生成することで人気を集めている。 それでも、計算資源のかなりの必要性は注目すべき課題を示し続け、時間を要するプロセスに貢献している。 効率を高めるためにディープラーニングモデルを圧縮するテクニックである量子化は、拡散モデルに適用する際の課題を提示している。 これらのモデルは他のモデルに比べて量子化に敏感であり、画像の品質が低下する可能性がある。 本稿では,量子化アウェアトレーニングと蒸留を併用し,拡散モデルを量子化する新しい手法を提案する。 その結果,量子化モデルはcpuの推論効率を実証しながら高画質を維持できることがわかった。 コードはhttps://github.com/intel/intel-extension-for-transformers.com/で公開されている。

Diffusion models have gained popularity for generating images from textual descriptions. Nonetheless, the substantial need for computational resources continues to present a noteworthy challenge, contributing to time-consuming processes. Quantization, a technique employed to compress deep learning models for enhanced efficiency, presents challenges when applied to diffusion models. These models are notably more sensitive to quantization compared to other model types, potentially resulting in a degradation of image quality. In this paper, we introduce a novel approach to quantize the diffusion models by leveraging both quantization-aware training and distillation. Our results show the quantized models can maintain the high image quality while demonstrating the inference efficiency on CPUs. The code is publicly available at: https://github.com/intel/intel-extension-for-transformers.
翻訳日:2023-12-01 00:31:51 公開日:2023-11-29
# soulstyler: 大きな言語モデルを使用してターゲットオブジェクトのイメージスタイル転送をガイドする

Soulstyler: Using Large Language Model to Guide Image Style Transfer for Target Object ( http://arxiv.org/abs/2311.13562v2 )

ライセンス: Link先を確認
Junhao Chen, Peng Rong, Jingbo Sun, Chao Li, Xiang Li, Hongwu Lv(参考訳) 画像スタイルの転送はコンピュータグラフィックスとコンピュータビジョンの両方において重要な位置を占める。 しかし、現在の方法の多くは、特定のオブジェクトを個別にスタイリッシュすることができない、スタイリッシュな画像を参照する必要がある。 この制限を克服するために、ユーザーは簡単なテキスト記述を通じて画像内の特定のオブジェクトのスタイル化をガイドできる「Soulstyler」フレームワークを提案する。 テキストを解析し,スタイライゼーション目標と特定のスタイルを識別するための大規模言語モデルを提案する。 CLIPベースのセマンティックな視覚埋め込みエンコーダと組み合わせることで、モデルはテキストと画像の内容を理解し、マッチングする。 また、ターゲット以外の領域が元のスタイルのままであるのに対して、特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する、新しいローカライズされたテキストイメージブロックマッチング損失を導入する。 実験の結果,背景領域のスタイルに影響を与えることなく,テキスト記述による対象オブジェクトのスタイル転送を精度良く行うことができた。 私たちのコードはhttps://github.com/yisuanwang/soulstylerで利用可能です。

Image style transfer occupies an important place in both computer graphics and computer vision. However, most current methods require reference to stylized images and cannot individually stylize specific objects. To overcome this limitation, we propose the "Soulstyler" framework, which allows users to guide the stylization of specific objects in an image through simple textual descriptions. We introduce a large language model to parse the text and identify stylization goals and specific styles. Combined with a CLIP-based semantic visual embedding encoder, the model understands and matches text and image content. We also introduce a novel localized text-image block matching loss that ensures that style transfer is performed only on specified target objects, while non-target regions remain in their original style. Experimental results demonstrate that our model is able to accurately perform style transfer on target objects according to textual descriptions without affecting the style of background regions. Our code will be available at https://github.com/yisuanwang/Soulstyler.
翻訳日:2023-12-01 00:31:09 公開日:2023-11-29
# データ入力形式の完全性要件の学習に基づく緩和

Learning-Based Relaxation of Completeness Requirements for Data Entry Forms ( http://arxiv.org/abs/2311.13517v2 )

ライセンス: Link先を確認
Hichem Belgacem, Xiaochen Li, Domenico Bianculli, Lionel C. Briand(参考訳) データ入力フォームは、異なるタイプのユーザから必要な情報を集めるのに必要なフィールドやオプションを指定するために完全性要件を使用する。 しかし、いくつかの必要なフィールドは、特定の種類のユーザーに適用できないかもしれない。 それでも、これらのフィールドは、そのフォームで要求されるように誤ってマークされる可能性がある。 廃止予定のフィールドは通常、フォームを提出する前にnullの検証チェックを行わないので、フォームの提出を完了するには、ユーザーはそのようなフィールドに意味のない値を入力する必要がある。 これらの意味のない値は、満たしたデータの品質を脅かす。 ユーザが意味のない値を満たすのを避けるため、既存のテクニックは通常、不要なフィールドを特定し、完全性要件を緩和するために手書きのルールに依存している。 しかし、これらの技術は効果がなく費用もかかる。 本稿では,データ入力フォームの完全性要件を緩和する学習ベースの自動アプローチであるLACQUERを提案する。 LACQUERはベイジアンネットワークモデルを構築し、ユーザーが無意味な値を満たさなければならない条件を自動的に学習する。 学習能力を向上させるために、LACQUERは、必要なフィールドが少数のユーザグループにのみ適用される場合を特定し、オーバーサンプリング技術であるSMOTEを使用して、そのようなフィールド上のより多くのインスタンスを生成し、それらへの依存性を効果的にマイニングする。 実験の結果, LACQUERは, 異なるデータセット上で0.76から0.90の精度で, 必要なフィールドの完全性要件を正確に緩和できることがわかった。 LACQUERは、ユーザが無意味な値の20%から64%を、0.72から0.91の負の予測値で埋めることを防ぐことができる。 さらに、LACQUERは効率が良く、インスタンスの完全性要件を予測するのに少なくとも839ミリ秒かかる。

Data entry forms use completeness requirements to specify the fields that are required or optional to fill for collecting necessary information from different types of users. However, some required fields may not be applicable for certain types of users anymore. Nevertheless, they may still be incorrectly marked as required in the form; we call such fields obsolete required fields. Since obsolete required fields usually have not-null validation checks before submitting the form, users have to enter meaningless values in such fields in order to complete the form submission. These meaningless values threaten the quality of the filled data. To avoid users filling meaningless values, existing techniques usually rely on manually written rules to identify the obsolete required fields and relax their completeness requirements. However, these techniques are ineffective and costly. In this paper, we propose LACQUER, a learning-based automated approach for relaxing the completeness requirements of data entry forms. LACQUER builds Bayesian Network models to automatically learn conditions under which users had to fill meaningless values. To improve its learning ability, LACQUER identifies the cases where a required field is only applicable for a small group of users, and uses SMOTE, an oversampling technique, to generate more instances on such fields for effectively mining dependencies on them. Our experimental results show that LACQUER can accurately relax the completeness requirements of required fields in data entry forms with precision values ranging between 0.76 and 0.90 on different datasets. LACQUER can prevent users from filling 20% to 64% of meaningless values, with negative predictive values between 0.72 and 0.91. Furthermore, LACQUER is efficient; it takes at most 839 ms to predict the completeness requirement of an instance.
翻訳日:2023-12-01 00:30:51 公開日:2023-11-29
# SelfOcc: 自己監督型ビジョンベースの3D作業予測

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction ( http://arxiv.org/abs/2311.12754v2 )

ライセンス: Link先を確認
Yuanhui Huang, Wenzhao Zheng, Borui Zhang, Jie Zhou, Jiwen Lu(参考訳) 3D占有予測は、周囲の3D空間に各点が占有されているかどうかを予測することを目的とした、視覚中心の自律運転の堅牢性にとって重要な課題である。 既存の方法は通常、有意義な結果を得るために3dの占有ラベルを必要とする。 しかし、それぞれのボクセルの占有状況に注釈をつけるのは非常に困難である。 本稿では,ビデオシーケンスのみを用いて3Dの占有度を学習する自己教師型手法を提案する。 まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。 符号付き距離場として扱うことにより,3次元表現に直接制約を課す。 そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。 複数の深度の提案により,SDFによる重み付けを直接最適化するMSV組込み方式を提案する。 我々のSelfOccは、SemanticKITTIの入力として単一のフレームを使用してSceneRFを58.7%向上させ、nuScenes上のカメラを囲むための合理的な3D占有を制作する最初の自己監督作業である。 SelfOccは高品質な深度を生成し、新しい深度合成、単分子深度推定、SemanticKITTI、KITTI-2015、nuScenesのサラウンドビュー深度推定の最先端結果を達成する。 コード: https://github.com/huang-yh/selfocc。

3D occupancy prediction is an important task for the robustness of vision-centric autonomous driving, which aims to predict whether each point is occupied in the surrounding 3D space. Existing methods usually require 3D occupancy labels to produce meaningful results. However, it is very laborious to annotate the occupancy status of each voxel. In this paper, we propose SelfOcc to explore a self-supervised way to learn 3D occupancy using only video sequences. We first transform the images into the 3D space (e.g., bird's eye view) to obtain 3D representation of the scene. We directly impose constraints on the 3D representations by treating them as signed distance fields. We can then render 2D images of previous and future frames as self-supervision signals to learn the 3D representations. We propose an MVS-embedded strategy to directly optimize the SDF-induced weights with multiple depth proposals. Our SelfOcc outperforms the previous best method SceneRF by 58.7% using a single frame as input on SemanticKITTI and is the first self-supervised work that produces reasonable 3D occupancy for surround cameras on nuScenes. SelfOcc produces high-quality depth and achieves state-of-the-art results on novel depth synthesis, monocular depth estimation, and surround-view depth estimation on the SemanticKITTI, KITTI-2015, and nuScenes, respectively. Code: https://github.com/huang-yh/SelfOcc.
翻訳日:2023-12-01 00:30:23 公開日:2023-11-29
# 優れた特徴抽出器は組織病理学における弱い教師付き学習に必要な全てである

A Good Feature Extractor Is All You Need for Weakly Supervised Learning in Histopathology ( http://arxiv.org/abs/2311.11772v3 )

ライセンス: Link先を確認
Georg W\"olflein, Dyke Ferber, Asier Rabasco Meneghetti, Omar S. M. El Nahhas, Daniel Truhn, Zunamys I. Carrero, David J. Harrison, Ognjen Arandjelovi\'c, Jakob N. Kather(参考訳) 深層学習は病理学に革命をもたらしており、病気の予後とパーソナライズされた治療の新しい機会を提供している。 歴史的に、染色正規化は計算病理学パイプラインにおいて重要な前処理ステップであり、深層学習の時代まで続く。 しかし,多種多様な病理データを用いた自己教師付き学習(ssl)を用いた特徴抽出器の出現により,本手法に疑問を呈する。 一般に公開されている特徴抽出器の実証評価において,ステンレス正規化や画像強調は下流の性能を損なうことなく,メモリや計算にかなりの節約をもたらすことがわかった。 さらに, トップパフォーミング特徴抽出器は, 潜在空間における回転などの汚れや増強の変動に対して著しく頑健であることを示した。 従来のパッチレベルのベンチマーク研究とは対照的に,外部検証コホートを用いた弱教師付き環境でのスライドレベルの予測タスクに着目し,臨床関連性を重視した。 この作業は、9つのタスク、5つのデータセット、3つのダウンストリームアーキテクチャ、さまざまな前処理セットアップにわたる6000以上のトレーニングの実行を含む、SSL機能抽出器の最も包括的な堅牢性評価を表している。 本研究は,前処理ニーズを最小化し,特徴抽出器の選択を知らせることで,デジタル病理ワークフローを合理化する。

Deep learning is revolutionising pathology, offering novel opportunities in disease prognosis and personalised treatment. Historically, stain normalisation has been a crucial preprocessing step in computational pathology pipelines, and persists into the deep learning era. Yet, with the emergence of feature extractors trained using self-supervised learning (SSL) on diverse pathology datasets, we call this practice into question. In an empirical evaluation of publicly available feature extractors, we find that omitting stain normalisation and image augmentations does not compromise downstream performance, while incurring substantial savings in memory and compute. Further, we show that the top-performing feature extractors are remarkably robust to variations in stain and augmentations like rotation in their latent space. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level prediction tasks in a weakly supervised setting with external validation cohorts. This work represents the most comprehensive robustness evaluation of public pathology SSL feature extractors to date, involving more than 6,000 training runs across nine tasks, five datasets, three downstream architectures, and various preprocessing setups. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors.
翻訳日:2023-12-01 00:29:53 公開日:2023-11-29
# BOIS: 相互接続システムのベイズ最適化

BOIS: Bayesian Optimization of Interconnected Systems ( http://arxiv.org/abs/2311.11254v3 )

ライセンス: Link先を確認
Leonardo D. Gonz\'alez and Victor M. Zavala(参考訳) ベイズ最適化(BO)は、高価なサンプルシステムのグローバル最適化に有効なパラダイムであることが証明されている。 boの主な利点の1つは、学習と探索のプロセスを導くのに利用できるモデルの不確かさを特徴付けるために、ガウス過程(gps)を使用することである。 しかし、BOは通常システムをブラックボックスとして扱うため、構造的知識(物理学や疎結合など)を利用する能力は制限される。 複合関数は$f(x, y(x))$であり、gp モデリングはパフォーマンス関数 $f$ から中間関数 $y$ にシフトされ、構造知識を利用するための道筋を提供する。 しかし、BOフレームワークにおける合成関数の使用は、GPによって計算されるガウス密度$y$から$f$の確率密度を生成する必要性により複雑である(例えば、$f$が非線形であれば、閉形式式を得ることはできない)。 従来の作業ではサンプリング技術を使ってこの問題に対処しており、実装が容易で柔軟性があるが、計算集約性が高い。 本稿では,boにおける複合関数の効率的な利用を可能にする新しいパラダイムを提案する。このパラダイムでは,複合関数の統計モーメントに対する閉形式式を得るのに$f$の適応線形化を用いる。 この単純なアプローチ(boisと呼ぶ)により、相互接続されたシステムや複数のgpモデルを埋め込んだシステム、物理モデルとgpモデルの組み合わせなど、構造的知識の活用が可能になる。 化学プロセス最適化ケーススタディを用いて,BOISの標準BOとサンプリングアプローチの有効性をベンチマークした。 その結果,boisは性能向上を達成し,複合関数の統計を正確に捉えることができた。

Bayesian optimization (BO) has proven to be an effective paradigm for the global optimization of expensive-to-sample systems. One of the main advantages of BO is its use of Gaussian processes (GPs) to characterize model uncertainty which can be leveraged to guide the learning and search process. However, BO typically treats systems as black-boxes and this limits the ability to exploit structural knowledge (e.g., physics and sparse interconnections). Composite functions of the form $f(x, y(x))$, wherein GP modeling is shifted from the performance function $f$ to an intermediate function $y$, offer an avenue for exploiting structural knowledge. However, the use of composite functions in a BO framework is complicated by the need to generate a probability density for $f$ from the Gaussian density of $y$ calculated by the GP (e.g., when $f$ is nonlinear it is not possible to obtain a closed-form expression). Previous work has handled this issue using sampling techniques; these are easy to implement and flexible but are computationally intensive. In this work, we introduce a new paradigm which allows for the efficient use of composite functions in BO; this uses adaptive linearizations of $f$ to obtain closed-form expressions for the statistical moments of the composite function. We show that this simple approach (which we call BOIS) enables the exploitation of structural knowledge, such as that arising in interconnected systems as well as systems that embed multiple GP models and combinations of physics and GP models. Using a chemical process optimization case study, we benchmark the effectiveness of BOIS against standard BO and sampling approaches. Our results indicate that BOIS achieves performance gains and accurately captures the statistics of composite functions.
翻訳日:2023-12-01 00:29:32 公開日:2023-11-29
# 注意を再考する - トランスフォーマーの注意層に代わる、浅層フィードフォワードニューラルネットワークの探索

Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers ( http://arxiv.org/abs/2311.10642v3 )

ライセンス: Link先を確認
Vukasin Bozic, Danilo Dordevic, Daniele Coppola, Joseph Thommes, Sidak Pal Singh(参考訳) 本研究は,sequence-to-sequenceタスクのための最先端アーキテクチャであるオリジナルのtransformerモデルにおいて,アテンション機構の挙動を模倣するために,標準的な浅層フィードフォワードネットワークを用いた場合の有効性の分析を行う。 トランスの注意機構のキー要素を単純なフィードフォワードネットワークに置き換え, 知識蒸留により元の成分を用いて学習する。 IWSLT2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー”の能力が,元のアーキテクチャのパフォーマンスに匹敵することを示した。 厳密なアブレーション研究と、様々な代替ネットワークタイプとサイズの実験を通じて、我々のアプローチの生存可能性を支える洞察を提供する。 これは、アテンション機構をエミュレートする上での浅いフィードフォワードネットワークの適応性に光を当てるだけでなく、シーケンスからシーケンスへのタスクの複雑なアーキテクチャを合理化する可能性にも光を当てている。

This work presents an analysis of the effectiveness of using standard shallow feed-forward networks to mimic the behavior of the attention mechanism in the original Transformer model, a state-of-the-art architecture for sequence-to-sequence tasks. We substitute key elements of the attention mechanism in the Transformer with simple feed-forward networks, trained using the original components via knowledge distillation. Our experiments, conducted on the IWSLT2017 dataset, reveal the capacity of these "attentionless Transformers" to rival the performance of the original architecture. Through rigorous ablation studies, and experimenting with various replacement network types and sizes, we offer insights that support the viability of our approach. This not only sheds light on the adaptability of shallow feed-forward networks in emulating attention mechanisms but also underscores their potential to streamline complex architectures for sequence-to-sequence tasks.
翻訳日:2023-12-01 00:28:12 公開日:2023-11-29
# 2次元ロータリー埋め込みを用いたクロス軸変圧器

Cross-Axis Transformer with 2D Rotary Embeddings ( http://arxiv.org/abs/2311.07184v2 )

ライセンス: Link先を確認
Lily Erickson(参考訳) 多くの点で従兄弟の遅れにもかかわらず、視覚トランスフォーマーはシーケンスモデリングと画像モデリングの間のギャップを埋める興味深い機会を提供している。 しかし、これまで視覚トランスフォーマーは、計算能力の非効率と空間次元の適切な取り扱いの欠如により、ほとんどが後退していた。 本稿では,Cross-Axis Transformerを紹介する。 CATは、Axial TransformersとMicrosoftのRetentive Networkの両方にインスパイアされたモデルで、画像を処理するのに必要な浮動小数点演算数を劇的に削減し、同時にVision Transformersよりも高速で正確に収束する。

Despite lagging behind their modal cousins in many respects, Vision Transformers have provided an interesting opportunity to bridge the gap between sequence modeling and image modeling. Up until now however, vision transformers have largely been held back, due to both computational inefficiency, and lack of proper handling of spatial dimensions. In this paper, we introduce the Cross-Axis Transformer. CAT is a model inspired by both Axial Transformers, and Microsoft's recent Retentive Network, that drastically reduces the required number of floating point operations required to process an image, while simultaneously converging faster and more accurately than the Vision Transformers it replaces.
翻訳日:2023-12-01 00:27:53 公開日:2023-11-29
# 合成データセットを用いた連続ビデオ間転送

Consistent Video-to-Video Transfer Using Synthetic Dataset ( http://arxiv.org/abs/2311.00213v2 )

ライセンス: Link先を確認
Jiaxin Cheng, Tianjun Xiao and Tong He(参考訳) 本稿では,テキストベースの動画編集において,資源集約型の動画単位の微調整を不要とする,新しい効率的な手法を提案する。 私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。 pix2pixの編集命令による画像転送の指示に触発されて,このパラダイムをビデオ領域に適用した。 Prompt-to-Promptをビデオに拡張することで、ペア化されたサンプルを効率よく生成します。 これと並行して,サンプリング中のロングビデオサンプリング補正を導入し,バッチ間で一貫したロングビデオを実現する。 提案手法はTune-A-Videoのような既存の手法を超越し,テキストベースの動画編集の大幅な進歩と,さらなる探索と展開のためのエキサイティングな道のりを示唆する。

We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix's image transfer via editing instruction, we adapt this paradigm to the video domain. Extending the Prompt-to-Prompt to videos, we efficiently generate paired samples, each with an input video and its edited counterpart. Alongside this, we introduce the Long Video Sampling Correction during sampling, ensuring consistent long videos across batches. Our method surpasses current methods like Tune-A-Video, heralding substantial progress in text-based video-to-video editing and suggesting exciting avenues for further exploration and deployment.
翻訳日:2023-12-01 00:27:39 公開日:2023-11-29
# gc-mvsnet:マルチビュー、マルチスケール、幾何学的一貫性のあるマルチビューステレオ

GC-MVSNet: Multi-View, Multi-Scale, Geometrically-Consistent Multi-View Stereo ( http://arxiv.org/abs/2310.19583v2 )

ライセンス: Link先を確認
Vibhas K. Vats, Sripad Joshi, David J. Crandall, Md. Alimoor Reza, Soon-heung Jung(参考訳) 従来のマルチビューステレオ(MVS)手法は、測光的および幾何的整合性制約に大きく依存するが、より新しい機械学習ベースのMVS法は、後処理ステップとしてのみ複数のソースビューにまたがる幾何的整合性をチェックする。 本稿では,学習中に異なるスケールで複数のソースビューにまたがる参照ビュー深度マップの幾何学的一貫性を明示的に奨励する新しいアプローチを提案する(図1参照)。 この幾何整合性損失を加えることで、幾何的不整合画素を明示的にペナル化することで学習を著しく加速し、訓練の繰り返し要求を他のMVS手法のほぼ半分に削減する。 広範な実験により,dtu と blendedmvs データセットにおける新たな最先端技術と,タンク・テンプルベンチマークの競合結果が得られた。 我々の知る限り、GC-MVSNetは学習中にマルチビュー、マルチスケールの幾何的一貫性を強制する最初の試みである。

Traditional multi-view stereo (MVS) methods rely heavily on photometric and geometric consistency constraints, but newer machine learning-based MVS methods check geometric consistency across multiple source views only as a post-processing step. In this paper, we present a novel approach that explicitly encourages geometric consistency of reference view depth maps across multiple source views at different scales during learning (see Fig. 1). We find that adding this geometric consistency loss significantly accelerates learning by explicitly penalizing geometrically inconsistent pixels, reducing the training iteration requirements to nearly half that of other MVS methods. Our extensive experiments show that our approach achieves a new state-of-the-art on the DTU and BlendedMVS datasets, and competitive results on the Tanks and Temples benchmark. To the best of our knowledge, GC-MVSNet is the first attempt to enforce multi-view, multi-scale geometric consistency during learning.
翻訳日:2023-12-01 00:27:23 公開日:2023-11-29
# 言語モデル: 複雑化のためのガイド

Language Models: A Guide for the Perplexed ( http://arxiv.org/abs/2311.17301v1 )

ライセンス: Link先を確認
Sofia Serrano, Zander Brumbaugh, Noah A. Smith(参考訳) aiリテラシーの重要性が増していることを踏まえて、私たちはこのチュートリアルを書くことにしました。言語モデル(chatgptと類似製品の中核技術)を研究する人たちと、興味を持ち、それらについてもっと学びたがっている人たちとのギャップを狭めるためにです。 要するに、研究者や教育者の視点は、現在利用可能なもの以上の技術に対する一般大衆の理解に、ある程度の明確さを与えることができる、と私たちは信じている。 我々のアプローチは、言語モデルの概念を、それらの製品上に構築された製品から、それらの製品から引き起こされた行動、そして人間の認知と類似性に関する主張から切り離している。 出発点として,(1)実験を通して学ぶことができる質問に焦点をあてる科学的視点,(2)その発展に繋がる研究の文脈で現在ある言語モデルを定式化すること,(3)本論文におけるモデルについて知られていることの境界を記述する。

Given the growing importance of AI literacy, we decided to write this tutorial to help narrow the gap between the discourse among those who study language models -- the core technology underlying ChatGPT and similar products -- and those who are intrigued and want to learn more about them. In short, we believe the perspective of researchers and educators can add some clarity to the public's understanding of the technologies beyond what's currently available, which tends to be either extremely technical or promotional material generated about products by their purveyors. Our approach teases apart the concept of a language model from products built on them, from the behaviors attributed to or desired from those products, and from claims about similarity to human cognition. As a starting point, we (1) offer a scientific viewpoint that focuses on questions amenable to study through experimentation; (2) situate language models as they are today in the context of the research that led to their development; and (3) describe the boundaries of what is known about the models at this writing.
翻訳日:2023-11-30 23:06:07 公開日:2023-11-29
# 確率的マスキングによる基礎モデルのファインチューニング

Federated Fine-Tuning of Foundation Models via Probabilistic Masking ( http://arxiv.org/abs/2311.17299v1 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Yuki Asano, Aaqib Saeed(参考訳) ファンデーションモデル(FM)は、タスク間の適応性と高いパフォーマンスで機械学習に革命をもたらしたが、フェデレートラーニング(FL)への統合は、広範なパラメータ化による通信オーバーヘッドが大きいため、困難である。 現在の通信効率の高いfl戦略(勾配圧縮など)は、ビットレートをパラメータあたり約1ドル(bpp)に削減する。 しかし、これらのアプローチはfmsの特性を活用できず、その多数のパラメータは、これらのビットレート環境においても通信効率に挑戦している。 本研究では,FLのFMを1bpp以下の超低ビットレートで効率よく微調整する新しい手法であるDeltaMaskを提案する。 DeltaMaskは、FM内の高効率サブネットを検出するために確率マスクを採用し、クライアントマスクの確率性や空間性を利用して、確率的フィルタを用いて、更新をコンパクトなグレースケールの画像に圧縮する。 様々なデータセットとアーキテクチャの総合的な評価は、DeltaMaskが0.09bppのビットレートを効率的に達成し、FMの性能を維持しながら通信効率を向上させることを実証している。

Foundation Models (FMs) have revolutionized machine learning with their adaptability and high performance across tasks; yet, their integration into Federated Learning (FL) is challenging due to substantial communication overhead from their extensive parameterization. Current communication-efficient FL strategies, such as gradient compression, reduce bitrates to around $1$ bit-per-parameter (bpp). However, these approaches fail to harness the characteristics of FMs, with their large number of parameters still posing a challenge to communication efficiency, even at these bitrate regimes. In this work, we present DeltaMask, a novel method that efficiently fine-tunes FMs in FL at an ultra-low bitrate, well below 1 bpp. DeltaMask employs stochastic masking to detect highly effective subnetworks within FMs and leverage stochasticity and sparsity in client masks to compress updates into a compact grayscale image using probabilistic filters, deviating from traditional weight training approaches. Our comprehensive evaluations across various datasets and architectures demonstrate DeltaMask efficiently achieves bitrates as low as 0.09 bpp, enhancing communication efficiency while maintaining FMs performance, as measured on 8 datasets and 5 pre-trained models of various network architectures.
翻訳日:2023-11-30 23:05:44 公開日:2023-11-29
# ランダム組合せ探索による量子回路合成

Quantum circuit synthesis via random combinatorial search ( http://arxiv.org/abs/2311.17298v1 )

ライセンス: Link先を確認
Sahel Ashhab, Fumiki Yoshihara, Miwako Tsuji, Mitsuhisa Sato, Kouichi Semba(参考訳) ランダム探索法を用いて、完全量子状態生成または任意の対象を持つユニタリ作用素合成を実装する量子ゲート列を求める。 このアプローチは、単位忠実性を達成するのに必要な単一量子ビットゲートと2量子ビットゲートの最小数であっても、所望の目標演算を行う際の単位忠実性を達成する量子回路が多数存在するという最近の発見に基づいている。 完全忠実度量子回路の分数は、回路サイズが単位忠実度を達成するために必要な最小回路サイズを超えると急速に増加することを示す。 CNOTゲートが基本2キュービットゲートである場合の解析に加えて、2キュービットゲートがBゲートである場合を分析し、最小の量子回路サイズを小さくすることができる。 4量子ビットの toffoli ゲートを分解する問題に対してランダム探索法を適用し,15個の cnot-gate 分解を求める。

We use a random search technique to find quantum gate sequences that implement perfect quantum state preparation or unitary operator synthesis with arbitrary targets. This approach is based on the recent discovery that there is a large multiplicity of quantum circuits that achieve unit fidelity in performing the desired target operation, even at the minimum number of single-qubit and two-qubit gates needed to achieve unit fidelity. We show that the fraction of perfect-fidelity quantum circuits increases rapidly as soon as the circuit size exceeds the minimum circuit size required for achieving unit fidelity. In addition to analyzing the case where the CNOT gate is the elementary two-qubit gate, we analyze the case where the two-qubit gate is the B gate, which can reduce the minimum quantum circuit size. We apply the random search method to the problem of decomposing the 4-qubit Toffoli gate and find a 15 CNOT-gate decomposition.
翻訳日:2023-11-30 23:05:20 公開日:2023-11-29
# Elo:言語モデル評価におけるロバストさとベストプラクティス

Elo Uncovered: Robustness and Best Practices in Language Model Evaluation ( http://arxiv.org/abs/2311.17295v1 )

ライセンス: Link先を確認
Meriem Boubdir, Edward Kim, Beyza Ermis, Sara Hooker, Marzieh Fadaee(参考訳) 自然言語処理(nlp)では、もともとチェスのような動的ゲームのプレイヤーをランク付けするために設計されたelo rating systemが、"a vs b"のペア比較を通じて大規模言語モデル(llm)を評価するためにますます使われている。 しかしながら、LLMのような一定のスキルレベルを持つエンティティを評価するためのシステムの適合性は、まだ明らかにされていない。 評価手法が従うべき2つの基本的な公理について,信頼性と推移性について検討した。 我々はEloの挙動を広範囲に評価し、個々のElo計算がボラティリティを示し、Elo評価システムのハイパーパラメータの変化の影響について検討する。 これらの公理は、LLMの現在の比較評価の信頼性に関する疑問を提起しているとは限らない。 Eloスコアの現在の使用が、LLMの費用対頭比較に代えて意図されている場合、可能な限り堅牢であることを保証することが不可欠である。 本研究は, LLM評価手法の信頼性を高めるための具体的なガイドラインを提供し, 既存の比較手法の再評価の必要性を示唆している。

In Natural Language Processing (NLP), the Elo rating system, originally designed for ranking players in dynamic games such as chess, is increasingly being used to evaluate Large Language Models (LLMs) through "A vs B" paired comparisons. However, while popular, the system's suitability for assessing entities with constant skill levels, such as LLMs, remains relatively unexplored. We study two fundamental axioms that evaluation methods should adhere to: reliability and transitivity. We conduct extensive evaluation of Elo behaviour, illustrating that individual Elo computations exhibit volatility and delving into the impact of varying the Elo rating system's hyperparameters. We show that these axioms are not always satisfied raising questions about the reliability of current comparative evaluations of LLMs. If the current use of Elo scores is intended to substitute the costly head-to-head comparison of LLMs, it is crucial to ensure the ranking is as robust as possible. Guided by the axioms, our findings offer concrete guidelines for enhancing the reliability of LLM evaluation methods, suggesting a need for reassessment of existing comparative approaches.
翻訳日:2023-11-30 23:05:03 公開日:2023-11-29
# モデル残差を利用して利子のレンタル資産を同定する:価格異常スコア(pas)とそのマンハッタンのリアルタイムデータへの応用

Utilizing Model Residuals to Identify Rental Properties of Interest: The Price Anomaly Score (PAS) and Its Application to Real-time Data in Manhattan ( http://arxiv.org/abs/2311.17287v1 )

ライセンス: Link先を確認
Youssef Sultan, Jackson C. Rafter, Huyen T. Nguyen(参考訳) 不動産価格がかなり高いかどうかを理解すると、買い手や売り手が興味のある市場全体の価格分布の客観的な視点を持っていないのが普通である。 2023年9月現在、マンハッタンで利用可能なすべての不動産のデータを収集し、モデル残高の理解を強化することを目的としている。 ほとんどのモデルでは予測値からの偏差を単なる不正確なものとして認識しているが,本論文では,データ集合の少なくとも75%に一般化した場合,残りの偏差が有意な洞察力を示した。 これらの知見を活用するために、不規則に予測される価格の境界を把握できる指標であるPrice Anomaly Score(PAS)を導入する。 相対的な価格差と統計的重要性を組み合わせることで、Price Anomaly Score (PAS)は賃貸価格の多面的な見方を提供する。 この測定基準により、専門家はPAS値を集約し、選択の指標を設定するために任意のしきい値に上と下の境界を微調整することで、データセット内の過大な価格または過小な特性を識別することができる。

Understanding whether a property is priced fairly hinders buyers and sellers since they usually do not have an objective viewpoint of the price distribution for the overall market of their interest. Drawing from data collected of all possible available properties for rent in Manhattan as of September 2023, this paper aims to strengthen our understanding of model residuals; specifically on machine learning models which generalize for a majority of the distribution of a well-proportioned dataset. Most models generally perceive deviations from predicted values as mere inaccuracies, however this paper proposes a different vantage point: when generalizing to at least 75\% of the data-set, the remaining deviations reveal significant insights. To harness these insights, we introduce the Price Anomaly Score (PAS), a metric capable of capturing boundaries between irregularly predicted prices. By combining relative pricing discrepancies with statistical significance, the Price Anomaly Score (PAS) offers a multifaceted view of rental valuations. This metric allows experts to identify overpriced or underpriced properties within a dataset by aggregating PAS values, then fine-tuning upper and lower boundaries to any threshold to set indicators of choice.
翻訳日:2023-11-30 23:04:42 公開日:2023-11-29
# LEOD:イベントカメラのためのラベル効率の良いオブジェクト検出

LEOD: Label-Efficient Object Detection for Event Cameras ( http://arxiv.org/abs/2311.17286v1 )

ライセンス: Link先を確認
Ziyi Wu, Mathias Gehrig, Qing Lyu, Xudong Liu, Igor Gilitschenski(参考訳) イベントカメラによる物体検出は低レイテンシと高ダイナミックレンジの特性を享受し、自動運転のような安全クリティカルなシナリオに適している。 しかし、教師付きトレーニングのための時間分解能の高いイベントストリームのラベル付けはコストがかかる。 ラベル効率の高いイベントベース検出のための最初のフレームワークであるLEODでこの問題に対処する。 本手法は, 弱教師付き物体検出を自己学習機構で統一する。 まず,限定ラベルで事前学習した検出器を用いて,ラベルなし事象の疑似基底真理を生成し,その後,実ラベルと生成ラベルの両方で検出器を再訓練する。 イベントの時間的一貫性を活用することで、双方向推論を行い、擬似ラベルの品質を高めるためにトラッキングベースの後処理を適用する。 トレーニングを安定させるために,ラベルのノイズを軽減するソフトアンカー割り当て戦略を設計する。 本稿では,Gen1および1Mpxデータセット上でのラベル効率の高い事象検出タスクを評価するための新しい実験プロトコルを提案する。 LEODは、教師付きベースラインを様々なラベル比で一貫して上回る。 例えばGen1では、1%と2%のラベルでトレーニングされたRVT-Sに対して、mAPを8.6%改善し、7.8%改善している。 1Mpxでは、10%のラベルを持つRVT-Sが100%のラベルを使用して完全に監督されたラベルを超える。 LEODは、ラベル付きデータがすべて利用可能である場合でも、その有効性を維持し、新しい最先端の結果に到達する。 最後に,本手法は大規模検出器の改良にも有用であることを示す。

Object detection with event cameras enjoys the property of low latency and high dynamic range, making it suitable for safety-critical scenarios such as self-driving. However, labeling event streams with high temporal resolutions for supervised training is costly. We address this issue with LEOD, the first framework for label-efficient event-based detection. Our method unifies weakly- and semi-supervised object detection with a self-training mechanism. We first utilize a detector pre-trained on limited labels to produce pseudo ground truth on unlabeled events, and then re-train the detector with both real and generated labels. Leveraging the temporal consistency of events, we run bi-directional inference and apply tracking-based post-processing to enhance the quality of pseudo labels. To stabilize training, we further design a soft anchor assignment strategy to mitigate the noise in labels. We introduce new experimental protocols to evaluate the task of label-efficient event-based detection on Gen1 and 1Mpx datasets. LEOD consistently outperforms supervised baselines across various labeling ratios. For example, on Gen1, it improves mAP by 8.6% and 7.8% for RVT-S trained with 1% and 2% labels. On 1Mpx, RVT-S with 10% labels even surpasses its fully-supervised counterpart using 100% labels. LEOD maintains its effectiveness even when all labeled data are available, reaching new state-of-the-art results. Finally, we show that our method readily scales to improve larger detectors as well.
翻訳日:2023-11-30 23:04:20 公開日:2023-11-29
# 大規模言語モデルのための生物医学知識グラフエンハンスド・プロンプト生成

Biomedical knowledge graph-enhanced prompt generation for large language models ( http://arxiv.org/abs/2311.17330v1 )

ライセンス: Link先を確認
Karthik Soman, Peter W Rose, John H Morris, Rabia E Akbas, Brett Smith, Braian Peetoom, Catalina Villouta-Reyes, Gabriel Cerono, Yongmei Shi, Angela Rizk-Jackson, Sharat Israni, Charlotte A Nelson, Sui Huang, Sergio E Baranzini(参考訳) 大規模言語モデル(LLM)はAIの進歩を前例のない速度で加速させてきたが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。 事前トレーニングやドメイン固有の微調整のようなソリューションは、かなりの計算オーバーヘッドをもたらします。 外部知識の注入はタスク固有であり、モデルトレーニングを必要とする。 本稿では,Llama-2-13b, GPT-3.5-Turbo, GPT-4 などの LLM を用いた大規模バイオメディカル KG SPOKE を利用したタスク非依存の知識グラフに基づく検索音声生成(KG-RAG)フレームワークを提案する。 KG-RAGは、ワンホップと2ホップのプロンプト、薬物再服用クエリ、バイオメディカル真偽質問、マルチチョイス質問(MCQ)など、様々なプロンプトタイプのLSMの性能を一貫して強化した。 特に、KG-RAGは、挑戦的なMCQデータセット上でのLlama-2モデルのパフォーマンスを71%向上させ、ドメイン固有の質問に対してより少ないパラメータでオープンソースモデルを強化する能力を示す。 さらに、KG-RAGは、MCQデータを用いた文脈利用において、GPT-4よりも改良されたGPT-3.5のような独自のGPTモデルの性能を高めた。 我々のアプローチは、薬物のリポーザリングの問題にも対処でき、有意義なリポーザリングの提案を返すことができた。 まとめると、提案フレームワークは、最適化された方法で、KGとLLMの明示的知識と暗黙的知識をそれぞれ組み合わせ、統一されたフレームワークにおけるドメイン固有の問題に取り組むための汎用LLMの適応性を高める。

Large Language Models (LLMs) have been driving progress in AI at an unprecedented rate, yet still face challenges in knowledge-intensive domains like biomedicine. Solutions such as pre-training and domain-specific fine-tuning add substantial computational overhead, and the latter require domain-expertise. External knowledge infusion is task-specific and requires model training. Here, we introduce a task-agnostic Knowledge Graph-based Retrieval Augmented Generation (KG-RAG) framework by leveraging the massive biomedical KG SPOKE with LLMs such as Llama-2-13b, GPT-3.5-Turbo and GPT-4, to generate meaningful biomedical text rooted in established knowledge. KG-RAG consistently enhanced the performance of LLMs across various prompt types, including one-hop and two-hop prompts, drug repurposing queries, biomedical true/false questions, and multiple-choice questions (MCQ). Notably, KG-RAG provides a remarkable 71% boost in the performance of the Llama-2 model on the challenging MCQ dataset, demonstrating the framework's capacity to empower open-source models with fewer parameters for domain-specific questions. Furthermore, KG-RAG enhanced the performance of proprietary GPT models, such as GPT-3.5 which exhibited improvement over GPT-4 in context utilization on MCQ data. Our approach was also able to address drug repurposing questions, returning meaningful repurposing suggestions. In summary, the proposed framework combines explicit and implicit knowledge of KG and LLM, respectively, in an optimized fashion, thus enhancing the adaptability of general-purpose LLMs to tackle domain-specific questions in a unified framework.
翻訳日:2023-11-30 22:55:58 公開日:2023-11-29
# Cascade: 遅延感度エッジインテリジェンスのためのプラットフォーム

Cascade: A Platform for Delay-Sensitive Edge Intelligence ( http://arxiv.org/abs/2311.17329v1 )

ライセンス: Link先を確認
Weijia Song, Thiago Garrett, Yuting Yang, Mingzhao Liu, Edward Tremel, Lorenzo Rosa, Andrea Merlina, Roman Vitenberg, and Ken Birman(参考訳) インタラクティブなインテリジェントコンピューティングアプリケーションはますます普及し、高スループットと効率的なリソース管理を維持しながら、イベント毎のレイテンシを低減するために最適化されたAI/MLプラットフォームの必要性が生まれている。 しかし、多くのインテリジェントアプリケーションはAI/MLプラットフォーム上で動作し、高いテールレイテンシーのコストでさえ高いスループットを最適化する。 Cascadeは、このパズルを解き放つためのAI/MLホスティングプラットフォームだ。 イノベーションには、最小限のコピーでデータを動かすレガシーフレンドリーなストレージ層と、応答性を最大化するためにデータと計算をコロケーションする"高速パス"が含まれる。 評価の結果,カスケードはスループットを損なうことなく,桁違いに遅延を低減できることがわかった。

Interactive intelligent computing applications are increasingly prevalent, creating a need for AI/ML platforms optimized to reduce per-event latency while maintaining high throughput and efficient resource management. Yet many intelligent applications run on AI/ML platforms that optimize for high throughput even at the cost of high tail-latency. Cascade is a new AI/ML hosting platform intended to untangle this puzzle. Innovations include a legacy-friendly storage layer that moves data with minimal copying and a "fast path" that collocates data and computation to maximize responsiveness. Our evaluation shows that Cascade reduces latency by orders of magnitude with no loss of throughput.
翻訳日:2023-11-30 22:55:23 公開日:2023-11-29
# 永続ホモロジーを用いた自己教師付き分子表現学習の改善

Improving Self-supervised Molecular Representation Learning using Persistent Homology ( http://arxiv.org/abs/2311.17327v1 )

ライセンス: Link先を確認
Yuankai Luo, Lei Shi, Veronika Thost(参考訳) 自己教師付き学習(SSL)は、分子グラフの複雑さ、利用可能な大量の未ラベルデータ、ラベルを実験的に取得するためのかなりのコスト、従って、小さなトレーニングデータセットのみを考えると、分子表現学習に大きな可能性を持っている。 このトピックの重要性は、最近調査された様々なパラダイムやアーキテクチャに反映されている。 しかし、パフォーマンスの違いはしばしば小さく、ほとんど理解されていない。 本稿では,複数のスケールにまたがるデータのトポロジ的特徴をモデル化するための数学的ツールである永続ホモロジー(PH)に基づくSSLについて検討する。 SSLに特に適しており、データのさまざまなビュー、距離保存の観点からの安定性、ドメイン知識を柔軟に組み込む機会などを提供している。 我々は(1)PHの一般的な表現力を示すオートエンコーダを調査し、(2)既存のアプローチを補完する対照的な損失を提案する。 我々は、分子特性予測に対する我々のアプローチを厳格に評価し、埋め込み空間の改善におけるその特長を実証する:SSLの後、表現は、異なる探索タスクに対するベースラインよりも良く、はるかに予測力を提供します。

Self-supervised learning (SSL) has great potential for molecular representation learning given the complexity of molecular graphs, the large amounts of unlabelled data available, the considerable cost of obtaining labels experimentally, and the hence often only small training datasets. The importance of the topic is reflected in the variety of paradigms and architectures that have been investigated recently. Yet the differences in performance seem often minor and are barely understood to date. In this paper, we study SSL based on persistent homology (PH), a mathematical tool for modeling topological features of data that persist across multiple scales. It has several unique features which particularly suit SSL, naturally offering: different views of the data, stability in terms of distance preservation, and the opportunity to flexibly incorporate domain knowledge. We (1) investigate an autoencoder, which shows the general representational power of PH, and (2) propose a contrastive loss that complements existing approaches. We rigorously evaluate our approach for molecular property prediction and demonstrate its particular features in improving the embedding space: after SSL, the representations are better and offer considerably more predictive power than the baselines over different probing tasks; our loss increases baseline performance, sometimes largely; and we often obtain substantial improvements over very small datasets, a common scenario in practice.
翻訳日:2023-11-30 22:55:10 公開日:2023-11-29
# 最も便利なクラスタリング: 運用決定のための集約データ

Mostly Beneficial Clustering: Aggregating Data for Operational Decision Making ( http://arxiv.org/abs/2311.17326v1 )

ライセンス: Link先を確認
Chengzhang Li, Zhenkang Peng, and Ying Rong(参考訳) 市場の不安定な状況と急速な製品革新により、大規模システムの運用上の意思決定は、限られたデータで数千の問題を解決します。 データアグリゲーションは、これらの問題を個別に解決することで得られる決定を改善するために、問題間でデータを組み合わせるために提案されている。 本稿では,データ集約手法を実装する際に問題のうちクラスタ構造を活用できる,新しいクラスタベースshrunken-saa手法を提案する。 問題の数が増えるにつれて、既知のクラスタ構造を問題の中で活用することで、そのような構造を無視するデータ集約アプローチに新たなメリットが生まれることを証明します。 クラスタ構造が不明な場合には,いくつかのデータポイントを犠牲にしても,クラスタ構造を明かすことは,特に問題クラスタ間の距離が大きい場合には有益であることを示す。 提案手法は軽度条件下での一般的なコスト関数に拡張することができる。 問題数が大きくなると,クラスタ間距離において,提案手法の最適性ギャップが指数関数的に減少する。 提案手法の性能を,数値実験によるニューズベンダーシステム管理の適用を通して検討する。 クラスタベースShrunken-SAA手法の性能に及ぼす問題インスタンス間の距離測定値の影響を合成データを用いて検討する。 さらに,提案手法を実データで検証し,既存のアプローチと比較して,特に小規模データ大規模システムにおいて,クラスタベースのデータ集約の利点を強調する。

With increasingly volatile market conditions and rapid product innovations, operational decision-making for large-scale systems entails solving thousands of problems with limited data. Data aggregation is proposed to combine the data across problems to improve the decisions obtained by solving those problems individually. We propose a novel cluster-based shrunken-SAA approach that can exploit the cluster structure among problems when implementing the data aggregation approaches. We prove that, as the number of problems grows, leveraging the known cluster structure among problems yields additional benefits over the data aggregation approaches that neglect such structure. When the cluster structure is unknown, we show that unveiling the cluster structure, even at the cost of a few data points, can be beneficial, especially when the distance between clusters of problems is substantial. Our proposed approach can be extended to general cost functions under mild conditions. When the number of problems gets large, the optimality gap of our proposed approach decreases exponentially in the distance between the clusters. We explore the performance of the proposed approach through the application of managing newsvendor systems via numerical experiments. We investigate the impacts of distance metrics between problem instances on the performance of the cluster-based Shrunken-SAA approach with synthetic data. We further validate our proposed approach with real data and highlight the advantages of cluster-based data aggregation, especially in the small-data large-scale regime, compared to the existing approaches.
翻訳日:2023-11-30 22:54:46 公開日:2023-11-29
# 半教師付き医用画像セグメンテーションのための異種教育

Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.17325v1 )

ライセンス: Link先を確認
Zhen Zhao, Zicheng Wang, Longyue Wang, Yixuan Yuan, Luping Zhou(参考訳) 半教師付き医用画像セグメンテーション研究は、制限されたラベル付きデータを持つトレーニングモデルに有望であることを示している。 しかし、現在の指導学生ベースのアプローチは、確証バイアスに悩まされることがある。 この課題に対処するために,教師-学生フレームワークにおける多様な教育手法であるAD-MTを提案する。 一人の生徒モデルと2つの訓練不可能な教師モデルがあり、それは定期的に、ランダムに、別の方法で、モーメントを更新する。 AD-MTのコアはRPA (Random Periodic Alternate) Updating Module と Conflict-Combating Module (CCM) の2つの提案されたモジュールにある。 rpaは、相補的なデータバッチ、異なるデータ拡張、ランダムな切り替え期間で交互に多様な更新プロセスをスケジュールし、異なる教示の観点から多様な推論を奨励する。 CCMは、教師間の一貫性と矛盾する予測の両方からモデルを学習するよう促すために、エントロピーに基づくアンサンブル戦略を採用している。 各種半教師付き環境における2次元および3次元医用セグメンテーションベンチマークにおけるAD-MTの有効性と優位性を示す実験結果を得た。

Semi-supervised medical image segmentation studies have shown promise in training models with limited labeled data. However, current dominant teacher-student based approaches can suffer from the confirmation bias. To address this challenge, we propose AD-MT, an alternate diverse teaching approach in a teacher-student framework. It involves a single student model and two non-trainable teacher models that are momentum-updated periodically and randomly in an alternate fashion. To mitigate the confirmation bias from the diverse supervision, the core of AD-MT lies in two proposed modules: the Random Periodic Alternate (RPA) Updating Module and the Conflict-Combating Module (CCM). The RPA schedules the alternating diverse updating process with complementary data batches, distinct data augmentation, and random switching periods to encourage diverse reasoning from different teaching perspectives. The CCM employs an entropy-based ensembling strategy to encourage the model to learn from both the consistent and conflicting predictions between the teachers. Experimental results demonstrate the effectiveness and superiority of our AD-MT on the 2D and 3D medical segmentation benchmarks across various semi-supervised settings.
翻訳日:2023-11-30 22:54:26 公開日:2023-11-29
# フォトニクスによるDNNトレーニングの高速化:残数システムに基づく設計

Accelerating DNN Training With Photonics: A Residue Number System-Based Design ( http://arxiv.org/abs/2311.17323v1 )

ライセンス: Link先を確認
Cansu Demirkiran, Guowei Yang, Darius Bunandar, and Ajay Joshi(参考訳) フォトニックコンピューティングは、ディープニューラルネットワーク(dnn)において極めて効率的な行列乗算を実行するための魅力的な方法である。 この手法はDNN推論において大きな成功を収めてきたが、DNNトレーニングの高精度要求を満たすことは、高価なデータ変換器によって課される精度の制限とフォトニックハードウェアに固有のアナログノイズのために困難であることが証明されている。 本稿では、Residue Number System (RNS) を用いたフォトニックハードウェアにおける精度の課題を克服するフォトニックDNNトレーニングアクセラレータであるMirageを提案する。 rns はモジュラー算術$\unicode{x2014}$に基づく数値システムであり、複数の低精度モジュラー演算を介して高精度演算を行うことができる。 本稿では,アナログ領域でモジュラー演算を行うrnsベースのフォトニックテンソルコアのための,新しいマイクロアーキテクチャとデータフローを提案する。 RNSとフォトニクスを組み合わせることで、精度を損なうことなく高いエネルギー効率を提供し、FP32訓練に匹敵する精度で最先端のDNNを訓練することができる。 我々の研究では、シストリックアレイと比較して、Mirageは複数のDNNで平均23.8\times$高速トレーニングと32.1\times$低いEDPをイソエネルギーシナリオで達成し、同領域シナリオで同等またはより良いEDPで42.8\times$低い電力を消費している。

Photonic computing is a compelling avenue for performing highly efficient matrix multiplication, a crucial operation in Deep Neural Networks (DNNs). While this method has shown great success in DNN inference, meeting the high precision demands of DNN training proves challenging due to the precision limitations imposed by costly data converters and the analog noise inherent in photonic hardware. This paper proposes Mirage, a photonic DNN training accelerator that overcomes the precision challenges in photonic hardware using the Residue Number System (RNS). RNS is a numeral system based on modular arithmetic$\unicode{x2014}$allowing us to perform high-precision operations via multiple low-precision modular operations. In this work, we present a novel micro-architecture and dataflow for an RNS-based photonic tensor core performing modular arithmetic in the analog domain. By combining RNS and photonics, Mirage provides high energy efficiency without compromising precision and can successfully train state-of-the-art DNNs achieving accuracy comparable to FP32 training. Our study shows that on average across several DNNs when compared to systolic arrays, Mirage achieves more than $23.8\times$ faster training and $32.1\times$ lower EDP in an iso-energy scenario and consumes $42.8\times$ lower power with comparable or better EDP in an iso-area scenario.
翻訳日:2023-11-30 22:54:07 公開日:2023-11-29
# 野生での単一画像の反射除去の再検討

Revisiting Single Image Reflection Removal In the Wild ( http://arxiv.org/abs/2311.17320v1 )

ライセンス: Link先を確認
Yurui Zhu, Xueyang Fu, Peng-Tao Jiang, Hao Zhang, Qibin Sun, Jinwei Chen, Zheng-Jun Zha, Bo Li(参考訳) 本研究は、実空間における単一像反射除去(SIRR)の問題に焦点を当て、実反射対の収集パイプラインと実反射位置の知覚という2つの角度から検討する。 幅広い実世界のリフレクションシナリオに高度に適応可能な高度なリフレクションコレクションパイプラインを考案し,大規模なリフレクションペアの収集に要するコストを削減した。 この過程で我々は,RW(Reflection removal in the Wild)と呼ばれる大規模かつ高品質な反射データセットを開発した。 RRWには14,950個の高解像度の現実世界反射対があり、これは前世代より45倍大きいデータセットである。 反射位置の知覚について,反射画像に現れる多数の仮想反射物体が,対応する地対面画像に存在しないことを明らかにする。 この観測は、整列対から導かれ、最大反射フィルタ(MaxRF)を導出する。 MaxRFは2枚の画像から反射位置を正確に的確に特徴付けることができる。 これに基づいて,我々はSIRRに適したリフレクション位置対応カスケードフレームワークを設計する。 これらの革新的手法を駆使して,本ソリューションは,実世界の複数のベンチマークにおいて,現在の先行手法よりも優れた性能を実現する。 コードとデータセットが公開される。

This research focuses on the issue of single-image reflection removal (SIRR) in real-world conditions, examining it from two angles: the collection pipeline of real reflection pairs and the perception of real reflection locations. We devise an advanced reflection collection pipeline that is highly adaptable to a wide range of real-world reflection scenarios and incurs reduced costs in collecting large-scale aligned reflection pairs. In the process, we develop a large-scale, high-quality reflection dataset named Reflection Removal in the Wild (RRW). RRW contains over 14,950 high-resolution real-world reflection pairs, a dataset forty-five times larger than its predecessors. Regarding perception of reflection locations, we identify that numerous virtual reflection objects visible in reflection images are not present in the corresponding ground-truth images. This observation, drawn from the aligned pairs, leads us to conceive the Maximum Reflection Filter (MaxRF). The MaxRF could accurately and explicitly characterize reflection locations from pairs of images. Building upon this, we design a reflection location-aware cascaded framework, specifically tailored for SIRR. Powered by these innovative techniques, our solution achieves superior performance than current leading methods across multiple real-world benchmarks. Codes and datasets will be publicly available.
翻訳日:2023-11-30 22:53:38 公開日:2023-11-29
# 室内移動行動が呼吸器感染症の感染動向に及ぼす影響

Impact of Indoor Mobility Behavior on the Respiratory Infectious Diseases Transmission Trends ( http://arxiv.org/abs/2311.17318v1 )

ライセンス: Link先を確認
Ziwei Cui, Ming Cai, Zheng Zhu, Gongbo Chen, and Yao Xiao(参考訳) 呼吸器感染症の伝達動態における室内移動の重要性が認識されている。 これまでの研究は、キューや一連の振る舞いといった単一のタイプのモビリティ行動に、特定のシナリオ下で主に対処してきた。 しかし、これらの研究は様々な場面における移動行動の抽象化を無視し、これらの抽象行動が病気の伝播に与える影響を批判的に評価する。 これらの問題に対処するため,本研究では,人々の移動行動を一般的なシナリオで考慮し,空間的側面に関連する群集行動と,時間的側面に関連する停止行動の2つの主カテゴリにまとめる。 そこで本研究では,これらの移動行動が伝染病の伝播に及ぼす影響と,各時空間分布に与える影響について検討した。 まず,ポイント・オブ・興味(poi)法を導入して,群集関連空間poi因子(群集数と群集間距離)と停止関連時間的poi因子(停止数と停止時間)を定量化する。 さらに、ボロノイ図式で決定される個人空間を用いて、個々の時空間分布係数を構成する。 第2に、2つの指標(すなわち、新規感染者の日数と人の平均被曝リスク)を適用して、流行の伝播を定量化する。 これらの指標は、動く個体間の疾患の伝達を正確に予測する基礎モデルから導かれる。 第三に、変数値を決定するために200の屋内シナリオが構築され、シミュレートされる。 同時に、これらの行動要因が疾患伝達に及ぼす影響と基礎メカニズムを構造方程式モデリングと因果推論モデルを用いて検討する。

The importance of indoor human mobility in the transmission dynamics of respiratory infectious diseases has been acknowledged. Previous studies have predominantly addressed a single type of mobility behavior such as queueing and a series of behaviors under specific scenarios. However, these studies ignore the abstraction of mobility behavior in various scenes and the critical examination of how these abstracted behaviors impact disease propagation. To address these problems, this study considers people's mobility behaviors in a general scenario, abstracting them into two main categories: crowding behavior, related to the spatial aspect, and stopping behavior, related to the temporal aspect. Accordingly, this study investigates their impacts on disease spreading and the impact of individual spatio-temporal distribution resulting from these mobility behaviors on epidemic transmission. First, a point of interest (POI) method is introduced to quantify the crowding-related spatial POI factors (i.e., the number of crowdings and the distance between crowdings) and stopping-related temporal POI factors (i.e., the number of stoppings and the duration of each stopping). Besides, a personal space determined with Voronoi diagrams is used to construct the individual spatio-temporal distribution factor. Second, two indicators (i.e., the daily number of new cases and the average exposure risk of people) are applied to quantify epidemic transmission. These indicators are derived from a fundamental model which accurately predicts disease transmission between moving individuals. Third, a set of 200 indoor scenarios is constructed and simulated to help determine variable values. Concurrently, the influences and underlying mechanisms of these behavioral factors on disease transmission are examined using structural equation modeling and causal inference modeling......
翻訳日:2023-11-30 22:53:18 公開日:2023-11-29
# 物流・サプライチェーンシステムのためのデジタル双生児:文献レビュー,概念枠組み,研究可能性,実践的課題

Digital Twins for Logistics and Supply Chain Systems: Literature Review, Conceptual Framework, Research Potential, and Practical Challenges ( http://arxiv.org/abs/2311.17317v1 )

ライセンス: Link先を確認
Tho V. Le and Ruoling Fan(参考訳) 効率的な、効率的、透明性、タイムリーな意思決定プロセスを容易にし、産業計画と公共政策開発のためのガイドラインを提供するためには、ロジスティクスとサプライチェーンシステム(LSCS)のためのデジタルツイン(DT)の概念的枠組みが必要である。 本稿ではまず,ロジスティクス・サプライチェーン産業の背景,dtとその潜在的メリット,本研究の動機と適用範囲について紹介する。 文献レビューは、LSCSのための新しい概念DTフレームワークを提案するための研究と実践のギャップとニーズを示している。 新しいフレームワークの各要素は要件と目標が異なるため、新たな研究機会を開始し、実践的な実装課題を生み出す。 そのため、DT計算の未来には、新しいアジェンダの要求に対処する高度な分析とモデリング技術が含まれる。 最後に、LSCS用の透明で信頼性があり、レジリエントなDTをデプロイする次のステップについて提案する。

To facilitate an effective, efficient, transparent, and timely decision-making process as well as to provide guidelines for industry planning and public policy development, a conceptual framework of digital twins (DTs) for logistics and supply chain systems (LSCS) is needed. This paper first introduces the background of the logistics and supply chain industry, the DT and its potential benefits, and the motivations and scope of this research. The literature review indicates research and practice gaps and needs that motivate proposing a new conceptual DT framework for LSCS. As each element of the new framework has different requirements and goals, it initiates new research opportunities and creates practical implementation challenges. As such, the future of DT computation involves advanced analytics and modeling techniques to address the new agenda's requirements. Finally, ideas on the next steps to deploy a transparent, trustworthy, and resilient DT for LSCS are presented.
翻訳日:2023-11-30 22:52:54 公開日:2023-11-29
# ブラインド/ロービジョンユーザのデータに対するクリップのパフォーマンス格差の説明

Explaining CLIP's performance disparities on data from blind/low vision users ( http://arxiv.org/abs/2311.17315v1 )

ライセンス: Link先を確認
Daniela Massiceti, Camilla Longden, Agnieszka Slowik, Samuel Wills, Martin Grayson, Cecily Morrison(参考訳) 大規模マルチモーダルモデル(lmms)は、視覚障害者や低視力者(blv)のための自動化視覚支援の新たな時代を告げる可能性を秘めている。 しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。 私たちはCLIP(LMM)を実証的に評価することでこの問題に対処する。 ゼロショット分類タスクで25のクリップ変種をテストした結果,blvユーザが撮影した画像の精度は,webクローラした画像よりも平均15ポイント低いことがわかった。 この格差はCLIPの感度から生じる。 1) 画像の内容(例えば、障害対象だけでなく他の対象も認識していないこと) 2)画質(例えば、照明の変動に頑丈でない)、及び 3)テキストの内容(例えば、触覚形容詞や視覚表現によって記述された物体を認識しない)。 我々は、LAION-400M、LAION-2B、DataComp-1Bの3つの一般的な事前学習データセットのテキスト分析を行い、障害内容がほとんど言及されていないことを示す。 次に、clip-vit、clipseg、dall-e2の3つの下流モデルにパフォーマンス格差がどのように拡張されているかを示す3つの例を示す。 5つのイメージしか持たない数ショットの学習は、いくつかのシナリオにおいて、CLIPのBLVユーザに対するサービス品質の格差を軽減することができる。

Large multi-modal models (LMMs) hold the potential to usher in a new era of automated visual assistance for people who are blind or low vision (BLV). Yet, these models have not been systematically evaluated on data captured by BLV users. We address this by empirically assessing CLIP, a widely-used LMM likely to underpin many assistive technologies. Testing 25 CLIP variants in a zero-shot classification task, we find that their accuracy is 15 percentage points lower on average for images captured by BLV users than web-crawled images. This disparity stems from CLIP's sensitivities to 1) image content (e.g. not recognizing disability objects as well as other objects); 2) image quality (e.g. not being robust to lighting variation); and 3) text content (e.g. not recognizing objects described by tactile adjectives as well as visual ones). We delve deeper with a textual analysis of three common pre-training datasets: LAION-400M, LAION-2B and DataComp-1B, showing that disability content is rarely mentioned. We then provide three examples that illustrate how the performance disparities extend to three downstream models underpinned by CLIP: OWL-ViT, CLIPSeg and DALL-E2. We find that few-shot learning with as few as 5 images can mitigate CLIP's quality-of-service disparities for BLV users in some scenarios, which we discuss alongside a set of other possible mitigations.
翻訳日:2023-11-30 22:52:35 公開日:2023-11-29
# 偏光と周波数-ビンハイパーエンタングル光子対のプログラム可能な統合源

Programmable integrated source of polarization and frequency-bin hyperentangled photon pairs ( http://arxiv.org/abs/2311.17313v1 )

ライセンス: Link先を確認
Colin Vendromin, J. E. Sipe, and Marco Liscidini(参考訳) 集積フォトニックデバイス上で、プログラム可能な偏光と周波数結合した光子対を生成することができる4つのリング共振器システムを提案する。 各リングは連続波で励起され、自発的4波混合によって2対の周波数ビンに同じ偏光を持つ光子対を生成する。 生成状態の密度演算子は、偏極および周波数2自由度における超絡み合った状態を表すことを示す。 状態の生成率も計算します。

We present a system of four ring resonators capable of generating programmable polarization and frequency-bin entangled photon pairs on an integrated photonic device. Each ring is pumped with a continuous wave, generating photon pairs with the same polarization in two pairs of frequency bins via spontaneous fourwave mixing. We show that the density operator of the generated state represents a hyperentangled state in the polarization and frequency bin degrees of freedom. We also calculate the generation rate of the state.
翻訳日:2023-11-30 22:52:11 公開日:2023-11-29
# 大言語モデル生成のための普遍的自己整合性

Universal Self-Consistency for Large Language Model Generation ( http://arxiv.org/abs/2311.17311v1 )

ライセンス: Link先を確認
Xinyun Chen, Renat Aksitov, Uri Alon, Jie Ren, Kefan Xiao, Pengcheng Yin, Sushant Prakash, Charles Sutton, Xuezhi Wang, Denny Zhou(参考訳) CoTは,大規模言語モデル(LLM)から抽出した複数の推論経路を利用することにより,様々な課題に対して顕著な性能向上を示した。 しかし、自己整合性は解の抽出過程に依存して複数の解を集約し、自由形式の解には適用できない。 本研究では,LLM自体を活用し,複数の候補の中から最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。 我々は,数理推論,コード生成,long-context summarization,open-ended question answeringなど,さまざまなベンチマークでuscを評価した。 従来の自己整合性手法が適用できないオープンエンド生成タスクにおいて,USCは複数のサンプルを有効利用し,性能を向上する。 数学的推論では、USCは解答形式を類似させることなく、標準的な自己整合性能と一致する。 最後に、USCは実行結果にアクセスせずに、コード生成の実行ベースの投票パフォーマンスにマッチする。

Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.
翻訳日:2023-11-30 22:51:58 公開日:2023-11-29
# RoKEPG:RoBERTaと漢方薬の処方生成のための知識向上

RoKEPG: RoBERTa and Knowledge Enhancement for Prescription Generation of Traditional Chinese Medicine ( http://arxiv.org/abs/2311.17307v1 )

ライセンス: Link先を確認
Hua Pu, Jiacong Mi, Shan Lu, Jieyue He(参考訳) 従来の中国医学(TCM)処方薬は、TCM治療の最も重要な形態であり、症状とTCMの複雑な非線形関係を明らかにすることは、臨床実践において非常に重要である。 TCM処方薬生成に関するいくつかの研究があるが、これらの研究は単一の要因を考慮し、主に症状記述に基づく症状記述生成問題をモデル化している。 そこで本研究では,従来の漢方薬の処方生成のためのRoBERTaと知識向上モデルを提案する。 まず、構築したTCMコーパスで事前学習を行い、その後、事前学習したモデルを微調整し、注意マスク行列を通してTCMの4つの知識クラスを導入してTCM処方薬を生成する。 一般に公開されているTCM処方データセットの実験結果は、RoKEPGがベースラインモデルよりも約2%改善し、最良の結果が得られることを示している。

Traditional Chinese medicine (TCM) prescription is the most critical form of TCM treatment, and uncovering the complex nonlinear relationship between symptoms and TCM is of great significance for clinical practice and assisting physicians in diagnosis and treatment. Although there have been some studies on TCM prescription generation, these studies consider a single factor and directly model the symptom-prescription generation problem mainly based on symptom descriptions, lacking guidance from TCM knowledge. To this end, we propose a RoBERTa and Knowledge Enhancement model for Prescription Generation of Traditional Chinese Medicine (RoKEPG). RoKEPG is firstly pre-trained by our constructed TCM corpus, followed by fine-tuning the pre-trained model, and the model is guided to generate TCM prescriptions by introducing four classes of knowledge of TCM through the attention mask matrix. Experimental results on the publicly available TCM prescription dataset show that RoKEPG improves the F1 metric by about 2% over the baseline model with the best results.
翻訳日:2023-11-30 22:51:27 公開日:2023-11-29
# 多段戦略カードゲームのための2段階強化学習

Two-Step Reinforcement Learning for Multistage Strategy Card Game ( http://arxiv.org/abs/2311.17305v1 )

ライセンス: Link先を確認
Konrad Godlewski, Bartosz Sawicki(参考訳) 人工知能とカードゲームの世界では、複雑なマルチステージ戦略カードゲームである「ロード・オブ・ザ・リング:ザ・カードゲーム」(LOTRCG)に合わせた2段階強化学習(RL)戦略を導入する。 本研究は,ゲームの簡易版における基礎的学習段階から始まり,その後に完全で複雑なゲーム環境へと進行する段階的学習アプローチを採用することで,従来のrl手法から逸脱する。 この方法論は、LOTRCGの予測不能で困難な性質に直面したAIエージェントの適応性と性能を特に向上させる。 また,異なるRLエージェントがゲームの様々な意思決定に使用されるマルチエージェントシステムについても検討した。 このアプローチはゲームの結果を著しく改善し、RLエージェントは1万のランダムゲームに対して78.5%の勝利率を達成した。

In the realm of artificial intelligence and card games, this study introduces a two-step reinforcement learning (RL) strategy tailored for "The Lord of the Rings: The Card Game (LOTRCG)," a complex multistage strategy card game. This research diverges from conventional RL methods by adopting a phased learning approach, beginning with a foundational learning stage in a simplified version of the game and subsequently progressing to the complete, intricate game environment. This methodology notably enhances the AI agent's adaptability and performance in the face of LOTRCG's unpredictable and challenging nature. The paper also explores a multi-agent system, where distinct RL agents are employed for various decision-making aspects of the game. This approach has demonstrated a remarkable improvement in game outcomes, with the RL agents achieving a winrate of 78.5% across a set of 10,000 random games.
翻訳日:2023-11-30 22:50:56 公開日:2023-11-29
# 因果的発見とドメイン知識の統合によるニューラルネットワークの性能向上

Enhancing the Performance of Neural Networks Through Causal Discovery and Integration of Domain Knowledge ( http://arxiv.org/abs/2311.17303v1 )

ライセンス: Link先を確認
Xiaoge Zhang, Xiao-Lin Wang, Fenglei Fan, Yiu-Ming Cheung, Indranil Bose(参考訳) 本稿では,観測変数間の階層的因果構造をニューラルネットワークに符号化し,予測性能を向上させるための汎用手法を開発する。 提案手法はcausality-informed neural network (cinn)と呼ばれ、構造的因果知識をニューラルネットワークの層間設計に体系的にマッピングし、すべての因果関係の方向性を厳密に保ちながら、3つのコヒーレントなステップを活用する。 最初のステップでは、CINNは、有向非巡回グラフ(DAG)学習を通じて観測データから因果関係を発見し、因果発見を連続最適化問題として再キャストし、組み合わせの性質を回避する。 第2のステップでは、観測された変数間の階層的因果構造が、専用のアーキテクチャとカスタマイズされた損失関数によってニューラルネットワークに体系的に符号化される。 因果DAGの変数を根、中間、葉ノードとして分類することにより、階層因果DAGは、因果DAGのノードとCINNのユニットの1対1対応でCINNに変換される。 損失関数に関して、DAGグラフの中間ノードと葉ノードをCINNトレーニング中にターゲット出力として扱い、異なるタイプのノード間の因果関係のコラーニングを行う。 CINNで複数の損失成分が出現するにつれて、矛盾する勾配の予測を利用して、複数の学習タスク間の勾配干渉を軽減する。 UCIデータセットの幅広い範囲にわたる計算実験は、他の最先端手法に比べて予測性能においてCINNのかなりの利点を示している。 さらに、アブレーション研究は、ニューラルネットワークの予測性能を段階的に向上させる上で、構造的および定量的因果知識を統合する価値を強調する。

In this paper, we develop a generic methodology to encode hierarchical causality structure among observed variables into a neural network in order to improve its predictive performance. The proposed methodology, called causality-informed neural network (CINN), leverages three coherent steps to systematically map the structural causal knowledge into the layer-to-layer design of neural network while strictly preserving the orientation of every causal relationship. In the first step, CINN discovers causal relationships from observational data via directed acyclic graph (DAG) learning, where causal discovery is recast as a continuous optimization problem to avoid the combinatorial nature. In the second step, the discovered hierarchical causality structure among observed variables is systematically encoded into neural network through a dedicated architecture and customized loss function. By categorizing variables in the causal DAG as root, intermediate, and leaf nodes, the hierarchical causal DAG is translated into CINN with a one-to-one correspondence between nodes in the causal DAG and units in the CINN while maintaining the relative order among these nodes. Regarding the loss function, both intermediate and leaf nodes in the DAG graph are treated as target outputs during CINN training so as to drive co-learning of causal relationships among different types of nodes. As multiple loss components emerge in CINN, we leverage the projection of conflicting gradients to mitigate gradient interference among the multiple learning tasks. Computational experiments across a broad spectrum of UCI data sets demonstrate substantial advantages of CINN in predictive performance over other state-of-the-art methods. In addition, an ablation study underscores the value of integrating structural and quantitative causal knowledge in enhancing the neural network's predictive performance incrementally.
翻訳日:2023-11-30 22:50:15 公開日:2023-11-29
# イジングハミルトニアンのソフトスピン最小値における古典vs量子アニーリングと多様体還元

Classical vs Quantum Annealing and Manifold Reduction in Soft-Spin Minimizers of Ising Hamiltonians ( http://arxiv.org/abs/2311.17359v1 )

ライセンス: Link先を確認
James S. Cummins, Hayder Salman and Natalia G. Berloff(参考訳) イジングハミルトニアンの最小化について検討し、半古典的ソフトスピンモデルのダイナミクスと量子アニーリングを比較した。 Mobius グラフの循環結合のエネルギー環境がアニールパラメータの増加とともにどのように進化するかを系統的に解析する。 以上の結果から,この半古典的モデルでは,次元の幅拡大が課題となっている。 この問題に対処するために,ソフトスピン振幅を定義された位相空間領域に制限する'manifold reduction'法を導入する。 同時に、量子アニールは、包括的なヒルベルト空間内での作用によりイジング・ハミルトンのエネルギー景観をナビゲートする自然の能力を示す。 物理学や物理学に触発された最適化器は、古典的・量子的なアニーリング技術の融合によって恩恵を受ける可能性が示唆された。

We investigate the minimization of the Ising Hamiltonians, comparing the dynamics of semi-classical soft-spin models with quantum annealing. We systematically analyze how the energy landscape for the circulant couplings of a Mobius graph evolves with increased annealing parameters. Our findings indicate that these semi-classical models face challenges due to a widening dimensionality landscape. To counteract this issue, we introduce the `manifold reduction' method, which restricts the soft-spin amplitudes to a defined phase space region. Concurrently, quantum annealing demonstrates a natural capability to navigate the Ising Hamiltonian's energy landscape due to its operation within the comprehensive Hilbert space. Our study indicates that physics-inspired or physics-enhanced optimizers will likely benefit from a blend of classical and quantum annealing techniques.
翻訳日:2023-11-30 22:44:14 公開日:2023-11-29
# 大型言語モデルは良いファクトチェッカーか:予備研究

Are Large Language Models Good Fact Checkers: A Preliminary Study ( http://arxiv.org/abs/2311.17355v1 )

ライセンス: Link先を確認
Han Cao, Lingwei Wei, Mengyang Chen, Wei Zhou, Songlin Hu(参考訳) 近年、大規模言語モデル(llm)は、その優れた推論能力と広範な知識リポジトリにより、他の言語モデルに比べて様々な自然言語処理タスクの処理が優れていると位置づけられ、大きな注目を集めている。 本稿では,ファクトチェックにおけるLCMの可能性を予備検討する。 本研究の目的は,特定のファクトチェックサブタスクに取り組む際の様々なllmを総合的に評価し,その性能を体系的に評価し,事前訓練された低パラメータモデルとの比較分析を行うことである。 実験は、llmがほとんどのシナリオで他の小さなモデルと比較して競争力のある性能を達成することを実証する。 しかし、言語の矛盾や幻覚のため、中国の事実検証や事実チェックパイプライン全体を扱う上での課題に遭遇する。 これらの知見は、信頼性のあるファクトチェッカーとしてのLCMの熟練度を高めるためのさらなる調査と研究の必要性を浮き彫りにした。

Recently, Large Language Models (LLMs) have drawn significant attention due to their outstanding reasoning capabilities and extensive knowledge repository, positioning them as superior in handling various natural language processing tasks compared to other language models. In this paper, we present a preliminary investigation into the potential of LLMs in fact-checking. This study aims to comprehensively evaluate various LLMs in tackling specific fact-checking subtasks, systematically evaluating their capabilities, and conducting a comparative analysis of their performance against pre-trained and state-of-the-art low-parameter models. Experiments demonstrate that LLMs achieve competitive performance compared to other small models in most scenarios. However, they encounter challenges in effectively handling Chinese fact verification and the entirety of the fact-checking pipeline due to language inconsistencies and hallucinations. These findings underscore the need for further exploration and research to enhance the proficiency of LLMs as reliable fact-checkers, unveiling the potential capability of LLMs and the possible challenges in fact-checking tasks.
翻訳日:2023-11-30 22:43:58 公開日:2023-11-29
# 自然言語処理に基づくアプローチ:ストリートビュー画像における深い意味的特徴の理解による人間知覚のマッピング

A natural language processing-based approach: mapping human perception by understanding deep semantic features in street view images ( http://arxiv.org/abs/2311.17354v1 )

ライセンス: Link先を確認
Haoran Ma and Dongdong Wu(参考訳) 過去10年間、ストリートビュー画像と機械学習を使って人間の知覚を測定することは、都市科学における主要な研究手法となっている。 しかし,この手法では,シーンの人間知覚の深い意味的特徴を包括的に理解することは困難である。 本研究では,人間の知覚とシーンの感覚との関係を理解するために,事前学習した自然言語モデルに基づく新しい枠組みを提案する。 まず、Place Pulse 2.0がベースデータセットとして使われ、そこには、美しく、安全で、富裕で、落ち込んで、退屈で、生き生きとした、さまざまな人間が知覚するラベルが含まれています。 各ストリートビュー画像の記述情報を抽出するために,画像キャプションネットワークを用いた。 第2に、事前学習したBERTモデルが微調整され、6つの人間の知覚次元に対する回帰関数が追加された。 さらに,従来の5つの回帰手法の性能を我々のアプローチと比較し,香港でのマイグレーション実験を行った。 その結果,深い意味的特徴による人間の知覚スコアリングは,浅い特徴を持つ機械学習手法による従来の研究よりも優れていた。 深部シーンのセマンティックな特徴の使用は、その後の人間の知覚研究のための新しいアイデアと、空間的不均一性に直面した説明力を提供する。

In the past decade, using Street View images and machine learning to measure human perception has become a mainstream research approach in urban science. However, this approach using only image-shallow information makes it difficult to comprehensively understand the deep semantic features of human perception of a scene. In this study, we proposed a new framework based on a pre-train natural language model to understand the relationship between human perception and the sense of a scene. Firstly, Place Pulse 2.0 was used as our base dataset, which contains a variety of human-perceived labels, namely, beautiful, safe, wealthy, depressing, boring, and lively. An image captioning network was used to extract the description information of each street view image. Secondly, a pre-trained BERT model was finetuning and added a regression function for six human perceptual dimensions. Furthermore, we compared the performance of five traditional regression methods with our approach and conducted a migration experiment in Hong Kong. Our results show that human perception scoring by deep semantic features performed better than previous studies by machine learning methods with shallow features. The use of deep scene semantic features provides new ideas for subsequent human perception research, as well as better explanatory power in the face of spatial heterogeneity.
翻訳日:2023-11-30 22:43:39 公開日:2023-11-29
# 量子適応分布探索による連続最適化

Continuous optimization by quantum adaptive distribution search ( http://arxiv.org/abs/2311.17353v1 )

ライセンス: Link先を確認
Kohei Morimoto, Yusuke Takase, Kosuke Mitarai, and Keisuke Fujii(参考訳) 本稿では,グロバー適応探索 (gas) と共分散行列適応進化戦略 (cma-es) を統合した量子連続最適化アルゴリズムquantum adaptive distribution search (quads) を提案する。 QuADSはGASの量子ベースの探索機能を利用し、より効率的な最適化のためにCMA-ESの原理でそれらを強化する。 量子探索の初期状態に対して多変量正規分布を採用し、最適化過程を通じて繰り返し更新する。 数値実験の結果,QuADSはGASとCMA-ESの両方に優れていた。 これは、一様状態を使い続けるのではなく、初期状態分布を適応的に洗練することで達成され、オラクル呼び出しが少なくなる。 本研究は,連続最適化のための量子コンピューティングの可能性を活用するための重要なステップを示す。

In this paper, we introduce the quantum adaptive distribution search (QuADS), a quantum continuous optimization algorithm that integrates Grover adaptive search (GAS) with the covariance matrix adaptation - evolution strategy (CMA-ES), a classical technique for continuous optimization. QuADS utilizes the quantum-based search capabilities of GAS and enhances them with the principles of CMA-ES for more efficient optimization. It employs a multivariate normal distribution for the initial state of the quantum search and repeatedly updates it throughout the optimization process. Our numerical experiments show that QuADS outperforms both GAS and CMA-ES. This is achieved through adaptive refinement of the initial state distribution rather than consistently using a uniform state, resulting in fewer oracle calls. This study presents an important step toward exploiting the potential of quantum computing for continuous optimization.
翻訳日:2023-11-30 22:43:18 公開日:2023-11-29
# 効率的な安定タスク適応

Efficient Stitchable Task Adaptation ( http://arxiv.org/abs/2311.17352v1 )

ライセンス: Link先を確認
Haoyu He, Zizheng Pan, Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) 事前トレーニングと微調整のパラダイムは、ディープラーニングモデルのデプロイの基礎を築いた。 しかし、ほとんどの微調整方法は特定のリソース予算を満たすように設計されている。 近年、様々なリソース予算を伴う多様なデプロイメントシナリオを考慮して、ステッチブルニューラルネットワーク(sn-net)を導入し、モデルステッチリングを介してモデルファミリー内の事前学習モデル(anchors)から多数の新しいネットワーク(stitches)を迅速に得る。 有望ではあるが、SN-Netは新しいターゲットドメインに適応する際の新たな課題に直面している。 本研究では,多様な資源制約に順応する微調整モデルのパレットを効率よく生成する新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。 具体的には, 独立バイアス項を維持しつつ, 低ランク更新をステッチ間で共有するために, パラメータ効率の良い微調整を行う。 このようにして、我々は微調整メモリの負担を大幅に減らし、タスク適応時に生じる縫合の干渉を軽減する。 さらに,単純かつ効果的なワンステージデプロイメントパイプラインを合理化し,トレーニング時の勾配統計を用いてデプロイに必要な重要なスティッチを見積もる。 重要な縫合に高いサンプリング確率を割り当てることで、強化されたパレートフロンティアも得られる。 25のダウンストリーム視覚認識タスクに関する広範囲な実験により,estaはスムースな精度と効率のトレードオフを持つ縫い目を生成し,トレーニング時間を大幅に削減し,トレーニング可能なパラメータを少なくした画期的なマージンによる直接sn-net適応を上回った。 さらに,LLaMA ファミリーから LLM を縫合し,様々なサイズのチャットボットを縫合することで,ESTA フレームワークの柔軟性とスケーラビリティを示す。

The paradigm of pre-training and fine-tuning has laid the foundation for deploying deep learning models. However, most fine-tuning methods are designed to meet a specific resource budget. Recently, considering diverse deployment scenarios with various resource budgets, stitchable neural network (SN-Net) is introduced to quickly obtain numerous new networks (stitches) from the pre-trained models (anchors) in a model family via model stitching. Although promising, SN-Net confronts new challenges when adapting it to new target domains, including huge memory and storage requirements and a long and sub-optimal multistage adaptation process. In this work, we present a novel framework, Efficient Stitchable Task Adaptation (ESTA), to efficiently produce a palette of fine-tuned models that adhere to diverse resource constraints. Specifically, we first tailor parameter-efficient fine-tuning to share low-rank updates among the stitches while maintaining independent bias terms. In this way, we largely reduce fine-tuning memory burdens and mitigate the interference among stitches that arises in task adaptation. Furthermore, we streamline a simple yet effective one-stage deployment pipeline, which estimates the important stitches to deploy with training-time gradient statistics. By assigning higher sampling probabilities to important stitches, we also get a boosted Pareto frontier. Extensive experiments on 25 downstream visual recognition tasks demonstrate that our ESTA is capable of generating stitches with smooth accuracy-efficiency trade-offs and surpasses the direct SN-Net adaptation by remarkable margins with significantly lower training time and fewer trainable parameters. Furthermore, we demonstrate the flexibility and scalability of our ESTA framework by stitching LLMs from LLaMA family, obtaining chatbot stitches of assorted sizes.
翻訳日:2023-11-30 22:43:04 公開日:2023-11-29
# 公共イベントにおける人体移動予測のための大規模言語モデルの検討

Exploring Large Language Models for Human Mobility Prediction under Public Events ( http://arxiv.org/abs/2311.17351v1 )

ライセンス: Link先を確認
Yuebing Liang, Yichao Liu, Xiaohan Wang, Zhan Zhao(参考訳) コンサートやスポーツゲームなどの公共イベントは、大観衆にとって大きな魅力となり、旅行需要が不規則に急増する。 したがって、公共イベントの正確な移動予測は、交通や群衆の管理だけでなく、イベント計画にも不可欠である。 公開イベントに関するリッチなテキスト記述は、オンラインソースから一般的に利用できるが、統計モデルや機械学習モデルでそのような情報をエンコードすることは困難である。 既存の方法は通常、テキスト情報の導入、データのスパーシティの処理、予測の根拠の提供に制限がある。 これらの課題に対処するため,我々は,Large Language Models (LLMs) に基づく公開イベント(LLM-MPE)下での人体移動予測フレームワークを導入し,テキストデータ処理,最小例からの学習,人間可読な説明を生成する。 具体的には、llm-mpeはまず、オンラインソースから生の非構造化イベント記述を標準化されたフォーマットに変換し、その後、過去のモビリティデータを正規およびイベント関連コンポーネントに分割する。 歴史的モビリティとイベントの特徴を考慮した需要予測の作成と合理化において, LLM を指示するプロンプト戦略が設計されている。 ニューヨーク市のバークレイズセンターで、公開イベント情報とタクシー旅行データに基づいてケーススタディが実施されている。 その結果,LLM-MPEは従来のモデル,特にイベントの日に,テキストデータにより精度が著しく向上していることがわかった。 さらに、LLM-MPEは予測に対する解釈可能な洞察を提供する。 LLMの大きな可能性にもかかわらず、大規模な人体移動分析において広く採用される上で障壁となる、誤情報や高コストといった重要な課題も認識している。

Public events, such as concerts and sports games, can be major attractors for large crowds, leading to irregular surges in travel demand. Accurate human mobility prediction for public events is thus crucial for event planning as well as traffic or crowd management. While rich textual descriptions about public events are commonly available from online sources, it is challenging to encode such information in statistical or machine learning models. Existing methods are generally limited in incorporating textual information, handling data sparsity, or providing rationales for their predictions. To address these challenges, we introduce a framework for human mobility prediction under public events (LLM-MPE) based on Large Language Models (LLMs), leveraging their unprecedented ability to process textual data, learn from minimal examples, and generate human-readable explanations. Specifically, LLM-MPE first transforms raw, unstructured event descriptions from online sources into a standardized format, and then segments historical mobility data into regular and event-related components. A prompting strategy is designed to direct LLMs in making and rationalizing demand predictions considering historical mobility and event features. A case study is conducted for Barclays Center in New York City, based on publicly available event information and taxi trip data. Results show that LLM-MPE surpasses traditional models, particularly on event days, with textual data significantly enhancing its accuracy. Furthermore, LLM-MPE offers interpretable insights into its predictions. Despite the great potential of LLMs, we also identify key challenges including misinformation and high costs that remain barriers to their broader adoption in large-scale human mobility analysis.
翻訳日:2023-11-30 22:42:33 公開日:2023-11-29
# 多視点映像圧縮のための暗黙的な統合表現

Implicit-explicit Integrated Representations for Multi-view Video Compression ( http://arxiv.org/abs/2311.17350v1 )

ライセンス: Link先を確認
Chen Zhu, Guo Lu, Bing He, Rong Xie, Li Song(参考訳) 3Dディスプレイと仮想現実の消費の増加に伴い、マルチビュービデオは有望なフォーマットになりつつある。 しかし、その高解像度かつマルチカメラ撮影により、データボリュームが大幅に増加し、ストレージと送信が困難なタスクとなる。 これらの課題に対処するため,多視点ビデオ圧縮のための暗黙的な統合表現を提案する。 具体的には、まず、明示的な表現に基づく2Dビデオコーデックを使用して、ソースビューの1つを符号化する。 次に,暗黙的ニューラル表現(inr)ベースのコーデックを用いて,残りのビューをエンコードする。 暗黙コーデックは,マルチビュー映像の時間とビューインデックスを座標入力として,対応する暗黙的再構成フレームを生成する。圧縮性を高めるために,多レベル特徴グリッド埋め込みと完全畳み込みアーキテクチャを暗黙的コーデックに導入する。 これらのコンポーネントは、それぞれ座標-機能と特徴-RGBマッピングを促進する。 InRコーデックからの再構成品質をさらに向上するために、明示的なコーデックから高品質な再構成フレームを活用し、ビュー間補償を実現する。 最後に、補償結果をINRからの暗黙の再構成と融合させて、最終的な再構成フレームを得る。 提案フレームワークは,暗黙的ニューラル表現と明示的2次元コーデックの長所を組み合わせたものである。 公開データセットで行った広範囲な実験により、提案されたフレームワークは、最新のマルチビュービデオ圧縮標準mivや他のinrベースのスキームと、ビュー圧縮とシーンモデリングの点で同等あるいはそれ以上のパフォーマンスを達成できることが示されている。

With the increasing consumption of 3D displays and virtual reality, multi-view video has become a promising format. However, its high resolution and multi-camera shooting result in a substantial increase in data volume, making storage and transmission a challenging task. To tackle these difficulties, we propose an implicit-explicit integrated representation for multi-view video compression. Specifically, we first use the explicit representation-based 2D video codec to encode one of the source views. Subsequently, we propose employing the implicit neural representation (INR)-based codec to encode the remaining views. The implicit codec takes the time and view index of multi-view video as coordinate inputs and generates the corresponding implicit reconstruction frames.To enhance the compressibility, we introduce a multi-level feature grid embedding and a fully convolutional architecture into the implicit codec. These components facilitate coordinate-feature and feature-RGB mapping, respectively. To further enhance the reconstruction quality from the INR codec, we leverage the high-quality reconstructed frames from the explicit codec to achieve inter-view compensation. Finally, the compensated results are fused with the implicit reconstructions from the INR to obtain the final reconstructed frames. Our proposed framework combines the strengths of both implicit neural representation and explicit 2D codec. Extensive experiments conducted on public datasets demonstrate that the proposed framework can achieve comparable or even superior performance to the latest multi-view video compression standard MIV and other INR-based schemes in terms of view compression and scene modeling.
翻訳日:2023-11-30 22:42:03 公開日:2023-11-29
# Perancangan UI/UX Aplikasi Sistem Informasi Layanan Administrasi dalam Perspektif Psikologi Menggunakan Metode Prototype

Perancangan UI/UX Aplikasi Sistem Informasi Layanan Administrasi dalam Perspektif Psikologi Menggunakan Metode Prototype ( http://arxiv.org/abs/2311.17345v1 )

ライセンス: Link先を確認
Sania Febriani, Tata Sutabri, Megawaty, Leon A. Abdillah(参考訳) ビナダルマ大学の学生管理サービスは従来通り行われている。 生徒は講師に会い、講師に行政文書の署名を依頼します。 しかし、ビナダルマ大学では偽造署名の事例が残っている。 この問題は物的損失を引き起こす可能性があり、犯罪のカテゴリーに含まれる。 本研究の目的は,カラー心理学理論,ゲシュタルト原理をユーザエクスペリエンスに応用することにより,行政サービス情報システム(silastri)インタフェースを設計することである。 SILASTRIはビナダルマ大学の学生管理サービスを支援するように設計されている。 観察、アンケート、文献調査によるデータ収集。 本研究は,コミュニケーション,迅速な計画,迅速な設計のモデル化,プロトタイプの構築,デプロイメントのデリバリとフィードバックからなるプロトタイプ手法を用いる。 プロトタイプ手法は技術的実現可能性を示し、ソフトウェアを推定することでユーザインタフェース表示のユーザビリティを検証し、欠陥があれば即座に修正できる。 回答者70名によるMazeを用いたユーザビリティテストの結果から, Mazeのユーザビリティ値は89で, SUSの計算値は88であった。 したがって、心理学的視点を適用したSILASTRIアプリケーションのUI/UX設計は、ユーザによってよく受け入れられるインターフェースとユーザエクスペリエンスを持っていると結論付けることができる。 このテストおよび評価の結果、SILASTRIディスプレイの設計がアプリケーションに実装される準備ができていることが証明された。

Bina Darma University student administration services are still carried out conventionally. Students meet the lecturer to ask the lecturer to sign their administrative documents. However, cases of forged signatures still occur at Bina Darma University. This problem can cause material loss and is included in the category of criminal offense. The aim of this research is to design an Administrative Services Information System (SILASTRI) interface by applying color psychology theory, Gestalt principles with a good user experience. SILASTRI is designed to support student administration services at Bina Darma University. Data collection through observation, distributing questionnaires and literature study. This research uses a prototype method which consists of communication, quick plan, modeling quick design, construction of prototype and deployment delivery & feedback. The prototype method proves technical feasibility and validates the usability of the user interface display by estimating the software so that if there are deficiencies they can be corrected immediately. Based on the results of usability testing using Maze, which was tested by 70 respondents, the Maze usability value was 89 and the SUS calculation value was 88, which is in the good category. Therefore, it can be concluded that the UI/UX design of the SILASTRI application by applying a psychological perspective has an interface and user experience that is well received by users. The results of this testing and evaluation prove that the SILASTRI display design is ready to be developed into an application.
翻訳日:2023-11-30 22:41:36 公開日:2023-11-29
# ハイパースペクトル画像超解像のためのクロススコープ空間スペクトル情報集約

Cross-Scope Spatial-Spectral Information Aggregation for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2311.17340v1 )

ライセンス: Link先を確認
Shi Chen, Lefei Zhang, Liangpei Zhang(参考訳) ハイパースペクトル画像の超解像は、ハイパースペクトル画像の空間分解能を高めるために広く普及した。 しかし、畳み込みに基づく手法は、グローバル空間スペクトル情報を活用する上で困難に直面している。 一般的な変換器に基づく手法は、スペクトル次元と空間次元の両方における長距離依存性を適切に捉えていない。 そこで本研究では,超高分解能画像の長距離空間およびスペクトル類似性を効率的に研究するための新しいクロススコープ空間分光トランス(cst)を提案する。 具体的には,長距離空間スペクトル特性を包括的にモデル化するために,空間次元とスペクトル次元のクロスアテンション機構を考案する。 グローバルな情報を矩形風の自己注意に組み込むことで、長距離空間の相互作用を容易にするために、まずクロススコープ空間自己注意を設計する。 次に,適切な特徴量を持つ空間スペクトルの特徴を生かして,全球スペクトルバンド間の固有相関を効果的に捉えるために,クロススコープスペクトル自己照準を構築する。 最後に,簡単なフィードフォワードニューラルネットワークを詳説し,トランスフォーマー構造の特徴表現能力を向上させる。 3つの超スペクトルデータセットに対する大規模な実験により、提案したCSTは他の最先端手法よりも定量的かつ視覚的に優れていることが示された。 コードは \url{https://github.com/tomchenshi/cst.git} で入手できる。

Hyperspectral image super-resolution has attained widespread prominence to enhance the spatial resolution of hyperspectral images. However, convolution-based methods have encountered challenges in harnessing the global spatial-spectral information. The prevailing transformer-based methods have not adequately captured the long-range dependencies in both spectral and spatial dimensions. To alleviate this issue, we propose a novel cross-scope spatial-spectral Transformer (CST) to efficiently investigate long-range spatial and spectral similarities for single hyperspectral image super-resolution. Specifically, we devise cross-attention mechanisms in spatial and spectral dimensions to comprehensively model the long-range spatial-spectral characteristics. By integrating global information into the rectangle-window self-attention, we first design a cross-scope spatial self-attention to facilitate long-range spatial interactions. Then, by leveraging appropriately characteristic spatial-spectral features, we construct a cross-scope spectral self-attention to effectively capture the intrinsic correlations among global spectral bands. Finally, we elaborate a concise feed-forward neural network to enhance the feature representation capacity in the Transformer structure. Extensive experiments over three hyperspectral datasets demonstrate that the proposed CST is superior to other state-of-the-art methods both quantitatively and visually. The code is available at \url{https://github.com/Tomchenshi/CST.git}.
翻訳日:2023-11-30 22:41:13 公開日:2023-11-29
# RADAP: 顔認証における異種対立パッチに対するロバストで適応的な防御

RADAP: A Robust and Adaptive Defense Against Diverse Adversarial Patches on Face Recognition ( http://arxiv.org/abs/2311.17339v1 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Jian Zhao, Changhai Nie(参考訳) ディープラーニングを利用した顔認識(FR)システムは様々な用途で広く利用されている。 しかし、特に実際のオブジェクトに物理的に適用できるローカルな敵パッチに基づく攻撃に対して脆弱である。 本稿では,閉集合系と開集合系の両方において,多様な敵パッチに対する堅牢かつ適応的な防御機構であるRADAPを提案する。 RADAP は FCutout や F-patch といった革新的な技術を採用しており、F-patch はフーリエ空間サンプリングマスクを用いて FR モデルの閉塞堅牢性とパッチセグメンタの性能を向上させる。 さらに、パッチ検出の精度を高めるために、エッジ対応バイナリクロスエントロピー(EBCE)損失関数を導入する。 また,パッチセグナーの脆弱性に対抗してホワイトボックス適応攻撃を完遂するslit and fill (saf)戦略を提案する。 我々は,radapの有効性を検証するための総合的な実験を行い,非防御バニラモデルよりもクリーンな精度を維持しつつ,様々な敵パッチに対する防御性能を大幅に向上させた。

Face recognition (FR) systems powered by deep learning have become widely used in various applications. However, they are vulnerable to adversarial attacks, especially those based on local adversarial patches that can be physically applied to real-world objects. In this paper, we propose RADAP, a robust and adaptive defense mechanism against diverse adversarial patches in both closed-set and open-set FR systems. RADAP employs innovative techniques, such as FCutout and F-patch, which use Fourier space sampling masks to improve the occlusion robustness of the FR model and the performance of the patch segmenter. Moreover, we introduce an edge-aware binary cross-entropy (EBCE) loss function to enhance the accuracy of patch detection. We also present the split and fill (SAF) strategy, which is designed to counter the vulnerability of the patch segmenter to complete white-box adaptive attacks. We conduct comprehensive experiments to validate the effectiveness of RADAP, which shows significant improvements in defense performance against various adversarial patches, while maintaining clean accuracy higher than that of the undefended Vanilla model.
翻訳日:2023-11-30 22:40:41 公開日:2023-11-29
# VideoAssembler:拡散モデルを用いた参照エンティティを持つアイデンティティ一貫性ビデオ生成

VideoAssembler: Identity-Consistent Video Generation with Reference Entities using Diffusion Model ( http://arxiv.org/abs/2311.17338v1 )

ライセンス: Link先を確認
Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Zuxuan Wu, Hang Xu, Yu-Gang Jiang(参考訳) アイデンティティ一貫性のあるビデオ生成は、テキストプロンプトとエンティティの参照イメージの両方によってガイドされるビデオの合成を目指している。 現在のアプローチでは一般的に、エンティティの外観を統合するために、クロスアテンション・レイヤを使用し、主にセマンティックな属性をキャプチャし、エンティティの忠実度を損なう。 さらに、これらの手法は遭遇する新しいエンティティごとに反復的な微調整を必要とするため、適用性が制限される。 これらの課題に対処するために,我々は,アイデンティティ一貫性のあるビデオ生成のための新しいエンドツーエンドフレームワークであるvideoassemblerを紹介する。 VideoAssemblerは、入力参照エンティティに関してだけでなく、テキスト条件にも反応するフレキシブルなビデオを作成することに長けている。 さらに、エンティティの入力画像量を調整することで、VideoAssemblerは、画像生成から高度なビデオ編集まで、タスクの実行を可能にする。 VideoAssemblerは、Reference Entity Pyramid (REP)エンコーダとEntity-Prompt Attention Fusion (EPAF)モジュールの2つの主要コンポーネントで構成されている。 REPエンコーダは、安定した拡散モデルの認知段階に包括的外観の詳細を注入するように設計されている。 同時にEPAFモジュールを使用してテキスト整列機能を効果的に統合する。 さらに,不足データの課題を軽減するため,トレーニングデータの事前処理を行う手法を提案する。 UCF-101, MSR-VTT, DAVISデータセット上での VideoAssembler フレームワークの評価は, FVD では 346.84 , UCF-101 では 48.01 である。 私たちのプロジェクトページはhttps://videoassembler.github.io/videoassemblerにあります。

Identity-consistent video generation seeks to synthesize videos that are guided by both textual prompts and reference images of entities. Current approaches typically utilize cross-attention layers to integrate the appearance of the entity, which predominantly captures semantic attributes, resulting in compromised fidelity of entities. Moreover, these methods necessitate iterative fine-tuning for each new entity encountered, thereby limiting their applicability. To address these challenges, we introduce VideoAssembler, a novel end-to-end framework for identity-consistent video generation that can conduct inference directly when encountering new entities. VideoAssembler is adept at producing videos that are not only flexible with respect to the input reference entities but also responsive to textual conditions. Additionally, by modulating the quantity of input images for the entity, VideoAssembler enables the execution of tasks ranging from image-to-video generation to sophisticated video editing. VideoAssembler comprises two principal components: the Reference Entity Pyramid (REP) encoder and the Entity-Prompt Attention Fusion (EPAF) module. The REP encoder is designed to infuse comprehensive appearance details into the denoising stages of the stable diffusion model. Concurrently, the EPAF module is utilized to integrate text-aligned features effectively. Furthermore, to mitigate the challenge of scarce data, we present a methodology for the preprocessing of training data. Our evaluation of the VideoAssembler framework on the UCF-101, MSR-VTT, and DAVIS datasets indicates that it achieves good performances in both quantitative and qualitative analyses (346.84 in FVD and 48.01 in IS on UCF-101). Our project page is at https://videoassembler.github.io/videoassembler.
翻訳日:2023-11-30 22:40:21 公開日:2023-11-29
# eMotions:ショートビデオにおける感情認識のための大規模データセット

eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos ( http://arxiv.org/abs/2311.17335v1 )

ライセンス: Link先を確認
Xuecheng Wu, Heli Sun, Junxiao Xue, Ruofan Zhai, Xiangyan Kong, Jiayu Nie, Liang He(参考訳) 現在、私たちの生活における情報取得と共有にはショートビデオ(SV)が不可欠である。 感情を広めるためのSVの使用は、SVにおける感情認識の必要性につながる。 SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。 一方で,人員配置や多段階アノテーションの充実により,主観性がラベル品質に与える影響を緩和する。 さらに、ターゲットデータサンプリングを通じてカテゴリバランスとテスト指向のバリエーションを提供する。 一般的に使用されるビデオ(例えば、表情や姿勢)はよく研究されている。 しかし、SVの感情を理解することは依然として困難である。 内容の多様性が強化されたことにより、感情に関連した特徴を学習する際の意味的ギャップと困難がより大きくなり、音声と視覚の共表現の下で感情の不完全性によって引き起こされる情報ギャップが存在する。 これらの問題に対処するために,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。 さらに,視聴覚特徴の相関を相補的にモデル化する2段クロスモーダル融合モジュールの設計を行った。 3つの感情極性を含むEP-CEロスをモデル最適化のガイドに適用する。 av-cpnetの有効性を検証する9つのデータセットに関する広範な実験結果 データセットとコードはhttps://github.com/xuecwu/emotionsで公開される。

Nowadays, short videos (SVs) are essential to information acquisition and sharing in our life. The prevailing use of SVs to spread emotions leads to the necessity of emotion recognition in SVs. Considering the lack of SVs emotion data, we introduce a large-scale dataset named eMotions, comprising 27,996 videos. Meanwhile, we alleviate the impact of subjectivities on labeling quality by emphasizing better personnel allocations and multi-stage annotations. In addition, we provide the category-balanced and test-oriented variants through targeted data sampling. Some commonly used videos (e.g., facial expressions and postures) have been well studied. However, it is still challenging to understand the emotions in SVs. Since the enhanced content diversity brings more distinct semantic gaps and difficulties in learning emotion-related features, and there exists information gaps caused by the emotion incompleteness under the prevalently audio-visual co-expressions. To tackle these problems, we present an end-to-end baseline method AV-CPNet that employs the video transformer to better learn semantically relevant representations. We further design the two-stage cross-modal fusion module to complementarily model the correlations of audio-visual features. The EP-CE Loss, incorporating three emotion polarities, is then applied to guide model optimization. Extensive experimental results on nine datasets verify the effectiveness of AV-CPNet. Datasets and code will be open on https://github.com/XuecWu/eMotions.
翻訳日:2023-11-30 22:39:47 公開日:2023-11-29
# 胸部x線による胸部疾患のノイズラベル付きロングテールマルチラベル分類

Long-tailed multi-label classification with noisy label of thoracic diseases from chest X-ray ( http://arxiv.org/abs/2311.17334v1 )

ライセンス: Link先を確認
Haoran Lai and Qingsong Yao and Zhiyang He and Xiaodong Tao and S Kevin Zhou(参考訳) 胸部X線(CXR)はしばしば稀な疾患を呈し、正確な診断を必要とする。 しかし、現在のコンピュータ支援診断(CAD)法は、一般的な疾患に焦点を当てており、包括的データセットが欠如しているため、稀な疾患の発見が不十分である。 そこで本研究では, 胸部疾患と稀な疾患を包含したcxrsのロングテールマルチラベル分類のための新しいベンチマークを提案する。 我々のアプローチには、26の稀な疾患を伴うMIMIC-CXRの強化である"LTML-MIMIC-CXR"データセットの開発が含まれる。 本稿では,末尾クラスにおける負のロジットの過剰抑制に対処するための適応的負の正規化と,自動アノテーションから雑音ラベルを修正するための大きな損失再検討戦略を提案する。 LTML-MIMIC-CXRに対する評価は,まれな疾患検出の進歩を示す。 この研究は、CXRの胸部疾患のスペクトルを特定するためのバランスを達成し、堅牢なCAD手法の基礎を確立する。 コードとデータセットへのアクセスは、https://github.com/laihaoran/LTML-MIMIC-CXR.comで提供されます。

Chest X-rays (CXR) often reveal rare diseases, demanding precise diagnosis. However, current computer-aided diagnosis (CAD) methods focus on common diseases, leading to inadequate detection of rare conditions due to the absence of comprehensive datasets. To overcome this, we present a novel benchmark for long-tailed multi-label classification in CXRs, encapsulating both common and rare thoracic diseases. Our approach includes developing the "LTML-MIMIC-CXR" dataset, an augmentation of MIMIC-CXR with 26 additional rare diseases. We propose a baseline method for this classification challenge, integrating adaptive negative regularization to address negative logits' over-suppression in tail classes, and a large loss reconsideration strategy for correcting noisy labels from automated annotations. Our evaluation on LTML-MIMIC-CXR demonstrates significant advancements in rare disease detection. This work establishes a foundation for robust CAD methods, achieving a balance in identifying a spectrum of thoracic diseases in CXRs. Access to our code and dataset is provided at:https://github.com/laihaoran/LTML-MIMIC-CXR.
翻訳日:2023-11-30 22:39:25 公開日:2023-11-29
# NeRFTAP:ニューラルラジアンス場を用いた顔認識における対向パッチの伝達性向上

NeRFTAP: Enhancing Transferability of Adversarial Patches on Face Recognition using Neural Radiance Fields ( http://arxiv.org/abs/2311.17332v1 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Feng Han, Jian Zhao, Changhai Nie(参考訳) 顔認識(FR)技術は様々なアプリケーションにおいて重要な役割を果たすが、敵攻撃に対する脆弱性は重大なセキュリティ上の懸念を引き起こす。 既存の研究は主に異なるfrモデルへの転送可能性に焦点を当てており、被害者の顔画像への直接転送可能性を見下ろしている。 本研究では、FRモデルへの転写可能性と被害者の顔画像の両方を考慮した新しい対向攻撃手法、NeRFTAPを提案する。 我々はNeRFベースの3D-GANを利用して,敵パッチの転送性を高めるために,ソースと対象の新たなビューフェイス画像を生成する。 我々は, 対向UVマップと対象UVマップとの視覚的類似性を確保するために, 0-1マスク下でのスタイル整合性損失を導入し, 生成した対向顔画像の有効性と自然性を高める。 様々なfrモデルに関する広範囲な実験と評価は、既存の攻撃手法よりも優れたアプローチを示している。 本研究は, FRシステムの強靭性向上に有用な知見を提供する。

Face recognition (FR) technology plays a crucial role in various applications, but its vulnerability to adversarial attacks poses significant security concerns. Existing research primarily focuses on transferability to different FR models, overlooking the direct transferability to victim's face images, which is a practical threat in real-world scenarios. In this study, we propose a novel adversarial attack method that considers both the transferability to the FR model and the victim's face image, called NeRFTAP. Leveraging NeRF-based 3D-GAN, we generate new view face images for the source and target subjects to enhance transferability of adversarial patches. We introduce a style consistency loss to ensure the visual similarity between the adversarial UV map and the target UV map under a 0-1 mask, enhancing the effectiveness and naturalness of the generated adversarial face images. Extensive experiments and evaluations on various FR models demonstrate the superiority of our approach over existing attack techniques. Our work provides valuable insights for enhancing the robustness of FR systems in practical adversarial settings.
翻訳日:2023-11-30 22:39:04 公開日:2023-11-29
# トップダウン推論に向けて:視覚質問応答のための説明可能なマルチエージェントアプローチ

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering ( http://arxiv.org/abs/2311.17331v1 )

ライセンス: Link先を確認
Zeqing Wang, Wentao Wan, Runmeng Chen, Qiqing Lao, Minjie Lang and Keze Wang(参考訳) 近年、視覚言語モデル (VLM) が注目され、画像とテキストのペアデータを活用することで、様々なタスクにおいて顕著な進歩を見せている。 しかしながら、一般的なVLMは視覚質問回答(VQA)を知覚タスクとして扱うことが多く、同じ視覚シーン内で異なる質問間の関係を明示的にモデル化するブラックボックスモデルを用いる。 さらに、知識ベース(KB)に依存する既存のVQAメソッドは、限られたデータからのバイアスに頻繁に遭遇し、関連する情報インデックスの課題に直面します。 本稿では,これらの制約を克服する試みとして,大規模言語モデル(LLM)に組み込んだ多言語協調フレームワークを提案する。 人間の認知に刺激されて、我々のフレームワークは、トップダウン推論プロセスを実行するために、シーカー、レスポンダー、インテグレータという3つのエージェントを用いて、与えられた質問に含まれる潜伏情報を明らかにする。 Seekerエージェントは、元の質問に関連する問題を生成する。 VLMに基づくResponderエージェントは、単純なVQAタスクを処理し、候補回答を提供する。 インテグレータエージェントは、シーカーエージェントとレスポンダエージェントからの情報を組み合わせて、最終的なVQA応答を生成する。 上記の協調機構を通じて,本フレームワークは,トップダウン処理方式で回答を推論する,特定の画像シーンの多視点知識ベースを明示的に構築する。 本手法を多種多様なVQAデータセットとVLMに対して広範に評価し,その適用性および解釈性を示すとともに,総合的な実験結果を得た。

Recently, Vision Language Models (VLMs) have gained significant attention, exhibiting notable advancements across various tasks by leveraging extensive image-text paired data. However, prevailing VLMs often treat Visual Question Answering (VQA) as perception tasks, employing black-box models that overlook explicit modeling of relationships between different questions within the same visual scene. Moreover, the existing VQA methods that rely on Knowledge Bases (KBs) might frequently encounter biases from limited data and face challenges in relevant information indexing. Attempt to overcome these limitations, this paper introduces an explainable multi-agent collaboration framework by tapping into knowledge embedded in Large Language Models (LLMs) trained on extensive corpora. Inspired by human cognition, our framework uncovers latent information within the given question by employing three agents, i.e., Seeker, Responder, and Integrator, to perform a top-down reasoning process. The Seeker agent generates relevant issues related to the original question. The Responder agent, based on VLM, handles simple VQA tasks and provides candidate answers. The Integrator agent combines information from the Seeker agent and the Responder agent to produce the final VQA answer. Through the above collaboration mechanism, our framework explicitly constructs a multi-view knowledge base for a specific image scene, reasoning answers in a top-down processing manner. We extensively evaluate our method on diverse VQA datasets and VLMs, demonstrating its broad applicability and interpretability with comprehensive experimental results.
翻訳日:2023-11-30 22:38:43 公開日:2023-11-29
# 位相空間分布からの量子性測定

Quantumness Measure from Phase Space Distributions ( http://arxiv.org/abs/2311.17399v1 )

ライセンス: Link先を確認
Ole Steuernagel and Ray-Kuang Lee(参考訳) 最近のアプローチ (Bohmann and Agudelo, Phys. Lett. 124, 133601 (2020)) は、量子状態の非古典的振る舞いの識別とノイズ耐性の検出を可能にする。 しかし、状態の量子性には敏感な測度を提供しておらず、今のところそのような測度は知られていない。 我々はボフマンとアグデロのアプローチを修正し、量子性測度 {\xi} を提供しながら元の提案の複数の強みを継承する。 xi は識別され、精巧に敏感であり、単調に成長し、系の非古典的励起が増加する。

A recent approach [Bohmann and Agudelo, Phys. Rev. Lett. 124, 133601 (2020)] allows for the discriminating and noise-tolerant detection of non-classical behaviour of quantum states. But it does not provide a sensitive measure for the quantumness of states; to date no such measure is known. We amend Bohmann and Agudelo's approach such that it inherits the multiple strengths of the original proposal whilst providing a quantumness measure, {\Xi}. {\Xi} is discriminating, exquisitely sensitive and grows monotonically with an increase in the system's non-classical excitations.
翻訳日:2023-11-30 22:32:08 公開日:2023-11-29
# 分光・偏光ビジョン:分光・偏光実世界データセット

Spectral and Polarization Vision: Spectro-polarimetric Real-world Dataset ( http://arxiv.org/abs/2311.17396v1 )

ライセンス: Link先を確認
Yujin Jeon, Eunsue Choi, Youngchan Kim, Yunseong Moon, Khalid Omer, Felix Heide, Seung-Hwan Baek(参考訳) 画像データセットは、コンピュータビジョンの既存の方法を検証するだけでなく、新しい方法の開発にも不可欠である。 既存の画像データセットのほとんどは、人間の視覚を模倣する三色強度画像に焦点を当てている。 しかし、厳しい環境や限られた脳能力を持つ動物の光の波動特性である偏光とスペクトルは、既存のデータセットでは不足している。 分光偏光度データセットは存在するが、これらのデータセットはオブジェクトの多様性、照明条件の制限、線形専用偏光データ、不適切な画像数を有する。 本稿では,3色ストークス画像とハイパースペクトルストークス画像の2つの分光偏光データセットを紹介する。 これらの新しいデータセットは、線形および円偏光の両方を含み、複数のスペクトルチャネルを導入し、現実世界のシーンを幅広く選択する。 本研究では,このデータセットを用いて分光偏光画像統計を分析し,高次元データの効率的な表現を開発し,形状から偏光へのスペクトル依存性を評価する。 このように、提案したデータセットは、データ駆動分光偏光分光画像および視覚研究の基礎を約束する。 データセットとコードは公開されます。

Image datasets are essential not only in validating existing methods in computer vision but also in developing new methods. Most existing image datasets focus on trichromatic intensity images to mimic human vision. However, polarization and spectrum, the wave properties of light that animals in harsh environments and with limited brain capacity often rely on, remain underrepresented in existing datasets. Although spectro-polarimetric datasets exist, these datasets have insufficient object diversity, limited illumination conditions, linear-only polarization data, and inadequate image count. Here, we introduce two spectro-polarimetric datasets: trichromatic Stokes images and hyperspectral Stokes images. These novel datasets encompass both linear and circular polarization; they introduce multiple spectral channels; and they feature a broad selection of real-world scenes. With our dataset in hand, we analyze the spectro-polarimetric image statistics, develop efficient representations of such high-dimensional data, and evaluate spectral dependency of shape-from-polarization methods. As such, the proposed dataset promises a foundation for data-driven spectro-polarimetric imaging and vision research. Dataset and code will be publicly available.
翻訳日:2023-11-30 22:31:55 公開日:2023-11-29
# ファイヤーブレイク配置問題に対するメタヒューリスティックスの比較--シミュレーションに基づく最適化アプローチ

Comparison of metaheuristics for the firebreak placement problem: a simulation-based optimization approach ( http://arxiv.org/abs/2311.17393v1 )

ライセンス: Link先を確認
David Palacios-Meneses, Jaime Carrasco, Sebasti\'an D\'avila, Maximiliano Mart\'inez, Rodrigo Mahaluf, and Andr\'es Weintraub(参考訳) 火災発生の問題は防火に不可欠であり、景観規模での有効性は将来の山火事の進行を阻害する能力に依存する。 したがって、十分な反応を得るには、点火から絶滅まで非常に予測不可能である火災の確率的性質を考慮する必要がある。 したがって、火災ブレイクの配置は、(1)目的関数は、風景の燃え尽きる期待セルを最小化すること、(2)火災ブレイクの場所である決定変数、(3)火災の空間的伝播/行動である確率変数である、という確率的最適化問題と見なすことができる。 本稿では,シミュレーションに基づく最適化(SbO)の観点から,対象関数が利用できない(ブラックボックス関数)が,山火事シミュレーションによって計算(および近似)できる問題に対する解法を提案する。 この目的のために、遺伝的アルゴリズムと把握が実装されている。 最終的な実装は遺伝的アルゴリズムに好都合な結果をもたらし、中程度から高い運用能力を持つシナリオと中レベルの確率性において強力な性能を示した。

The problem of firebreak placement is crucial for fire prevention, and its effectiveness at landscape scale will depend on their ability to impede the progress of future wildfires. To provide an adequate response, it is therefore necessary to consider the stochastic nature of fires, which are highly unpredictable from ignition to extinction. Thus, the placement of firebreaks can be considered a stochastic optimization problem where: (1) the objective function is to minimize the expected cells burnt of the landscape; (2) the decision variables being the location of firebreaks; and (3) the random variable being the spatial propagation/behavior of fires. In this paper, we propose a solution approach for the problem from the perspective of simulation-based optimization (SbO), where the objective function is not available (a black-box function), but can be computed (and/or approximated) by wildfire simulations. For this purpose, Genetic Algorithm and GRASP are implemented. The final implementation yielded favorable results for the Genetic Algorithm, demonstrating strong performance in scenarios with medium to high operational capacity, as well as medium levels of stochasticity
翻訳日:2023-11-30 22:31:38 公開日:2023-11-29
# 大規模言語モデルにおける不必要毒性の解明

Unveiling the Implicit Toxicity in Large Language Models ( http://arxiv.org/abs/2311.17391v1 )

ライセンス: Link先を確認
Jiaxin Wen, Pei Ke, Hao Sun, Zhexin Zhang, Chengfei Li, Jinfeng Bai, Minlie Huang(参考訳) 大規模言語モデル(llm)の開放性とその素晴らしい機能の組み合わせは、悪質な使用のために悪用される場合の新たな安全性問題につながる可能性がある。 近年の研究では、既存の毒性分類器で容易に検出できる有毒なアウトプットの探索に主眼を置いているが、単純ゼロショットプロンプトによる検出が極めて難しい暗黙的な有毒なアウトプットをLLMが生成できることが示されている。 さらに,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。 具体的には、明示的な有毒および非有毒の出力に対して暗黙的な有毒な出力を優先する報酬を言語モデルに最適化する。 広く検出された5つの毒性分類器の実験では、RL微調整により攻撃成功率が著しく改善できることが示されている。 例えば、RL-finetuned LLaMA-13Bモデルは、BADで90.04%、Davinci003で62.85%の攻撃成功率を達成する。 その結果,LSMは検出不能な暗黙の有毒な出力を発生させる重大な脅威となることが示唆された。 さらに, 攻撃法から得られた注釈例の微調整毒性分類器は, LLMによる暗黙的有害言語の検出能力を効果的に向上できることを示した。 コードはhttps://github.com/thu-coai/implicit-toxicityで公開されている。

The open-endedness of large language models (LLMs) combined with their impressive capabilities may lead to new safety issues when being exploited for malicious use. While recent studies primarily focus on probing toxic outputs that can be easily detected with existing toxicity classifiers, we show that LLMs can generate diverse implicit toxic outputs that are exceptionally difficult to detect via simply zero-shot prompting. Moreover, we propose a reinforcement learning (RL) based attacking method to further induce the implicit toxicity in LLMs. Specifically, we optimize the language model with a reward that prefers implicit toxic outputs to explicit toxic and non-toxic ones. Experiments on five widely-adopted toxicity classifiers demonstrate that the attack success rate can be significantly improved through RL fine-tuning. For instance, the RL-finetuned LLaMA-13B model achieves an attack success rate of 90.04% on BAD and 62.85% on Davinci003. Our findings suggest that LLMs pose a significant threat in generating undetectable implicit toxic outputs. We further show that fine-tuning toxicity classifiers on the annotated examples from our attacking method can effectively enhance their ability to detect LLM-generated implicit toxic language. The code is publicly available at https://github.com/thu-coai/Implicit-Toxicity.
翻訳日:2023-11-30 22:31:04 公開日:2023-11-29
# 360Loc: クロスデバイスクエリによる全方位視覚ローカライゼーションのためのデータセットとベンチマーク

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries ( http://arxiv.org/abs/2311.17389v1 )

ライセンス: Link先を確認
Huajian Huang, Changkun Liu, Yipeng Zhu, Hui Cheng, Tristan Braud, Sai-Kit Yeung(参考訳) ポータブル360$^\circ$カメラは、大規模なビジュアルデータベースを確立するための安価で効率的なツールになりつつある。 シーンの全方位を撮影することで、これらのカメラは視覚的なローカライズに不可欠な環境モデルを構築することができる。 しかし、価値あるデータセットがないため、このような利点は見過ごされがちである。 そこで本稿では,360$^\circ$画像と基底真理のポーズからなる新しいベンチマークデータセットである360locを提案する。 本研究では,360$^\circ$画像とlidarデータを組み合わせた360$^\circ$マッピングの実用的実装を行い,基底真理6dofポーズを生成する。 360Locは、360$^\circ$参照フレーム、ピンホール、超ワイドなFoV魚眼、360$^\circ$カメラからのクエリフレームを含む、クロスデバイス視覚位置決めの課題を探求する最初のデータセットとベンチマークである。 視覚的ローカライゼーションタスクにおいて,360$^\circ$画像から低FoVクエリフレームを生成する仮想カメラ手法を提案する。 また,この仮想カメラアプローチを機能マッチングベースとポジショニングベースに拡張し,クロスデバイスドメインギャップによるパフォーマンス損失を軽減し,最先端ベースラインに対する効果を評価する。 一方向の視覚的ローカライゼーションは、対称性と繰り返し構造を持つ大規模シーンにおいてより堅牢であることを示す。 これらの結果は、360度カメラマッピングとデバイス横断クエリによる全方位視覚定位に関する新たな洞察を提供する。

Portable 360$^\circ$ cameras are becoming a cheap and efficient tool to establish large visual databases. By capturing omnidirectional views of a scene, these cameras could expedite building environment models that are essential for visual localization. However, such an advantage is often overlooked due to the lack of valuable datasets. This paper introduces a new benchmark dataset, 360Loc, composed of 360$^\circ$ images with ground truth poses for visual localization. We present a practical implementation of 360$^\circ$ mapping combining 360$^\circ$ images with lidar data to generate the ground truth 6DoF poses. 360Loc is the first dataset and benchmark that explores the challenge of cross-device visual positioning, involving 360$^\circ$ reference frames, and query frames from pinhole, ultra-wide FoV fisheye, and 360$^\circ$ cameras. We propose a virtual camera approach to generate lower-FoV query frames from 360$^\circ$ images, which ensures a fair comparison of performance among different query types in visual localization tasks. We also extend this virtual camera approach to feature matching-based and pose regression-based methods to alleviate the performance loss caused by the cross-device domain gap, and evaluate its effectiveness against state-of-the-art baselines. We demonstrate that omnidirectional visual localization is more robust in challenging large-scale scenes with symmetries and repetitive structures. These results provide new insights into 360-camera mapping and omnidirectional visual localization with cross-device queries.
翻訳日:2023-11-30 22:30:38 公開日:2023-11-29
# 量子コンピュータ上のシュウィンガーモデルシミュレーションのためのエンドツーエンドの複雑さ

End-to-end complexity for simulating the Schwinger model on quantum computers ( http://arxiv.org/abs/2311.17388v1 )

ライセンス: Link先を確認
Kazuki Sakamoto, Hayata Morisaki, Junichi Haruna, Etsuko Itou, Keisuke Fujii, Kosuke Mitarai(参考訳) シュウィンガーモデルは最も単純なゲージ理論の一つである。 このモデルの位相的用語は、古典的モンテカルロ法における悪名高い符号問題につながることが知られている。 これとは対照的に、近年、ハミルトン形式論における量子コンピューティングが注目されている。 本研究では,従来のコンピュータでは計算が難しい物理量を計算するために,量子コンピュータに必要なリソースを推定する。 具体的には,シュウィンガーモデルハミルトンのブロックエンコーディングの効率的な実装を提案する。 ハミルトニアンの構造を考えると、このブロックエンコーディングは正規化係数$\mathcal{O}(N^3)$で、$\mathcal{O}(N+\log^2(N/\varepsilon))$ T ゲートで実装できる。 エンドツーエンドのアプリケーションとして、真空持続振幅を計算する。 その結果、システムサイズ $n=100$ と付加誤差 $\varepsilon=0.01$ に対し、発展時間 $t$ と格子間隔 a が $t/2a=10$ を満たす場合、真空持続振幅はおよそ 10^{13}$ t ゲートを用いて計算できることがわかった。 本研究では,FTQC と FTQC の初期における量子コンピュータの性能予測に関する知見を提供し,現実的な時間枠内で有意義な問題を解く上での課題を明らかにする。

The Schwinger model is one of the simplest gauge theories. It is known that a topological term of the model leads to the infamous sign problem in the classical Monte Carlo method. In contrast to this, recently, quantum computing in Hamiltonian formalism has gained attention. In this work, we estimate the resources needed for quantum computers to compute physical quantities that are challenging to compute on classical computers. Specifically, we propose an efficient implementation of block-encoding of the Schwinger model Hamiltonian. Considering the structure of the Hamiltonian, this block-encoding with a normalization factor of $\mathcal{O}(N^3)$ can be implemented using $\mathcal{O}(N+\log^2(N/\varepsilon))$ T gates. As an end-to-end application, we compute the vacuum persistence amplitude. As a result, we found that for a system size $N=100$ and an additive error $\varepsilon=0.01$, with an evolution time $t$ and a lattice spacing a satisfying $t/2a=10$, the vacuum persistence amplitude can be calculated using about $10^{13}$ T gates. Our results provide insights into predictions about the performance of quantum computers in the FTQC and early FTQC era, clarifying the challenges in solving meaningful problems within a realistic timeframe.
翻訳日:2023-11-30 22:30:14 公開日:2023-11-29
# 量子状態のスタビリザー分解を最適化するための基礎

Bases for optimising stabiliser decompositions of quantum states ( http://arxiv.org/abs/2311.17384v1 )

ライセンス: Link先を確認
Nadish de Silva, Ming Yin, Sergii Strelchuk(参考訳) スタビリサー状態は量子計算理論において中心的な役割を果たす。 例えば、量子誤り訂正スキームでデータをエンコードするために使用される。 任意量子状態は多くの安定化器分解(安定化器状態の重ね合わせとして表される方法)がある。 安定化器分解の構造を理解することは、短期量子コンピュータの検証とシミュレーションに応用できる。 我々は、$n$-qubit 安定化状態の線型依存のベクトル空間を導入し、研究する。 これらの空間は、n$で指数関数的に大きくなるベクトルを含む標準基底を持つ。 定数サイズ3の線形依存のエレガントな基底を構築する。 我々は,大規模状態の安定化度を計算に応用し,魔法状態の安定化度合いを向上するための将来の可能性を提案する。

Stabiliser states play a central role in the theory of quantum computation. For example, they are used to encode data in quantum error correction schemes. Arbitrary quantum states admit many stabiliser decompositions: ways of being expressed as a superposition of stabiliser states. Understanding the structure of stabiliser decompositions has applications in verifying and simulating near-term quantum computers. We introduce and study the vector space of linear dependencies of $n$-qubit stabiliser states. These spaces have canonical bases containing vectors whose size grows exponentially in $n$. We construct elegant bases of linear dependencies of constant size three. We apply our methods to computing the stabiliser extent of large states and suggest potential future applications to improving bounds on the stabiliser rank of magic states.
翻訳日:2023-11-30 22:29:47 公開日:2023-11-29
# レーザー位相雑音に基づく超高速量子ランダム数生成法

An Ultra-fast Quantum Random Number Generation Scheme Based on Laser Phase Noise ( http://arxiv.org/abs/2311.17380v1 )

ライセンス: Link先を確認
Jie Yang, Mei Wu, Yichen Zhang, Jinlu Liu, Fan Fan, Yang Li, Wei Huang, Heng Wang, Yan Pan, Qi Su, Yiming Bian, Haoyuan Jiang, Jiayi Dou, Song Yu, Bingjie Xu, Bin Luoand Hong Guo(参考訳) 量子力学の固有ランダム性に基づいて、量子乱数生成器は真の予測不能な乱数列へのアクセスを可能にし、現在、レーザー位相ノイズに基づく一般的なスキームである高性能で小型化に向かっている。 しかし、この方式は一般に、特にチップ統合において、速度と実装の複雑さに制限がある。 本研究では,このようなスキームのワイナープロセスに基づく一般物理モデルを導入し,生成率の限界を明確に説明し,システム性能を総合的に最適化するアプローチを提案する。 本稿では, 簡単なスペクトルフィルタリング法により多量の量子ランダム性を含む量子エントロピー源の潜在的な帯域幅を利用して, 超高速発生速度218Gbpsの量子エントロピー源の帯域幅を20GHzまで実験的に増加させ, レーザー位相ノイズに基づくスキームの新たな記録を1桁に設定する。 提案手法は,複雑なハードウェアを必要とせず,その天井速度を大幅に向上させるため,高性能かつ低実装コストのチップ統合を効果的に実現し,大規模アプリケーションへの道を開く。

Based on the intrinsic random property of quantum mechanics, quantum random number generators allow for access of truly unpredictable random sequence and are now heading towards high performance and small miniaturization, among which a popular scheme is based on the laser phase noise. However, this scheme is generally limited in speed and implementation complexity, especially for chip integration. In this work, a general physical model based on wiener process for such schemes is introduced, which provides an approach to clearly explain the limitation on the generation rate and comprehensively optimize the system performance. We present an insight to exploit the potential bandwidth of the quantum entropy source that contains plentiful quantum randomness with a simple spectral filtering method and experimentally boost the bandwidth of the corresponding quantum entropy source to 20 GHz, based on which an ultra-fast generation rate of 218 Gbps is demonstrated, setting a new record for laser phase noise based schemes by one order of magnitude. Our proposal significantly enhances the ceiling speed of such schemes without requiring extra complex hardware, thus effectively benefits the corresponding chip integration with high performance and low implementation cost, which paves the way for its large-scale applications.
翻訳日:2023-11-30 22:29:36 公開日:2023-11-29
# CESAR:マルチターンダイアログのための合成指示の自動誘導

CESAR: Automatic Induction of Compositional Instructions for Multi-turn Dialogs ( http://arxiv.org/abs/2311.17376v1 )

ライセンス: Link先を確認
Taha Aksu, Devamanyu Hazarika, Shikib Mehri, Seokhwan Kim, Dilek Hakkani-T\"ur, Yang Liu, Mahdi Namazifar(参考訳) インストラクションベースのマルチタスクは,マルチターンダイアログアプリケーションにおいて,大規模言語モデル(LLM)の成功に重要な役割を果たしている。 公開されているLLMは有望なパフォーマンスを示しているが、複数の制約のある複雑な命令に晒されると、ChatGPTのような最先端モデルに遅れる。 本研究では,このギャップを埋める上で,大規模な複雑な実演が可能であることが重要であると仮定する。 ダイアログアプリケーションに着目して,多数のダイアログタスクを同じ形式で統一し,手作業なしで複雑な命令をプログラム的に誘導する,新しいフレームワークであるCESARを提案する。 命令ベースのダイアログタスクのベンチマークであるInstructDialにCESARを適用する。 我々はさらに,新しいデータセットとタスクによるインストラクションを強化し,cesarを用いて合成命令による複雑なタスクを誘導する。 このベンチマークには、86の基本的なタスクと68の複合タスクを備えた63のデータセットが含まれている。 厳密な実験を通じて、豊富な指示を提供するCESARのスケーラビリティを実証する。 InstructDial++でトレーニングされたモデルは、複数のスタイル制約を求めるプロンプトなど、コンポジションプロンプトに従うことができる。

Instruction-based multitasking has played a critical role in the success of large language models (LLMs) in multi-turn dialog applications. While publicly available LLMs have shown promising performance, when exposed to complex instructions with multiple constraints, they lag against state-of-the-art models like ChatGPT. In this work, we hypothesize that the availability of large-scale complex demonstrations is crucial in bridging this gap. Focusing on dialog applications, we propose a novel framework, CESAR, that unifies a large number of dialog tasks in the same format and allows programmatic induction of complex instructions without any manual effort. We apply CESAR on InstructDial, a benchmark for instruction-based dialog tasks. We further enhance InstructDial with new datasets and tasks and utilize CESAR to induce complex tasks with compositional instructions. This results in a new benchmark called InstructDial++, which includes 63 datasets with 86 basic tasks and 68 composite tasks. Through rigorous experiments, we demonstrate the scalability of CESAR in providing rich instructions. Models trained on InstructDial++ can follow compositional prompts, such as prompts that ask for multiple stylistic constraints.
翻訳日:2023-11-30 22:29:14 公開日:2023-11-29
# 悪はデータの中にある:部分的知識蒸留による公正なグラフニューラルネットワークの学習

The Devil is in the Data: Learning Fair Graph Neural Networks via Partial Knowledge Distillation ( http://arxiv.org/abs/2311.17373v1 )

ライセンス: Link先を確認
Yuchang Zhu, Jintang Li, Liang Chen, Zibin Zheng(参考訳) グラフニューラルネットワーク(GNN)は、多くのハイテイクタスクでますます使われており、その結果、彼らの公正さに注目が集まっている。 GNNは、性別や人種などのセンシティブな属性で分けて、特定の人口集団に対して差別的な決定をする傾向があるため、不公平であることが示されている。 近年の作品は公平性の向上に力を入れているが、しばしばアクセス可能な人口統計情報を必要とする。 これは、法的制約のため、現実のシナリオでの適用性を大幅に制限する。 そこで,本研究では,fairgkdという知識蒸留によるfairgnnの学習方法を提案する。 我々の研究は、部分的なデータ(ノード属性やトポロジデータのみ)でGNNを訓練することで、実用コストではあるものの、公平性を向上できるという実証的な観察によって動機付けられている。 フェアネスと実用性能のバランスの取れたトレードオフを実現するために,我々は,GNN学生の学習を指導するために,より公正で情報的な知識を蒸留する合成教師を構築するために,フェアネス専門家(GNN)のセットを用いる。 いくつかのベンチマークデータセットの実験により、人口統計情報へのアクセスを必要としないFairGKDは、実用性を維持しながら、GNNの公正性を大幅に向上することを示した。

Graph neural networks (GNNs) are being increasingly used in many high-stakes tasks, and as a result, there is growing attention on their fairness recently. GNNs have been shown to be unfair as they tend to make discriminatory decisions toward certain demographic groups, divided by sensitive attributes such as gender and race. While recent works have been devoted to improving their fairness performance, they often require accessible demographic information. This greatly limits their applicability in real-world scenarios due to legal restrictions. To address this problem, we present a demographic-agnostic method to learn fair GNNs via knowledge distillation, namely FairGKD. Our work is motivated by the empirical observation that training GNNs on partial data (i.e., only node attributes or topology data) can improve their fairness, albeit at the cost of utility. To make a balanced trade-off between fairness and utility performance, we employ a set of fairness experts (i.e., GNNs trained on different partial data) to construct the synthetic teacher, which distills fairer and informative knowledge to guide the learning of the GNN student. Experiments on several benchmark datasets demonstrate that FairGKD, which does not require access to demographic information, significantly improves the fairness of GNNs by a large margin while maintaining their utility.
翻訳日:2023-11-30 22:28:57 公開日:2023-11-29
# 私たちはMADに行きますか。 医学的Q&Aのための言語モデル間のマルチエージェント議論のベンチマーク

Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A ( http://arxiv.org/abs/2311.17371v1 )

ライセンス: Link先を確認
Andries Smit, Paul Duckworth, Nathan Grinsztajn, Kale-ab Tessera, Thomas D. Barrett and Arnu Pretorius(参考訳) 大規模言語モデル(LLM)の最近の進歩は、医学的問い合わせに反応する可能性を示している。 しかし、生成エージェントが正確かつ信頼性の高い回答を提供することの確保は、まだ進行中の課題である。 この文脈において、マルチエージェント討論(MAD)はLLMの真正性を高めるための顕著な戦略として現れている。 本研究では,医療用Q&AのためのMAD戦略の総合的ベンチマークとオープンソース実装を提供する。 これは、コスト、時間、正確性の間のトレードオフを含む様々な戦略の効果的な利用を探求する。 我々はこれらの知見に基づいて、以前公表されたQ&Aタスクの戦略より優れたエージェント合意に基づく、新たな議論促進戦略を提供する。

Recent advancements in large language models (LLMs) underscore their potential for responding to medical inquiries. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a prominent strategy for enhancing the truthfulness of LLMs. In this work, we provide a comprehensive benchmark of MAD strategies for medical Q&A, along with open-source implementations. This explores the effective utilization of various strategies including the trade-offs between cost, time, and accuracy. We build upon these insights to provide a novel debate-prompting strategy based on agent agreement that outperforms previously published strategies on medical Q&A tasks.
翻訳日:2023-11-30 22:28:31 公開日:2023-11-29
# U-Netとランドサット画像を用いたバーンドエリアマッピングのための2つのスケーラブルアプローチ

Two Scalable Approaches for Burned-Area Mapping Using U-Net and Landsat Imagery ( http://arxiv.org/abs/2311.17368v1 )

ライセンス: Link先を確認
Ian Mancilla-Wulff, Jaime Carrasco, Cristobal Pais, Alejandro Miranda, Andres Weintraub(参考訳) 森林火災のモニタリングは、地球への影響を最小化し、多くの否定的な環境、経済、社会的影響を理解する上で不可欠なステップである。 近年のリモートセンシング技術と人工知能の応用が組み合わさって、リアルタイムの高分解能火災モニタリングが改善されている。 本研究では,バーンドエリアマッピングプロセスの自動化と最適化のために,u-netモデルに基づく2つの手法を検討する。 128 と AllSizes (AS) は、入力画像を異なるサイズにトリミングすることで、異なるクラスのバランスを持つデータセットでトレーニングされる。 その後、チリの2つの火災発生地域のランドサット画像と時系列データに適用される。 ハイパーパラメータ最適化によるモデル性能向上の結果,両手法の有効性が示された。 研究エリアの195個の代表画像に基づくテストでは、asモデルを用いたデータセットのバランスの増大が、よりよいパフォーマンスをもたらすことが示されている。 具体的には、ASはDice Coefficient(DC)が0.93、Omission Error(OE)が0.086、Committe Error(CE)が0.045で、18モデルはDCが0.86、OEが0.12、CEが0.12であった。 これらの知見は、スケーラブルな自動焼成領域マッピングツールの開発の基盤となるだろう。

Monitoring wildfires is an essential step in minimizing their impact on the planet, understanding the many negative environmental, economic, and social consequences. Recent advances in remote sensing technology combined with the increasing application of artificial intelligence methods have improved real-time, high-resolution fire monitoring. This study explores two proposed approaches based on the U-Net model for automating and optimizing the burned-area mapping process. Denoted 128 and AllSizes (AS), they are trained on datasets with a different class balance by cropping input images to different sizes. They are then applied to Landsat imagery and time-series data from two fire-prone regions in Chile. The results obtained after enhancement of model performance by hyperparameter optimization demonstrate the effectiveness of both approaches. Tests based on 195 representative images of the study area show that increasing dataset balance using the AS model yields better performance. More specifically, AS exhibited a Dice Coefficient (DC) of 0.93, an Omission Error (OE) of 0.086, and a Commission Error (CE) of 0.045, while the 128 model achieved a DC of 0.86, an OE of 0.12, and a CE of 0.12. These findings should provide a basis for further development of scalable automatic burned-area mapping tools.
翻訳日:2023-11-30 22:28:20 公開日:2023-11-29
# ハンドアクション認識と動作予測のための階層型時間変換器

Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction ( http://arxiv.org/abs/2311.17366v1 )

ライセンス: Link先を確認
Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato, Taku Komura, Wenping Wang(参考訳) ハンドアクション認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。 先行研究は認識と予測のいずれにも焦点をあてるが,両側面を協調的に捉え,短時間のハンドモーションとタイムスタンプ間で観察される長期動作の一貫性を活かし,現実的な動作予測を容易にするための生成的トランスフォーマーvaeアーキテクチャを提案する。 下部のポーズブロックはショートスパンのポーズを、上部のアクションブロックはロングスパンのアクションをモデル化する。 フレームワークは複数のデータセットにわたってトレーニングされ、ポーズとアクションブロックは別々にトレーニングされ、異なる品質のポーズアクションアノテーションを十分に活用します。 評価の結果、複数のデータセットにおいて、認識と予測のジョイントモデリングは、別々のソリューションよりも改善され、意味階層と時間階層は、長期的なポーズとアクションモデリングを可能にする。

We present a novel framework that concurrently tackles hand action recognition and 3D future hand motion prediction. While previous works focus on either recognition or prediction, we propose a generative Transformer VAE architecture to jointly capture both aspects, facilitating realistic motion prediction by leveraging the short-term hand motion and long-term action consistency observed across timestamps.To ensure faithful representation of the semantic dependency and different temporal granularity of hand pose and action, our framework is decomposed into two cascaded VAE blocks. The lower pose block models short-span poses, while the upper action block models long-span action. These are connected by a mid-level feature that represents sub-second series of hand poses.Our framework is trained across multiple datasets, where pose and action blocks are trained separately to fully utilize pose-action annotations of different qualities. Evaluations show that on multiple datasets, the joint modeling of recognition and prediction improves over separate solutions, and the semantic and temporal hierarchy enables long-term pose and action modeling.
翻訳日:2023-11-30 22:27:57 公開日:2023-11-29
# Symbol-LLM:視覚活動推論における記号システムのための言語モデル

Symbol-LLM: Leverage Language Models for Symbolic System in Visual Human Activity Reasoning ( http://arxiv.org/abs/2311.17365v1 )

ライセンス: Link先を確認
Xiaoqian Wu, Yong-Lu Li, Jianhua Sun, Cewu Lu(参考訳) 人間の推論は、直感的で連想的な「システム1」と、意図的で論理的な「システム2」の協調として理解することができる。 視覚活動理解における既存のSystem-1ライクな手法では、System-2処理を統合して説明可能性、一般化、データ効率を改善することが重要である。 行動推論の可能な道の1つは、記号と規則からなる記号体系を構築し、一つの規則が複数のシンボルを結び、人間の知識と推論能力を意味する。 従来の手法は進歩してきたが、手工芸の限られた記号と視覚的アノテーションの限られた規則に欠陥があり、複雑な活動パターンをカバーできず、作曲の一般化が欠如している。 この欠陥を克服するために,広い範囲のシンボルと合理的規則という2つの理想的な特性を持つ新しいシンボルシステムを提案する。 手動アノテーションによる膨大な人間知識の収集は、このシンボリックシステムをインスタンス化するのにコストがかかる。 代わりに、LLM(Lymbol-LLM)の最近の進歩を、2つの理想的な性質、すなわち、大言語モデル(Symbol-LLM)のシンボルの近似として活用する。 そして、画像から視覚的内容が抽出され、シンボルとしてチェックされ、ファジィ論理計算によるルールに基づいてアクティビティセマンティクスが推論される。 本手法は広範囲な活動理解タスクにおいて優位性を示す。 コードとデータはhttps://mvig-rhos.com/symbol_llmで入手できる。

Human reasoning can be understood as a cooperation between the intuitive, associative "System-1" and the deliberative, logical "System-2". For existing System-1-like methods in visual activity understanding, it is crucial to integrate System-2 processing to improve explainability, generalization, and data efficiency. One possible path of activity reasoning is building a symbolic system composed of symbols and rules, where one rule connects multiple symbols, implying human knowledge and reasoning abilities. Previous methods have made progress, but are defective with limited symbols from handcraft and limited rules from visual-based annotations, failing to cover the complex patterns of activities and lacking compositional generalization. To overcome the defects, we propose a new symbolic system with two ideal important properties: broad-coverage symbols and rational rules. Collecting massive human knowledge via manual annotations is expensive to instantiate this symbolic system. Instead, we leverage the recent advancement of LLMs (Large Language Models) as an approximation of the two ideal properties, i.e., Symbols from Large Language Models (Symbol-LLM). Then, given an image, visual contents from the images are extracted and checked as symbols and activity semantics are reasoned out based on rules via fuzzy logic calculation. Our method shows superiority in extensive activity understanding tasks. Code and data are available at https://mvig-rhos.com/symbol_llm.
翻訳日:2023-11-30 22:27:36 公開日:2023-11-29
# 空間構造は心理的回復にどのように影響するか グラフニューラルネットワークとストリートビュー画像に基づく一手法

How does spatial structure affect psychological restoration? A method based on Graph Neural Networks and Street View Imagery ( http://arxiv.org/abs/2311.17361v1 )

ライセンス: Link先を確認
Haoran Ma, Yan Zhang, Pengyuan Liu, Fan Zhang, Pengyu Zhua(参考訳) 注意修復理論(art)は、都市と自然の修復品質を理解するための4つの重要な指標(距離、範囲、魅力、互換性)を持つ理論的枠組みを示している。 しかし、これまでの研究では、非シーケンスデータと非空間依存の手法に依存しており、ここで定義されている空間構造が、シーンエンティティ間の位置関係が復元品質に与える影響を見越している。 過去の手法は、都市規模での修復品質の測定も困難にしている。 本研究では,空間依存型グラフニューラルネットワーク(gnns)アプローチを提案し,都市規模における空間構造と修復品質の関係を明らかにする。 具体的には,街路と都市レベルで2種類のグラフを構築した。 空間構造を表現するために,道路セグメントの逐次ストリートビュー画像(svis)を用いて実体間の位置関係を捉えたストリートレベルグラフを用いた。 道路のトポロジー関係を非ユークリッドデータ構造としてモデル化した都市レベルグラフ(知覚的特徴、空間的特徴、社会経済的特徴を含む)は、復元品質を測定するために用いられた。 結果はこう示しています 1)空間依存型GNNモデルは従来の手法より優れている(Acc = 0.735, F1 = 0.732)。 2) 連続SVIデータによる空間構造は, 復元品質に大きな影響を及ぼす。 3) 同じ修復品質の空間は, 異なる空間構造パターンを示した。 本研究では,空間構造と修復品質の関連性を明らかにするとともに,今後の都市福祉改善に向けた新たな視点を提供する。

The Attention Restoration Theory (ART) presents a theoretical framework with four essential indicators (being away, extent, fascinating, and compatibility) for comprehending urban and natural restoration quality. However, previous studies relied on non-sequential data and non-spatial dependent methods, which overlooks the impact of spatial structure defined here as the positional relationships between scene entities on restoration quality. The past methods also make it challenging to measure restoration quality on an urban scale. In this work, a spatial-dependent graph neural networks (GNNs) approach is proposed to reveal the relation between spatial structure and restoration quality on an urban scale. Specifically, we constructed two different types of graphs at the street and city levels. The street-level graphs, using sequential street view images (SVIs) of road segments to capture position relationships between entities, were used to represent spatial structure. The city-level graph, modeling the topological relationships of roads as non-Euclidean data structures and embedding urban features (including Perception-features, Spatial-features, and Socioeconomic-features), was used to measure restoration quality. The results demonstrate that: 1) spatial-dependent GNNs model outperforms traditional methods (Acc = 0.735, F1 = 0.732); 2) spatial structure portrayed through sequential SVIs data significantly influences restoration quality; 3) spaces with the same restoration quality exhibited distinct spatial structures patterns. This study clarifies the association between spatial structure and restoration quality, providing a new perspective to improve urban well-being in the future.
翻訳日:2023-11-30 22:27:11 公開日:2023-11-29
# CLOMO: 大規模言語モデルによる対実論理修正

CLOMO: Counterfactual Logical Modification with Large Language Models ( http://arxiv.org/abs/2311.17438v1 )

ライセンス: Link先を確認
Yinya Huang, Ruixin Hong, Hongming Zhang, Wei Shao, Zhicheng Yang, Dong Yu, Changshui Zhang, Xiaodan Liang, Linqi Song(参考訳) 本研究では,大規模言語モデル(LLM)の対実的推論能力の領域を探索する。 我々の主な目的は、LLM内の反現実的思考過程を育成し、それらのプロセスの有効性を厳格に評価することである。 具体的には、新しいタスク、CLOMO(Counterfactual Logical Modification)と、高品質な人間注釈ベンチマークを紹介する。 このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければならない。 生成モデルの反事実能力を評価するために, タスクをマルチチョイス問題としてモデル化するのではなく, llmの自然言語出力を直接評価するための, 革新的な評価指標, logicaware counterfactual scoreを提案する。 分析の結果,提案手法は人間の好みとよく一致することがわかった。 実験の結果,LLMは論理的対実的思考において顕著な能力を示すが,現在の能力と人的パフォーマンスとの間には明確なギャップが残っていることがわかった。

In this study, we delve into the realm of counterfactual reasoning capabilities of large language models (LLMs). Our primary objective is to cultivate the counterfactual thought processes within LLMs and rigorously assess these processes for their validity. Specifically, we introduce a novel task, Counterfactual Logical Modification (CLOMO), and a high-quality human-annotated benchmark. In this task, LLMs must adeptly alter a given argumentative text to uphold a predetermined logical relationship. To effectively evaluate a generation model's counterfactual capabilities, we propose an innovative evaluation metric, the LogicAware Counterfactual Score to directly evaluate the natural language output of LLMs instead of modeling the task as a multiple-choice problem. Analysis shows that the proposed automatic metric aligns well with human preference. Our experimental results show that while LLMs demonstrate a notable capacity for logical counterfactual thinking, there remains a discernible gap between their current abilities and human performance.
翻訳日:2023-11-30 22:20:57 公開日:2023-11-29
# MM-Narrator:マルチモーダル・インコンテキスト学習による長編動画のナレーション

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning ( http://arxiv.org/abs/2311.17435v1 )

ライセンス: Link先を確認
Chaoyi Zhang, Kevin Lin, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Chung-Ching Lin, Zicheng Liu, Lijuan Wang(参考訳) 音声記述(AD)生成のためのマルチモーダルインコンテキスト学習によるGPT-4を利用した新しいシステムMM-Narratorを提案する。 短いビデオクリップで下流の微調整に主に焦点を合わせる従来の方法とは異なり、MM-Narratorは、時間を超えても、何時間もかかるビデオの正確な音声記述を自動回帰的に生成することに長けている。 この機能は、効率的なレジスタ・アンド・リコール機構を通じて、短期のテキストコンテキストと長期の視覚記憶の両方を効果的に活用するメモリ拡張生成プロセスによって実現される。 これらの文脈記憶は、ストーリーラインやキャラクタのアイデンティティを含む関連する過去の情報をコンパイルし、ストーリーコヒーレントでキャラクタ中心のオーディオ記述の正確な追跡と描写を保証する。 mm-narratorのトレーニングフリーな設計を維持しつつ,その多段階推論能力を大きく向上させるための,複雑度に基づく実演選択戦略を提案する。 MAD-evalデータセットによる実験結果から,MM-Narrator は既存の微調整アプローチと LLM ベースのアプローチの両方を標準評価指標で測定した場合,常に性能が向上することが示された。 さらに,逐次テキスト生成のためのセグメントベース評価器についても紹介する。 GPT-4を応用したこの評価器は、様々な拡張可能な次元でAD生成性能を示す。

We present MM-Narrator, a novel system leveraging GPT-4 with multimodal in-context learning for the generation of audio descriptions (AD). Unlike previous methods that primarily focused on downstream fine-tuning with short video clips, MM-Narrator excels in generating precise audio descriptions for videos of extensive lengths, even beyond hours, in an autoregressive manner. This capability is made possible by the proposed memory-augmented generation process, which effectively utilizes both the short-term textual context and long-term visual memory through an efficient register-and-recall mechanism. These contextual memories compile pertinent past information, including storylines and character identities, ensuring an accurate tracking and depicting of story-coherent and character-centric audio descriptions. Maintaining the training-free design of MM-Narrator, we further propose a complexity-based demonstration selection strategy to largely enhance its multi-step reasoning capability via few-shot multimodal in-context learning (MM-ICL). Experimental results on MAD-eval dataset demonstrate that MM-Narrator consistently outperforms both the existing fine-tuning-based approaches and LLM-based approaches in most scenarios, as measured by standard evaluation metrics. Additionally, we introduce the first segment-based evaluator for recurrent text generation. Empowered by GPT-4, this evaluator comprehensively reasons and marks AD generation performance in various extendable dimensions.
翻訳日:2023-11-30 22:20:40 公開日:2023-11-29
# グループワイドスパースと説明可能な敵攻撃

Group-wise Sparse and Explainable Adversarial Attacks ( http://arxiv.org/abs/2311.17434v1 )

ライセンス: Link先を確認
Shpresim Sadiku, Moritz Wagner, Sebastian Pokutta(参考訳) sparse adversarial attacks fool deep neural networks (dnns) は、最小のピクセル摂動(英語版)を通じて、通常$\ell_0$のノルムで正規化される。 近年の取り組みは、この標準を核グループノルムのような構造的疎結合正則化器に置き換え、グループワイズ対逆攻撃を作らせている。 結果として生じる摂動は説明可能であり、非常に実用的な関係を持ち、これまで予想されていたよりもさらに大きなDNNの脆弱性に光を当てる。 しかし、そのような攻撃を作ることは、非凸目的におけるピクセル群の標準を計算することを伴うため、最適化の課題となる。 本稿では,画像の意味的に意味のある領域においてグループ的スパース攻撃を同時に生成するアルゴリズムを提案する。 各イテレーションにおいて、我々のアルゴリズムのコア操作は、準次対向損失の最適化を伴う。 この最適化は、いくつかのイテレーションに1/2$-quasinorm proximal operator(非凸プログラミングに適したメソッド)を用いることで達成される。 その後、アルゴリズムは予測されたネステロフの加速勾配降下に遷移し、摂動等級に2$ノルム正規化が適用される。 CIFAR-10 と ImageNet のデータセットを用いて,ターゲットと非ターゲットの両方の攻撃シナリオにおける新たな攻撃の有効性を厳格に評価した。 最先端の手法と比較すると、この攻撃は、cifar-10では48.12\%、imagenetでは40.78\%(平均的な場合、標的攻撃)という、グループごとのスパース性が一貫して著しく増加する。 特に、この性能は大幅に高速な計算時間と100\%の攻撃成功率で補完されている。

Sparse adversarial attacks fool deep neural networks (DNNs) through minimal pixel perturbations, typically regularized by the $\ell_0$ norm. Recent efforts have replaced this norm with a structural sparsity regularizer, such as the nuclear group norm, to craft group-wise sparse adversarial attacks. The resulting perturbations are thus explainable and hold significant practical relevance, shedding light on an even greater vulnerability of DNNs than previously anticipated. However, crafting such attacks poses an optimization challenge, as it involves computing norms for groups of pixels within a non-convex objective. In this paper, we tackle this challenge by presenting an algorithm that simultaneously generates group-wise sparse attacks within semantically meaningful areas of an image. In each iteration, the core operation of our algorithm involves the optimization of a quasinorm adversarial loss. This optimization is achieved by employing the $1/2$-quasinorm proximal operator for some iterations, a method tailored for nonconvex programming. Subsequently, the algorithm transitions to a projected Nesterov's accelerated gradient descent with $2$-norm regularization applied to perturbation magnitudes. We rigorously evaluate the efficacy of our novel attack in both targeted and non-targeted attack scenarios, on CIFAR-10 and ImageNet datasets. When compared to state-of-the-art methods, our attack consistently results in a remarkable increase in group-wise sparsity, e.g., an increase of $48.12\%$ on CIFAR-10 and $40.78\%$ on ImageNet (average case, targeted attack), all while maintaining lower perturbation magnitudes. Notably, this performance is complemented by a significantly faster computation time and a $100\%$ attack success rate.
翻訳日:2023-11-30 22:20:13 公開日:2023-11-29
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v1 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2023-11-30 22:19:41 公開日:2023-11-29
# TARGET: GPT4によるPromptベースのNLPモデルに対するテンプレート転送可能なバックドア攻撃

TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP Models via GPT4 ( http://arxiv.org/abs/2311.17429v1 )

ライセンス: Link先を確認
Zihao Tan, Qingliang Chen, Yongjian Huang and Chen Liang(参考訳) プロンプトベースの学習は、少数ショットシナリオなど、多くの低リソースのNLPタスクに広く適用されている。 しかし、このパラダイムはバックドア攻撃に弱いことが示されている。 既存の攻撃手法のほとんどは、事前トレーニングフェーズで手動で事前に定義されたテンプレートをトリガーとして挿入して、被害者モデルをトレーニングし、下流タスクで同じトリガーを使用して推論を行うことに重点を置いている。 本稿では,データ非依存攻撃手法であるTARGET(Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP model via GPT4)を提案する。 具体的には、まずGPT4を用いて手動テンプレートを再構成し、トーンストロングとノーマルテンプレートを生成し、前者はトレーニング前段階でバックドアトリガとしてモデルに注入する。 次に、下流タスクで上記のテンプレートを直接使用するだけでなく、GPT4を使用して上記のテンプレートに類似したテンプレートを生成し、転送可能なアタックを実行します。 最後に,5つのNLPデータセットと3つのBERT系列モデルについて広範な実験を行い,我々のTARGET法は,直接攻撃における2つの外部ベースライン法と比較して,攻撃性能とステルスネスが良好であることを示す実験結果を得た。

Prompt-based learning has been widely applied in many low-resource NLP tasks such as few-shot scenarios. However, this paradigm has been shown to be vulnerable to backdoor attacks. Most of the existing attack methods focus on inserting manually predefined templates as triggers in the pre-training phase to train the victim model and utilize the same triggers in the downstream task to perform inference, which tends to ignore the transferability and stealthiness of the templates. In this work, we propose a novel approach of TARGET (Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP models via GPT4), which is a data-independent attack method. Specifically, we first utilize GPT4 to reformulate manual templates to generate tone-strong and normal templates, and the former are injected into the model as a backdoor trigger in the pre-training phase. Then, we not only directly employ the above templates in the downstream task, but also use GPT4 to generate templates with similar tone to the above templates to carry out transferable attacks. Finally we have conducted extensive experiments on five NLP datasets and three BERT series models, with experimental results justifying that our TARGET method has better attack performance and stealthiness compared to the two-external baseline methods on direct attacks, and in addition achieves satisfactory attack capability in the unseen tone-similar templates.
翻訳日:2023-11-30 22:19:09 公開日:2023-11-29
# SigFormer:マルチモーダルヒューマンアクションセグメンテーションのためのスパース信号誘導変換器

SigFormer: Sparse Signal-Guided Transformer for Multi-Modal Human Action Segmentation ( http://arxiv.org/abs/2311.17428v1 )

ライセンス: Link先を確認
Qi Liu, Xinchen Liu, Kun Liu, Xiaoyan Gu, Wu Liu(参考訳) マルチモーダルなヒューマンアクションセグメンテーションは、幅広い応用において重要かつ困難な課題である。 今日では、ほとんどのアプローチは高密度信号(RGB、光フロー、深度マップなど)の融合に集中している。 しかし、正確な認識を実現する上で重要な、スパースIoTセンサ信号の潜在的な貢献は、完全には調査されていない。 これを解決するために、密集信号と疎合信号を組み合わせたスパース信号誘導変換器(SigFormer)を導入する。 我々は、スパース信号が有効である領域における交差注意を制限し、局所的特徴を融合させるマスク注意を用いる。 しかし、スパース信号は離散的であるため、時間的行動境界に関する十分な情報がない。 そこで,sigformerでは,この問題を軽減するために2段階の境界情報を強調する。 第1の特徴抽出段階では、内部損失関数を通して各密度モードのカテゴリと境界特性を共同で学習する中間ボトルネックモジュールを導入する。 密なモダリティとスパース信号の融合の後、アクションカテゴリと時間境界の間の相互関係を明示的にモデル化する二分岐アーキテクチャを考案する。 実験の結果,SigFormerは実産業環境からのマルチモーダルアクションセグメンテーションデータセットにおける最先端のアプローチよりも優れており,F1スコア0.958に達した。 コードと事前訓練されたモデルはhttps://github.com/LIUQI-creat/SigFormer.comで公開されている。

Multi-modal human action segmentation is a critical and challenging task with a wide range of applications. Nowadays, the majority of approaches concentrate on the fusion of dense signals (i.e., RGB, optical flow, and depth maps). However, the potential contributions of sparse IoT sensor signals, which can be crucial for achieving accurate recognition, have not been fully explored. To make up for this, we introduce a Sparse signalguided Transformer (SigFormer) to combine both dense and sparse signals. We employ mask attention to fuse localized features by constraining cross-attention within the regions where sparse signals are valid. However, since sparse signals are discrete, they lack sufficient information about the temporal action boundaries. Therefore, in SigFormer, we propose to emphasize the boundary information at two stages to alleviate this problem. In the first feature extraction stage, we introduce an intermediate bottleneck module to jointly learn both category and boundary features of each dense modality through the inner loss functions. After the fusion of dense modalities and sparse signals, we then devise a two-branch architecture that explicitly models the interrelationship between action category and temporal boundary. Experimental results demonstrate that SigFormer outperforms the state-of-the-art approaches on a multi-modal action segmentation dataset from real industrial environments, reaching an outstanding F1 score of 0.958. The codes and pre-trained models have been available at https://github.com/LIUQI-creat/SigFormer.
翻訳日:2023-11-30 22:18:40 公開日:2023-11-29
# SpeechAct: 音声から全身運動を生成するために

SpeechAct: Towards Generating Whole-body Motion from Speech ( http://arxiv.org/abs/2311.17425v1 )

ライセンス: Link先を確認
Jinsong Zhang, Minjie Zhu, Yuxiang Zhang, Yebin Liu, Kun Li(参考訳) 本稿では,音声から全身運動を生成する問題に対処する。 大きな成功にもかかわらず、以前の手法は音声から合理的で多様な全身の動きを作り出すのに苦戦している。 これは、最適化下表現への依存と、多様な結果を生成するための戦略の欠如による。 これらの課題に対処するために,足の滑走を避けるなど,高精度かつ連続的な運動生成を実現するための新しいハイブリッドポイント表現を提案する。 音声信号に密着した顔の動きに対して,音声から全身運動を生成するため,決定論的結果を達成するエンコーダ・デコーダアーキテクチャを導入する。 しかし、音声信号との接続が弱い身体と手にとって、我々は多様だが合理的な動きを生み出すことを目指している。 動き生成の多様性を高めるために,モデルがより独特な表現を生成することを奨励するコントラスト学習法を提案する。 具体的には,ハイブリッド表現を用いた量子化動作コードブックを学習するために,ロバストなvq-vaeを設計した。 次に、コントラスト動作学習法を用いた翻訳モデルにより、音声信号から動き表現を回帰する。 実験により,モデルの性能と正確性が検証された。 プロジェクトページは http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct で研究目的で公開されている。

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.
翻訳日:2023-11-30 22:18:14 公開日:2023-11-29
# spacepulse: より実用的なvqeのためのパラメータ化パルスとコンテキストサブスペースの組み合わせ

SpacePulse: Combining Parameterized Pulses and Contextual Subspace for More Practical VQE ( http://arxiv.org/abs/2311.17423v1 )

ライセンス: Link先を確認
Zhiding Liang, Zhixin Song, Jinglei Cheng, Hang Ren, Tianyi Hao, Rui Yang, Yiyu Shi, Tongyang Li(参考訳) 本稿では,パラメータ化量子パルスと文脈部分空間法の統合について検討する。 パラメータ化された量子パルスの出現は、従来の量子ゲートから、より柔軟で効率的な量子コンピューティングアプローチへの移行を示す。 パルスを扱うことで、cnotベースの回路分解でアクセスできないヒルベルト空間の領域に潜在的にアクセスできる。 従来の変分量子固有解法(VQE)による完備ハミルトニアンの解法と比較すると、文脈補正の計算は一般により少ない量子ビットと測定を必要とするため、計算効率が向上する。 さらに、我々のフレームワークであるSpacePulseは、VQEの量子リソースコストを最小限に抑え、より大きな分子構造を処理する可能性を高めることができる。

In this paper, we explore the integration of parameterized quantum pulses with the contextual subspace method. The advent of parameterized quantum pulses marks a transition from traditional quantum gates to a more flexible and efficient approach to quantum computing. Working with pulses allows us to potentially access areas of the Hilbert space that are inaccessible with a CNOT-based circuit decomposition. Compared to solving the complete Hamiltonian via the traditional Variational Quantum Eigensolver (VQE), the computation of the contextual correction generally requires fewer qubits and measurements, thus improving computational efficiency. Plus a Pauli grouping strategy, our framework, SpacePulse, can minimize the quantum resource cost for the VQE and enhance the potential for processing larger molecular structures.
翻訳日:2023-11-30 22:17:52 公開日:2023-11-29
# GNNFlow - 動的グラフによる継続的時間的GNN学習のための分散フレームワーク

GNNFlow: A Distributed Framework for Continuous Temporal GNN Learning on Dynamic Graphs ( http://arxiv.org/abs/2311.17410v1 )

ライセンス: Link先を確認
Yuchen Zhong, Guangming Sheng, Tianzuo Qin, Minjie Wang, Quan Gan, and Chuan Wu(参考訳) グラフニューラルネットワーク(GNN)は様々な分野で重要な役割を果たしている。 しかし、既存のディープグラフ学習フレームワークの多くは、事前ストアされた静的グラフを前提としており、グラフストリームのトレーニングをサポートしていない。 対照的に、現実世界のグラフの多くは動的であり、時間領域情報を含んでいる。 GNNFlowは,マルチGPUマシン上で動的グラフの効率的な連続時間グラフ表現学習を実現する分散フレームワークである。 GNNFlowは、メモリ使用量とグラフ更新とサンプリング操作効率を効果的にバランスさせる適応時間インデックスブロックベースのデータ構造を導入している。 高速GPUベースの時間領域サンプリングのためのハイブリッドGPU-CPUグラフデータ配置と、強化サンプリングプロセスのためのカーネル最適化を備えている。 ノードとエッジ機能のための動的GPUキャッシュを開発し、再利用と復元戦略を通じてキャッシュヒット率を最大化する。 GNNFlowは、負荷バランスを確保するために静的スケジューリングを備えた複数のマシンでの分散トレーニングをサポートする。 DGLとPyTorchに基づいたGNNFlowを実装した。 実験の結果,GNNFlowは既存のシステムに比べて最大21.1倍高速な継続的学習を実現することがわかった。

Graph Neural Networks (GNNs) play a crucial role in various fields. However, most existing deep graph learning frameworks assume pre-stored static graphs and do not support training on graph streams. In contrast, many real-world graphs are dynamic and contain time domain information. We introduce GNNFlow, a distributed framework that enables efficient continuous temporal graph representation learning on dynamic graphs on multi-GPU machines. GNNFlow introduces an adaptive time-indexed block-based data structure that effectively balances memory usage with graph update and sampling operation efficiency. It features a hybrid GPU-CPU graph data placement for rapid GPU-based temporal neighborhood sampling and kernel optimizations for enhanced sampling processes. A dynamic GPU cache for node and edge features is developed to maximize cache hit rates through reuse and restoration strategies. GNNFlow supports distributed training across multiple machines with static scheduling to ensure load balance. We implement GNNFlow based on DGL and PyTorch. Our experimental results show that GNNFlow provides up to 21.1x faster continuous learning than existing systems.
翻訳日:2023-11-30 22:17:38 公開日:2023-11-29
# 単体画像からの頭(?)アニメ:改良されたモデルとその蒸留

Talking Head(?) Anime from a Single Image 4: Improved Model and Its Distillation ( http://arxiv.org/abs/2311.17409v1 )

ライセンス: Link先を確認
Pramook Khungurn(参考訳) 本研究では,アニメキャラクタの単一画像からリアルタイムに制御可能なキャラクタモデルを作成する問題について検討する。 この問題の解決策は、アバター、コンピュータゲーム、その他のインタラクティブなアプリケーションを作成するコストを大幅に削減する。 Talking Head Anime 3 (THA3)は、この問題に直接対処しようとするオープンソースプロジェクトである。 1)アニメキャラクタの上半身の画像と(2)45次元ポーズベクトルとを入力として、指定されたポーズを取る同一キャラクタの新しいイメージを出力する。 可能な動きの範囲は、個人のアバターや特定の種類のゲームキャラクタに十分表現できる。 しかし、このシステムは、一般的なPC上でリアルタイムにアニメーションを生成するには遅すぎるため、画質を向上することができる。 本稿ではTHA3を2つの方法で改善する。 まず, 現代の生成モデルで広く用いられているu-netに基づいて, キャラクタの頭部と身体を回転させる構成ネットワークのための新しいアーキテクチャを提案する。 新しいアーキテクチャは、常にTHA3ベースラインよりも画質が良い。 それでも、フレームを生成するのに最大150ミリ秒かかるので、システム全体がずっと遅くなります。 第2に,コンシューマ向けGPUを用いて512×512のアニメーションフレームをリアルタイム(30FPS以下)に生成できる小型ネットワーク(2MB未満)にシステムを蒸留する手法を提案する。 この改良により、システム全体がリアルタイムアプリケーションに実用的になる。

We study the problem of creating a character model that can be controlled in real time from a single image of an anime character. A solution to this problem would greatly reduce the cost of creating avatars, computer games, and other interactive applications. Talking Head Anime 3 (THA3) is an open source project that attempts to directly addresses the problem. It takes as input (1) an image of an anime character's upper body and (2) a 45-dimensional pose vector and outputs a new image of the same character taking the specified pose. The range of possible movements is expressive enough for personal avatars and certain types of game characters. However, the system is too slow to generate animations in real time on common PCs, and its image quality can be improved. In this paper, we improve THA3 in two ways. First, we propose new architectures for constituent networks that rotate the character's head and body based on U-Nets with attention that are widely used in modern generative models. The new architectures consistently yield better image quality than the THA3 baseline. Nevertheless, they also make the whole system much slower: it takes up to 150 milliseconds to generate a frame. Second, we propose a technique to distill the system into a small network (less than 2 MB) that can generate 512x512 animation frames in real time (under 30 FPS) using consumer gaming GPUs while keeping the image quality close to that of the full system. This improvement makes the whole system practical for real-time applications.
翻訳日:2023-11-30 22:17:20 公開日:2023-11-29
# 骨格に基づく人の動き予測のための動的高密度グラフ畳み込みネットワーク

Dynamic Dense Graph Convolutional Network for Skeleton-based Human Motion Prediction ( http://arxiv.org/abs/2311.17408v1 )

ライセンス: Link先を確認
Xinshun Wang, Wanying Zhang, Can Wang, Yuan Gao, Mengyuan Liu(参考訳) Graph Convolutional Networks (GCN) は通常、骨格関節間の依存関係をモデル化する神経メッセージパッシングフレームワークに従っており、骨格に基づく人間の動作予測タスクで高い成功を収めている。 それでも、スケルトンシーケンスからグラフを構築する方法や、グラフ上でメッセージパッシングを行う方法はまだオープンな問題であり、GCNの性能に深刻な影響を及ぼす。 本稿では,これらの問題を解決するために,高密度グラフを構成する動的高密度グラフ畳み込みネットワーク (dd-gcn) を提案する。 より具体的には、異なる抽象レベルにおける動き列の包括的表現として、4次元隣接モデリングを持つ密集グラフを構築する。 本研究では,データから動的に学習する動的メッセージパッシングフレームワークを提案する。 ベンチマークhuman 3.6mとcmu mocapデータセットに関する広範囲な実験は、dd-gcnが最先端のgcnベースの手法よりも明らかに優れており、特に長期的および超長期的プロトコルを使用する場合に有効であることを検証している。

Graph Convolutional Networks (GCN) which typically follows a neural message passing framework to model dependencies among skeletal joints has achieved high success in skeleton-based human motion prediction task. Nevertheless, how to construct a graph from a skeleton sequence and how to perform message passing on the graph are still open problems, which severely affect the performance of GCN. To solve both problems, this paper presents a Dynamic Dense Graph Convolutional Network (DD-GCN), which constructs a dense graph and implements an integrated dynamic message passing. More specifically, we construct a dense graph with 4D adjacency modeling as a comprehensive representation of motion sequence at different levels of abstraction. Based on the dense graph, we propose a dynamic message passing framework that learns dynamically from data to generate distinctive messages reflecting sample-specific relevance among nodes in the graph. Extensive experiments on benchmark Human 3.6M and CMU Mocap datasets verify the effectiveness of our DD-GCN which obviously outperforms state-of-the-art GCN-based methods, especially when using long-term and our proposed extremely long-term protocol.
翻訳日:2023-11-30 22:16:56 公開日:2023-11-29
# LLM-State: オープンワールドにおける長期タスク計画のための拡張可能な状態表現

LLM-State: Expandable State Representation for Long-horizon Task Planning in the Open World ( http://arxiv.org/abs/2311.17406v1 )

ライセンス: Link先を確認
Siwei Chen, Anxing Xiao, David Hsu(参考訳) 本研究は, オープンワールド家庭環境における大規模言語モデル(llm)を用いた長期ホリゾンタスク計画の問題に対処する。 既存の作業では、キーオブジェクトと属性を明示的に追跡することはできず、長いホリゾンタスクにおける誤った判断や、高度に設計された状態特徴とフィードバックに依存する。 本稿では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。 提案する表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢な振り返りサマリーを可能にする。 これにより、タスク計画における意思決定のコンテキスト理解が強化される。 シミュレーションおよび実世界のタスクプランニングシナリオをまたいで実験を行い、長期ホリゾン状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大きな改善を示す。

This work addresses the problem of long-horizon task planning with the Large Language Model (LLM) in an open-world household environment. Existing works fail to explicitly track key objects and attributes, leading to erroneous decisions in long-horizon tasks, or rely on highly engineered state features and feedback, which is not generalizable. We propose a novel, expandable state representation that provides continuous expansion and updating of object attributes from the LLM's inherent capabilities for context understanding and historical action reasoning. Our proposed representation maintains a comprehensive record of an object's attributes and changes, enabling robust retrospective summary of the sequence of actions leading to the current state. This allows enhanced context understanding for decision-making in task planning. We validate our model through experiments across simulated and real-world task planning scenarios, demonstrating significant improvements over baseline methods in a variety of tasks requiring long-horizon state tracking and reasoning.
翻訳日:2023-11-30 22:16:34 公開日:2023-11-29
# VITATECS:ビデオ言語モデルの時間的概念理解のための診断データセット

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models ( http://arxiv.org/abs/2311.17404v1 )

ライセンス: Link先を確認
Shicheng Li, Lei Li, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu Sun, Lu Hou(参考訳) 時間とともにオブジェクトがどのように変化するかを認識する能力は、人間の知性にとって重要な要素である。 しかし,現在のベンチマークでは,映像言語モデル (vidlms) の時間的理解能力は,静的な視覚ショートカットの存在により忠実に反映できない。 そこで本稿では,時間的概念理解を評価するための診断用ビデオテキストデータセットであるvitatecsを提案する。 具体的には,まず自然言語における時間概念のきめ細かい分類法を導入し,異なる時間的側面を理解する vidlm の能力について診断する。 さらに,静的な情報と時間的情報の相関関係を解消するために,特定の時間的側面においてのみオリジナルと異なる反実的な映像記述を生成する。 我々は,大規模言語モデルとHuman-in-the-loopアノテーションを用いた半自動データ収集フレームワークを用いて,高品質な偽物記述を効率的に取得する。 代表的なビデオ言語理解モデルの評価は、時間的理解の欠如を確認し、ビデオ言語研究における時間的要素をより強調する必要性を明らかにする。

The ability to perceive how objects change over time is a crucial ingredient in human intelligence. However, current benchmarks cannot faithfully reflect the temporal understanding abilities of video-language models (VidLMs) due to the existence of static visual shortcuts. To remedy this issue, we present VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal Concept underStanding. Specifically, we first introduce a fine-grained taxonomy of temporal concepts in natural language in order to diagnose the capability of VidLMs to comprehend different temporal aspects. Furthermore, to disentangle the correlation between static and temporal information, we generate counterfactual video descriptions that differ from the original one only in the specified temporal aspect. We employ a semi-automatic data collection framework using large language models and human-in-the-loop annotation to obtain high-quality counterfactual descriptions efficiently. Evaluation of representative video-language understanding models confirms their deficiency in temporal understanding, revealing the need for greater emphasis on the temporal elements in video-language research.
翻訳日:2023-11-30 22:16:19 公開日:2023-11-29
# Gene-MOE: パンカウンサーゲノム解析のためのスパースゲートフレームワーク

Gene-MOE: A Sparsely-gated Framework for Pan-Cancer Genomic Analysis ( http://arxiv.org/abs/2311.17401v1 )

ライセンス: Link先を確認
Xiangyu Meng, Tao Song, Qing Yang, Huanhuan Dai, Lian Qiao, Hongzhen Ding, Long Hao and Xun Wang(参考訳) Pan-Cancerデータベースからゲノム情報を解析することで、がん関連因子を理解し、がんの診断と予後に寄与することができる。 しかし、既存の計算方法や深層学習法は、数万の遺伝子間の深い相関を効果的に見つけることができないため、精度が低下する。 本稿では,pan-cancerデータセットの一般的な特徴表現を学習し,その重みを下流タスクに伝達するために,gene-moeと呼ばれる新しい事前学習モデルを提案する。 Gene-MOEは、専門家層(MOE)の混合をフル活用して、高次元遺伝子のリッチな特徴表現を学習する。 同時に、遺伝的特徴の深い意味関係を学習するために、注意専門家(MOAE)の混合モデルを構築した。 最後に、損失関数設計、データ拡張、最適化戦略を含む新たな自己教師型事前学習戦略を提案し、Gene-MOEを訓練し、下流解析の性能をさらに向上させた。 Gene-MOEを用いた癌分類と生存分析実験を行った。 14種類のがんの生存率分析結果によると、遺伝子モエを用いた12種類の癌に対する最先端のモデルを用いた。 分類結果によると,33のがん分類の分類モデルの総精度は95.2\%に達した。 詳細な特徴分析により、高次元遺伝子のリッチな特徴表現を学習できる遺伝子MOEモデルが発見された。

Analyzing the genomic information from the Pan-Cancer database can help us understand cancer-related factors and contribute to the cancer diagnosis and prognosis. However, existing computational methods and deep learning methods can not effectively find the deep correlations between tens of thousands of genes, which leads to precision loss. In this paper, we proposed a novel pretrained model called Gene-MOE to learn the general feature representations of the Pan-Cancer dataset and transfer the pretrained weights to the downstream tasks. The Gene-MOE fully exploits the mixture of expert (MOE) layers to learn rich feature representations of high-dimensional genes. At the same time, we build a mixture of attention expert (MOAE) model to learn the deep semantic relationships within genetic features. Finally, we proposed a new self-supervised pretraining strategy including loss function design, data enhancement, and optimization strategy to train the Gene-MOE and further improve the performance for the downstream analysis. We carried out cancer classification and survival analysis experiments based on the Gene-MOE. According to the survival analysis results on 14 cancer types, using Gene-MOE outperformed state-of-the-art models on 12 cancer types. According to the classification results, the total accuracy of the classification model for 33 cancer classifications reached 95.2\%. Through detailed feature analysis, we found the Gene-MOE model can learn rich feature representations of high-dimensional genes.
翻訳日:2023-11-30 22:15:59 公開日:2023-11-29
# 動的注意による変圧器型大規模言語モデルのロバスト性向上

Improving the Robustness of Transformer-based Large Language Models with Dynamic Attention ( http://arxiv.org/abs/2311.17400v1 )

ライセンス: Link先を確認
Lujia Shen, Yuwen Pu, Shouling Ji, Changjiang Li, Xuhong Zhang, Chunpeng Ge and Ting Wang(参考訳) BERTやGPTといったトランスフォーマーベースのモデルは、自然言語処理(NLP)において非常に優れた性能で広く採用されている。 しかし、最近の研究では、テキスト入力を意図的に操作することで、モデルの出力を誤認できるような、テキスト敵対攻撃に対する脆弱性が示されている。 モデルの堅牢性を高め、この脆弱性を軽減するための様々な方法が提案されているが、多くは重い消費資源(例えば、敵の訓練)を必要とするか、限られた保護(例えば、防御的なドロップアウト)しか提供しない。 本稿では,トランスアーキテクチャに適した動的アテンション(動的アテンション)と呼ばれる新しい手法を提案する。 我々の方法は下流のタスク知識を必要とせず、追加コストを発生させない。 提案した動的アテンションは, (I) 選択したトークンのアテンション値を隠蔽または弱めるアテンション修正, (II) 動的モデリング, (II) 候補トークンの集合を動的に構築する2つのモジュールから構成される。 広汎な実験により、動的注意が敵攻撃の影響を著しく軽減し、従来手法よりも33倍の性能を向上させることが示されている。 ダイナミックアテンションのモデルレベルの設計により、他の防御手法(例えば、敵の訓練)と容易に組み合わせてモデルの堅牢性を高めることができる。 さらに、他の動的モデリング手法と比較して、動的アテンションは元のモデルの最先端のロバスト性空間を保っていることを示す。

Transformer-based models, such as BERT and GPT, have been widely adopted in natural language processing (NLP) due to their exceptional performance. However, recent studies show their vulnerability to textual adversarial attacks where the model's output can be misled by intentionally manipulating the text inputs. Despite various methods that have been proposed to enhance the model's robustness and mitigate this vulnerability, many require heavy consumption resources (e.g., adversarial training) or only provide limited protection (e.g., defensive dropout). In this paper, we propose a novel method called dynamic attention, tailored for the transformer architecture, to enhance the inherent robustness of the model itself against various adversarial attacks. Our method requires no downstream task knowledge and does not incur additional costs. The proposed dynamic attention consists of two modules: (I) attention rectification, which masks or weakens the attention value of the chosen tokens, and (ii) dynamic modeling, which dynamically builds the set of candidate tokens. Extensive experiments demonstrate that dynamic attention significantly mitigates the impact of adversarial attacks, improving up to 33\% better performance than previous methods against widely-used adversarial attacks. The model-level design of dynamic attention enables it to be easily combined with other defense methods (e.g., adversarial training) to further enhance the model's robustness. Furthermore, we demonstrate that dynamic attention preserves the state-of-the-art robustness space of the original model compared to other dynamic modeling methods.
翻訳日:2023-11-30 22:15:37 公開日:2023-11-29
# サブサンプル付きスロットミックスアップ:wsi分類のための簡単な正規化

Slot-Mixup with Subsampling: A Simple Regularization for WSI Classification ( http://arxiv.org/abs/2311.17466v1 )

ライセンス: Link先を確認
Seongho Keum, Sanghyun Kim, Soojeong Lee, Juho Lee(参考訳) 全スライド画像 (WSI) の分類は, がんの診断に関係のある症例は少ないが, 病理医には繰り返しズームインとアウトが必要である。 パッチレベルのラベルがないため、多重インスタンス学習(MIL)はWSI分類器をトレーニングするための一般的なプラクティスである。 MIL for WSIsの課題の1つは、スライドレベルのラベルから来る弱い監督力であり、しばしば過度なオーバーフィッティングをもたらすことである。 これに対し、研究者はパッチレベルの強化やミックスアップの強化の導入を検討したが、その適用性は検証されていない。 我々のアプローチは、元のスライドの基盤となるセマンティクスを著しく変更することなく、WSIのパッチのサブセットをサンプリングすることでトレーニングデータセットを強化します。 さらに、アテンション機構を用いて、パッチを固定数のスロットに整理する効率的なモデル(Slot-MIL)を導入する。 提案手法は,注意の集中度を制限し,解釈性を向上させることで,より有用なスロットを作成できることを実証的に実証する。 最後に、我々の注意に基づく集約モデルとサブサンプリングとミックスアップを組み合わせることで、既存のMIL手法との互換性が限定され、一般化とキャリブレーションの両立が図れることを示す。 提案手法は,クラス不均衡や分散シフトを含む様々なベンチマークデータセットにおける最先端性能を実現する。

Whole slide image (WSI) classification requires repetitive zoom-in and out for pathologists, as only small portions of the slide may be relevant to detecting cancer. Due to the lack of patch-level labels, multiple instance learning (MIL) is a common practice for training a WSI classifier. One of the challenges in MIL for WSIs is the weak supervision coming only from the slide-level labels, often resulting in severe overfitting. In response, researchers have considered adopting patch-level augmentation or applying mixup augmentation, but their applicability remains unverified. Our approach augments the training dataset by sampling a subset of patches in the WSI without significantly altering the underlying semantics of the original slides. Additionally, we introduce an efficient model (Slot-MIL) that organizes patches into a fixed number of slots, the abstract representation of patches, using an attention mechanism. We empirically demonstrate that the subsampling augmentation helps to make more informative slots by restricting the over-concentration of attention and to improve interpretability. Finally, we illustrate that combining our attention-based aggregation model with subsampling and mixup, which has shown limited compatibility in existing MIL methods, can enhance both generalization and calibration. Our proposed methods achieve the state-of-the-art performance across various benchmark datasets including class imbalance and distribution shifts.
翻訳日:2023-11-30 22:08:57 公開日:2023-11-29
# Agent Avatar:フォトリアリスティックなアバターエージェントのためのプランニング、運転、レンダリング

AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents ( http://arxiv.org/abs/2311.17465v1 )

ライセンス: Link先を確認
Duomin Wang, Bin Dai, Yu Deng, Baoyuan Wang(参考訳) 本研究の目的は,視覚的・行動的両面から自律的に顔の動きを計画し,アニメーション化できる対話型アバターエージェントを作ることである。 環境とエージェントプロファイルに関する高レベルなインプットを前提として,我々のフレームワークはLCMを用いて,アバターエージェントの顔の動きを詳細に記述する。 これらの記述はタスク非依存の駆動エンジンによってモーショントークンシーケンスに変換され、その後、スタンドアロンのニューラルベースレンダラーによってさらに消費され、最終的なフォトリアリスティックなアバターアニメーションを生成する。 これらの合理化プロセスにより、我々のフレームワークはモナディックとディアディックの両方の様々な非言語アバター相互作用に適応できる。 環境とのモナディックインタラクションが可能なエージェントと,dyadic会話用に設計されたエージェントという2つのタイプのエージェントを特徴とする,新たにコンパイルされたデータセットと既存のデータセットの両方に関する実験を含む広範な研究は,我々のアプローチの有効性と汎用性を検証するものだ。 我々は,llmとニューラルレンダリングを組み合わせることで,アバターエージェントの非言語的予測とフォトリアリスティックなレンダリングに飛躍的な一歩を踏み出した。

In this study, our goal is to create interactive avatar agents that can autonomously plan and animate nuanced facial movements realistically, from both visual and behavioral perspectives. Given high-level inputs about the environment and agent profile, our framework harnesses LLMs to produce a series of detailed text descriptions of the avatar agents' facial motions. These descriptions are then processed by our task-agnostic driving engine into motion token sequences, which are subsequently converted into continuous motion embeddings that are further consumed by our standalone neural-based renderer to generate the final photorealistic avatar animations. These streamlined processes allow our framework to adapt to a variety of non-verbal avatar interactions, both monadic and dyadic. Our extensive study, which includes experiments on both newly compiled and existing datasets featuring two types of agents -- one capable of monadic interaction with the environment, and the other designed for dyadic conversation -- validates the effectiveness and versatility of our approach. To our knowledge, we advanced a leap step by combining LLMs and neural rendering for generalized non-verbal prediction and photo-realistic rendering of avatar agents.
翻訳日:2023-11-30 22:08:32 公開日:2023-11-29
# スピン(1/2,1)ハイゼンベルク四量体中の二成分絡み合いの分布

Distribution of a bipartite entanglement in a mixed spin-(1/2,1) Heisenberg tetramer ( http://arxiv.org/abs/2311.17464v1 )

ライセンス: Link先を確認
Hana Vargov\'a and Jozef Stre\v{c}ka(参考訳) 2つのスピン-1/2および2つのスピン-1実体からなる混合スピン-(1/2,1)ハイゼンベルクテトラマーにおけるバイパルタイトの絡み合いの分布を,外部磁場の存在下で詳細に検討した。 両端のエンタングルメントの強度を測定する4つの異なるネガティビティを0および非ゼロ温度で解析した。 特に, スピンスピン相互作用の強さと, 絡み合い記述におけるスピン多様性の意義に着目し, 厳密な解析結果と各数値結果について考察した。 上記の2つの駆動力に基づいて、二部体の絡み合いが1つのスピン対または4つのスピン対にのみ存在するパラメトリック空間の領域が同定された。

The distribution of bipartite entanglement in a mixed spin-(1/2,1) Heisenberg tetramer composed from two spin-1/2 and two spin-1 entities is investigated in detail in presence of an external magnetic field. Four different negativities measuring a strength of bipartite entanglement are analyzed at zero and non-zero temperatures. Derived rigorous analytic results and respective numerical results are discussed with the particular emphasis laid on the significance of a strength of the pair spin-spin interactions and spin diversity in the entanglement description. Based on both aforementioned driving forces the regions of parametric space, where the bipartite entanglement can exist solely for one type of spin pair or all four spin pairs, were identified.
翻訳日:2023-11-30 22:08:08 公開日:2023-11-29
# StyleGANが安定拡散に出会ったとき:パーソナライズされた画像生成のための$\mathscr{W}_+$アダプタ

When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation ( http://arxiv.org/abs/2311.17461v1 )

ライセンス: Link先を確認
Xiaoming Li, Xinyu Hou, Chen Change Loy(参考訳) テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに著しく優れている。 この進歩により、特定のアイデンティティを生成コンテンツに組み込むことへの関心が高まっている。 現在のほとんどの手法では、単一の参照画像を用いてターゲットの視覚概念をテキスト埋め込み空間に埋め込む逆アプローチを採用している。 しかし、新たに合成された顔は、表情などの顔の特徴の観点からは参照画像によく似ているか、アイデンティティ保存能力の低下を示す。 合成顔の表情属性を導くためのテキスト記述は、参照画像から派生した同一性に無関係な顔属性によるアイデンティティ情報の複雑な絡み合いのため、不足する可能性がある。 これらの問題に対処するために、拡散モデルのための拡張されたアイデンティティ保存と非絡み合いを実現するために、拡張されたStyleGAN埋め込み空間 $\mathcal{W}_+$ を用いる。 この意味的に意味のある人間の顔潜在空間をテキストから画像への拡散モデルと整合させることにより、私たちは、意味編集能力とともに、アイデンティティ保存における高い忠実性を維持することに成功します。 さらに,プロンプト条件とアイデンティティ条件の両方の影響をバランスさせ,顔の属性変更時に身元不明な背景が影響を受けないようにするための新しいトレーニング目標を提案する。 提案手法は,プロンプト記述と互換性のあるパーソナライズされたテキストから画像への出力を生成するだけでなく,多彩な設定で一般的なスタイルガン編集指示に適応できることを示す。 ソースコードは \url{https://github.com/csxmli2016/w-plus-adapter} で利用可能です。

Text-to-image diffusion models have remarkably excelled in producing diverse, high-quality, and photo-realistic images. This advancement has spurred a growing interest in incorporating specific identities into generated content. Most current methods employ an inversion approach to embed a target visual concept into the text embedding space using a single reference image. However, the newly synthesized faces either closely resemble the reference image in terms of facial attributes, such as expression, or exhibit a reduced capacity for identity preservation. Text descriptions intended to guide the facial attributes of the synthesized face may fall short, owing to the intricate entanglement of identity information with identity-irrelevant facial attributes derived from the reference image. To address these issues, we present the novel use of the extended StyleGAN embedding space $\mathcal{W}_+$, to achieve enhanced identity preservation and disentanglement for diffusion models. By aligning this semantically meaningful human face latent space with text-to-image diffusion models, we succeed in maintaining high fidelity in identity preservation, coupled with the capacity for semantic editing. Additionally, we propose new training objectives to balance the influences of both prompt and identity conditions, ensuring that the identity-irrelevant background remains unaffected during facial attribute modifications. Extensive experiments reveal that our method adeptly generates personalized text-to-image outputs that are not only compatible with prompt descriptions but also amenable to common StyleGAN editing directions in diverse settings. Our source code will be available at \url{https://github.com/csxmli2016/w-plus-adapter}.
翻訳日:2023-11-30 22:07:57 公開日:2023-11-29
# W-HMR:Weak-supervised Camera Calibration and Orientation Correctionを用いた世界空間でのヒューマンメッシュリカバリ

W-HMR: Human Mesh Recovery in World Space with Weak-supervised Camera Calibration and Orientation Correction ( http://arxiv.org/abs/2311.17460v1 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang(参考訳) 長期にわたり、モノクロ画像から3次元の人体を再構築する分野では、カメラの影響を最小限に抑えてタスクを単純化することを選んだ。 粗い焦点長設定を用いることで、再構成体は歪んだ画像とうまく一致しない。 カメラの回転を無視すると、世界空間で非現実的な再構築されたボディポーズにつながる。 その結果、既存のメソッドのアプリケーションシナリオは、制御された環境に限られる。 そして彼らは、複雑で多種多様な画像と向き合う世界の空間において、正確で合理的な再構築を達成するのに苦労している。 この問題に対処するため,w-hmrを提案する。w-hmrは,グローバルボディリカバリをカメラキャリブレーション,ローカルボディリカバリ,グローバルボディオリエンテーション補正に分解する。 身体歪みに対する最初の弱教師付きカメラキャリブレーション法を考案し,焦点長ラベルへの依存をなくし,より微細なメッシュ画像アライメントを実現する。 本研究では,再建された人体を世界空間で正常に維持するための新しい配向補正モジュールを提案する。 ボディオリエンテーションとボディポーズの分離は,カメラ座標の精度と世界座標の合理的性を同時に考慮し,応用範囲を広げることを可能にする。 その結果、W-HMRは二元座標系、特に困難な場面において高品質な再構成を実現する。 コードは公開後、https://yw0208.github.io/でリリースされる。

For a long time, in the field of reconstructing 3D human bodies from monocular images, most methods opted to simplify the task by minimizing the influence of the camera. Using a coarse focal length setting results in the reconstructed bodies not aligning well with distorted images. Ignoring camera rotation leads to an unrealistic reconstructed body pose in world space. Consequently, existing methods' application scenarios are confined to controlled environments. And they struggle to achieve accurate and reasonable reconstruction in world space when confronted with complex and diverse in-the-wild images. To address the above issues, we propose W-HMR, which decouples global body recovery into camera calibration, local body recovery and global body orientation correction. We design the first weak-supervised camera calibration method for body distortion, eliminating dependence on focal length labels and achieving finer mesh-image alignment. We propose a novel orientation correction module to allow the reconstructed human body to remain normal in world space. Decoupling body orientation and body pose enables our model to consider the accuracy in camera coordinate and the reasonableness in world coordinate simultaneously, expanding the range of applications. As a result, W-HMR achieves high-quality reconstruction in dual coordinate systems, particularly in challenging scenes. Codes will be released on https://yw0208.github.io/ after publication.
翻訳日:2023-11-30 22:07:27 公開日:2023-11-29
# デポーライゼーションノイズ下における量子ニューラルネットワーク:ホワイトボックス攻撃と防御を探求する

Quantum Neural Networks under Depolarization Noise: Exploring White-Box Attacks and Defenses ( http://arxiv.org/abs/2311.17458v1 )

ライセンス: Link先を確認
David Winderl, Nicola Franco, Jeanette Miriam Lorenz(参考訳) 量子力学のユニークな性質を活用して、量子機械学習(QML)は計算的なブレークスルーと、従来のシステムが境界に達するようなリッチな視点を約束する。 しかし、古典的な機械学習と同様に、QMLは敵の攻撃に免疫を持たない。 量子対向機械学習は、QMLモデルの弱い点と、対向した特徴ベクトルに直面するときの強調に役立っている。 この領域に深く入り込むと、我々の探索は偏極ノイズと対向ロバスト性の間の相互作用に光を当てます。 前報では非分極ノイズによる敵対的脅威からのロバスト性が高まったが,本研究は異なる像を呈する。 興味深いことに、脱分極ノイズの追加は、マルチクラス分類シナリオにさらなる堅牢性を提供する効果を中止した。 その結果を整理し,ゲート型量子シミュレータで逆向きに学習した多クラス分類器を用いて実験を行った。

Leveraging the unique properties of quantum mechanics, Quantum Machine Learning (QML) promises computational breakthroughs and enriched perspectives where traditional systems reach their boundaries. However, similarly to classical machine learning, QML is not immune to adversarial attacks. Quantum adversarial machine learning has become instrumental in highlighting the weak points of QML models when faced with adversarial crafted feature vectors. Diving deep into this domain, our exploration shines light on the interplay between depolarization noise and adversarial robustness. While previous results enhanced robustness from adversarial threats through depolarization noise, our findings paint a different picture. Interestingly, adding depolarization noise discontinued the effect of providing further robustness for a multi-class classification scenario. Consolidating our findings, we conducted experiments with a multi-class classifier adversarially trained on gate-based quantum simulators, further elucidating this unexpected behavior.
翻訳日:2023-11-30 22:07:02 公開日:2023-11-29
# DifFlow3D:拡散モデルによるロバスト不確実性を考慮したシーンフロー推定に向けて

DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Diffusion Model ( http://arxiv.org/abs/2311.17456v1 )

ライセンス: Link先を確認
Jiuming Liu, Guangming Wang, Weicai Ye, Chaokang Jiang, Jinru Han, Zhe Liu, Guofeng Zhang, Dalong Du, Hesheng Wang(参考訳) 動的シーンの点当たりの3次元変位を予測することを目的としたシーンフロー推定は,コンピュータビジョン分野の基本課題である。 しかし,従来の研究は,局所的に制約された探索範囲による信頼できない相関や,粗い構造から生じる不正確な蓄積に苦慮することが多い。 これらの問題を解決するために,拡散確率モデルを用いた新たな不確実性認識シーンフロー推定ネットワーク(difflow3d)を提案する。 反復拡散に基づくリファインメントは、ダイナミクス、ノイズ入力、繰り返しパターンなど、挑戦的なケースに対する相関ロバスト性とレジリエンスを高めるように設計されている。 生成の多様性を抑えるため,拡散モデルにおける3つの主要なフロー関連特徴を条件として利用した。 さらに, 拡散中の不確かさ推定モジュールを開発し, 推定シーンフローの信頼性を評価する。 difflow3dはflyingthings3dとkitti 2015データセットでそれぞれ6.7\%と19.1\%のepe3d低減を実現しています。 特に,本手法は,KITTIデータセット上での前例のないミリレベルの精度(EPE3Dでは0.0089m)を達成する。 さらに,拡散型リファインメントパラダイムは,既存のシーンフローネットワークへのプラグアンドプレイモジュールとして容易に統合でき,推定精度が大幅に向上する。 コードは後日リリースされる。

Scene flow estimation, which aims to predict per-point 3D displacements of dynamic scenes, is a fundamental task in the computer vision field. However, previous works commonly suffer from unreliable correlation caused by locally constrained searching ranges, and struggle with accumulated inaccuracy arising from the coarse-to-fine structure. To alleviate these problems, we propose a novel uncertainty-aware scene flow estimation network (DifFlow3D) with the diffusion probabilistic model. Iterative diffusion-based refinement is designed to enhance the correlation robustness and resilience to challenging cases, e.g., dynamics, noisy inputs, repetitive patterns, etc. To restrain the generation diversity, three key flow-related features are leveraged as conditions in our diffusion model. Furthermore, we also develop an uncertainty estimation module within diffusion to evaluate the reliability of estimated scene flow. Our DifFlow3D achieves state-of-the-art performance, with 6.7\% and 19.1\% EPE3D reduction respectively on FlyingThings3D and KITTI 2015 datasets. Notably, our method achieves an unprecedented millimeter-level accuracy (0.0089m in EPE3D) on the KITTI dataset. Additionally, our diffusion-based refinement paradigm can be readily integrated as a plug-and-play module into existing scene flow networks, significantly increasing their estimation accuracy. Codes will be released later.
翻訳日:2023-11-30 22:06:45 公開日:2023-11-29
# 炭化ケイ素中のスピン光子絡みの実験的生成

Experimental Generation of Spin-Photon Entanglement in Silicon Carbide ( http://arxiv.org/abs/2311.17455v1 )

ライセンス: Link先を確認
Ren-Zhou Fang, Xiao-Yi Lai, Tao Li, Ren-Zhu Su, Bo-Wei Lu, Chao-Wei Yang, Run-Ze Liu, Yu-Kun Qiao, Cheng Li, Zhi-Gang He, Jia Huang, Hao Li, Li-Xing You, Yong-Heng Huo, Xiao-Hui Bao, Jian-Wei Pan(参考訳) 量子ネットワークに対する固体的アプローチは、ナノフォトニクスの統合により光子放出を増強し、長寿命貯蔵に弱結合核スピンを利用することができるという利点がある。 炭化ケイ素は特にその欠陥を指摘し、可用性と確立されたナノファブリケーション技術により、この点において大きな可能性を秘めている。 顕著な進歩にもかかわらず、スピン光子絡み合いを達成することは、実現すべき重要な側面である。 本稿では,炭化ケイ素のシリコン空孔欠陥とゼロフォノン線における散乱単一光子との絡み合いを実験的に生成する。 フォノン側バンドに散乱する光子を検出してスピン状態を測定する。 フォトニック量子ビットは自由度時間にエンコードされ、アンバランスのマッハツェンダー干渉計を用いて測定される。 フォトニック相関は、エンタングルメントの品質を示すだけでなく、エンタングルメント生成プロセスの決定論的性質を検証する。 2対のスピン光子絡みを利用して、遠隔の量子ノードを遠距離で絡むことが容易になる。

A solid-state approach for quantum networks is advantages, as it allows the integration of nanophotonics to enhance the photon emission and the utilization of weakly coupled nuclear spins for long-lived storage. Silicon carbide, specifically point defects within it, shows great promise in this regard due to the easy of availability and well-established nanofabrication techniques. Despite of remarkable progresses made, achieving spin-photon entanglement remains a crucial aspect to be realized. In this paper, we experimentally generate entanglement between a silicon vacancy defect in silicon carbide and a scattered single photon in the zero-phonon line. The spin state is measured by detecting photons scattered in the phonon sideband. The photonic qubit is encoded in the time-bin degree-of-freedom and measured using an unbalanced Mach-Zehnder interferometer. Photonic correlations not only reveal the quality of the entanglement but also verify the deterministic nature of the entanglement creation process. By harnessing two pairs of such spin-photon entanglement, it becomes straightforward to entangle remote quantum nodes at long distance.
翻訳日:2023-11-30 22:06:19 公開日:2023-11-29
# タブラル合成データのプライバシー測定 : 現状と今後の研究動向

Privacy Measurement in Tabular Synthetic Data: State of the Art and Future Research Directions ( http://arxiv.org/abs/2311.17453v1 )

ライセンス: Link先を確認
Alexander Boudewijn, Andrea Filippo Ferraris, Daniele Panfilo, Vanessa Cocca, Sabrina Zinutti, Karel De Schepper, Carlo Rossi Chauvenet(参考訳) 合成データ(SD)はプライバシー向上技術として注目されている。 残念ながら、プライバシー保護の程度を定量化する基準は存在しない。 本稿では,提案する定量化手法について論じる。 これはSDプライバシ標準の開発に寄与し、多分野の議論を刺激し、SD研究者がインフォームドモデリングと評価決定を行うのに役立つ。

Synthetic data (SD) have garnered attention as a privacy enhancing technology. Unfortunately, there is no standard for quantifying their degree of privacy protection. In this paper, we discuss proposed quantification approaches. This contributes to the development of SD privacy standards; stimulates multi-disciplinary discussion; and helps SD researchers make informed modeling and evaluation decisions.
翻訳日:2023-11-30 22:06:00 公開日:2023-11-29
# 6G用のワイヤレスネットワークデジタルツイン:重要なエンバータとしての生成AI

Wireless Network Digital Twin for 6G: Generative AI as A Key Enabler ( http://arxiv.org/abs/2311.17451v1 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Yongming Huang, Xiaoyun Wang, Xiaohu You(参考訳) デジタル・ツイン(Digital twin)は、デジタル・レプリカを同期して物理的実体のエミュレーション、評価、最適化を可能にするもので、複雑な無線ネットワークのための有望な技術として注目されている。 6gでは、数多くの革新的な無線技術とネットワークアーキテクチャが、無線ネットワークデジタルツインの確立に新たな課題を提起している。 これらの課題に取り組むために、人工知能(AI)、特に繁栄する生成AIが潜在的な解決策として現れます。 本稿では, 複雑なネットワークアーキテクチャ, ネットワーク規模, 広範囲にわたるカバレッジ, 6G 時代の多様なアプリケーションシナリオを考慮した, 無線ネットワークディジタル双生児の新たな前提条件について論じる。 さらに、トランスフォーマーや拡散モデルといった生成AIの応用を探求し、実装、物理デジタル同期、スライシング能力を含む複数の視点から6Gデジタルツインを強化する。 次に、メッセージレベルとポリシーレベルの両方で階層型ai対応無線ネットワークデジタルツインを提案し、その有効性と効率性を検証するために、数値的な結果を含む典型的なユースケースを提供する。 最後に6G時代の無線ネットワークディジタル双生児のオープンな研究課題について論じる。

Digital twin, which enables emulation, evaluation, and optimization of physical entities through synchronized digital replicas, has gained increasingly attention as a promising technology for intricate wireless networks. For 6G, numerous innovative wireless technologies and network architectures have posed new challenges in establishing wireless network digital twins. To tackle these challenges, artificial intelligence (AI), particularly the flourishing generative AI, emerges as a potential solution. In this article, we discuss emerging prerequisites for wireless network digital twins considering the complicated network architecture, tremendous network scale, extensive coverage, and diversified application scenarios in the 6G era. We further explore the applications of generative AI, such as transformer and diffusion model, to empower the 6G digital twin from multiple perspectives including implementation, physical-digital synchronization, and slicing capability. Subsequently, we propose a hierarchical generative AI-enabled wireless network digital twin at both the message-level and policy-level, and provide a typical use case with numerical results to validate the effectiveness and efficiency. Finally, open research issues for wireless network digital twins in the 6G era are discussed.
翻訳日:2023-11-30 22:05:55 公開日:2023-11-29
# 動的クエリによる画像分割の連続学習

Continual Learning for Image Segmentation with Dynamic Query ( http://arxiv.org/abs/2311.17450v1 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Zhuang Li, Lianlei Shan, Hong Zhou, Mike Zheng Shou(参考訳) 連続学習に基づく画像セグメンテーションは,新しいクラスを継続的に組み込む必要があるため,主に破滅的な忘れ込みと背景シフトによって,重要なパフォーマンス低下を示す。 本稿では,新しい知識と古い知識の表現学習を軽量な問合せ埋め込みで分離する,インクリメンタル・ダイナミック・クエリ(cisdq)を用いた,単純かつ効果的な連続的画像分割手法を提案する。 CISDQは主に3つのコントリビューションを含んでいる。 1) 動的クエリを適応型バックグラウンドクラスで定義し,過去の知識を活用し,将来のクラスを自然に学習する。 2)CISDQは,クラス間多様性とクラス内アイデンティティを捉えることで,破滅的な忘れを克服するクラス/インスタンス間クエリガイドド知識蒸留戦略を提案する。 3) セマンティックセグメンテーションは別として,CISDQでは, セマンティックセグメンテーションの継続学習を導入している。 2つのタスクのための3つのデータセット(つまり連続的セマンティクスとインスタンスセグメンテーション)に関する大規模な実験を行い、CISDQが最先端のパフォーマンス、具体的にはADE 100-10(6ステップ)設定とADE 100-5(11ステップ)設定の4.4%と2.9%のmIoU改善を達成することを示した。

Image segmentation based on continual learning exhibits a critical drop of performance, mainly due to catastrophic forgetting and background shift, as they are required to incorporate new classes continually. In this paper, we propose a simple, yet effective Continual Image Segmentation method with incremental Dynamic Query (CISDQ), which decouples the representation learning of both old and new knowledge with lightweight query embedding. CISDQ mainly includes three contributions: 1) We define dynamic queries with adaptive background class to exploit past knowledge and learn future classes naturally. 2) CISDQ proposes a class/instance-aware Query Guided Knowledge Distillation strategy to overcome catastrophic forgetting by capturing the inter-class diversity and intra-class identity. 3) Apart from semantic segmentation, CISDQ introduce the continual learning for instance segmentation in which instance-wise labeling and supervision are considered. Extensive experiments on three datasets for two tasks (i.e., continual semantic and instance segmentation are conducted to demonstrate that CISDQ achieves the state-of-the-art performance, specifically, obtaining 4.4% and 2.9% mIoU improvements for the ADE 100-10 (6 steps) setting and ADE 100-5 (11 steps) setting.
翻訳日:2023-11-30 22:05:34 公開日:2023-11-29
# リモートセンシング画像における弱半教師対象検出

Weakly-semi-supervised object detection in remotely sensed imagery ( http://arxiv.org/abs/2311.17449v1 )

ライセンス: Link先を確認
Ji Hun Wang, Jeremy Irvin, Beri Kohen Behar, Ha Tran, Raghav Samavedam, Quentin Hsu, Andrew Y. Ng(参考訳) リモートセンシング画像における物体検出のためのディープラーニングは、気候変動の緩和を含む重要な応用のための新しい技術を可能にする。 しかしながら、これらのモデルは、しばしば、新しいタスクや地理のためのモデルの開発を禁止し、キュレートするのに高価なバウンディングボックスアノテーションでラベル付けされた大きなデータセットを必要とする。 この課題に対処するため,地理空間データの大規模取得が容易な大量の点ラベルとともに,少数の境界ボックスを活用可能なリモートセンシング画像を用いた弱半教師付き物体検出(WSSOD)モデルを開発した。 我々は,fair1mと風力タービン検出データセットで,境界ボックスラベル付き画像の比率が異なる,多量の点ラベル付き画像を使用するwssodモデルを訓練し,両者のデータセットで同じ量の境界ボックスラベル付き画像でトレーニングされた完全教師付きモデルを大幅に上回ることを示す。 さらに,2~10倍少ない境界ボックスラベル付き画像でトレーニングしたWSSODモデルは,フルセットの有界ボックスラベル付き画像でトレーニングした完全教師付きモデルと同等あるいは優れることがわかった。 このアプローチは他のリモートセンシングタスクにも拡張でき、バウンディングボックスラベルへの依存を減らし、影響のあるアプリケーションのためのモデルの開発を拡大できると考えています。

Deep learning for detecting objects in remotely sensed imagery can enable new technologies for important applications including mitigating climate change. However, these models often require large datasets labeled with bounding box annotations which are expensive to curate, prohibiting the development of models for new tasks and geographies. To address this challenge, we develop weakly-semi-supervised object detection (WSSOD) models on remotely sensed imagery which can leverage a small amount of bounding boxes together with a large amount of point labels that are easy to acquire at scale in geospatial data. We train WSSOD models which use large amounts of point-labeled images with varying fractions of bounding box labeled images in FAIR1M and a wind turbine detection dataset, and demonstrate that they substantially outperform fully supervised models trained with the same amount of bounding box labeled images on both datasets. Furthermore, we find that the WSSOD models trained with 2-10x fewer bounding box labeled images can perform similarly to or outperform fully supervised models trained on the full set of bounding-box labeled images. We believe that the approach can be extended to other remote sensing tasks to reduce reliance on bounding box labels and increase development of models for impactful applications.
翻訳日:2023-11-30 22:05:07 公開日:2023-11-29
# 分散コンピューティング連続システムにおける学習駆動ゼロ信頼

Learning-driven Zero Trust in Distributed Computing Continuum Systems ( http://arxiv.org/abs/2311.17447v1 )

ライセンス: Link先を確認
Ilir Murturi, Praveen Kumar Donta, Victor Casamayor Pujol, Andrea Morichetta, and Schahram Dustdar(参考訳) ゼロトラスト(ZT)と学習技術を組み合わせることで、分散コンピューティング継続システム(DCCS)における様々な運用およびセキュリティ上の課題を解決することができる。 集中型ZTアーキテクチャの実装は、連続コンピューティング(例えば、接続性や可視性に制限のある計算エンティティなど)には適さないと見なされる。 同時に、分散ZTをコンピューティング連続体に実装するには、リソースアクセス管理の意思決定を強化するためのインフラの制限と新しいアプローチを理解する必要がある。 このような課題を克服するために,DCCS用に設計された新しい学習駆動型ZT概念アーキテクチャを提案する。 我々は、Representation Learning (ReL)のような軽量な学習戦略を取り入れ、ZTコンポーネントをコンピューティング連続体に分散することで、ZTアーキテクチャサービス品質を向上させることを目指している。 ReLは脅威や信頼できない要求を予測することで意思決定プロセスを改善するのに役立ちます。 実証的な例を通して、学習プロセスが要求を検出してブロックし、リソースアクセス制御を強化し、ネットワークや計算オーバーヘッドを減らす方法を示す。 最後に,概念的アーキテクチャ,プロセス,研究課題について論じる。

Converging Zero Trust (ZT) with learning techniques can solve various operational and security challenges in Distributed Computing Continuum Systems (DCCS). Implementing centralized ZT architecture is seen as unsuitable for the computing continuum (e.g., computing entities with limited connectivity and visibility, etc.). At the same time, implementing decentralized ZT in the computing continuum requires understanding infrastructure limitations and novel approaches to enhance resource access management decisions. To overcome such challenges, we present a novel learning-driven ZT conceptual architecture designed for DCCS. We aim to enhance ZT architecture service quality by incorporating lightweight learning strategies such as Representation Learning (ReL) and distributing ZT components across the computing continuum. The ReL helps to improve the decision-making process by predicting threats or untrusted requests. Through an illustrative example, we show how the learning process detects and blocks the requests, enhances resource access control, and reduces network and computation overheads. Lastly, we discuss the conceptual architecture, processes, and provide a research agenda.
翻訳日:2023-11-30 22:04:43 公開日:2023-11-29
# 付加的特徴帰属法の不確かさ

Uncertainty in Additive Feature Attribution methods ( http://arxiv.org/abs/2311.17446v1 )

ライセンス: Link先を確認
Abhishek Madaan, Tanya Chowdhury, Neha Rana, James Allan, Tanmoy Chakraborty(参考訳) 本稿では,ポストホック説明可能ai(xai)手法における不確実性に満ちた様々な話題について考察する。 特に,付加的特徴帰属説明手法のクラスに注目した。 まず, 不確実性の仕様を説明し, 様々な統計的手法と最近の手法を比較し, 定量化を行う。 次に,特定の事例において,特徴の帰属と不確実性の関係について検討し,相関をほとんど観察しない。 その結果,LIMEアルゴリズムで摂動をサンプリングする分布を,計算コストを増大させることなく,重要な特徴が最小限の不確実性を持つように修正した。 次に、説明の不確実性が分類器の特徴空間によってどのように異なるかを研究する一方で、少数の事例がほぼゼロに近い不確実性を示すことを観察する。 このようなインスタンスに対する"stable instance"という用語と、インスタンスを安定させる要因を診断します。 次に、XAIアルゴリズムの不確実性は、基礎となるモデルのサイズと複雑さによってどのように変化するかを検討する。 モデルが複雑になるほど、より固有の不確実性が示されるのが観察される。 その結果,ブラックボックス分類器の相対的複雑性を定量化する尺度を提案する。 これは例えば、LIMEベースのアルゴリズムのサンプリング密度に組み込まれ、異なる説明アルゴリズムがより信頼性の高いレベルを達成するのに役立つ。 上記の措置は、XAIモデルをエンドユーザーにとって比較的信頼できるものにし、科学的発見を支援することに強い影響を与えるだろう。

In this work, we explore various topics that fall under the umbrella of Uncertainty in post-hoc Explainable AI (XAI) methods. We in particular focus on the class of additive feature attribution explanation methods. We first describe our specifications of uncertainty and compare various statistical and recent methods to quantify the same. Next, for a particular instance, we study the relationship between a feature's attribution and its uncertainty and observe little correlation. As a result, we propose a modification in the distribution from which perturbations are sampled in LIME-based algorithms such that the important features have minimal uncertainty without an increase in computational cost. Next, while studying how the uncertainty in explanations varies across the feature space of a classifier, we observe that a fraction of instances show near-zero uncertainty. We coin the term "stable instances" for such instances and diagnose factors that make an instance stable. Next, we study how an XAI algorithm's uncertainty varies with the size and complexity of the underlying model. We observe that the more complex the model, the more inherent uncertainty is exhibited by it. As a result, we propose a measure to quantify the relative complexity of a blackbox classifier. This could be incorporated, for example, in LIME-based algorithms' sampling densities, to help different explanation algorithms achieve tighter confidence levels. Together, the above measures would have a strong impact on making XAI models relatively trustworthy for the end-user as well as aiding scientific discovery.
翻訳日:2023-11-30 22:04:24 公開日:2023-11-29
# 混合スピン(1/2,1)ハイゼンベルク四量体における三部晶の絡み合い

Genuine tripartite entanglement in a mixed spin-(1/2,1) Heisenberg tetramer ( http://arxiv.org/abs/2311.17444v1 )

ライセンス: Link先を確認
Hana Vargov\'a and Jozef Stre\v{c}ka(参考訳) 混合スピン(1/2,1)ハイゼンベルクテトラマーの真の三部構造は、外部磁場の存在下で厳密に解析される。 2つの混合スピン(1/2,1)ダイマーは、2つの非等価ハイゼンベルク交換カップリング$j$と$j_1$を含む完全長方形の四角いプラーペットに配置される。 真の三成分の絡み合いの程度は、単一のスピンへの分解に対応するすべての可能な二成分のネガティビティの幾何学的平均として定義される真の三成分のネガティビティ${\cal n}_{abc}$と、残りのスピンダイマー${\cal n}_{a|bc}$,${\cal n}_{b|ac}$,${\cal n}_{c|ab}$と、最後の4つのスピン$d$の自由度後に${\cal n}_{c|ab}$とによって評価される。 混合スピン(1/2,1) の対称性のため、ハイゼンベルク四量体は、三量体系 1/2\! -\! 1\! -\! 1$と1/2\! -\! 1/2\! -\! 1ドルが特定された。 その結果, 相互作用比$J_1/J\! <\! 1$は、三部作システムでのみゼロになる。 -\! 1\! -\! 低磁場で1ドル。 反対の相互作用制限は$J_1/J\! >\! 1$ は、古典的強磁性状態が達成されるまで、外部磁場の存在下で、両方の三分系において非ゼロの真の三分極ネガティリティをもたらす。 混合スピン(1/2,1)ハイゼンベルクテトラマーの真の三部晶負性は非ゼロ温度でも検出できることが示されている。 三成分系の全スピン数の拡大による熱的真正三成分ネガティビティの増大が示されている。 2つのスピンのバイパートナイトの負性度と真のトリパートイトの負性度との相関を詳細に論じる。

A genuine tripartite entanglement of a mixed spin-(1/2,1) Heisenberg tetramer is rigorously analyzed in a presence of external magnetic field. The couple of mixed spin-(1/2,1) dimers is arranged in a perfect rectangular square plaquette involving two nonequivalent Heisenberg exchange couplings $J$ and $J_1$. The degree of a genuine tripartite entanglement is evaluated according to the genuine tripartite negativity ${\cal N}_{ABC}$ defined as a geometric mean of all possible bipartite negativities corresponding to a decomposition into a single spin and the remaining spin dimer ${\cal N}_{A|BC}$, ${\cal N}_{B|AC}$ and ${\cal N}_{C|AB}$ after degrees of freedom of the last fourth spin $D$ are traced out. Due to the symmetry of a mixed spin-(1/2,1) Heisenberg tetramer two different genuine tripartite negativities for the trimeric system $1/2\!-\!1\!-\!1$ and $1/2\!-\!1/2\!-\!1$ were identified. It was found that the genuine tripartite negativity for the interaction ratio $J_1/J\!<\!1$ becomes nonzero solely in the tripartite system $1/2\!-\!1\!-\!1$ at low-enough magnetic fields. The opposite interaction limit $J_1/J\!>\!1$ gives rise to the nonzero genuine tripartite negativity in both tripartite systems in a presence of external magnetic field until the classical ferromagnetic state is achieved. It was shown, that the genuine tripartite negativity of a mixed spin-(1/2,1) Heisenberg tetramer can be detected also at nonzero temperatures. An enhancement of the thermal genuine tripartite negativity through the enlargement of the total spin number of a tripartite system is evidenced. The correlation between the bipartite negativity of two spins and the genuine tripartite negativity is discussed in detail.
翻訳日:2023-11-30 22:04:00 公開日:2023-11-29
# ハイパフォーマンスコンピューティングと量子アニーリングを用いたディープラーニングモデルのハイパーパラメータ最適化のためのモデル性能予測

Model Performance Prediction for Hyperparameter Optimization of Deep Learning Models Using High Performance Computing and Quantum Annealing ( http://arxiv.org/abs/2311.17508v1 )

ライセンス: Link先を確認
Juan Pablo Garc\'ia Amboage, Eric Wulff, Maria Girone, Tom\'as F. Pena(参考訳) ディープラーニングベースのモデルのハイパーパラメータ最適化(HPO)は、多くの異なるハイパーパラメータ構成でターゲットモデルをトレーニングする必要があるため、計算リソース集約的なプロセスであることが多い。 モデル性能予測を早期停止法と組み合わせることで,ディープラーニングモデルのHPOプロセスの高速化が期待できることを示す。 さらに,性能予測に古典的あるいは量子的サポートベクトル回帰を使用できるswift-hyperbandと呼ばれる新しいアルゴリズムを提案し,分散高性能コンピューティング環境の恩恵を受ける。 このアルゴリズムは、高エネルギー物理学で使用されるマシンラーニング粒子フローモデルだけでなく、コンピュータビジョンや自然言語処理といった分野から幅広いターゲットモデルに対してもテストされている。 Swift-Hyperbandは、すべてのテストケースで計算リソースが少ないだけでなく、同等(あるいはそれ以上)のハイパーパラメータを見つける。

Hyperparameter Optimization (HPO) of Deep Learning-based models tends to be a compute resource intensive process as it usually requires to train the target model with many different hyperparameter configurations. We show that integrating model performance prediction with early stopping methods holds great potential to speed up the HPO process of deep learning models. Moreover, we propose a novel algorithm called Swift-Hyperband that can use either classical or quantum support vector regression for performance prediction and benefit from distributed High Performance Computing environments. This algorithm is tested not only for the Machine-Learned Particle Flow model used in High Energy Physics, but also for a wider range of target models from domains such as computer vision and natural language processing. Swift-Hyperband is shown to find comparable (or better) hyperparameters as well as using less computational resources in all test cases.
翻訳日:2023-11-30 21:57:36 公開日:2023-11-29
# PViT-6D:信頼レベル予測とポストークンを用いた6次元ポス推定のためのオーバークロック視覚変換器

PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with Confidence-Level Prediction and Pose Tokens ( http://arxiv.org/abs/2311.17504v1 )

ライセンス: Link先を確認
Sebastian Stapf, Tobias Bauernfeind, Marco Riboldi(参考訳) 6次元ポーズ推定の現状では、トップパフォーマンス手法は複雑な中間対応、特殊なアーキテクチャ、非エンドツーエンドアルゴリズムに依存する。 対照的に,本研究では,分類トークンのカスタマイズによる直接的6次元ポーズ推定のための視覚トランスフォーマの能力を検討することで,簡単な回帰タスクとして問題を再検討する。 また、ほとんどの6次元ポーズ推定フレームワークに容易に統合できる、ポーズ信頼度を決定する簡単な方法も紹介する。 これは、ネットワークのシーン複雑性の評価に基づいてクエリ要素の数を減らすことによって、トランスフォーマーアーキテクチャを変更することを含む。 我々は Pose Vision Transformer または PViT-6D と呼ぶ手法で,単純な実装の利点と,YCB-V データセット上での ADD(-S) と YCB-V データセット上の 2.7% の ADD(-S) を+0.3% の ADD(-S) で上回りながら,エンドツーエンドで学習できる。 さらに,提案手法はモデルの解釈可能性と推論時の性能の信頼性を両立させる。

In the current state of 6D pose estimation, top-performing techniques depend on complex intermediate correspondences, specialized architectures, and non-end-to-end algorithms. In contrast, our research reframes the problem as a straightforward regression task by exploring the capabilities of Vision Transformers for direct 6D pose estimation through a tailored use of classification tokens. We also introduce a simple method for determining pose confidence, which can be readily integrated into most 6D pose estimation frameworks. This involves modifying the transformer architecture by decreasing the number of query elements based on the network's assessment of the scene complexity. Our method that we call Pose Vision Transformer or PViT-6D provides the benefits of simple implementation and being end-to-end learnable while outperforming current state-of-the-art methods by +0.3% ADD(-S) on Linemod-Occlusion and +2.7% ADD(-S) on the YCB-V dataset. Moreover, our method enhances both the model's interpretability and the reliability of its performance during inference.
翻訳日:2023-11-30 21:57:08 公開日:2023-11-29
# 事前学習型および大規模言語モデルを用いたコミュニティ質問に対する回答選択の促進

Enhancing Answer Selection in Community Question Answering with Pre-trained and Large Language Models ( http://arxiv.org/abs/2311.17502v1 )

ライセンス: Link先を確認
Xinghang Hu(参考訳) 近年,CQA (Community Question Answering) が普及している。 しかし,多くの回答が存在するため,ユーザが関連する回答を選択することは困難である。 したがって、答えの選択はCQAの非常に重要なサブタスクである。 本稿では,まず質問応答選択のための事前学習モデルを用いた質問応答クロスアテンションネットワーク(qan)を提案する。 具体的には,質問対象,質問対象,回答に対してそれぞれ事前学習を行うためのエンコーダ層としてBERTモデルを適用し,異なる質問に対して最も関連性の高い回答を選択する。 実験によると、QANモデルは2つのデータセット、SemEval2015とSemEval2017で最先端のパフォーマンスを達成する。 さらに, LLM を用いて質問や回答の正解から外部知識を生成することで, LLM による回答選択タスクの知識向上を実現し, 異なる側面で LLM のプロンプトを最適化する。 その結果,外部知識の導入により,データセットのllmの正しい回答選択率を改善できることがわかった。 LLMはまた、最適化されたプロンプトによって、より多くの質問に対する正しい答えを選択することもできる。

Community Question Answering (CQA) becomes increasingly prevalent in recent years. However, there are a large number of answers, which is difficult for users to select the relevant answers. Therefore, answer selection is a very significant subtask of CQA. In this paper, we first propose the Question-Answer cross attention networks (QAN) with pre-trained models for answer selection and utilize large language model (LLM) to perform answer selection with knowledge augmentation. Specifically, we apply the BERT model as the encoder layer to do pre-training for question subjects, question bodies and answers, respectively, then the cross attention mechanism selects the most relevant answer for different questions. Experiments show that the QAN model achieves state-of-the-art performance on two datasets, SemEval2015 and SemEval2017. Moreover, we use the LLM to generate external knowledge from questions and correct answers to achieve knowledge augmentation for the answer selection task by LLM, while optimizing the prompt of LLM in different aspects. The results show that the introduction of external knowledge can improve the correct answer selection rate of LLM on datasets SemEval2015 and SemEval2017. Meanwhile, LLM can also select the correct answer on more questions by optimized prompt.
翻訳日:2023-11-30 21:56:27 公開日:2023-11-29
# 単一光学トラップされたセシウム原子のラマン側バンド冷却

Resolved Raman sideband cooling of a single optically trapped cesium atom ( http://arxiv.org/abs/2311.17494v1 )

ライセンス: Link先を確認
Zhuangzhuang Tian, Haobo Chang, Xin Lv, Mengna Yang, Zhihui Wang, Pengfei Yang, Pengfei Zhang, Gang Li, and Tiancai Zhang(参考訳) 我々は,光学的に閉じ込められたセシウム(Cs)原子をその運動基底状態に効率よく調製できる,ラマンサイドバンド冷却法を開発した。 フォノン数を減少させるために、2つの最外層ゼーマン準位の間の2光子ラマン過程を適用する。 本手法は2つの異なる基底超微粒子状態に属する2つの最外ゼーマン準位が取り込まれる一般的なスキームよりも磁場の変動に敏感ではない。 自然発生の少ない高速光ポンピングは冷却プロセスの効率を保証している。 50ミリ秒の冷却プロセスの後、Cs原子の82\%が3次元基底状態に凝集する。 この手法により,ラマン側バンド冷却の磁場ドリフトの有無による長期安定性が向上し,磁気サブレベルが豊富な他の閉じ込められた原子やイオンの冷却に適している。

We develop a resolved Raman sideband cooling scheme that can efficiently prepare a single optically trapped cesium (Cs) atom in its motional ground states. A two-photon Raman process between two outermost Zeeman sublevels in a single hyperfine state is applied to reduce the phonon number. Our scheme is less sensitive to the variation in the magnetic field than the commonly used scheme where the two outermost Zeeman sublevels belonging to the two separate ground hyperfine states are taken. Fast optical pumping with less spontaneous emissions guarantees the efficiency of the cooling process. After the cooling process for 50 ms, 82\% of Cs atoms populate their three-dimensional ground states. Our scheme improves the long-term stability of Raman sideband cooling at the presence of magnetic field drift and is thus suitable for cooling other trapped atoms or ions with abundant magnetic sublevels.
翻訳日:2023-11-30 21:55:52 公開日:2023-11-29
# 逆重み打ちによる高位化に向けて

Towards Higher Ranks via Adversarial Weight Pruning ( http://arxiv.org/abs/2311.17493v1 )

ライセンス: Link先を確認
Yuchuan Tian, Hanting Chen, Tianyu Guo, Chao Xu, Yunhe Wang(参考訳) 畳み込みニューラルネットワーク(cnns)は、高い計算能力とストレージの複雑さのため、エッジデバイスへのデプロイが難しい。 モデル圧縮の一般的な方法として、ネットワークプルーニングは、非構造化プルーニングと構造化プルーニングの2つの主要なカテゴリから構成される。 しかし、非構造化プルーニングは高いプルーニングレートで構造パターンを示し、性能が制限される。 そこで本研究では,対向的にスパース重みのランクを維持するために,ランクベースのPruninG(RPG)手法を提案する。 各ステップにおいて、単値分解を用いた重み行列の低階近似誤差を最小化し、重み行列をその低階近似から遠ざけることにより距離を最大化する。 このランクに基づく最適化目的は、疎ウェイトを高階位相へ導く。 提案手法は,訓練中のランク変化を安定させるために,段階的プルーニング方式で実施する。 様々なデータセットやタスクに対する実験結果から,提案アルゴリズムの有効性が示された。 提案されたRPGは、ResNet-50のImageNetで1.13%の精度で最先端のパフォーマンスを98%で上回っている。 コードはhttps://github.com/huawei-noah/Efficient-Computing/tree/Pruning/RPGとhttps://gitee.com/mindspore/models/tree/master/research/cv/RPGで公開されている。

Convolutional Neural Networks (CNNs) are hard to deploy on edge devices due to its high computation and storage complexities. As a common practice for model compression, network pruning consists of two major categories: unstructured and structured pruning, where unstructured pruning constantly performs better. However, unstructured pruning presents a structured pattern at high pruning rates, which limits its performance. To this end, we propose a Rank-based PruninG (RPG) method to maintain the ranks of sparse weights in an adversarial manner. In each step, we minimize the low-rank approximation error for the weight matrices using singular value decomposition, and maximize their distance by pushing the weight matrices away from its low rank approximation. This rank-based optimization objective guides sparse weights towards a high-rank topology. The proposed method is conducted in a gradual pruning fashion to stabilize the change of rank during training. Experimental results on various datasets and different tasks demonstrate the effectiveness of our algorithm in high sparsity. The proposed RPG outperforms the state-of-the-art performance by 1.13% top-1 accuracy on ImageNet in ResNet-50 with 98% sparsity. The codes are available at https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG and https://gitee.com/mindspore/models/tree/master/research/cv/RPG.
翻訳日:2023-11-30 21:55:00 公開日:2023-11-29
# Mergen: 拡張データを用いた最初の満州・韓国機械翻訳モデル

Mergen: The First Manchu-Korean Machine Translation Model Trained on Augmented Data ( http://arxiv.org/abs/2311.17492v1 )

ライセンス: Link先を確認
Jean Seo, Sungjoo Byun, Minha Kang, Sangah Lee(参考訳) 中国北東部の歴史的満州地方に起源を持つ満州語は現在、話者がほとんどいないため、絶滅の危機に直面している。 満州語を保護すべく,満州・朝鮮語機械翻訳(MT)モデルの最初の試みであるMergenを紹介した。 このモデルを開発するには,マンウェン・ラオダン(歴史書)や満州・朝鮮語辞書などの貴重な資料を利用する。 満州・韓国の並列データセットが不足しているため、GloVe埋め込みでガイドされた単語置換を用いて、モノリンガルテキストとパラレルテキストの両方でトレーニングすることで、データを拡張しています。 本手法は,双方向ゲートリカレントユニット(gru)層を組み込んだエンコーダ・デコーダニューラルマシン翻訳モデルを中心に構築した。 実験は有望な結果をもたらし、満州・朝鮮語訳が大幅に向上し、ブレウスコアが20-30ポイント上昇した。

The Manchu language, with its roots in the historical Manchurian region of Northeast China, is now facing a critical threat of extinction, as there are very few speakers left. In our efforts to safeguard the Manchu language, we introduce Mergen, the first-ever attempt at a Manchu-Korean Machine Translation (MT) model. To develop this model, we utilize valuable resources such as the Manwen Laodang(a historical book) and a Manchu-Korean dictionary. Due to the scarcity of a Manchu-Korean parallel dataset, we expand our data by employing word replacement guided by GloVe embeddings, trained on both monolingual and parallel texts. Our approach is built around an encoder-decoder neural machine translation model, incorporating a bi-directional Gated Recurrent Unit (GRU) layer. The experiments have yielded promising results, showcasing a significant enhancement in Manchu-Korean translation, with a remarkable 20-30 point increase in the BLEU score.
翻訳日:2023-11-30 21:54:07 公開日:2023-11-29
# LiDAR点雲セマンティックセマンティックセグメンテーションのための球状フラストムスパース畳み込みネットワーク

Spherical Frustum Sparse Convolution Network for LiDAR Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2311.17491v1 )

ライセンス: Link先を確認
Yu Zheng, Guangming Wang, Jiuming Liu, Marc Pollefeys and Hesheng Wang(参考訳) LiDARポイントクラウドセマンティックセグメンテーションにより、ロボットは周囲環境のきめ細かいセマンティック情報を得ることができる。 最近、多くの研究が2Dイメージにポイントクラウドを投影し、LiDARポイントクラウドセマンティックセグメンテーションのための2D畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマーを採用する。 しかし、1つ以上の点を同じ2D位置に投影できるため、1つの点しか保存できないため、以前の2D画像ベースセグメンテーション法は避けられない定量化情報損失に悩まされる。 本稿では,情報損失の定量化を避けるため,新しい球状フラスタム構造を提案する。 同じ2次元位置に投影された点が球状フラスタムに保存される。 さらに,メモリ効率のよいハッシュベースの球状フラストラム表現を提案する。 ハッシュベースの表現を通して,球状フラスタムスパース・コンボリューション(SFC)とフラスタムファストポイントサンプリング(F2PS)を提案し,それぞれ球状フラスタムに格納された点をコンボリュートしてサンプリングする。 最後に,LDARポイントクラウドセマンティックセマンティックセグメンテーションに2次元CNNを採用するために,SFCNet(Spherical Frustum sparse Convolution Network)を提案する。 SemanticKITTIとnuScenesデータセットの大規模な実験により、SFCNetは従来の球面投影に基づく2次元画像に基づくセマンティックセマンティックセグメンテーション法よりも優れていることが示された。 ソースコードは後でリリースされる。

LiDAR point cloud semantic segmentation enables the robots to obtain fine-grained semantic information of the surrounding environment. Recently, many works project the point cloud onto the 2D image and adopt the 2D Convolutional Neural Networks (CNNs) or vision transformer for LiDAR point cloud semantic segmentation. However, since more than one point can be projected onto the same 2D position but only one point can be preserved, the previous 2D image-based segmentation methods suffer from inevitable quantized information loss. To avoid quantized information loss, in this paper, we propose a novel spherical frustum structure. The points projected onto the same 2D position are preserved in the spherical frustums. Moreover, we propose a memory-efficient hash-based representation of spherical frustums. Through the hash-based representation, we propose the Spherical Frustum sparse Convolution (SFC) and Frustum Fast Point Sampling (F2PS) to convolve and sample the points stored in spherical frustums respectively. Finally, we present the Spherical Frustum sparse Convolution Network (SFCNet) to adopt 2D CNNs for LiDAR point cloud semantic segmentation without quantized information loss. Extensive experiments on the SemanticKITTI and nuScenes datasets demonstrate that our SFCNet outperforms the 2D image-based semantic segmentation methods based on conventional spherical projection. The source code will be released later.
翻訳日:2023-11-30 21:53:49 公開日:2023-11-29
# qpuの異種クラスタに対するマルチスレッド並列処理

Multithreaded parallelism for heterogeneous clusters of QPUs ( http://arxiv.org/abs/2311.17490v1 )

ライセンス: Link先を確認
Philipp Seitz, Manuel Geiger, Christian B. Mendl(参考訳) 本稿では,量子無関係な並列マシンスケジューラとカッターであるmilqを提案する。 非関連並列マシンの設定は独立したハードウェアバックエンドを考慮し、それぞれが異なるセットアップと処理時間によって区別される。 milqは複数の量子デバイスでスケジュールされた回路の合計実行時間を最適化する。 最先端の回路切断技術を利用して、デバイスに回路を取り付け、混合整数線形プログラムに基づいてスケジュールする。 その結果,ベースラインアプローチと比較して,最大26パーセントの改善が見られた。

In this work, we present MILQ, a quantum unrelated parallel machines scheduler and cutter. The setting of unrelated parallel machines considers independent hardware backends, each distinguished by differing setup and processing times. MILQ optimizes the total execution time of a batch of circuits scheduled on multiple quantum devices. It leverages state-of-the-art circuit-cutting techniques to fit circuits onto the devices and schedules them based on a mixed-integer linear program. Our results show a total improvement of up to 26 % compared to a baseline approach.
翻訳日:2023-11-30 21:53:19 公開日:2023-11-29
# 境界に敏感なリンドブラジアンと緩和ダイナミクス

Boundary sensitive Lindbladians and relaxation dynamics ( http://arxiv.org/abs/2311.17489v1 )

ライセンス: Link先を確認
Xu Feng and Shu Chen(参考訳) 非エルミート系は非ヘルミート皮膚効果(NHSE)による境界条件に非常に敏感であることが知られている。 同様に、境界に敏感な2つのu(1)$対称リンドブラジアンについて検討する:1つは定常状態において電流を持ち、もう1つは定常状態ではない。 その結果,境界条件が変化すると,リウビリアンスペクトル,固有モード,緩和時間の有意な変化が認められた。 この現象はリウヴィリアン皮膚効果(英語版)(lse)によって引き起こされ、特に固有モードの局在は非エルミート有効ハミルトニアンのnhseに由来する。 さらに、これらの2つのリンドブラディアンは異なるLSEを示し、最終的に異なる緩和行動をもたらす。

It is well known that non-Hermitian systems can be extremely sensitive to boundary conditions owing to non-Hermitian skin effect (NHSE). Analogously, we investigate two boundary-sensitive $U(1)$ symmetric Lindbladians: one carries current in the steady state, and the other does not. The numerical results indicate significant change of the Liouvillian spectrum, eigenmodes and relaxation time for both Lindbladians when the boundary conditions are altered. This phenomenon is found to be triggered by the Liouvillian skin effect (LSE), specifically the localization of eigenmodes, which stems from the NHSE of the non-Hermitian effective Hamiltonian. In addition, these two Lindbladians manifest different LSE, ultimately resulting in distinct relaxation behaviors.
翻訳日:2023-11-30 21:53:12 公開日:2023-11-29
# 台湾llm:文化的に連携した言語モデルによる言語分割の橋渡し

Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model ( http://arxiv.org/abs/2311.17487v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Yun-Nung Chen(参考訳) 言語モデルの世界では、台湾で話される伝統的な中国語のニュアンスド言語と文化の複雑さがほとんど見過ごされてきている。 本稿では,台湾で使われている変種に着目した,中国語に特化する先駆的な大規模言語モデルである台湾LLMを紹介する。 包括的事前学習コーパスと指導ファインタニングデータセットを活用し,従来の中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。 台湾のLLMは、言語的に正確であるだけでなく、そのユーザーベースと文化的に共鳴するモデルである。 台湾のLLMは漢文の理解・生成において優れた性能を示し,簡素な中国語や英語で学習した既存モデルよりも優れていた。 台湾のLLMのオープンソースリリースは、協力とさらなるイノベーションを招き、中国語話者の言語的多様性が受け入れられ、十分に維持されていることを保証する。 この分野で進行中の研究と開発を促進するために、モデル、データセット、さらに多くのリソースが公開されている。

In the realm of language models, the nuanced linguistic and cultural intricacies of Traditional Chinese, as spoken in Taiwan, have been largely overlooked. This paper introduces Taiwan LLM, a pioneering Large Language Model that specifically caters to the Traditional Chinese language, with a focus on the variant used in Taiwan. Leveraging a comprehensive pretraining corpus and instruction-finetuning datasets, we have developed a model that not only understands the complexities of Traditional Chinese but also embodies the cultural context of Taiwan. Taiwan LLM represents the first of its kind, a model that is not only linguistically accurate but also culturally resonant with its user base. Our evaluations demonstrate that Taiwan LLM achieves superior performance in understanding and generating Traditional Chinese text, outperforming existing models that are predominantly trained on Simplified Chinese or English. The open-source release of Taiwan LLM invites collaboration and further innovation, ensuring that the linguistic diversity of Chinese speakers is embraced and well-served. The model, datasets, and further resources are made publicly available to foster ongoing research and development in this field.
翻訳日:2023-11-30 21:52:58 公開日:2023-11-29
# 非可視光データ合成とその応用:合成開口レーダ画像のケーススタディ

Non-Visible Light Data Synthesis and Application: A Case Study for Synthetic Aperture Radar Imagery ( http://arxiv.org/abs/2311.17486v1 )

ライセンス: Link先を確認
Zichen Tian, Zhaozheng Chen, Qianru Sun(参考訳) 本研究では,合成開口レーダ(sar)データを用いて,非可視光領域における安定拡散や画像nなどの大規模事前学習画像生成モデルの「隠れ」能力について検討する。 衛星データを取得する際の固有の課題のため、十分なSARトレーニングサンプルを取得することは不可能である。 例えば、開海での船舶の特定のカテゴリーについて、有効な船舶認識モデルを引き出すには限界の少ない数発のSAR画像しか収集できない。 正規画像で事前訓練された大規模モデルを新しいSAR画像に適応させることができれば,その問題は解決される。 予備的な研究では,SARと正規画像の2つの主要な違い(構造とモダリティ)を捉えることができないため,SAR画像の少ない微調整では動作しないことがわかった。 そこで我々は,2段階の低ランク適応法を提案し,これを2LoRAと呼ぶ。 第1段階では、構造がSARと一致する空中視正則画像データを用いてモデルを適応させ、続いて第1段階からのベースモデルをSARモダリティデータによりさらに適応させる第2段階とする。 特に第2段階では,SARデータセットのクラス不均衡問題を解決するため,新しいプロトタイプLoRA (pLoRA) を2LoRAの改良版として導入する。 評価には生成モデルを用いて追加のSARデータを合成する。 この拡張は、SAR分類のトレーニングプロセスとセグメンテーションモデルに統合されると、マイナークラスのパフォーマンスが顕著に向上する。

We explore the "hidden" ability of large-scale pre-trained image generation models, such as Stable Diffusion and Imagen, in non-visible light domains, taking Synthetic Aperture Radar (SAR) data for a case study. Due to the inherent challenges in capturing satellite data, acquiring ample SAR training samples is infeasible. For instance, for a particular category of ship in the open sea, we can collect only few-shot SAR images which are too limited to derive effective ship recognition models. If large-scale models pre-trained with regular images can be adapted to generating novel SAR images, the problem is solved. In preliminary study, we found that fine-tuning these models with few-shot SAR images is not working, as the models can not capture the two primary differences between SAR and regular images: structure and modality. To address this, we propose a 2-stage low-rank adaptation method, and we call it 2LoRA. In the first stage, the model is adapted using aerial-view regular image data (whose structure matches SAR), followed by the second stage where the base model from the first stage is further adapted using SAR modality data. Particularly in the second stage, we introduce a novel prototype LoRA (pLoRA), as an improved version of 2LoRA, to resolve the class imbalance problem in SAR datasets. For evaluation, we employ the resulting generation model to synthesize additional SAR data. This augmentation, when integrated into the training process of SAR classification as well as segmentation models, yields notably improved performance for minor classes
翻訳日:2023-11-30 21:52:40 公開日:2023-11-29
# ml対応システムにおける非機能要件対応のための分類,課題,自動アプローチ--体系的文献レビュー

Classification, Challenges, and Automated Approaches to Handle Non-Functional Requirements in ML-Enabled Systems: A Systematic Literature Review ( http://arxiv.org/abs/2311.17483v1 )

ライセンス: Link先を確認
Vincenzo De Martino, Fabio Palomba(参考訳) 機械学習(ML)は今や広く普及しており、ほとんど誰もその使用を避けることができない。 それでもその巨大なポテンシャルは、持続可能性のような非機能要件によって常に脅かされている。 特に,これまでの研究成果の総合的な合成の欠如と,これらの研究がさらなる研究にどのように寄与するかに気付きました。 本稿では,(1)これまで検討されてきた非機能要件の分類,(2)それを扱う際に直面する課題,(3)実践者を支援するために文献に提案する自動化アプローチの3つの重要な側面を対象とする,体系的な文献レビューを提案する。 体系的な文献レビューを行うためのガイドラインと追加の検索基準を組み合わせることで,69の論文の総量を調査した。 本研究は,6つの主要クラスに分類できる<revised{30}の異なる非機能要件を同定した。 また、さらに研究すべき23以上のソフトウェアエンジニアリングの課題のカタログを提供し、機械学習対応システムの非機能要件を最適化する際に、研究者が実践者を支援するために提案する自動アプローチの概要を提供する。 本研究の結論は, 含意を蒸留し, 今後の展望である。

Machine learning (ML) is nowadays so pervasive and diffused that virtually no application can avoid its use. Nonetheless, its enormous potential is constantly threatened by non-functional requirements, such as sustainability. In particular, we noticed the lack of a comprehensive synthesis of the research efforts done so far and how these may drive further research. In this paper, we propose a systematic literature review targeting three key aspects such as (1) the classification of the non-functional requirements investigated so far, (2) the challenges to face when dealing with them, and (3) the automated approaches proposed in literature to support practitioners when optimizing them in practice. Through the combination of well-established guidelines for conducting systematic literature reviews and additional search criteria, we survey a total amount of 69 research articles. Our findings report that current research identified \revised{30} different non-functional requirements, which can be grouped into six main classes. We also deliver a catalog of over 23 software engineering challenges that further research should consider, besides an overview of the automated approaches researchers proposed to support practitioners when optimizing non-functional requirements of machine learning-enabled systems. We conclude our work by distilling implications and a future outlook on the topic.
翻訳日:2023-11-30 21:52:10 公開日:2023-11-29
# 混合スピン(1/2, 1)ハイゼンベルクダイマーの従来および逆磁気カロリックおよび電気カロリック効果

Conventional and inverse magnetocaloric and electrocaloric effects of a mixed spin-(1/2, 1) Heisenberg dimer ( http://arxiv.org/abs/2311.17478v1 )

ライセンス: Link先を確認
Hana Vargov\'a and Jozef Stre\v{c}ka(参考訳) 2つの異なるLand\'e $g$-factorsの混合スピン(1/2, 1)ハイゼンベルク二量体は、交換と一軸の単一イオン異方性を考慮することにより、外部磁場および電場の存在下で正確に検討される。 厳密に計算された基底状態相図は、残差エントロピーの非零値を伴う3種類の異なるゼロ温度相遷移の存在を肯定する。 桂長尾佐-バラツキー機構内における磁力効果は,両外部磁場に応答して磁化と誘電分極のアナリジによって表される。 外部磁場の変動によって得られる温度の断熱変化と等温エントロピー変化の2つの基本的な磁気光学特性のアナリジは、(マルチ)熱的挙動を調べるために正確に計算される。 その結果, 従来と逆磁場効果の両方の存在が確認された。 冷蔵容量係数を利用して, 断熱脱磁過程における電場の適用により, 従来の磁気カロリック効果領域における冷却性能が向上する可能性が示唆された。 一方、十分に大きな電場は、完全偏極状態から部分偏極状態への電場誘起遷移が実現されるような逆熱効果を低減できる。

The mixed spin-(1/2, 1) Heisenberg dimer accounting for two different Land\'e $g$-factors is exactly examined in presence of external magnetic and electric field by considering exchange as well as uniaxial single-ion anisotropies. Rigorously calculated ground-state phase diagrams affirm existence of three different types of zero-temperature phase transitions accompanied with a non-zero value of a residual entropy. Presence of a magnetoelectric effect accounted within Katsura-Nagaosa-Balatsky mechanism is demonstrated through the analyzis of the magnetization and dielectric polarization in response to both external fields. The analyzis of two basic magnetocaloric characteristics, the adiabatic change of temperature and the isothermal entropy change, achieved upon variation of external fields, are exactly calculated in order to investigate the (multi)caloric behavior. The obtained results confirm existence of both conventional as well as inverse magnetocaloric effects. Utilizing the refrigeration capacity coefficient it is found that the application of an electric field during the adiabatic demagnetization process may lead to an enhancement of cooling performance in the region of conventional magnetocaloric effect. On the other hand, a sufficiently large electric field can reduce an inverse caloric effect provided that the electric-field-induced transition from the fully to partially polarized state is realized.
翻訳日:2023-11-30 21:51:48 公開日:2023-11-29
# CLiSA:衛星画像クラウドセグメンテーションのための直交交差注意を用いた階層型ハイブリッドトランスモデル

CLiSA: A Hierarchical Hybrid Transformer Model using Orthogonal Cross Attention for Satellite Image Cloud Segmentation ( http://arxiv.org/abs/2311.17475v1 )

ライセンス: Link先を確認
Subhajit Paul, Ashutosh Gupta(参考訳) 光衛星画像内の雲は、その存在が正確な解析と処理の能力を妨げるため、主要な関心事である。 雲の存在は、イメージタスクのスケジュールにも影響し、地上および宇宙ベースのシステムで貴重なストレージスペースを浪費する。 これらの理由から、光学リモートセンシング画像から正確な雲マスクを抽出することが重要な課題である。 衛星画像における雲検出のためのしきい値に基づく空間フィルタリングのような従来の手法は精度の欠如に苦しむ。 近年,深層学習アルゴリズムは,画素レベルの分類と意味レベルのセグメンテーションを可能にするため,画像セグメンテーション問題を解決するための有望なアプローチとして出現している。 本稿では,ハイブリッドトランスフォーマーアーキテクチャに基づく,clisa - cloud segmentation via lipschitz stable attention network という,効果的なクラウドマスク生成のためのディープラーニングモデルを提案する。 本研究では,階層的クロスアテンションモデルと組み合わせた直交自己アテンションの概念を提案し,リプシッツの安定性を理論的および経験的に検証する。 我々は,Lov\'asz-Softmax損失を前提として,対向的な設定で全体の設定を設計する。 Landsat-8, Sentinel-2, Cartosat-2sを含む複数の衛星画像データセットの質的および定量的な結果を示す。 比較実験の結果,我々のモデルは,他の最先端手法に対して好適に動作し,衛星マルチスペクトル(MX)画像からの雲抽出の精度向上も図っている。 また,異なるアーキテクチャ要素と目的関数に対応する選択を推奨する,異なるアブレーション研究も紹介する。

Clouds in optical satellite images are a major concern since their presence hinders the ability to carry accurate analysis as well as processing. Presence of clouds also affects the image tasking schedule and results in wastage of valuable storage space on ground as well as space-based systems. Due to these reasons, deriving accurate cloud masks from optical remote-sensing images is an important task. Traditional methods such as threshold-based, spatial filtering for cloud detection in satellite images suffer from lack of accuracy. In recent years, deep learning algorithms have emerged as a promising approach to solve image segmentation problems as it allows pixel-level classification and semantic-level segmentation. In this paper, we introduce a deep-learning model based on hybrid transformer architecture for effective cloud mask generation named CLiSA - Cloud segmentation via Lipschitz Stable Attention network. In this context, we propose an concept of orthogonal self-attention combined with hierarchical cross attention model, and we validate its Lipschitz stability theoretically and empirically. We design the whole setup under adversarial setting in presence of Lov\'asz-Softmax loss. We demonstrate both qualitative and quantitative outcomes for multiple satellite image datasets including Landsat-8, Sentinel-2, and Cartosat-2s. Performing comparative study we show that our model performs preferably against other state-of-the-art methods and also provides better generalization in precise cloud extraction from satellite multi-spectral (MX) images. We also showcase different ablation studies to endorse our choices corresponding to different architectural elements and objective functions.
翻訳日:2023-11-30 21:51:25 公開日:2023-11-29
# エッジネットワークのためのゼロタッチプロビジョニングにおける分散ai:課題と研究方向

Distributed AI in Zero-touch Provisioning for Edge Networks: Challenges and Research Directions ( http://arxiv.org/abs/2311.17471v1 )

ライセンス: Link先を確認
Abhishek Hazra, Andrea Morichetta, Ilir Murturi, Lauri Lov\'en, Chinmaya Kumar Dehury, Victor Casamayor Pujol, Praveen Kumar Donta, Schahram Dustdar(参考訳) ゼロタッチネットワークは、複数のサービスプロバイダが共同で計算とストレージリソースを提供するインテリジェントで柔軟なリソースプロビジョニング戦略の創出を期待されている。 このトランスフォーメーションは、持続可能性とスケーラビリティに関して、ネットワーク管理とサービスプロバイダに重大な課題をもたらす。 この記事では、エッジネットワークのための分散人工知能(DAI)とゼロタッチプロビジョニング(ZTP)を組み合わせる。 この組み合わせは、人間の介入を最小限にすることで、シームレスかつインテリジェントにネットワークデバイスを管理するのに役立つ。 さらに、エッジネットワークのコンテキストに分散AIをZTPに組み込むことによるいくつかのメリットも強調されている。 さらに,本分野での新しい研究を育成し,現状の限界を克服する可能性を探る。

Zero-touch network is anticipated to inaugurate the generation of intelligent and highly flexible resource provisioning strategies where multiple service providers collaboratively offer computation and storage resources. This transformation presents substantial challenges to network administration and service providers regarding sustainability and scalability. This article combines Distributed Artificial Intelligence (DAI) with Zero-touch Provisioning (ZTP) for edge networks. This combination helps to manage network devices seamlessly and intelligently by minimizing human intervention. In addition, several advantages are also highlighted that come with incorporating Distributed AI into ZTP in the context of edge networks. Further, we draw potential research directions to foster novel studies in this field and overcome the current limitations.
翻訳日:2023-11-30 21:51:02 公開日:2023-11-29
# TaskWeaver: コードファーストのエージェントフレームワーク

TaskWeaver: A Code-First Agent Framework ( http://arxiv.org/abs/2311.17541v1 )

ライセンス: Link先を確認
Bo Qiao, Liqun Li, Xu Zhang, Shilin He, Yu Kang, Chaoyun Zhang, Fangkai Yang, Hang Dong, Jue Zhang, Lu Wang, Minghua Ma, Pu Zhao, Si Qin, Xiaoting Qin, Chao Du, Yong Xu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang(参考訳) 言語言語モデル(llm)は自然言語理解と生成において素晴らしい能力を示しており、チャットボットやバーチャルアシスタントのようなアプリケーションで使用されている。 しかし、既存のllmフレームワークはリッチなデータ構造でドメイン固有のデータ分析タスクを扱う際の制限に直面している。 さらに、多様なユーザー要件を満たすために柔軟性に苦しむ。 これらの問題に対処するため、TaskWeaverはLLMで動く自律エージェントを構築するためのコードファーストフレームワークとして提案されている。 ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。 TaskWeaverは、リッチなデータ構造、柔軟なプラグイン使用、動的プラグイン選択のサポートを提供し、複雑なロジックにLLMコーディング機能を活用する。 また、例を通してドメイン固有の知識を取り入れ、生成されたコードの安全な実行を保証する。 taskweaverは、複雑なタスクを処理し、ドメイン固有のシナリオに適応できるインテリジェントな会話エージェントを作成するための強力で柔軟なフレームワークを提供する。 コードはhttps://github.com/microsoft/taskweaver/でオープンソース化されている。

Language Language Models (LLMs) have shown impressive abilities in natural language understanding and generation, leading to their use in applications such as chatbots and virtual assistants. However, existing LLM frameworks face limitations in handling domain-specific data analytics tasks with rich data structures. Moreover, they struggle with flexibility to meet diverse user requirements. To address these issues, TaskWeaver is proposed as a code-first framework for building LLM-powered autonomous agents. It converts user requests into executable code and treats user-defined plugins as callable functions. TaskWeaver provides support for rich data structures, flexible plugin usage, and dynamic plugin selection, and leverages LLM coding capabilities for complex logic. It also incorporates domain-specific knowledge through examples and ensures the secure execution of generated code. TaskWeaver offers a powerful and flexible framework for creating intelligent conversational agents that can handle complex tasks and adapt to domain-specific scenarios. The code is open-sourced at https://github.com/microsoft/TaskWeaver/.
翻訳日:2023-11-30 21:44:14 公開日:2023-11-29
# 過パラメータ化がシャープネス認識最小化に及ぼす影響:実証的および理論的解析

The Effects of Overparameterization on Sharpness-aware Minimization: An Empirical and Theoretical Analysis ( http://arxiv.org/abs/2311.17539v1 )

ライセンス: Link先を確認
Sungbin Shin, Dongyeop Lee, Maksym Andriushchenko, Namhoon Lee(参考訳) 過パラメータニューラルネットワークのトレーニングは、同じレベルのトレーニング損失と異なる一般化能力の最小化をもたらす可能性がある。 極小の鋭さと一般化誤差の相関関係を示す証拠により、より一般化可能な解として平坦な極小を明示的に見つけるための最適化手法の開発が進められている。 しかし、このシャープネス認識最小化(SAM)戦略は、過度パラメータ化が実際にその行動にどのように影響するかについて、まだ研究されていない。 本研究では,SAMの過パラメータ化の度合いを解析し,超パラメータ化がSAMに与える影響を示唆する経験的および理論的結果を示す。 具体的には、まず最適化において標準手法を用いて、SAMが確率的条件下で過パラメータ化の下で線形収束率を達成できることを証明する。 また,SAM で発見された線形安定ミニマは,SGD よりも平坦であり,ヘッセンモーメントが均一に分布していることを示す。 これらの結果は,モデルが過度にパラメータ化されるにつれてSAMによる一般化改善が増加し続けるという一貫した傾向を示す実験と相関する。 さらに,空間が効果的に過度なパラメータ化を行うための道を開くことができることを示す。

Training an overparameterized neural network can yield minimizers of the same level of training loss and yet different generalization capabilities. With evidence that indicates a correlation between sharpness of minima and their generalization errors, increasing efforts have been made to develop an optimization method to explicitly find flat minima as more generalizable solutions. This sharpness-aware minimization (SAM) strategy, however, has not been studied much yet as to how overparameterization can actually affect its behavior. In this work, we analyze SAM under varying degrees of overparameterization and present both empirical and theoretical results that suggest a critical influence of overparameterization on SAM. Specifically, we first use standard techniques in optimization to prove that SAM can achieve a linear convergence rate under overparameterization in a stochastic setting. We also show that the linearly stable minima found by SAM are indeed flatter and have more uniformly distributed Hessian moments compared to those of SGD. These results are corroborated with our experiments that reveal a consistent trend that the generalization improvement made by SAM continues to increase as the model becomes more overparameterized. We further present that sparsity can open up an avenue for effective overparameterization in practice.
翻訳日:2023-11-30 21:43:57 公開日:2023-11-29
# 拡散モデルを用いたワンショット映像チューニングのためのノイズ制約付きスムースビデオ合成

Smooth Video Synthesis with Noise Constraints on Diffusion Models for One-shot Video Tuning ( http://arxiv.org/abs/2311.17536v1 )

ライセンス: Link先を確認
Liang Peng, Haoran Cheng, Zheng Yang, Ruisi Zhao, Linxuan Xia, Chaotian Song, Qinglin Lu, Wei Liu, Boxi Wu(参考訳) 最近のワンショットビデオチューニング手法は、事前学習されたテキストから画像へのモデル(例えば、安定した拡散)に基づいて、特定のビデオ上でネットワークを微調整する。 しかし、これらの手法は不一貫性と不整合によってマードされたビデオをしばしば生成する。 これらの制約に対処するために,本研究では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。 この制約は、時間的近傍にまたがるノイズ予測を規制することを目的としており、結果としてスムーズな潜在性が生まれる。 単にトレーニング段階での損失項として含めることもできる。 既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。 さらに,現在の映像評価指標では滑らかさが不十分である。 そこで本稿では,詳細な特徴とその時間的ダイナミクスを考慮した新しい指標を提案する。 種々のワンショットビデオチューニングベースライン上でのスムーズなビデオ生成におけるアプローチの有効性を実験的に検証した。 ソースコードとビデオデモは \href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo} で公開されている。

Recent one-shot video tuning methods, which fine-tune the network on a specific video based on pre-trained text-to-image models (e.g., Stable Diffusion), are popular in the community because of the flexibility. However, these methods often produce videos marred by incoherence and inconsistency. To address these limitations, this paper introduces a simple yet effective noise constraint across video frames. This constraint aims to regulate noise predictions across their temporal neighbors, resulting in smooth latents. It can be simply included as a loss term during the training phase. By applying the loss to existing one-shot video tuning methods, we significantly improve the overall consistency and smoothness of the generated videos. Furthermore, we argue that current video evaluation metrics inadequately capture smoothness. To address this, we introduce a novel metric that considers detailed features and their temporal dynamics. Experimental results validate the effectiveness of our approach in producing smoother videos on various one-shot video tuning baselines. The source codes and video demos are available at \href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo}.
翻訳日:2023-11-30 21:43:36 公開日:2023-11-29
# 逆3次元音声合成のための弱教師付き感情遷移学習

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation ( http://arxiv.org/abs/2311.17532v1 )

ライセンス: Link先を確認
Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo(参考訳) 人-機械インタラクションアプリケーションにおける仮想アバターアニメーションには、鮮明で感情的な3D合成ジェスチャーの生成が不可欠である。 既存の方法では、単一の感情ラベルに従うジェスチャーを生成することができるが、実際のシーンでは、感情遷移を伴う長いジェスチャーシーケンスモデリングの方が実用的である。 さらに、感情的遷移音声とそれに対応する3D人間のジェスチャーを備えた大規模データセットの欠如により、このタスクのアドレッシングも制限される。 この目的を達成するために、我々はまずChatGPT-4と音声塗装アプローチを取り入れ、高忠実度感情遷移人間の音声を構築する。 動的に塗布された感情遷移音声に対応するリアルな3Dポーズアノテーションを得るのは非常に難しいことを考慮し、権威のジェスチャー遷移を促進するための弱い教師付きトレーニング戦略を提案する。 具体的には,遷移ジェスチャw.r.tが異なる感情ジェスチャのコーディネーションを強化するために,2つの異なる感情ジェスチャシーケンス間の時間的関連表現をスタイルガイダンスとしてモデル化し,遷移生成に組み込む。 さらに、遷移ジェスチャーのための学習可能な混合感情ラベルに基づいて、弱い監視を提供する感情混合機構を考案する。 最後に,キーフレーム・サンプラーを用いて,長いシーケンスで効果的な初期姿勢情報を提供し,多様なジェスチャを生成できる。 提案手法は,新たに定義された感情遷移タスクとデータセットに単一の感情条件を適応させることによって構築された最先端モデルよりも優れることを示す。

Generating vivid and emotional 3D co-speech gestures is crucial for virtual avatar animation in human-machine interaction applications. While the existing methods enable generating the gestures to follow a single emotion label, they overlook that long gesture sequence modeling with emotion transition is more practical in real scenes. In addition, the lack of large-scale available datasets with emotional transition speech and corresponding 3D human gestures also limits the addressing of this task. To fulfill this goal, we first incorporate the ChatGPT-4 and an audio inpainting approach to construct the high-fidelity emotion transition human speeches. Considering obtaining the realistic 3D pose annotations corresponding to the dynamically inpainted emotion transition audio is extremely difficult, we propose a novel weakly supervised training strategy to encourage authority gesture transitions. Specifically, to enhance the coordination of transition gestures w.r.t different emotional ones, we model the temporal association representation between two different emotional gesture sequences as style guidance and infuse it into the transition generation. We further devise an emotion mixture mechanism that provides weak supervision based on a learnable mixed emotion label for transition gestures. Last, we present a keyframe sampler to supply effective initial posture cues in long sequences, enabling us to generate diverse gestures. Extensive experiments demonstrate that our method outperforms the state-of-the-art models constructed by adapting single emotion-conditioned counterparts on our newly defined emotion transition task and datasets.
翻訳日:2023-11-30 21:43:18 公開日:2023-11-29
# 低分解能訓練拡散モデルにおける高分解能創造性と効率の解放

HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models ( http://arxiv.org/abs/2311.17528v1 )

ライセンス: Link先を確認
Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Zhenyuan Chen, Yao Tang, Yuhao Chen, Wengang Cao, Jiajun Liang(参考訳) 我々は,高解像度画像(例えば1024$\times$1024)を効率よく生成する,事前学習された大規模テキスト・画像拡散モデルを実現するために,解像度対応U-Net(RAU-Net)と改良シフトウィンドウ・マルチヘッド・セルフアタテンション(MSW-MSA)で構成されるチューニングフリーフレームワークであるHiDiffusionを紹介する。 事前訓練された拡散モデルは、トレーニング画像解像度を超える画像を生成する際に、不合理なオブジェクト重複に遭遇する。 我々は,高解像度画像の特徴マップサイズとU-Netの畳み込みの受容場とのミスマッチに起因する。 この問題に対処するため,RAU-Net というシンプルな手法を提案する。 RAU-Netは、U-Netの深いブロックにおける畳み込みの受容場と一致するように、機能マップサイズを動的に調整する。 高分解能合成のもう一つの障害は、u-netの遅い推論速度である。 しかしながら, 局所性を示すトップブロックにおけるグローバルな自己注意が, 計算資源の大部分を消費していることが明らかとなった。 そこで我々はMSW-MSAを提案する。 従来のウィンドウアテンション機構とは異なり,より大きなウィンドウサイズを用い,拡散モデルに適応するために動的にウィンドウをシフトさせる。 大規模な実験により、我々のHiDiffusionは拡散モデルをスケールして1024$\times$1024, 2048$\times$2048, さらに4096$\times$4096の解像度画像を生成することができ、同時に推論時間を40\%-60\%削減し、高解像度画像合成における最先端の性能を達成することができる。 我々の研究の最も重要な発表は、低解像度画像上の事前学習拡散モデルが、さらなるチューニングなしに高解像度生成にスケーラブルであることである。 我々は、この発見が拡散モデルのスケーラビリティに関する将来の研究に洞察をもたらすことを望んでいる。

We introduce HiDiffusion, a tuning-free framework comprised of Resolution-Aware U-Net (RAU-Net) and Modified Shifted Window Multi-head Self-Attention (MSW-MSA) to enable pretrained large text-to-image diffusion models to efficiently generate high-resolution images (e.g. 1024$\times$1024) that surpass the training image resolution. Pretrained diffusion models encounter unreasonable object duplication in generating images beyond the training image resolution. We attribute it to the mismatch between the feature map size of high-resolution images and the receptive field of U-Net's convolution. To address this issue, we propose a simple yet scalable method named RAU-Net. RAU-Net dynamically adjusts the feature map size to match the convolution's receptive field in the deep block of U-Net. Another obstacle in high-resolution synthesis is the slow inference speed of U-Net. Our observations reveal that the global self-attention in the top block, which exhibits locality, however, consumes the majority of computational resources. To tackle this issue, we propose MSW-MSA. Unlike previous window attention mechanisms, our method uses a much larger window size and dynamically shifts windows to better accommodate diffusion models. Extensive experiments demonstrate that our HiDiffusion can scale diffusion models to generate 1024$\times$1024, 2048$\times$2048, or even 4096$\times$4096 resolution images, while simultaneously reducing inference time by 40\%-60\%, achieving state-of-the-art performance on high-resolution image synthesis. The most significant revelation of our work is that a pretrained diffusion model on low-resolution images is scalable for high-resolution generation without further tuning. We hope this revelation can provide insights for future research on the scalability of diffusion models.
翻訳日:2023-11-30 21:42:52 公開日:2023-11-29
# 組合せ量子重力と創発的3次元量子挙動

Combinatorial quantum gravity and emergent 3D quantum behaviour ( http://arxiv.org/abs/2311.17526v1 )

ライセンス: Link先を確認
Carlo A. Trugenberger(参考訳) 我々は、アインシュタインの動的幾何学の考え方とウィーラーの「ビットから」仮説を結合した組合せ量子重力を、粗いオリヴィエ・リッチ曲率によって支配される動的グラフのモデルでレビューする。 これは、グラフ上のループの凝縮により、ランダムから幾何学相への連続的な位相遷移を駆動する。 2次元の場合、幾何学的位相は2つの逆関係のスケール、紫外線(UV)プランク長と赤外(IR)曲率半径を持つ負曲率曲面を記述する。 プランクサイズのランダムビットの塊は、その過剰な曲率によって与えられる励起エネルギーの物質粒子を記述する。 平面長と曲率半径の間には、表面は滑らかでスペクトル次元とハウスドルフ次元 2 を持ち、曲率半径よりも大きいスケールでは、粒子は表面を有効なローレンツ・ド・ジッター面として見ると、スペクトル次元は3となり、共動観察者に見られるように、粒子の効果的なスローダイナミクスはユークリッド3次元空間の量子力学として現れる。 3次元距離は、下層の2D de Sitter表面から受け継がれるため、大規模重力相互作用を表す3次元においても、質量粒子の周りの曲線軌道を得る。 したがって、この2次元モデルは、実際の量子重力に関連する一般的なホログラフィックスクリーンを記述する。

We review combinatorial quantum gravity, an approach which combines Einstein's idea of dynamical geometry with Wheeler's "it from bit" hypothesis in a model of dynamical graphs governed by the coarse Ollivier-Ricci curvature. This drives a continuous phase transition from a random to a geometric phase, due to a condensation of loops on the graph. In the 2D case, the geometric phase describes negative-curvature surfaces with two inversely related scales, an ultraviolet (UV) Planck length and an infrared (IR) radius of curvature. Below the Planck scale the random bit character survives: chunks of random bits of the Planck size describe matter particles of excitation energy given by their excess curvature. Between the Planck length and the curvature radius, the surface is smooth, with spectral and Hausdorff dimension 2; at scales larger than the curvature radius, particles see the surface as an effective Lorentzian de Sitter surface, the spectral dimension becomes 3 and the effective slow dynamics of particles, as seen by co-moving observers, emerges as quantum mechanics in Euclidean 3D space. Since the 3D distances are inherited from the underlying 2D de Sitter surface, we obtain curved trajectories around massive particles also in 3D, representing the large-scale gravity interactions. We shall thus propose that this 2D model describes a generic holographic screen relevant for real quantum gravity.
翻訳日:2023-11-30 21:42:13 公開日:2023-11-29
# SLO画像のための公開容器分割アルゴリズム

A publicly available vessel segmentation algorithm for SLO images ( http://arxiv.org/abs/2311.17525v1 )

ライセンス: Link先を確認
Adam Threlfall, Samuel Gibbon, James Cameron, Tom MacGillivray(参考訳) 背景と目的:赤外線走査型レーザー眼科鏡(IRSLO)画像は、後極と網膜血管の微細な細部を表示する際の眼底写真に類似している。 カラー眼底写真では網膜血管のセグメンテーションに容易に利用できる訓練済みのネットワークが多数存在するが、IRSLO画像には対応していない。 そこで我々は,irslo画像専用に設計した容器分割アルゴリズムの開発(およびオープンソースとしてリリース)を目標とした。 Materials and Methods: RAVIRデータセットから得られた23の専門的な注釈付きIRSLO画像と7つの追加的な注釈付き画像を使用した。 u-net (convolutional neural network) をトレーニングして,ピクセルを 'vessel' または 'background' とラベル付けした。 結果: 未確認テストセット(4画像)では, AUCが0.981, AUPRCが0.815であった。 しきい値は0.844、特異度0.983、f1スコア0.857であった。 結論: 自動セグメンテーションアルゴリズムを一般公開し,利用しやすくした。 研究者は生成した血管マップを使用してフラクタル次元や血管密度などのメトリクスを計算することができる。

Background and Objective: Infra-red scanning laser ophthalmoscope (IRSLO) images are akin to colour fundus photographs in displaying the posterior pole and retinal vasculature fine detail. While there are many trained networks readily available for retinal vessel segmentation in colour fundus photographs, none cater to IRSLO images. Accordingly, we aimed to develop (and release as open source) a vessel segmentation algorithm tailored specifically to IRSLO images. Materials and Methods: We used 23 expertly annotated IRSLO images from the RAVIR dataset, combined with 7 additional images annotated in-house. We trained a U-Net (convolutional neural network) to label pixels as 'vessel' or 'background'. Results: On an unseen test set (4 images), our model achieved an AUC of 0.981, and an AUPRC of 0.815. Upon thresholding, it achieved a sensitivity of 0.844, a specificity of 0.983, and an F1 score of 0.857. Conclusion: We have made our automatic segmentation algorithm publicly available and easy to use. Researchers can use the generated vessel maps to compute metrics such as fractal dimension and vessel density.
翻訳日:2023-11-30 21:41:45 公開日:2023-11-29
# アップサンプリング時の安定性向上 -空間的文脈の重要性-

Improving Stability during Upsampling -- on the Importance of Spatial Context ( http://arxiv.org/abs/2311.17524v1 )

ライセンス: Link先を確認
Shashank Agnihotri, Julia Grabinski and Margret Keuper(参考訳) 画像復元、画像分割、不均一推定といった画素単位の予測タスクのための最先端モデルでは、データ再サンプリングのいくつかの段階があり、特徴マップの解像度をまず集約情報に還元し、次に順次増加して高解像度の出力を生成する。 画像分類における予測安定性やロバスト性を改善するため、ダウンサンプリング中に呼び出されるアーティファクトの効果や様々な治療法が提案されている。 しかし、同様に、アップサンプリング中に生じるアーティファクトは議論されていない。 これは、アップサンプリングとダウンサンプリングアプローチが根本的に異なる課題に直面しているため、非常に関係がある。 ダウンサンプリング、エイリアス、アーティファクトは特徴マップを曖昧にすることで削減できるが、アップサンプリングの間は細部の詳細の出現が不可欠である。 したがって、ぼやけは選択肢ではなく、専用の操作を考慮する必要がある。 本稿では,コンボリューションアップサンプリング演算をカーネルサイズを増加させながら,エンコーダを不変にすることで,アップサンプリング時のコンテキストの関連性を初めて検討する。 画像復元や画像セグメンテーションなどのタスクでは,カーネルサイズが大きくなると予測安定性が向上するが,細部では小型カーネルとアーティファクト除去のための大規模カーネルの組み合わせを可能にするブロックが最良となる。

State-of-the-art models for pixel-wise prediction tasks such as image restoration, image segmentation, or disparity estimation, involve several stages of data resampling, in which the resolution of feature maps is first reduced to aggregate information and then sequentially increased to generate a high-resolution output. Several previous works have investigated the effect of artifacts that are invoked during downsampling and diverse cures have been proposed that facilitate to improve prediction stability and even robustness for image classification. However, equally relevant, artifacts that arise during upsampling have been less discussed. This is significantly relevant as upsampling and downsampling approaches face fundamentally different challenges. While during downsampling, aliases and artifacts can be reduced by blurring feature maps, the emergence of fine details is crucial during upsampling. Blurring is therefore not an option and dedicated operations need to be considered. In this work, we are the first to explore the relevance of context during upsampling by employing convolutional upsampling operations with increasing kernel size while keeping the encoder unchanged. We find that increased kernel sizes can in general improve the prediction stability in tasks such as image restoration or image segmentation, while a block that allows for a combination of small-size kernels for fine details and large-size kernels for artifact removal and increased context yields the best results.
翻訳日:2023-11-30 21:41:25 公開日:2023-11-29
# 一般確率論における情報の符号化と復号

Encoding and decoding of information in general probabilistic theories ( http://arxiv.org/abs/2311.17522v1 )

ライセンス: Link先を確認
Teiko Heinosaari, Leevi Lepp\"aj\"arvi, Martin Pl\'avala(参考訳) エンコーディングとデコーディングは情報処理における2つの重要なステップである。 本研究は,1つの状態がランダムに選択された状態の集合を自由に選択し,その状態が識別されなければならない状態を測定することを目的とした情報保存ゲームにおいて,操作理論の符号化・復号能力について検討する。 我々は,ゲームにおける最適な勝利戦略を,理論の情報保存可能性と呼ばれる所定の理論に格納可能な情報量と結びつけ,いわゆる非分解性状態の集合と,符号化と復号性が低下しない非分解性測定を使わなければならないことを示す。 そこで,本研究では,完全識別戦略が最適ではないという理論を提示し,導入したゲームが,超情報安定性の運用テストとして使用できることを示す。 特定の理論で計算するための新しい有用な条件を与えることにより,情報保存性の概念をさらに発展させる。

Encoding and decoding are the two key steps in information processing. In this work we study the encoding and decoding capabilities of operational theories in the context of information-storability game, where the task is to freely choose a set of states from which one state is chosen at random and by measuring the state it must be identified; a correct guess results in as many utiles as the number of states in the chosen set and an incorrect guess means a penalty of a fixed number of utiles. We connect the optimal winning strategy of the game to the amount of information that can be stored in a given theory, called the information storability of the theory, and show that one must use so-called nondegradable sets of states and nondegradable measurements whose encoding and decoding properties cannot be reduced. We demonstrate that there are theories where the perfect discrimination strategy is not the optimal one so that the introduced game can be used as an operational test for super information storability. We further develop the concept of information storability by giving new useful conditions for calculating it in specific theories.
翻訳日:2023-11-30 21:41:00 公開日:2023-11-29
# ベイジアンネットワークをモデルとした脊髄筋萎縮症

Spinal Muscle Atrophy Disease Modelling as Bayesian Network ( http://arxiv.org/abs/2311.17521v1 )

ライセンス: Link先を確認
Mohammed Ezzat Helal, Manal Ezzat Helal, Sherif Fadel Fahmy(参考訳) 確率的グラフィカルモデルとベイズ推論を用いた疾患モデリングのための分子遺伝子発現研究と公開データベースについて検討した。 脊髄筋萎縮性ゲノム関連研究のケーススタディをモデル化し分析した。 疾患発生の2段階におけるアップ・アンド・ダウン制御遺伝子は、パブリックドメインで発行された先行知識と関連付けられ、共発現ネットワークが作成・解析される。 これらの遺伝子によって引き起こされる分子経路が同定される。 ベイズ推定の後方分布は変分解析アルゴリズムとマルコフ連鎖モンテカルロサンプリングアルゴリズムを用いて推定される。 仮定、限界、将来の仕事の可能性は結論づけられる。

We investigate the molecular gene expressions studies and public databases for disease modelling using Probabilistic Graphical Models and Bayesian Inference. A case study on Spinal Muscle Atrophy Genome-Wide Association Study results is modelled and analyzed. The genes up and down-regulated in two stages of the disease development are linked to prior knowledge published in the public domain and co-expressions network is created and analyzed. The Molecular Pathways triggered by these genes are identified. The Bayesian inference posteriors distributions are estimated using a variational analytical algorithm and a Markov chain Monte Carlo sampling algorithm. Assumptions, limitations and possible future work are concluded.
翻訳日:2023-11-30 21:40:44 公開日:2023-11-29
# 悪魔は細かな詳細の中にいる: 細かな理解のためにオープン語彙オブジェクト検出器を評価する

The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding ( http://arxiv.org/abs/2311.17518v1 )

ライセンス: Link先を確認
Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Claudio Gennaro and Fabrizio Falchi(参考訳) 大規模視覚言語モデルの最近の進歩により、オープン語彙シナリオにおける視覚的オブジェクト検出が可能になった。 本稿では,オープンボキャブラリー物体検出の最先端手法を探究し,物体とその部分の細粒度特性をどの程度理解しているかを探究する。 この目的のために,動的語彙生成に基づく評価プロトコルを導入し,モデルがハード陰性クラスの存在下で,正しい細粒度記述をオブジェクトに検出・識別・割り当てするかどうかを検証する。 色やパターン、素材といったさまざまな特性を調査し、難易度を増すベンチマークスイートにコントリビュートしています。 我々は,提案プロトコルを用いて,最先端のオープンボキャブラリ物体検出器の評価を行い,標準のオープンボキャブラリベンチマークで輝いている既存のソリューションのほとんどが,より詳細なオブジェクト詳細の把握と識別に苦労していることを見出した。 本稿は,現在の方法論の限界を強調し,問題点を克服するための有望な研究方向を検討することで結論づける。 データとコードはhttps://github.com/lorebianchi98/FG-OVD.comで入手できる。

Recent advancements in large vision-language models enabled visual object detection in open-vocabulary scenarios, where object classes are defined in free-text formats during inference. In this paper, we aim to probe the state-of-the-art methods for open-vocabulary object detection to determine to what extent they understand fine-grained properties of objects and their parts. To this end, we introduce an evaluation protocol based on dynamic vocabulary generation to test whether models detect, discern, and assign the correct fine-grained description to objects in the presence of hard-negative classes. We contribute with a benchmark suite of increasing difficulty and probing different properties like color, pattern, and material. We further enhance our investigation by evaluating several state-of-the-art open-vocabulary object detectors using the proposed protocol and find that most existing solutions, which shine in standard open-vocabulary benchmarks, struggle to accurately capture and distinguish finer object details. We conclude the paper by highlighting the limitations of current methodologies and exploring promising research directions to overcome the discovered drawbacks. Data and code are available at https://github.com/lorebianchi98/FG-OVD.
翻訳日:2023-11-30 21:40:34 公開日:2023-11-29
# MMA拡散:拡散モデルに対するマルチモーダル攻撃

MMA-Diffusion: MultiModal Attack on Diffusion Models ( http://arxiv.org/abs/2311.17516v1 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Nan Xu, Qiang Xu(参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは顕著な進歩を遂げ,広く普及している。 しかし、この進歩は、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する際の、潜在的な誤用に対する不注意な道を開いた。 MMA-Diffusionは,オープンソースモデルと商用オンラインサービスの両方において,現在の防御対策を効果的に回避し,T2Iモデルのセキュリティに対する顕著かつ現実的な脅威を示すフレームワークである。 従来のアプローチとは異なり、mma-diffusionはテキストと視覚の両方を利用してプロンプトフィルタやポストホック安全チェッカーなどのセーフガードをバイパスし、既存の防御機構の脆弱性を露呈し、強調する。

In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms.
翻訳日:2023-11-30 21:40:08 公開日:2023-11-29
# 単一および積分多スペクトル空中画像の融合

Fusion of Single and Integral Multispectral Aerial Images ( http://arxiv.org/abs/2311.17515v1 )

ライセンス: Link先を確認
Mohamed Youssef, Oliver Bimber(参考訳) 本稿では,高密度植生による閉塞を除去するための合成開口センシングにより得られた,従来の空中画像と統合空中画像から最も重要な特徴を融合する,新しいハイブリッド(モデルおよび学習に基づく)アーキテクチャを提案する。 環境の空間的参照と、意図しない対象の特徴を組み合わせる。 提案手法は,手動で調整したパラメータを必要とせず,任意の数とスペクトルチャネルの組み合わせに拡張可能であり,異なるユースケースに対処するために再構成可能である。

We present a novel hybrid (model- and learning-based) architecture for fusing the most significant features from conventional aerial images and integral aerial images that result from synthetic aperture sensing for removing occlusion caused by dense vegetation. It combines the environment's spatial references with features of unoccluded targets. Our method out-beats the state-of-the-art, does not require manually tuned parameters, can be extended to an arbitrary number and combinations of spectral channels, and is reconfigurable to address different use-cases.
翻訳日:2023-11-30 21:39:54 公開日:2023-11-29
# 強化が監督に取って代わる - 深層強化学習を用いたクエリ中心の要約

Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning ( http://arxiv.org/abs/2311.17514v1 )

ライセンス: Link先を確認
Swaroop Nath, Harshad Khadilkar, Pushpak Bhattacharyya(参考訳) クエリにフォーカスした要約(qfs)は、クエリに基づいてドキュメントから要約を生成するシステムを扱う。 強化学習(RL)が自然言語生成のための監視学習(SL)を一般化し、SLよりも(経験的に)優れた(実践的な)性能を発揮するという知見に感銘を受け、このタスクのQfSにRLベースのアプローチを用いる。 また,教師強制型トランスフォーマーにおけるRL採用の対立も解消する。 我々は、ROUGE、BLEU、Semantic similarityという様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発し、ベンチマークデータセット(ELI5)のROUGE-Lメトリックに対するState-of-Artアプローチよりも10ポイント改善した。 また、別のベンチマークデータセット(debatepedia)のゼロショット設定における私たちのアプローチのパフォーマンスも示しています。 RL学習を支援するために,クラスタ仮説を用いた新しいPassage Embeddingスキームにより,よりセマンティックな類似性報酬を提案する。 最後に、QfSおよびLong-form Question Answering(LfQA)のさらなる研究にゴールドスタンダードテストデータセットを貢献する。

Query-focused Summarization (QfS) deals with systems that generate summaries from document(s) based on a query. Motivated by the insight that Reinforcement Learning (RL) provides a generalization to Supervised Learning (SL) for Natural Language Generation, and thereby performs better (empirically) than SL, we use an RL-based approach for this task of QfS. Additionally, we also resolve the conflict of employing RL in Transformers with Teacher Forcing. We develop multiple Policy Gradient networks, trained on various reward signals: ROUGE, BLEU, and Semantic Similarity, which lead to a 10-point improvement over the State-of-the-Art approach on the ROUGE-L metric for a benchmark dataset (ELI5). We also show performance of our approach in zero-shot setting for another benchmark dataset (DebatePedia) -- our approach leads to results comparable to baselines, which were specifically trained on DebatePedia. To aid the RL training, we propose a better semantic similarity reward, enabled by a novel Passage Embedding scheme developed using Cluster Hypothesis. Lastly, we contribute a gold-standard test dataset to further research in QfS and Long-form Question Answering (LfQA).
翻訳日:2023-11-30 21:39:44 公開日:2023-11-29
# StructRe:構造化形状モデリングのための書き換え

StructRe: Rewriting for Structured Shape Modeling ( http://arxiv.org/abs/2311.17510v1 )

ライセンス: Link先を確認
Wang, Jiepeng and Pan, Hao and Liu, Yang and Tong, Xin and Komura, Taku and Wang, Wenping(参考訳) 人工の3d形状は、自然に部品や階層に構成され、そのような構造は形状の再構築や生成に重要な制約を与える。 形状構造のモデリングは、与えられた形状に対して複数の階層が存在し、あいまいさを引き起こし、異なるカテゴリにわたって、形状構造は意味論と相関し、一般化を制限するため困難である。 本稿では構造化形状モデリングの新しいアプローチとして構造書き換えシステムStructReを提案する。 ポイントとコンポーネントで表現された3dオブジェクトが与えられると、structreはそれをより簡潔な構造に上向きに書き換えるか、より詳細な構造に下向きに書き換えることができる。 このような局所的な書き換えプロセスは、あいまいな構造の確率的モデリングとオブジェクトカテゴリ間の堅牢な一般化を可能にする。 PartNetデータ上でStructReをトレーニングし、そのクロスカテゴリと複数のオブジェクト階層への一般化を示し、ShapeNetの拡張をテストする。 また, 形状再構成, 生成, 編集作業における確率的, 一般化可能な構造モデリングの利点を示す。

Man-made 3D shapes are naturally organized in parts and hierarchies; such structures provide important constraints for shape reconstruction and generation. Modeling shape structures is difficult, because there can be multiple hierarchies for a given shape, causing ambiguity, and across different categories the shape structures are correlated with semantics, limiting generalization. We present StructRe, a structure rewriting system, as a novel approach to structured shape modeling. Given a 3D object represented by points and components, StructRe can rewrite it upward into more concise structures, or downward into more detailed structures; by iterating the rewriting process, hierarchies are obtained. Such a localized rewriting process enables probabilistic modeling of ambiguous structures and robust generalization across object categories. We train StructRe on PartNet data and show its generalization to cross-category and multiple object hierarchies, and test its extension to ShapeNet. We also demonstrate the benefits of probabilistic and generalizable structure modeling for shape reconstruction, generation and editing tasks.
翻訳日:2023-11-30 21:39:19 公開日:2023-11-29
# 短距離リンクのためのdatacom非依存短波qkd

Datacom-Agnostic Shortwave QKD for Short-Reach Links ( http://arxiv.org/abs/2311.17591v1 )

ライセンス: Link先を確認
Mariana Ferreira Ramos, Marie-Christine Slater, Michael Hentschel, Martin Achleitner, Hannes H\"ubel, and Bernhard Schrenk(参考訳) キャリヤグレード4x25-Gb/s/$\lambda$ LANWDM と 852-nm と 1550-nm QKD の共存性を検討した。 短波QKDは、1550nmのQKDとは対照的に、ラマンノイズに敏感である。

We investigate the co-existence of 852-nm and 1550-nm QKD with carrier-grade 4x25-Gb/s/$\lambda$ LANWDM over a short-reach interconnect. Shortwave QKD yields a higher key rate and is insensitive to Raman noise, as opposed to 1550-nm QKD.
翻訳日:2023-11-30 21:34:04 公開日:2023-11-29
# SyncTalk: the Devil is in the Synchronization for Talking Head Synthesis

SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis ( http://arxiv.org/abs/2311.17590v1 )

ライセンス: Link先を確認
Ziqiao Peng, Wentao Hu, Yue Shi, Xiangyu Zhu, Xiaomei Zhang, Hao Zhao, Jun He, Hongyan Liu, Zhaoxin Fan(参考訳) 現実的な音声駆動音声ヘッドビデオの合成における高同期の実現は、重要な課題である。 従来のgenerative adversarial networks(gan)は一貫した顔の同一性を維持するのに苦労しているが、neural radiance fields(nerf)法はこの問題に対処できるが、しばしば不一致の唇運動、不適切な表情、不安定な頭部ポーズを生成する。 ライフスタイルの会話ヘッドは、被験者のアイデンティティ、唇の動き、表情、頭ポーズの同期調整を必要とする。 これらの同期の欠如は根本的な欠陥であり、非現実的で人工的な結果をもたらす。 実話の頭を作る際の「悪魔」と認識される同期の重大な問題に対処するため,SyncTalkを紹介した。 音声ヘッド合成における主観的同一性、同期性、リアリズムを効果的に維持する。 synctalkは、唇の動きを音声に合わせるために顔同期コントローラを使用し、革新的な3d顔ブレンド形状モデルを使用して正確な表情をキャプチャする。 私たちのヘッド同期スタビライザーは、頭の動きを最適化し、より自然な頭の動きを実現します。 Portrait-Sync Generatorは髪の細部を復元し、生成した頭部と胴体をブレンドしてシームレスな視覚体験を提供する。 大規模な実験とユーザスタディにより、SyncTalkは同期およびリアリズムにおいて最先端の手法より優れていることが示された。 補足ビデオをご覧ください。 https://ziqiaopeng.github.io/synctalk

Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. Traditional Generative Adversarial Networks (GAN) struggle to maintain consistent facial identity, while Neural Radiance Fields (NeRF) methods, although they can address this issue, often produce mismatched lip movements, inadequate facial expressions, and unstable head poses. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic and artificial outcomes. To address the critical issue of synchronization, identified as the "devil" in creating realistic talking heads, we introduce SyncTalk. This NeRF-based method effectively maintains subject identity, enhancing synchronization and realism in talking head synthesis. SyncTalk employs a Face-Sync Controller to align lip movements with speech and innovatively uses a 3D facial blendshape model to capture accurate facial expressions. Our Head-Sync Stabilizer optimizes head poses, achieving more natural head movements. The Portrait-Sync Generator restores hair details and blends the generated head with the torso for a seamless visual experience. Extensive experiments and user studies demonstrate that SyncTalk outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk
翻訳日:2023-11-30 21:33:57 公開日:2023-11-29
# 合成軌道角運動量次元に沿ったエッジ状態の実現

Realization of edge states along a synthetic orbital angular momentum dimension ( http://arxiv.org/abs/2311.17588v1 )

ライセンス: Link先を確認
Yu-Wei Liao, Mu Yang, Hao-Qing Zhang, Zhi-He Hao, Jun Hu, Tian-Xiang Zhu, Zong-Quan Zhou, Xi-Wang Luo, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) 合成次元はトポロジカルな物理を研究するための上昇する手法であり、低次元の幾何学において高次元物理学を実装することができる。 フォトニック軌道角運動量(英: Photonic orbit angular momentum, OAM)は、離散的かつ非有界な自由度であり、適切な合成次元として機能する。 しかし、合成OAM次元に沿った鋭い境界は示されておらず、開放境界格子系における位相的エッジ効果の研究を劇的に制限している。 本研究では,Floquet Su-Schrieffer-Heeger OAM格子に沿って鋭い境界を作り,空洞内の光学素子にピンホールを穴を開けることで近似半無限格子を形成する。 エネルギー境界状態が0(\pm\pi$)のバンド構造は直接測定され、キャビティのスペクトル検出の恩恵を受ける。 さらに, 境界位相を動的に変化させることにより, ギャップからバルクへ移動するエッジモードを求め, 表面近傍の干渉がスペクトルの離散化につながることを明らかにした。 我々の研究は、エッジ効果を観察し、実用的なフォトニクスツールを探索する新しい視点を提供する。

The synthetic dimension is a rising method to study topological physics, which enables us to implement high-dimensional physics in low-dimensional geometries. Photonic orbital angular momentum (OAM), a degree of freedom characterized by discrete yet unbounded, serves as a suitable synthetic dimension. However, a sharp boundary along a synthetic OAM dimension has not been demonstrated, dramatically limiting the investigation of topological edge effects in an open boundary lattice system. In this work, we make a sharp boundary along a Floquet Su-Schrieffer-Heeger OAM lattice and form approximate semi-infinite lattices by drilling a pinhole on the optical elements in a cavity. The band structures with zero ($\pm\pi$) energy boundary states are measured directly, benefiting from the spectra detection of the cavity. Moreover, we obtain the edge modes moving from the gap to the bulk by dynamically changing the boundary phase, and we reveal that interference near the surface leads to spectrum discretization. Our work provides a new perspective to observe edge effects and explore practical photonics tools.
翻訳日:2023-11-30 21:33:27 公開日:2023-11-29
# Federated Online and Bandit Convex Optimization

Federated Online and Bandit Convex Optimization ( http://arxiv.org/abs/2311.17586v1 )

ライセンス: Link先を確認
Kumar Kshitij Patel, Lingxiao Wang, Aadirupa Saha, Nati Sebro(参考訳) 適応的相手に対する分散オンラインおよび帯域幅凸最適化の問題点について検討する。 我々は、$M$マシンにおける平均的後悔を、$T$ラウンドと$R$断続的な通信で並列に処理することを目指している。 コスト関数が凸であり、適応的に生成できると仮定すると、機械がクエリポイントの1次勾配情報にアクセスできた場合、協調は有益ではないことを示す。 これは、各マシンが固定分布からコスト関数をサンプリングする確率関数の場合とは対照的である。 さらに、我々は、機械がクエリポイントのコスト関数の値にしかアクセスできない、帯域幅(ゼロオーダー)フィードバックによるフェデレートされたオンライン最適化のより困難な設定について調べる。 ここでの鍵となる発見は、コラボレーションが有益であり、マシン数の線形スピードアップにつながるかもしれない高次元の体制を特定することである。 さらに,新たな分散単点フィードバックアルゴリズムと2点フィードバックアルゴリズムを開発した。 我々の研究は、限定的なフィードバックでフェデレートされたオンライン最適化を体系的に理解するための最初の試みであり、一階とゼロ階の両方のフィードバックに対する断続的なコミュニケーション設定において、厳密な後悔の限界に達する。 その結果,連合オンライン最適化における確率的設定と適応的設定のギャップを埋めることができた。

We study the problems of distributed online and bandit convex optimization against an adaptive adversary. We aim to minimize the average regret on $M$ machines working in parallel over $T$ rounds with $R$ intermittent communications. Assuming the underlying cost functions are convex and can be generated adaptively, our results show that collaboration is not beneficial when the machines have access to the first-order gradient information at the queried points. This is in contrast to the case for stochastic functions, where each machine samples the cost functions from a fixed distribution. Furthermore, we delve into the more challenging setting of federated online optimization with bandit (zeroth-order) feedback, where the machines can only access values of the cost functions at the queried points. The key finding here is identifying the high-dimensional regime where collaboration is beneficial and may even lead to a linear speedup in the number of machines. We further illustrate our findings through federated adversarial linear bandits by developing novel distributed single and two-point feedback algorithms. Our work is the first attempt towards a systematic understanding of federated online optimization with limited feedback, and it attains tight regret bounds in the intermittent communication setting for both first and zeroth-order feedback. Our results thus bridge the gap between stochastic and adaptive settings in federated online optimization.
翻訳日:2023-11-30 21:33:04 公開日:2023-11-29
# CLIPC8:画像テキストペアとコントラスト学習に基づく顔の生存度検出アルゴリズム

CLIPC8: Face liveness detection algorithm based on image-text pairs and contrastive learning ( http://arxiv.org/abs/2311.17583v1 )

ライセンス: Link先を確認
Xu Liu, Shu Zhou, Yurong Song, Wenzhe Luo, Xin Zhang(参考訳) 金融分野では顔認識技術が広く使われており、様々な種類の生き生きとした攻撃行動に対処する必要がある。 既存のライブネス検出アルゴリズムは、特定のトレーニングデータセットでトレーニングされ、テストデータセットでテストされますが、それらのパフォーマンスと未認識データセットへの転送の堅牢性は比較的貧弱です。 そこで本研究では,画像-テキストペアとコントラスト学習に基づく顔のライブネス検出手法を提案し,金融分野におけるライブネス攻撃問題を8つのカテゴリに分け,これら8種類の攻撃の画像をテキスト情報を用いて表現する。 テキストエンコーダと画像エンコーダを用いて、分類記述テキストと顔画像の特徴ベクトル表現をそれぞれ抽出する。 正のサンプルの類似性を最大化し、負のサンプルの類似性を最小化することにより、画像とテキストの共有表現を学習する。 提案手法は,暗黒環境やidカード写真の改ざんを伴うような特定のシナリオにおいて,特定のライブネス攻撃行動を効果的に検出することができる。 また、印刷写真攻撃やスクリーンリメイク攻撃などの従来の生きた攻撃方法の検出にも有効である。 nuaa、casia-fasd、replay-attack、oulu-npu、msu-mfsdの5つのパブリックデータセットのゼロショット検出機能も商用アルゴリズムのレベルに達している。 提案アルゴリズムの検出能力は5種類のテストデータセットで検証され,提案手法は商用アルゴリズムよりも優れており,検出率は複数のデータセットで100%に達した。 本稿では,画像テキストペアの導入の有効性とロバストさを実証し,生活度検出タスクにコントラスト学習を導入することを提案する。

Face recognition technology is widely used in the financial field, and various types of liveness attack behaviors need to be addressed. Existing liveness detection algorithms are trained on specific training datasets and tested on testing datasets, but their performance and robustness in transferring to unseen datasets are relatively poor. To tackle this issue, we propose a face liveness detection method based on image-text pairs and contrastive learning, dividing liveness attack problems in the financial field into eight categories and using text information to describe the images of these eight types of attacks. The text encoder and image encoder are used to extract feature vector representations for the classification description text and face images, respectively. By maximizing the similarity of positive samples and minimizing the similarity of negative samples, the model learns shared representations between images and texts. The proposed method is capable of effectively detecting specific liveness attack behaviors in certain scenarios, such as those occurring in dark environments or involving the tampering of ID card photos. Additionally, it is also effective in detecting traditional liveness attack methods, such as printing photo attacks and screen remake attacks. The zero-shot capabilities of face liveness detection on five public datasets, including NUAA, CASIA-FASD, Replay-Attack, OULU-NPU and MSU-MFSD also reaches the level of commercial algorithms. The detection capability of proposed algorithm was verified on 5 types of testing datasets, and the results show that the method outperformed commercial algorithms, and the detection rates reached 100% on multiple datasets. Demonstrating the effectiveness and robustness of introducing image-text pairs and contrastive learning into liveness detection tasks as proposed in this paper.
翻訳日:2023-11-30 21:32:37 公開日:2023-11-29
# locomotif:時系列におけるタイムワープモチーフの発見

LoCoMotif: Discovering time-warped motifs in time series ( http://arxiv.org/abs/2311.17582v1 )

ライセンス: Link先を確認
Daan Van Wesenbeeck, Aras Yurtman, Wannes Meert, Hendrik Blockeel(参考訳) 時系列モチーフディスカバリ(英: Time Series Motif Discovery、TSMD)とは、時系列において複数回発生するパターンを識別するタスクである。 tsmdの既存のメソッドには、パターンの最もよく似た2つの発生のみ、事前定義された固定された長さのパターンのみ、時間軸に沿って可変性を処理できないこと、不定の時系列を扱うこと、といった1つ以上の制限がある。 本稿では,これらの制限がないLoCoMotifという新しい手法を提案する。 この方法は、理学療法の具体的な用途によって動機づけられる。 本稿では,本事例における提案手法の有効性について述べる。 また,モチーフ発見のための新しい定量的評価指標と,tsmd法を比較するためのベンチマークデータを提案する。 LoCoMotifは既存のメソッドよりもはるかに優れており、より広く適用できます。

Time Series Motif Discovery (TSMD) refers to the task of identifying patterns that occur multiple times (possibly with minor variations) in a time series. All existing methods for TSMD have one or more of the following limitations: they only look for the two most similar occurrences of a pattern; they only look for patterns of a pre-specified, fixed length; they cannot handle variability along the time axis; and they only handle univariate time series. In this paper, we present a new method, LoCoMotif, that has none of these limitations. The method is motivated by a concrete use case from physiotherapy. We demonstrate the value of the proposed method on this use case. We also introduce a new quantitative evaluation metric for motif discovery, and benchmark data for comparing TSMD methods. LoCoMotif substantially outperforms the existing methods, on top of being more broadly applicable.
翻訳日:2023-11-30 21:32:07 公開日:2023-11-29
# LGFCTR:画像マッチングのためのローカルおよびグローバルな特徴畳み込み変換器

LGFCTR: Local and Global Feature Convolutional Transformer for Image Matching ( http://arxiv.org/abs/2311.17571v1 )

ライセンス: Link先を確認
Wenhao Zhong and Jie Jiang(参考訳) 画像間の堅牢で正確な対応を見つけることは、極端な条件下での課題である。 しかし、最近のトランスフォーマーベースのデコーダは、CNNベースのエンコーダがローカル機能のみを抽出し、トランスフォーマーがローカリティを欠いている問題にまだ立ち往生している。 畳み込みの局所性と暗黙的な位置符号化にインスパイアされた新しい畳み込み変換器が提案され、局所的文脈とグローバル構造の両方を検知不要なマッチングに十分な精度で捉えることができる。 まず、ユニバーサルなfpnライクなフレームワークは、自己エンコーダのグローバル構造とトランスフォーマーによるクロスデコーダをキャプチャし、畳み込みによる暗黙的な位置符号化とローカルコンテキストを補償する。 第二に,新しい畳み込みトランスモジュールは,新しいマルチスケールの注意によって,多スケールの長距離依存性を探索し,さらに局所性を高めるために,依存関係内の局所情報を集約する。 最後に、新しいレグレッションベースのサブピクセルリファインメントモジュールは、微細な位置ずれのレグレッションのために、きめ細かなウィンドウ特徴をすべて活用する。 提案手法は,幅広いベンチマークにおいて優れた性能を示す。 コードはhttps://github.com/zwh0527/LGFCTRで入手できる。

Image matching that finding robust and accurate correspondences across images is a challenging task under extreme conditions. Capturing local and global features simultaneously is an important way to mitigate such an issue but recent transformer-based decoders were still stuck in the issues that CNN-based encoders only extract local features and the transformers lack locality. Inspired by the locality and implicit positional encoding of convolutions, a novel convolutional transformer is proposed to capture both local contexts and global structures more sufficiently for detector-free matching. Firstly, a universal FPN-like framework captures global structures in self-encoder as well as cross-decoder by transformers and compensates local contexts as well as implicit positional encoding by convolutions. Secondly, a novel convolutional transformer module explores multi-scale long range dependencies by a novel multi-scale attention and further aggregates local information inside dependencies for enhancing locality. Finally, a novel regression-based sub-pixel refinement module exploits the whole fine-grained window features for fine-level positional deviation regression. The proposed method achieves superior performances on a wide range of benchmarks. The code will be available on https://github.com/zwh0527/LGFCTR.
翻訳日:2023-11-30 21:31:52 公開日:2023-11-29
# バイアスレジリエントな多段階オフポリシー目標条件強化学習

Bias Resilient Multi-Step Off-Policy Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2311.17565v1 )

ライセンス: Link先を確認
Lisheng Wu and Ke Chen(参考訳) 目標条件強化学習(GCRL)では、スパース報酬は重要な課題を示し、しばしば効率的な学習を妨げる。 マルチステップのGCRLはこの効率を高めることができるが、ターゲット値の非政治バイアスにつながることもある。 この論文はこれらのバイアスを深く掘り下げ、それらを「シューティング」と「シフト」の2つのカテゴリに分類する。 特定の行動方針が政策改善を早める可能性があることを認識し、これらのバイアスの正の側面に乗じて、その欠点を最小限に抑え、より大きなステップサイズでGCRLを高速化するソリューションを提案する。 実証実験により,10段階の学習シナリオにおいても,我々のアプローチは弾力性と堅牢性の向上を保証し,ベースラインと最先端のGCRLベンチマークを概ね上回る優れた学習効率と性能をもたらすことが示された。

In goal-conditioned reinforcement learning (GCRL), sparse rewards present significant challenges, often obstructing efficient learning. Although multi-step GCRL can boost this efficiency, it can also lead to off-policy biases in target values. This paper dives deep into these biases, categorizing them into two distinct categories: "shooting" and "shifting". Recognizing that certain behavior policies can hasten policy refinement, we present solutions designed to capitalize on the positive aspects of these biases while minimizing their drawbacks, enabling the use of larger step sizes to speed up GCRL. An empirical study demonstrates that our approach ensures a resilient and robust improvement, even in ten-step learning scenarios, leading to superior learning efficiency and performance that generally surpass the baseline and several state-of-the-art multi-step GCRL benchmarks.
翻訳日:2023-11-30 21:31:27 公開日:2023-11-29
# スパース・ロバスト最大結合推定器の効率的な計算

Efficient Computation of Sparse and Robust Maximum Association Estimators ( http://arxiv.org/abs/2311.17563v1 )

ライセンス: Link先を確認
Pia Pfeiffer and Andreas Alfons and Peter Filzmoser(参考訳) ロバストな統計推定器は外部からの観測の影響は少ないが、計算はより困難である。 これは特に高次元スパース設定の場合である。 コンピュータ科学領域で主に開発された新しい最適化手順の可用性は、堅牢な統計学分野に新たな可能性をもたらす。 本稿では,このような手法をロバストなスパース連想推定器に対してどのように利用できるかを検討する。 この問題はロバストな推定ステップに分割でき、残りの分離された(bi-)凸問題に対する最適化を行うことができる。 拡張ラグランジアンアルゴリズムと適応勾配勾配の組合せは、スパーシリティの誘導に適した制約を含むように実装されている。 本稿では,アルゴリズムの精度に関する結果を提供し,この文脈における既存アルゴリズムの利点を示す。 高次元経験例は、この手順の有用性を裏付けるものである。 他の堅牢なスパース推定器への拡張は可能である。

Although robust statistical estimators are less affected by outlying observations, their computation is usually more challenging. This is particularly the case in high-dimensional sparse settings. The availability of new optimization procedures, mainly developed in the computer science domain, offers new possibilities for the field of robust statistics. This paper investigates how such procedures can be used for robust sparse association estimators. The problem can be split into a robust estimation step followed by an optimization for the remaining decoupled, (bi-)convex problem. A combination of the augmented Lagrangian algorithm and adaptive gradient descent is implemented to also include suitable constraints for inducing sparsity. We provide results concerning the precision of the algorithm and show the advantages over existing algorithms in this context. High-dimensional empirical examples underline the usefulness of this procedure. Extensions to other robust sparse estimators are possible.
翻訳日:2023-11-30 21:31:12 公開日:2023-11-29
# 1次元ディラック作用素の境界条件の聴取

Hearing the boundary conditions of the one-dimensional Dirac operator ( http://arxiv.org/abs/2311.17561v1 )

ライセンス: Link先を確認
Giuliano Angelone(参考訳) 相対論的自由量子粒子に対する等スペクトル性問題はディラック・ハミルトンによって記述され、接合を持つ一次元の環に閉じ込められている。 我々は、ハミルトニアンのすべての自己随伴拡大を、接合における境界条件の観点から解析し、スペクトル関数を用いてエネルギースペクトルを特徴づける。 後者の対称性を決定することによって、自己随伴拡大を2つのクラスに分割し、アイソスペクショナルハミルトニアンのすべての族を同定し、したがって、アイソスペクタリティ問題を完全に特徴づけることができる。

We study the isospectrality problem for a relativistic free quantum particle, described by the Dirac Hamiltonian, confined in a one-dimensional ring with a junction. We analyze all the self-adjoint extensions of the Hamiltonian in terms of the boundary conditions at the junction, characterizing the energy spectrum by means of a spectral function. By determining the symmetries of the latter, we are able to divide the self-adjoint extensions in two classes, identifying all the families of isospectral Hamiltonians, and thus completely characterizing the isospectrality problem.
翻訳日:2023-11-30 21:30:53 公開日:2023-11-29
# 医療時系列データにおける異なる潜在状態の解釈

Interpreting Differentiable Latent States for Healthcare Time-series Data ( http://arxiv.org/abs/2311.17560v1 )

ライセンス: Link先を確認
Yu Chen, Nivedita Bijlani, Samaneh Kouchaki, Payam Barnaghi(参考訳) 機械学習は、大規模な時間データセットから臨床的洞察を抽出することを可能にする。 このような機械学習モデルの応用には、疾患のパターンを特定し、患者の結果を予測することが含まれる。 しかし、デジタル医療における高度な機械学習の導入には、解釈可能性の制限が問題となる。 潜在状態の意味を理解することは、基礎となるパターンを捉えることを前提として、機械学習モデルの解釈に不可欠である。 本稿では,簡潔なアルゴリズムを提案する。 一 関連性の高い入力特徴を用いて潜伏状態の解釈 二 潜在状態による入力特徴のサブセットを用いて予測を解釈すること。 三 遅滞状態の変化を経時的に解釈すること。 提案アルゴリズムは, 微分可能な任意のモデルに対して実現可能である。 このアプローチは,実世界の医療データセットにおける夜行行動を予測するために,昼行行動パターンを識別できることを実証する。

Machine learning enables extracting clinical insights from large temporal datasets. The applications of such machine learning models include identifying disease patterns and predicting patient outcomes. However, limited interpretability poses challenges for deploying advanced machine learning in digital healthcare. Understanding the meaning of latent states is crucial for interpreting machine learning models, assuming they capture underlying patterns. In this paper, we present a concise algorithm that allows for i) interpreting latent states using highly related input features; ii) interpreting predictions using subsets of input features via latent states; and iii) interpreting changes in latent states over time. The proposed algorithm is feasible for any model that is differentiable. We demonstrate that this approach enables the identification of a daytime behavioral pattern for predicting nocturnal behavior in a real-world healthcare dataset.
翻訳日:2023-11-30 21:30:35 公開日:2023-11-29
# ベル II における $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ の絡み合いとベルの不等式検証

Probing entanglement and testing Bell inequality violation with $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ at Belle II ( http://arxiv.org/abs/2311.17555v1 )

ライセンス: Link先を確認
Karl Ehat\"aht, Marco Fabbrichesi, Luca Marzola, Christian Veelken(参考訳) 我々は,$\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ の質量中心エネルギーが $\sqrt{s} = 10.579$ gev である過程において,量子の絡み合いとベルの不等式違反を調べるための実現可能性の研究を行う。 この分析の感度は、質量フレームの散乱角$\vartheta$を$\tau^{+}\tau^{-}$に選択することで向上する。 崩壊チャネル $\tau^{-} \rightarrow \pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{0}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$の組み合わせを用いて、両方のレプトンがハドロンに崩壊する事象を分析する。 これらの崩壊における$\tau$レプトンのスピン配向は、偏光度ベクトル法を用いて再構成される。 2億ドルの$\tau^{+}\tau^{-}$イベントのデータセットを仮定し、実験的な解決を考慮すれば、belle-ii実験による量子エンタングルメントとベルの不等式違反の観測が可能であり、標準偏差が5つ以上あると期待できる。

We present a feasibility study to probe quantum entanglement and Belle inequality violation in the process $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ at a center-of-mass energy of $\sqrt{s} = 10.579$ GeV. The sensitivity of the analysis is enhanced by applying a selection on the scattering angle $\vartheta$ in the $\tau^{+}\tau^{-}$ center-of-mass frame. We analyze events in which both $\tau$ leptons decay to hadrons, using a combination of decay channels $\tau^{-} \rightarrow \pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{0}\nu_{\tau}$, and $\tau^{-} \rightarrow \pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$. The spin orientation of the $\tau$ leptons in these decays is reconstructed using the polarimeter-vector method. Assuming a dataset of $200$ million $\tau^{+}\tau^{-}$ events and accounting for experimental resolutions, we expect the observation of quantum entanglement and Bell inequality violation by the Belle-II experiment will be possible with a significance well in excess of five standard deviations.
翻訳日:2023-11-30 21:30:20 公開日:2023-11-29
# 野生生物保護のための効率的な照明不変型タイガー検出フレームワーク

An Efficient Illumination Invariant Tiger Detection Framework for Wildlife Surveillance ( http://arxiv.org/abs/2311.17552v1 )

ライセンス: Link先を確認
Gaurav Pendharkar, A.Ancy Micheal, Jason Misquitta, Ranjeesh Kaippada(参考訳) タイガー保護は、環境保全、密猟対策、トラの個体数の持続的な成長のためのコミュニティ関与を含む多面的イニシアチブの戦略的展開を必要とする。 人工知能の出現により、トラの監視はオブジェクト検出によって自動化される。 本稿では,トラ検出のためのEnlightenGANとYOLOv8に基づく正確な照明不変フレームワークを提案する。 微調整されたYOLOv8モデルでは、照明の強化なしにmAPスコアが61%に達する。 照明強化により、mAPは0.7%向上する。 このアプローチは、ATRWデータセットの最先端のパフォーマンスを約6%から7%向上させる。

Tiger conservation necessitates the strategic deployment of multifaceted initiatives encompassing the preservation of ecological habitats, anti-poaching measures, and community involvement for sustainable growth in the tiger population. With the advent of artificial intelligence, tiger surveillance can be automated using object detection. In this paper, an accurate illumination invariant framework is proposed based on EnlightenGAN and YOLOv8 for tiger detection. The fine-tuned YOLOv8 model achieves a mAP score of 61% without illumination enhancement. The illumination enhancement improves the mAP by 0.7%. The approaches elevate the state-of-the-art performance on the ATRW dataset by approximately 6% to 7%.
翻訳日:2023-11-30 21:29:29 公開日:2023-11-29
# 機械学習による真の多部絡み検出

Detecting genuine multipartite entanglement via machine learning ( http://arxiv.org/abs/2311.17548v1 )

ライセンス: Link先を確認
Yi-Jun Luo, Jin-Ming Liu, Chengjie Zhang(参考訳) 近年,ニューラルネットワークやサポートベクターマシン(SVM),セミ教師付きサポートベクターマシン(S4VM)といった,教師付きおよび半教師付き機械学習手法が,量子絡み合いや量子ステアリング検証問題に広く用いられている。 しかし、機械学習に基づく真の多部絡み検出に焦点を当てた研究はほとんどない。 本稿では,教師付きおよび半教師付き機械学習を用いて,3量子ビット状態の真の多元的絡み合いを検出する。 3量子密度行列をランダムに生成し,svmを訓練して真の多成分絡み合い状態を検出する。 さらに,予測サンプルのグルーピングを最適化し,反復予測を行うS4VMのトレーニング手法を改善した。 数値シミュレーションにより, この手法は予測精度を大幅に向上できることを確認した。

In recent years, supervised and semi-supervised machine learning methods such as neural networks, support vector machines (SVM), and semi-supervised support vector machines (S4VM) have been widely used in quantum entanglement and quantum steering verification problems. However, few studies have focused on detecting genuine multipartite entanglement based on machine learning. Here, we investigate supervised and semi-supervised machine learning for detecting genuine multipartite entanglement of three-qubit states. We randomly generate three-qubit density matrices, and train an SVM for the detection of genuine multipartite entangled states. Moreover, we improve the training method of S4VM, which optimizes the grouping of prediction samples and then performs iterative predictions. Through numerical simulation, it is confirmed that this method can significantly improve the prediction accuracy.
翻訳日:2023-11-30 21:29:15 公開日:2023-11-29
# VINNA for Neonates -- Latent Augmentationによるオリエンテーション独立

VINNA for Neonates -- Orientation Independence through Latent Augmentations ( http://arxiv.org/abs/2311.17546v1 )

ライセンス: Link先を確認
Leonie Henschel, David K\"ugler, Lilla Z\"ollei, Martin Reuter(参考訳) 新生児の脳画像の高速かつ正確なセグメンテーションは、発達と疾患における変化をよりよく理解し、検出することが強く望まれる。 しかし, 基礎的真理データセットの可用性の制限, 標準化された取得プロトコルの欠如, 頭部位置の多様さは, 方法論開発の課題となっている。 新生児脳MRIのセグメンテーションのために、いくつかの自動画像解析パイプラインが存在するが、しばしば時間を要する手順に依存し、補間とダウンサンプリングによる情報の喪失によって共通の解像度に再サンプリングする必要がある。 登録や画像再サンプリングがなければ、頭の位置やボクセルの解像度に関するバリエーションは別々に対処しなければならない。 ディープラーニングにおいて、外部拡張は伝統的に、空間的変動の表現を人工的に拡張するために使用され、トレーニングデータセットのサイズと堅牢性を高める。 しかし、画像空間におけるこれらの変換は再サンプリングを必要とし、特にラベル補間における精度を低下させる。 我々は最近、Voxel-size Independent Neural Network framework、VINNで解像度独立性の概念を紹介した。 ここでは、この概念を4自由度(4-DOF)変換モジュールでネットワークアーキテクチャに付加することで、分解能を考慮した内部拡張(VINNA)を可能にする。 この研究で、VINNAは、 (i)最先端の外部拡張アプローチを著しく上回る。 (二)新生児データセットに特有な頭部変化を効果的に解決し、 (iii)解像度(0.5-1.0mm)の範囲で高いセグメンテーション精度を維持する。 4-DOF変換モジュールは、画像やラベルを補間することなく空間拡張を実装するための強力で一般的なアプローチである。 新生児に対する特定のネットワークアプリケーションは、VINNA4neonatesとして公開される。

Fast and accurate segmentation of neonatal brain images is highly desired to better understand and detect changes during development and disease. Yet, the limited availability of ground truth datasets, lack of standardized acquisition protocols, and wide variations of head positioning pose challenges for method development. A few automated image analysis pipelines exist for newborn brain MRI segmentation, but they often rely on time-consuming procedures and require resampling to a common resolution, subject to loss of information due to interpolation and down-sampling. Without registration and image resampling, variations with respect to head positions and voxel resolutions have to be addressed differently. In deep-learning, external augmentations are traditionally used to artificially expand the representation of spatial variability, increasing the training dataset size and robustness. However, these transformations in the image space still require resampling, reducing accuracy specifically in the context of label interpolation. We recently introduced the concept of resolution-independence with the Voxel-size Independent Neural Network framework, VINN. Here, we extend this concept by additionally shifting all rigid-transforms into the network architecture with a four degree of freedom (4-DOF) transform module, enabling resolution-aware internal augmentations (VINNA). In this work we show that VINNA (i) significantly outperforms state-of-the-art external augmentation approaches, (ii) effectively addresses the head variations present specifically in newborn datasets, and (iii) retains high segmentation accuracy across a range of resolutions (0.5-1.0 mm). The 4-DOF transform module is a powerful, general approach to implement spatial augmentation without requiring image or label interpolation. The specific network application to newborns will be made publicly available as VINNA4neonates.
翻訳日:2023-11-30 21:28:27 公開日:2023-11-29
# リモートセンシング画像におけるエンドツーエンド物体検出のための効率的なデコーダ

Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2311.17629v1 )

ライセンス: Link先を確認
Jiaqi Zhao, Zeyu Ding, Yong Zhou, Hancheng Zhu, Wenliang Du, Rui Yao, Abdulmotaleb El Saddik(参考訳) リモートセンシング画像のオブジェクトインスタンスは、多方向、様々なスケール、密度分布で分散することが多い。 これらの問題は、マルチスケール機能アライメントや多数のクエリを含むエンドツーエンドのオブジェクト指向オブジェクト検出器に課題をもたらす。 これらの制約に対処するため,ロータレートRoIアテンション(RRoIアテンション)と選択離散キュー(SDQ)の2つの技術を組み込んだ,効率的なデコーダを備えたエンドツーエンド指向検出器を提案する。 具体的には、RRoIの注意は、クロスアテンション機構を通じて関心のある方向の領域に効果的に焦点を合わせ、マルチスケールな特徴を整列させる。 SDQは中間デコーダ層からクエリを収集し、同様のクエリをフィルタして異なるクエリを取得する。 提案したSDQは、冗長な初期クエリや追加の補助ブランチを導入することなく、1対1のラベル割り当ての最適化を容易にする。 5つのデータセットに関する広範な実験により,本手法の有効性が示された。 特に,DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) をResNet50バックボーンで動作させる。

Object instances in remote sensing images often distribute with multi-orientations, varying scales, and dense distribution. These issues bring challenges to end-to-end oriented object detectors including multi-scale features alignment and a large number of queries. To address these limitations, we propose an end-to-end oriented detector equipped with an efficient decoder, which incorporates two technologies, Rotated RoI attention (RRoI attention) and Selective Distinct Queries (SDQ). Specifically, RRoI attention effectively focuses on oriented regions of interest through a cross-attention mechanism and aligns multi-scale features. SDQ collects queries from intermediate decoder layers and then filters similar queries to obtain distinct queries. The proposed SDQ can facilitate the optimization of one-to-one label assignment, without introducing redundant initial queries or extra auxiliary branches. Extensive experiments on five datasets demonstrate the effectiveness of our method. Notably, our method achieves state-of-the-art performance on DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), and DOTA-v2.0 (53.28% mAP) with the ResNet50 backbone.
翻訳日:2023-11-30 21:22:10 公開日:2023-11-29
# デジタル外交における見えない女性:世界規模の女性大使に対するオンラインジェンダーバイアスのための多次元フレームワーク

Invisible Women in Digital Diplomacy: A Multidimensional Framework for Online Gender Bias Against Women Ambassadors Worldwide ( http://arxiv.org/abs/2311.17627v1 )

ライセンス: Link先を確認
Yevgeniy Golovchenko, Karolina Sta\'nczak, Rebecca Adler-Nissen, Patrice Wangen, Isabelle Augenstein(参考訳) 外交政策における女性がしばしばオンラインの敵意を負うという証拠が増えているが、外交官に対するオンラインのジェンダーバイアスの程度はまだ明らかになっていない。 本稿は,ソーシャルメディア上で女性外交官の処遇に関する初のグローバル分析を提供する。 オンラインのジェンダーバイアスを研究するための多次元多言語方法論を導入し、ジェンダー言語、外交官向けツイートにおける否定性、女性外交官の視認性という3つの重要な要素に焦点を当てている。 私たちのユニークなデータセットには、164カ国の大使、ツイート、65の異なる言語でのこれらのツイートに対する直接応答が含まれています。 コンテンツの自動分析と感情分析により,性別の偏りが明らかとなった。 外交ツイートに対する反応の言葉は軽度にジェンダー化されており、主に国際問題に関係しており、一般的には、女性大使は男性よりもツイートに対してネガティブな反応を受けていないが、オンラインの可視性における明らかな相違は、ジェンダーバイアスの重要な形態として際立っている。 女性は男性より66.4%少ないリツイートを受け取ります。 ソーシャルメディア上で女性の外交官を隠蔽する不透明さを解き明かすことで、国際政治におけるオンライン偏見をさらに研究していきたいと考えています。

Despite mounting evidence that women in foreign policy often bear the brunt of online hostility, the extent of online gender bias against diplomats remains unexplored. This paper offers the first global analysis of the treatment of women diplomats on social media. Introducing a multidimensional and multilingual methodology for studying online gender bias, it focuses on three critical elements: gendered language, negativity in tweets directed at diplomats, and the visibility of women diplomats. Our unique dataset encompasses ambassadors from 164 countries, their tweets, and the direct responses to these tweets in 65 different languages. Using automated content and sentiment analysis, our findings reveal a crucial gender bias. The language in responses to diplomatic tweets is only mildly gendered and largely pertains to international affairs and, generally, women ambassadors do not receive more negative reactions to their tweets than men, yet the pronounced discrepancy in online visibility stands out as a significant form of gender bias. Women receive a staggering 66.4% fewer retweets than men. By unraveling the invisibility that obscures women diplomats on social media, we hope to spark further research on online bias in international politics.
翻訳日:2023-11-30 21:21:42 公開日:2023-11-29
# クエリに焦点をあてる: マイニングトランスフォーマーによるマイニング

Focus on Query: Adversarial Mining Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2311.17626v1 )

ライセンス: Link先を確認
Yuan Wang, Naisong Luo, Tianzhu Zhang(参考訳) Few-shot segmentation (FSS) は、注釈付きサンプルのみを与えられた新しいカテゴリのオブジェクトを分割することを目的としている。 これまでの作業は、重要なクエリブランチのマイニングに注意を払わずに、サポート情報の探索に重点を置いていた。 本稿では、サポート情報の重要性を再考し、粗いサポートガイダンスや弱いサポートラベルだけで正確なクエリイメージセグメンテーションを実現する新しいクエリ中心のFSSモデルであるAdversarial Mining Transformer(AMFormer)を提案する。 提案されたAMFormerにはいくつかのメリットがある。 まず,支持手掛かりによって活性化される不完全領域の拡大を達成できる対象地雷変圧器(G)と,拡張マスクと地中真実との詳細な局所的差異を識別する詳細地雷変圧器(D)を設計する。 第2に、G と D の学習は、G がより正確なマスクを生成するように最適化され、D が愚かな真実に近づくように最適化され、よく使われる Pascal-5i と COCO-20i ベンチマークで広範な実験を行い、全ての設定において最先端の結果を得る。 さらに、クエリ中心のパラダイムにおけるサポートラベルの弱い適切なパフォーマンスは、より一般的なFSSモデルの開発を促します。 コードはhttps://github.com/wyxdm/amnetで入手できる。

Few-shot segmentation (FSS) aims to segment objects of new categories given only a handful of annotated samples. Previous works focus their efforts on exploring the support information while paying less attention to the mining of the critical query branch. In this paper, we rethink the importance of support information and propose a new query-centric FSS model Adversarial Mining Transformer (AMFormer), which achieves accurate query image segmentation with only rough support guidance or even weak support labels. The proposed AMFormer enjoys several merits. First, we design an object mining transformer (G) that can achieve the expansion of incomplete region activated by support clue, and a detail mining transformer (D) to discriminate the detailed local difference between the expanded mask and the ground truth. Second, we propose to train G and D via an adversarial process, where G is optimized to generate more accurate masks approaching ground truth to fool D. We conduct extensive experiments on commonly used Pascal-5i and COCO-20i benchmarks and achieve state-of-the-art results across all settings. In addition, the decent performance with weak support labels in our query-centric paradigm may inspire the development of more general FSS models. Code will be available at https://github.com/Wyxdm/AMNet.
翻訳日:2023-11-30 21:21:19 公開日:2023-11-29
# 非マルコフ性による量子力学シミュレーション

Non-Markovianity Benefits Quantum Dynamics Simulation ( http://arxiv.org/abs/2311.17622v1 )

ライセンス: Link先を確認
Yu-Qin Chen, Shi-Xin Zhang, and Shengyu Zhang(参考訳) アナログ量子シミュレータとデジタル量子コンピュータプラットフォーム上の量子力学シミュレーションは、複雑な非平衡物理学を理解するための強力で有望なツールとして登場した。 しかし、量子ノイズが力学シミュレーション、特にメモリ効果を持つ非マルコフノイズに与える影響は解明されていない。 本報告では,量子力学シミュレーションにおいて,量子ノイズの非マルコフ性が予期しない利点を見出している。 記憶効果と時間相関を有する非マルコフ雑音は,同じ強度のマルコフ雑音と比較して量子力学シミュレーションの精度が著しく向上することを示す。 解析解析と広範囲な数値実験を通じて、アイドル量子ビットのデコヒーレンスダイナミクス、対称性保護位相で観測される非平衡ダイナミクス、多体局在相などの様々な力学シミュレーションシナリオにおける非マルコフ雑音の正の効果を示す。 我々は,量子力学シミュレーションにおける非マルコフ性を考慮することの重要性を明らかにし,量子現象の調査とより効率的な量子技術の設計に新たな道を開く。

Quantum dynamics simulation on analog quantum simulators and digital quantum computer platforms has emerged as a powerful and promising tool for understanding complex non-equilibrium physics. However, the impact of quantum noise on the dynamics simulation, particularly non- Markovian noise with memory effects, has remained elusive. In this Letter, we discover unexpected benefits of non-Markovianity of quantum noise in quantum dynamics simulation. We demonstrate that non-Markovian noise with memory effects and temporal correlations can significantly improve the accuracy of quantum dynamics simulation compared to the Markovian noise of the same strength. Through analytical analysis and extensive numerical experiments, we showcase the positive effects of non-Markovian noise in various dynamics simulation scenarios, including decoherence dynamics of idle qubits, intriguing non-equilibrium dynamics observed in symmetry protected topological phases, and many-body localization phases. Our findings shed light on the importance of considering non- Markovianity in quantum dynamics simulation, and open up new avenues for investigating quantum phenomena and designing more efficient quantum technologies.
翻訳日:2023-11-30 21:20:53 公開日:2023-11-29
# ShapeGPT:統一多モード言語モデルによる3次元形状生成

ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model ( http://arxiv.org/abs/2311.17618v1 )

ライセンス: Link先を確認
Fukun Yin, Xin Chen, Chi Zhang, Biao Jiang, Zibo Zhao, Jiayuan Fan, Gang Yu, Taihao Li, Tao Chen(参考訳) 命令駆動アプローチによって柔軟性を実現する大規模言語モデルの出現は、多くの伝統的な生成タスクに革命をもたらしたが、特に他のモダリティで包括的に3d形状を扱う3dデータのための大規模モデルはまだ未検討のままである。 命令ベースの形状生成によって、多目的多モード生成形状モデルは、3D仮想構築やネットワーク支援設計といった様々な分野に多大な利益をもたらすことができる。 本研究では,複数の形状関連タスクに対処するために,強力な事前学習言語モデルを活用する形状対応マルチモーダルフレームワークであるShapeGPTを提案する。 具体的には、ShapeGPTは単語文パラグラフの枠組みを用いて、連続した形を形づくり語に識別し、さらにこれらの単語を形づくり文のために組み立て、また複数段落の指示文と整合する。 この形状言語モデルを学ぶために、形状表現、マルチモーダルアライメント、命令に基づく生成を含む3段階のトレーニングスキームを用いて、形状言語コードブックをアライメントし、それらのモダリティ間の複雑な相関を学習する。 大規模な実験により、ShapeGPTは、テキスト・トゥ・シェイプ、シェイプ・トゥ・テキスト、シェイプ・コンプリート、形状編集など、形状関連タスクに匹敵する性能を達成している。

The advent of large language models, enabling flexibility through instruction-driven approaches, has revolutionized many traditional generative tasks, but large models for 3D data, particularly in comprehensively handling 3D shapes with other modalities, are still under-explored. By achieving instruction-based shape generations, versatile multimodal generative shape models can significantly benefit various fields like 3D virtual construction and network-aided design. In this work, we present ShapeGPT, a shape-included multi-modal framework to leverage strong pre-trained language models to address multiple shape-relevant tasks. Specifically, ShapeGPT employs a word-sentence-paragraph framework to discretize continuous shapes into shape words, further assembles these words for shape sentences, as well as integrates shape with instructional text for multi-modal paragraphs. To learn this shape-language model, we use a three-stage training scheme, including shape representation, multimodal alignment, and instruction-based generation, to align shape-language codebooks and learn the intricate correlations among these modalities. Extensive experiments demonstrate that ShapeGPT achieves comparable performance across shape-relevant tasks, including text-to-shape, shape-to-text, shape completion, and shape editing.
翻訳日:2023-11-30 21:20:36 公開日:2023-11-29
# anylens:任意のレンダリングレンズを備えた生成拡散モデル

AnyLens: A Generative Diffusion Model with Any Rendering Lens ( http://arxiv.org/abs/2311.17609v1 )

ライセンス: Link先を確認
Andrey Voynov, Amir Hertz, Moab Arar, Shlomi Fruchter, Daniel Cohen-Or(参考訳) 最先端の拡散モデルは、テキスト、セグメンテーション、深さといった様々な条件に基づいて、高度に現実的な画像を生成することができる。 しかし、しばしば見過ごされる重要な側面は、画像キャプチャで使用される特定のカメラ形状である。 異なる光学系が最終シーンの外観に与える影響はしばしば見過ごされている。 本研究では,テキスト・ツー・イメージ拡散モデルと特定のレンズ幾何学を密接に統合したフレームワークを提案する。 本手法は画素単位の座標条件付け法に基づいて,描画形状の制御を可能にする。 特に,曲率特性の操作,魚眼,パノラマビュー,球面テキスト作成などの多様な視覚効果を単一拡散モデルを用いて実現している。

State-of-the-art diffusion models can generate highly realistic images based on various conditioning like text, segmentation, and depth. However, an essential aspect often overlooked is the specific camera geometry used during image capture. The influence of different optical systems on the final scene appearance is frequently overlooked. This study introduces a framework that intimately integrates a text-to-image diffusion model with the particular lens geometry used in image rendering. Our method is based on a per-pixel coordinate conditioning method, enabling the control over the rendering geometry. Notably, we demonstrate the manipulation of curvature properties, achieving diverse visual effects, such as fish-eye, panoramic views, and spherical texturing using a single diffusion model.
翻訳日:2023-11-30 21:20:13 公開日:2023-11-29
# 逆ロバスト記憶に基づく連続学習者

Adversarial Robust Memory-Based Continual Learner ( http://arxiv.org/abs/2311.17608v1 )

ライセンス: Link先を確認
Xiaoyue Mi, Fan Tang, Zonghan Yang, Danding Wang, Juan Cao, Peng Li, Yang Liu(参考訳) 連続学習における顕著な進歩にもかかわらず、そのような手法の敵対的脆弱性は十分に議論されていない。 我々は,メモリベース連続学習アルゴリズムの対角強靭性を探求し,対向的学習手法を直接適用することにより,限られた頑健性向上を観察する。 予備研究により、相反するロバストな連続学習者を構築するための2つの課題が明らかになった。 本研究では,データロジットを調整し,対数サンプルによる過去の記憶を緩和する,新たな対数ロバストなメモリベース連続学習手法を提案する。 さらに,限られたデータによる勾配難読化を克服するために,勾配に基づくデータ選択機構を考案した。 提案手法は,既存のメモリベース連続学習と相反する学習アルゴリズムをプラグ・アンド・プレイ方式で統合することができる。 split-cifar10/100 と split-tiny-imagenet の広範な実験により,本手法の有効性が示され,敵データに対する精度が最大8.13%向上した。

Despite the remarkable advances that have been made in continual learning, the adversarial vulnerability of such methods has not been fully discussed. We delve into the adversarial robustness of memory-based continual learning algorithms and observe limited robustness improvement by directly applying adversarial training techniques. Preliminary studies reveal the twin challenges for building adversarial robust continual learners: accelerated forgetting in continual learning and gradient obfuscation in adversarial robustness. In this study, we put forward a novel adversarial robust memory-based continual learner that adjusts data logits to mitigate the forgetting of pasts caused by adversarial samples. Furthermore, we devise a gradient-based data selection mechanism to overcome the gradient obfuscation caused by limited stored data. The proposed approach can widely integrate with existing memory-based continual learning as well as adversarial training algorithms in a plug-and-play way. Extensive experiments on Split-CIFAR10/100 and Split-Tiny-ImageNet demonstrate the effectiveness of our approach, achieving up to 8.13% higher accuracy for adversarial data.
翻訳日:2023-11-30 21:20:01 公開日:2023-11-29
# トポロジー保存型対向訓練

Topology-Preserving Adversarial Training ( http://arxiv.org/abs/2311.17607v1 )

ライセンス: Link先を確認
Xiaoyue Mi, Fan Tang, Yepeng Weng, Danding Wang, Juan Cao, Sheng Tang, Peng Li, Yang Liu(参考訳) ニューラルネットワークの堅牢性を向上する効果にもかかわらず、逆行訓練は自然の精度劣化問題、すなわち自然のサンプルの精度が著しく低下している。 本研究では, 定量的・質的実験により, 表現空間における自然試料トポロジーの破壊と自然精度の低下が強く関連していることを示す。 そこで,本研究では,自然サンプルのみを対象とする標準モデルから自然サンプルのトポロジー構造を保存し,この問題を軽減するためのトポロジー保存逆訓練(train)を提案する。 追加の正規化として、この手法は様々な一般的な敵訓練アルゴリズムと組み合わせることで、双方の利点を生かして簡単に組み合わせることができる。 CIFAR-10, CIFAR-100, Tiny ImageNet の大規模な実験により, 提案手法は, 多くの場合, 様々な強いベースラインに対して一貫した, 重要な改善を達成できることを示した。 具体的には, 追加データなしで自然精度が最大8.78%向上し, 頑健さが4.50%向上した。

Despite the effectiveness in improving the robustness of neural networks, adversarial training has suffered from the natural accuracy degradation problem, i.e., accuracy on natural samples has reduced significantly. In this study, we reveal that natural accuracy degradation is highly related to the disruption of the natural sample topology in the representation space by quantitative and qualitative experiments. Based on this observation, we propose Topology-pReserving Adversarial traINing (TRAIN) to alleviate the problem by preserving the topology structure of natural samples from a standard model trained only on natural samples during adversarial training. As an additional regularization, our method can easily be combined with various popular adversarial training algorithms in a plug-and-play manner, taking advantage of both sides. Extensive experiments on CIFAR-10, CIFAR-100, and Tiny ImageNet show that our proposed method achieves consistent and significant improvements over various strong baselines in most cases. Specifically, without additional data, our proposed method achieves up to 8.78% improvement in natural accuracy and 4.50% improvement in robust accuracy.
翻訳日:2023-11-30 21:19:38 公開日:2023-11-29
# n-ヘテロ環状クロマフォのほとんど縮退した一重項および三重項状態における静的および動的相関の性質

The nature of static and dynamic correlation in nearly degenerate singlet and triplet states of N-heterocyclic chromophores ( http://arxiv.org/abs/2311.17602v1 )

ライセンス: Link先を確認
Shamik Chanda and Sangita Sen(参考訳) 本稿では、第5世代有機発光ダイオード(oled)材料候補のテンプレートとして機能するシクラジンのセットにおいて、s$_1$-s$_0$およびt$_1$-s$_0$励起エネルギーの予測における電子相関の役割について検討する。 この問題は、最近、$\Delta$E$_{ST}$の逆転に焦点をあてて、多くの関心を集めているが、実験では、正と負の両方が実験誤差バー(J. Am. Chem. Soc., 102: 6068 , J. Am. Chem. Soc., 108: 17 )にある、ほぼ退化レベルを示している。 我々は,様々な励起状態電子構造方法論の体系的かつ徹底的な研究を行い,本課題の観点から様々なアプローチと近似の長所と短所を特定した。 ほぼ縮退性は、多重参照理論における静的および動的相関の適切なバランス、あるいは相関との結合を含む状態特異的な軌道補正によって達成できる。 スピン汚染の役割についても考察する。 最終的に、より安価な理論を確立するためのベンチマーク番号を作成し、望ましい光学的および構造的性質を持つテンプレートの導関数のスクリーニングに使用することができる。 さらに、DLPNO-STEOM-CCSDを$\Delta$E$_{ST}$(J. Phys. Chem. A, 126: 8: 1378, Chem. Phys. Lett., 779: 138827)のベンチマークとして使用することは、この種類の分子には適さないことを指摘したい。

In this paper we investigate the role of electron correlation in predicting the S$_1$-S$_0$ and T$_1$-S$_0$ excitation energies and hence, the singlet-triplet gap ($\Delta$E$_{ST}$) in a set of cyclazines which act as templates for potential candidates for 5th generation Organic Light Emitting Diode (OLED) materials. This issue has recently garnered much interest with the focus being on the inversion of the $\Delta$E$_{ST}$, although experiments have indicated near degenerate levels with both positive and negative being within the experimental error bar (J. Am. Chem. Soc., 102: 6068 , J. Am. Chem. Soc., 108: 17 ). We have carried out a systematic and exhaustive study of various excited state electronic structure methodologies and identified the strengths and shortcomings of the various approaches and approximations in view of this challenging case. We have found that near degeneracy can be achieved either with a proper balance of static and dynamic correlation in multireference theories or with state-specific orbital corrections including its coupling with correlation. The role of spin contamination is also discussed. Eventually, this paper seeks to produce benchmark numbers for establishing cheaper theories which can then be used for screening derivatives of these templates with desirable optical and structural properties. Additionally we would like to point out that the use of DLPNO-STEOM-CCSD as the benchmark for $\Delta$E$_{ST}$ (as used in J. Phys. Chem. A, 126: 8: 1378, Chem. Phys. Lett., 779: 138827) is not a suitable benchmark for this class of molecules.
翻訳日:2023-11-30 21:19:17 公開日:2023-11-29
# 低ランク適応による連続学習

Continual Learning with Low Rank Adaptation ( http://arxiv.org/abs/2311.17601v1 )

ライセンス: Link先を確認
Martin Wistuba, Prabhu Teja Sivaprasad, Lukas Balles, Giovanni Zappella(参考訳) 事前学習されたトランスフォーマーを用いた最近の研究は、下流問題からのデータを微調整した場合の印象的な性能を示している。 しかし、データ特性が変化すると、そのパフォーマンスを維持するのに苦労する。 本稿では,事前学習したトランスフォーマーを更新して新しいデータに対して良好な性能を保ちつつ,従来トレーニングしたデータに対する性能を維持した連続学習に着目した。 初期の作業は、主にプロンプトチューニングにインスパイアされた方法によって、この問題に取り組みました。 この選択を疑問視し,低ランク適応(lora)の連続学習への適用性を検討する。 ドメイン・インクリメンタル・ラーニングのベンチマークでは、LoRAベースのソリューションであるCoLoRが、プロンプトチューニングベースの手法と同じくらいパラメータ効率が良いまま、最先端のパフォーマンスを実現しています。

Recent work using pretrained transformers has shown impressive performance when fine-tuned with data from the downstream problem of interest. However, they struggle to retain that performance when the data characteristics changes. In this paper, we focus on continual learning, where a pre-trained transformer is updated to perform well on new data, while retaining its performance on data it was previously trained on. Earlier works have tackled this primarily through methods inspired from prompt tuning. We question this choice, and investigate the applicability of Low Rank Adaptation (LoRA) to continual learning. On a range of domain-incremental learning benchmarks, our LoRA-based solution, CoLoR, yields state-of-the-art performance, while still being as parameter efficient as the prompt tuning based methods.
翻訳日:2023-11-30 21:18:35 公開日:2023-11-29
# クエリ関連画像 jailbreak 大規模マルチモーダルモデル

Query-Relevant Images Jailbreak Large Multi-Modal Models ( http://arxiv.org/abs/2311.17600v1 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao(参考訳) 警告: 本論文は有害な言語や画像の例を含み, 読者の判断を推奨する。 大規模言語モデル(llm)に関するセキュリティの懸念は広く検討されてきたが、大規模マルチモーダルモデル(lmm)の安全性は未検討のままである。 本研究では,オープンソースのLMMをジェイルブレイクするためにクエリ関連画像を利用する新しい視覚的プロンプト攻撃を提案する。 提案手法は,拡散モデルにより生成された画像と,悪意のあるクエリから抽出したキーワードに基づいてテキストをタイポグラフィとして表示する画像から合成画像を生成する。 大規模言語モデルが安全に一致していても, LLM は我々のアプローチによって容易に攻撃できることを示す。 オープンソースのLMMにおけるこの脆弱性の程度を評価するため,提案手法を用いて,合計5,040のテキストイメージ対を持つ13のシナリオを含む実質的なデータセットを作成した。 本データセットを用いた12個の近縁LMMの評価は,既存のマルチモーダルモデルの攻撃に対する脆弱性を示す。 この発見は、潜在的に悪意のあるエクスプロイトに対するオープンソースのLMMの安全性対策を強化し、強化するための共同努力の必要性を強調している。 リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。

Warning: This paper contains examples of harmful language and images, and reader discretion is recommended. The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Large Multi-Modal Models (LMMs) remains understudied. In our study, we present a novel visual prompt attack that exploits query-relevant images to jailbreak the open-source LMMs. Our method creates a composite image from one image generated by diffusion models and another that displays the text as typography, based on keywords extracted from a malicious query. We show LLMs can be easily attacked by our approach, even if the employed Large Language Models are safely aligned. To evaluate the extent of this vulnerability in open-source LMMs, we have compiled a substantial dataset encompassing 13 scenarios with a total of 5,040 text-image pairs, using our presented attack technique. Our evaluation of 12 cutting-edge LMMs using this dataset shows the vulnerability of existing multi-modal models on adversarial attacks. This finding underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source LMMs against potential malicious exploits. The resource is available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
翻訳日:2023-11-30 21:18:23 公開日:2023-11-29
# ソフト多様体によるデータ欠落グラフの埋め込みの改善

Improving embedding of graphs with missing data by soft manifolds ( http://arxiv.org/abs/2311.17598v1 )

ライセンス: Link先を確認
Andrea Marinoni, Pietro Lio', Alessandro Barp, Christian Jutten, Mark Girolami(参考訳) 連続空間にグラフを埋め込むことは、様々なタスク(例えば学習、推論、予測)に適用される自動情報抽出アルゴリズムの設計と開発において重要な要素である。 グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造にどの程度一致するかに直接依存する。 多様体は、その位相空間にグラフ特性、特にノード距離を組み込むことができる数学的構造である。 多様体ベースのグラフ埋め込みアルゴリズムの最先端は、多様体内の各点の接空間上の射影(グラフ内のノードに対応する)が局所的にユークリッド空間に似ているという仮定を生かしている。 この条件は埋め込み問題に対する効率的な解析解を実現するのに役立つが、現代の実生活グラフを扱うのに十分なセットアップを表現していない。 そこで本研究では, ソフト多様体と呼ばれる新しい多様体のクラスを導入し, この状況を解消する。 特に、ソフト多様体は球面対称性を持つ数学的構造であり、各点への接空間は、データ点を横断する情報伝播の速度に応じて形状が定義される低サイクロイドである。 グラフ埋め込みにソフト多様体を用いると、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。 合成データセットと実データセットの再構成タスクに関する実験結果は,提案手法が連続空間におけるグラフのより正確かつ信頼性の高い特徴付けを実現する方法を示している。

Embedding graphs in continous spaces is a key factor in designing and developing algorithms for automatic information extraction to be applied in diverse tasks (e.g., learning, inferring, predicting). The reliability of graph embeddings directly depends on how much the geometry of the continuous space matches the graph structure. Manifolds are mathematical structure that can enable to incorporate in their topological spaces the graph characteristics, and in particular nodes distances. State-of-the-art of manifold-based graph embedding algorithms take advantage of the assumption that the projection on a tangential space of each point in the manifold (corresponding to a node in the graph) would locally resemble a Euclidean space. Although this condition helps in achieving efficient analytical solutions to the embedding problem, it does not represent an adequate set-up to work with modern real life graphs, that are characterized by weighted connections across nodes often computed over sparse datasets with missing records. In this work, we introduce a new class of manifold, named soft manifold, that can solve this situation. In particular, soft manifolds are mathematical structures with spherical symmetry where the tangent spaces to each point are hypocycloids whose shape is defined according to the velocity of information propagation across the data points. Using soft manifolds for graph embedding, we can provide continuous spaces to pursue any task in data analysis over complex datasets. Experimental results on reconstruction tasks on synthetic and real datasets show how the proposed approach enable more accurate and reliable characterization of graphs in continuous spaces with respect to the state-of-the-art.
翻訳日:2023-11-30 21:18:01 公開日:2023-11-29
# 継続的自己指導型学習 : ユニバーサルマルチモーダル医療データ表現学習を目指して

Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning ( http://arxiv.org/abs/2311.17597v1 )

ライセンス: Link先を確認
Yiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, Qi Wu, Yong Xia(参考訳) 自己教師付き学習は、医用画像解析のための効率的な事前学習方法である。 しかし、現在の研究は主に特定のモダリティデータの事前学習に限られており、様々なモダリティの普遍性を達成せずにかなりの時間と資源を消費している。 簡単な解決策は、共同で指導する事前学習のためのすべてのモダリティデータを組み合わせることである。 まず,モダリティの数が増えるにつれて,表現学習における矛盾を明らかにする。 第二に、事前に収集されたマルチモーダルデータは、すべての実世界のシナリオをカバーできない。 本稿では,連続学習の観点から多目的自己教師型学習を再考し,マルチモーダル医療データに対する継続的自己教師型学習アプローチであるMedCoSSを提案する。 共同教師付き学習とは異なり、MedCoSSは異なる訓練段階に異なるモダリティデータを割り当て、多段階事前学習プロセスを形成する。 モーダルコンフリクトのバランスを保ち,破滅的忘れを防止するために,リハーサルに基づく連続学習手法を提案する。 我々は,k-meansサンプリング戦略を導入し,新しいモーダリティを学ぶ際に,先行モダリティからデータを保持し,リハーサルする。 バッファデータ上でプリテキストタスクを実行する代わりに、これらのデータに特徴蒸留戦略とモード内混合戦略を適用して知識保持を行う。 臨床報告, x線, ctスキャン, mriスキャン, 病理画像など, 大規模マルチモーダル非ラベルデータセット上で, 自己教師あり事前訓練を継続する。 実験により、MedCoSSの9つの下流データセットにまたがる例外的な一般化能力と、新しいモダリティデータの統合における大きなスケーラビリティを示す。 コードとトレーニング済みの重量はhttps://github.com/yeerwen/medcoss.com/で確認できる。

Self-supervised learning is an efficient pre-training method for medical image analysis. However, current research is mostly confined to specific-modality data pre-training, consuming considerable time and resources without achieving universality across different modalities. A straightforward solution is combining all modality data for joint self-supervised pre-training, which poses practical challenges. Firstly, our experiments reveal conflicts in representation learning as the number of modalities increases. Secondly, multi-modal data collected in advance cannot cover all real-world scenarios. In this paper, we reconsider versatile self-supervised learning from the perspective of continual learning and propose MedCoSS, a continuous self-supervised learning approach for multi-modal medical data. Unlike joint self-supervised learning, MedCoSS assigns different modality data to different training stages, forming a multi-stage pre-training process. To balance modal conflicts and prevent catastrophic forgetting, we propose a rehearsal-based continual learning method. We introduce the k-means sampling strategy to retain data from previous modalities and rehearse it when learning new modalities. Instead of executing the pretext task on buffer data, a feature distillation strategy and an intra-modal mixup strategy are applied to these data for knowledge retention. We conduct continuous self-supervised pre-training on a large-scale multi-modal unlabeled dataset, including clinical reports, X-rays, CT scans, MRI scans, and pathological images. Experimental results demonstrate MedCoSS's exceptional generalization ability across nine downstream datasets and its significant scalability in integrating new modality data. Code and pre-trained weight are available at https://github.com/yeerwen/MedCoSS.
翻訳日:2023-11-30 21:17:35 公開日:2023-11-29
# LanGWM: 言語基盤世界モデル

LanGWM: Language Grounded World Model ( http://arxiv.org/abs/2311.17593v1 )

ライセンス: Link先を確認
Rudra P.K. Poudel, Harit Pandya, Chao Zhang, Roberto Cipolla(参考訳) 深層強化学習の最近の進歩は、複雑なタスクに取り組む可能性を示しています。 しかし、視覚制御タスクの実験により、最先端の強化学習モデルが分散一般化に苦しむことが明らかになった。 逆に、高レベルな概念やグローバルコンテキストを表現するのは比較的簡単な言語です。 近年の大規模言語モデルの成功を生かして,頑健な行動選択に言語を活用することで,強化学習における状態抽象化技術の改善が主目的である。 具体的には、モデルに基づく強化学習技術である世界モデル学習を強化するために、言語による視覚的特徴の学習に焦点を当てる。 この仮説を明示的に実施するために、画像観察においていくつかのオブジェクトの境界ボックスをマスキングし、これらのマスキングオブジェクトの記述としてテキストプロンプトを提供する。 その後, 周辺領域のマスキング対象を画素再構成として予測し, トランスフォーマベースマスキングオートエンコーダのアプローチと類似する。 提案したLanGWM: Language Grounded World Modelは,iGibsonポイントナビゲーションタスクの100Kインタラクションステップベンチマークにおいて,配布外テストにおける最先端の性能を実現する。 さらに,提案手法は,抽出した視覚特徴が言語基盤であるため,人間とロボットのインタラクションモデルを改善する可能性を秘めている。

Recent advances in deep reinforcement learning have showcased its potential in tackling complex tasks. However, experiments on visual control tasks have revealed that state-of-the-art reinforcement learning models struggle with out-of-distribution generalization. Conversely, expressing higher-level concepts and global contexts is relatively easy using language. Building upon recent success of the large language models, our main objective is to improve the state abstraction technique in reinforcement learning by leveraging language for robust action selection. Specifically, we focus on learning language-grounded visual features to enhance the world model learning, a model-based reinforcement learning technique. To enforce our hypothesis explicitly, we mask out the bounding boxes of a few objects in the image observation and provide the text prompt as descriptions for these masked objects. Subsequently, we predict the masked objects along with the surrounding regions as pixel reconstruction, similar to the transformer-based masked autoencoder approach. Our proposed LanGWM: Language Grounded World Model achieves state-of-the-art performance in out-of-distribution test at the 100K interaction steps benchmarks of iGibson point navigation tasks. Furthermore, our proposed technique of explicit language-grounded visual representation learning has the potential to improve models for human-robot interaction because our extracted visual features are language grounded.
翻訳日:2023-11-30 21:17:05 公開日:2023-11-29
# ロバスト相関平衡:定義と計算

Robust Correlated Equilibrium: Definition and Computation ( http://arxiv.org/abs/2311.17592v1 )

ライセンス: Link先を確認
Rahul Misra, Rafa{\l} Wisniewski, Carsten Skovmose Kalles{\o}e and Manuela L. Bujorianu(参考訳) そこで本研究では,n-player有限ゲームにおいて,基礎系の時間的変動によるコストの変動について検討し,そのために,相関均衡の定義を一般化したロバスト相関均衡の概念を提案する。 ロバスト相関平衡が存在する条件を特定し、ロバスト相関平衡の意味で最適である学習戦略の分散アルゴリズムを提案する。 本論文の主な貢献はアルゴリズムの収束解析であり、その目的のために、ブラックウェルのアプローチ可能性定理を、オリジナルのブラックウェルのアプローチ可能性定理のように時間平均ではなく、以前のアルゴリズムの時間平均を含むようなコストのゲームに拡張することを提案する。 設計したアルゴリズムは, ポンプを制御器とする実用的な配水ネットワークに適用され, そのコストは, 消費者の不確定な消費によって変動する。 シミュレーションの結果,各コントローラは後悔を得られず,経験分布はロバスト相関平衡に収束することがわかった。

We study N-player finite games with costs perturbed due to time-varying disturbances in the underlying system and to that end we propose the concept of Robust Correlated Equilibrium that generalizes the definition of Correlated Equilibrium. Conditions under which the Robust Correlated Equilibrium exists are specified and a decentralized algorithm for learning strategies that are optimal in the sense of Robust Correlated Equilibrium is proposed. The primary contribution of the paper is the convergence analysis of the algorithm and to that end, we propose an extension of the celebrated Blackwell's Approachability theorem to games with costs that are not just time-average as in the original Blackwell's Approachability Theorem but also include time-average of previous algorithm iterates. The designed algorithm is applied to a practical water distribution network with pumps being the controllers and their costs being perturbed by uncertain consumption by consumers. Simulation results show that each controller achieves no regret and empirical distributions converge to the Robust Correlated Equilibrium.
翻訳日:2023-11-30 21:16:44 公開日:2023-11-29
# 感情による少数ストレス検出の改善

Improving Minority Stress Detection with Emotions ( http://arxiv.org/abs/2311.17676v1 )

ライセンス: Link先を確認
Jonathan Ivey and Susan Gauch(参考訳) 心理的ストレス検出は、精神医療研究にとって重要な課題であるが、特に精神的な健康状態の悪化に弱い少数者に対する心理的ストレスモデルの有効性を調査する先行研究はほとんど行われていない。 本研究は,性的・性的マイノリティの言語を理解するための心理的ストレスモデルの能力を評価するために,マイノリティストレス検出のタスクを用いている。 従来の心理的ストレスモデルではマイノリティなストレス検出が不十分であることに気付き,その性能格差を軽減するために感情注入モデルを提案する。 さらに,マルチタスクの心理的ストレスモデルが,マイノリティストレスデータを直接トレーニングすることなく,マイノリティストレス検出の最先端技術を上回ることを実証する。 マイノリティ・コミュニティが一般集団と異なる感情分布を持つことを示す説明的分析を行い,低データ環境におけるストレスモデルの性能を向上させるとともに,感情統合が他のメンタルヘルス検出タスクにおいて低表現群に有益であることを示す。

Psychological stress detection is an important task for mental healthcare research, but there has been little prior work investigating the effectiveness of psychological stress models on minority individuals, who are especially vulnerable to poor mental health outcomes. In this work, we use the related task of minority stress detection to evaluate the ability of psychological stress models to understand the language of sexual and gender minorities. We find that traditional psychological stress models underperform on minority stress detection, and we propose using emotion-infused models to reduce that performance disparity. We further demonstrate that multi-task psychological stress models outperform the current state-of-the-art for minority stress detection without directly training on minority stress data. We provide explanatory analysis showing that minority communities have different distributions of emotions than the general population and that emotion-infused models improve the performance of stress models on underrepresented groups because of their effectiveness in low-data environments, and we propose that integrating emotions may benefit underrepresented groups in other mental health detection tasks.
翻訳日:2023-11-30 21:09:23 公開日:2023-11-29
# ornstein-uhlenbeckプロセスを用いた拡散確率モデルと雑音の予測

Using Ornstein-Uhlenbeck Process to understand Denoising Diffusion Probabilistic Model and its Noise Schedules ( http://arxiv.org/abs/2311.17673v1 )

ライセンス: Link先を確認
Javier E. Santos, Yen Ting Lin(参考訳) このショートノートの目的は、非均一な離散時間マルコフ過程である拡散確率モデルDDPMが、一様でない離散時間で観測される時間均一な連続時間マルコフ過程で表されることを示すことである。 驚くべきことに、この連続時間マルコフ過程は、1930年代にブラウン粒子を調和ポテンシャルで研究するために開発された、よく知られ、よく研究されたornstein-ohlenbeck(ou)過程である。 ddpm と ou プロセスとの形式的等価性は解析解を用いて確立する。 さらに, 非均一ddpm用ノイズスケジューラの設計問題は, ouプロセスにおける観測時間の設計と等価であることを示す。 本稿では,自己分散やフィッシャー情報などの原理量に基づく観測時間のヒューリスティックな設計を行い,ddpmのアドホックノイズスケジュールと接続する。 興味深いことに、Fisher-Information-motivated scheduleは、理論的基礎を持たないが現在最先端のノイズスケジュールであるcosine scheduleと正確に一致している。

The aim of this short note is to show that Denoising Diffusion Probabilistic Model DDPM, a non-homogeneous discrete-time Markov process, can be represented by a time-homogeneous continuous-time Markov process observed at non-uniformly sampled discrete times. Surprisingly, this continuous-time Markov process is the well-known and well-studied Ornstein-Ohlenbeck (OU) process, which was developed in 1930's for studying Brownian particles in Harmonic potentials. We establish the formal equivalence between DDPM and the OU process using its analytical solution. We further demonstrate that the design problem of the noise scheduler for non-homogeneous DDPM is equivalent to designing observation times for the OU process. We present several heuristic designs for observation times based on principled quantities such as auto-variance and Fisher Information and connect them to ad hoc noise schedules for DDPM. Interestingly, we show that the Fisher-Information-motivated schedule corresponds exactly the cosine schedule, which was developed without any theoretical foundation but is the current state-of-the-art noise schedule.
翻訳日:2023-11-30 21:09:04 公開日:2023-11-29
# TimeBench: 大規模言語モデルにおける時間的推論能力の総合評価

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models ( http://arxiv.org/abs/2311.17667v1 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang, Ming Liu, Bing Qin(参考訳) 時間を理解することは、人間の認知の重要な側面であり、世界の複雑さを理解する幅広い枠組みにおいて不可欠である。 これまでの研究では、時間に関する特定の側面に注目し、包括的な時間的推論ベンチマークを欠いている。 この問題に対処するために,時間的推論現象の幅広いスペクトルをカバーする包括的な階層的時間的推論ベンチマークであるTimeBenchを提案する。 GPT-4, LLaMA2, Mistral などの一般的な LLM に対して, チェーン・オブ・シークレット・プロンプトを取り入れた広範な実験を行った。 実験の結果, 現状のLDMとヒトの間には, 時間的推論において, かなりの距離が存在していることが明らかとなった。 われわれは TimeBench を総合的なベンチマークとして利用し,LLM の時間的推論の研究を促進することを目指している。 私たちのリソースはhttps://github.com/zchuz/TimeBenchで利用可能です。

Understanding time is a pivotal aspect of human cognition, crucial in the broader framework of grasping the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a comprehensive temporal reasoning benchmark. To address this issue, we propose TimeBench, a comprehensive hierarchical temporal reasoning benchmark that covers a broad spectrum of temporal reasoning phenomena, which provides a thorough evaluation for investigating the temporal reasoning capabilities of large language models. We conduct extensive experiments on popular LLMs, such as GPT-4, LLaMA2, and Mistral, incorporating chain-of-thought prompting. Our experimental results indicate a significant performance gap between the state-of-the-art LLMs and humans, highlighting that there is still a considerable distance to cover in temporal reasoning. We aspire for TimeBench to serve as a comprehensive benchmark, fostering research in temporal reasoning for LLMs. Our resource is available at https://github.com/zchuz/TimeBench
翻訳日:2023-11-30 21:08:44 公開日:2023-11-29
# Cam4DOcc: 自動運転アプリケーションにおけるカメラオンリーの4D作業予測ベンチマーク

Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications ( http://arxiv.org/abs/2311.17663v1 )

ライセンス: Link先を確認
Junyi Ma, Xieyuanli Chen, Jiawei Huang, Jingyi Xu, Zhen Luo, Jintao Xu, Weihao Gu, Rui Ai, Hesheng Wang(参考訳) 自動運転アプリケーションにおいて、下流のタスクを安全かつ確実に実行する上で、環境の変化を理解することが重要である。 カメラ画像のみを入力とした近年の占有率推定手法は、現在の観測に基づいて大規模シーンの集中占有率表現を提供することができる。 しかし、それらは主に現在の3d空間の表現に制限されており、時間軸に沿った周囲の物体の将来状態を考慮していない。 カメラのみの占有率推定を時空間予測に拡張するために,カメラのみの占有率予測のための新しいベンチマークであるcam4doccを提案する。 私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、公開されている複数のデータセットに基づいてベンチマークを構築しています。 このベンチマークを総合的な比較による将来の研究のために,静的世界占有モデル,点雲予測のボクセル化,2D-3Dインスタンスベース予測,提案するエンドツーエンドの4D占有予測ネットワークなど,多様なカメラベース認識と予測実装の4つのベースラインタイプを紹介した。 さらに,複数タスクの事前設定のための標準化された評価プロトコルも提供され,自律運転シナリオに関心のある対象に対して,現在および将来の占有率推定に基づく全てのベースラインの性能を比較した。 Cam4DOccベンチマークで提案された4つのベースラインのデータセットと実装は以下の通りである。

Understanding how the surrounding environment changes is crucial for performing downstream tasks safely and reliably in autonomous driving applications. Recent occupancy estimation techniques using only camera images as input can provide dense occupancy representations of large-scale scenes based on the current observation. However, they are mostly limited to representing the current 3D space and do not consider the future state of surrounding objects along the time axis. To extend camera-only occupancy estimation into spatiotemporal prediction, we propose Cam4DOcc, a new benchmark for camera-only 4D occupancy forecasting, evaluating the surrounding scene changes in a near future. We build our benchmark based on multiple publicly available datasets, including nuScenes, nuScenes-Occupancy, and Lyft-Level5, which provides sequential occupancy states of general movable and static objects, as well as their 3D backward centripetal flow. To establish this benchmark for future research with comprehensive comparisons, we introduce four baseline types from diverse camera-based perception and prediction implementations, including a static-world occupancy model, voxelization of point cloud prediction, 2D-3D instance-based prediction, and our proposed novel end-to-end 4D occupancy forecasting network. Furthermore, the standardized evaluation protocol for preset multiple tasks is also provided to compare the performance of all the proposed baselines on present and future occupancy estimation with respect to objects of interest in autonomous driving scenarios. The dataset and our implementation of all four baselines in the proposed Cam4DOcc benchmark will be released here: https://github.com/haomo-ai/Cam4DOcc.
翻訳日:2023-11-30 21:08:27 公開日:2023-11-29
# 産業界における検証の課題

Issue Report Validation in an Industrial Context ( http://arxiv.org/abs/2311.17662v1 )

ライセンス: Link先を確認
Ethem Utku Aktas, Ebru Cakmak, Mete Cihad Inan, Cemal Yilmaz(参考訳) ソフトウェア開発チームがソフトウェア品質を改善し、顧客満足度を高めるためには、効果的な課題トリアージが不可欠です。 手動で発行レポートを検証するのは時間がかかり、トリージングプロセスの全体的な効率を妨げます。 本稿では,課題報告の検証を自動化し,課題トリージングプロセスを高速化する手法を提案する。 我々は,トルコ語で記述された銀行ドメインにおける1200件の無作為に選択された論文報告について検討し,その文章全体を表現するために接尾辞の線形連結によって新しい単語を生成できることを示した。 手動でこれらのレポートに妥当性をラベル付けし、それらが無効であることを示す関連パターンを抽出する。 私たちが取り組んでいる課題は凝集言語で書かれているため、形態素解析を用いて特徴を抽出する。 提案する特徴抽出器を用いて,機械学習を用いて発行報告の有効性を予測し,0.77 f1-scoreを行う。

Effective issue triaging is crucial for software development teams to improve software quality, and thus customer satisfaction. Validating issue reports manually can be time-consuming, hindering the overall efficiency of the triaging process. This paper presents an approach on automating the validation of issue reports to accelerate the issue triaging process in an industrial set-up. We work on 1,200 randomly selected issue reports in banking domain, written in Turkish, an agglutinative language, meaning that new words can be formed with linear concatenation of suffixes to express entire sentences. We manually label these reports for validity, and extract the relevant patterns indicating that they are invalid. Since the issue reports we work on are written in an agglutinative language, we use morphological analysis to extract the features. Using the proposed feature extractors, we utilize a machine learning based approach to predict the issue reports' validity, performing a 0.77 F1-score.
翻訳日:2023-11-30 21:08:00 公開日:2023-11-29
# 空間的クラウドフィールド再構成

Volumetric Cloud Field Reconstruction ( http://arxiv.org/abs/2311.17657v1 )

ライセンス: Link先を確認
Jacob Lin, Miguel Farinha, Edward Gryspeerdt, Ronald Clark(参考訳) 雲や霧のような体積現象は、その半透明な性質と光との複雑な相互作用により、3次元再構成システムにとって重要な課題となる。 散乱量を再構成する従来の技術は、制御された設定に依存し、実用的な応用を制限する。 本稿では,数組の入力ステレオペアからボリュームを再構成する手法を提案する。 本研究では,深層ステレオモデルと3次元畳み込みニューラルネットワーク(3d cnn)とアドベクションモジュールを統合し,ボリュームの形状とダイナミクスをキャプチャする新しいディープラーニングフレームワークを提案する。 ステレオ深度はボリュームの周りに空の空間を彫るために使われ、3D CNNに入力ビューの欠如に対処するための事前情報を提供する。 我々の出力を精査し、対流モジュールは媒体の時間的進化を活用し、運動を推論し、時間的一貫性を改善するメカニズムを提供する。 本システムの有効性は,ステレオ画像ペアのスパース集合から,大規模ボリューム(この場合雲)の密度と速度場を推定する能力によって実証される。

Volumetric phenomena, such as clouds and fog, present a significant challenge for 3D reconstruction systems due to their translucent nature and their complex interactions with light. Conventional techniques for reconstructing scattering volumes rely on controlled setups, limiting practical applications. This paper introduces an approach to reconstructing volumes from a few input stereo pairs. We propose a novel deep learning framework that integrates a deep stereo model with a 3D Convolutional Neural Network (3D CNN) and an advection module, capable of capturing the shape and dynamics of volumes. The stereo depths are used to carve empty space around volumes, providing the 3D CNN with a prior for coping with the lack of input views. Refining our output, the advection module leverages the temporal evolution of the medium, providing a mechanism to infer motion and improve temporal consistency. The efficacy of our system is demonstrated through its ability to estimate density and velocity fields of large-scale volumes, in this case, clouds, from a sparse set of stereo image pairs.
翻訳日:2023-11-30 21:07:43 公開日:2023-11-29
# 屋内ビデオにおける複数の幼児追跡

Multiple Toddler Tracking in Indoor Videos ( http://arxiv.org/abs/2311.17656v1 )

ライセンス: Link先を確認
Somaieh Amraee, Bishoy Galoaa, Matthew Goodwin, Elaheh Hatamimajoumerd, Sarah Ostadabbas(参考訳) 複数の幼児追跡(MTT)は、ビデオ映像中の幼児の識別と識別を含む。 従来のマルチオブジェクト追跡(MOT)アルゴリズムは多様な物体の追跡に適しているが、幼児は予測不可能な動き、さまざまなポーズ、類似した外観のためにユニークな課題を経験する。 屋内環境での幼児追跡は、咬合や限られた視野などの複雑さをもたらす。 本稿では,MTTSの課題に対処し,DeepSortアルゴリズムに基づくカスタマイズ手法MTTSortを提案する。 MTTSortは、屋内ビデオで複数の幼児を正確に追跡するように設計されている。 mttの主な課題の議論、ハイパーパラメータを最適化する遺伝的アルゴリズムの導入、正確なトラッキングアルゴリズムの提案、バイアスのないai共同ラベル技術を用いたmttrackデータセットのキュレーションなどです。 MTTrack, DanceTrack, MOT15データセットのMTTSortと最先端MOT法を定量的に比較する。 提案手法は,複数物体追跡精度 (mota) ,高次追跡精度 (hota) および反復的および判別的フレームワーク1 (idf1) 測定値において0.98, 0.68, 0.98 のmot法をそれぞれ上回った。

Multiple toddler tracking (MTT) involves identifying and differentiating toddlers in video footage. While conventional multi-object tracking (MOT) algorithms are adept at tracking diverse objects, toddlers pose unique challenges due to their unpredictable movements, various poses, and similar appearance. Tracking toddlers in indoor environments introduces additional complexities such as occlusions and limited fields of view. In this paper, we address the challenges of MTT and propose MTTSort, a customized method built upon the DeepSort algorithm. MTTSort is designed to track multiple toddlers in indoor videos accurately. Our contributions include discussing the primary challenges in MTT, introducing a genetic algorithm to optimize hyperparameters, proposing an accurate tracking algorithm, and curating the MTTrack dataset using unbiased AI co-labeling techniques. We quantitatively compare MTTSort to state-of-the-art MOT methods on MTTrack, DanceTrack, and MOT15 datasets. In our evaluation, the proposed method outperformed other MOT methods, achieving 0.98, 0.68, and 0.98 in multiple object tracking accuracy (MOTA), higher order tracking accuracy (HOTA), and iterative and discriminative framework 1 (IDF1) metrics, respectively.
翻訳日:2023-11-30 21:07:27 公開日:2023-11-29
# 視聴覚ディープフェイクにおける識別自動認識の脆弱性

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes ( http://arxiv.org/abs/2311.17655v1 )

ライセンス: Link先を確認
Pavel Korshunov, Haolin Chen, Philip N. Garner, and Sebastien Marcel(参考訳) ディープフェイク検出の課題は、音声や視覚研究者による解決には程遠い。 偽合成ビデオと音声の公開データベースがいくつか構築され、検出方法の開発に役立った。 しかし、既存のデータベースは通常、視覚や音声のモダリティに焦点を当てており、彼らのディープフェイクが実際の人物を偽装できる証拠を提供していない。 本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させ, 映像の視覚的・音声的特性を高く評価した。 私たちは、DeepFaceLabのいくつかのモデルと、顔交換やHiFiVC、DiffVC、YourTTS、FreeVCモデルのブレンディング技術を使って、さまざまなアイデンティティを持つ実ビデオのSWANデータセットを公開して、音声-視覚的ディープフェイクを作成しました。 また,一般公開された音声データセットLibriTTSから,YourTTS,Adaspeech,TorToiSeという,音声のディープフェイクスLibriTTS-DFのみのデータベースを構築した。 本研究では,音声脳からのecapa-tdnnモデルなど,最先端の音声認識システムの脆弱性を合成音声に示す。 同様に、mobilefacenetアーキテクチャに基づく顔認識システムを、視覚ディープフェイクのいくつかの変種に対してテストした。 脆弱性評価は、既存の訓練済みディープフェイクモデルを特定のアイデンティティにチューニングすることで、90%以上の時間で顔と話者の認識システムをスポアリングし、ある人の非常にリアルなルックアンドサウンドの偽ビデオを実現することができることを示している。

The task of deepfakes detection is far from being solved by speech or vision researchers. Several publicly available databases of fake synthetic video and speech were built to aid the development of detection methods. However, existing databases typically focus on visual or voice modalities and provide no proof that their deepfakes can in fact impersonate any real person. In this paper, we present the first realistic audio-visual database of deepfakes SWAN-DF, where lips and speech are well synchronized and video have high visual and audio qualities. We took the publicly available SWAN dataset of real videos with different identities to create audio-visual deepfakes using several models from DeepFaceLab and blending techniques for face swapping and HiFiVC, DiffVC, YourTTS, and FreeVC models for voice conversion. From the publicly available speech dataset LibriTTS, we also created a separate database of only audio deepfakes LibriTTS-DF using several latest text to speech methods: YourTTS, Adaspeech, and TorToiSe. We demonstrate the vulnerability of a state of the art speaker recognition system, such as ECAPA-TDNN-based model from SpeechBrain, to the synthetic voices. Similarly, we tested face recognition system based on the MobileFaceNet architecture to several variants of our visual deepfakes. The vulnerability assessment show that by tuning the existing pretrained deepfake models to specific identities, one can successfully spoof the face and speaker recognition systems in more than 90% of the time and achieve a very realistic looking and sounding fake video of a given person.
翻訳日:2023-11-30 21:07:01 公開日:2023-11-29
# VIM:Visual Embedded Instruction に続くマルチモーダルな大規模言語モデルの提案

VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following ( http://arxiv.org/abs/2311.17647v1 )

ライセンス: Link先を確認
Yujie Lu, Xiujun Li, William Yang Wang, Yejin Choi(参考訳) MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。 図2に示すように、VIMは命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。 我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotの3つの異なるコンテキスト内学習設定でMLLMを探索する。 我々は,オープンソース mllms と gpt-4v には著しい性能差があり,視覚指導理解の能力が同等ではないことを示唆する。 本研究は,MLLMの学習能力向上に期待できる方向性を示すものである。 我々は、VIMが技術の進歩と分野のさらなる進歩を促進するための有用な規範として機能することを目指している。

We introduce VISUAL EMBEDDED INSTRUCTION (VIM), a new framework designed to evaluate the visual instruction following capability of Multimodal Large Language Models (MLLMs). As illustrated in Figure 2, VIM challenges the MLLMs by embedding the instructions into the visual scenes, demanding strong visual interpretative skills for instruction following. We adapt VIM to various benchmarks, including VQAv2, MME, MM-Vet, and RefCOCO series, compose a VIM bench, and probe diverse MLLMs across three distinct in-context learning settings: Zero Shot, One Shot, and Pair Shot. We observe that there is a significant performance disparity between the open-source MLLMs and GPT-4V, implying that their proficiency in visual instruction comprehension is not up to par. Our results highlight a promising direction for the enhancement of MLLMs capabilities on instruction following. We aim VIM to serve as a useful norm for advancing the state of the art and driving further progress in the field.
翻訳日:2023-11-30 21:06:30 公開日:2023-11-29
# 量子支持ベクトルマシンを用いた新しい特徴選択法

A novel feature selection method based on quantum support vector machine ( http://arxiv.org/abs/2311.17646v1 )

ライセンス: Link先を確認
Haiyan Wang(参考訳) 特徴の選択は、次元を減らし、モデルの精度と効率を改善するために機械学習において重要である。 現代のデータセットの特徴空間次元の指数的増加は、不明瞭なサンプルと冗長な特徴を直接的に引き起こし、分類精度を著しく低下させる。 量子機械学習は、この問題に対処する潜在的な利点を提供する。 本稿では,量子サポートベクターマシンと多目的遺伝的アルゴリズムを統合する新しい手法である量子サポートベクターマシン特徴選択(qsvmf)を提案する。 QSVMFは、分類精度の最大化、選択された特徴と量子回路コストの最小化、特徴の共分散の低減など、複数の同時目的を最適化する。 乳癌データセットの特徴選択にQSVMFを適用し,QSVMFの性能と古典的アプローチとの比較を行った。 実験の結果,QSVMFは優れた性能を示した。 さらに、QSVMFのParetoフロントソリューションは、機能セットサイズのトレードオフに対する精度の分析を可能にし、非常にスパースで正確な機能サブセットを特定します。 乳がんバイオマーカーから選択した特徴の生物学的関連性について検討した。 本研究は、複雑な実世界のデータに対する機械学習の効率とパフォーマンスを高めるために、量子ベースの機能選択の可能性を強調している。

Feature selection is critical in machine learning to reduce dimensionality and improve model accuracy and efficiency. The exponential growth in feature space dimensionality for modern datasets directly results in ambiguous samples and redundant features, which can severely degrade classification accuracy. Quantum machine learning offers potential advantages for addressing this challenge. In this paper, we propose a novel method, quantum support vector machine feature selection (QSVMF), integrating quantum support vector machines with multi-objective genetic algorithm. QSVMF optimizes multiple simultaneous objectives: maximizing classification accuracy, minimizing selected features and quantum circuit costs, and reducing feature covariance. We apply QSVMF for feature selection on a breast cancer dataset, comparing the performance of QSVMF against classical approaches with the selected features. Experimental results show that QSVMF achieves superior performance. Furthermore, The Pareto front solutions of QSVMF enable analysis of accuracy versus feature set size trade-offs, identifying extremely sparse yet accurate feature subsets. We contextualize the biological relevance of the selected features in terms of known breast cancer biomarkers. This work highlights the potential of quantum-based feature selection to enhance machine learning efficiency and performance on complex real-world data.
翻訳日:2023-11-30 21:06:09 公開日:2023-11-29
# fibonacci anyonモデルにおける3量子ビット制御ゲートの最適化トポロジカル量子コンパイル:制御インジェクションアプローチ

Optimized Topological Quantum Compilation of Three-Qubit Controlled Gates in the Fibonacci Anyon Model: A Controlled-Injection Approach ( http://arxiv.org/abs/2311.17645v1 )

ライセンス: Link先を確認
Abdellah Tounsi, Nacer Eddine Belaloui, Mohamed Messaoud Louamri, Achour Benslama, Mohamed Taha Rouabah(参考訳) 非アーベルフィボナッチアロンモデル内で3量子制御ゲートをコンパイルするための制御注入と呼ばれる手法が提案されている。 3つのフィボナッチアロンを用いたシングルキュービットコンパイル技術に基づいて、制御された3キュービットゲートの従来の分解法と比較して精度が向上し、ブレイド長が減少した。 この方法は4つの2ビットゲートしか分解する必要がなく、従来の5つから顕著に減少する。 本研究は, 制御された3ビットゲートの新たなクラスを導入し, トポロジカルiToffoliゲートの数値シミュレーションを行い, アプローチを検証した。 さらに,新しい代数的関係と分散計算を含む数値手法を用いた単一量子ゲート近似の最適化手法を提案する。

A method, termed controlled-injection, is proposed for compiling three-qubit controlled gates within the non-abelian Fibonacci anyon model. Building on single-qubit compilation techniques with three Fibonacci anyons, the approach showcases enhanced accuracy and reduced braid length compared to the conventional decomposition method for the controlled three-qubit gates. This method necessitates only four two-qubit gates for decomposition, a notable reduction from the conventional five. In conjunction, the study introduces a novel class of controlled three-qubit gates and conducts a numerical simulation of the topological iToffoli gate to validate the approach. In addition, we propose an optimization method for single-qubit gate approximation using novel algebraic relations and numerical methods, including distributed computing.
翻訳日:2023-11-30 21:05:46 公開日:2023-11-29
# 任意スケール超解像のための熱活性化型ニューラルフィールド

Neural Fields with Thermal Activations for Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2311.17643v1 )

ライセンス: Link先を確認
Alexander Becker, Rodrigo Caye Daudt, Nando Metzger, Jan Dirk Wegner, Konrad Schindler(参考訳) 任意のスケールの単一画像スーパーレゾリューション(assr)に対する最近のアプローチでは、異なる速度でサンプリングできる連続的な信号を表現するために局所的な神経場を用いた。 しかし、そのような定式化では、フィールド値のポイントワイドなクエリは、与えられたピクセルのポイントスプレッド関数(PSF)と自然に一致しない。 本研究は,ASSRの分解能を横切るときのアンチエイリアスとして機能するガウスPSFを用いて点を問うことができるような,新しい設計手法を提案する。 フーリエ理論と熱方程式から導かれる新しい活性化関数を用いてこれを実現できる。 私たちのフレームワークのガウスpsfでポイントをクエリすることは、イメージドメインのフィルタリングとは異なり、計算コストに影響しません。 ハイパーネットワークと組み合わせることで,理論上保証されたアンチエイリアスを提供するだけでなく,従来の手法よりもパラメータ効率のよいasrの新しいバーを設定する。

Recent approaches for arbitrary-scale single image super-resolution (ASSR) have used local neural fields to represent continuous signals that can be sampled at different rates. However, in such formulation, the point-wise query of field values does not naturally match the point spread function (PSF) of a given pixel. In this work we present a novel way to design neural fields such that points can be queried with a Gaussian PSF, which serves as anti-aliasing when moving across resolutions for ASSR. We achieve this using a novel activation function derived from Fourier theory and the heat equation. This comes at no additional cost: querying a point with a Gaussian PSF in our framework does not affect computational cost, unlike filtering in the image domain. Coupled with a hypernetwork, our method not only provides theoretically guaranteed anti-aliasing, but also sets a new bar for ASSR while also being more parameter-efficient than previous methods.
翻訳日:2023-11-30 21:05:30 公開日:2023-11-29
# エフェメラルの消去:ストリートビュー合成のための共同カメラリファインメントと過渡物体除去

Erasing the Ephemeral: Joint Camera Refinement and Transient Object Removal for Street View Synthesis ( http://arxiv.org/abs/2311.17634v1 )

ライセンス: Link先を確認
Mreenav Shyam Deka and Lu Sang and Daniel Cremers(参考訳) 都市環境のための新しいビューの合成は、自動運転やバーチャルツアーといったタスクに不可欠である。 オブジェクトレベルや屋内状況と比較して、屋外環境は、移動車両やカメラが長い順序でドリフトするなど、フレーム間の不整合など、ユニークな課題を呈している。 本稿では,屋外シナリオのビュー合成におけるこれらの課題に対処する手法を提案する。 我々は,ニューラルポイントライトフィールドシーン表現を用い,動的オブジェクトを戦略的に検出・マスクアウトし,新しいシーンをアーティファクトなしで再構築する。 さらに、ビュー合成プロセスとともにカメラポーズを同時に最適化し、両方の要素を同時に洗練する。 実世界の都市データセットの検証を通じて,都市シーンの新たな視点を合成する最新結果を実証する。

Synthesizing novel views for urban environments is crucial for tasks like autonomous driving and virtual tours. Compared to object-level or indoor situations, outdoor settings present unique challenges, such as inconsistency across frames due to moving vehicles and camera pose drift over lengthy sequences. In this paper, we introduce a method that tackles these challenges on view synthesis for outdoor scenarios. We employ a neural point light field scene representation and strategically detect and mask out dynamic objects to reconstruct novel scenes without artifacts. Moreover, we simultaneously optimize camera pose along with the view synthesis process, and thus, we simultaneously refine both elements. Through validation on real-world urban datasets, we demonstrate state-of-the-art results in synthesizing novel views of urban scenes.
翻訳日:2023-11-30 21:05:14 公開日:2023-11-29
# 変圧器入門:NLPの視点から

Introduction to Transformers: an NLP Perspective ( http://arxiv.org/abs/2311.17633v1 )

ライセンス: Link先を確認
Tong Xiao, Jingbo Zhu(参考訳) トランスフォーマーは自然言語処理の実証的な機械学習モデルを支配してきた。 本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。 これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。 トランスフォーマーと関連するディープラーニング技術が、これまで見たことのない方法で進化していることを考えれば、すべてのモデルの詳細を掘り下げたり、すべての技術的領域をカバーすることはできない。 代わりに、Transformerとその変種をよく理解するのに役立つ概念だけに焦点を当てます。 また、この分野に影響を及ぼす重要なアイデアを要約し、これらのモデルの強みと限界についていくつかの洞察を与えます。

Transformers have dominated empirical machine learning models of natural language processing. In this paper, we introduce basic concepts of Transformers and present key techniques that form the recent advances of these models. This includes a description of the standard Transformer architecture, a series of model refinements, and common applications. Given that Transformers and related deep learning techniques might be evolving in ways we have never seen, we cannot dive into all the model details or cover all the technical areas. Instead, we focus on just those concepts that are helpful for gaining a good understanding of Transformers and their variants. We also summarize the key ideas that impact this field, thereby yielding some insights into the strengths and limitations of these models.
翻訳日:2023-11-30 21:04:58 公開日:2023-11-29
# 確率的ブール制御ネットワークにおけるQラーニングに基づく最適偽データ注入攻撃

Q-learning Based Optimal False Data Injection Attack on Probabilistic Boolean Control Networks ( http://arxiv.org/abs/2311.17631v1 )

ライセンス: Link先を確認
Xianlun Peng, Yang Tang, Fangfei Li and Yang Liu(参考訳) 本稿では,攻撃者がシステムモデルの知識を欠いている確率的ブール制御ネットワーク(PBCN)において,最適な偽データ注入攻撃問題を解決するための強化学習手法を提案する。 具体的には、この問題に対処するためにQ-learning(QL)アルゴリズムを用いる。 次に、学習効率を向上するだけでなく、標準のQLアルゴリズムでは扱えない大規模PBCNに対する最適な攻撃戦略を得る、改良されたQLアルゴリズムを提案する。 最後に,10ノードネットワークと28ノードネットワークを含む2つの攻撃PBCNを考慮し,提案手法の有効性を検証する。

In this paper, we present a reinforcement learning (RL) method for solving optimal false data injection attack problems in probabilistic Boolean control networks (PBCNs) where the attacker lacks knowledge of the system model. Specifically, we employ a Q-learning (QL) algorithm to address this problem. We then propose an improved QL algorithm that not only enhances learning efficiency but also obtains optimal attack strategies for large-scale PBCNs that the standard QL algorithm cannot handle. Finally, we verify the effectiveness of our proposed approach by considering two attacked PBCNs, including a 10-node network and a 28-node network.
翻訳日:2023-11-30 21:04:47 公開日:2023-11-29
# 代数的量子論の再構成

A Reconstruction of Algebraic Quantum Theory ( http://arxiv.org/abs/2311.17739v1 )

ライセンス: Link先を確認
Bharath Ron(参考訳) 代数的量子論の凝縮した再構成を行い,その基礎的側面と代数的構造を強調した。 観測者に関する基本的な仮定と、それらがどのように現実を観察できるかから、$W^*$-algebra構造を得る。 本研究は,単純な思考実験から数学的公理を直接得ることで,抽象代数的アプローチの必要性を浮き彫りにするものである。

We obtain a condensed reconstruction of algebraic quantum theory, emphasizing its foundational aspects and algebraic structure. We obtain the $W^*$-algebra structure from elementary assumptions about observers and how they can observe reality. This work highlights the need for the abstract algebraic approach by directly obtaining the mathematical axioms from simple thought experiments.
翻訳日:2023-11-30 20:58:34 公開日:2023-11-29
# GenZI:ゼロショット3Dヒューマンシーンインタラクションジェネレーション

GenZI: Zero-Shot 3D Human-Scene Interaction Generation ( http://arxiv.org/abs/2311.17737v1 )

ライセンス: Link先を確認
Lei Li, Angela Dai(参考訳) 3dインタラクションデータから学習することなく、シーンと対話する3d人間を合成できるのか? 我々は3次元人間とシーンの相互作用を生成する最初のゼロショットアプローチであるGenZIを提案する。 GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。 自然言語の記述と、3Dシーンにおける所望の相互作用の粗い位置を考慮し、まずVLMを活用して、シーンの複数のレンダリングビューに塗布された、もっともらしい2Dインタラクションを想像する。 次に,2次元相互作用仮説との整合性から3次元人体モデルのポーズと形状を合成するために,ロバストな反復最適化を定式化する。 既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータの必要性を回避し、簡単に使えるテキストプロンプトによる3Dインタラクション合成の柔軟な制御を可能にする。 広範囲な実験により,ゼロショットアプローチは高い柔軟性と汎用性を有し,屋内環境と屋外環境の両方を含む多様なシーンタイプに適用可能であることが示された。

Can we synthesize 3D humans interacting with scenes without learning from any 3D human-scene interaction data? We propose GenZI, the first zero-shot approach to generating 3D human-scene interactions. Key to GenZI is our distillation of interaction priors from large vision-language models (VLMs), which have learned a rich semantic space of 2D human-scene compositions. Given a natural language description and a coarse point location of the desired interaction in a 3D scene, we first leverage VLMs to imagine plausible 2D human interactions inpainted into multiple rendered views of the scene. We then formulate a robust iterative optimization to synthesize the pose and shape of a 3D human model in the scene, guided by consistency with the 2D interaction hypotheses. In contrast to existing learning-based approaches, GenZI circumvents the conventional need for captured 3D interaction data, and allows for flexible control of the 3D interaction synthesis with easy-to-use text prompts. Extensive experiments show that our zero-shot approach has high flexibility and generality, making it applicable to diverse scene types, including both indoor and outdoor environments.
翻訳日:2023-11-30 20:58:28 公開日:2023-11-29
# 最小完全非局所性、全て対無非局所性、量子擬似テレパシー

Minimum full nonlocality, all versus nothing nonlocality, and quantum pseudo telepathy ( http://arxiv.org/abs/2311.17735v1 )

ライセンス: Link先を確認
Ad\'an Cabello(参考訳) 完全非局所性(FN)は非局所性の最も強い形態であり、量子情報や計算において重要な役割を果たす。 FN, all vs nothing (AVN) 非局所性, 擬似テレパシー (PT) は同値であることが最近示され、これは二部体FN/AVN/PTの最も単純な形式である、長期にわたるオープンな問題に発展をもたらした。 2部構成のFN/AVN/PTは、入力と出力の基準が小さいベルのシナリオでは不可能であり、既存のツールがより大きなシナリオで可能かどうかを答えることができないことが示されている。 ここでは、FN/AVN/PT が特定のタイプの Kochen-Specker (KS) 集合と等価であることを証明し、小さな濃度を持つすべての既知の KS 集合を探索することによって、間違いなく、そのことを示す。 (i)最も単純な二部晶FN/AVN/PTはPhysの相関である。 Rev. Lett. 87, 010403 (2001) および (ii)最も単純な二部量子系における最も単純な二部量子系FN/AVN/PTは、一対の四重項であるFN/AVN/PTであり、アリス(ボブ)が3つの結果の9(7)の測定値を持つときに起こる。 このシナリオは、クォートリット量子FN/AVN/PTの観測とベルとKSの定理を1つの実験で結びつけるのに十分小さい。

Full nonlocality (FN) is the strongest form of nonlocality and plays a crucial role in quantum information and computation. It has been recently shown that FN, all versus nothing (AVN) nonlocality, and pseudo telepathy (PT) are equivalent, and this has led to advance in the long-standing open problem of what is the simplest form of bipartite FN/AVN/PT. It has been shown that bipartite FN/AVN/PT is impossible in Bell scenarios with small input and output cardinalities and that existing tools cannot help answer whether it is possible in larger scenarios. Here, we prove that FN/AVN/PT is equivalent to a specific type of Kochen-Specker (KS) set and, by exploring all known KS sets with small cardinality, we show that, arguably, (i) the simplest bipartite FN/AVN/PT is the correlation in Phys. Rev. Lett. 87, 010403 (2001), and (ii) the simplest bipartite FN/AVN/PT in the simplest bipartite quantum system that allows for FN/AVN/PT, which is a pair of qutrits, happens when Alice (Bob) has 9 (7) measurements of 3 outcomes. This scenario is small enough to allow observation of qutrit-qutrit FN/AVN/PT and to connect the Bell and KS theorems in one experiment.
翻訳日:2023-11-30 20:58:06 公開日:2023-11-29
# 可変フォノン光子カップリングは原子-オプト磁気力学において二重MMITを誘導し、遅い光を増強する

Tunable phonon-photon coupling induces double MMIT and enhances slow light in an atom-opto-magnomechanics ( http://arxiv.org/abs/2311.17731v1 )

ライセンス: Link先を確認
M'bark Amghar, Noura Chabar and Mohamed Amazioug(参考訳) 本稿では,光磁気力学系のハイブリッドキャビティ内に原子アンサンブルを配置した場合のマグノメカニカル誘導透過現象と遅い光効果について理論的に検討する。 システムはデュアル光とフォノン駆動によって駆動される。 プローブ出力スペクトルにおける2重マグネティック誘導透過(mmit)をフォノン-光子結合強度を用いて示す。 さらに、システム内の高速で遅い光効果についても検討した。 また, フォノン光子結合強度の調整により, スロー光プロファイルが向上することを示した。 この結果は量子情報処理と通信に潜在的応用をもたらす可能性がある。

In this paper we theoretically investigate the magnomechanically induced transparency phenomenon and the slow/fast light effect in the situation where an atomic ensemble is placed inside the hybrid cavity of an opto-magnomechanical system. The system is driven by dual optical and phononic drives. We show double magnomechanically induced transparency (MMIT) in the probe output spectrum by exploiting the phonon-photon coupling strength. In addition, the fast and slow light effects in the system are explored. Besides, we show that the slow light profiles is enhanced by adjusting phonon-photon coupling strength. This result may have potential applications in quantum information processing and communication.
翻訳日:2023-11-30 20:57:29 公開日:2023-11-29
# SenTest: 文エンコーダのロバストさを評価する

SenTest: Evaluating Robustness of Sentence Encoders ( http://arxiv.org/abs/2311.17722v1 )

ライセンス: Link先を確認
Tanmay Chavan, Shantanu Patankar, Aditya Kane, Omkar Gokhale, Geetanjali Kale, Raviraj Joshi(参考訳) コントラスト学習は、視覚領域の弱いラベル付きデータを用いたモデルの事前学習に有効な方法であることが証明されている。 文変換器はこのアーキテクチャのNLP版であり、リッチで効果的な文表現のために人気が高まっている。 効果的な文表現を持つことは、情報検索、検索拡張生成(RAG)、文比較など、複数のタスクにおいて最重要である。 変換器の展開可能性因子を留意し、文変換器の堅牢性を評価することが最も重要である。 本研究は文エンコーダの堅牢性を評価することに焦点を当てる。 我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。 本システムは,文字レベルの攻撃をランダムな文字置換,単語レベルの攻撃を同義語置換,文レベルの攻撃を文内単語順序シャッフルという形で使用する。 実験結果は文エンコーダの堅牢性を強く損なう。 モデルは、摂動データセットへの埋め込みと同様に、かなり異なる予測を生成する。 モデルの精度は、摂動データセットと比較して、摂動データセットで最大15%低下する可能性がある。 さらに,これらの埋め込みが文の意味的・構文的構造(連続順序)を捉えていることを示す実験を行った。 しかし、既存の教師付き分類戦略ではこの情報を活用できず、単にn-gram検出器として機能するだけである。

Contrastive learning has proven to be an effective method for pre-training models using weakly labeled data in the vision domain. Sentence transformers are the NLP counterparts to this architecture, and have been growing in popularity due to their rich and effective sentence representations. Having effective sentence representations is paramount in multiple tasks, such as information retrieval, retrieval augmented generation (RAG), and sentence comparison. Keeping in mind the deployability factor of transformers, evaluating the robustness of sentence transformers is of utmost importance. This work focuses on evaluating the robustness of the sentence encoders. We employ several adversarial attacks to evaluate its robustness. This system uses character-level attacks in the form of random character substitution, word-level attacks in the form of synonym replacement, and sentence-level attacks in the form of intra-sentence word order shuffling. The results of the experiments strongly undermine the robustness of sentence encoders. The models produce significantly different predictions as well as embeddings on perturbed datasets. The accuracy of the models can fall up to 15 percent on perturbed datasets as compared to unperturbed datasets. Furthermore, the experiments demonstrate that these embeddings does capture the semantic and syntactic structure (sentence order) of sentences. However, existing supervised classification strategies fail to leverage this information, and merely function as n-gram detectors.
翻訳日:2023-11-30 20:57:17 公開日:2023-11-29
# Receler: テキスト間拡散モデルの信頼性の高い概念消去

Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers ( http://arxiv.org/abs/2311.17717v1 )

ライセンス: Link先を確認
Chi-Pin Huang, Kai-Po Chang, Chung-Ting Tsai, Yung-Hsuan Lai, Yu-Chiang Frank Wang(参考訳) テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前訓練された拡散モデルを無効にすることを目的としている。 信頼性の高い概念消去を行うには,ロバスト性と局所性が望ましい。 前者は、パラフレーズまたは学習プロンプトに対してターゲット概念に関連する画像を生成するのを控え、後者は非ターゲット概念のための画像を生成するモデル能力を保持する。 本稿では,ライトウェイトエキサイザー(Receler)を用いたReliable Concept Erasingを提案する。これは,ローカリティエキサイティングとロバストネスを両立させるための軽量エキサイザーを学習し,提案するコンセプトローカライズされた正規化と対向的即時学習により,それぞれ局所性とロバスト性を高めるものである。 様々な概念を用いた包括的定量的・質的実験は,上記の2つの望ましい性質に対する既往の消去法に対して,レセラーの優越性を検証する。

Concept erasure in text-to-image diffusion models aims to disable pre-trained diffusion models from generating images related to a target concept. To perform reliable concept erasure, the properties of robustness and locality are desirable. The former refrains the model from producing images associated with the target concept for any paraphrased or learned prompts, while the latter preserves the model ability in generating images for non-target concepts. In this paper, we propose Reliable Concept Erasing via Lightweight Erasers (Receler), which learns a lightweight Eraser to perform concept erasing and enhances locality and robustness with the proposed concept-localized regularization and adversarial prompt learning, respectively. Comprehensive quantitative and qualitative experiments with various concept prompts verify the superiority of Receler over the previous erasing methods on the above two desirable properties.
翻訳日:2023-11-30 20:56:56 公開日:2023-11-29
# SAMPro3D:ゼロショットシーンセグメンテーションのためのSAMプロンプトを3Dで配置する

SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation ( http://arxiv.org/abs/2311.17707v1 )

ライセンス: Link先を確認
Mutian Xu, Xingyilang Yin, Lingteng Qiu, Yang Liu, Xin Tong, Xiaoguang Han(参考訳) ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。 3次元点雲と複数の3次元シーンの2次元フレームが与えられた場合、我々のアプローチは2次元フレームに事前訓練されたセグメンション・アシング・モデル(SAM)を適用して3次元シーンを分割する。 私たちのキーとなるアイデアは、自然の3Dプロンプトが投影されたピクセルプロンプトをフレームに合わせるように3Dポイントを配置することで、ピクセルプロンプトとSAM予測マスクのフレーム一貫性を確保することです。 さらに,全ての2次元フレームからのフィードバックに基づいて低品質な3Dプロンプトをフィルタリングし,セグメンテーション品質を向上させることを提案する。 また、同じオブジェクトをセグメント化する場合に異なる3Dプロンプトを統合することを提案し、より包括的なセグメンテーションを実現する。 特に,本手法はドメイン固有データに対する追加の訓練を必要としないため,SAMのゼロショットパワーを維持できる。 その結果,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現することができ,多くの場合,人間レベルのアノテーションを超えていることがわかった。 プロジェクトページはhttps://mutianxu.github.io/sampro3d/からアクセスできる。

We introduce SAMPro3D for zero-shot 3D indoor scene segmentation. Given the 3D point cloud and multiple posed 2D frames of 3D scenes, our approach segments 3D scenes by applying the pretrained Segment Anything Model (SAM) to 2D frames. Our key idea involves locating 3D points in scenes as natural 3D prompts to align their projected pixel prompts across frames, ensuring frame-consistency in both pixel prompts and their SAM-predicted masks. Moreover, we suggest filtering out low-quality 3D prompts based on feedback from all 2D frames, for enhancing segmentation quality. We also propose to consolidate different 3D prompts if they are segmenting the same object, bringing a more comprehensive segmentation. Notably, our method does not require any additional training on domain-specific data, enabling us to preserve the zero-shot power of SAM. Extensive qualitative and quantitative results show that our method consistently achieves higher quality and more diverse segmentation than previous zero-shot or fully supervised approaches, and in many cases even surpasses human-level annotations. The project page can be accessed at https://mutianxu.github.io/sampro3d/.
翻訳日:2023-11-30 20:56:39 公開日:2023-11-29
# Q-PAC:量子バグフィックスパターンの自動検出

Q-PAC: Automated Detection of Quantum Bug-Fix Patterns ( http://arxiv.org/abs/2311.17705v1 )

ライセンス: Link先を確認
Pranav K. Nayak, Krishn V. Kher, M. Bharat Chandra, M. V. Panduranga Rao, Lei Zhang(参考訳) コンテキスト: バグフィックスパターンの検出は、昔から古典的ソフトウェアにおいて研究されてきた。 しかし、量子ソフトウェアは急速に発展しているが、この文献にはバグフィックスパターンを識別、分析、検出するための自動化された方法やツールが欠けている。 我々の知る限りでは、以前SEKE'23で発表された研究は、量子コードのバグフィックスパターンを検出するために古典的なテクニックを最初に活用したものだった。 目的: これまでの取り組みを拡張するため,量子ソフトウェアの品質向上のために,一連のテストおよびデバッグ手法を含む研究アジェンダ(Q-Repair)を提示する。 最終的な目標は、機械学習技術を使用して、既存の量子バグの修正パターンを自動的に予測することだ。 方法:アジェンダの第1段階の一環として、最初の研究を拡張し、IBM Qiskit量子コードのバグ修正パターンを検出するためのQ-PACと呼ばれるより包括的な自動化フレームワークを提案する。 このフレームワークでは,抽象構文木,構文フィルタ,セマンティクスチェックを用いて7つのバグフィックスパターン検出器を開発した。 結果:本手法を実証するために,実世界および手作りのバグや修正例を用いて,様々な量子バグ修正パターン上でQ-PACを実行する。 実験の結果,Q-PACはIBM Qiskitのバグフィックスパターンを効果的に識別できることがわかった。 結論: 量子バグ修正検出に関する最初の研究が、量子ソフトウェア工学の認識を研究者と実践者の両方にもたらすことを願っています。 また、Q-PACをオープンソースソフトウェアとしてGitHubに公開しています。 量子プログラミングの質を改善するために、他の研究者に(Q-Repairのような)研究の方向性に取り組むよう促したい。

Context: Bug-fix pattern detection has been investigated in the past in the context of classical software. However, while quantum software is developing rapidly, the literature still lacks automated methods and tools to identify, analyze, and detect bug-fix patterns. To the best of our knowledge, our work previously published in SEKE'23 was the first to leverage classical techniques to detect bug-fix patterns in quantum code. Objective: To extend our previous effort, we present a research agenda (Q-Repair), including a series of testing and debugging methodologies, to improve the quality of quantum software. The ultimate goal is to utilize machine learning techniques to automatically predict fix patterns for existing quantum bugs. Method: As part of the first stage of the agenda, we extend our initial study and propose a more comprehensive automated framework, called Q-PAC, for detecting bug-fix patterns in IBM Qiskit quantum code. In the framework, we develop seven bug-fix pattern detectors using abstract syntax trees, syntactic filters, and semantic checks. Results: To demonstrate our method, we run Q-PAC on a variety of quantum bug-fix patterns using both real-world and handcrafted examples of bugs and fixes. The experimental results show that Q-PAC can effectively identify bug-fix patterns in IBM Qiskit. Conclusion: We hope our initial study on quantum bug-fix detection can bring awareness of quantum software engineering to both researchers and practitioners. Thus, we also publish Q-PAC as an open-source software on GitHub. We would like to encourage other researchers to work on research directions (such as Q-Repair) to improve the quality of the quantum programming.
翻訳日:2023-11-30 20:56:15 公開日:2023-11-29
# スーパーオシレーションの特性化と定量化の提案

A proposal to characterize and quantify superoscillations ( http://arxiv.org/abs/2311.17703v1 )

ライセンス: Link先を確認
Yu Li, Jos\'e Polo-G\'omez, Eduardo Mart\'in-Mart\'inez(参考訳) 本稿では,従来の提案問題に支障をきたさない区間における超振動関数の形式的定義を提案する。 定義のよい振る舞いをいくつかの例で示します。

We present a formal definition of superoscillating function in an interval which does not suffer the problems of previous proposals. We illustrate the good behaviour of the definition with several examples.
翻訳日:2023-11-30 20:55:49 公開日:2023-11-29
# 大規模言語モデルと検索拡張生成を用いた任意のコースに適応し、正確な回答を提供するAIチュータの作り方

How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation ( http://arxiv.org/abs/2311.17696v1 )

ライセンス: Link先を確認
Chenxi Dong(参考訳) 人工知能は、データ駆動でパーソナライズされた学習ソリューションを通じて教育を変革している。 本稿では,最先端のLarge Language Model (LLM)を用いて,どの科目でもパーソナライズされた学習を提供する,革新的なWebアプリケーションであるAI Tutorを紹介する。 AI Tutorはコース素材を取り込み、コースに合わせて適応的な知識ベースを構築する。 学生が質問を行うと、最も関連性の高い情報を取得し、証拠を引用して詳細な会話応答を生成する。 このシステムは、高度な大規模言語モデルと、正確で自然な質問応答のためのRAG(Retrieval-Augmented Generation)技術によって実現されている。 我々は、AI Tutorの多目的性と、教育学的にコジェントな応答を生成する能力を示す、フル機能のWebインターフェースとビデオデモを紹介する。 初期のプロトタイプだが、この研究は、高品質でカスタマイズされた教育サポートへのアクセスを民主化できるAI対応のチューターシステムへの先駆的な一歩だ。

Artificial intelligence is transforming education through data-driven, personalized learning solutions. This paper introduces AI Tutor, an innovative web application that provides personalized tutoring in any subject using state-of-the-art Large Language Model (LLM). AI Tutor ingests course materials to construct an adaptive knowledge base tailored to the course. When students pose questions, it retrieves the most relevant information and generates detailed, conversational responses citing supporting evidence. The system is powered by advanced large language models and Retrieval-Augmented Generation (RAG) techniques for accurate, natural question answering. We present a fully-functional web interface and video demonstration that showcase AI Tutor's versatility across diverse subjects and its ability to produce pedagogically cogent responses. While an initial prototype, this work represents a pioneering step toward AI-enabled tutoring systems that can democratize access to high-quality, customized educational support.
翻訳日:2023-11-30 20:55:46 公開日:2023-11-29
# フェアマッピングによる公平なテキスト・画像拡散

Fair Text-to-Image Diffusion via Fair Mapping ( http://arxiv.org/abs/2311.17695v1 )

ライセンス: Link先を確認
Jia Li, Lijie Hu, Jingfeng Zhang, Tianhang Zheng, Hua Zhang, Di Wang(参考訳) 本稿では,人為的な記述が与えられた場合に,人口統計学的に公正な結果を生成する上で,既存のテキスト・画像拡散モデルの限界に対処する。 これらのモデルは、しばしば、ターゲット言語コンテキストを社会文化的バイアスから切り離すのに苦労し、バイアス画像生成をもたらす。 この課題を克服するため,我々は,事前学習されたテキスト対画像モデルを修正する汎用的,モデル非依存,軽量な手法であるfair mappingを提案する。 私たちのアプローチの重要な利点は、その高い効率です。 トレーニングプロセスでは、追加の線形マッピングネットワークで少数のパラメータを更新するだけでよい。 これは計算コストを削減するだけでなく、最適化プロセスも加速する。 まず,テキスト誘導拡散モデルにおける言語バイアスによる生成結果のバイアスの問題を示す。 言語埋め込みを非バイアス空間に投影するマッピングネットワークを開発することにより、プロンプトで指定されたキーワードに基づいて比較的バランスのとれた人口統計結果を生成することができる。 顔画像生成に関する総合的な実験により,人間の顔に関する記述を刺激することで,画像生成性能が大幅に向上することを示す。 バイアスの問題を効果的に解決することで、より公平で多様な画像出力が得られる。 本研究は,テキストに指定された人口特性を正確に反映した画像を生成する能力を高めることで,テキスト・画像生成の分野に寄与する。

In this paper, we address the limitations of existing text-to-image diffusion models in generating demographically fair results when given human-related descriptions. These models often struggle to disentangle the target language context from sociocultural biases, resulting in biased image generation. To overcome this challenge, we propose Fair Mapping, a general, model-agnostic, and lightweight approach that modifies a pre-trained text-to-image model by controlling the prompt to achieve fair image generation. One key advantage of our approach is its high efficiency. The training process only requires updating a small number of parameters in an additional linear mapping network. This not only reduces the computational cost but also accelerates the optimization process. We first demonstrate the issue of bias in generated results caused by language biases in text-guided diffusion models. By developing a mapping network that projects language embeddings into an unbiased space, we enable the generation of relatively balanced demographic results based on a keyword specified in the prompt. With comprehensive experiments on face image generation, we show that our method significantly improves image generation performance when prompted with descriptions related to human faces. By effectively addressing the issue of bias, we produce more fair and diverse image outputs. This work contributes to the field of text-to-image generation by enhancing the ability to generate images that accurately reflect the intended demographic characteristics specified in the text.
翻訳日:2023-11-30 20:55:29 公開日:2023-11-29
# 強化学習と模倣学習を用いた眼科ロボット見習いを目指して

Toward a Surgeon-in-the-Loop Ophthalmic Robotic Apprentice using Reinforcement and Imitation Learning ( http://arxiv.org/abs/2311.17693v1 )

ライセンス: Link先を確認
Amr Gomaa and Bilal Mahdy and Niko Kleer and Antonio Kr\"uger(参考訳) ロボット支援手術システムは、手術精度の向上とヒューマンエラーの最小化に有意な可能性を示している。 しかし、既存のシステムは個々の外科医の独特な好みや要求を満たす能力に欠けていた。 さらに、主に一般的な手術(腹腔鏡など)に焦点を当てており、眼科などの精密な手術には適していない。 そこで本研究では,眼内白内障手術において,個々の外科医のスキルレベルに適応し,外科的テクニックを優先する,外科医中心の自律エージェントに対するシミュレーションに基づく画像誘導アプローチを提案する。 本手法は,白内障手術の切開段階のすべてのタスクを実行するために,画像データによる強化・模倣学習エージェントを訓練するためにシミュレーション環境を利用する。 外科医の行動と嗜好をトレーニングプロセスに組み込むことで,ロボットは実演を通して個々の外科医のユニークなアプローチを暗黙的に学習し,適応することができる。 これにより、より直感的でパーソナライズされた外科的経験が得られる。 同時に、自律ロボットの見習いにとって一貫したパフォーマンスを確保する。 提案した指標を用いてアプローチの有効性を定義し,評価し,汎用エージェントと外科医中心の適応エージェントとのトレードオフを強調する。 さらに,このアプローチは他の眼科手術にも応用できる可能性があり,新しい世代の自律手術ロボットへの扉を開くことができる。 今後の開発と再現性のためのオープンソースのシミュレーションフレームワークを提供する。

Robotic-assisted surgical systems have demonstrated significant potential in enhancing surgical precision and minimizing human errors. However, existing systems lack the ability to accommodate the unique preferences and requirements of individual surgeons. Additionally, they primarily focus on general surgeries (e.g., laparoscopy) and are not suitable for highly precise microsurgeries, such as ophthalmic procedures. Thus, we propose a simulation-based image-guided approach for surgeon-centered autonomous agents that can adapt to the individual surgeon's skill level and preferred surgical techniques during ophthalmic cataract surgery. Our approach utilizes a simulated environment to train reinforcement and imitation learning agents guided by image data to perform all tasks of the incision phase of cataract surgery. By integrating the surgeon's actions and preferences into the training process with the surgeon-in-the-loop, our approach enables the robot to implicitly learn and adapt to the individual surgeon's unique approach through demonstrations. This results in a more intuitive and personalized surgical experience for the surgeon. Simultaneously, it ensures consistent performance for the autonomous robotic apprentice. We define and evaluate the effectiveness of our approach using our proposed metrics; and highlight the trade-off between a generic agent and a surgeon-centered adapted agent. Moreover, our approach has the potential to extend to other ophthalmic surgical procedures, opening the door to a new generation of surgeon-in-the-loop autonomous surgical robots. We provide an open-source simulation framework for future development and reproducibility.
翻訳日:2023-11-30 20:55:08 公開日:2023-11-29
# AviationGPT: 航空ドメインのための大規模言語モデル

AviationGPT: A Large Language Model for the Aviation Domain ( http://arxiv.org/abs/2311.17686v1 )

ライセンス: Link先を確認
Liya Wang, Jason Chou, Xin Zhou, Alex Tien, Diane M Baumgartner(参考訳) ChatGPT と GPT-4 の出現により、大きな言語モデル (LLM) が世界に浸透し、質問応答、要約、コンテンツ生成において例外的な性能を示した。 航空産業は複雑で、構造化されていないテキストデータが多く、専門用語や専門用語で溢れている。 さらに、この領域ではモデル構築のためのラベル付きデータが少ないため、航空用テキストデータの利用が低くなる。 LLMの出現は、この状況を変える機会を与えるが、航空分野向けに特別に設計されたLLMが不足している。 このギャップに対処するために,我々は,オープンソースのllama-2とmistralアーキテクチャに基づいて構築され,精巧に収集された航空データセットに基づいて継続的にトレーニングされるaviationgptを提案する。 実験結果によると、AviationGPTは、様々な自然言語処理(NLP)問題(質問回答、要約、文書作成、情報抽出、レポートクエリ、データクリーニング、インタラクティブデータ探索など)に対処する汎用性を含む、複数の利点を提供している。 また、航空分野における正確かつ文脈的に関連する応答を提供し、性能を大幅に向上させる(例えば、テストケースで40%以上のパフォーマンス向上)。 AviationGPTにより、航空産業はより複雑な研究問題に対処し、国立航空宇宙システム(NAS)の効率性と安全性を高めることができる。

The advent of ChatGPT and GPT-4 has captivated the world with large language models (LLMs), demonstrating exceptional performance in question-answering, summarization, and content generation. The aviation industry is characterized by an abundance of complex, unstructured text data, replete with technical jargon and specialized terminology. Moreover, labeled data for model building are scarce in this domain, resulting in low usage of aviation text data. The emergence of LLMs presents an opportunity to transform this situation, but there is a lack of LLMs specifically designed for the aviation domain. To address this gap, we propose AviationGPT, which is built on open-source LLaMA-2 and Mistral architectures and continuously trained on a wealth of carefully curated aviation datasets. Experimental results reveal that AviationGPT offers users multiple advantages, including the versatility to tackle diverse natural language processing (NLP) problems (e.g., question-answering, summarization, document writing, information extraction, report querying, data cleaning, and interactive data exploration). It also provides accurate and contextually relevant responses within the aviation domain and significantly improves performance (e.g., over a 40% performance gain in tested cases). With AviationGPT, the aviation industry is better equipped to address more complex research problems and enhance the efficiency and safety of National Airspace System (NAS) operations.
翻訳日:2023-11-30 20:54:44 公開日:2023-11-29
# 誰が助けてくれる? うつ病関連ソーシャルメディアインタラクションにおけるユーザの心理的旅の再構築

Who can help me? Reconstructing users' psychological journeys in depression-related social media interactions ( http://arxiv.org/abs/2311.17684v1 )

ライセンス: Link先を確認
Virginia Morini and Salvatore Citraro and Elena Sajno and Maria Sansoni and Giuseppe Riva and Massimo Stella and Giulio Rossetti(参考訳) ソーシャルメディアは、個人が個人的な経験や感情を開示し、仲間や専門家からの支援を求めるセルフヘルプボードとして使われるようになっている。 そこで我々は,新しい心理社会的枠組みを提案しながら,うつ病に関する一般的なメンタルヘルス関連redditの掲示板を調査した。 ユーザの心理的・言語的プロファイルを社会的相互作用とともに再構築する。 総ユーザ数は303,016で、378,483の投稿と1,475,044のコメントがある。 ユーザーのインタラクションのネットワーク、例えば誰が答えたかを特定した後、精神保健研究に関連性のある精神言語学、認知学、感情的デジタルトレースに関する前例のない窓を開く。 ユーザ生成コンテンツを通じて,患者の健康への関与モデルに準拠した4つのカテゴリないしアーチタイプ,すなわち,感情的に乱れ/下降するブラックアウト,覚醒,密着したイエト・コンフリクト,顕在的な希望を識別する。 ユーザの時間経過を条件付きマルコフプロセスを通じて分析し,これら4つのアーチタイプが連続したステージではないことを示す。 ユーザが対立の感情を通じて苦悩からセレニティへと進化する、直線的な進歩や連続的な患者旅行は見当たらない。 その代わり、オンラインユーザーは、ネガティブとポジティブの両方のアーキティパルステージにスパイラルをフォローできる。 心理学的・言語的・社会的ネットワークモデリングを通じて、このような複雑な経路が正、負、矛盾するオンラインコンテキストを通じてどのように広がるかという、説得力のある定量的証拠を提供することができる。 我々のアプローチは、ソーシャルメディアを通じてメンタルヘルス問題に対処する、データインフォームドな理解への道を開く。

Social media are increasingly being used as self-help boards, where individuals can disclose personal experiences and feelings and look for support from peers or experts. Here we investigate several popular mental health-related Reddit boards about depression while proposing a novel psycho-social framework. We reconstruct users' psychological/linguistic profiles together with their social interactions. We cover a total of 303,016 users, engaging in 378,483 posts and 1,475,044 comments from 01/05/2018 to 01/05/2020. After identifying a network of users' interactions, e.g., who replied to whom, we open an unprecedented window over psycholinguistic, cognitive, and affective digital traces with relevance for mental health research. Through user-generated content, we identify four categories or archetypes of users in agreement with the Patient Health Engagement model: the emotionally turbulent/under blackout, the aroused, the adherent-yet-conflicted, and the eudaimonically hopeful. Analyzing users' transitions over time through conditional Markov processes, we show how these four archetypes are not consecutive stages. We do not find a linear progression or sequential patient journey, where users evolve from struggling to serenity through feelings of conflict. Instead, we find online users to follow spirals towards both negative and positive archetypal stages. Through psychological/linguistic and social network modelling, we can provide compelling quantitative pieces of evidence on how such a complex path unfolds through positive, negative, and conflicting online contexts. Our approach opens the way to data-informed understandings of psychological coping with mental health issues through social media.
翻訳日:2023-11-30 20:54:18 公開日:2023-11-29
# COVIDx CXR-4: 胸部X線画像を用いたコンピュータ支援型COVID-19診断のための多施設オープンソースベンチマークデータセット

COVIDx CXR-4: An Expanded Multi-Institutional Open-Source Benchmark Dataset for Chest X-ray Image-Based Computer-Aided COVID-19 Diagnostics ( http://arxiv.org/abs/2311.17677v1 )

ライセンス: Link先を確認
Yifan Wu, Hayden Gunraj, Chi-en Amy Tai, Alexander Wong(参考訳) 新型コロナウイルス(covid-19)パンデミックの世界的な影響は依然として深刻で、最初の感染拡大から3年も国への圧力が持続している。 ディープラーニングモデルは、新型コロナウイルスの診断を改善する上で有望だが、パフォーマンスを改善するには多種多様な大規模データセットが必要である。 本稿では,胸部X線画像を用いたコンピュータ支援型COVID-19診断のための多施設オープンソースベンチマークデータセットであるCOVIDx CXR-4を紹介する。 covidx cxr-4は、前回のcovid-19 cxr-3データセットを大きく拡大し、患者全体のコホートサイズを2.66倍に増やし、複数の機関で45,342人の患者から84,818枚の画像が得られた。 患者層,画像メタデータ,疾患分布の多様性を広範囲に分析し,潜在的なデータセットバイアスを強調する。 著者の知る限り、COVIDx CXR-4は、最大かつ最も多様なオープンソースのCXRデータセットであり、新型コロナウイルス感染症に対する臨床研究を促進するオープンイニシアチブの一部として公開されている。

The global ramifications of the COVID-19 pandemic remain significant, exerting persistent pressure on nations even three years after its initial outbreak. Deep learning models have shown promise in improving COVID-19 diagnostics but require diverse and larger-scale datasets to improve performance. In this paper, we introduce COVIDx CXR-4, an expanded multi-institutional open-source benchmark dataset for chest X-ray image-based computer-aided COVID-19 diagnostics. COVIDx CXR-4 expands significantly on the previous COVIDx CXR-3 dataset by increasing the total patient cohort size by greater than 2.66 times, resulting in 84,818 images from 45,342 patients across multiple institutions. We provide extensive analysis on the diversity of the patient demographic, imaging metadata, and disease distributions to highlight potential dataset biases. To the best of the authors' knowledge, COVIDx CXR-4 is the largest and most diverse open-source COVID-19 CXR dataset and is made publicly available as part of an open initiative to advance research to aid clinicians against the COVID-19 disease.
翻訳日:2023-11-30 20:53:48 公開日:2023-11-29
# Propagate & Distill: Propagate-Embracing MLPを用いた効果的なグラフ学習者を目指して

Propagate & Distill: Towards Effective Graph Learners Using Propagation-Embracing MLPs ( http://arxiv.org/abs/2311.17781v1 )

ライセンス: Link先を確認
Yong-Min Shin, Won-Yong Shin(参考訳) 近年,教師グラフニューラルネットワーク(gnn)による知識蒸留による学生mlpの学習により,グラフ上の半教師ノード分類の解法として多層パーセプトロン(mlps)を用いた研究が行われている。 従来の研究では, 蒸留中の教師と生徒モデルの出力確率分布を一致させることで, 学生mlpの訓練に重点を置いてきたが, 構造情報を明示的かつ解釈可能な方法で注入する方法は体系的に研究されていない。 機能変換の$T$と伝搬の$\Pi$を分離したGNNにインスパイアされた私たちは、蒸留プロセスを再構成して、学生MLPが$T$と$\Pi$の両方を学ぶようにしました。 これは、教師が蒸留する前に逆伝播$\pi^{-1}$を適用することで達成できるが、訓練中の大きな行列の乗算による計算コストは高い。 この問題を解決するために, 蒸留前の教師の出力を伝搬するプロパゲート・アンド・ディスティル (P&D) を提案し, 逆伝播の近似過程として解釈できる。 我々は,P&Dが学生MLPの性能を向上できることを実証した。

Recent studies attempted to utilize multilayer perceptrons (MLPs) to solve semisupervised node classification on graphs, by training a student MLP by knowledge distillation from a teacher graph neural network (GNN). While previous studies have focused mostly on training the student MLP by matching the output probability distributions between the teacher and student models during distillation, it has not been systematically studied how to inject the structural information in an explicit and interpretable manner. Inspired by GNNs that separate feature transformation $T$ and propagation $\Pi$, we re-frame the distillation process as making the student MLP learn both $T$ and $\Pi$. Although this can be achieved by applying the inverse propagation $\Pi^{-1}$ before distillation from the teacher, it still comes with a high computational cost from large matrix multiplications during training. To solve this problem, we propose Propagate & Distill (P&D), which propagates the output of the teacher before distillation, which can be interpreted as an approximate process of the inverse propagation. We demonstrate that P&D can readily improve the performance of the student MLP.
翻訳日:2023-11-30 20:46:41 公開日:2023-11-29
# 統一バイナリと多クラスマージンに基づく分類

Unified Binary and Multiclass Margin-Based Classification ( http://arxiv.org/abs/2311.17778v1 )

ライセンス: Link先を確認
Yutong Wang and Clayton Scott(参考訳) マージン損失の概念は、二分分類のためのアルゴリズムの開発と解析の中心である。 しかし、現在までマルチクラス分類のマージン損失の類似性については合意が得られていない。 本研究では,多くの人気関数を含む幅広い多クラス損失関数が,二項損失のマージン形式を一般化した相対的マージン形式で表現可能であることを示す。 これまでの研究(Wang and Scott, 2020, 2021)で示されているように、相対的マージン形式は多クラス損失の理解と分析に広く有用である。 この多クラス損失の表現方法の有用性をさらに実証するために,Bartlett et al. (2006) による二項余剰損失の分類・校正結果を多クラスに拡張する。 次に、Fenchel-Youngの損失のクラスを分析し、これらの損失の集合を分類校正として拡張する。

The notion of margin loss has been central to the development and analysis of algorithms for binary classification. To date, however, there remains no consensus as to the analogue of the margin loss for multiclass classification. In this work, we show that a broad range of multiclass loss functions, including many popular ones, can be expressed in the relative margin form, a generalization of the margin form of binary losses. The relative margin form is broadly useful for understanding and analyzing multiclass losses as shown by our prior work (Wang and Scott, 2020, 2021). To further demonstrate the utility of this way of expressing multiclass losses, we use it to extend the seminal result of Bartlett et al. (2006) on classification-calibration of binary margin losses to multiclass. We then analyze the class of Fenchel-Young losses, and expand the set of these losses that are known to be classification-calibrated.
翻訳日:2023-11-30 20:46:19 公開日:2023-11-29
# 基礎モデルによるワンショットオープン学習

One-Shot Open Affordance Learning with Foundation Models ( http://arxiv.org/abs/2311.17776v1 )

ライセンス: Link先を確認
Gen Li, Deqing Sun, Laura Sevilla-Lara, Varun Jampani(参考訳) そこでは、モデルがベースオブジェクトのカテゴリごとに1つの例で訓練されるが、新しいオブジェクトやアプライアンスを特定することが期待されている。 視覚言語モデルは、新しいオブジェクトやシーンを認識するのに優れているが、しばしば、アフォーマンスのような細かい粒度のレベルを理解するのに苦労している。 この問題に対処するため,我々は既存の基礎モデルの包括的分析を行い,その固有理解を探究し,データ制限型アフォーアンス学習の可能性を評価する。 次に,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。 2つのアベイランスセグメンテーションベンチマーク実験により,提案手法はトレーニングデータの1%未満で最先端のモデルより優れており,未確認のオブジェクトやアベイランスに対して合理的な一般化能力を示す。

We introduce One-shot Open Affordance Learning (OOAL), where a model is trained with just one example per base object category, but is expected to identify novel objects and affordances. While vision-language models excel at recognizing novel objects and scenes, they often struggle to understand finer levels of granularity such as affordances. To handle this issue, we conduct a comprehensive analysis of existing foundation models, to explore their inherent understanding of affordances and assess the potential for data-limited affordance learning. We then propose a vision-language framework with simple and effective designs that boost the alignment between visual features and affordance text embeddings. Experiments on two affordance segmentation benchmarks show that the proposed method outperforms state-of-the-art models with less than 1% of the full training data, and exhibits reasonable generalization capability on unseen objects and affordances.
翻訳日:2023-11-30 20:46:01 公開日:2023-11-29
# メイグ・グアンの1960年の郵便局員がベルの1964年の非局所相関、あるいは自動車の経路問題における非局所的優位性に権限を付与されたとき

When Mei-Gu Guan's 1960 Postmen Get Empowered with Bell's 1964 Nonlocal Correlations, or, Nonlocal Advantage in Vehicle Routing Problem ( http://arxiv.org/abs/2311.17772v1 )

ライセンス: Link先を確認
Abhishek Banerjee, Pratapaditya Bej, Amit Mukherjee, Sahil Gopalkrishna Naik, Mir Alimuddin, Manik Banik(参考訳) 車両のルーティング問題(英: vehicle routing problem)は、中国のセミナルなポストマン問題(中国の数学者マイ・グガンが最初に調査した)に由来する包括的問題である。 中国のpostman問題は、単一postmanの最小長サイクルを見つけることを目的としているが、より広い課題は、複数のpostmanによるシナリオを包含する。 このような場合の費用効果の高い決定は、車両のサイズや種類、車の使用時間、道路間の道路税の変動など様々な要因に依存する。 そこで本研究では,ベル非局所相関が非共生郵便業者のコストを最適化する利点を与え,交通経路問題における量子絡み合いの生来的利用を確立するような問題について考察する。 本研究は,組合せ最適化と運用研究における非局所相関に対する有望な応用について明らかにし,それ以外は量子ファンデーションや量子情報理論のコミュニティで主に研究されてきた。

Vehicle routing problems, a comprehensive problem category originated from the seminal Chinese Postman Problem (first investigated by Chinese mathematician Mei-Gu Guan), entail strategic and tactical decision making for efficient scheduling and routing of vehicles. While Chinese postman problem is aimed at finding the minimum length cycle for a single postman, the broader challenges encompass scenarios with multiple postmen. Making cost-effective decisions in such cases depends on various factors, including vehicle sizes and types, vehicle usage time, road tax variations across routes, and more. In this work, we delve into a class of such problems wherein Bell nonlocal correlations provide advantages in optimizing the costs for non-communicating postmen, and thus establish a nascent utilization of quantum entanglement in traffic routing problem. Our investigation unveils promising applications for nonlocal correlations within combinatorial optimization and operational research problems, which otherwise have predominantly been explored within the quantum foundation and quantum information theory community.
翻訳日:2023-11-30 20:45:43 公開日:2023-11-29
# 抽出多文書要約のためのセントロイドベースラインの監督

Supervising the Centroid Baseline for Extractive Multi-Document Summarization ( http://arxiv.org/abs/2311.17771v1 )

ライセンス: Link先を確認
Sim\~ao Gon\c{c}alves, Gon\c{c}alo Correia, Diogo Pernes, Afonso Mendes(参考訳) セントロイド法は, 抽出多文書要約のための単純な手法であり, パイプラインの改良が数多く提案されている。 文選択にビームサーチプロセスを加えてさらに洗練し、また、改良された結果をもたらすセントロイド推定注意モデルも導入する。 多言語シナリオを含む複数のマルチドキュメント要約データセットでこれを実証する。

The centroid method is a simple approach for extractive multi-document summarization and many improvements to its pipeline have been proposed. We further refine it by adding a beam search process to the sentence selection and also a centroid estimation attention model that leads to improved results. We demonstrate this in several multi-document summarization datasets, including in a multilingual scenario.
翻訳日:2023-11-30 20:45:20 公開日:2023-11-29
# PillarNeSt: Pillarベースの3Dオブジェクト検出のためのバックボーンスケーリングと事前トレーニング

PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based 3D Object Detection ( http://arxiv.org/abs/2311.17770v1 )

ライセンス: Link先を確認
Weixin Mao, Tiancai Wang, Diankun Zhang, Junjie Yan, Osamu Yoshie(参考訳) 本稿では,柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。 柱型手法は主にランダムに初期化された2次元畳み込みニューラルネットワーク(convnet)を用いて特徴抽出を行うが、バックボーンスケーリングや画像領域での事前学習の利点を享受できない。 ポイントクラウドのスケールアップ能力を示すために,大規模画像データセット(イメージネットなど)に事前学習された高密度convnetを,ピラー型検出器の2次元バックボーンとして導入する。 ConvNetsは、スパーシリティや不規則性といったポイントクラウドの特定の特徴に応じて、モデルサイズに基づいて適応的に設計されている。 提案した柱型検出器であるConvNetsを組み込んだPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。 我々のコードは受諾後に解放される。

This paper shows the effectiveness of 2D backbone scaling and pretraining for pillar-based 3D object detectors. Pillar-based methods mainly employ randomly initialized 2D convolution neural network (ConvNet) for feature extraction and fail to enjoy the benefits from the backbone scaling and pretraining in the image domain. To show the scaling-up capacity in point clouds, we introduce the dense ConvNet pretrained on large-scale image datasets (e.g., ImageNet) as the 2D backbone of pillar-based detectors. The ConvNets are adaptively designed based on the model size according to the specific features of point clouds, such as sparsity and irregularity. Equipped with the pretrained ConvNets, our proposed pillar-based detector, termed PillarNeSt, outperforms the existing 3D object detectors by a large margin on the nuScenes and Argoversev2 datasets. Our code shall be released upon acceptance.
翻訳日:2023-11-30 20:45:14 公開日:2023-11-29
# データ不確実性の検証時間問題に対するロバストネスアプローチ

Robustness Approaches for the Examination Timetabling Problem under Data Uncertainty ( http://arxiv.org/abs/2311.17766v1 )

ライセンス: Link先を確認
Bernd Bassimir, Rolf Wanka(参考訳) 文献では、検査時刻決定問題(ETTP)は、しばしば学習後問題(PE-ETTP)とみなされる。 現実世界では、学生が以前の用語から情報を登録する前に試験をスケジュールすることが多い。 このアプローチの直接的な帰結は、結果のモデルに存在する不確実性である。 本稿では,ロバスト最適化文献で利用可能ないくつかのアプローチについて考察する。 本研究は, 試験時間の問題に対する各アプローチの影響を考察し, ETTPに最も好適なアプローチを適用する方法について述べる。 その後,本研究で紹介するインスタンス生成フレームワークによって生成された2つの実世界インスタンスと複数のランダムインスタンスに対して,与えられたロバスト性アプローチの実装が与える影響を分析した。

In the literature the examination timetabling problem (ETTP) is often considered a post-enrollment problem (PE-ETTP). In the real world, universities often schedule their exams before students register using information from previous terms. A direct consequence of this approach is the uncertainty present in the resulting models. In this work we discuss several approaches available in the robust optimization literature. We consider the implications of each approach in respect to the examination timetabling problem and present how the most favorable approaches can be applied to the ETTP. Afterwards we analyze the impact of some possible implementations of the given robustness approaches on two real world instances and several random instances generated by our instance generation framework which we introduce in this work.
翻訳日:2023-11-30 20:44:54 公開日:2023-11-29
# NeRFを用いた差別化フィルムによる映像の挙動伝達

Cinematic Behavior Transfer via NeRF-based Differentiable Filming ( http://arxiv.org/abs/2311.17754v1 )

ライセンス: Link先を確認
Xuekun Jiang, Anyi Rao, Jingbo Wang, Dahua Lin, Bo Dai(参考訳) デジタルメディアや映像制作の展開において、カメラの動きやキャラクタアクションといった視覚要素の正確な操作と再現が望まれている。 既存のSLAM手法はダイナミックシーンの制限に直面し、人間のポーズ推定はしばしば3D状態を無視して2D投影に焦点を当てる。 この問題に対処するため,まず,逆撮影挙動推定手法を導入する。 カメラの軌道を最適化し、NeRFを差別化可能なレンダラーとして利用し、SMPLトラックを精製する。 次に,新たな2dビデオや3d仮想環境に様々なショットタイプを転送可能な,シネマティックトランスファーパイプラインを導入する。 3dエンジンワークフローの導入により、優れたレンダリングと制御能力が実現され、ユーザ研究のより高い評価が達成される。

In the evolving landscape of digital media and video production, the precise manipulation and reproduction of visual elements like camera movements and character actions are highly desired. Existing SLAM methods face limitations in dynamic scenes and human pose estimation often focuses on 2D projections, neglecting 3D statuses. To address these issues, we first introduce a reverse filming behavior estimation technique. It optimizes camera trajectories by leveraging NeRF as a differentiable renderer and refining SMPL tracks. We then introduce a cinematic transfer pipeline that is able to transfer various shot types to a new 2D video or a 3D virtual environment. The incorporation of 3D engine workflow enables superior rendering and control abilities, which also achieves a higher rating in the user study.
翻訳日:2023-11-30 20:44:43 公開日:2023-11-29
# BAND-2k:バンド検出と品質評価のためのバンドアーチファクト通知データベース

BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment ( http://arxiv.org/abs/2311.17752v1 )

ライセンス: Link先を確認
Zijian Chen, Wei Sun, Jun Jia, Fangfang Lu, Zicheng Zhang, Jing Liu, Ru Huang, Xiongkuo Min, Guangtao Zhai(参考訳) バンディングは階段のような輪郭としても知られ、圧縮や量子化アルゴリズムによって処理される画像やビデオの平坦な領域で頻繁に発生する。 望ましくないアーティファクトとして、バンドリングは元のイメージ構造を破壊し、ユーザエクスペリエンスの質(QoE)を低下させる。 本稿では,帯域画像品質評価(IQA)の問題点を系統的に検討し,画像のバンド画像品質を検知し,視覚的品質を評価することを目的とする。 既存の画像バンドリングデータベースには限られたコンテンツソースとバンドリング生成方法のみが含まれており、知覚的品質ラベル(すなわち平均評価スコア)が欠けていることから、我々は15の圧縮および量子化スキームによって生成される2000のバンド化画像からなるバンドングアーティファクト目立たないデータベース(band-2k)を最初に構築した。 23人の労働者がIQA実験に参加し、214,000以上のパッチレベルのバンドリングクラスラベルと44,371の信頼性の高い画像レベルの品質評価を得た。 その後,バンドリングアーチファクトの周波数特性を活用し,バンドリング検出と品質評価に有効なNRバンドリング評価器を開発した。 二重畳み込みニューラルネットワークを用いて、高周波および低周波マップから特徴表現を同時に学習することにより、バンドングアーティファクトを識別する能力を高める。 空間周波数フィルタでマスクされたバンド検出マップをプールすることで、バンド画像の品質スコアを生成する。 実験により,バンドリング評価器はバンドリング検出の精度が著しく向上し,SRCCとPLCCの精度が向上し,知覚品質ラベルが得られた。 以上の結果から,帯状アーティファクトの強度と知覚的視覚的品質との相関が強く,帯状品質評価の必要性が示唆された。

Banding, also known as staircase-like contours, frequently occurs in flat areas of images/videos processed by the compression or quantization algorithms. As undesirable artifacts, banding destroys the original image structure, thus degrading users' quality of experience (QoE). In this paper, we systematically investigate the banding image quality assessment (IQA) problem, aiming to detect the image banding artifacts and evaluate their perceptual visual quality. Considering that the existing image banding databases only contain limited content sources and banding generation methods, and lack perceptual quality labels (i.e. mean opinion scores), we first build the largest banding IQA database so far, named Banding Artifact Noticeable Database (BAND-2k), which consists of 2,000 banding images generated by 15 compression and quantization schemes. A total of 23 workers participated in the subjective IQA experiment, yielding over 214,000 patch-level banding class labels and 44,371 reliable image-level quality ratings. Subsequently, we develop an effective no-reference (NR) banding evaluator for banding detection and quality assessment by leveraging frequency characteristics of banding artifacts. A dual convolutional neural network is employed to concurrently learn the feature representation from the high-frequency and low-frequency maps, thereby enhancing the ability to discern banding artifacts. The quality score of a banding image is generated by pooling the banding detection maps masked by the spatial frequency filters. Experiments demonstrate that our banding evaluator achieves a remarkably high accuracy in banding detection and also exhibits high SRCC and PLCC results with the perceptual quality labels. These findings unveil the strong correlations between the intensity of banding artifacts and the perceptual visual quality, thus validating the necessity of banding quality assessment.
翻訳日:2023-11-30 20:44:30 公開日:2023-11-29
# モデル圧縮によるフェデレーション学習における会員推論攻撃の対応

Addressing Membership Inference Attack in Federated Learning with Model Compression ( http://arxiv.org/abs/2311.17750v1 )

ライセンス: Link先を確認
Gergely D\'aniel N\'emeth, Miguel \'Angel Lozano, Novi Quadrianto, Nuria Oliver(参考訳) 機械学習のプライバシ保護ソリューションとしてフェデレートラーニング(FL)が提案されている。 しかし、近年の研究では、連合学習がメンバーシップアタックを通じてプライベートクライアントデータを漏洩できることが示されている。 本稿では,クライアントに対する攻撃の有効性を,クライアントデータセットのサイズやモデルの複雑さと負の相関性を示す。 そこで本研究では,モデルに依存しないフェデレーション学習をプライバシ強化ソリューションとして提案する。 この目的のために、我々は、クライアントのモデル圧縮を活用しながら、完全なモデルをサーバに保持する新しいプライバシ対応FLアプローチである$\texttt{MaPP-FL}$を提示した。 CIFAR-10, CIFAR-100, FEMNISTビジョンデータセット上での最先端モデルに依存しないFL法との比較を行った。 本実験は,クライアントのプライバシを保護する上での$\texttt{MaPP-FL}$の有効性を示した。

Federated Learning (FL) has been proposed as a privacy-preserving solution for machine learning. However, recent works have shown that Federated Learning can leak private client data through membership attacks. In this paper, we show that the effectiveness of these attacks on the clients negatively correlates with the size of the client datasets and model complexity. Based on this finding, we propose model-agnostic Federated Learning as a privacy-enhancing solution because it enables the use of models of varying complexity in the clients. To this end, we present $\texttt{MaPP-FL}$, a novel privacy-aware FL approach that leverages model compression on the clients while keeping a full model on the server. We compare the performance of $\texttt{MaPP-FL}$ against state-of-the-art model-agnostic FL methods on the CIFAR-10, CIFAR-100, and FEMNIST vision datasets. Our experiments show the effectiveness of $\texttt{MaPP-FL}$ in preserving the clients' and the server's privacy while achieving competitive classification accuracies.
翻訳日:2023-11-30 20:43:57 公開日:2023-11-29
# ジスプロシウムおよびエルビウム原子とアルカリ金属およびアルカリ土類-金属原子との相互作用に関するファンデルワールス係数

Van der Waals coefficients for interactions of dysprosium and erbium atoms with alkali-metal and alkaline-earth-metal atoms ( http://arxiv.org/abs/2311.17745v1 )

ライセンス: Link先を確認
Klaudia Zaremba-Kopczyk, Micha{\l} Tomza, Maxence Lepers(参考訳) 原子間相互作用の長距離部分は超低温気体の衝突ダイナミクスにおいて重要な役割を果たす。 本稿では,2つの最低エネルギー準位と基底状態アルカリ金属(li, na, k, rb, cs, fr)またはアルカリ土類金属(be, mg, ca, sr, ba)とのファンデルワールス相互作用を特徴とする等方性および異方性$c_6$係数の計算について報告する。 この計算は、2つの相互作用する原子のいわゆる虚数周波数における動的双極子偏光の積分を用いて行われる。 すべての原子対に対して、等方的な$C_6$係数は異方性係数よりも2~3桁大きいことが分かる。 これらの係数は、強磁性ジスプロシウムまたはエルビウム原子とアルカリ金属またはアルカリ土類金属原子を含むヘテロ核量子混合物の衝突特性のモデル化に必須である。

The long-range part of the interatomic interactions plays a substantial role in the collisional dynamics of ultracold gases. Here, we report on the calculation of the isotropic and anisotropic $C_6$ coefficients characterizing the van der Waals interaction between dysprosium or erbium atoms in the two lowest energy levels and the ground-state alkali-metal (Li, Na, K, Rb, Cs, Fr) or alkaline-earth-metal (Be, Mg, Ca, Sr, Ba) atoms. The calculations are done using the integral of dynamic dipole polarizabilities at so-called imaginary frequencies of the two interacting atoms. For all atom pairs, we find that the isotropic $C_6$ coefficients are two or three orders of magnitude larger than the anisotropic ones. Those coefficients are essential for modeling collisional properties of heteronuclear quantum mixtures containing highly magnetic dysprosium or erbium atoms and alkali-metal or alkaline-earth-metal atoms.
翻訳日:2023-11-30 20:43:39 公開日:2023-11-29
# 圧縮オートエンコーダを用いた変分ベイズ画像復元

Variational Bayes image restoration with compressive autoencoders ( http://arxiv.org/abs/2311.17744v1 )

ライセンス: Link先を確認
Maud Biquard, Marie Chabert and Thomas Oberlin(参考訳) 逆問題の正規化は、計算イメージングにおいて最重要となる。 効率的な画像表現を学習するニューラルネットワークの能力は、近年、強力なデータ駆動正規化器を設計するために活用されている。 最先端のプラグ・アンド・プレイ法はニューラルデノイザによって提供される暗黙の正規化に依存しているのに対し、代替ベイズ的手法は生成モデルの潜在空間における最大Aポストエリオーリ推定(MAP)を考える。 しかし、最先端の深層生成モデルはデノイザーに比べて膨大なトレーニングデータを必要とする。 さらに、その複雑さは潜在MAPの最適化を妨げている。 本研究では,遅延推定に圧縮オートエンコーダを用いることを提案する。 これらのネットワークは、フレキシブルな潜在能力を持つ可変オートエンコーダと見なすことができ、最先端の生成モデルよりも小さく、訓練が容易である。 次に、変分ベイズ潜時推定(VBLE)アルゴリズムを導入し、この推定を変分推論の枠組み内で行う。 これにより、高速で簡単な(ほぼ)後方サンプリングが可能となる。 画像データセット BSD と FFHQ の実験結果から、VBLE は最先端のプラグ・アンド・プレイ法と同等の性能を示し、既存の過去のサンプリング手法よりも高速に不確実性を定量化できる。

Regularization of inverse problems is of paramount importance in computational imaging. The ability of neural networks to learn efficient image representations has been recently exploited to design powerful data-driven regularizers. While state-of-the-art plug-and-play methods rely on an implicit regularization provided by neural denoisers, alternative Bayesian approaches consider Maximum A Posteriori (MAP) estimation in the latent space of a generative model, thus with an explicit regularization. However, state-of-the-art deep generative models require a huge amount of training data compared to denoisers. Besides, their complexity hampers the optimization of the latent MAP. In this work, we propose to use compressive autoencoders for latent estimation. These networks, which can be seen as variational autoencoders with a flexible latent prior, are smaller and easier to train than state-of-the-art generative models. We then introduce the Variational Bayes Latent Estimation (VBLE) algorithm, which performs this estimation within the framework of variational inference. This allows for fast and easy (approximate) posterior sampling. Experimental results on image datasets BSD and FFHQ demonstrate that VBLE reaches similar performance than state-of-the-art plug-and-play methods, while being able to quantify uncertainties faster than other existing posterior sampling techniques.
翻訳日:2023-11-30 20:43:15 公開日:2023-11-29
# Mukhyansh: インデックス言語のための見出し生成データセット

Mukhyansh: A Headline Generation Dataset for Indic Languages ( http://arxiv.org/abs/2311.17743v1 )

ライセンス: Link先を確認
Lokesh Madasu, Gopichand Kanumolu, Nirmal Surange, Manish Shrivastava(参考訳) 自然言語処理(NLP)分野における見出し生成の課題は、文章の内容の真の本質を簡潔で注意を喚起する要約に抽出しようとする試みとして、非常に重要である。 英語のような広く話されている言語の見出し生成には注目すべき進歩があるが、リッチで多様なインドの言語など、低リソース言語の見出しを生成するという点では、多くの課題が続いている。 インド語の見出し生成を阻害する顕著な障害は、高品質な注釈付きデータの不足である。 この重要なギャップに対処するため、インド語の見出し生成に適した多言語データセットであるMukhyanshを紹介します。 ムクヤンシュ語はテルグ語、タミル語、カンナダ語、マラヤラム語、ヒンディー語、ベンガル語、マラティ語、グジャラーティ語など8つの著名なインドの言語にまたがる。 本稿では,最先端のベースラインモデルの総合評価を行う。 さらに、既存の作品の実証分析を通じて、Mukhyanshが他のすべてのモデルより優れており、すべての8言語で平均的なROUGE-Lスコアが31.43であることを示す。

The task of headline generation within the realm of Natural Language Processing (NLP) holds immense significance, as it strives to distill the true essence of textual content into concise and attention-grabbing summaries. While noteworthy progress has been made in headline generation for widely spoken languages like English, there persist numerous challenges when it comes to generating headlines in low-resource languages, such as the rich and diverse Indian languages. A prominent obstacle that specifically hinders headline generation in Indian languages is the scarcity of high-quality annotated data. To address this crucial gap, we proudly present Mukhyansh, an extensive multilingual dataset, tailored for Indian language headline generation. Comprising an impressive collection of over 3.39 million article-headline pairs, Mukhyansh spans across eight prominent Indian languages, namely Telugu, Tamil, Kannada, Malayalam, Hindi, Bengali, Marathi, and Gujarati. We present a comprehensive evaluation of several state-of-the-art baseline models. Additionally, through an empirical analysis of existing works, we demonstrate that Mukhyansh outperforms all other models, achieving an impressive average ROUGE-L score of 31.43 across all 8 languages.
翻訳日:2023-11-30 20:42:49 公開日:2023-11-29
# 限られた量のリッチトレーニングデータを有するエンド・ツー・エンド継手および正規化asr

End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data ( http://arxiv.org/abs/2311.17741v1 )

ライセンス: Link先を確認
Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi (MULTISPEECH), Emmanuel Vincent (MULTISPEECH)(参考訳) 句読と大文字化を伴わずとも書き起こしを行う統合リッチ・正規化自動音声認識(asr)は依然として課題である。 エンド・ツー・エンド(E2E)のASRモデルは、このような音声の合成を行うための利便性と能力の両方を提供する。 このようなモデルのトレーニングには、ペア音声とリッチテキストデータが必要である。 本稿では,ストリーミングアプリケーションに適した,ステートレストランスデューサベースのE2Eジョイントリッチで正規化されたASRシステムを,限られたラベル付きデータでトレーニングするための2つのアプローチを比較する。 最初のアプローチでは、正規化されたトレーニングデータの擬似リッチな書き起こしを生成するために言語モデルを使用する。 第2のアプローチでは、出力の型に条件付き1つのデコーダを使用する。 最初のアプローチはE2EリッチなASRにつながり、ドメイン外のデータでは最大9%のエラーが減少する。 第2のアプローチは、中程度の(2.42%の絶対値)誤差の増加を伴う5%のリッチトレーニングデータを用いたe2e結合および正規化asrシステムの実現可能性を示す。

Joint rich and normalized automatic speech recognition (ASR), that produces transcriptions both with and without punctuation and capitalization, remains a challenge. End-to-end (E2E) ASR models offer both convenience and the ability to perform such joint transcription of speech. Training such models requires paired speech and rich text data, which is not widely available. In this paper, we compare two different approaches to train a stateless Transducer-based E2E joint rich and normalized ASR system, ready for streaming applications, with a limited amount of rich labeled data. The first approach uses a language model to generate pseudo-rich transcriptions of normalized training data. The second approach uses a single decoder conditioned on the type of the output. The first approach leads to E2E rich ASR which perform better on out-of-domain data, with up to 9% relative reduction in errors. The second approach demonstrates the feasibility of an E2E joint rich and normalized ASR system using as low as 5% rich training data with moderate (2.42% absolute) increase in errors.
翻訳日:2023-11-30 20:42:25 公開日:2023-11-29
# 肝癌からのデジタル組織学的スライス分類のためのトランスダクティブ・数ショット学習法

A transductive few-shot learning approach for classification of digital histopathological slides from liver cancer ( http://arxiv.org/abs/2311.17740v1 )

ライセンス: Link先を確認
Aymen Sadraoui (OPIS, CVN), S\'egol\`ene Martin (OPIS, CVN), Eliott Barbot (OPIS, CVN), Astrid Laurent-Bellue, Jean-Christophe Pesquet (OPIS, CVN), Catherine Guettier, Ismail Ben Ayed (ETS)(参考訳) 本稿では,2次元病理組織学的パッチの分類法を提案する。 この方法は、ラベル付きデータの限られた可用性である病理学における重要な課題に取り組むように設計されている。 病理組織学スライドにスライディングウインドウ手法を適用することで,トランスダクティブ学習(パッチによる共同予測)の実用的メリットを,一貫性と正確な分類を実現するために示す。 提案手法は,各ウィンドウ内の多数の異なるクラスの予測を積極的にペナルティ化する最適化ベースの戦略である。 肝癌, 特に肝細胞癌のデジタルスライドにおける組織クラス分類のための病理組織学的データの実験を行った。 以上より,本手法の有効性と,がんの診断と治療のプロセスを強化する可能性を示すとともに,専門家の注記に要する時間と労力を削減した。

This paper presents a new approach for classifying 2D histopathology patches using few-shot learning. The method is designed to tackle a significant challenge in histopathology, which is the limited availability of labeled data. By applying a sliding window technique to histopathology slides, we illustrate the practical benefits of transductive learning (i.e., making joint predictions on patches) to achieve consistent and accurate classification. Our approach involves an optimization-based strategy that actively penalizes the prediction of a large number of distinct classes within each window. We conducted experiments on histopathological data to classify tissue classes in digital slides of liver cancer, specifically hepatocellular carcinoma. The initial results show the effectiveness of our method and its potential to enhance the process of automated cancer diagnosis and treatment, all while reducing the time and effort required for expert annotation.
翻訳日:2023-11-30 20:42:04 公開日:2023-11-29
# 拡散誘導による画像分類器の解析と説明

Analyzing and Explaining Image Classifiers via Diffusion Guidance ( http://arxiv.org/abs/2311.17833v1 )

ライセンス: Link先を確認
Maximilian Augustin, Yannic Neuhaus, Matthias Hein(参考訳) ディープラーニングはImageNetのような複雑な画像分類タスクに大きな進歩をもたらしたが、予期せぬ障害モード、例えばスプリケーション機能を通じて、これらの分類器が野生でいかに確実に機能するかを疑問視する。 さらに、安全クリティカルなタスクでは、彼らの決定のブラックボックスの性質が問題となり、決定を正当化するための説明や方法が緊急に必要となる。 本稿では,誘導画像生成のためのフレームワークを用いて,分類器由来の目的を最適化する画像を生成することで,これらの問題に対処する。 画像分類器の行動と判断を視覚相反的説明(vces)による分析,分類器が最大に不一致となる画像の解析,ニューロンの可視化などにより系統的誤りの検出を行い,潜在的に有意な特徴を検証した。 この方法で、例えば、敵対的ロバストなモデルの形状バイアスや、ゼロショットクリップ分類器の系統的誤り、有害なスプリアス特徴の特定といった新しい失敗モードなど、既存の観察を検証する。 さらに、VCEは、より汎用性の高い以前の作業よりも優れています。

While deep learning has led to huge progress in complex image classification tasks like ImageNet, unexpected failure modes, e.g. via spurious features, call into question how reliably these classifiers work in the wild. Furthermore, for safety-critical tasks the black-box nature of their decisions is problematic, and explanations or at least methods which make decisions plausible are needed urgently. In this paper, we address these problems by generating images that optimize a classifier-derived objective using a framework for guided image generation. We analyze the behavior and decisions of image classifiers by visual counterfactual explanations (VCEs), detection of systematic mistakes by analyzing images where classifiers maximally disagree, and visualization of neurons to verify potential spurious features. In this way, we validate existing observations, e.g. the shape bias of adversarially robust models, as well as novel failure modes, e.g. systematic errors of zero-shot CLIP classifiers, or identify harmful spurious features. Moreover, our VCEs outperform previous work while being more versatile.
翻訳日:2023-11-30 20:35:25 公開日:2023-11-29
# 高齢ドライバの軌道データにおける異常行動検出

Anomalous Behavior Detection in Trajectory Data of Older Drivers ( http://arxiv.org/abs/2311.17822v1 )

ライセンス: Link先を確認
Seyedeh Gol Ara Ghoreishi, Sonia Moshfeghi, Muhammad Tanveer Jan, Joshua Conniff, KwangSoo Yang, Jinwoo Jang, Borko Furht, Ruth Tappen, David Newman, Monica Rosselli, Jiannan Zhai(参考訳) 道路ネットワークと軌道データのセットが与えられた場合、異常な行動検出(ABD)問題は、旅行中に大きな方向ずれ、ハードブレーキ、加速度を示すドライバーを特定することである。 ABD問題は、マイルド認知障害(MCI)の検出や、高齢者ドライバーのための安全なルートレコメンデーションなど、多くの社会的応用において重要である。 ABD問題は、時間的詳細トラジェクトリデータセットが大きいため、計算的に困難である。 本稿では、時間的詳細トラジェクトリデータセットの重要な特性を表現し、異常運転行動を特定するエッジ属性行列を提案する。 実世界のデータセットを用いた実験により,運転異常を識別する手法が示された。

Given a road network and a set of trajectory data, the anomalous behavior detection (ABD) problem is to identify drivers that show significant directional deviations, hardbrakings, and accelerations in their trips. The ABD problem is important in many societal applications, including Mild Cognitive Impairment (MCI) detection and safe route recommendations for older drivers. The ABD problem is computationally challenging due to the large size of temporally-detailed trajectories dataset. In this paper, we propose an Edge-Attributed Matrix that can represent the key properties of temporally-detailed trajectory datasets and identify abnormal driving behaviors. Experiments using real-world datasets demonstrated that our approach identifies abnormal driving behaviors.
翻訳日:2023-11-30 20:34:52 公開日:2023-11-29
# 異種アーキテクチャにおけるディープラーニングの高速化のための設計方法論に関する研究

A Survey on Design Methodologies for Accelerating Deep Learning on Heterogeneous Architectures ( http://arxiv.org/abs/2311.17815v1 )

ライセンス: Link先を確認
Fabrizio Ferrandi, Serena Curzel, Leandro Fiorin, Daniele Ielmini, Cristina Silvano, Francesco Conti, Alessio Burrello, Francesco Barchi, Luca Benini, Luciano Lavagno, Teodoro Urso, Enrico Calore, Sebastiano Fabio Schifano, Cristian Zambelli, Maurizio Palesi, Giuseppe Ascia, Enrico Russo, Nicola Petra, Davide De Caro, Gennaro Di Meo, Valeria Cardellini, Salvatore Filippone, Francesco Lo Presti, Francesco Silvestri, Paolo Palazzari and Stefania Perri(参考訳) 近年、Deep Learningの分野は多くの破壊的で影響力のある進歩が見られる。 ディープニューラルネットワークの複雑さが増大する中、効率的なハードウェアアクセラレーターの必要性がますます強まり、異種HPCプラットフォームを設計するようになった。 ディープラーニングアクセラレータの設計には、コンピュータアーキテクチャから近似計算、計算モデル、機械学習アルゴリズムまで、いくつかの分野の専門知識を組み合わせた、多分野のアプローチが必要である。 ハードウェアソフトウェアの共同設計アプローチ、ハイレベルな合成手法、特定のカスタマイズされたコンパイラ、設計空間の探索、モデリング、シミュレーションのための方法論など、ディープラーニングのためのアクセラレータを設計するための方法論やツールが提案されている。 これらの手法は、利用可能な並列性を最大化し、データ移動を最小化し、高い性能とエネルギー効率を達成することを目的としている。 この調査は、ディープラーニングアクセラレータを実装するために近年提案された最も影響力のある設計方法論とedaツールの全体的レビューを提供し、この急速に発展する分野において、読者に幅広い視点を提供する。 特に、この研究は、異種HPCプラットフォーム向けのDeep Learningハードウェアアクセラレータに焦点を当てた[203]で、同じ著者が提案した以前の調査を補完するものだ。

In recent years, the field of Deep Learning has seen many disruptive and impactful advancements. Given the increasing complexity of deep neural networks, the need for efficient hardware accelerators has become more and more pressing to design heterogeneous HPC platforms. The design of Deep Learning accelerators requires a multidisciplinary approach, combining expertise from several areas, spanning from computer architecture to approximate computing, computational models, and machine learning algorithms. Several methodologies and tools have been proposed to design accelerators for Deep Learning, including hardware-software co-design approaches, high-level synthesis methods, specific customized compilers, and methodologies for design space exploration, modeling, and simulation. These methodologies aim to maximize the exploitable parallelism and minimize data movement to achieve high performance and energy efficiency. This survey provides a holistic review of the most influential design methodologies and EDA tools proposed in recent years to implement Deep Learning accelerators, offering the reader a wide perspective in this rapidly evolving field. In particular, this work complements the previous survey proposed by the same authors in [203], which focuses on Deep Learning hardware accelerators for heterogeneous HPC platforms.
翻訳日:2023-11-30 20:34:07 公開日:2023-11-29
# 高階ディスコキャット(peirce-lambek-montague semantics)

Higher-Order DisCoCat (Peirce-Lambek-Montague semantics) ( http://arxiv.org/abs/2311.17813v1 )

ライセンス: Link先を確認
Alexis Toumi and Giovanni de Felice(参考訳) 本稿では,単語の意味が図式ではなく,図式で評価された高階関数である高階DisCoCat(カテゴリー構成分布)モデルについて,新しい定義を提案する。 我々のモデルは、プリミティブが論理式ではなく文字列ダイアグラムに作用するラムダ計算に基づくモンタギュー意味論の変種と見なすことができる。 特別な場合として、ランベック計算から一階述語論理に対するパースのシステムベータへの変換方法を示す。 これにより、自然言語意味論(副詞、前置詞、否定詞、量化詞)において、高次および非線形のプロセスを純粋に図式的に扱うことができる。 本記事で示した理論的定義は、文字列ダイアグラム用のpythonライブラリであるdiscopyの概念実証実装に付属する。

We propose a new definition of higher-order DisCoCat (categorical compositional distributional) models where the meaning of a word is not a diagram, but a diagram-valued higher-order function. Our models can be seen as a variant of Montague semantics based on a lambda calculus where the primitives act on string diagrams rather than logical formulae. As a special case, we show how to translate from the Lambek calculus into Peirce's system beta for first-order logic. This allows us to give a purely diagrammatic treatment of higher-order and non-linear processes in natural language semantics: adverbs, prepositions, negation and quantifiers. The theoretical definition presented in this article comes with a proof-of-concept implementation in DisCoPy, the Python library for string diagrams.
翻訳日:2023-11-30 20:33:15 公開日:2023-11-29
# DAP:視覚・言語ナビゲーションのためのドメイン認識型プロンプト学習

DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2311.17812v1 )

ライセンス: Link先を確認
Ting Liu, Yue Hu, Wansen Wu, Youkai Wang, Kai Xu, Quanjun Yin(参考訳) 未知の環境をナビゲートするための言語指示に従うことは、自律型実施エージェントにとって困難なタスクである。 強力な表現能力により、事前訓練された視覚・言語モデルはVLNで広く使われている。 しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。 そこで本研究では,新しいモデルに依存しないdap(domain-aware prompt learning)フレームワークを提案する。 VLNタスクにおいて、事前訓練されたモデルに特定のオブジェクトレベルとシーンレベルのクロスモーダルアライメントを持たせるために、DAPは低コストのプロンプトチューニングパラダイムを適用し、ドメイン内の画像セマンティクスを抽出するためのソフトな視覚的プロンプトを学習する。 具体的には、CLIPモデルの助けを借りて、まずドメイン内の画像とテキストのペアを生成する。 次に,事前学習モデルにおいて,視覚エンコーダの入力空間にソフトビジュアルプロンプトを導入する。 DAPは、訓練済みモデルの視覚エンコーダにドメイン内の視覚知識を効率的に注入する。 R2RとREVERIEの両方の実験結果は、既存の最先端手法と比較してDAPの優位性を示している。

Following language instructions to navigate in unseen environments is a challenging task for autonomous embodied agents. With strong representation capabilities, pretrained vision-and-language models are widely used in VLN. However, most of them are trained on web-crawled general-purpose datasets, which incurs a considerable domain gap when used for VLN tasks. To address the problem, we propose a novel and model-agnostic domain-aware prompt learning (DAP) framework. For equipping the pretrained models with specific object-level and scene-level cross-modal alignment in VLN tasks, DAP applies a low-cost prompt tuning paradigm to learn soft visual prompts for extracting in-domain image semantics. Specifically, we first generate a set of in-domain image-text pairs with the help of the CLIP model. Then we introduce soft visual prompts in the input space of the visual encoder in a pretrained model. DAP injects in-domain visual knowledge into the visual encoder of the pretrained model in an efficient way. Experimental results on both R2R and REVERIE show the superiority of DAP compared to existing state-of-the-art methods.
翻訳日:2023-11-30 20:33:00 公開日:2023-11-29
# 過去の色づけ: 歴史的建造物の古写真からの復元

Coloring the Past: Neural Historical Buildings Reconstruction from Archival Photography ( http://arxiv.org/abs/2311.17810v1 )

ライセンス: Link先を確認
David Komorowicz and Lu Sang and Ferdinand Maiwald and Daniel Cremers(参考訳) 歴史的建造物は人類の文化遺産の宝物である。 これらの建物の3dモデルの構築には大きな価値がある。 ニューラルレンダリング手法の急速な発展により、アーカイブ写真のみに基づいて3次元形状の復元が可能となった。 しかし、このようなデータセットの制限により、このタスクにはかなりの課題が生じる。 歴史的写真はしばしば数に制限があり、これらの写真のシーンは時間とともに変化した可能性がある。 これらの画像のラジオメトリック品質は、しばしば準最適である。 これらの課題に対処するために, ボリュームレンダリング技術を用いて, 歴史的建築物の形状を再構築する手法を提案する。 我々は,濃密な点雲を幾何学的先行として活用し,限られた色彩画像から建物の色を復元するために色覚埋め込み損失を導入する。 我々は、歴史的建造物の保存に注目し、関心を増すことを目指しています。 そこで我々は,ハンガリー国立劇場の新たな歴史的データセットを導入し,再建手法の新たなベンチマークを提供する。

Historical buildings are a treasure and milestone of human cultural heritage. Reconstructing the 3D models of these building hold significant value. The rapid development of neural rendering methods makes it possible to recover the 3D shape only based on archival photographs. However, this task presents considerable challenges due to the limitations of such datasets. Historical photographs are often limited in number and the scenes in these photos might have altered over time. The radiometric quality of these images is also often sub-optimal. To address these challenges, we introduce an approach to reconstruct the geometry of historical buildings, employing volumetric rendering techniques. We leverage dense point clouds as a geometric prior and introduce a color appearance embedding loss to recover the color of the building given limited available color images. We aim for our work to spark increased interest and focus on preserving historical buildings. Thus, we also introduce a new historical dataset of the Hungarian National Theater, providing a new benchmark for the reconstruction method.
翻訳日:2023-11-30 20:32:40 公開日:2023-11-29
# 非線形ダブルコンプトン散乱による絡み合ったX線の生成

Production of Entangled X-rays through Nonlinear Double Compton Scattering ( http://arxiv.org/abs/2311.17807v1 )

ライセンス: Link先を確認
T. D. C. de Vos, J. J. Postema, B. H. Schaap, A. Di Piazza and O. J. Luiten(参考訳) 高エネルギー量子光学の分野では、エンタングルx線の発生源が不可欠である。 本稿では、強磁場qedの枠組みを用いて、強レーザー波(非線形二重コンプトン散乱)中の電子から放出される2つの光子の絡み合いと偏光に関する詳細な解析を行う。 2つの光子のうち、オンシェルまたはオフシェルである電子から生じる放出確率への寄与を同定することにより、偏光測定によりオンシェルチャネルを介して放出されるものと区別できるオフシェル寄与により、絡み合った光子が生成されることを示す。 また,エンタングルメントを説明するための直感的な図を示し,エンタングルx線を生成・分離する実験を提案する。

An accessible source for the production of entangled x-rays is crucial for the field of high-energy quantum optics. Here, we present a detailed analysis of the entanglement and polarisation of the two photons emitted by an electron in an intense laser wave (nonlinear double Compton scattering), by working within the framework of strong-field QED. By identifying a contribution to the emission probability stemming from the electron being on-shell or off-shell between the two photons emissions, we show that the entangled photons are generated via the off-shell contribution, which can be distinguished from those emitted via the on-shell channel by a polarisation measurement. We also provide an intuitive picture to explain the entanglement and propose an experiment to produce and isolate entangled x-rays.
翻訳日:2023-11-30 20:32:27 公開日:2023-11-29
# デジタル病理における凝集モデルハイパーパラメータ

Aggregation Model Hyperparameters Matter in Digital Pathology ( http://arxiv.org/abs/2311.17804v1 )

ライセンス: Link先を確認
Gustav Bredell, Marcel Fischer, Przemyslaw Szostak, Samaneh Abbasi-Sureshjani, Alvaro Gomariz(参考訳) デジタル病理学は、ギガピクセル全スライディング画像(WSI)の解析を通じて、疾患の検出と病理学の効率を大幅に向上させた。 このプロセスでは、まずWSIをパッチに分割し、特徴抽出モデルを適用して特徴ベクトルを取得し、その後集約モデルで処理して各WSIラベルを予測する。 表現学習の急速な進化に伴い、多くの新しい特徴抽出モデル(しばしば基礎モデルと呼ばれる)が出現した。 しかし、従来の評価手法は固定集約モデルハイパーパラメータに依存しており、このフレームワークは結果にバイアスを与える可能性があると認識している。 本研究は,特徴抽出器モデルと集約モデルハイパーパラメータの相互依存性を明らかにし,選択したハイパーパラメータに基づいて,性能の相違性を示す。 この共依存性を考慮すると、現在の多くの特徴抽出モデルの性能が顕著に類似していることが分かる。 162のアグリゲーションモデル構成を持つ3つのデータセットにまたがる7つの特徴抽出モデルを評価することで、この洞察を支援する。 この包括的アプローチは、特徴抽出器と集約モデルの関係をより微妙に理解し、デジタル病理学における特徴抽出器モデルをより公平かつ正確に評価する。

Digital pathology has significantly advanced disease detection and pathologist efficiency through the analysis of gigapixel whole-slide images (WSI). In this process, WSIs are first divided into patches, for which a feature extractor model is applied to obtain feature vectors, which are subsequently processed by an aggregation model to predict the respective WSI label. With the rapid evolution of representation learning, numerous new feature extractor models, often termed foundational models, have emerged. Traditional evaluation methods, however, rely on fixed aggregation model hyperparameters, a framework we identify as potentially biasing the results. Our study uncovers a co-dependence between feature extractor models and aggregation model hyperparameters, indicating that performance comparability can be skewed based on the chosen hyperparameters. By accounting for this co-dependency, we find that the performance of many current feature extractor models is notably similar. We support this insight by evaluating seven feature extractor models across three different datasets with 162 different aggregation model configurations. This comprehensive approach provides a more nuanced understanding of the relationship between feature extractors and aggregation models, leading to a fairer and more accurate assessment of feature extractor models in digital pathology.
翻訳日:2023-11-30 20:32:12 公開日:2023-11-29
# フォトニクスを用いた高効率超次元計算を目指して

Towards Efficient Hyperdimensional Computing Using Photonics ( http://arxiv.org/abs/2311.17801v1 )

ライセンス: Link先を確認
Farbin Fayza, Cansu Demirkiran, Hanning Chen, Che-Kai Liu, Avi Mohan, Hamza Errahmouni, Sanggeon Yun, Mohsen Imani, David Zhang, Darius Bunandar, Ajay Joshi(参考訳) ここ数年、シリコンフォトニクスベースのコンピューティングは、Deep Neural Networks(DNN)のCMOSベースのコンピューティングに代わる有望な選択肢として現れてきた。 残念なことに、非線形演算とDNNの高精度要求により、DNN推論とトレーニングのための効率的なシリコンフォトニクスベースのシステムを設計するのは極めて困難である。 超次元コンピューティング(HDC)は、頭脳にインスパイアされた機械学習技術であり、軽量で、低精度のオペランドを必要とし、ハードウェアの非理想性によって導入されたノイズに対して堅牢であるなど、既存のDNNよりもいくつかの利点がある。 HDCでは、オペランドがメモリに収まる場合、CiMがデータ転送コストを削減するため、インメモリ(CiM)アプローチが広く使われている。 しかし、非効率なマルチビット演算、高書き込みレイテンシ、低耐久性により、CiMはHDCに不適である。 一方、既存の電子フォトニックDNN加速器は、DNNの行列乗算に特別に最適化され、高精度なデータ変換器で多くの電力を消費するため、HDCでは非効率である。 本稿では,フォトニックコンピューティングとHDCが,フォトニックコンピューティングとDNN,あるいはCiMとHDCとを補完するものであることを論じる。 本稿では,hdcトレーニングと推論のための最初の電子フォトアクセラレーションであるphotohdcを提案し,基本,レコードベース,グラフエンコーディングをサポートする。 一般的なデータセットを用いて評価した結果,HDCのトレーニングと推論を行うための最先端の電子フォトニックDNNアクセラレータよりも2~5桁のEDPを達成できることが判明した。 PhotoHDCはまた、CiMベースの加速器よりも4桁低いエネルギー遅延生成をHDCトレーニングと推論の両方で達成している。

Over the past few years, silicon photonics-based computing has emerged as a promising alternative to CMOS-based computing for Deep Neural Networks (DNN). Unfortunately, the non-linear operations and the high-precision requirements of DNNs make it extremely challenging to design efficient silicon photonics-based systems for DNN inference and training. Hyperdimensional Computing (HDC) is an emerging, brain-inspired machine learning technique that enjoys several advantages over existing DNNs, including being lightweight, requiring low-precision operands, and being robust to noise introduced by the nonidealities in the hardware. For HDC, computing in-memory (CiM) approaches have been widely used, as CiM reduces the data transfer cost if the operands can fit into the memory. However, inefficient multi-bit operations, high write latency, and low endurance make CiM ill-suited for HDC. On the other hand, the existing electro-photonic DNN accelerators are inefficient for HDC because they are specifically optimized for matrix multiplication in DNNs and consume a lot of power with high-precision data converters. In this paper, we argue that photonic computing and HDC complement each other better than photonic computing and DNNs, or CiM and HDC. We propose PhotoHDC, the first-ever electro-photonic accelerator for HDC training and inference, supporting the basic, record-based, and graph encoding schemes. Evaluating with popular datasets, we show that our accelerator can achieve two to five orders of magnitude lower EDP than the state-of-the-art electro-photonic DNN accelerators for implementing HDC training and inference. PhotoHDC also achieves four orders of magnitude lower energy-delay product than CiM-based accelerators for both HDC training and inference.
翻訳日:2023-11-30 20:31:51 公開日:2023-11-29
# ボルンマシンの適応回路学習:振幅埋め込みとデータ読み込みの実現に向けて

Adaptive Circuit Learning of Born Machine: Towards Realization of Amplitude Embedding and Data Loading ( http://arxiv.org/abs/2311.17798v1 )

ライセンス: Link先を確認
Chun-Tse Li, Hao-Chung Cheng(参考訳) 近年の量子アルゴリズムの進歩により、既存の文献の多くは古典的手法に対する指数関数的量子優位性を主張している。 しかし、これらの成功の多くは、任意の状態が量子回路で効率的に準備できるという仮定にかかっている。 実際には、一般的なn$-量子ビット量子状態を作成する回路を作成するには、$\mathcal{o}(2^n)$の順序で演算数を要求する。 データローディングの問題に対処するため、多くの戦略が進められている。 それにもかかわらず、これらのアプローチのほとんどは、非常に単純で実装が容易な回路構造しか考慮していない。 本研究では,量子回路を生まれた機械として確率分布を生成する。 量子化学および凝縮物質の物理学における電子構造を調べる手法から着想を得て,アンサッツ回路を動的に拡張する新しいアルゴリズム "adaptive circuit learning of born machine" (aclbm) を提案する。 このアルゴリズムは、2量子ビットのエンタングルゲートを選択的に統合し、ターゲット状態に存在する複雑なエンタングルメントを最もよくキャプチャする。 実験結果は、振幅埋め込みによる実世界のデータをエンコーディングする手法の習熟度を強調し、従来の研究で設定したパフォーマンスベンチマークを遵守するだけでなく、強化することを示す。

With the progress in the quantum algorithm in recent years, much of the existing literature claims the exponential quantum advantage against their classical counterpart. However, many of these successes hinge on the assumption that arbitrary states can be efficiently prepared in quantum circuits. In reality, crafting a circuit to prepare a generic $n$-qubit quantum state demands an operation count on the order of $\mathcal{O}(2^n)$, which is prohibitively demanding for the quantum algorithm to demonstrate its advantage against the classical one. To tackle this data-loading problem, numerous strategies have been put forward. Nonetheless, most of these approaches only consider a very simple and easy-to-implement circuit structure, which has been shown to suffer from serious optimization issues. In this study, we harness quantum circuits as Born machines to generate probability distributions. Drawing inspiration from methods used to investigate electronic structures in quantum chemistry and condensed matter physics, we present a novel algorithm "Adaptive Circuit Learning of Born Machine" (ACLBM) that dynamically expands the ansatz circuit. Our algorithm is tailored to selectively integrate two-qubit entangled gates that best capture the complex entanglement present within the target state. Empirical results underscore the proficiency of our approach in encoding real-world data through amplitude embedding, demonstrating not only compliance with but also enhancement over the performance benchmarks set by previous research.
翻訳日:2023-11-30 20:31:13 公開日:2023-11-29
# シミュレーションの学習: 質的回帰による生成的メタモデリング

Learning to Simulate: Generative Metamodeling via Quantile Regression ( http://arxiv.org/abs/2311.17797v1 )

ライセンス: Link先を確認
L. Jeff Hong and Yanxi Hou and Qingkai Zhang and Xiaowei Zhang(参考訳) 確率的シミュレーションモデルは複雑なシステムのダイナミクスを捉えるのに効果的であるが、多くの場合、リアルタイムな意思決定には動作が遅すぎる。 メタモデリング技術は、アウトプットの要約統計(例えば、平均または分位数)とシミュレータの入力の関係を学習するために広く使われ、リアルタイムに使用できる。 しかし、この方法論は事前に適切な要約統計学の知識を必要とするため、多くの現実的な状況において柔軟性がない。 本稿では,「シミュレータの高速シミュレータ」を構築することを目的とした,生成メタモデリングと呼ばれる新しいメタモデリング概念を提案する。 この手法は、同じ入力に対してほぼ等しい条件分布を保ちながら、元のシミュレーションモデルよりも大幅に高速にランダム出力を生成することができる。 一度構築すると、生成メタモデルは入力が特定されるとすぐに大量のランダム出力を瞬時に生成できるので、リアルタイムな意思決定のための要約統計の即時計算が容易になる。 さらに,QRGMM(quantile-regression-based generative metamodeling)という新しいアルゴリズムを提案し,その収束率と収束率について検討する。 QRGMMの実証実験を行い、他の最先端生成アルゴリズムと比較し、実際のリアルタイム意思決定においてその有用性を実証する。

Stochastic simulation models, while effective in capturing the dynamics of complex systems, are often too slow to run for real-time decision-making. Metamodeling techniques are widely used to learn the relationship between a summary statistic of the outputs (e.g., the mean or quantile) and the inputs of the simulator, so that it can be used in real time. However, this methodology requires the knowledge of an appropriate summary statistic in advance, making it inflexible for many practical situations. In this paper, we propose a new metamodeling concept, called generative metamodeling, which aims to construct a "fast simulator of the simulator". This technique can generate random outputs substantially faster than the original simulation model, while retaining an approximately equal conditional distribution given the same inputs. Once constructed, a generative metamodel can instantaneously generate a large amount of random outputs as soon as the inputs are specified, thereby facilitating the immediate computation of any summary statistic for real-time decision-making. Furthermore, we propose a new algorithm -- quantile-regression-based generative metamodeling (QRGMM) -- and study its convergence and rate of convergence. Extensive numerical experiments are conducted to investigate the empirical performance of QRGMM, compare it with other state-of-the-art generative algorithms, and demonstrate its usefulness in practical real-time decision-making.
翻訳日:2023-11-30 20:30:50 公開日:2023-11-29
# 辺縁ラプラシアンスコア

Marginal Laplacian Score ( http://arxiv.org/abs/2311.17795v1 )

ライセンス: Link先を確認
Guy Hay and Ohad Volk(参考訳) 高次元の不均衡データは機械学習に挑戦する。 十分なラベルや高品質のラベルがない場合、教師なしの機能選択手法はその後のアルゴリズムの成功に不可欠である。 そのため,不均衡データに着目した教師なし特徴選択アルゴリズムの必要性が高まっている。 そこで我々は,有名なラプラシアンスコア (LS) の修正版であるMarginal Laplacian Score (MLS) を提案する。 マイノリティクラスや異常が特徴の限界で頻繁に現れるという仮定を導入する。 したがって、MLSはデータセットのマージンの局所的な構造を維持することを目的としている。 MLSは不均衡なデータを扱うのに適しているため、ラプラシアンスコアを利用した最新の特徴選択手法への統合を提案する。 我々は、MLSアルゴリズムを微分不可能な特徴選択(DUFS)に統合し、DUFS-MLSを生成する。 提案手法は,合成および公開データセット上での堅牢かつ優れた性能を示す。

High-dimensional imbalanced data poses a machine learning challenge. In the absence of sufficient or high-quality labels, unsupervised feature selection methods are crucial for the success of subsequent algorithms. Therefore, there is a growing need for unsupervised feature selection algorithms focused on imbalanced data. Thus, we propose a Marginal Laplacian Score (MLS) a modification of the well-known Laplacian Score (LS) to be better suited for imbalance data. We introduce an assumption that the minority class or anomalous appear more frequently in the margin of the features. Consequently, MLS aims to preserve the local structure of the data set's margin. As MLS is better suited for handling imbalanced data, we propose its integration into modern feature selection methods that utilize the Laplacian score. We integrate the MLS algorithm into the Differentiable Unsupervised Feature Selection (DUFS), resulting in DUFS-MLS. The proposed methods demonstrate robust and improved performance on synthetic and public data sets.
翻訳日:2023-11-30 20:30:26 公開日:2023-11-29
# U-Net v2:医療画像分割のためのU-Netのスキップ接続再考

U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2311.17791v1 )

ライセンス: Link先を確認
Yaopeng Peng, Milan Sonka, Danny Z. Chen(参考訳) 本稿では,医用画像分割のための新しい堅牢で効率的なU-Net変種であるU-Net v2を紹介する。 セマンティック情報の低レベル機能への注入を強化すると同時に、より詳細な高レベル機能を改善することを目的としている。 入力画像は、ディープニューラルネットワークエンコーダを用いて複数レベルの特徴を抽出することから始める。 次に,高レベル機能からの意味情報を入力し,低レベル機能からの詳細情報をhadaard製品を通じて統合することで,各レベルの機能マップを強化する。 我々の新しいスキップ接続は、豊富なセマンティック特性と複雑な詳細を持つ全てのレベルの特徴を高める。 改良された機能はその後デコーダに送信され、さらなる処理とセグメンテーションが行われる。 本手法は任意のEncoder-Decoderネットワークにシームレスに統合できる。 本手法は皮膚病変のセグメンテーションとポリープのセグメンテーションのためのいくつかの公開医用画像セグメンテーションデータセットを用いて評価し, メモリと計算効率を保ちながら, 最新手法に対する新しい手法のセグメンテーション精度を実証した。 コードは、https://github.com/yaoppeng/U-Net\_v2で入手できる。

In this paper, we introduce U-Net v2, a new robust and efficient U-Net variant for medical image segmentation. It aims to augment the infusion of semantic information into low-level features while simultaneously refining high-level features with finer details. For an input image, we begin by extracting multi-level features with a deep neural network encoder. Next, we enhance the feature map of each level by infusing semantic information from higher-level features and integrating finer details from lower-level features through Hadamard product. Our novel skip connections empower features of all the levels with enriched semantic characteristics and intricate details. The improved features are subsequently transmitted to the decoder for further processing and segmentation. Our method can be seamlessly integrated into any Encoder-Decoder network. We evaluate our method on several public medical image segmentation datasets for skin lesion segmentation and polyp segmentation, and the experimental results demonstrate the segmentation accuracy of our new method over state-of-the-art methods, while preserving memory and computational efficiency. Code is available at: https://github.com/yaoppeng/U-Net\_v2
翻訳日:2023-11-30 20:30:13 公開日:2023-11-29
# 仮想現実における協調型ソフトウェア設計とモデリング

Collaborative software design and modeling in virtual reality ( http://arxiv.org/abs/2311.17787v1 )

ライセンス: Link先を確認
Martin Stancek, Ivan Polasek, Tibor Zalabai, Juraj Vincur, Rodi Jolak, Michel Chaudron(参考訳) コンテキスト: ソフトウェアエンジニアリングはますます分散化しています。 開発者や他の利害関係者は、しばしば異なる場所、部門、国に配置され、異なるタイムゾーンで活動する。 ほとんどのオンラインソフトウェア設計およびモデリングツールは、効果的なコミュニケーションのための認識と機能の欠如をサポートしていないため、分散コラボレーションには適していない。 目的:本研究の目的は,VR(Virtual Reality)における分散ソフトウェア設計活動を支援することである。 方法: デザイン科学研究方法論を用いて,vrにおける協調設計ツールの設計と評価を行う。 非VRソフトウェア設計環境と比較して,VRソフトウェア設計環境を用いた場合のコラボレーション効率と設計情報のリコールを評価した。 さらに,vrソフトウェア設計環境を用いて生じる機会や課題を探求するために,ユーザの知覚や嗜好を収集する。 結果: 非VR環境と比較して,VRを用いた場合, 設計情報の効率やリコールに有意な差は認められなかった。 さらに、開発者はvrでのコラボレーションにもっと満足しています。 結論:vrでの作業は、標準的なデスクトップで作業するよりもまだ速くも効率も良いという研究結果が得られました。 第1と第2の評価結果の相違によって確認されたように、vrのインターフェース(触覚、キーボード、音声入力によるジェスチャ)を改善することが非常に重要である。

Context: Software engineering is becoming more and more distributed. Developers and other stakeholders are often located in different locations, departments, and countries and operating within different time zones. Most online software design and modeling tools are not adequate for distributed collaboration since they do not support awareness and lack features for effective communication. Objective: The aim of our research is to support distributed software design activities in Virtual Reality (VR). Method: Using design science research methodology, we design and evaluate a tool for collaborative design in VR. We evaluate the collaboration efficiency and recall of design information when using the VR software design environment compared to a non-VR software design environment. Moreover, we collect the perceptions and preferences of users to explore the opportunities and challenges that were incurred by using the VR software design environment. Results: We find that there is no significant difference in the efficiency and recall of design information when using the VR compared to the non-VR environment. Furthermore, we find that developers are more satisfied with collaboration in VR. Conclusion: The results of our research and similar studies show that working in VR is not yet faster or more efficient than working on standard desktops. It is very important to improve the interface in VR (gestures with haptics, keyboard and voice input), as confirmed by the difference in results between the first and second evaluation.
翻訳日:2023-11-30 20:29:53 公開日:2023-11-29
# DSS:データ拡張、スタイルエンコーディング、分割生成による長いデジタルインクの合成

DSS: Synthesizing long Digital Ink using Data augmentation, Style encoding and Split generation ( http://arxiv.org/abs/2311.17786v1 )

ライセンス: Link先を確認
Aleksandr Timofeev, Anastasiia Fadeeva, Andrei Afonin, Claudiu Musat, Andrii Maksai(参考訳) テキスト生成モデルは、より長い回答を与えることができるため、長いテキストをデジタルインクで合成する問題に取り組む。 このタスクでよく使われるモデルは、長文データへの一般化に失敗し、トレーニングデータを増やし、モデルアーキテクチャと推論手順を変更することで、どのようにこの問題を解決できるかを示す。 これらの方法は対照的な学習技術を使用し、筆跡領域に特化している。 デジタルインクで動作する任意のエンコーダデコーダモデルに適用することができる。 提案手法は,ベースラインRNNに比べて長文英語データの文字誤り率を半減し,同じ問題に対処する従来の手法に比べて16%削減することを示した。 提案手法の3つの部分が生成したインクの認識性を向上することを示す。 さらに,人間の研究における合成データの評価を行い,生成データの大半を現実と認識していることが分かった。

As text generative models can give increasingly long answers, we tackle the problem of synthesizing long text in digital ink. We show that the commonly used models for this task fail to generalize to long-form data and how this problem can be solved by augmenting the training data, changing the model architecture and the inference procedure. These methods use contrastive learning technique and are tailored specifically for the handwriting domain. They can be applied to any encoder-decoder model that works with digital ink. We demonstrate that our method reduces the character error rate on long-form English data by half compared to baseline RNN and by 16% compared to the previous approach that aims at addressing the same problem. We show that all three parts of the method improve recognizability of generated inks. In addition, we evaluate synthesized data in a human study and find that people perceive most of generated data as real.
翻訳日:2023-11-30 20:29:34 公開日:2023-11-29
# TSDFサンプリング:Trncated Signed Distance Fieldを用いたニューラルネットワークの効率的なサンプリング

TSDF-Sampling: Efficient Sampling for Neural Surface Field using Truncated Signed Distance Field ( http://arxiv.org/abs/2311.17878v1 )

ライセンス: Link先を確認
Chaerin Min, Sehyun Cha, Changhee Won, and Jongwoo Lim(参考訳) マルチビュー神経表面再構成は印象的な結果を示した。 しかし、顕著な制限は、レンダリング品質を維持するために必要な濃密なサンプリングに起因する従来の技術と比較して、明らかに遅い推論時間である。 本稿では,シーンのTrncated Signed Distance Field (TSDF) を組み込むことにより,サンプリング回数を大幅に削減する新しい手法を提案する。 先行研究ではサンプリングの重要性が提案されているが、初期均一なサンプルを空間全体に依存させることで、サンプル数を少なくしようとすると性能低下を回避できない。 対照的に,本手法はトレーニングされたビューのみによって生成されたTSDFボリュームを活用し,今後の新規ビューからのサンプリングに合理的な制約を与えることを示す。 その結果、TSDFボリュームが与えるバウンダリ内における連続神経SDF推定をフル活用することで、高いレンダリング品質を実現する。 特に,本手法は,ボリュームレンダリング技術を使用する限り,多種多様な神経表面場モデルに頑健にプラグアンドプレイできる最初の手法である。 実験の結果,性能を損なうことなく推論速度が11倍向上した。 https://tsdf-sampling.github.io/ というページで結果のビデオが閲覧できます。

Multi-view neural surface reconstruction has exhibited impressive results. However, a notable limitation is the prohibitively slow inference time when compared to traditional techniques, primarily attributed to the dense sampling, required to maintain the rendering quality. This paper introduces a novel approach that substantially reduces the number of samplings by incorporating the Truncated Signed Distance Field (TSDF) of the scene. While prior works have proposed importance sampling, their dependence on initial uniform samples over the entire space makes them unable to avoid performance degradation when trying to use less number of samples. In contrast, our method leverages the TSDF volume generated only by the trained views, and it proves to provide a reasonable bound on the sampling from upcoming novel views. As a result, we achieve high rendering quality by fully exploiting the continuous neural SDF estimation within the bounds given by the TSDF volume. Notably, our method is the first approach that can be robustly plug-and-play into a diverse array of neural surface field models, as long as they use the volume rendering technique. Our empirical results show an 11-fold increase in inference speed without compromising performance. The result videos are available at our project page: https://tsdf-sampling.github.io/
翻訳日:2023-11-30 20:23:42 公開日:2023-11-29
# 画像分類のためのポストホック説明ベンチマークの信頼性向上

Enhancing Post-Hoc Explanation Benchmark Reliability for Image Classification ( http://arxiv.org/abs/2311.17876v1 )

ライセンス: Link先を確認
Tristan Gomez, Harold Mouch\`ere(参考訳) ディープニューラルネットワークは、画像分類に強力であるが、しばしば「ブラックボックス」として動作し、意思決定プロセスの理解を複雑にする。 様々な説明手法、特にサリエンシマップの作成は、この問題に対処することを目指している。 しかし、忠実度測定の不整合問題は、説明手法の信頼性の高いベンチマークを妨げている。 本稿では、クリッペンドルフのαを用いて、画像分類におけるポストホック手法のベンチマーク信頼性を定量化する。 本研究は,頑健さと校正性を高めるため,摂食サンプルの摂食や焦点損失の活用を含むモデルトレーニング修正を提案する。 実証的な評価では、メトリクス、データセット、ポストホックメソッドのベンチマーク信頼性が大幅に向上した。 この先駆的な研究は、評価プロセスにおけるモデルロバスト性の重要性を強調し、ポストホックな説明手法の領域においてより信頼性の高い評価実践の基礎を確立する。

Deep neural networks, while powerful for image classification, often operate as "black boxes," complicating the understanding of their decision-making processes. Various explanation methods, particularly those generating saliency maps, aim to address this challenge. However, the inconsistency issues of faithfulness metrics hinder reliable benchmarking of explanation methods. This paper employs an approach inspired by psychometrics, utilizing Krippendorf's alpha to quantify the benchmark reliability of post-hoc methods in image classification. The study proposes model training modifications, including feeding perturbed samples and employing focal loss, to enhance robustness and calibration. Empirical evaluations demonstrate significant improvements in benchmark reliability across metrics, datasets, and post-hoc methods. This pioneering work establishes a foundation for more reliable evaluation practices in the realm of post-hoc explanation methods, emphasizing the importance of model robustness in the assessment process.
翻訳日:2023-11-30 20:23:22 公開日:2023-11-29
# FisherRF:釣り情報を用いた放射界のアクティブビュー選択と不確かさ定量化

FisherRF: Active View Selection and Uncertainty Quantification for Radiance Fields using Fisher Information ( http://arxiv.org/abs/2311.17874v1 )

ライセンス: Link先を確認
Wen Jiang, Boshu Lei, Kostas Daniilidis(参考訳) 本研究では、放射場領域におけるアクティブビュー選択と不確実性定量化の課題に対処する。 ニューラル・ラジアンス・フィールド(NeRF)は画像のレンダリングと再構成が大幅に進歩しているが、2D画像の可用性の限界は、閉塞、奥行きの曖昧さ、画像誤差に起因する不確実性をもたらす。 情報的視点を効果的に選択することが重要となり、NeRFモデルの不確実性を定量化することは複雑な課題をもたらす。 既存のアプローチはモデルアーキテクチャに依存するか、あるいは一般には適用できない密度分布に関する仮定に基づいている。 水産情報を活用することにより,地上の真理データを使わずに,レージアンスフィールド内の観測情報を効率的に定量化する。 これは次の最良のビュー選択とピクセル単位での不確かさの定量化に使用できる。 提案手法は、モデルアーキテクチャと有効性に関する既存の制限を克服し、ビュー選択と不確実性定量化の両面で最先端の成果を達成し、その可能性を示す。 3D Gaussian Splattingバックエンドを用いて70fpsでビュー選択を行う。

This study addresses the challenging problem of active view selection and uncertainty quantification within the domain of Radiance Fields. Neural Radiance Fields (NeRF) have greatly advanced image rendering and reconstruction, but the limited availability of 2D images poses uncertainties stemming from occlusions, depth ambiguities, and imaging errors. Efficiently selecting informative views becomes crucial, and quantifying NeRF model uncertainty presents intricate challenges. Existing approaches either depend on model architecture or are based on assumptions regarding density distributions that are not generally applicable. By leveraging Fisher Information, we efficiently quantify observed information within Radiance Fields without ground truth data. This can be used for the next best view selection and pixel-wise uncertainty quantification. Our method overcomes existing limitations on model architecture and effectiveness, achieving state-of-the-art results in both view selection and uncertainty quantification, demonstrating its potential to advance the field of Radiance Fields. Our method with the 3D Gaussian Splatting backend could perform view selections at 70 fps.
翻訳日:2023-11-30 20:23:07 公開日:2023-11-29
# SAIBench: ベンチマークによる科学のためのAIの構造解釈

SAIBench: A Structural Interpretation of AI for Science Through Benchmarks ( http://arxiv.org/abs/2311.17869v1 )

ライセンス: Link先を確認
Yatao Li, Jianfeng Zhan(参考訳) AI4S(人工知能・フォー・サイエンス、Artificial Intelligence for Science)は、機械学習の進歩を利用して複雑な科学計算問題に取り組む研究分野である。 しかし、AI4Sのデータ駆動の性質は、従来の科学計算の正確さや精度の保証に欠けており、現実のアプリケーションにAI4Sモデルをデプロイする際の課題を提起している。 これらを緩和するためには、AI4Sモデルをより深く理解するために、より包括的なベンチマーク手順が必要である。 本稿では,問題空間における信頼動作範囲の同定と,その計算成分へのエラーのトレースという,2つの重要な要件に対処する,構造解釈と呼ばれる新しいベンチマーク手法を提案する。 この方法は問題空間と距離空間の両方を分割し、これらの空間の構造的な探索を促進する。 構造解釈の実用性と有効性は、機械学習力場(MLFF)、ジェットタグ付け、降水流の3つの異なるAI4Sワークロードに適用することで説明される。 ベンチマークは、信頼できる運用範囲、トレースエラーを効果的にモデル化し、モデル、トレーニングプロセス、データサンプリング戦略を洗練するための新しい視点を明らかにする。 この作業は、AI4SベンチマークスイートであるSAIBenchプロジェクトの一部である。

Artificial Intelligence for Science (AI4S) is an emerging research field that utilizes machine learning advancements to tackle complex scientific computational issues, aiming to enhance computational efficiency and accuracy. However, the data-driven nature of AI4S lacks the correctness or accuracy assurances of conventional scientific computing, posing challenges when deploying AI4S models in real-world applications. To mitigate these, more comprehensive benchmarking procedures are needed to better understand AI4S models. This paper introduces a novel benchmarking approach, known as structural interpretation, which addresses two key requirements: identifying the trusted operating range in the problem space and tracing errors back to their computational components. This method partitions both the problem and metric spaces, facilitating a structural exploration of these spaces. The practical utility and effectiveness of structural interpretation are illustrated through its application to three distinct AI4S workloads: machine-learning force fields (MLFF), jet tagging, and precipitation nowcasting. The benchmarks effectively model the trusted operating range, trace errors, and reveal novel perspectives for refining the model, training process, and data sampling strategy. This work is part of the SAIBench project, an AI4S benchmarking suite.
翻訳日:2023-11-30 20:22:48 公開日:2023-11-29
# 効率的な3次元ヒューマンジェネレーションのためのガウスシェルマップ

Gaussian Shell Maps for Efficient 3D Human Generation ( http://arxiv.org/abs/2311.17857v1 )

ライセンス: Link先を確認
Rameen Abdal, Wang Yifan, Zifan Shi, Yinghao Xu, Ryan Po, Zhengfei Kuang, Qifeng Chen, Dit-Yan Yeung, Gordon Wetzstein(参考訳) 3dデジタル人間の効率的な生成は、仮想現実、ソーシャルメディア、映画制作など、いくつかの業界で重要である。 3次元生成敵ネットワーク(GAN)は、生成資産の最先端(SOTA)品質と多様性を実証している。 しかし、現在の3D GANアーキテクチャは通常、レンダリングが遅いボリューム表現に依存しており、GANのトレーニングを妨害し、マルチビュー非一貫性の2Dアップサンプラーを必要とする。 本稿では,SOTAジェネレータネットワークアーキテクチャと,アーティキュラブルなマルチシェルベーススキャフォールドを用いた新しい3Dガウスレンダリングプリミティブを接続するフレームワークとして,Gaussian Shell Maps(GSM)を紹介する。 この設定では、CNNはシェルにマッピングされた特徴を持つ3Dテクスチャスタックを生成する。 後者は、標準的なボディポーズでデジタル人間のテンプレート表面の膨らませてデフレーションしたバージョンを表す。 貝殻を直接ラスタ化するのではなく、テクスチャの特徴をコード化した貝殻に3Dガウシアンを採取する。 これらのガウス語は効率的かつ微分的に表現される。 ganトレーニング中にシェルを調音する能力は重要であり、推論時には、任意のユーザ定義のポーズに身体を変形させる。 我々の効率的なレンダリング方式は、ビュー一貫性のないアップサンプラーの必要性を回避し、ネイティブ解像度512 \times 512$ピクセルで高品質なマルチビュー整合レンダリングを実現する。 GSMがSHHQやDeepFashionなど、単一ビューデータセットでトレーニングされた場合、GSMがうまく3Dヒューマンを生成することを示した。

Efficient generation of 3D digital humans is important in several industries, including virtual reality, social media, and cinematic production. 3D generative adversarial networks (GANs) have demonstrated state-of-the-art (SOTA) quality and diversity for generated assets. Current 3D GAN architectures, however, typically rely on volume representations, which are slow to render, thereby hampering the GAN training and requiring multi-view-inconsistent 2D upsamplers. Here, we introduce Gaussian Shell Maps (GSMs) as a framework that connects SOTA generator network architectures with emerging 3D Gaussian rendering primitives using an articulable multi shell--based scaffold. In this setting, a CNN generates a 3D texture stack with features that are mapped to the shells. The latter represent inflated and deflated versions of a template surface of a digital human in a canonical body pose. Instead of rasterizing the shells directly, we sample 3D Gaussians on the shells whose attributes are encoded in the texture features. These Gaussians are efficiently and differentiably rendered. The ability to articulate the shells is important during GAN training and, at inference time, to deform a body into arbitrary user-defined poses. Our efficient rendering scheme bypasses the need for view-inconsistent upsamplers and achieves high-quality multi-view consistent renderings at a native resolution of $512 \times 512$ pixels. We demonstrate that GSMs successfully generate 3D humans when trained on single-view datasets, including SHHQ and DeepFashion.
翻訳日:2023-11-30 20:22:26 公開日:2023-11-29
# ネットワークリファインメントタスクにおけるグラフ拡散モデルの活用

Leveraging Graph Diffusion Models for Network Refinement Tasks ( http://arxiv.org/abs/2311.17856v1 )

ライセンス: Link先を確認
Puja Trivedi, Ryan Rossi, David Arbour, Tong Yu, Franck Dernoncourt, Sungchul Kim, Nedim Lipka, Namyong Park, Nesreen K. Ahmed, Danai Koutra(参考訳) ほとんどの実世界のネットワークは、未知のターゲット分布からのノイズと不完全なサンプルである。 汚職を訂正したり、観測されていない領域を推測することで精錬することで、ダウンストリームのパフォーマンスが向上する。 画像の劣化を補正するために用いられてきた印象的な生成機能や、観察されたグラフ上での「塗装中」と欠損ノードとエッジの埋め合わせの類似性から着想を得て、サブグラフ拡散に基づく新しいグラフ生成フレームワーク SGDM を提案する。 我々のフレームワークはグラフ拡散モデルのスケーラビリティと忠実度を向上するだけでなく、逆プロセスを利用して新しい条件付き生成タスクを実行する。 特に,広範にわたる経験的分析と新しいメトリクスのセットを通じて,提案手法が部分的に観測可能なネットワークに対して,以下の改良タスクを効果的にサポートすることを示す: T1: 外部部分グラフのデノイング T2: 既存の部分グラフの拡張 T3: 特定の部分グラフを再生して,異なるノードやサブグラフの特性にマッチする"スタイル"転送を行う。

Most real-world networks are noisy and incomplete samples from an unknown target distribution. Refining them by correcting corruptions or inferring unobserved regions typically improves downstream performance. Inspired by the impressive generative capabilities that have been used to correct corruptions in images, and the similarities between "in-painting" and filling in missing nodes and edges conditioned on the observed graph, we propose a novel graph generative framework, SGDM, which is based on subgraph diffusion. Our framework not only improves the scalability and fidelity of graph diffusion models, but also leverages the reverse process to perform novel, conditional generation tasks. In particular, through extensive empirical analysis and a set of novel metrics, we demonstrate that our proposed model effectively supports the following refinement tasks for partially observable networks: T1: denoising extraneous subgraphs, T2: expanding existing subgraphs and T3: performing "style" transfer by regenerating a particular subgraph to match the characteristics of a different node or subgraph.
翻訳日:2023-11-30 20:21:58 公開日:2023-11-29
# 強化学習における最大エントロピーモデル補正

Maximum Entropy Model Correction in Reinforcement Learning ( http://arxiv.org/abs/2311.17855v1 )

ライセンス: Link先を確認
Amin Rakhsha, Mete Kemertas, Mohammad Ghavamzadeh, Amir-massoud Farahmand(参考訳) 本稿では,モデル誤りの悪影響を低減できる強化学習における近似モデルによる計画手法を提案し,理論的に分析する。 モデルが十分正確であれば、真の値関数への収束も加速する。 その重要な構成要素の1つは、最大エントロピー密度推定式に基づいてモデルの次状態分布を補正するMaxEnt Model Correction (MoCo) 手順である。 モデル補正値イテレーション(MoCoVI)アルゴリズムとそのサンプルベース変種であるMoCoDynaを紹介する。 我々は,MoCoVIとMoCoDynaの収束が従来のモデルフリーアルゴリズムよりもはるかに高速であることを示す。 従来のモデルベースアルゴリズムとは異なり、MoCoVIとMoCoDynaは近似モデルを有効に利用し、依然として正しい値関数に収束する。

We propose and theoretically analyze an approach for planning with an approximate model in reinforcement learning that can reduce the adverse impact of model error. If the model is accurate enough, it accelerates the convergence to the true value function too. One of its key components is the MaxEnt Model Correction (MoCo) procedure that corrects the model's next-state distributions based on a Maximum Entropy density estimation formulation. Based on MoCo, we introduce the Model Correcting Value Iteration (MoCoVI) algorithm, and its sampled-based variant MoCoDyna. We show that MoCoVI and MoCoDyna's convergence can be much faster than the conventional model-free algorithms. Unlike traditional model-based algorithms, MoCoVI and MoCoDyna effectively utilize an approximate model and still converge to the correct value function.
翻訳日:2023-11-30 20:21:39 公開日:2023-11-29
# グラフコントラスト学習法の逆ロバスト性について

On the Adversarial Robustness of Graph Contrastive Learning Methods ( http://arxiv.org/abs/2311.17853v1 )

ライセンス: Link先を確認
Filippo Guerranti, Zinuo Yi, Anna Starovoit, Rafiq Kamel, Simon Geisler, Stephan G\"unnemann(参考訳) コントラスト学習(cl)は、画像やテキストの表現を自己教師ありで学習するための強力なフレームワークとして出現し、敵対的攻撃に対するモデルの堅牢性を高めている。 最近では、コントラスト学習の原則をグラフ構造化データに拡張し、グラフコントラスト学習(gcl)の分野を生み出している。 しかし、gclメソッドが画像やテキストドメインの競合メソッドと同じ強固さをもたらすかどうかは、まだ疑問の余地がある。 本稿では,gclモデルのロバスト性を評価するための包括的ロバスト性評価プロトコルを提案する。 我々はこれらのモデルを,グラフ構造をターゲットとした適応的敵攻撃,特に回避シナリオに適用する。 実世界の多様なデータセットと攻撃戦略を用いてノードとグラフの分類タスクを評価する。 本研究は,GCL手法の堅牢性に関する知見を提供することを目標とし,今後の研究方向の道を開くことを期待する。

Contrastive learning (CL) has emerged as a powerful framework for learning representations of images and text in a self-supervised manner while enhancing model robustness against adversarial attacks. More recently, researchers have extended the principles of contrastive learning to graph-structured data, giving birth to the field of graph contrastive learning (GCL). However, whether GCL methods can deliver the same advantages in adversarial robustness as their counterparts in the image and text domains remains an open question. In this paper, we introduce a comprehensive robustness evaluation protocol tailored to assess the robustness of GCL models. We subject these models to adaptive adversarial attacks targeting the graph structure, specifically in the evasion scenario. We evaluate node and graph classification tasks using diverse real-world datasets and attack strategies. With our work, we aim to offer insights into the robustness of GCL methods and hope to open avenues for potential future research directions.
翻訳日:2023-11-30 20:21:26 公開日:2023-11-29
# 3次元オブジェクトのスコアベースマルチプローブアノテーションのためのVLMの評価

Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects ( http://arxiv.org/abs/2311.17851v1 )

ライセンス: Link先を確認
Rishabh Kabra, Loic Matthey, Alexander Lerchner, Niloy J. Mitra(参考訳) ラベルのない3Dオブジェクトは、オブジェクトの意味論から物理的性質まで、さまざまなアノテーションタスクで事前訓練された視覚言語モデル(VLM)を活用する機会を提供する。 正確な応答は、オブジェクトの3Dでの完全な外観、質問/プロンプトの表現方法、反応に影響を与える他の要因の変化を考慮する必要がある。 提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。 まず,この確率的アグリゲーションが要約のための言語モデル(gpt4など)を上回ること,例えば,応答間の対比的な詳細がある場合の幻覚を回避できることを示す。 次に、集約アノテーションがプロンプトチェインに有用であることを示し、下流のVLM予測を改善する(例えば、オブジェクトの型がプロンプトの補助入力として指定されたときのオブジェクト素材)。 このような補助入力は、言語のみの推論よりも視覚的推論の寄与をアブレーションし、測定することができる。 これらの評価を用いて、VLMが、追加のトレーニングや文脈内学習なしにどのようにアプローチできるか、大規模なObjaverseデータセット上での人間検証型およびマテリアルアノテーションの品質を示す。

Unlabeled 3D objects present an opportunity to leverage pretrained vision language models (VLMs) on a range of annotation tasks -- from describing object semantics to physical properties. An accurate response must take into account the full appearance of the object in 3D, various ways of phrasing the question/prompt, and changes in other factors that affect the response. We present a method to marginalize over any factors varied across VLM queries, utilizing the VLM's scores for sampled responses. We first show that this probabilistic aggregation can outperform a language model (e.g., GPT4) for summarization, for instance avoiding hallucinations when there are contrasting details between responses. Secondly, we show that aggregated annotations are useful for prompt-chaining; they help improve downstream VLM predictions (e.g., of object material when the object's type is specified as an auxiliary input in the prompt). Such auxiliary inputs allow ablating and measuring the contribution of visual reasoning over language-only reasoning. Using these evaluations, we show how VLMs can approach, without additional training or in-context learning, the quality of human-verified type and material annotations on the large-scale Objaverse dataset.
翻訳日:2023-11-30 20:21:12 公開日:2023-11-29
# 深層学習による実世界の焦点重ね合わせに向けて

Towards Real-World Focus Stacking with Deep Learning ( http://arxiv.org/abs/2311.17846v1 )

ライセンス: Link先を確認
Alexandre Araujo, Jean Ponce, Julien Mairal(参考訳) フォーカススタッキングは、マイクロ、マクロ、ランドスケープ撮影において、フォーカスブラケットで得られた複数のフレーム、すなわち、浅い視野深度と異なる焦点面から全焦点画像を再構成するために広く用いられている。 基礎となるマルチフォーカス画像融合問題に対する既存のディープラーニングアプローチは、非常に短い画像シーケンス(2〜4枚の画像)用に設計されており、通常、ライトフィールドカメラによって取得されたり、合成によって生成された小さな低解像度データセットでトレーニングされるため、実世界の画像に適用性が限られている。 本稿では,最新の商用ソフトウェアを用いてデータから疑似基底真理を計算した,フォーカスブラケット付き生画像の94個の高分解能バーストからなる新しいデータセットを提案する。 このデータセットは、実世界のアプリケーションで十分な長さのバーストを処理できるフォーカススタッキングのための最初のディープラーニングアルゴリズムをトレーニングするために使用される。 定性的実験は、長いバーストで現実的な状態にある既存の商用ソリューションと同等であり、ノイズにかなり耐性があることを示した。 コードとデータセットはhttps://github.com/araujoalexandre/focusstackingdatasetで利用可能である。

Focus stacking is widely used in micro, macro, and landscape photography to reconstruct all-in-focus images from multiple frames obtained with focus bracketing, that is, with shallow depth of field and different focus planes. Existing deep learning approaches to the underlying multi-focus image fusion problem have limited applicability to real-world imagery since they are designed for very short image sequences (two to four images), and are typically trained on small, low-resolution datasets either acquired by light-field cameras or generated synthetically. We introduce a new dataset consisting of 94 high-resolution bursts of raw images with focus bracketing, with pseudo ground truth computed from the data using state-of-the-art commercial software. This dataset is used to train the first deep learning algorithm for focus stacking capable of handling bursts of sufficient length for real-world applications. Qualitative experiments demonstrate that it is on par with existing commercial solutions in the long-burst, realistic regime while being significantly more tolerant to noise. The code and dataset are available at https://github.com/araujoalexandre/FocusStackingDataset.
翻訳日:2023-11-30 20:20:50 公開日:2023-11-29
# スピンスクイーズ不等式を測定する異なるスキームの誤差推定

Error estimation of different schemes to measure spin-squeezing inequalities ( http://arxiv.org/abs/2311.17845v1 )

ライセンス: Link先を確認
Jan Lennart B\"onsel, Satoya Imai, Ye-Chao Liu, Otfried G\"uhne(参考訳) 量子状態トモグラフィーを伴わない大規模・雑音系における量子相関解析法 確立された方法は、全角モーメントを測定し、期待と分散に基づいてスピンスキーングの不等式を用いることである。 これにより、気象学的に有用な絡み合いを検出することができるが、そのような非線形量を推定するための効率的な戦略はまだ決定されていない。 本稿では,マルチキュービットシステムにおけるスピンスキーング不等式の測定に着目する。 スピンスクイーズ不等式は、全角運動量の測定だけでなく、全てのペア相関やランダムに選択されたペア相関を含む2量子相関によって評価できることを示す。 次に,仮説テストの観点から,提案手法の誤差を解析する。 そこで本研究では,非線形推定器における誤差境界の導出を,その分散の助けを借りて検討し,分離可能な状態が絡み合っていることを誤検出する確率を特徴付ける。 この方法は、量子状態の他の非線形パラメータの統計処理に応用できる。

How can we analyze quantum correlations in large and noisy systems without quantum state tomography? An established method is to measure total angular momenta and employ the so-called spin-squeezing inequalities based on their expectations and variances. This allows to detect metrologically useful entanglement, but efficient strategies for estimating such non-linear quantities have yet to be determined. In this paper, we focus on the measurement of spin-squeezing inequalities in multi-qubit systems. We show that spin-squeezing inequalities can not only be evaluated by measurements of the total angular momentum but also by two-qubit correlations, either involving all pair correlations or randomly chosen pair correlations. Then we analyze the estimation errors of our approaches in terms of a hypothesis test. For this purpose, we discuss how error bounds can be derived for non-linear estimators with the help of their variances, characterizing the probability of falsely detecting a separable state as entangled. Our methods can be applied for the statistical treatment of other non-linear parameters of quantum states.
翻訳日:2023-11-30 20:20:31 公開日:2023-11-29
# look before you leap: gpt-4vのパワーをロボットビジョン言語計画で披露

Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning ( http://arxiv.org/abs/2311.17842v1 )

ライセンス: Link先を確認
Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao(参考訳) 本研究では,ロボットに身体的な作業計画能力を持たせることに関心を寄せる。 近年の進歩は、大規模言語モデル(LLM)がロボットタスク、特に推論や計画において有用な知識を持っていることを示している。 しかし、LLMは世界基盤の欠如と環境情報を知覚するために外部の価格モデルに依存しているため、LLMと共同で理由付けができない。 タスクプランナは本質的に基盤化された統合マルチモーダルシステムであるべきだと我々は主張する。 この目的のために、視覚言語モデル(VLM)を活用して動作可能な一連のステップを生成する、長距離ロボット計画のための新しいアプローチであるRobotic Vision-Language Planning (ViLa)を紹介する。 ViLaは知覚データをその推論と計画プロセスに直接統合し、空間レイアウトやオブジェクト属性を含む視覚の世界における常識的知識の深い理解を可能にする。 また、フレキシブルなマルチモーダルゴール仕様をサポートし、ビジュアルフィードバックを自然に組み込む。 実ロボットとシミュレーション環境の両方で実施した広範な評価は,既存のllmベースのプランナーよりもvilaが優れていることを示し,多岐にわたるオープンワールド操作タスクにおけるvilaの有効性を強調した。

In this study, we are interested in imbuing robots with the capability of physically-grounded task planning. Recent advancements have shown that large language models (LLMs) possess extensive knowledge useful in robotic tasks, especially in reasoning and planning. However, LLMs are constrained by their lack of world grounding and dependence on external affordance models to perceive environmental information, which cannot jointly reason with LLMs. We argue that a task planner should be an inherently grounded, unified multimodal system. To this end, we introduce Robotic Vision-Language Planning (ViLa), a novel approach for long-horizon robotic planning that leverages vision-language models (VLMs) to generate a sequence of actionable steps. ViLa directly integrates perceptual data into its reasoning and planning process, enabling a profound understanding of commonsense knowledge in the visual world, including spatial layouts and object attributes. It also supports flexible multimodal goal specification and naturally incorporates visual feedback. Our extensive evaluation, conducted in both real-robot and simulated environments, demonstrates ViLa's superiority over existing LLM-based planners, highlighting its effectiveness in a wide array of open-world manipulation tasks.
翻訳日:2023-11-30 20:20:13 公開日:2023-11-29
# lp階層による多次元スケーリングのための準多項時間アルゴリズム

A quasi-polynomial time algorithm for Multi-Dimensional Scaling via LP hierarchies ( http://arxiv.org/abs/2311.17840v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Vincent Cohen-Addad, Samuel B. Hopkins, Rajesh Jayaram, Silvio Lattanzi(参考訳) 多次元スケーリング(MDS)は、$n$オブジェクト間のペアワイドな相似性を低次元空間に埋め込む方法のファミリーである。 MDSは、社会科学、統計学、機械学習におけるデータ可視化ツールとして広く利用されている。 非負の相似性の集合 $\{d_{i,j}\}_{i , j \in [n]}$ over $n$ points, the goal to find a embeddedding $\{x_1,\dots,x_n\} \subset \mathbb{R}^k$ that minimals \[ \text{OPT} = \min_{x} \mathbb{E}_{i,j \in [n]} \left[ \left(1-\frac{\|x_x_x_j\|}{d_{i,j}}\right)^2 \right] それらの人気にもかかわらず、MDSの理論的理解は非常に制限されている。 最近、Demaine, Hesterberg, Koehler, Lynch, Urschel (arXiv:2109.11505) は、Kamada-Kawai に対する証明可能な保証を持つ最初の近似アルゴリズムを与え、これはコスト $\text{OPT} +\epsilon$ in $n^2 \cdot 2^{\tilde{\mathcal{O}}(k \Delta^4 / \epsilon^2)} の埋め込みを実現する。 対象次元 $k$ に対して、コスト $\mathcal{o}(\text{opt}^{ \hspace{0.04in}1/k } \cdot \log(\delta/\epsilon) )+ \epsilon$ in time $n^{ \mathcal{o}(1)} \cdot 2^{\tilde{\mathcal{o}}(k^2 (\log(\delta)/\epsilon)^{k/2 + 1} ) } で解を得る。 本手法は,シェラリ・アダムスLP階層に対する条件付きラウンドリングスキームの新規解析に基づく。 重要なことは、我々の分析は低次元ユークリッド空間の幾何学を利用して、アスペクト比$\Delta$の指数的依存を避けることができる。 sherali-adams階層の幾何学的対応は、効率的なメトリック最適化アルゴリズムのための汎用技術を開発するための重要なステップであると考えています。

Multi-dimensional Scaling (MDS) is a family of methods for embedding pair-wise dissimilarities between $n$ objects into low-dimensional space. MDS is widely used as a data visualization tool in the social and biological sciences, statistics, and machine learning. We study the Kamada-Kawai formulation of MDS: given a set of non-negative dissimilarities $\{d_{i,j}\}_{i , j \in [n]}$ over $n$ points, the goal is to find an embedding $\{x_1,\dots,x_n\} \subset \mathbb{R}^k$ that minimizes \[ \text{OPT} = \min_{x} \mathbb{E}_{i,j \in [n]} \left[ \left(1-\frac{\|x_i - x_j\|}{d_{i,j}}\right)^2 \right] \] Despite its popularity, our theoretical understanding of MDS is extremely limited. Recently, Demaine, Hesterberg, Koehler, Lynch, and Urschel (arXiv:2109.11505) gave the first approximation algorithm with provable guarantees for Kamada-Kawai, which achieves an embedding with cost $\text{OPT} +\epsilon$ in $n^2 \cdot 2^{\tilde{\mathcal{O}}(k \Delta^4 / \epsilon^2)}$ time, where $\Delta$ is the aspect ratio of the input dissimilarities. In this work, we give the first approximation algorithm for MDS with quasi-polynomial dependency on $\Delta$: for target dimension $k$, we achieve a solution with cost $\mathcal{O}(\text{OPT}^{ \hspace{0.04in}1/k } \cdot \log(\Delta/\epsilon) )+ \epsilon$ in time $n^{ \mathcal{O}(1)} \cdot 2^{\tilde{\mathcal{O}}( k^2 (\log(\Delta)/\epsilon)^{k/2 + 1} ) }$. Our approach is based on a novel analysis of a conditioning-based rounding scheme for the Sherali-Adams LP Hierarchy. Crucially, our analysis exploits the geometry of low-dimensional Euclidean space, allowing us to avoid an exponential dependence on the aspect ratio $\Delta$. We believe our geometry-aware treatment of the Sherali-Adams Hierarchy is an important step towards developing general-purpose techniques for efficient metric optimization algorithms.
翻訳日:2023-11-30 20:19:52 公開日:2023-11-29
# 散逸量子不純物モデルのための図式モンテカルロ

Diagrammatic Monte Carlo for Dissipative Quantum Impurity Models ( http://arxiv.org/abs/2311.17839v1 )

ライセンス: Link先を確認
Matthieu Vanhoecke and Marco Schir\`o(参考訳) 散逸量子不純物モデルのリアルタイムダイナミクスのための図式モンテカルロ法を開発した。 これらは相互作用と局所マルコフ散逸を伴う小さな開量子系であり、大きな量子浴と結合している。 我々のアルゴリズムは、リンドブラッド力学の熱場/ベクトル化表現に自然に現れるので、ダブルケルディシュの1つではなく、1つのリアルタイム輪郭に定式化されたハイブリダイゼーション展開をサンプリングする。 局所マルコフ散逸は, 一般に, 符号問題の低減により, 図式的モンテカルロサンプリングの収束に寄与し, 従来のユニタリの場合に比べて長い時間スケールに到達できることを示した。 本稿では,局所的デファス化の存在下でのアンダーソン不純物モデルに適用し,不純物の電荷およびスピンダイナミクスへの影響について考察する。

We develop a diagrammatic Monte Carlo method for the real-time dynamics of dissipative quantum impurity models. These are small open quantum systems with interaction and local Markovian dissipation, coupled to a large quantum bath. Our algorithm sample the hybridization expansion formulated on a single real-time contour, rather than on the double Keldysh one, as it naturally arises in the thermofield/vectorized representation of the Lindblad dynamics. We show that local Markovian dissipation generally helps the convergence of the diagrammatic Monte Carlo sampling by reducing the sign problem, thus allowing to reach longer time scales as compared to the conventional unitary case. We apply our method to an Anderson impurity model in presence of local dephasing and discuss its effect on the charge and spin dynamics of the impurity.
翻訳日:2023-11-30 20:18:36 公開日:2023-11-29
# SPiC-E : クロスエンティティ注意を用いた3次元拡散モデルの構造優先

SPiC-E : Structural Priors in 3D Diffusion Models using Cross Entity Attention ( http://arxiv.org/abs/2311.17834v1 )

ライセンス: Link先を確認
Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor(参考訳) 我々は,事前学習されたテキスト画像拡散モデルの可用性により,3dアセットの自動生成と操作が急速に進展しているのを目の当たりにしている。 しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成を民主化する可能性を妨げる。 逆に、3d拡散モデルは100万規模の3dデータセットをトレーニングし、高品質なテキスト条件付き3dサンプルを数秒で生成する。 本稿では,3次元拡散モデルに構造的ガイダンスを追加するニューラルネットワークであるspic-eを提案する。 本フレームワークのコアとなるのは,複数のエンティティ(特にペア入力と誘導3D形状)が,認知ネットワーク内の内部表現を介して対話できる,相互注意機構の導入である。 本機構を補助誘導形状から3次元拡散モデルにおけるタスク固有構造事前学習に活用する。 提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する。 大規模な実験により、SPiC-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示されている。 重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。

We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present SPiC-E - a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that SPiC-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task.
翻訳日:2023-11-30 20:18:20 公開日:2023-11-29
# 言語誘導ドメイン一般化セグメンテーションのための簡易レシピ

A Simple Recipe for Language-guided Domain Generalized Segmentation ( http://arxiv.org/abs/2311.17922v1 )

ライセンス: Link先を確認
Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick P\'erez, Raoul de Charette(参考訳) トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の目標と課題の1つだ。 既存の一般化技術は、外部データセットから潜在的に引き起こされる潜在的なデータ拡張を必要とし、様々なアライメント制約を課すことで不変表現の学習を目指している。 大規模事前トレーニングは、最近、異なるモダリティを橋渡しする可能性とともに、有望な一般化能力を示している。 例えば、最近のCLIPのような視覚言語モデルの出現は、視覚モデルがテキストのモダリティを利用するための扉を開いた。 本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。 レシピには3つの重要な材料が含まれています 一 最小限の微調整による内在的なクリップの頑健さの維持 二 言語によるローカルスタイルの強化及び 三 訓練中、ソースと拡張スタイルを局所的に混合してランダム化すること。 総合的な実験では、様々な一般化ベンチマークで最先端の結果が報告されている。 コードは利用可能になります。

Generalization to new domains not seen during training is one of the long-standing goals and challenges in deploying neural networks in real-world applications. Existing generalization techniques necessitate substantial data augmentation, potentially sourced from external datasets, and aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of bridging different modalities. For instance, the recent advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, ii) language-driven local style augmentation, and iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. The code will be made available.
翻訳日:2023-11-30 20:12:20 公開日:2023-11-29
# テキストフリー拡散モデルは識別的視覚表現を学習するか?

Do text-free diffusion models learn discriminative visual representations? ( http://arxiv.org/abs/2311.17921v1 )

ライセンス: Link先を確認
Soumik Mukhopadhyay and Matthew Gwilliam and Yosuke Yamaguchi and Vatsal Agarwal and Namitha Padmanabhan and Archana Swaminathan and Tianyi Zhou and Abhinav Shrivastava(参考訳) 多くの教師なし学習モデルは、生成的あるいは差別的なタスクの1つのファミリーに焦点を当てているが、同時にタスクのファミリーに対処するモデルである統一表現学習者の可能性を探る。 生成タスクのための最先端手法である拡散モデルを素候補として同定する。 このようなモデルには、ノイズを反復的に予測して除去するU-Netのトレーニングが含まれており、結果として得られたモデルは高忠実で多様な新しい画像を合成することができる。 U-Netの中間特徴写像は多様で差別的な特徴表現であることがわかった。 本稿では,異なる拡散U-Netブロックとノイズステップから特徴を融合したトランスフォーマーであるDifFormerとして,特徴マップをプールするための新しいアテンション機構を提案する。 また拡散に適した新しいフィードバック機構であるDifFeedを開発した。 拡散モデルはgansよりも優れており、我々の融合とフィードバックのメカニズムにより、識別タスクのための最先端の教師なし画像表現学習手法、すなわちフルおよびセミスーパービジョンによる画像分類、細粒度分類のための転送、オブジェクト検出とセグメンテーション、セマンティックセグメンテーションと競合することができる。 プロジェクトのWebサイト(https://mgwillia.github.io/diffssl/)とコード(https://github.com/soumik-kanad/diffssl)が公開されている。

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which addresses both families of tasks simultaneously. We identify diffusion models, a state-of-the-art method for generative tasks, as a prime candidate. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high-fidelity, diverse, novel images. We find that the intermediate feature maps of the U-Net are diverse, discriminative feature representations. We propose a novel attention mechanism for pooling feature maps and further leverage this mechanism as DifFormer, a transformer feature fusion of features from different diffusion U-Net blocks and noise steps. We also develop DifFeed, a novel feedback mechanism tailored to diffusion. We find that diffusion models are better than GANs, and, with our fusion and feedback mechanisms, can compete with state-of-the-art unsupervised image representation learning methods for discriminative tasks - image classification with full and semi-supervision, transfer for fine-grained classification, object detection and segmentation, and semantic segmentation. Our project website (https://mgwillia.github.io/diffssl/) and code (https://github.com/soumik-kanad/diffssl) are available publicly.
翻訳日:2023-11-30 20:12:07 公開日:2023-11-29
# ビジュアルアナグラム:拡散モデルを用いた多視点光錯覚の生成

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models ( http://arxiv.org/abs/2311.17919v1 )

ライセンス: Link先を確認
Daniel Geng, Inbum Park, Andrew Owens(参考訳) マルチビュー光イリュージョンを合成する問題、すなわちフリップや回転のような変換によって外観が変化する画像に対処する。 既成のテキスト・ツー・イメージ拡散モデルからこれらの錯覚を得るためのシンプルなゼロショット法を提案する。 逆拡散過程において,雑音画像の異なる視点から雑音を推定する。 そして、これらのノイズの見積もりを組み合わせることで、画像をデノベーションします。 理論的解析によれば、この方法は直交変換として記述できるビューに対して正確に機能し、置換は部分集合である。 これは、あるピクセルの再配置の下で外観を変える視覚的アナグラム(英語版)というイメージのアイデアに繋がる。 これは回転やフリップを含むが、ジグソー再構成のようなよりエキゾチックなピクセル置換も含む。 私たちのアプローチは、自然に2つ以上の視点で幻想にまで拡張します。 本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。 さらなる視覚化と結果については、プロジェクトのWebページを参照してください。

We address the problem of synthesizing multi-view optical illusions: images that change appearance upon a transformation, such as a flip or rotation. We propose a simple, zero-shot method for obtaining these illusions from off-the-shelf text-to-image diffusion models. During the reverse diffusion process, we estimate the noise from different views of a noisy image. We then combine these noise estimates together and denoise the image. A theoretical analysis suggests that this method works precisely for views that can be written as orthogonal transformations, of which permutations are a subset. This leads to the idea of a visual anagram--an image that changes appearance under some rearrangement of pixels. This includes rotations and flips, but also more exotic pixel permutations such as a jigsaw rearrangement. Our approach also naturally extends to illusions with more than two views. We provide both qualitative and quantitative results demonstrating the effectiveness and flexibility of our method. Please see our project webpage for additional visualizations and results: https://dangeng.github.io/visual_anagrams/
翻訳日:2023-11-30 20:11:45 公開日:2023-11-29
# 未来へのドライブ: 自律運転のための世界モデルによる多視点視覚予測と計画

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving ( http://arxiv.org/abs/2311.17918v1 )

ライセンス: Link先を確認
Yuqi Wang, Jiawei He, Lue Fan, Hongxin Li, Yuntao Chen, Zhaoxiang Zhang(参考訳) 自動運転では、将来の出来事を事前に予測し、予測可能なリスクを評価することで、自動運転車は行動の計画を改善し、道路の安全性と効率を高めることができる。 この目的のために、我々は既存のエンド・ツー・エンドの計画モデルと互換性のある最初の駆動世界モデルであるDrive-WMを提案する。 ビューファクタライゼーションによる協調的な空間・時空間モデリングにより,運転シーンにおいて高忠実度マルチビュー映像を生成する。 我々は、その強力な世代能力に基づいて、安全な運転計画に世界モデルを適用する可能性を示す。 特に、ドライブwmは、異なる運転操作に基づいて複数の未来への運転を可能にし、画像に基づく報酬に応じて最適な軌道を決定する。 実世界の運転データセットの評価から,本手法が高品質で一貫した,制御可能なマルチビュービデオを生成することを確認し,実世界のシミュレーションや安全な計画の可能性を開放する。

In autonomous driving, predicting future events in advance and evaluating the foreseeable risks empowers autonomous vehicles to better plan their actions, enhancing safety and efficiency on the road. To this end, we propose Drive-WM, the first driving world model compatible with existing end-to-end planning models. Through a joint spatial-temporal modeling facilitated by view factorization, our model generates high-fidelity multiview videos in driving scenes. Building on its powerful generation ability, we showcase the potential of applying the world model for safe driving planning for the first time. Particularly, our Drive-WM enables driving into multiple futures based on distinct driving maneuvers, and determines the optimal trajectory according to the image-based rewards. Evaluation on real-world driving datasets verifies that our method could generate high-quality, consistent, and controllable multiview videos, opening up possibilities for real-world simulations and safe planning.
翻訳日:2023-11-30 20:11:30 公開日:2023-11-29
# AvatarStudio:テキストから高忠実でアニマタブルな3Dアバター作成

AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text ( http://arxiv.org/abs/2311.17917v1 )

ライセンス: Link先を確認
Jianfeng Zhang, Xuanmeng Zhang, Huichao Zhang, Jun Hao Liew, Chenxu Zhang, Yi Yang, Jiashi Feng(参考訳) テキスト記述のみから高忠実でアニマタブルな3Dアバターを作成する問題について検討する。 既存のtext-to-avatarメソッドは、アニメーションできない静的アバターに制限されるか、将来性のある品質と正確なポーズ制御を備えたアニメーション可能なアバターを生成するのに苦労する。 これらの制約に対処するため,アニマタブルなヒトアバターに対して,明瞭なテクスチャ化された3Dメッシュを生成する粗大な生成モデルであるAvatarStudioを提案する。 特に、AvatarStudioは、粗い生成のための低解像度のNeRFベースの表現から始まり、次にSMPL誘導の調音を明示的なメッシュ表現に組み込んで、アバターアニメーションと高解像度レンダリングをサポートする。 そこで, 本研究では, DensePose で設定した2次元拡散モデルを用いて, スコア蒸留サンプリングの監視を行う。 アバタースタディオは、調停されたメッシュ表現と高密度条件拡散モデルとの相乗効果を効果的に活用することにより、アニメーションの準備が整ったテキストから高品質のアバターを作成できる。 さらに、マルチモーダルアバターアニメーションやスタイル誘導アバター作成など、多くのアプリケーションに向いている。 詳細はプロジェクトのページを参照。 http://jeff95.me/projects/avatarstudio.html。

We study the problem of creating high-fidelity and animatable 3D avatars from only textual descriptions. Existing text-to-avatar methods are either limited to static avatars which cannot be animated or struggle to generate animatable avatars with promising quality and precise pose control. To address these limitations, we propose AvatarStudio, a coarse-to-fine generative model that generates explicit textured 3D meshes for animatable human avatars. Specifically, AvatarStudio begins with a low-resolution NeRF-based representation for coarse generation, followed by incorporating SMPL-guided articulation into the explicit mesh representation to support avatar animation and high resolution rendering. To ensure view consistency and pose controllability of the resulting avatars, we introduce a 2D diffusion model conditioned on DensePose for Score Distillation Sampling supervision. By effectively leveraging the synergy between the articulated mesh representation and the DensePose-conditional diffusion model, AvatarStudio can create high-quality avatars from text that are ready for animation, significantly outperforming previous methods. Moreover, it is competent for many applications, e.g., multimodal avatar animations and style-guided avatar creation. For more results, please refer to our project page: http://jeff95.me/projects/avatarstudio.html
翻訳日:2023-11-30 20:11:14 公開日:2023-11-29
# OPERA:マルチモーダル大言語モデルにおける過度な罰とふりかえりによる幻覚の緩和

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation ( http://arxiv.org/abs/2311.17911v1 )

ライセンス: Link先を確認
Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu(参考訳) マルチモーダルな大規模言語モデル(MLLM)の広汎な挑戦として提起された幻覚は、正確な判断を要求する現実世界の使用を著しく妨げている。 既存の方法は、特定の設計データによるトレーニングや、他のソースからの外部知識による推論によってこの問題を軽減する。 本稿では,過剰な信頼感と遡及的配置戦略を基礎とした新たなmllm復号法であるoperaを,追加データや知識,訓練を伴わずに幻覚問題を緩和するための,ほぼ無償のランチとして提供する。 我々のアプローチは、ほとんどの幻覚は自己注意行列に現れる知識集約パターンと密接に結びついている、すなわちMLLMはいくつかの要約トークンに焦点をあてて新しいトークンを生成する傾向がある、という興味深い観察から始まります。 このような部分的な過剰な傾きは、画像トークンを無視し、幻覚を伴う画像内容を記述する。 統計的には、幻覚内容とそのような知識集約パターンの間に80%$\sim$95%のコカレンシーレートが観察される。 この観察に基づいてoperaは、ビームサーチデコード中にモデルロジットにペナルティ項を導入し、過剰な信頼の問題を軽減するとともに、事前に生成されたトークンにおける要約トークンの存在を振り返り、必要に応じてトークン選択を再配置するロールバック戦略を導入する。 大規模な実験により、OPERAは様々なMLLMとメトリクスに対して幻覚軽減性能を示し、その効果と汎用性を証明した。 私たちのコードは、https://github.com/shikiw/OPERA.comで利用可能です。

Hallucination, posed as a pervasive challenge of multi-modal large language models (MLLMs), has significantly impeded their real-world usage that demands precise judgment. Existing methods mitigate this issue with either training with specific designed data or inferencing with external knowledge from other sources, incurring inevitable additional costs. In this paper, we present OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate the hallucination issue without additional data, knowledge, or training. Our approach begins with an interesting observation that, most hallucinations are closely tied to the knowledge aggregation patterns manifested in the self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a few summary tokens, but not all the previous tokens. Such partial over-trust inclination results in the neglecting of image tokens and describes the image content with hallucination. Statistically, we observe an 80%$\sim$95% co-currency rate between hallucination contents and such knowledge aggregation patterns. Based on the observation, OPERA introduces a penalty term on the model logits during the beam-search decoding to mitigate the over-trust issue, along with a rollback strategy that retrospects the presence of summary tokens in the previously generated tokens, and re-allocate the token selection if necessary. With extensive experiments, OPERA shows significant hallucination-mitigating performance on different MLLMs and metrics, proving its effectiveness and generality. Our code is available at: https://github.com/shikiw/OPERA.
翻訳日:2023-11-30 20:10:49 公開日:2023-11-29
# HUGS: 人間のガウススプラッター

HUGS: Human Gaussian Splats ( http://arxiv.org/abs/2311.17910v1 )

ライセンス: Link先を確認
Muhammed Kocabas, Jen-Hao Rick Chang, James Gabriel, Oncel Tuzel, Anurag Ranjan(参考訳) 最近のニューラルレンダリングの進歩は、トレーニング時間とレンダリング時間の両方を桁違いに改善した。 これらの手法は最先端の品質と速度を実証するが、静的なシーンのフォトグラム化のために設計されており、環境中を自由に動く人間にはうまく一般化しない。 本研究では,3次元ガウススプラッティング(3DGS)を用いてアニメーション可能な人間を表すHuman Gaussian Splats(Human Gaussian Splats)を紹介する。 本手法は,少数の(50-100)フレームのモノクロ映像のみを撮影し,30分以内に静止シーンと完全にアニメーション可能な人間のアバターを自動で切り離すことを学習する。 SMPLボディーモデルを用いてヒトガウスを初期化する。 SMPL(布、毛髪など)でモデル化されていない詳細を捉えるために、3Dガウス人が人体モデルから逸脱することを許す。 3Dガウシアンをアニメーション人間に利用することで、ガウシアンを表現した人工物など、新たな課題がもたらされる。 アニメーション中の個々のガウス人の動きを調整するために,線形ブレンドスキン化重みを共同で最適化する。 本手法は,人間とシーンの両方の新規なビュー合成と新規なビュー合成を可能にする。 我々は60FPSのレンダリング速度で最先端のレンダリング品質を実現し、従来の作業よりも100倍高速なトレーニングを実現した。 私たちのコードはここで発表されます。

Recent advances in neural rendering have improved both training and rendering times by orders of magnitude. While these methods demonstrate state-of-the-art quality and speed, they are designed for photogrammetry of static scenes and do not generalize well to freely moving humans in the environment. In this work, we introduce Human Gaussian Splats (HUGS) that represents an animatable human together with the scene using 3D Gaussian Splatting (3DGS). Our method takes only a monocular video with a small number of (50-100) frames, and it automatically learns to disentangle the static scene and a fully animatable human avatar within 30 minutes. We utilize the SMPL body model to initialize the human Gaussians. To capture details that are not modeled by SMPL (e.g. cloth, hairs), we allow the 3D Gaussians to deviate from the human body model. Utilizing 3D Gaussians for animated humans brings new challenges, including the artifacts created when articulating the Gaussians. We propose to jointly optimize the linear blend skinning weights to coordinate the movements of individual Gaussians during animation. Our approach enables novel-pose synthesis of human and novel view synthesis of both the human and the scene. We achieve state-of-the-art rendering quality with a rendering speed of 60 FPS while being ~100x faster to train over previous work. Our code will be announced here: https://github.com/apple/ml-hugs
翻訳日:2023-11-30 20:10:18 公開日:2023-11-29
# CG3D:ガウススプラッティングによるテキストから3Dへの合成生成

CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting ( http://arxiv.org/abs/2311.17907v1 )

ライセンス: Link先を確認
Alexander Vilesov, Pradyumna Chari, Achuta Kadambi(参考訳) 拡散に基づく生成モデルの開始とテキスト条件付き画像の生成能力により、コンテンツ生成は大きな活力を得た。 近年,これらのモデルが3dグラフィックアセットの生成に有用なガイダンスとなることが示されている。 しかし、テキスト条件の3D生成における既存の作業は、基本的な制約に直面している。 (i)詳細多目的シーンを生成できないこと。 (ii)多目的構成をテキストで制御できないこと、 (iii)実写的なシーン構成。 本研究では,これらの制約を解決するスケーラブルな3Dアセットを合成生成するCG3Dを提案する。 対象の合成を可能にするためにパラメータ化された明示的なガウス放射場には,意味的および物理的に一貫したシーンを可能にする能力があることがわかった。 この明示的な表現を中心に構築されたガイダンスフレームワークを利用することで、対象の組合せや物理精度の観点からも、誘導拡散モデルを超え得る技術結果の状態を提示する。

With the onset of diffusion-based generative models and their ability to generate text-conditioned images, content generation has received a massive invigoration. Recently, these models have been shown to provide useful guidance for the generation of 3D graphics assets. However, existing work in text-conditioned 3D generation faces fundamental constraints: (i) inability to generate detailed, multi-object scenes, (ii) inability to textually control multi-object configurations, and (iii) physically realistic scene composition. In this work, we propose CG3D, a method for compositionally generating scalable 3D assets that resolves these constraints. We find that explicit Gaussian radiance fields, parameterized to allow for compositions of objects, possess the capability to enable semantically and physically consistent scenes. By utilizing a guidance framework built around this explicit representation, we show state of the art results, capable of even exceeding the guiding diffusion model in terms of object combinations and physics accuracy.
翻訳日:2023-11-30 20:09:03 公開日:2023-11-29
# 言語条件検出トランス

Language-conditioned Detection Transformer ( http://arxiv.org/abs/2311.17902v1 )

ライセンス: Link先を確認
Jang Hyun Cho, Philipp Kr\"ahenb\"uhl(参考訳) 新たにオープン語彙検出フレームワークを提案する。 本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。 私たちの枠組みは3つのステップで進みます。 まず,完全教師付き検出データに基づいて言語条件付き物体検出器を訓練する。 この検出器は、トレーニング中に地上の真理クラスの存在または欠落を確認し、現在のクラスのセットに関する条件予測を行う。 画像レベルラベル付き擬似ラベル画像にこの検出器を用いる。 この検出器は、条件付け機構による従来のアプローチよりもはるかに正確な擬似ラベルを提供する。 最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。 DECOLAと名付けられたこの検出器は、オープン語彙のLVISベンチマークや、LVIS、COCO、Object365、OpenImagesの直接ゼロショット転送ベンチマークで強力なゼロショット性能を示している。 DECOLAは、ゼロショットLVISベンチマークで17.1 AP-rareと9.4 mAPで先行技術を上回っている。 DECOLAは、オープンソースのデータと学術規模のコンピューティングのみをトレーニングすることで、さまざまなモデルサイズ、アーキテクチャ、データセットの最先端の結果を達成する。 コードはhttps://github.com/janghyuncho/decolaで入手できる。

We present a new open-vocabulary detection framework. Our framework uses both image-level labels and detailed detection annotations when available. Our framework proceeds in three steps. We first train a language-conditioned object detector on fully-supervised detection data. This detector gets to see the presence or absence of ground truth classes during training, and conditions prediction on the set of present classes. We use this detector to pseudo-label images with image-level labels. Our detector provides much more accurate pseudo-labels than prior approaches with its conditioning mechanism. Finally, we train an unconditioned open-vocabulary detector on the pseudo-annotated images. The resulting detector, named DECOLA, shows strong zero-shot performance in open-vocabulary LVIS benchmark as well as direct zero-shot transfer benchmarks on LVIS, COCO, Object365, and OpenImages. DECOLA outperforms the prior arts by 17.1 AP-rare and 9.4 mAP on zero-shot LVIS benchmark. DECOLA achieves state-of-the-art results in various model sizes, architectures, and datasets by only training on open-sourced data and academic-scale computing. Code is available at https://github.com/janghyuncho/DECOLA.
翻訳日:2023-11-30 20:08:46 公開日:2023-11-29
# SODA:表現学習のためのボットネック拡散モデル

SODA: Bottleneck Diffusion Models for Representation Learning ( http://arxiv.org/abs/2311.17901v1 )

ライセンス: Link先を確認
Drew A. Hudson, Daniel Zoran, Mateusz Malinowski, Andrew K. Lampinen, Andrew Jaegle, James L. McClelland, Loic Matthey, Felix Hill, Alexander Lerchner(参考訳) 本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。 このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、それによって関連する新規ビューの生成が導かれる。 我々は,エンコーダとデノイジングデコーダの間の密なボトルネックを課し,新しいビュー合成を自己教師付き目標として活用することにより,拡散モデルを強い表現学習者に変換し,教師なしの視覚的意味を捉えることができることを示す。 我々の知る限り、SODAはImageNetの線形プローブ分類を成功させた最初の拡散モデルであり、同時に、幅広いデータセットにわたる再構成、編集、合成タスクを達成している。 さらなる調査により、モデルが生成した画像の制御と操作に有効なインターフェースとして機能する、創発的潜在空間の絡み合った性質が明らかにされる。 全体としては、画像生成だけでなく、リッチでロバストな表現を学ぶために、拡散モデルのエキサイティングで有望な可能性に光を当てようとしている。

We introduce SODA, a self-supervised diffusion model, designed for representation learning. The model incorporates an image encoder, which distills a source view into a compact representation, that, in turn, guides the generation of related novel views. We show that by imposing a tight bottleneck between the encoder and a denoising decoder, and leveraging novel view synthesis as a self-supervised objective, we can turn diffusion models into strong representation learners, capable of capturing visual semantics in an unsupervised manner. To the best of our knowledge, SODA is the first diffusion model to succeed at ImageNet linear-probe classification, and, at the same time, it accomplishes reconstruction, editing and synthesis tasks across a wide range of datasets. Further investigation reveals the disentangled nature of its emergent latent space, that serves as an effective interface to control and manipulate the model's produced images. All in all, we aim to shed light on the exciting and promising potential of diffusion models, not only for image generation, but also for learning rich and robust representations.
翻訳日:2023-11-30 20:08:18 公開日:2023-11-29
# ゼロショットマルチモーダル合成のための知識探索法

Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis ( http://arxiv.org/abs/2311.17898v1 )

ライセンス: Link先を確認
Jinqi Luo, Kwan Ho Ryan Chan, Dimitris Dimos, Ren\'e Vidal(参考訳) 意味的詳細が不十分な不正確なプロンプトによる幻覚と不適切な合成はマルチモーダル生成モデルで広く観察されている。 複数のモダリティを調整するための一般的な戦略は、多数の注釈付きテキストイメージペアでジェネレータを微調整することである。 しかし、そのような手続きは労働力と資源消費である。 私たちは、広範囲なテキストイメージペアアノテーションを超えて、テキスト駆動生成モデルの品質と忠実性を向上できますか? そこで本稿では,外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。 ジェネリックプロンプトを処理するためにジェネレータを訓練する代わりに、KPPは知識ベースから情報的外部事実を収集するために再帰的知識クエリープロセスを使用し、獲得した知識を即時改善するために圧縮するように言語モデルに指示し、視覚合成にテキスト駆動ジェネレータを使用する。 生成モデルのアーキテクチャやパラメータにアクセスせずに、プロセス全体がゼロショットです。 異なるドメインのデータセット上で、複数のテキスト駆動生成タスク(画像、3Dレンダリング、ビデオ)でフレームワークを評価する。 さらに,KPPの拡張性と適応性について,基礎モデルベースと命令の相違による検証を行った。 以上の結果から,KPPは多様な視覚領域にまたがる忠実で意味的にリッチなコンテンツを生成することが可能であり,マルチモーダル生成モデルを改善するための有望なソリューションを提供する。

Hallucinations and unfaithful synthesis due to inaccurate prompts with insufficient semantic details are widely observed in multimodal generative models. A prevalent strategy to align multiple modalities is to fine-tune the generator with a large number of annotated text-image pairs. However, such a procedure is labor-consuming and resource-draining. The key question we ask is: can we enhance the quality and faithfulness of text-driven generative models beyond extensive text-image pair annotations? To address this question, we propose Knowledge Pursuit Prompting (KPP), a zero-shot framework that iteratively incorporates external knowledge to help generators produce reliable visual content. Instead of training generators to handle generic prompts, KPP employs a recursive knowledge query process to gather informative external facts from the knowledge base, instructs a language model to compress the acquired knowledge for prompt refinement, and utilizes text-driven generators for visual synthesis. The entire process is zero-shot, without accessing the architectures and parameters of generative models. We evaluate the framework across multiple text-driven generative tasks (image, 3D rendering, and video) on datasets of different domains. We further demonstrate the extensibility and adaptability of KPP through varying foundation model bases and instructions. Our results show that KPP is capable of generating faithful and semantically rich content across diverse visual domains, offering a promising solution to improve multimodal generative models.
翻訳日:2023-11-30 20:07:58 公開日:2023-11-29
# Betrayed by Attention: 自己監督型ビデオオブジェクトセグメンテーションのためのシンプルで効果的なアプローチ

Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation ( http://arxiv.org/abs/2311.17893v1 )

ライセンス: Link先を確認
Shuangrui Ding, Rui Qian, Haohang Xu, Dahua Lin, Hongkai Xiong(参考訳) 本稿では,自己教師付きビデオオブジェクトセグメンテーション(VOS)の簡易かつ効果的なアプローチを提案する。 我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を活用して、ビデオにおける堅牢な時空間対応を確立することである。 さらに、この対応キュー上の単純なクラスタリングは、競合セグメンテーション結果を得るのに十分である。 従来の自己監督型VOS技術は、補助的なモダリティを主に利用したり、反復的なスロットアテンションを利用してオブジェクト発見を支援したりしていた。 これらの課題に対処するため、我々は、DINO-pretrained Transformer から出現するオブジェクト性を利用して、追加のモダリティや注意をそらす必要を回避し、単純化されたアーキテクチャを開発する。 具体的には、まず1つの時空間変換ブロックを導入し、フレームワイドDINO特徴を処理し、自己注意の形で時空間依存性を確立する。 その後,これらの注目マップを利用して階層的クラスタリングを行い,オブジェクトセグメンテーションマスクを生成する。 完全自己教師型で時空間ブロックを訓練するために,エントロピー正規化と組み合わせた意味的および動的運動整合性を用いる。 DAVIS-17-Unsupervised や YouTube-VIS-19 のような複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れている。 コードとモデルチェックポイントはhttps://github.com/shvdiwnkozbw/SSL-UVOSでリリースされる。

In this paper, we propose a simple yet effective approach for self-supervised video object segmentation (VOS). Our key insight is that the inherent structural dependencies present in DINO-pretrained Transformers can be leveraged to establish robust spatio-temporal correspondences in videos. Furthermore, simple clustering on this correspondence cue is sufficient to yield competitive segmentation results. Previous self-supervised VOS techniques majorly resort to auxiliary modalities or utilize iterative slot attention to assist in object discovery, which restricts their general applicability and imposes higher computational requirements. To deal with these challenges, we develop a simplified architecture that capitalizes on the emerging objectness from DINO-pretrained Transformers, bypassing the need for additional modalities or slot attention. Specifically, we first introduce a single spatio-temporal Transformer block to process the frame-wise DINO features and establish spatio-temporal dependencies in the form of self-attention. Subsequently, utilizing these attention maps, we implement hierarchical clustering to generate object segmentation masks. To train the spatio-temporal block in a fully self-supervised manner, we employ semantic and dynamic motion consistency coupled with entropy normalization. Our method demonstrates state-of-the-art performance across multiple unsupervised VOS benchmarks and particularly excels in complex real-world multi-object video segmentation tasks such as DAVIS-17-Unsupervised and YouTube-VIS-19. The code and model checkpoints will be released at https://github.com/shvdiwnkozbw/SSL-UVOS.
翻訳日:2023-11-30 20:07:32 公開日:2023-11-29
# CCGによる談話回路用パイプライン

A Pipeline For Discourse Circuits From CCG ( http://arxiv.org/abs/2311.17892v1 )

ライセンス: Link先を確認
Jonathon Liu, Razin A. Shaikh, Benjamin Rodatz, Richie Yeung and Bob Coecke(参考訳) 言語理論と現代のNLPの実践の間には大きな隔たりがあり、それは不可解なブラックボックスアーキテクチャに大きく依存している。 DisCoCircは、言語構造を組み込んだニューロシンボリックモデルを提供することにより、この分割を橋渡しすることを目的とした、新しい意味のモデルである。 DisCoCircは自然言語のテキストを 'circuit' として表現し、テキストの中核となる意味情報をキャプチャする。 これらの回路はモジュラー機械学習モデルとして解釈できる。 さらにDisCoCircは、短期量子コンピュータで実装可能なNLPモデルを提供するというもうひとつの大きな目標を達成している。 本稿では、英語のテキストをDisCoCirc表現に変換するソフトウェアパイプラインについて述べる。 このパイプラインは、英語の大きな断片をカバーしている。 これは、入力テキストのコンビネータ分類文法(ccg)と共参照解像度情報に依存する。 この意味的および構文的情報は、テキストを単に型付けされた$\lambda$-calculus項に変換し、次に回路図に変換するために、いくつかのステップで使用される。 このパイプラインは、古典的および量子的アプローチの両方を使用して、NLPタスクへのDisCoCircフレームワークの適用を可能にする。

There is a significant disconnect between linguistic theory and modern NLP practice, which relies heavily on inscrutable black-box architectures. DisCoCirc is a newly proposed model for meaning that aims to bridge this divide, by providing neuro-symbolic models that incorporate linguistic structure. DisCoCirc represents natural language text as a `circuit' that captures the core semantic information of the text. These circuits can then be interpreted as modular machine learning models. Additionally, DisCoCirc fulfils another major aim of providing an NLP model that can be implemented on near-term quantum computers. In this paper we describe a software pipeline that converts English text to its DisCoCirc representation. The pipeline achieves coverage over a large fragment of the English language. It relies on Combinatory Categorial Grammar (CCG) parses of the input text as well as coreference resolution information. This semantic and syntactic information is used in several steps to convert the text into a simply-typed $\lambda$-calculus term, and then into a circuit diagram. This pipeline will enable the application of the DisCoCirc framework to NLP tasks, using both classical and quantum approaches.
翻訳日:2023-11-30 20:07:05 公開日:2023-11-29
# pose anything: カテゴリー非依存なポーズ推定のためのグラフベースアプローチ

Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation ( http://arxiv.org/abs/2311.17891v1 )

ライセンス: Link先を確認
Or Hirschorn, Shai Avidan(参考訳) 従来の2次元ポーズ推定モデルは、カテゴリ固有の設計によって制限され、事前定義されたオブジェクトカテゴリにのみ適合する。 この制限は、関連するトレーニングデータがないため、新しいオブジェクトを扱う際に特に困難になる。 この制限に対処するため、カテゴリーに依存しないポーズ推定(CAPE)を導入した。 capeは、任意のオブジェクトカテゴリに対して単一のモデルを使ってキーポイントのローカライズを可能にすることを目的としている。 このアプローチは任意のキーポイント定義に基づくオブジェクトポーズ生成を可能にするだけでなく、関連するコストを大幅に削減し、汎用的で適応可能なポーズ推定アプリケーションを実現する。 本稿では,新たに設計されたグラフトランスフォーマーデコーダを用いて,キーポイント間の固有幾何学的関係を利用したCAPEを提案する。 本手法は,キーポイントの局所化の精度を高め,キーポイントを独立したエンティティとして扱う従来のCAPE技術とは大きく離れていることを示す。 我々は、100以上のカテゴリにまたがる2万以上の画像からなる包括的なデータセットであるMP-100ベンチマークに対するアプローチを検証する。 提案手法は, 従来法を上回っており, 1ショット設定では2.16%, 5ショット設定では1.82%の大幅な改善を達成している。 さらに,本手法のエンドツーエンドトレーニングは,従来のcapaアプローチと比較してスケーラビリティと効率性の両方を実証する。

Traditional 2D pose estimation models are limited by their category-specific design, making them suitable only for predefined object categories. This restriction becomes particularly challenging when dealing with novel objects due to the lack of relevant training data. To address this limitation, category-agnostic pose estimation (CAPE) was introduced. CAPE aims to enable keypoint localization for arbitrary object categories using a single model, requiring minimal support images with annotated keypoints. This approach not only enables object pose generation based on arbitrary keypoint definitions but also significantly reduces the associated costs, paving the way for versatile and adaptable pose estimation applications. We present a novel approach to CAPE that leverages the inherent geometrical relations between keypoints through a newly designed Graph Transformer Decoder. By capturing and incorporating this crucial structural information, our method enhances the accuracy of keypoint localization, marking a significant departure from conventional CAPE techniques that treat keypoints as isolated entities. We validate our approach on the MP-100 benchmark, a comprehensive dataset comprising over 20,000 images spanning more than 100 categories. Our method outperforms the prior state-of-the-art by substantial margins, achieving remarkable improvements of 2.16% and 1.82% under 1-shot and 5-shot settings, respectively. Furthermore, our method's end-to-end training demonstrates both scalability and efficiency compared to previous CAPE approaches.
翻訳日:2023-11-30 20:06:45 公開日:2023-11-29
# アンサンブルは常に良くなっていますか。

Are ensembles getting better all the time? ( http://arxiv.org/abs/2311.17885v1 )

ライセンス: Link先を確認
Pierre-Alexandre Mattei, Damien Garreau(参考訳) アンサンブル法は複数の基底モデルの予測を組み合わせる。 我々は、アンサンブルにより多くのモデルを含めるかどうかを常に平均性能を改善するか検討する。 このような質問は、考えられるアンサンブルの種類と、選択された予測指標に依存する。 我々は,ランダムフォレストやディープアンサンブルなど,いくつかの一般的な手法において,アンサンブルのすべてのメンバがパフォーマンスを期待されている状況に注目した。 この設定では、考慮された損失関数が凸である場合にのみ、アンサンブルが常に良くなっていることを示す。 より正確には、アンサンブルの平均損失はモデルの数を減少させる関数である。 損失関数が非凸である場合、良いモデルのアンサンブルが良くなり、悪いモデルのアンサンブルが悪化し続けているという洞察によって要約できる一連の結果を示す。 この目的のために、独立な興味を持つ可能性のある尾確率の単調性に関する新しい結果が証明される。 本稿では,ニューラルネットワークを用いてメラノーマを診断する単純な機械学習問題について述べる。

Ensemble methods combine the predictions of several base models. We study whether or not including more models in an ensemble always improve its average performance. Such a question depends on the kind of ensemble considered, as well as the predictive metric chosen. We focus on situations where all members of the ensemble are a priori expected to perform as well, which is the case of several popular methods like random forests or deep ensembles. In this setting, we essentially show that ensembles are getting better all the time if, and only if, the considered loss function is convex. More precisely, in that case, the average loss of the ensemble is a decreasing function of the number of models. When the loss function is nonconvex, we show a series of results that can be summarised by the insight that ensembles of good models keep getting better, and ensembles of bad models keep getting worse. To this end, we prove a new result on the monotonicity of tail probabilities that may be of independent interest. We illustrate our results on a simple machine learning problem (diagnosing melanomas using neural nets).
翻訳日:2023-11-30 20:06:23 公開日:2023-11-29
# 階層的関係性: シーングラフ生成の新たな視点

Hierarchical Relationships: A New Perspective to Enhance Scene Graph Generation ( http://arxiv.org/abs/2303.06842v5 )

ライセンス: Link先を確認
Bowen Jiang and Camillo J. Taylor(参考訳) 本稿では,関係やオブジェクトのラベル間の階層構造を活用することで,シーングラフ生成システムの性能を大幅に向上できることを示す。 この研究の焦点は、オブジェクトと関係カテゴリを系統的に非結合的なスーパーカテゴリに分割できる情報的階層構造を作ることである。 具体的には、一対のオブジェクトインスタンス間の関係のスーパーカテゴリと、そのスーパーカテゴリ内の詳細な関係を同時に予測するベイズ予測ヘッドを導入し、より情報的な予測を容易にする。 結果として得られたモデルは、データセットアノテーションを超えてより広範な述語セットを生成し、低アノテーション品質の一般的な問題に取り組む能力を示す。 本稿では予備的な知見を提示するが,視覚ゲノムデータセットを用いた実験では,特に述語分類やゼロショット設定において,その高い性能を示す。

This paper presents a finding that leveraging the hierarchical structures among labels for relationships and objects can substantially improve the performance of scene graph generation systems. The focus of this work is to create an informative hierarchical structure that can divide object and relationship categories into disjoint super-categories in a systematic way. Specifically, we introduce a Bayesian prediction head to jointly predict the super-category of relationships between a pair of object instances, as well as the detailed relationship within that super-category simultaneously, facilitating more informative predictions. The resulting model exhibits the capability to produce a more extensive set of predicates beyond the dataset annotations, and to tackle the prevalent issue of low annotation quality. While our paper presents preliminary findings, experiments on the Visual Genome dataset show its strong performance, particularly in predicate classifications and zero-shot settings, that demonstrates the promise of our approach.
翻訳日:2023-11-30 16:55:14 公開日:2023-11-29
# 階層的関係性: シーングラフ生成の新たな視点

Hierarchical Relationships: A New Perspective to Enhance Scene Graph Generation ( http://arxiv.org/abs/2303.06842v4 )

ライセンス: Link先を確認
Bowen Jiang and Camillo J. Taylor(参考訳) 本稿では,関係やオブジェクトのラベル間の階層構造を活用することで,シーングラフ生成システムの性能を大幅に向上できることを示す。 この研究の焦点は、オブジェクトと関係カテゴリを系統的に非結合的なスーパーカテゴリに分割できる情報的階層構造を作ることである。 具体的には、一対のオブジェクトインスタンス間の関係のスーパーカテゴリと、そのスーパーカテゴリ内の詳細な関係を同時に予測するベイズ予測ヘッドを導入し、より情報的な予測を容易にする。 結果として得られたモデルは、データセットアノテーションを超えてより広範な述語セットを生成し、低アノテーション品質の一般的な問題に取り組む能力を示す。 本稿では予備的な知見を提示するが,視覚ゲノムデータセットを用いた実験では,特に述語分類やゼロショット設定において,その高い性能を示す。

This paper presents a finding that leveraging the hierarchical structures among labels for relationships and objects can substantially improve the performance of scene graph generation systems. The focus of this work is to create an informative hierarchical structure that can divide object and relationship categories into disjoint super-categories in a systematic way. Specifically, we introduce a Bayesian prediction head to jointly predict the super-category of relationships between a pair of object instances, as well as the detailed relationship within that super-category simultaneously, facilitating more informative predictions. The resulting model exhibits the capability to produce a more extensive set of predicates beyond the dataset annotations, and to tackle the prevalent issue of low annotation quality. While our paper presents preliminary findings, experiments on the Visual Genome dataset show its strong performance, particularly in predicate classifications and zero-shot settings, that demonstrates the promise of our approach.
翻訳日:2023-11-30 16:54:57 公開日:2023-11-29
# 量子滴の密度汎関数理論

The density-functional theory of quantum droplets ( http://arxiv.org/abs/2306.00254v3 )

ライセンス: Link先を確認
Fan Zhang and Lan Yin(参考訳) 量子滴では、平均場エネルギーはlee-huang-yang (lhy)エネルギーに匹敵する。 ボゴリューボフ理論では、量子滴のLHYエネルギーは想像上の部分を持つが、実際は無視されている。 これまでのところ、量子滴の理論的な研究は、GP方程式にLHYエネルギーを加えて得られる拡張グロス・ピタエフスキー方程式に基づいている。 本稿では,量子滴の密度汎関数理論について述べる。 提案手法では, 量子滴の量子揺らぎは実効作用によって説明され, 実数であり, 自己整合的に決定できる相関エネルギーを生成する。 密度汎関数理論を用いて、エネルギー、量子減少率、および液滴の励起に対する高次補正を計算する。 その結果, 基底状態エネルギーと量子枯渇率をモンテカルロの結果と比較し, 良好な一致を得た。 我々の理論の意義について論じる。

In quantum droplets, the mean-field energy is comparable to the Lee-Huang-Yang (LHY) energy. In the Bogoliubov theory, the LHY energy of the quantum droplet has an imaginary part, but it is neglected for practical purposes. So far, most theoretical studies of quantum droplets have been based on the extended Gross-Pitaevskii (GP) equation obtained by adding the LHY energy to the GP equation. In this article, we present the density-functional theory of quantum droplets. In our approach, the quantum fluctuations in quantum droplets, as described by an effective action, generate the correlation energy which is real and can be determined self-consistently. Using the density-functional theory, we calculate higher-order corrections to the energy, the quantum depletion fraction, and the excitations of the droplet. Our results for the ground-state energy and the quantum depletion fraction are compared with the Monte Carlo results and good agreement is found. The implications of our theory are discussed.
翻訳日:2023-11-30 15:59:00 公開日:2023-11-29
# 量子滴の密度汎関数理論

The density-functional theory of quantum droplets ( http://arxiv.org/abs/2306.00254v2 )

ライセンス: Link先を確認
Fan Zhang and Lan Yin(参考訳) 量子滴では、平均場エネルギーはlee-huang-yang (lhy)エネルギーに匹敵する。 ボゴリューボフ理論では、量子滴のLHYエネルギーは想像上の部分を持つが、実際は無視されている。 これまでのところ、量子滴の理論的な研究は、GP方程式にLHYエネルギーを加えて得られる拡張グロス・ピタエフスキー方程式に基づいている。 本稿では,量子滴の密度汎関数理論について述べる。 提案手法では, 量子滴の量子揺らぎは実効作用によって説明され, 実数であり, 自己整合的に決定できる相関エネルギーを生成する。 密度汎関数理論を用いて、エネルギー、量子減少率、および液滴の励起に対する高次補正を計算する。 その結果, 基底状態エネルギーと量子枯渇率をモンテカルロの結果と比較し, 良好な一致を得た。 我々の理論の意義について論じる。

In quantum droplets, the mean-field energy is comparable to the Lee-Huang-Yang (LHY) energy. In the Bogoliubov theory, the LHY energy of the quantum droplet has an imaginary part, but it is neglected for practical purposes. So far, most theoretical studies of quantum droplets have been based on the extended Gross-Pitaevskii (GP) equation obtained by adding the LHY energy to the GP equation. In this article, we present the density-functional theory of quantum droplets. In our approach, the quantum fluctuations in quantum droplets, as described by an effective action, generate the correlation energy which is real and can be determined self-consistently. Using the density-functional theory, we calculate higher-order corrections to the energy, the quantum depletion fraction, and the excitations of the droplet. Our results for the ground-state energy and the quantum depletion fraction are compared with the Monte Carlo results and good agreement is found. The implications of our theory are discussed.
翻訳日:2023-11-30 15:58:45 公開日:2023-11-29
# UFOGen:Diffusion GANを使った大規模テキスト・画像生成

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs ( http://arxiv.org/abs/2311.09257v3 )

ライセンス: Link先を確認
Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou(参考訳) テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。 そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。 拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。 新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。 従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。 特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models.
翻訳日:2023-11-30 12:56:42 公開日:2023-11-29
# UFOGen:Diffusion GANを使った大規模テキスト・画像生成

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs ( http://arxiv.org/abs/2311.09257v4 )

ライセンス: Link先を確認
Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou(参考訳) テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。 そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。 拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。 新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。 従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。 特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models.
翻訳日:2023-11-30 12:40:14 公開日:2023-11-29
# 変換幾何および多様体に対する物理学的不定形ニューラルネットワーク

Physics-informed neural networks for transformed geometries and manifolds ( http://arxiv.org/abs/2311.15940v2 )

ライセンス: Link先を確認
Samuel Burbulla(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理原理を機械学習に効果的に組み込むが、複雑または交互なジオメトリに苦しむことが多い。 そこで本研究では, PINN内に幾何変換を統合する手法を提案する。 本手法は、参照領域の写像として微分同相を組み込み、物理インフォームド損失関数の微分計算を適用する。 これにより、PINNは滑らかに変形した領域だけでなく、低次元多様体にも適用でき、ネットワークのトレーニング中に直接形状最適化が可能となる。 いくつかの問題に対する我々のアプローチの効果を示す。 (i)アルキメデススパイラルの固有方程式 (ii)表面多様体上のポアソン問題 (iii)変形管内の非圧縮性ストークス流、及び (iv)ラプラス演算子による形状最適化。 これらの例を通して,従来のピンの柔軟性,特に幾何学的変動について述べる。 提案したフレームワークは、パラメータ化されたジオメトリよりも深いニューラル演算子を訓練するための見通しを示し、科学と工学における複雑なジオメトリ上のPDEを用いた高度なモデリングの道を開く。

Physics-informed neural networks (PINNs) effectively embed physical principles into machine learning, but often struggle with complex or alternating geometries. We propose a novel method for integrating geometric transformations within PINNs to robustly accommodate geometric variations. Our method incorporates a diffeomorphism as a mapping of a reference domain and adapts the derivative computation of the physics-informed loss function. This generalizes the applicability of PINNs not only to smoothly deformed domains, but also to lower-dimensional manifolds and allows for direct shape optimization while training the network. We demonstrate the effectivity of our approach on several problems: (i) Eikonal equation on Archimedean spiral, (ii) Poisson problem on surface manifold, (iii) Incompressible Stokes flow in deformed tube, and (iv) Shape optimization with Laplace operator. Through these examples, we demonstrate the enhanced flexibility over traditional PINNs, especially under geometric variations. The proposed framework presents an outlook for training deep neural operators over parametrized geometries, paving the way for advanced modeling with PDEs on complex geometries in science and engineering.
翻訳日:2023-11-30 12:33:35 公開日:2023-11-29
# PKU-I2IQA:AI生成画像の品質評価データベース

PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI Generated Images ( http://arxiv.org/abs/2311.15556v2 )

ライセンス: Link先を確認
Jiquan Yuan, Xinyan Cao, Changjin Li, Fanyi Yang, Jinlong Lin, and Xixin Cao(参考訳) 画像生成技術の進歩に伴い、さまざまな分野でAIベースの画像生成が適用され、AIGC(Artificial Intelligence Generated Content)が注目を集めている。 しかし、aiベースの画像生成モデルの開発は、新しい問題と課題をもたらす。 重要な課題は、AI生成画像(AIGI)が自然画像と比較して独特の歪みを示し、全ての生成された画像が現実世界の要求を満たすわけではないことである。 そのため,AIGIを総合的に評価することが重要である。 従来の研究では、テキスト生成画像のための人間の知覚に基づくaigc画像品質評価(aigciqa)データベースをいくつか確立しているが、ai画像生成技術には、テキスト対画像や画像対画像のようなシナリオが含まれており、テキスト対画像モデルで生成された画像のみが不十分である。 この問題に対処するため,PKU-I2IQAという人間の知覚に基づく画像から画像へのAIGCIQAデータベースを構築した。 我々は,aigisの品質ラベルを収集し,pku-i2iqaデータベースの包括的分析を行うための主観的実験を行った。 さらに,非参照画像品質評価法に基づくNR-AIGCIQAとフル参照画像品質評価法に基づくFR-AIGCIQAの2つのベンチマークモデルを提案した。 最後に、このデータベースを利用してベンチマーク実験を行い、提案するベンチマークモデルの性能を比較する。 PKU-I2IQAデータベースとベンチマークは、将来の研究を促進するためにリリースされる。

As image generation technology advances, AI-based image generation has been applied in various fields and Artificial Intelligence Generated Content (AIGC) has garnered widespread attention. However, the development of AI-based image generative models also brings new problems and challenges. A significant challenge is that AI-generated images (AIGI) may exhibit unique distortions compared to natural images, and not all generated images meet the requirements of the real world. Therefore, it is of great significance to evaluate AIGIs more comprehensively. Although previous work has established several human perception-based AIGC image quality assessment (AIGCIQA) databases for text-generated images, the AI image generation technology includes scenarios like text-to-image and image-to-image, and assessing only the images generated by text-to-image models is insufficient. To address this issue, we establish a human perception-based image-to-image AIGCIQA database, named PKU-I2IQA. We conduct a well-organized subjective experiment to collect quality labels for AIGIs and then conduct a comprehensive analysis of the PKU-I2IQA database. Furthermore, we have proposed two benchmark models: NR-AIGCIQA based on the no-reference image quality assessment method and FR-AIGCIQA based on the full-reference image quality assessment method. Finally, leveraging this database, we conduct benchmark experiments and compare the performance of the proposed benchmark models. The PKU-I2IQA database and benchmarks will be released to facilitate future research on \url{https://github.com/jiquan123/I2IQA}.
翻訳日:2023-11-30 12:33:16 公開日:2023-11-29
# スケーラブルな3次元異常検出と局所化に向けて:3次元異常合成と自己改善学習ネットワークによるベンチマーク

Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3D Anomaly Synthesis and A Self-Supervised Learning Network ( http://arxiv.org/abs/2311.14897v2 )

ライセンス: Link先を確認
Wenqiao Li, Xiaohao Xu, Yao Gu, Bozhong Zheng, Shenghua Gao, Yingna Wu(参考訳) 近年,細粒度形状の識別に関わる重要な問題である3次元異常検出が注目されている。 しかし、豊富な実3D異常データの欠如は、現在のモデルのスケーラビリティを制限している。 スケーラブルな異常データ収集を実現するため,既存の大規模3次元モデルに適応する3次元異常合成パイプラインを提案する。 具体的には,ShapeNetに基づく合成データセット,すなわちAnomaly-ShapeNetを構築する。 Anomaly-ShapeNetは、40カテゴリ以下の1600点のクラウドサンプルで構成されており、豊かで多様なデータの収集を提供し、効率的なトレーニングと産業シナリオへの適応性の向上を可能にする。 一方,3次元異常局所化のためのスケーラブルな表現学習を実現するために,反復マスク再構成ネットワーク(IMRNet)を提案する。 学習中,ポイントクラウドダウンサンプリング中に異常な局所領域を保存できる幾何対応サンプルモジュールを提案する。 そして、ランダムに点パッチをマスクし、可視パッチを変換器に送信し、再構成に基づく自己監督を行う。 テスト中、ポイントクラウドは繰り返しマスク再構成ネットワークを通過し、各イテレーションの出力が次の入力となる。 最終再構成点雲と初期入力をマージして対比することにより, 異常を同定することに成功した。 実験の結果、IMRNetは従来の最先端の手法よりも優れており、Anomaly-ShapeNetデータセットでは66.1%、Real3D-ADデータセットでは72.5%である。 私たちのデータセットはhttps://github.com/Chopper-233/Anomaly-ShapeNetでリリースされます。

Recently, 3D anomaly detection, a crucial problem involving fine-grained geometry discrimination, is getting more attention. However, the lack of abundant real 3D anomaly data limits the scalability of current models. To enable scalable anomaly data collection, we propose a 3D anomaly synthesis pipeline to adapt existing large-scale 3Dmodels for 3D anomaly detection. Specifically, we construct a synthetic dataset, i.e., Anomaly-ShapeNet, basedon ShapeNet. Anomaly-ShapeNet consists of 1600 point cloud samples under 40 categories, which provides a rich and varied collection of data, enabling efficient training and enhancing adaptability to industrial scenarios. Meanwhile,to enable scalable representation learning for 3D anomaly localization, we propose a self-supervised method, i.e., Iterative Mask Reconstruction Network (IMRNet). During training, we propose a geometry-aware sample module to preserve potentially anomalous local regions during point cloud down-sampling. Then, we randomly mask out point patches and sent the visible patches to a transformer for reconstruction-based self-supervision. During testing, the point cloud repeatedly goes through the Mask Reconstruction Network, with each iteration's output becoming the next input. By merging and contrasting the final reconstructed point cloud with the initial input, our method successfully locates anomalies. Experiments show that IMRNet outperforms previous state-of-the-art methods, achieving 66.1% in I-AUC on Anomaly-ShapeNet dataset and 72.5% in I-AUC on Real3D-AD dataset. Our dataset will be released at https://github.com/Chopper-233/Anomaly-ShapeNet
翻訳日:2023-11-30 12:32:50 公開日:2023-11-29
# LM-Cocktail: モデルマージによる言語モデルの回復性チューニング

LM-Cocktail: Resilient Tuning of Language Models via Model Merging ( http://arxiv.org/abs/2311.13534v3 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing(参考訳) 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。 しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。 この問題を克服するため、我々は細調整されたモデルが一般的な視点で弾力性を維持することができるLM-Cocktailを提案する。 提案手法はモデルマージの形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。 LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。 提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。 コードとチェックポイントはhttps://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktailで確認できる。

The pre-trained language models are continually fine-tuned to better support downstream applications. However, this operation may result in significant performance degeneration on general tasks beyond the targeted domain. To overcome this problem, we propose LM-Cocktail which enables the fine-tuned model to stay resilient in general perspectives. Our method is conducted in the form of model merging, where the fine-tuned language model is merged with the pre-trained base model or the peer models from other domains through weighted average. Despite simplicity, LM-Cocktail is surprisingly effective: the resulted model is able to achieve a strong empirical performance in the whole scope of general tasks while preserving a superior capacity in its targeted domain. We conduct comprehensive experiments with LLama and BGE model on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the efficacy of our proposed method. The code and checkpoints are available at https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail.
翻訳日:2023-11-30 12:32:22 公開日:2023-11-29
# 大言語モデルは強化学習エージェントの訓練に優れた政策教師である

Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v3 )

ライセンス: Link先を確認
Zihao Zhou, Bin Hu, Pu Zhang, Chenyang Zhao, Bin Liu(参考訳) 近年,Large Language Models (LLMs) は高レベルな指示を提供することで,複雑な逐次決定課題の解決に有効であることが示された。 しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。 さらに、このようなLCMベースのエージェントの配備は、実用シナリオにおいてコストと時間の両方を消費する。 本稿では,LLMをベースとした教師エージェントからの指示を用いて,小規模の専門学生エージェントを訓練することで,これらの課題に対処する新しい枠組みを提案する。 教師が提供した指導的行動を活用することで、LLMの事前知識を地元の学生モデルに蒸留する。 これにより、学生エージェントを著しく少ないデータで訓練することができる。 さらに、その後の環境フィードバックによるトレーニングにより、学生エージェントは教師の能力を超えることができる。 提案手法の有効性を評価するため,3つの挑戦的ミニグリッド環境について実験を行った。 その結果,本手法はサンプル効率を高め,ベースライン法よりも優れた性能を得ることができた。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teachで利用可能です。

Recent studies have shown that Large Language Models (LLMs) can be utilized for solving complex sequential decision-making tasks by providing high-level instructions. However, LLM-based agents face limitations in real-time dynamic environments due to their lack of specialization in solving specific target problems. Moreover, the deployment of such LLM-based agents is both costly and time-consuming in practical scenarios. In this paper, we introduce a novel framework that addresses these challenges by training a smaller scale specialized student agent using instructions from an LLM-based teacher agent. By leveraging guided actions provided by the teachers, the prior knowledge of the LLM is distilled into the local student model. Consequently, the student agent can be trained with significantly less data. Furthermore, subsequent training with environment feedback empowers the student agents to surpass the capabilities of their teachers. We conducted experiments on three challenging MiniGrid environments to evaluate the effectiveness of our framework. The results demonstrate that our approach enhances sample efficiency and achieves superior performance compared to baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/LLM4Teach.
翻訳日:2023-11-30 12:32:03 公開日:2023-11-29
# エゴセントリックビデオにおける視覚言語モデルの効率的なインコンテキスト学習

Efficient In-Context Learning in Vision-Language Models for Egocentric Videos ( http://arxiv.org/abs/2311.17041v2 )

ライセンス: Link先を確認
Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Joyce Chai(参考訳) テキストのみ大規模言語モデル(llm)の最近の進歩は、いくつかのデモで新しいタスクに適応するためのコンテキスト内学習の利点を強調している。 しかし、大量の自然主義的視覚言語データを用いて、コンテキスト内学習を大規模視覚言語モデル(VLM)に拡張することは、特にエゴセントリックなビデオにおいて、高いデータ収集コストのために、限られた成功を示している。 そこで,本研究では,vlms におけるコンテキスト内学習をエゴセントリックなビデオデータセットを必要とせず,vlm で学習する新しい学習法である $\mathbb{e}$fficient $\mathbb{i}$n-context $\mathbb{l}$earning on $\mathbb{e}$gocentric$\mathbb{v}$ideos (\mathbb{eilev}$) を提案する。 $\mathbb{EILEV}$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるようにするための、アーキテクチャとトレーニングのデータ適応、類似した動詞と名詞のクラスタによるコンテキスト内サンプルのサンプリング、希少な動詞と名詞の長い尾を持つスキューされた辺縁分布を持つデータの使用、および同義語とシノニムを含む。 評価の結果,$\mathbb{EILEV}$-trained model は,文脈内学習において大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。 さらに彼らは、アウトオブディストリビューションだけでなく、新しい、珍しいエゴセントリックなビデオやテキストをインコンテキスト学習を通じて一般化し、コスト効率のよいトレーニングとデプロイ後の迅速な適応性を必要とするアプリケーションの可能性を示している。 コードとデモは \url{https://github.com/yukw777/EILEV} で公開されている。

Recent advancements in text-only large language models (LLMs) have highlighted the benefit of in-context learning for adapting to new tasks with a few demonstrations. However, extending in-context learning to large vision-language models (VLMs) using a huge amount of naturalistic vision-language data has shown limited success, particularly for egocentric videos, due to high data collection costs. We propose a novel training method $\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on $\mathbb{E}$gocentric $\mathbb{V}$ideos ($\mathbb{EILEV}$), which elicits in-context learning in VLMs for egocentric videos without requiring massive, naturalistic egocentric video datasets. $\mathbb{EILEV}$ involves architectural and training data adaptations to allow the model to process contexts interleaved with video clips and narrations, sampling of in-context examples with clusters of similar verbs and nouns, use of data with skewed marginal distributions with a long tail of infrequent verbs and nouns, as well as homonyms and synonyms. Our evaluations show that $\mathbb{EILEV}$-trained models outperform larger VLMs trained on a huge amount of naturalistic data in in-context learning. Furthermore, they can generalize to not only out-of-distribution, but also novel, rare egocentric videos and texts via in-context learning, demonstrating potential for applications requiring cost-effective training, and rapid post-deployment adaptability. Our code and demo are available at \url{https://github.com/yukw777/EILEV}.
翻訳日:2023-11-30 12:21:41 公開日:2023-11-29
# ChatGPTの1周年 - オープンソースの大規模言語モデルは追いつくのか?

ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? ( http://arxiv.org/abs/2311.16989v2 )

ライセンス: Link先を確認
Hailin Chen, Fangkai Jiao, Xingxuan Li, Chengwei Qin, Mathieu Ravaut, Ruochen Zhao, Caiming Xiong, Shafiq Joty(参考訳) 2022年後半にリリースされたChatGPTは、研究と商業の両方において、AIのランドスケープ全体において、地震的な変化をもたらした。 大規模言語モデル(LLM)の教師付き微調整と人間からのフィードバックによる強化学習を通じて,モデルが人間の質問に答え,タスクの広いパネルで指示に従うことを示した。 この成功の後、LLMへの関心が高まり、新しいLLMは学界や業界で頻繁な間隔で繁栄し、LSMに焦点を絞ったスタートアップも数多く存在する。 オープンソースLCM(OpenAIのGPT、AnthropicのClaudeなど)は、一般的にオープンソースよりも優れているが、後者の進歩は、パーティを達成するか、特定のタスクでさらに優れているという主張によって急速に進んでいる。 これは研究だけでなくビジネスにも重要な意味を持つ。 本稿では,ChatGPT の1周年を記念して,オープンソース LLM が ChatGPT と同等かそれ以上であると主張するすべてのタスクについて,その成功の概要を概観する。

Upon its release in late 2022, ChatGPT has brought a seismic shift in the entire landscape of AI, both in research and commerce. Through instruction-tuning a large language model (LLM) with supervised fine-tuning and reinforcement learning from human feedback, it showed that a model could answer human questions and follow instructions on a broad panel of tasks. Following this success, interests in LLMs have intensified, with new LLMs flourishing at frequent interval across academia and industry, including many start-ups focused on LLMs. While closed-source LLMs (e.g., OpenAI's GPT, Anthropic's Claude) generally outperform their open-source counterparts, the progress on the latter has been rapid with claims of achieving parity or even better on certain tasks. This has crucial implications not only on research but also on business. In this work, on the first anniversary of ChatGPT, we provide an exhaustive overview of this success, surveying all tasks where an open-source LLM has claimed to be on par or better than ChatGPT.
翻訳日:2023-11-30 12:20:57 公開日:2023-11-29
# 構造的アクティブプルーニングによる大規模ニューラルネットワークの後方通過圧縮

Compressing the Backward Pass of Large-Scale Neural Architectures by Structured Activation Pruning ( http://arxiv.org/abs/2311.16883v2 )

ライセンス: Link先を確認
Daniel Barley, Holger Fr\"oning(参考訳) ディープニューラルネットワーク(DNN)の台頭により、モデルサイズと複雑性が増加し、GPUのメモリ容量が制限された。 構造的あるいは短命的な特徴を持つDNNのスパーシリティは、ソリューションとして注目されている。 この研究は、トレーニング中のメモリ消費を減らすことを目的とした、短命なスパーシティに焦点を当てている。 しばしば見過ごされるコンポーネントであるアクティベーションの重要性と、メモリ使用におけるそれらの役割を強調している。 この研究は、Block Sparse Compressed Row (BSR)フォーマットで構造化されたプルーニングと、マグニチュードベースの基準を組み合わせて、効率的にプルー活性化を行う。 さらに、GPUのための効率的なブロックスパース演算子を導入し、その性能とブロック間隔による優れた圧縮を示す。 画像分類タスクにおけるResMLPの例として,大規模ニューラルネットワークのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。 その結果,精度を維持しつつ,最大32%のメモリ削減を観測した。 最終的には、大規模なモデルトレーニングの民主化、GPU要件の削減、生態的な懸念への対処を目的としています。

The rise of Deep Neural Networks (DNNs) has led to an increase in model size and complexity, straining the memory capacity of GPUs. Sparsity in DNNs, characterized as structural or ephemeral, has gained attention as a solution. This work focuses on ephemeral sparsity, aiming to reduce memory consumption during training. It emphasizes the significance of activations, an often overlooked component, and their role in memory usage. This work employs structured pruning in Block Sparse Compressed Row (BSR) format in combination with a magnitude-based criterion to efficiently prune activations. We furthermore introduce efficient block-sparse operators for GPUs and showcase their effectiveness, as well as the superior compression offered by block sparsity. We report the effectiveness of activation pruning by evaluating training speed, accuracy, and memory usage of large-scale neural architectures on the example of ResMLP on image classification tasks. As a result, we observe a memory reduction of up to 32% while maintaining accuracy. Ultimately, our approach aims to democratize large-scale model training, reduce GPU requirements, and address ecological concerns.
翻訳日:2023-11-30 12:20:35 公開日:2023-11-29
# テキストと画像を用いた4次元シーン生成のための統一的アプローチ

A Unified Approach for Text- and Image-guided 4D Scene Generation ( http://arxiv.org/abs/2311.16854v2 )

ライセンス: Link先を確認
Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello(参考訳) 大規模拡散生成モデルは,ユーザが提供するテキストプロンプトと画像から画像,映像,および3dアセットの作成を大幅に単純化している。 しかし,拡散指導を伴うテキストから4次元動的3次元シーン生成の課題はほとんど解明されていない。 We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage. ユーザの嗜好調査を通じて,本手法はベースラインアプローチと比較して,画像品質,3次元一貫性,テキストの忠実度を著しく向上することを示した。 動きの不連続表現のおかげで、dream-in-4dは、動き学習段階を変更することなく、1つまたは複数の画像で外観を定義する制御可能な生成にも容易に適応できる。 そこで本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一的なアプローチを提供する。

Large-scale diffusion generative models are greatly simplifying image, video and 3D asset creation from user-provided text prompts and images. However, the challenging problem of text-to-4D dynamic 3D scene generation with diffusion guidance remains largely unexplored. We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage. Through a user preference study, we demonstrate that our approach significantly advances image and motion quality, 3D consistency and text fidelity for text-to-4D generation compared to baseline approaches. Thanks to its motion-disentangled representation, Dream-in-4D can also be easily adapted for controllable generation where appearance is defined by one or multiple images, without the need to modify the motion learning stage. Thus, our method offers, for the first time, a unified approach for text-to-4D, image-to-4D and personalized 4D generation tasks.
翻訳日:2023-11-30 12:20:13 公開日:2023-11-29
# アダプティブ・プロンプト学習による統一モーダルサルト物体検出

Unified-modal Salient Object Detection via Adaptive Prompt Learning ( http://arxiv.org/abs/2311.16835v2 )

ライセンス: Link先を確認
Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Bin Luo(参考訳) 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。 しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。 本稿では,unisodと呼ばれる統一フレームワークにおいて,シングルモーダルとマルチモーダルsodの両方に対応する最初の試みを行う。 それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。 この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。 各モダリティ対応プロンプトは、シングルモーダルおよびマルチモーダル入力のみに依存する構造切替を行うスイッチ可能なプロンプト生成ブロックから生成される。 UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対して一貫した性能向上を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示す。

Existing single-modal and multi-modal salient object detection (SOD) methods focus on designing specific architectures tailored for their respective tasks. However, developing completely different models for different tasks leads to labor and time consumption, as well as high computational and practical deployment costs. In this paper, we make the first attempt to address both single-modal and multi-modal SOD in a unified framework called UniSOD. Nevertheless, assigning appropriate strategies to modality variable inputs is challenging. To this end, UniSOD learns modality-aware prompts with task-specific hints through adaptive prompt learning, which are plugged into the proposed pre-trained baseline SOD model to handle corresponding tasks, while only requiring few learnable parameters compared to training the entire model. Each modality-aware prompt is generated from a switchable prompt generation block, which performs structural switching solely relied on single-modal and multi-modal inputs. UniSOD achieves consistent performance improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which demonstrates that our method effectively and efficiently unifies single-modal and multi-modal SOD tasks.
翻訳日:2023-11-30 12:19:54 公開日:2023-11-29
# 時系列予測のためのモジュールニューラルネットワーク:注意を用いた解釈可能性と特徴選択

Modular Neural Networks for Time Series Forecasting: Interpretability and Feature Selection using Attention ( http://arxiv.org/abs/2311.16834v2 )

ライセンス: Link先を確認
Qiqi Su, Christos Kloukinas, Artur d'Avila Garcez(参考訳) 多変量時系列は、医療や気象学から生命科学まで、多くの応用がある。 ディープラーニングモデルは時系列に対する優れた予測性能を示しているが、それらは「ブラックボックス」あるいは「解釈不能」であると批判されている。 本稿では,構成によって解釈可能な多変量時系列予測のためのモジュール型ニューラルネットワークモデルを提案する。 繰り返しニューラルネットワークはデータ内の時間的依存関係を学習し、注意に基づく特徴選択コンポーネントは最も関連性の高い特徴を選択し、時間的依存関係の学習に使用される冗長な特徴を抑制する。 モジュール型のディープネットワークは、選択した機能から独立してトレーニングされ、ユーザーが機能がどのように結果に影響を与えるかを示し、モデルを解釈できる。 実験結果から,本手法は,時系列タスクの回帰と分類の両方において,最先端の非解釈可能な手法であるLSTM,XGBoostに匹敵する予測性能を達成し,最先端の解釈可能なニューラル付加モデル(NAM)およびそれらのバリエーションより優れていることが示された。

Multivariate time series have many applications, from healthcare and meteorology to life science. Although deep learning models have shown excellent predictive performance for time series, they have been criticised for being "black-boxes" or non-interpretable. This paper proposes a novel modular neural network model for multivariate time series prediction that is interpretable by construction. A recurrent neural network learns the temporal dependencies in the data while an attention-based feature selection component selects the most relevant features and suppresses redundant features used in the learning of the temporal dependencies. A modular deep network is trained from the selected features independently to show the users how features influence outcomes, making the model interpretable. Experimental results show that this approach can outperform state-of-the-art interpretable Neural Additive Models (NAM) and variations thereof in both regression and classification of time series tasks, achieving a predictive performance that is comparable to the top non-interpretable methods for time series, LSTM and XGBoost.
翻訳日:2023-11-30 12:19:29 公開日:2023-11-29
# ROSO:合成観察によるロボット政策推論の改善

ROSO: Improving Robotic Policy Inference via Synthetic Observations ( http://arxiv.org/abs/2311.16680v2 )

ライセンス: Link先を確認
Yusuke Miyashita, Dimitris Gahtidis, Colin La, Jeremy Rabinowicz, Jurgen Leitner(参考訳) 本稿では,生成型人工知能(ai)を用いて,推定中に観測値を変更することにより,事前学習した方針のゼロショット性能を向上させることを提案する。 先進的なニューラルネットワークを利用した現代のロボットシステムは、事前訓練されたタスクに顕著な能力を示した。 しかし、新しいオブジェクトや環境への一般化と適応は困難であり、微調整型ビズモータポリシーは時間がかかる。 これらの課題を克服するために, 合成観測(ROSO)によるロボットポリシー推論を提案する。 ROSOは安定拡散を利用して、ロボットの推論時間中の新しい物体の観察を前処理し、事前訓練されたポリシーの観察の分布に適合する。 このパラダイムにより、既知のタスクから学習した知識を、これまで見つからなかったシナリオに移行し、長い微調整を必要とせず、ロボットの適応性を高めることができる。 我々の実験は、生成AIをロボット推論に組み込むことで、成功率を大幅に向上し、事前訓練されたポリシーでなければ57%のタスクが失敗することを示した。

In this paper, we propose the use of generative artificial intelligence (AI) to improve zero-shot performance of a pre-trained policy by altering observations during inference. Modern robotic systems, powered by advanced neural networks, have demonstrated remarkable capabilities on pre-trained tasks. However, generalizing and adapting to new objects and environments is challenging, and fine-tuning visuomotor policies is time-consuming. To overcome these issues we propose Robotic Policy Inference via Synthetic Observations (ROSO). ROSO uses stable diffusion to pre-process a robot's observation of novel objects during inference time to fit within its distribution of observations of the pre-trained policies. This novel paradigm allows us to transfer learned knowledge from known tasks to previously unseen scenarios, enhancing the robot's adaptability without requiring lengthy fine-tuning. Our experiments show that incorporating generative AI into robotic inference significantly improves successful outcomes, finishing up to 57% of tasks otherwise unsuccessful with the pre-trained policy.
翻訳日:2023-11-30 12:19:10 公開日:2023-11-29
# LiveNVS:ライブRGB-Dストリームによるニューラルビュー合成

LiveNVS: Neural View Synthesis on Live RGB-D Streams ( http://arxiv.org/abs/2311.16668v2 )

ライセンス: Link先を確認
Laura Fink, Darius R\"uckert, Linus Franke, Joachim Keinert, Marc Stamminger(参考訳) Kinect Fusionのような既存のリアルタイムRGB-D再構成アプローチには、リアルタイムのフォトリアリスティックな視覚化が欠けている。 これは、不完全な深度地図とカメラのポーズから融合したノイズ、過剰な形状、不完全なテクスチャ、ぼやけたテクスチャが原因である。 最近のニューラルレンダリング手法は、これらのアーティファクトの多くを克服することができるが、主にオフライン使用に最適化されており、ライブリビルドパイプラインへの統合を妨げる。 本稿では,低レイテンシでリアルタイムなレンダリングが可能なライブRGB-D入力ストリーム上で,ニューラルノベルビューの合成を可能にするLiveNVSを提案する。 RGB-D入力ストリームに基づいて、高密度に融合した深度マップを介してニューラルネットワーク機能をターゲットビューに投影し、画像空間の特徴をターゲット特徴マップに集約することにより、新しいビューを描画する。 一般化可能なニューラルネットワークは、ターゲットのフィーチャーマップを高品質なRGBイメージに変換する。 LiveNVSは、キャプチャ中に未知のシーンの最先端のニューラルネットワークレンダリング品質を実現し、ユーザーはシーンを仮想的に探索し、リアルタイムで再構築品質を評価することができる。

Existing real-time RGB-D reconstruction approaches, like Kinect Fusion, lack real-time photo-realistic visualization. This is due to noisy, oversmoothed or incomplete geometry and blurry textures which are fused from imperfect depth maps and camera poses. Recent neural rendering methods can overcome many of such artifacts but are mostly optimized for offline usage, hindering the integration into a live reconstruction pipeline. In this paper, we present LiveNVS, a system that allows for neural novel view synthesis on a live RGB-D input stream with very low latency and real-time rendering. Based on the RGB-D input stream, novel views are rendered by projecting neural features into the target view via a densely fused depth map and aggregating the features in image-space to a target feature map. A generalizable neural network then translates the target feature map into a high-quality RGB image. LiveNVS achieves state-of-the-art neural rendering quality of unknown scenes during capturing, allowing users to virtually explore the scene and assess reconstruction quality in real-time.
翻訳日:2023-11-30 12:18:52 公開日:2023-11-29
# ランダム射影に対するマハラノビス距離のディップ統計に基づく多変量一様性試験

A Multivariate Unimodality Test Harnenssing the Dip Statistic of Mahalanobis Distances Over Random Projections ( http://arxiv.org/abs/2311.16614v2 )

ライセンス: Link先を確認
Prodromos Kolyvakis, Aristidis Likas(参考訳) 統計解析において中心的な一様性は、データセット構造に関する洞察を与え、洗練された分析手順を駆動する。 ユニモダリティの確認は、シルバーマンのアプローチやハーティガンズのディップ統計のような手法を用いた一次元データでは簡単であるが、高次元への一般化は依然として困難である。 線形ランダム射影を用いて一次元一様性原理を多次元空間へ外挿し、点対点距離を生かし、この手法は$\alpha$-一様性仮定に根ざし、新しい多変量一様性試験である泥ッドを提示する。 理論的および実証的研究は,多次元データセットの一様性評価およびクラスタ数推定における本手法の有効性を確認した。

Unimodality, pivotal in statistical analysis, offers insights into dataset structures and drives sophisticated analytical procedures. While unimodality's confirmation is straightforward for one-dimensional data using methods like Silverman's approach and Hartigans' dip statistic, its generalization to higher dimensions remains challenging. By extrapolating one-dimensional unimodality principles to multi-dimensional spaces through linear random projections and leveraging point-to-point distancing, our method, rooted in $\alpha$-unimodality assumptions, presents a novel multivariate unimodality test named mud-pod. Both theoretical and empirical studies confirm the efficacy of our method in unimodality assessment of multidimensional datasets as well as in estimating the number of clusters.
翻訳日:2023-11-30 12:18:32 公開日:2023-11-29
# b-lstm-mionet:bayesian lstm-based neural operators for learn the response of complex dynamical systems to length-variant multiple input function

B-LSTM-MIONet: Bayesian LSTM-based Neural Operators for Learning the Response of Complex Dynamical Systems to Length-Variant Multiple Input Functions ( http://arxiv.org/abs/2311.16519v2 )

ライセンス: Link先を確認
Zhihao Kong and Amirhossein Mollaali and Christian Moya and Na Lu and Guang Lin(参考訳) Deep Operator Network (DeepONet)は、複雑なシステムを記述する通常の微分方程式(ODE)のような非線形演算子を学習するためのニューラルネットワークフレームワークである。 マルチインプットディープニューラル演算子(MIONet)は、異なるバナッハ空間における複数の入力関数を可能にするためにDeepONetを拡張した。 MIONetは、出力位置の制約なしにデータセットグリッド間隔をトレーニングする柔軟性を提供する。 しかし、オフライン入力が必要であり、テストデータセットのさまざまなシーケンス長を処理できないため、動的複雑システムにおけるリアルタイムアプリケーションを制限することができる。 この作業はMIONetを再設計し、Long Short Term Memory(LSTM)を統合して、時間依存のデータからニューラル演算子を学ぶ。 このアプローチはデータの離散化の制約を克服し、LSTMの能力を可変長リアルタイムデータで活用する。 アルゴリズム外挿能力などの学習性能に影響する要因を提示する。 このフレームワークは、新しいベイズ法による不確実な定量化によって拡張され、MIONetパラメータ分布からサンプリングされる。 そこで我々は,B-LSTM-MIONetを開発し,LSTMの時間的強度をベイズ的頑健さと組み合わせることで,ノイズのあるデータセットのより正確で信頼性の高いモデルを構築した。

Deep Operator Network (DeepONet) is a neural network framework for learning nonlinear operators such as those from ordinary differential equations (ODEs) describing complex systems. Multiple-input deep neural operators (MIONet) extended DeepONet to allow multiple input functions in different Banach spaces. MIONet offers flexibility in training dataset grid spacing, without constraints on output location. However, it requires offline inputs and cannot handle varying sequence lengths in testing datasets, limiting its real-time application in dynamic complex systems. This work redesigns MIONet, integrating Long Short Term Memory (LSTM) to learn neural operators from time-dependent data. This approach overcomes data discretization constraints and harnesses LSTM's capability with variable-length, real-time data. Factors affecting learning performance, like algorithm extrapolation ability are presented. The framework is enhanced with uncertainty quantification through a novel Bayesian method, sampling from MIONet parameter distributions. Consequently, we develop the B-LSTM-MIONet, incorporating LSTM's temporal strengths with Bayesian robustness, resulting in a more precise and reliable model for noisy datasets.
翻訳日:2023-11-30 12:18:14 公開日:2023-11-29
# Exo2EgoDVC:Webインストラクショナルビデオを用いたエゴセントリックな手続き活動の高精細ビデオキャプション

Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos ( http://arxiv.org/abs/2311.16444v2 )

ライセンス: Link先を確認
Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato(参考訳) 本稿では,webインストラクションビデオからのモデルをエゴセントリックな視点に適応させ,高精細ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。 濃密なビデオキャプション(予測時間セグメントとそのキャプション)は、主にエキソセントリックなビデオ(例えばyoucook2)で研究されているが、エゴセントリックなビデオによるベンチマークはデータの不足のために制限されている。 制限されたビデオの可用性を克服するために、豊富なエキソセントリックなウェブビデオからの知識の転送は実用的なアプローチとして要求される。 しかし,外心的視点と自我的視点の対応の学習は,動的視点の変化のため困難である。 ウェブビデオには、人間の身体の動きやクローズアップなハンドオブジェクトのインタラクションに焦点を当てた、さまざまなビューが含まれています。 これは複雑なビュー変更の下でのクロスビュー転送の詳細な研究を必要とする。 本研究では,まず,実生活におけるエゴセントリックなデータセット(EgoYC2)を作成し,そのキャプションがYouCook2と共有されている。 そこで本研究では,前訓練段階と微調整段階の両方において,逆訓練を用いた視点不変学習法を提案する。 事前トレーニングは、webビデオの混合ビューに対して不変機能を学ぶように設計されているが、ビュー不変の微調整は、両方のデータセット間のビューギャップをさらに緩和する。 提案手法は,視点変化問題をいかに効果的に克服し,知識をエゴセントリックな領域に効率的に移すことで検証する。 本ベンチマークでは,映像キャプションのタスク領域にクロスビュー変換の研究をプッシュし,自然言語による自己中心的映像記述の方法論を考察する。

We propose a novel benchmark for cross-view knowledge transfer of dense video captioning, adapting models from web instructional videos with exocentric views to an egocentric view. While dense video captioning (predicting time segments and their captions) is primarily studied with exocentric videos (e.g., YouCook2), benchmarks with egocentric videos are restricted due to data scarcity. To overcome the limited video availability, transferring knowledge from abundant exocentric web videos is demanded as a practical approach. However, learning the correspondence between exocentric and egocentric views is difficult due to their dynamic view changes. The web videos contain mixed views focusing on either human body actions or close-up hand-object interactions, while the egocentric view is constantly shifting as the camera wearer moves. This necessitates the in-depth study of cross-view transfer under complex view changes. In this work, we first create a real-life egocentric dataset (EgoYC2) whose captions are shared with YouCook2, enabling transfer learning between these datasets assuming their ground-truth is accessible. To bridge the view gaps, we propose a view-invariant learning method using adversarial training in both the pre-training and fine-tuning stages. While the pre-training is designed to learn invariant features against the mixed views in the web videos, the view-invariant fine-tuning further mitigates the view gaps between both datasets. We validate our proposed method by studying how effectively it overcomes the view change problem and efficiently transfers the knowledge to the egocentric domain. Our benchmark pushes the study of the cross-view transfer into a new task domain of dense video captioning and will envision methodologies to describe egocentric videos in natural language.
翻訳日:2023-11-30 12:17:49 公開日:2023-11-29
# アセンブリのための多次元モデル登録ベース拡張現実(AR)教育

Multi-3D-Models Registration-Based Augmented Reality (AR) Instructions for Assembly ( http://arxiv.org/abs/2311.16337v2 )

ライセンス: Link先を確認
Seda Tuzun Canadinc and Wei Yan(参考訳) 本稿では,新しい,マーカーレス,ステップバイステップ,イン・バイ・ステップの3d拡張現実(ar)インストラクション法と,その応用例である brickxar (multi 3d models/m3d) について紹介する。 BRICKxAR(M3D)は物理組立モデルの組立位置でレンダリングされた3次元組立部品を現実的に可視化する(図1)。 ユーザはユーザインターフェースを介してアセンブリプロセスを制御する。 BRICKxAR (M3D) はディープラーニングで訓練された3Dモデルの登録を利用する。 アセンブリモデルが各ステップで更新されるにつれて、オブジェクト認識とトラッキングは困難になる。 さらに、3Dアセンブリのすべての部分が、アセンブリ中にカメラに表示されるわけではない。 BRICKxAR(M3D)は、複数のアセンブリフェーズとステップカウントを組み合わせてこれらの課題に対処する。 したがって、より少ない位相を用いると複雑なアセンブリプロセスが簡単になり、ステップカウントは各ステップの正確なオブジェクト認識と正確な視覚化が容易になる。 brickxar (m3d) プロトタイプのテストとヒューリスティックな評価と質的分析は、ユーザと人間とコンピュータの相互作用に関する専門家によって行われた。 堅牢な3D AR命令を提供し、組立モデルのハンドリングを可能にするため、BRICKxAR(M3D)は製造組立から建設まで様々な規模で使用される可能性がある。

This paper introduces a novel, markerless, step-by-step, in-situ 3D Augmented Reality (AR) instruction method and its application - BRICKxAR (Multi 3D Models/M3D) - for small parts assembly. BRICKxAR (M3D) realistically visualizes rendered 3D assembly parts at the assembly location of the physical assembly model (Figure 1). The user controls the assembly process through a user interface. BRICKxAR (M3D) utilizes deep learning-trained 3D model-based registration. Object recognition and tracking become challenging as the assembly model updates at each step. Additionally, not every part in a 3D assembly may be visible to the camera during the assembly. BRICKxAR (M3D) combines multiple assembly phases with a step count to address these challenges. Thus, using fewer phases simplifies the complex assembly process while step count facilitates accurate object recognition and precise visualization of each step. A testing and heuristic evaluation of the BRICKxAR (M3D) prototype and qualitative analysis were conducted with users and experts in visualization and human-computer interaction. Providing robust 3D AR instructions and allowing the handling of the assembly model, BRICKxAR (M3D) has the potential to be used at different scales ranging from manufacturing assembly to construction.
翻訳日:2023-11-30 12:17:13 公開日:2023-11-29
# ChatTraffic:拡散モデルによるテキストからトラフィック生成

ChatTraffic: Text-to-Traffic Generation via Diffusion Model ( http://arxiv.org/abs/2311.16203v2 )

ライセンス: Link先を確認
Chengyang Zhang, Yong Zhang, Qitan Shao, Bo Li, Yisheng Lv, Xinglin Piao, Baocai Yin(参考訳) 交通予測は、インテリジェントトランスポーテーションシステム(ITS)の最も重要な基盤の1つである。 従来のトラフィック予測手法は、過去のトラフィックデータのみに頼ってトラフィックトレンドを予測し、2つの大きな課題に直面している。 1)異常事象に対する感受性。 2)長期予測における性能の低下。 本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,トラフィック生成に適用し,タスクテキスト・トゥ・トラッフィック・ジェネレーション(TTG)を名付ける方法について検討する。 TTGタスクの鍵となる課題は、交通状況を生成するために、テキストを道路ネットワークの空間構造と交通データを関連付ける方法である。 そこで本研究では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。 合成データと実データとの整合性を保証するため,グラフ畳み込みネットワーク(GCN)を用いて拡散モデルを拡張し,交通データの空間的相関を抽出する。 さらに,TTGタスクのためのテキスト-グラフペアを含む大規模データセットを構築する。 私たちは、リリース済みのデータセットを質的かつ定量的にベンチマークしました。 実験の結果,チャットトラフィックはテキストから現実的な交通状況を生成することができた。 私たちのコードとデータセットはhttps://github.com/chyazhang/chattrafficで利用可能です。

Traffic prediction is one of the most significant foundations in Intelligent Transportation Systems (ITS). Traditional traffic prediction methods rely only on historical traffic data to predict traffic trends and face two main challenges. 1) insensitivity to unusual events. 2) poor performance in long-term prediction. In this work, we explore how generative models combined with text describing the traffic system can be applied for traffic generation and name the task Text-to-Traffic Generation (TTG). The key challenge of the TTG task is how to associate text with the spatial structure of the road network and traffic data for generating traffic situations. To this end, we propose ChatTraffic, the first diffusion model for text-to-traffic generation. To guarantee the consistency between synthetic and real data, we augment a diffusion model with the Graph Convolutional Network (GCN) to extract spatial correlations of traffic data. In addition, we construct a large dataset containing text-traffic pairs for the TTG task. We benchmarked our model qualitatively and quantitatively on the released dataset. The experimental results indicate that ChatTraffic can generate realistic traffic situations from the text. Our code and dataset are available at https://github.com/ChyaZhang/ChatTraffic.
翻訳日:2023-11-30 12:16:52 公開日:2023-11-29