このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231205となっている論文です。

PDF登録状況(公開日: 20231205)

TitleAuthorsAbstract論文公表日・翻訳日
# 可逆ニューラルネットワークによるニューラルネットワークの透かし

Watermarking for Neural Radiation Fields by Invertible Neural Network ( http://arxiv.org/abs/2312.02456v1 )

ライセンス: Link先を確認
Wenquan Sun, Jia Liu, Weina Dong, Lifeng Chen, Ke Niu, (参考訳) 神経放射場に代表される3Dシーンの著作権を保護するため、画像変換の逆問題の一対として、神経放射場透かしの埋め込みと抽出が検討されている。 2次元画像の透かし技術を用いて3次元シーンの保護を実現する,可逆型ニューラルネットワーク透かしを用いた,神経放射線領域の著作権保護手法を提案する。 このスキームは、非可逆ネットワークにおける前処理を介して、神経放射野のトレーニング画像に透かしを埋め込み、逆処理を用いて神経放射野により描画された画像から透かしを抽出し、神経放射野と3Dシーンの両方の著作権保護を実現する。 神経放射場のレンダリングプロセスは透かし情報の損失を引き起こす可能性があるため、このスキームは、ニューラルネットワークを利用してレンダリングされた画像を復元し、透かしを抽出する画像品質向上モジュールを組み込む。 このスキームは、各トレーニング画像に透かしを埋め込んで、神経放射野を訓練し、複数の視点から透かし情報の抽出を可能にする。 シミュレーション実験により, 本手法の有効性が示された。

To protect the copyright of the 3D scene represented by the neural radiation field, the embedding and extraction of the neural radiation field watermark are considered as a pair of inverse problems of image transformations. A scheme for protecting the copyright of the neural radiation field is proposed using invertible neural network watermarking, which utilizes watermarking techniques for 2D images to achieve the protection of the 3D scene. The scheme embeds the watermark in the training image of the neural radiation field through the forward process in the invertible network and extracts the watermark from the image rendered by the neural radiation field using the inverse process to realize the copyright protection of both the neural radiation field and the 3D scene. Since the rendering process of the neural radiation field can cause the loss of watermark information, the scheme incorporates an image quality enhancement module, which utilizes a neural network to recover the rendered image and then extracts the watermark. The scheme embeds a watermark in each training image to train the neural radiation field and enables the extraction of watermark information from multiple viewpoints. Simulation experimental results demonstrate the effectiveness of the method.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# ゲートヒーディングガルブレンド回路のスキッピング方式

Skipping Scheme for Gate-hiding Garbled Circuits ( http://arxiv.org/abs/2312.02514v1 )

ライセンス: Link先を確認
Ke Lin, (参考訳) ガーブラード回路の古典的な設定では、各ゲートタイプは、空間と速度の最適化の両方を改善するためにリークされる。 Zahur氏らはEUROCRYPT 2015で、典型的な線形ガーブリングスキームは1ゲートあたり少なくとも2$\lambda$-bit要素を必要とし、セキュリティパラメータは$\lambda$である。 一般的なガーブラード回路とは対照的に、ゲートを隠蔽するガーブラード回路は、過小評価されているにもかかわらず、時間コストを大幅に削減する可能性がある。 そこで本研究では,ゲートハイディング型ガーブラード回路の最初のスキップ方式を提案し,プライマリ・インプリカントを観察することで評価の効率化を図る。 本方式では,回路全体を計算する必要をなくし,不要な実行経路を回避するためにスキップゲートを導入する。 また、並列性とセキュリティのバランスをとる2つの方法を紹介します。 半正直シナリオにおけるシミュレーションベースと対称性ベースのセキュリティを組み合わせたハイブリッドセキュリティの証明を行い,ゲートヒディング条件下でのセキュリティの実証を行った。 我々のスキームは、一般的なギャリングのスキームを改良し、より実用的なものへと導くために、新しい方向性を刺激する。

In classic settings of garbled circuits, each gate type is leaked to improve both space and speed optimization. Zahur et al. have shown in EUROCRYPT 2015 that a typical linear garbling scheme requires at least two $\lambda$-bit elements per gate with a security parameter of $\lambda$, which limits their efficiency. In contrast to typical garbled circuits, gate-hiding garbled circuits have the potential to drastically reduce time costs, although they have been underappreciated. We propose the first skipping scheme for gate-hiding garbled circuits to enhance the efficiency of evaluation by observing prime implicants. Our scheme introduces skip gates to eliminate the need to calculate the entire circuit, enabling unnecessary execution paths to be avoided. We also introduce two variants of our scheme that balance security with parallelism. A proof of hybrid security that combines simulation-based and symmetry-based security in semi-honest scenarios is presented to demonstrate its security under gate-hiding conditions. Our scheme will inspire new directions to improve the general garbling scheme and lead to more practical ones.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# 攻撃位置グラフ構築のためのCVE表現

CVE representation to build attack positions graphs ( http://arxiv.org/abs/2312.02585v1 )

ライセンス: Link先を確認
Manuel Poisson, Valérie Viet Triem Tong, Gilles Guette, Frédéric Guihéry, Damien Crémilleux, (参考訳) サイバーセキュリティにおいて、CVE(Common Vulnerabilities and Exposures)は、ハードウェアまたはソフトウェアの脆弱性を公開している。 これらの脆弱性はNISTが管理するNVDデータベースに記録され、リストアップされる。 情報システムに影響を与えるCVEの知識は、そのセキュリティのレベルを測定する。 この記事では、これらの脆弱性は、完全な攻撃シナリオにおいてどのようにチェーン化されるのかを理解するために、より詳細に記述されるべきである、と指摘する。 本稿では、CVE脆弱性、対応するエクスプロイト、および関連する攻撃位置を表す方法であるCAPGフォーマットの最初の提案について述べる。

In cybersecurity, CVEs (Common Vulnerabilities and Exposures) are publicly disclosed hardware or software vulnerabilities. These vulnerabilities are documented and listed in the NVD database maintained by the NIST. Knowledge of the CVEs impacting an information system provides a measure of its level of security. This article points out that these vulnerabilities should be described in greater detail to understand how they could be chained together in a complete attack scenario. This article presents the first proposal for the CAPG format, which is a method for representing a CVE vulnerability, a corresponding exploit, and associated attack positions.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# ESP2CS:ブロックチェーン対応通信と支払いによる車両のインターネットのセキュア化

ESP2CS: Securing Internet of Vehicles through Blockchain-enabled Communications and Payments ( http://arxiv.org/abs/2312.02589v1 )

ライセンス: Link先を確認
Rateb Jabbar, Mohamed Kharbeche, (参考訳) Internet of Vehicles(IoT)のサブセットであるIoV(Internet of Vehicles)の急成長するドメインは、安全性、効率、環境の持続可能性の向上を通じて、輸送に革命をもたらすことを約束している。 IoVはセンサーやクラウドコンピューティングなどの技術を融合することによって、最適化されたトラフィック管理、車の安全性の向上、新しいビジネスパラダイムの誕生の道を開いた。 しかし、この成長は、特に通信・決済分野における重要なセキュリティ上の懸念に影を落としている。 サイバーの脅威が高まっている中で、セキュアなV2X通信と支払いの必要性に対処するため、本研究ではEthereumベースのセキュアな支払いと通信ソリューション(ESP2CS)を紹介した。 Ethereumをミドルウェアとして使用するESP2CSは、堅牢でセキュアなV2Xインタラクションを保証する。 このソリューションは、車両間の通信の合理化、駐車スペースの検出、トランザクション管理のためのAndroid Autoアプリケーションによって補完されている。 さらに、パーキングスペースのレンタルやパーキングIoTシステム向けの専用Androidアプリケーションも開発されている。 予備評価では、ESP2CSの優れたコスト効率、現代ソリューションに対する整合性、一貫性が評価され、Ethereumはセキュリティと効率の両方を強化している。

The burgeoning domain of the Internet of Vehicles (IoV), a subset of the Internet of Things (IoT), promises to revolutionize transportation through enhanced safety, efficiency, and environmental sustainability. By amalgamating technologies like sensors and cloud computing, the IoV paves the way for optimized traffic management, heightened vehicle safety, and the birth of novel business paradigms. However, this growth is shadowed by significant security concerns, especially in the communication and payment sectors. Addressing the pressing need for secure Vehicle to Everything (V2X) communications and payments amidst rising cyber threats, this research introduces the Ethereum based Secure Payment and Communication Solution (ESP2CS). Utilizing Ethereum as a middleware, ESP2CS ensures robust and secure V2X interactions. The solution is complemented by an Android Auto application for vehicles, streamlining inter vehicle communication, parking space detection, and transaction management. Furthermore, dedicated Android applications are developed for parking space renters and the parking IoT system. Preliminary evaluations underscore ESP2CS's superior cost effectiveness, integrity and consistency over contemporary solutions, with Ethereum bolstering both security and efficiency.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# 宇宙船のデコードとSDitHへの応用

Projective Space Stern Decoding and Application to SDitH ( http://arxiv.org/abs/2312.02607v1 )

ライセンス: Link先を確認
Kevin Carrier, Valérian Hatey, Jean-Pierre Tillich, (参考訳) ここでは、有限体上の一般線形コードに対する標準的な復号アルゴリズムを、低重コードワード問題に還元し、関連する射影空間で作業することにより、本質的に有限体のサイズである因子によって高速化できることを示す。 本手法をSDitHに適用し,NISTが要求するセキュリティ要件を満たすには,原文と更新版の両方のパラメータが不足していることを示す。

We show that here standard decoding algorithms for generic linear codes over a finite field can speeded up by a factor which is essentially the size of the finite field by reducing it to a low weight codeword problem and working in the relevant projective space. We apply this technique to SDitH and show that the parameters of both the original submission and the updated version fall short of meeting the security requirements asked by the NIST.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# トポロジカル進化ダイナミクスを用いた深層学習のためのロバストなバックドア検出

Robust Backdoor Detection for Deep Learning via Topological Evolution Dynamics ( http://arxiv.org/abs/2312.02673v1 )

ライセンス: Link先を確認
Xiaoxing Mo, Yechao Zhang, Leo Yu Zhang, Wei Luo, Nan Sun, Shengshan Hu, Shang Gao, Yang Xiang, (参考訳) ディープラーニングにおけるバックドア攻撃は、特定の入力パターンに対して悪意ある振る舞いを引き起こすために、モデルに隠れたバックドアを挿入する。 既存の検出手法は、通常のサンプルと悪意のあるサンプルが分離可能な距離空間(元の入力またはその潜在表現)を仮定する。 この仮定は、新しいSSDT(Source-Specific and Dynamic-Triggers)バックドアを導入し、通常のサンプルと悪意のあるサンプルの違いを曖昧にすることで、深刻な制限を有することを示す。 この制限を克服するために、我々は異なるディープラーニングモデルで機能する完璧な距離空間を探すことを超えて、より堅牢なトポロジ的構造を利用する。 本研究では,ロバストなバックドア検出のためのモデルに依存しない基盤としてTED(トポロジカル・エボリューション・ダイナミクス)を提案する。 TEDの主な考え方は、ディープラーニングモデルをインプットからアウトプットへと進化する動的システムとして見ることである。 そのような力学系において、良性入力は他の良性入力と同様の自然な進化軌道に従う。 対照的に、悪意のあるサンプルは、良識のあるサンプルに近づき始めるが、最終的には攻撃者が特定したターゲットサンプルの近傍に移動し、バックドアを活性化する。 さまざまなネットワークアーキテクチャにわたるビジョンと自然言語データセットに対して、広範囲な評価が行われる。 その結果、TEDは高い検出率を達成するだけでなく、特に高度なSSDT攻撃に対処する上で、既存の最先端検出アプローチよりも大幅に優れていることが示された。 結果を再現するコードはGitHubで公開されている。

A backdoor attack in deep learning inserts a hidden backdoor in the model to trigger malicious behavior upon specific input patterns. Existing detection approaches assume a metric space (for either the original inputs or their latent representations) in which normal samples and malicious samples are separable. We show that this assumption has a severe limitation by introducing a novel SSDT (Source-Specific and Dynamic-Triggers) backdoor, which obscures the difference between normal samples and malicious samples. To overcome this limitation, we move beyond looking for a perfect metric space that would work for different deep-learning models, and instead resort to more robust topological constructs. We propose TED (Topological Evolution Dynamics) as a model-agnostic basis for robust backdoor detection. The main idea of TED is to view a deep-learning model as a dynamical system that evolves inputs to outputs. In such a dynamical system, a benign input follows a natural evolution trajectory similar to other benign inputs. In contrast, a malicious sample displays a distinct trajectory, since it starts close to benign samples but eventually shifts towards the neighborhood of attacker-specified target samples to activate the backdoor. Extensive evaluations are conducted on vision and natural language datasets across different network architectures. The results demonstrate that TED not only achieves a high detection rate, but also significantly outperforms existing state-of-the-art detection approaches, particularly in addressing the sophisticated SSDT attack. The code to reproduce the results is made public on GitHub.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# Airdrops:お金の支払いは見かけより難しい

Airdrops: Giving Money Away Is Harder Than It Seems ( http://arxiv.org/abs/2312.02752v1 )

ライセンス: Link先を確認
Johnnatan Messias, Aviv Yaish, Benjamin Livshits, (参考訳) Airdropはブロックチェーンアプリケーションやプラットフォームが初期ユーザベースを引き付けるために使用し、時間の経過とともにユーザベースを拡大する。 多くのエアドロップの場合、トークンは、エアドロップが完了した後、真の経済活動を生み出す忠実なコミュニティを構築するという長期的な目標を掲げて、基盤となるプラットフォームと対話するための"リワード"として、一部のユーザに配布される。 エアドロップはブロックチェーン業界で広く使用されているが、エアドロップの成功に寄与する要因の適切な理解は一般的に欠如している。 本研究では,エアドロップの設計空間を概説し,エアドロップが理想的に生み出すべき結果の合理的なリストを指定する。 次に,より大規模な気滴からの連鎖データを解析し,過去の気滴の成功を実証的に評価する。 本分析では, 航空投棄農家は, 航空投棄のシェアを頻繁に取り除き, 航空投棄は交換によって進行することを示した。 我々の分析は、一般的な気滴設計が与える共通の落とし穴を概観し、それを用いて、より良い気滴設計のための具体的なガイドラインを提案する。

Airdrops are used by blockchain applications and platforms to attract an initial user base, and to grow the user base over time. In the case of many airdrops, tokens are distributed to select users as a "reward" for interacting with the underlying platform, with a long-term goal of creating a loyal community that will generate genuine economic activity well after the airdrop has been completed. Although airdrops are widely used by the blockchain industry, a proper understanding of the factors contributing to an airdrop's success is generally lacking. In this work, we outline the design space for airdrops, and specify a reasonable list of outcomes that an airdrop should ideally result in. We then analyze on-chain data from several larger-scale airdrops to empirically evaluate the success of previous airdrops, with respect to our desiderata. In our analysis, we demonstrate that airdrop farmers frequently dispose of the lion's share of airdrops proceeds via exchanges. Our analysis is followed by an overview of common pitfalls that common airdrop designs lend themselves to, which are then used to suggest concrete guidelines for better airdrops.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# パスワードレスユーザ認証方式のレビュー

A Review of Password-less User Authentication Schemes ( http://arxiv.org/abs/2312.02845v1 )

ライセンス: Link先を確認
Tunde Oduguwa, Abdullahi Arabo, (参考訳) 2004年のパスワードの廃止が予測されて以来、業界や学界のさまざまな試みが、セキュリティやユーザエクスペリエンスを損なうことなく、認証にパスワードを使う代替手段を作ろうとしている。 本総説では,2004年(平成16年)に死角がパスワード上に置かれて以来提案されてきたパスワードレス認証方式について検討する。 まず、認証システムの要件に関する簡単な議論から始め、今までのパスワードなし認証の提案を識別する。 次に、ユーザエクスペリエンス、全体的なセキュリティ、デプロイメントの容易性に対する影響に基づいて認証認証を検査するフレームワークを用いて、真にパスワードレスで実用的なスキームを評価する。 このレビューの結果は、新しいパスワードレススキームのパスワードと比較して、セキュリティとユーザエクスペリエンスのバランスをとることの難しさを観察し、新しい応用研究が既存の知識を活用し、この不均衡に対処できる革新的な方法で技術と技術を組み合わせる機会を提供する。

Since the demise of the password was predicted in 2004, different attempts in industry and academia have been made to create an alternative for the use of passwords in authentication, without compromising on security and user experience. This review examines password-less authentication schemes that have been proposed since after the death knell was placed on passwords in 2004. We start with a brief discussion of the requirements of authentication systems and then identify various password-less authentication proposals to date. We then evaluate the truly password-less and practical schemes using a framework that examines authentication credentials based on their impact on user experience, overall security, and ease of deployment. The findings of this review observe a difficulty in balancing security with a user experience compared to that of passwords in new password-less schemes, providing the opportunity for new applied research to leverage existing knowledge and combine technologies and techniques in innovative ways that can address this imbalance.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# サイバーレジリエンスのゼロトラスト

Zero Trust for Cyber Resilience ( http://arxiv.org/abs/2312.02882v1 )

ライセンス: Link先を確認
Yunfei Ge, Quanyan Zhu, (参考訳) 接続性の向上とインサイダーの脅威により、従来のネットワーク防御は脆弱になる。 セキュリティの範囲内のすべてのものが安全であると仮定する代わりに、ゼロトラストセキュリティモデルは、アクセスを許可する前にすべての受信要求を検証する。 この章はゼロトラストモデルにおけるサイバーレジリエンスに注意を向けている。 従来の周辺セキュリティからゼロ信頼への進化を紹介し,その違いについて議論する。 ゼロトラストエンジンの2つの重要な要素は、信頼評価(TE)とポリシーエンジン(PE)である。 2つのコンポーネントの設計を紹介し、それらの相互作用がサイバーレジリエンスにどのように貢献するかについて議論する。 動的ゲーム理論と学習は、ゼロトラストサイバーレジリエンスの自動化を実現するための定量的アプローチとして応用される。 このようなセキュリティモデルの利点を説明するために、いくつかのケーススタディと実装が導入されている。

The increased connectivity and potential insider threats make traditional network defense vulnerable. Instead of assuming that everything behind the security perimeter is safe, the zero-trust security model verifies every incoming request before granting access. This chapter draws attention to the cyber resilience within the zero-trust model. We introduce the evolution from traditional perimeter-based security to zero trust and discuss their difference. Two key elements of the zero-trust engine are trust evaluation (TE) and policy engine (PE). We introduce the design of the two components and discuss how their interplay would contribute to cyber resilience. Dynamic game theory and learning are applied as quantitative approaches to achieve automated zero-trust cyber resilience. Several case studies and implementations are introduced to illustrate the benefits of such a security model.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# サイバーレジリエンスのためのサイバー保険

Cyber Insurance for Cyber Resilience ( http://arxiv.org/abs/2312.02921v1 )

ライセンス: Link先を確認
Shutian Liu, Quanyan Zhu, (参考訳) サイバー保険は、攻撃者が既にシステム内にあるにもかかわらず、サイバー攻撃を防御し、システムレベルのオペレーターを維持するためのレジリエンスメカニズムを実装した後、システムに対する財政的影響をさらに減らすための補完的なメカニズムである。 本章では、インセンティブと複数の当事者の知覚的側面を考慮に入れた量的サイバー保険設計の枠組みを概観する。 設計フレームワークは、最先端の攻撃ベクトルと防御機構の相関の上に構築されている。 特に,サイバー保険設計の目標を特徴づける残留リスクの概念を提案する。 サイバー保険契約のモデル化に必要な保険業者の観察を実験することにより、異なる監視ルールのシナリオ下での保険業者の設計戦略の比較を行う。 これらの明瞭で実践的なシナリオは、道徳的ハザード問題の強度の概念を生み出します。 個人のリスク嗜好を定量化する現代的な手法を用いて、認識操作の経済的影響と道徳的ハザードを関連づける。 サイバー保険設計とリスク認識の共同設計により、インジャーの行動監視に関する軽微な仮定の下で、サイバーレジリエンスを高めることができる。 最後に、より洗練された設定と、サイバー保険市場を強化するための規制へのサイバー保険設計フレームワークの拡張の可能性について論じる。

Cyber insurance is a complementary mechanism to further reduce the financial impact on the systems after their effort in defending against cyber attacks and implementing resilience mechanism to maintain the system-level operator even though the attacker is already in the system. This chapter presents a review of the quantitative cyber insurance design framework that takes into account the incentives as well as the perceptual aspects of multiple parties. The design framework builds on the correlation between state-of-the-art attacker vectors and defense mechanisms. In particular, we propose the notion of residual risks to characterize the goal of cyber insurance design. By elaborating the insurer's observations necessary for the modeling of the cyber insurance contract, we make comparison between the design strategies of the insurer under scenarios with different monitoring rules. These distinct but practical scenarios give rise to the concept of the intensity of the moral hazard issue. Using the modern techniques in quantifying the risk preferences of individuals, we link the economic impacts of perception manipulation with moral hazard. With the joint design of cyber insurance design and risk perceptions, cyber resilience can be enhanced under mild assumptions on the monitoring of insurees' actions. Finally, we discuss possible extensions on the cyber insurance design framework to more sophisticated settings and the regulations to strengthen the cyber insurance markets.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# DAG-Style Voting と Targeted Reward Discounting を用いた並列作業証明

Parallel Proof-of-Work with DAG-Style Voting and Targeted Reward Discounting ( http://arxiv.org/abs/2312.03111v1 )

ライセンス: Link先を確認
Patrik Keller, (参考訳) 私たちは、Bitcoinと比較して、一貫性の保証の改善、トランザクションスループットの向上、トランザクション確認レイテンシの低減、インセンティブ攻撃に対するレジリエンスの向上を提供する、新しい作業証明暗号プロトコルであるDAGスタイルの投票を並行して実施する。 より優れた一貫性保証は、ブロック当たりの作業証明票の設定可能な数を強制する最近のコンセンサススキームである、並列的な作業証明を実装することによるものである。 このプロトコルは、個々の投票を木として構成し、木の深さに比例して採掘報酬を割引することでインセンティブアタックを緩和します。 我々は,木ではなく,有向非巡回グラフ(DAG)として投票を構成することを提案する。 これにより、攻撃的な鉱山労働者に対するより標的的な処罰が可能となり、強化学習に基づく攻撃探索を通じて示すように、このプロトコルはインセンティブ攻撃に対するより弾力性を高めます。 私たちの分析の興味深い副産物は、報酬の割引なしの並行証明は、現実的なネットワークシナリオではBitcoinよりもインセンティブ攻撃に対する耐性が低いことだ。

We present parallel proof-of-work with DAG-style voting, a novel proof-of-work cryptocurrency protocol that, compared to Bitcoin, provides better consistency guarantees, higher transaction throughput, lower transaction confirmation latency, and higher resilience against incentive attacks. The superior consistency guarantees follow from implementing parallel proof-of-work, a recent consensus scheme that enforces a configurable number of proof-of-work votes per block. Our work is inspired by another recent protocol, Tailstorm, which structures the individual votes as tree and mitigates incentive attacks by discounting the mining rewards proportionally to the depth of the tree. We propose to structure the votes as a directed acyclic graph (DAG) instead of a tree. This allows for a more targeted punishment of offending miners and, as we show through a reinforcement learning based attack search, makes the protocol even more resilient to incentive attacks. An interesting by-product of our analysis is that parallel proof-of-work without reward discounting is less resilient to incentive attacks than Bitcoin in some realistic network scenarios.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-05
# MATE-Pred:マルチモーダルアテンションに基づくTCR-Epitopeインタラクション予測器

MATE-Pred: Multimodal Attention-based TCR-Epitope interaction Predictor ( http://arxiv.org/abs/2401.08619v1 )

ライセンス: Link先を確認
Etienne Goffinet, Raghvendra Mall, Ankita Singh, Rahul Kaushik and Filippo Castiglione(参考訳) T細胞受容体とエピトープ間の正確な結合親和性予測は、免疫療法戦略の確立に決定的に寄与する。 いくつかの最先端の計算手法は、進化的特徴を統合して、細胞受容体とエピトープ配列のアミノ酸残基を数値に変換することによって深層学習技術を実装し、他のいくつかの方法は、事前訓練された言語モデルを用いて、アミノ酸残基レベルの埋め込みベクトルを要約し、シーケンスワイズ表現を得る。 本稿では,T細胞受容体とエピトープ結合親和性のマルチモーダルアテンションに基づく予測を行う,信頼性の高い新しい手法であるMATE-Predを提案する。 MATE-Predは、T細胞受容体とエピトープのマルチモーダル表現を利用する他のディープラーニングモデルと比較し、ベンチマークする。 提案手法では,タンパク質のテキスト表現を事前学習した双方向エンコーダモデルに埋め込み,さらに2つのモダリティを組み合わせる。 a) 選択された物理化学的性質の包括的集合 b) 配列中のアミノ酸残基間の3次元距離を推定する接触地図。 MATE-Predは、最先端の性能(ベースラインに比べて+8.4\% MCC、+5.5\% AUC)を達成する上でのマルチモーダルモデルの可能性を示し、文脈、物理化学的、構造情報をアミノ酸残基から効率的に捉える。 MATE-Predのパフォーマンスは、様々な薬物発見体制における潜在的な応用を計画している。

An accurate binding affinity prediction between T-cell receptors and epitopes contributes decisively to develop successful immunotherapy strategies. Some state-of-the-art computational methods implement deep learning techniques by integrating evolutionary features to convert the amino acid residues of cell receptors and epitope sequences into numerical values, while some other methods employ pre-trained language models to summarize the embedding vectors at the amino acid residue level to obtain sequence-wise representations. Here, we propose a highly reliable novel method, MATE-Pred, that performs multi-modal attention-based prediction of T-cell receptors and epitopes binding affinity. The MATE-Pred is compared and benchmarked with other deep learning models that leverage multi-modal representations of T-cell receptors and epitopes. In the proposed method, the textual representation of proteins is embedded with a pre-trained bi-directional encoder model and combined with two additional modalities: a) a comprehensive set of selected physicochemical properties; b) predicted contact maps that estimate the 3D distances between amino acid residues in the sequences. The MATE-Pred demonstrates the potential of multi-modal model in achieving state-of-the-art performance (+8.4\% MCC, +5.5\% AUC compared to baselines) and efficiently capturing contextual, physicochemical, and structural information from amino acid residues. The performance of MATE-Pred projects its potential application in various drug discovery regimes.
翻訳日:2024-01-22 09:49:15 公開日:2023-12-05
# バイヤーセラー環境におけるモデル著作権保護

Model Copyright Protection in Buyer-seller Environment ( http://arxiv.org/abs/2312.05262v1 )

ライセンス: Link先を確認
Yusheng Guo, Nan Zhong, Zhenxing Qian, Xinpeng Zhang(参考訳) ディープニューラルネットワーク(DNN)のトレーニングには高い計算コストが必要となる。 大量のコンピューティングリソースを持つ販売者からモデルを購入することが普及している。 しかし、買い手販売環境は必ずしも信頼できない。 信頼できない環境でのニューラルネットワークモデル漏洩を防止するため,入出力型ニューラルネットワーク(ISNN)を用いたDNNの著作権保護手法を提案する。 ISNNの主な考え方は、DNNを鍵情報と著作権情報に敏感にすることである。 したがって、正しいキーを持つバイヤーのみがISNNを利用することができる。 トレーニングフェーズでは、クリーンイメージに特定の摂動を追加して法的入力としてマークし、他の入力は違法入力として扱われる。 我々は、法的な入力の出力を実際の入力に近づけるために損失関数を設計するが、違法な入力は実際の結果に遠く及ばない。 実験の結果,提案手法の有効性,有効性,安全性が示された。

Training a deep neural network (DNN) requires a high computational cost. Buying models from sellers with a large number of computing resources has become prevailing. However, the buyer-seller environment is not always trusted. To protect the neural network models from leaking in an untrusted environment, we propose a novel copyright protection scheme for DNN using an input-sensitive neural network (ISNN). The main idea of ISNN is to make a DNN sensitive to the key and copyright information. Therefore, only the buyer with a correct key can utilize the ISNN. During the training phase, we add a specific perturbation to the clean images and mark them as legal inputs, while the other inputs are treated as illegal input. We design a loss function to make the outputs of legal inputs close to the true ones, while the illegal inputs are far away from true results. Experimental results demonstrate that the proposed scheme is effective, valid, and secure.
翻訳日:2024-01-15 15:01:09 公開日:2023-12-05
# 非線形pa歪み緩和のためのエネルギー効率の高い大規模mimo:グラフニューラルネットワークプリコーディングに向けて

Toward Energy-Efficient Massive MIMO: Graph Neural Network Precoding for Mitigating Non-Linear PA Distortion ( http://arxiv.org/abs/2312.04591v1 )

ライセンス: Link先を確認
Thomas Feys, Liesbet Van der Perre, Fran\c{c}ois Rottenberg(参考訳) 大規模MIMOシステムは一般に線形パワー増幅器(PA)として設計されている。 しかし、PAは非線型歪みが発生する飽和に近いエネルギー効率が最も高い。 従来のプリコーダでは、この歪みはユーザの位置でコヒーレントに結合し、パフォーマンスを制限できる。 チャネルとプリコーディング行列のマッピングを学習するグラフニューラルネットワーク(GNN)を提案し,高次多項式PAモデルを用いて非線形歪みの影響を最大化する。 歪み制限方式では、このGNNベースのプリコーダは、ゼロ強制(ZF)、ZF+デジタルプレ歪み(DPD)、および歪み認識ビームフォーミング(DAB)プレコーダよりも優れる。 入力バックオフが -3 db の場合、zf と比較して提案するプリコーダは、それぞれ 2 ユーザと 4 ユーザに対して、合計レート 8.60 と 8.84 ビット/チャネル使用率を増加させる。 放射パターンは、非線形歪みを非ユーザ方向に伝達することで得られることを示す。 4つのユーザケースにおいて、固定和率の場合、gnnプリコーダの総消費電力(paおよび処理)は、zfおよびzf+dpdと比較してそれぞれ3.24および1.44倍低い。 複雑性解析はDABプリコーディングに比べて6桁のスケール縮小を示す。 これはpasを飽和に近づける視点を開き、エネルギー効率を劇的に向上させる。

Massive MIMO systems are typically designed assuming linear power amplifiers (PAs). However, PAs are most energy efficient close to saturation, where non-linear distortion arises. For conventional precoders, this distortion can coherently combine at user locations, limiting performance. We propose a graph neural network (GNN) to learn a mapping between channel and precoding matrices, which maximizes the sum rate affected by non-linear distortion, using a high-order polynomial PA model. In the distortion-limited regime, this GNN-based precoder outperforms zero forcing (ZF), ZF plus digital pre-distortion (DPD) and the distortion-aware beamforming (DAB) precoder from the state-of-the-art. At an input back-off of -3 dB the proposed precoder compared to ZF increases the sum rate by 8.60 and 8.84 bits/channel use for two and four users respectively. Radiation patterns show that these gains are achieved by transmitting the non-linear distortion in non-user directions. In the four user-case, for a fixed sum rate, the total consumed power (PA and processing) of the GNN precoder is 3.24 and 1.44 times lower compared to ZF and ZF plus DPD respectively. A complexity analysis shows six orders of magnitude reduction compared to DAB precoding. This opens perspectives to operate PAs closer to saturation, which drastically increases their energy efficiency.
翻訳日:2024-01-15 14:59:08 公開日:2023-12-05
# 医用イメージングのためのAI性能とデータ再構成レジリエンスの再構築

Reconciling AI Performance and Data Reconstruction Resilience for Medical Imaging ( http://arxiv.org/abs/2312.04590v1 )

ライセンス: Link先を確認
Alexander Ziller, Tamara T. Mueller, Simon Stieger, Leonhard Feiner, Johannes Brandt, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) 人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、例えば医療画像において非常に敏感である。 差別化プライバシ(DP)のようなPET(Privacy Enhancing Technologies)は、これらの感受性を回避することを目的としている。 DPはトレーニングモデルに対する最強の保護であり、トレーニングサンプルの導入やオリジナルデータの再構築のリスクを推測する。 dpは、定量化可能なプライバシー予算を設定することでこれを達成する。 低い予算は情報漏洩のリスクを減少させるが、通常そのようなモデルの性能を低下させる。 これにより、堅牢なパフォーマンスと厳格なプライバシのトレードオフが生じる。 さらに、プライバシー予算の解釈は抽象的でコンテキスト化が難しいままである。 本研究では,様々なプライバシー予算におけるaiモデルの性能を,理論上のリスク範囲とレコンストラクション攻撃の実証的成功の両方と対比する。 非常に大きなプライバシー予算を使用することで、再構築攻撃は不可能であり、性能低下は無視可能であることを示す。 したがって、機密データにAIモデルを適用する際に、DPを使用しないというのは、まったく無知である、と結論付けます。 これらの結果は、プライバシーリスクとモデルパフォーマンスのバランスを崩すためのさらなる議論の基盤になっていると信じています。

Artificial Intelligence (AI) models are vulnerable to information leakage of their training data, which can be highly sensitive, for example in medical imaging. Privacy Enhancing Technologies (PETs), such as Differential Privacy (DP), aim to circumvent these susceptibilities. DP is the strongest possible protection for training models while bounding the risks of inferring the inclusion of training samples or reconstructing the original data. DP achieves this by setting a quantifiable privacy budget. Although a lower budget decreases the risk of information leakage, it typically also reduces the performance of such models. This imposes a trade-off between robust performance and stringent privacy. Additionally, the interpretation of a privacy budget remains abstract and challenging to contextualize. In this study, we contrast the performance of AI models at various privacy budgets against both, theoretical risk bounds and empirical success of reconstruction attacks. We show that using very large privacy budgets can render reconstruction attacks impossible, while drops in performance are negligible. We thus conclude that not using DP -- at all -- is negligent when applying AI models to sensitive data. We deem those results to lie a foundation for further debates on striking a balance between privacy risks and model performance.
翻訳日:2024-01-15 14:58:44 公開日:2023-12-05
# 信頼できるニューロシンボリックAIシステムの構築:一貫性、信頼性、説明可能性、安全性

Building Trustworthy NeuroSymbolic AI Systems: Consistency, Reliability, Explainability, and Safety ( http://arxiv.org/abs/2312.06798v1 )

ライセンス: Link先を確認
Manas Gaur, Amit Sheth(参考訳) 説明責任と安全への信頼。 これらは一貫性と信頼性を示すモデルを必要とする。 これらを実現するためには、AIアプリケーションに関連する統計的および象徴的なAIメソッドを使用して、データと知識を使用および分析する必要がある。 その結果、我々はNeuroSymbolic AIアプローチがAIを信頼できるAIシステムにするのにより適していることを示す。 我々は、一貫性、信頼性、ユーザレベルの説明可能性、安全性がNeuroSymbolicメソッド上でどのように構築されているかを示すCRESTフレームワークを紹介します。 この記事では、CRESTフレームワーク内で選択されたAIシステムとして、Large Language Models(LLM)に焦点を当てる。 LLMは、幅広い自然言語処理(NLP)シナリオを扱うための汎用性のために、研究者からかなりの注目を集めている。 例えば、ChatGPTとGoogleのMedPaLMは、それぞれ一般的なクエリと健康関連のクエリを提供する、非常に有望なプラットフォームとして登場した。 それでもこれらのモデルは、人間のフィードバックと指導誘導チューニングを取り入れたにもかかわらず、ブラックボックスのままである。 例えば、chatgptはsafe guardrailsを導入しても、安全でない応答を生成できる。 CRESTは、NeuroSymbolicフレームワーク内の手続き的およびグラフベースの知識を活用して、LCMに関連する課題に光を当てることのできるアプローチを提示している。

Explainability and Safety engender Trust. These require a model to exhibit consistency and reliability. To achieve these, it is necessary to use and analyze data and knowledge with statistical and symbolic AI methods relevant to the AI application - neither alone will do. Consequently, we argue and seek to demonstrate that the NeuroSymbolic AI approach is better suited for making AI a trusted AI system. We present the CREST framework that shows how Consistency, Reliability, user-level Explainability, and Safety are built on NeuroSymbolic methods that use data and knowledge to support requirements for critical applications such as health and well-being. This article focuses on Large Language Models (LLMs) as the chosen AI system within the CREST framework. LLMs have garnered substantial attention from researchers due to their versatility in handling a broad array of natural language processing (NLP) scenarios. For example, ChatGPT and Google's MedPaLM have emerged as highly promising platforms for providing information in general and health-related queries, respectively. Nevertheless, these models remain black boxes despite incorporating human feedback and instruction-guided tuning. For instance, ChatGPT can generate unsafe responses despite instituting safety guardrails. CREST presents a plausible approach harnessing procedural and graph-based knowledge within a NeuroSymbolic framework to shed light on the challenges associated with LLMs.
翻訳日:2024-01-15 14:52:33 公開日:2023-12-05
# 計算幾何学による臨界領域におけるUAV位置推定のための耐故障性センサ配置の最適化

Optimizing Fault-Tolerant Quality-Guaranteed Sensor Deployments for UAV Localization in Critical Areas via Computational Geometry ( http://arxiv.org/abs/2312.06667v1 )

ライセンス: Link先を確認
Marco Esposito and Toni Mancini and Enrico Tronci(参考訳) 小型商用無人航空機(UAV、別名ドローン)の普及は、空港、発電所、政府や軍事施設などの重要な領域に深刻な脅威をもたらす。 実際、そのようなUAVは無線通信を妨害したり妨害したり、他の飛行物体と衝突したり、スパイ活動を行ったり、兵器や爆発物などの攻撃的なペイロードを運ぶことができる。 重要な領域における未許可のuavのローカライズのための監視ソリューションを設計する際の中心的な問題は、使用する三角測量センサーの数と、適用範囲とコスト効率の両方を最適化するための配置場所を決定することである。 本稿では,UAVローカライゼーションのための三角センサの展開を計算し,複数のセンサ品質レベルのカバレッジ,コスト効率,耐故障性などの指標を最適化する。 私たちは、大きな複雑な3d領域に注目し、障害物(例えば建物)、地形の高度の変化、カバーの優先度の相違、センサー配置の制約などを示します。 新しいアプローチは計算幾何学と統計モデルチェックに依存しており、既製のaiベースのブラックボックスオプティマイザを効果的に利用できる。 さらに,センサ配置によって検出された領域のクローズドフォームな解析表現を計算し,後者の品質を厳密かつ形式的に証明する手段を提供する。 我々は,2つの大規模かつ複雑な3D臨界領域,ローマレオナルド・ダ・ヴィンチ国際空港 (FCO) とウィーン国際空港 (VIC) におけるUAVローカライゼーションのための最適なセンサ配置を計算し,その実現可能性を示す。 その結果,標準的なワークステーションでは数時間以内に,小さな並列インフラストラクチャでは数分以内に,センサの配置を最適に計算できることがわかった。

The increasing spreading of small commercial Unmanned Aerial Vehicles (UAVs, aka drones) presents serious threats for critical areas such as airports, power plants, governmental and military facilities. In fact, such UAVs can easily disturb or jam radio communications, collide with other flying objects, perform espionage activity, and carry offensive payloads, e.g., weapons or explosives. A central problem when designing surveillance solutions for the localization of unauthorized UAVs in critical areas is to decide how many triangulating sensors to use, and where to deploy them to optimise both coverage and cost effectiveness. In this article, we compute deployments of triangulating sensors for UAV localization, optimizing a given blend of metrics, namely: coverage under multiple sensing quality levels, cost-effectiveness, fault-tolerance. We focus on large, complex 3D regions, which exhibit obstacles (e.g., buildings), varying terrain elevation, different coverage priorities, constraints on possible sensors placement. Our novel approach relies on computational geometry and statistical model checking, and enables the effective use of off-the-shelf AI-based black-box optimizers. Moreover, our method allows us to compute a closed-form, analytical representation of the region uncovered by a sensor deployment, which provides the means for rigorous, formal certification of the quality of the latter. We show the practical feasibility of our approach by computing optimal sensor deployments for UAV localization in two large, complex 3D critical regions, the Rome Leonardo Da Vinci International Airport (FCO) and the Vienna International Center (VIC), using NOMAD as our state-of-the-art underlying optimization engine. Results show that we can compute optimal sensor deployments within a few hours on a standard workstation and within minutes on a small parallel infrastructure.
翻訳日:2024-01-15 14:49:59 公開日:2023-12-05
# すべての川が海に流れる:非対称な流れを持つプライベートラーニング

All Rivers Run to the Sea: Private Learning with Asymmetric Flows ( http://arxiv.org/abs/2312.05264v1 )

ライセンス: Link先を確認
Yue Niu, Ramy E. Ali, Saurav Prakash, Salman Avestimehr(参考訳) データプライバシは、機密データをサービスプロバイダに公開する場合、クラウドマシンラーニングサービスプラットフォームにおいて大きな関心事となります。 プライベートコンピューティング環境(セキュアなエンクレーブなど)や暗号化アプローチ(ホモモルフィック暗号化など)は強力なプライバシ保護を提供するが、そのコンピューティング性能はクラウドGPUと比較しても低い。 計算性能の高いプライバシ保護を実現するために,非プライベート集中型トレーニングと同等のモデルパフォーマンスを持つ,新しいプライベートトレーニングおよび推論フレームワークdeltaを提案する。 Deltaは2つの非対称なデータフローを特徴としている。 主部分は小さなモデルに流れ、残余は大きなモデルにオフロードされる。 特に、deltaは情報に敏感な表現を低次元空間に埋め込み、情報に敏感な部分を高次元の残差に押し込む。 プライバシー保護を確保するため、低次元情報感度部を保護し、プライベート環境で小さなモデルに供給する。 一方、残存部分は高速クラウドgpuに送信され、大きなモデルで処理される。 プライバシーをさらに強化し、通信コストを削減するため、Deltaはパブリックプラットフォームと共有する前に、DPベースのテクニックとともにランダムなバイナリ量子化技術を適用している。 理論的には、Deltaは公共環境における差分プライバシーを保証し、プライベート環境における複雑さを大幅に低減する。 我々は、CIFAR-10、CIFAR-100、ImageNetデータセット、ResNet-18、ResNet-34に関する実証分析を行い、Deltaがモデルユーティリティを著しく妥協することなく、強力なプライバシ保護、高速トレーニング、推論を実現することを示す。

Data privacy is of great concern in cloud machine-learning service platforms, when sensitive data are exposed to service providers. While private computing environments (e.g., secure enclaves), and cryptographic approaches (e.g., homomorphic encryption) provide strong privacy protection, their computing performance still falls short compared to cloud GPUs. To achieve privacy protection with high computing performance, we propose Delta, a new private training and inference framework, with comparable model performance as non-private centralized training. Delta features two asymmetric data flows: the main information-sensitive flow and the residual flow. The main part flows into a small model while the residuals are offloaded to a large model. Specifically, Delta embeds the information-sensitive representations into a low-dimensional space while pushing the information-insensitive part into high-dimension residuals. To ensure privacy protection, the low-dimensional information-sensitive part is secured and fed to a small model in a private environment. On the other hand, the residual part is sent to fast cloud GPUs, and processed by a large model. To further enhance privacy and reduce the communication cost, Delta applies a random binary quantization technique along with a DP-based technique to the residuals before sharing them with the public platform. We theoretically show that Delta guarantees differential privacy in the public environment and greatly reduces the complexity in the private environment. We conduct empirical analyses on CIFAR-10, CIFAR-100 and ImageNet datasets and ResNet-18 and ResNet-34, showing that Delta achieves strong privacy protection, fast training, and inference without significantly compromising the model utility.
翻訳日:2024-01-15 14:45:18 公開日:2023-12-05
# ニューラルネットワークによる波形の物理パラメータの推定

Estimation of Physical Parameters of Waveforms With Neural Networks ( http://arxiv.org/abs/2312.10068v1 )

ライセンス: Link先を確認
Saad Ahmed Jamal and Thomas Corpetti and Dirk Tiede and Mathilde Letard and Dimitri Lague(参考訳) 光検出とラング(LiDAR)は、地球観測の分野で急速に出現するセンサーである。 レーザービームを利用して距離を測定し、オブジェクトや環境の詳細な3次元表現を作成するリモートセンシング技術である。 フルウェーブフォームLiDARのポテンシャルは、単なる高さ推定や3D再構成よりもはるかに大きい。 信号の全体的な形状は、水域の性質に関する重要な情報を提供する。 しかし、ほとんどのlidarソフトウェアが波形内の最大値を利用することでポイントクラウドで動作するため、fwlの形状は未検討である。 既存のLiDARデータ解析の分野では、逆モデリングによる深さ推定や対数強度の回帰、減衰係数の近似のための深さ推定などがある。 しかし、これらの手法は精度に限界がある。 逆モデリングによる深さ推定は近似値のみを提供し、表面特性のばらつきを考慮せず、減衰係数の回帰アプローチは、精度が欠け、推定に重大な誤差をもたらす可能性のあるいくつかのデータポイントを通してのみ値を一般化することができる。 さらに、ボトムリフレクタンスを予測するための確立したモデリング手法が現在存在しない。 本研究では,LIDARデータ解析におけるパラメータ推定のためのニューラルネットワークに基づく新しい手法を提案する。 ニューラルネットワークのパワーを活用することで,提案手法はインバージョンモデルを学習し,深さ,減衰係数,底面反射率などのパラメータの予測を可能にした。 モデルの性能は、実際のLiDARデータ上でテストすることで検証された。 将来的には、より多くのデータ可用性が、そのようなモデルの精度と信頼性を高めるだろう。

Light Detection and Ranging (LiDAR) are fast emerging sensors in the field of Earth Observation. It is a remote sensing technology that utilizes laser beams to measure distances and create detailed three-dimensional representations of objects and environments. The potential of Full Waveform LiDAR is much greater than just height estimation and 3D reconstruction only. Overall shape of signal provides important information about properties of water body. However, the shape of FWL is unexplored as most LiDAR software work on point cloud by utilizing the maximum value within the waveform. Existing techniques in the field of LiDAR data analysis include depth estimation through inverse modeling and regression of logarithmic intensity and depth for approximating the attenuation coefficient. However, these methods suffer from limitations in accuracy. Depth estimation through inverse modeling provides only approximate values and does not account for variations in surface properties, while the regression approach for the attenuation coefficient is only able to generalize a value through several data points which lacks precision and may lead to significant errors in estimation. Additionally, there is currently no established modeling method available for predicting bottom reflectance. This research proposed a novel solution based on neural networks for parameter estimation in LIDAR data analysis. By leveraging the power of neural networks, the proposed solution successfully learned the inversion model, was able to do prediction of parameters such as depth, attenuation coefficient, and bottom reflectance. Performance of model was validated by testing it on real LiDAR data. In future, more data availability would enable more accuracy and reliability of such models.
翻訳日:2024-01-15 13:46:48 公開日:2023-12-05
# ティーンエイジャーと人工知能:ブートキャンプの経験と学んだ教訓

Teenagers and Artificial Intelligence: Bootcamp Experience and Lessons Learned ( http://arxiv.org/abs/2312.10067v1 )

ライセンス: Link先を確認
Uzay Macar, Blake Castleman, Noah Mauchly, Michael Jiang, Asma Aouissi, Salma Aouissi, Xena Maayah, Kaan Erdem, Rohith Ravindranath, Andrea Clark-Sevilla, Ansaf Salleb-Aouissi(参考訳) 人工知能(AI)は、今日のテクノロジーの世界におけるゲームチェンジャーとして際立っている。 しかし、教室のカリキュラムにおけるAI教育の統合は、現在遅れており、十代の若者たちは、差し迫ったAI駆動の未来に備えていない。 本研究では,2023年夏に60人の高校生のコホートに提供される3日間のブートキャンプを設計した。 カリキュラムは、アニメーションビデオコンテンツ、簡単にフォローできるスライド、インタラクティブな遊び場、クイズを通じて直接配信された。 これらは私たちが開発中のオンライン学習プラットフォームの初期バージョンにパッケージ化されました。 ブートキャンプ後の調査の結果、全体の満足度は91.4%だった。 ブートキャンプ期間が短いにもかかわらず、ティーンエイジャーの88.5%と71.4%は、それぞれaiの概念とプログラミングの理解を改善したと回答した。 全体として,多様なモダリティを効果的に活用し,基礎モジュールの構築は,より複雑なトピックの導入に有効であることがわかった。 さらに、コーディング課題にgoogle colabノートブックを使うことは、ほとんどの学生にとって困難であった。 プラットフォーム上での学生の活動とクイズに対する回答は、熟練した熱意と資料の把握を示した。 本研究は,次世代のai教育への説得力とアクセス性の必要性,および10代の若者に早期ai教育を提供することのギャップを埋めるための非公式学習の可能性を強く強調する。

Artificial intelligence (AI) stands out as a game-changer in today's technology landscape. However, the integration of AI education in classroom curricula currently lags behind, leaving teenagers inadequately prepared for an imminent AI-driven future. In this pilot study, we designed a three-day bootcamp offered in the summer of 2023 to a cohort of 60 high school students. The curriculum was delivered in person through animated video content, easy-to-follow slides, interactive playgrounds, and quizzes. These were packaged in the early version of an online learning platform we are developing. Results from the post-bootcamp survey conveyed a 91.4% overall satisfaction. Despite the short bootcamp duration, 88.5% and 71.4% of teenagers responded that they had an improved understanding of AI concepts and programming, respectively. Overall, we found that employing diverse modalities effectively engaged students, and building foundational modules proved beneficial for introducing more complex topics. Furthermore, using Google Colab notebooks for coding assignments proved challenging to most students. Students' activity on the platform and their answers to quizzes showed proficient engagement and a grasp of the material. Our results strongly highlight the need for compelling and accessible AI education methods for the next generation and the potential for informal learning to fill the gap of providing early AI education to teenagers.
翻訳日:2024-01-15 13:46:27 公開日:2023-12-05
# テキスト・画像基礎モデルの下流アプリケーションにおけるソーシャルバイアスの探索

Exploring Social Bias in Downstream Applications of Text-to-Image Foundation Models ( http://arxiv.org/abs/2312.10065v1 )

ライセンス: Link先を確認
Adhithya Prakash Saravanan, Rafal Kocielnik, Roy Jiang, Pengrui Han, Anima Anandkumar(参考訳) テキストから画像への拡散モデルは、アート生成や画像編集といった重要な商用ワークフローに採用されている。 性別や人種のステレオタイプなど、彼らが示す暗黙の社会バイアスを特徴付けることは、差別的な結果を避けるための第一歩である。 社会バイアスに関する既存の研究は画像生成に重点を置いているが、拡散に基づく基礎モデルの代替応用で示されるバイアスは未探索のままである。 本稿では,合成画像を用いて拡散モデル,画像編集,分類の2つの応用を社会バイアスに適用する手法を提案する。 本手法を用いて,最先端のオープンソースのテキスト対画像モデルである \textit{stable diffusion} において,有意義かつ有意義な断面間社会バイアスを明らかにする。 本研究は,ダウンストリームタスクやサービスに対してテキストから画像への基盤モデルが不当に採用されていることに対して注意を喚起する。

Text-to-image diffusion models have been adopted into key commercial workflows, such as art generation and image editing. Characterising the implicit social biases they exhibit, such as gender and racial stereotypes, is a necessary first step in avoiding discriminatory outcomes. While existing studies on social bias focus on image generation, the biases exhibited in alternate applications of diffusion-based foundation models remain under-explored. We propose methods that use synthetic images to probe two applications of diffusion models, image editing and classification, for social bias. Using our methodology, we uncover meaningful and significant inter-sectional social biases in \textit{Stable Diffusion}, a state-of-the-art open-source text-to-image model. Our findings caution against the uninformed adoption of text-to-image foundation models for downstream tasks and services.
翻訳日:2024-01-15 13:46:06 公開日:2023-12-05
# 衛星型洪水保険支援のためのニュースメディアからの洪水イベント抽出

Flood Event Extraction from News Media to Support Satellite-Based Flood Insurance ( http://arxiv.org/abs/2312.14943v1 )

ライセンス: Link先を確認
Tejit Pabari, Beth Tellman, Giannis Karamanolakis, Mitchell Thomas, Max Mauerman, Eugene Wu, Upmanu Lall, Marco Tedesco, Michael S Steckler, Paolo Colosio, Daniel E Osgood, Melody Braun, Jens de Bruijn, Shammun Islam(参考訳) 洪水は毎年世界中の土地、生活、生活に大きな損失をもたらし、持続可能な開発を妨げる。 保険などの災害時の金融ショックを吸収するための安全ネットは、バングラデシュのような世界で最も洪水に弱い地域では利用できないことが多い。 インデクスベースの保険は、気象データや衛星からの情報を考慮し、被保険者の被害と相関する「洪水指数」を作成する安価なソリューションとして登場した。 しかし、既存の洪水イベントデータベースはしばしば不完全であり、衛星センサーは極端な気象条件(雲など)下では信頼できないため、現在のインデックスベースの保険に対するアプローチの空間的および時間的解決が制限される。 本研究では,高分解能時空間情報をニュースメディアから抽出することで,衛星ベースの洪水指数保険を支援する新しいアプローチを提案する。 まず,バングラデシュの洪水イベントを10の著名なニュースソースが取り扱う4万のニュース記事と,衛星レーダセンサから収集したバングラデシュの各部門毎の浸水面積の推定値からなるデータセットを公開する。 第2に,この新たなアプリケーションではキーワードベースモデルが不十分であること,文脈ベース分類器が複雑かつ暗黙的な洪水関連パターンをカバーすること,等を示す。 第3に, ニュースメディアから抽出した時系列は, スピアマンのrho$=0.70と, 浸水面積の衛星推定値との有意な相関を示す。 本研究は,ニュースメディアが時間分解能の向上と洪水被害データの空間範囲の拡大に有望な情報源であることを実証する。

Floods cause large losses to property, life, and livelihoods across the world every year, hindering sustainable development. Safety nets to help absorb financial shocks in disasters, such as insurance, are often unavailable in regions of the world most vulnerable to floods, like Bangladesh. Index-based insurance has emerged as an affordable solution, which considers weather data or information from satellites to create a "flood index" that should correlate with the damage insured. However, existing flood event databases are often incomplete, and satellite sensors are not reliable under extreme weather conditions (e.g., because of clouds), which limits the spatial and temporal resolution of current approaches for index-based insurance. In this work, we explore a novel approach for supporting satellite-based flood index insurance by extracting high-resolution spatio-temporal information from news media. First, we publish a dataset consisting of 40,000 news articles covering flood events in Bangladesh by 10 prominent news sources, and inundated area estimates for each division in Bangladesh collected from a satellite radar sensor. Second, we show that keyword-based models are not adequate for this novel application, while context-based classifiers cover complex and implicit flood related patterns. Third, we show that time series extracted from news media have substantial correlation Spearman's rho$=0.70 with satellite estimates of inundated area. Our work demonstrates that news media is a promising source for improving the temporal resolution and expanding the spatial coverage of the available flood damage data.
翻訳日:2024-01-15 13:01:33 公開日:2023-12-05
# 液体状態遺伝的プログラミング

Liquid State Genetic Programming ( http://arxiv.org/abs/2312.14942v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) 本稿では,LSGP(Liquid State Genetic Programming)と呼ばれる新しい遺伝的プログラミング法を提案する。 LSGPは、入力(液体)を格納する動的メモリと、問題を解決するために使用される遺伝的プログラミング技術を組み合わせたハイブリッド手法である。 いくつかのベンチマーク問題を用いてLSGPを用いた数値実験を行った。 数値実験により、LSGPは、検討されたテスト問題に対して、標準的な遺伝的プログラミングと同等、時には同等に機能することが示された。

A new Genetic Programming variant called Liquid State Genetic Programming (LSGP) is proposed in this paper. LSGP is a hybrid method combining a dynamic memory for storing the inputs (the liquid) and a Genetic Programming technique used for the problem solving part. Several numerical experiments with LSGP are performed by using several benchmarking problems. Numerical experiments show that LSGP performs similarly and sometimes even better than standard Genetic Programming for the considered test problems.
翻訳日:2024-01-15 13:01:02 公開日:2023-12-05
# フェデレーション・ラーニング・サービスのための公平性保証付きマルチクリトリア・クライアント選択とスケジューリング

Multi-Criteria Client Selection and Scheduling with Fairness Guarantee for Federated Learning Service ( http://arxiv.org/abs/2312.14941v1 )

ライセンス: Link先を確認
Meiying Zhang, Huan Zhao, Sheldon Ebron, Ruitao Xie, Kan Yang(参考訳) フェデレーション学習(fl)は、複数のクライアントが生のトレーニングデータを共有することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 しかし、与えられたflタスクでは、予算制限とクライアントの不均一性のために、適切なクライアントのグループを選択する方法がかなり難しい問題になる。 本稿では,2段階からなる公平性保証を備えたマルチクリトリアクライアント選択・スケジューリング方式を提案する。 1)事前のクライアントプール選択、及び 2) クライアント毎のスケジューリング。 具体的には、まず、クライアントリソース、データ品質、クライアントの振る舞いなど、いくつかの基準で通知されるクライアント選択メトリクスを定義します。 そして,初期クライアントプール選択問題を,所定の予算内で選択したクライアントのスコアを最大化することを目的とした最適化問題に定式化し,それを解決するための欲求アルゴリズムを提案する。 公平性を保証するため,本研究では,クライアントプールを複数のサブセットに分割するヒューリスティックアルゴリズムを提案し,各サブセット内の‘統合’データセットが独立かつ同一の分布(iid)に近いことを保証しながら,少なくとも一度はクライアントが選択されるようにした。 実験の結果,データ非iidの場合,特にモデル品質の向上が期待できることがわかった。

Federated Learning (FL) enables multiple clients to train machine learning models collaboratively without sharing the raw training data. However, for a given FL task, how to select a group of appropriate clients fairly becomes a challenging problem due to budget restrictions and client heterogeneity. In this paper, we propose a multi-criteria client selection and scheduling scheme with a fairness guarantee, comprising two stages: 1) preliminary client pool selection, and 2) per-round client scheduling. Specifically, we first define a client selection metric informed by several criteria, such as client resources, data quality, and client behaviors. Then, we formulate the initial client pool selection problem into an optimization problem that aims to maximize the overall scores of selected clients within a given budget and propose a greedy algorithm to solve it. To guarantee fairness, we further formulate the per-round client scheduling problem and propose a heuristic algorithm to divide the client pool into several subsets such that every client is selected at least once while guaranteeing that the `integrated' dataset in a subset is close to an independent and identical distribution (iid). Our experimental results show that our scheme can improve the model quality especially when data are non-iid.
翻訳日:2024-01-15 13:00:49 公開日:2023-12-05
# PromptonomyViT: 合成シーンデータを用いたマルチタスクプロンプト学習によるビデオトランスフォーマーの改善

PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data ( http://arxiv.org/abs/2212.04821v3 )

ライセンス: Link先を確認
Roei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson(参考訳) アクション認識モデルは、オブジェクト、それらの関係、3d構造などのシーンレベルのアノテーションを組み込むことで、印象的な結果を得た。 しかし,映像のシーン構造に対するアノテーションを得るには膨大な労力を要するため,これらの手法を訓練するのには費用がかかる。 対照的に、グラフィックエンジンによって生成された合成データセットは、複数のタスクにまたがるシーンレベルのアノテーションを生成する強力な代替手段を提供する。 本研究では,映像理解を改善するために合成シーンデータを活用する手法を提案する。 本稿では,共有ビデオトランスフォーマーのバックボーンを,タスク毎に小さなパラメータセットで拡張する,ビデオトランスフォーマーのためのマルチタスクプロンプト学習手法を提案する。 具体的には、異なるタスクに対応する一連の「タスクプロンプト」を追加し、各プロンプトがタスク関連のアノテーションを予測する。 この設計により、合成シーンタスク間で共有される情報、合成シーンタスク間で共有される情報、ネットワーク全体にわたって実際のビデオ下流タスクをキャプチャできる。 タスク関連構造をモデル化するので,このアプローチを "Promptonomy" と呼ぶ。 PromptonomyViTモデル(PViT)を提案する。PViTは「Promptonomy」アプローチを用いて合成データから様々な種類のシーンレベル情報を組み込むビデオトランスフォーマーである。 PViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。 プロジェクトページ: \url{https://ofir1080.github.io/PromptonomyViT}

Action recognition models have achieved impressive results by incorporating scene-level annotations, such as objects, their relations, 3D structure, and more. However, obtaining annotations of scene structure for videos requires a significant amount of effort to gather and annotate, making these methods expensive to train. In contrast, synthetic datasets generated by graphics engines provide powerful alternatives for generating scene-level annotations across multiple tasks. In this work, we propose an approach to leverage synthetic scene data for improving video understanding. We present a multi-task prompt learning approach for video transformers, where a shared video transformer backbone is enhanced by a small set of specialized parameters for each task. Specifically, we add a set of "task prompts", each corresponding to a different task, and let each prompt predict task-related annotations. This design allows the model to capture information shared among synthetic scene tasks as well as information shared between synthetic scene tasks and a real video downstream task throughout the entire network. We refer to this approach as "Promptonomy", since the prompts model task-related structure. We propose the PromptonomyViT model (PViT), a video transformer that incorporates various types of scene-level information from synthetic data using the "Promptonomy" approach. PViT shows strong performance improvements on multiple video understanding tasks and datasets. Project page: \url{https://ofir1080.github.io/PromptonomyViT}
翻訳日:2023-12-08 19:24:17 公開日:2023-12-05
# 予混合拡散モデルによる教師なしキーポイント

Unsupervised Keypoints from Pretrained Diffusion Models ( http://arxiv.org/abs/2312.00065v2 )

ライセンス: Link先を確認
Eric Hedlin, Gopal Sharma, Shweta Mahajan, Xingzhe He, Hossam Isack, Abhishek Kar Helge Rhodin, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) キーポイントとランドマークの教師なし学習は、現代のニューラルネットワークアーキテクチャの助けを借りて大きな進歩を遂げている。 我々は,テキストから画像への拡散モデルにおける創発的知識を,より堅牢な教師なしキーポイントへ活用する。 私たちの核となるアイデアは、画像(すなわちキーポイント)のコンパクトな領域に、生成モデルが一貫して出席するテキスト埋め込みを見つけることです。 そのため,本手法では,最小限の標準偏差を持つガウス系として,デノナイジングネットワーク内のクロスアテンションマップをローカライズするように,テキスト埋め込みを最適化する。 CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。 特に非アライメントやキュレーションの少ないデータに対して,精度が大幅に向上し,時には教師付きデータよりもパフォーマンスが向上する。 私たちのコードは公開されており、プロジェクトページから参照できます。 https://ubc-vision.github.io/stablekeypoints/

Unsupervised learning of keypoints and landmarks has seen significant progress with the help of modern neural network architectures, but performance is yet to match the supervised counterpart, making their practicability questionable. We leverage the emergent knowledge within text-to-image diffusion models, towards more robust unsupervised keypoints. Our core idea is to find text embeddings that would cause the generative model to consistently attend to compact regions in images (i.e. keypoints). To do so, we simply optimize the text embedding such that the cross-attention maps within the denoising network are localized as Gaussians with small standard deviations. We validate our performance on multiple datasets: the CelebA, CUB-200-2011, Tai-Chi-HD, DeepFashion, and Human3.6m datasets. We achieve significantly improved accuracy, sometimes even outperforming supervised ones, particularly for data that is non-aligned and less curated. Our code is publicly available and can be found through our project page: https://ubc-vision.github.io/StableKeypoints/
翻訳日:2023-12-08 18:04:49 公開日:2023-12-05
# 多属性データから高次元微分グラフを学習する

Learning High-Dimensional Differential Graphs From Multi-Attribute Data ( http://arxiv.org/abs/2312.03761v1 )

ライセンス: Link先を確認
Jitendra K Tugnait(参考訳) 類似構造を持つことが知られている2つのガウス図形モデル(GGM)の違いを推定する問題を考える。 GGM構造はその精度(逆共分散)行列に符号化される。 多くのアプリケーションにおいて、2つの精度行列の違いを推定し、2つのデータ集合の条件依存の根本的な変化を特徴づけることに興味がある。 微分グラフ推定の既存の方法は、各ノードにスカラーランダム変数を関連付ける単一属性(SA)モデルに基づいている。 マルチ属性(MA)グラフィカルモデルでは、各ノードはランダムなベクトルを表す。 本稿では,多属性データから差分グラフ学習のためのグループラッソペナル化Dトレース損失関数手法を解析する。 目的関数を最適化するために,乗算器の交互方向法(ADMM)を提案する。 高次元設定における支持回復と推定の整合性を確立する理論的解析を行う。 合成および実データに基づく数値結果を示す。

We consider the problem of estimating differences in two Gaussian graphical models (GGMs) which are known to have similar structure. The GGM structure is encoded in its precision (inverse covariance) matrix. In many applications one is interested in estimating the difference in two precision matrices to characterize underlying changes in conditional dependencies of two sets of data. Existing methods for differential graph estimation are based on single-attribute (SA) models where one associates a scalar random variable with each node. In multi-attribute (MA) graphical models, each node represents a random vector. In this paper, we analyze a group lasso penalized D-trace loss function approach for differential graph learning from multi-attribute data. An alternating direction method of multipliers (ADMM) algorithm is presented to optimize the objective function. Theoretical analysis establishing consistency in support recovery and estimation in high-dimensional settings is provided. Numerical results based on synthetic as well as real data are presented.
翻訳日:2023-12-08 17:52:01 公開日:2023-12-05
# 大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか?

How should the advent of large language models affect the practice of science? ( http://arxiv.org/abs/2312.03759v1 )

ライセンス: Link先を確認
Marcel Binz, Stephan Alaniz, Adina Roskies, Balazs Aczel, Carl T. Bergstrom, Colin Allen, Daniel Schad, Dirk Wulff, Jevin D. West, Qiong Zhang, Richard M. Shiffrin, Samuel J. Gershman, Ven Popov, Emily M. Bender, Marco Marelli, Matthew M. Botvinick, Zeynep Akata, Eric Schulz(参考訳) 大規模言語モデル(llm)はますます科学的なワークフローに取り入れられている。 しかし、私たちはまだこの統合の意味を完全に把握していません。 大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか? この意見のために、我々は4つの科学者グループを招待し、この質問を反映し、彼らの見解を共有し、議論をおこなった。 Schulz et al. は LLM と人間の協力者との作業が根本的に異なるわけではないと論じる一方で、Bender et al. は LLM がしばしば誤用され過大評価され、それらの制限はより専門的で容易に解釈可能なツールに焦点をあてることを保証していると主張している。 Marelliらは、透明な帰属とLCMの責任ある使用の重要性を強調している。 最後に、ボトビニックとガーシュマンは、人類は科学的ロードマップを決定する責任を負うべきだと主張した。 議論を容易にするために、4つの視点は各グループの反応で補完される。 我々は,これらの異なる視点を会話に取り入れることで,LLMの導入と今後の科学的実践への影響について,学術コミュニティ内の重要な考察に注意を向けることを目指す。

Large language models (LLMs) are being increasingly incorporated into scientific workflows. However, we have yet to fully grasp the implications of this integration. How should the advent of large language models affect the practice of science? For this opinion piece, we have invited four diverse groups of scientists to reflect on this query, sharing their perspectives and engaging in debate. Schulz et al. make the argument that working with LLMs is not fundamentally different from working with human collaborators, while Bender et al. argue that LLMs are often misused and over-hyped, and that their limitations warrant a focus on more specialized, easily interpretable tools. Marelli et al. emphasize the importance of transparent attribution and responsible use of LLMs. Finally, Botvinick and Gershman advocate that humans should retain responsibility for determining the scientific roadmap. To facilitate the discussion, the four perspectives are complemented with a response from each group. By putting these different perspectives in conversation, we aim to bring attention to important considerations within the academic community regarding the adoption of LLMs and their impact on both current and future scientific practices.
翻訳日:2023-12-08 17:51:48 公開日:2023-12-05
# DiffusionAtlas: 高精度な拡散ビデオ編集

DiffusionAtlas: High-Fidelity Consistent Diffusion Video Editing ( http://arxiv.org/abs/2312.03772v1 )

ライセンス: Link先を確認
Shao-Yu Chang, Hwann-Tzong Chen and Tyng-Luh Liu(参考訳) 本研究では,ビデオオブジェクトの外観の編集において,フレーム一貫性と高い忠実度を両立できる拡散型映像編集フレームワークである diffusionatlas を提案する。 画像編集の成功にもかかわらず、拡散モデルは、フレーム間のオブジェクトの出現の時空間的一貫性を維持することの難しさから、ビデオ編集において大きな障害に直面する。 一方、atlasベースの技術では、階層化された表現の編集を一貫してフレームに戻せる。 しかし、固定されたUVマッピングフィールド上のテクスチャアトラスの編集に制限があるため、ユーザが提供するテキストや視覚条件に正しく準拠する編集エフェクトを作成するのに苦労することが多い。 本手法は,視覚的テキスト拡散モデルを用いて拡散アトラス上で直接オブジェクトを編集し,フレーム間のコヒーレントなオブジェクト識別を保証する。 アトラスに基づく制約付き損失項を設計し,事前学習したテキスト駆動拡散モデルを構築し,形状歪みの高精度化とテクスチャ偏差の補正を行う。 定性的かつ定量的な実験により,本手法は一貫した高忠実度映像オブジェクト編集において最先端の手法よりも優れていた。

We present a diffusion-based video editing framework, namely DiffusionAtlas, which can achieve both frame consistency and high fidelity in editing video object appearance. Despite the success in image editing, diffusion models still encounter significant hindrances when it comes to video editing due to the challenge of maintaining spatiotemporal consistency in the object's appearance across frames. On the other hand, atlas-based techniques allow propagating edits on the layered representations consistently back to frames. However, they often struggle to create editing effects that adhere correctly to the user-provided textual or visual conditions due to the limitation of editing the texture atlas on a fixed UV mapping field. Our method leverages a visual-textual diffusion model to edit objects directly on the diffusion atlases, ensuring coherent object identity across frames. We design a loss term with atlas-based constraints and build a pretrained text-driven diffusion model as pixel-wise guidance for refining shape distortions and correcting texture deviations. Qualitative and quantitative experiments show that our method outperforms state-of-the-art methods in achieving consistent high-fidelity video-object editing.
翻訳日:2023-12-08 17:39:55 公開日:2023-12-05
# DreamInpainter: 拡散モデルによるテキストガイド型主観的イメージインペインティング

DreamInpainter: Text-Guided Subject-Driven Image Inpainting with Diffusion Models ( http://arxiv.org/abs/2312.03771v1 )

ライセンス: Link先を確認
Shaoan Xie, Yang Zhao, Zhisheng Xiao, Kelvin C.K. Chan, Yandong Li, Yanwu Xu, Kun Zhang, Tingbo Hou(参考訳) 本研究は,テキストとexemplar画像を組み合わせた新しいタスクであるtext-guided subject-driven image inpaintingを導入する。 テキスト画像とexemplar画像の両方は、これまで独立して使用されてきたが、それらの組み合わせ利用は未調査のままである。 両方の条件を同時に満たすことは、編集可能性と主題の忠実性の間に固有のバランスが必要となるため、大きな課題となる。 この課題に対処するために,DreamInpainterという2段階のアプローチを提案する。 まず,被写体の密集した特徴を計算し,被写体の再現性を確保する。 そして、識別トークン選択モジュールを用いて、余分な被写体の詳細を排除し、被写体を保護しつつ、マスク形状やテキストプロンプトなどの他の条件に応じて変化を許容する。 さらに,デカップリング正規化手法を導入し,既存の画像の存在下でテキスト制御を強化する。 提案手法は,視覚品質,アイデンティティ保存,テキスト制御において優れた性能を示し,テキストガイド付き主題駆動画像インパインティングの文脈においてその効果を示す。

This study introduces Text-Guided Subject-Driven Image Inpainting, a novel task that combines text and exemplar images for image inpainting. While both text and exemplar images have been used independently in previous efforts, their combined utilization remains unexplored. Simultaneously accommodating both conditions poses a significant challenge due to the inherent balance required between editability and subject fidelity. To tackle this challenge, we propose a two-step approach DreamInpainter. First, we compute dense subject features to ensure accurate subject replication. Then, we employ a discriminative token selection module to eliminate redundant subject details, preserving the subject's identity while allowing changes according to other conditions such as mask shape and text prompts. Additionally, we introduce a decoupling regularization technique to enhance text control in the presence of exemplar images. Our extensive experiments demonstrate the superior performance of our method in terms of visual quality, identity preservation, and text control, showcasing its effectiveness in the context of text-guided subject-driven image inpainting.
翻訳日:2023-12-08 17:39:35 公開日:2023-12-05
# GPT vs Human for Scientific Reviews: A Dual Source Review on Applications of ChatGPT in Science

GPT vs Human for Scientific Reviews: A Dual Source Review on Applications of ChatGPT in Science ( http://arxiv.org/abs/2312.03769v1 )

ライセンス: Link先を確認
Chenxi Wu, Alan John Varghese, Vivek Oommen, George Em Karniadakis(参考訳) 新たなポリマス大言語モデル(LLM)は、より偏りのない定量的メトリクスを使用し、学際的な接続を容易にし、大量のデータを分析することによって、新たなトレンドと研究ギャップを特定することができる。 しかし、現在では複雑な方法論の深い理解が欠如しており、革新的な主張の評価が困難であり、倫理的な問題や利害の衝突を評価できない。 本稿では, GPT-3.5, 群集パネル, GPT-4の3つの異なるタイプの評価指標を用いて, 人間のレビュアーと大きな言語モデルであるSciSpaceによるGPT関連論文13件について検討する。 客観的質問に対するSciSpaceの回答の50%は人間レビュアーの回答と一致し, GPT-4 (informed evaluator) は人間のレビュアーの精度を高く評価し, SciSpaceは構造, 明瞭度, 完全度を高く評価する。 主観的質問では,非インフォームド評価器 (GPT-3.5, 群集パネル) はSciSpaceとヒトの反応の異なる好みを示し, 群集パネルはヒトの反応の好みを示した。 しかし、GPT-4は精度と構造を同等に評価したが、完全性にはSciSpaceを好んだ。

The new polymath Large Language Models (LLMs) can speed-up greatly scientific reviews, possibly using more unbiased quantitative metrics, facilitating cross-disciplinary connections, and identifying emerging trends and research gaps by analyzing large volumes of data. However, at the present time, they lack the required deep understanding of complex methodologies, they have difficulty in evaluating innovative claims, and they are unable to assess ethical issues and conflicts of interest. Herein, we consider 13 GPT-related papers across different scientific domains, reviewed by a human reviewer and SciSpace, a large language model, with the reviews evaluated by three distinct types of evaluators, namely GPT-3.5, a crowd panel, and GPT-4. We found that 50% of SciSpace's responses to objective questions align with those of a human reviewer, with GPT-4 (informed evaluator) often rating the human reviewer higher in accuracy, and SciSpace higher in structure, clarity, and completeness. In subjective questions, the uninformed evaluators (GPT-3.5 and crowd panel) showed varying preferences between SciSpace and human responses, with the crowd panel showing a preference for the human responses. However, GPT-4 rated them equally in accuracy and structure but favored SciSpace for completeness.
翻訳日:2023-12-08 17:39:16 公開日:2023-12-05
# Algoritmo de Contagem Qu\^antico Aplicado ao Grafo Bipartido Completo

Algoritmo de Contagem Qu\^antico Aplicado ao Grafo Bipartido Completo ( http://arxiv.org/abs/2312.03768v1 )

ライセンス: Link先を確認
Gustavo Alves Bezerra(参考訳) 量子コンピューティングの研究は1980年代から発展し、量子アルゴリズムの研究はあらゆる古典的アルゴリズムよりも優れたものとなった。 そのようなアルゴリズムの例として、Groverのアルゴリズムがあり、$O(\sqrt{N/k})$ steps を用いて$N$要素を持つ無順序データベースで$k$(マーク付き)要素を見つけることができる。 グローバーのアルゴリズムは、$k$がマークされた$n$頂点を含む完全グラフ(ループ付き)の量子ウォークとして解釈できる。 この解釈は検索アルゴリズムを他のグラフ - 完全二部グラフ、グリッド、ハイパーキューブ - に動機づけた。 グロバーのアルゴリズムの線形作用素を用いて、量子カウントアルゴリズムは$O(\sqrt{k})$の誤差で$k$の値を推定し、$O(\sqrt{N})$のステップを使用する。 この研究は、量子カウントアルゴリズムを使って他のグラフのマークされた要素の値$k$を推定する問題に取り組んでいる。 特定の場合、提案されたアルゴリズムを少なくとも$t$ timesで実行すると、$O(\sqrt{k})$の誤差で$k$と推定され、$O(t\sqrt{N})$のステップと成功確率は少なくとも$(1 - 2^{-t})8/\pi^2$である。

Studies on Quantum Computing have been developed since the 1980s, motivating researches on quantum algorithms better than any classical algorithm possible. An example of such algorithms is Grover's algorithm, capable of finding $k$ (marked) elements in an unordered database with $N$ elements using $O(\sqrt{N/k})$ steps. Grover's algorithm can be interpreted as a quantum walk in a complete graph (with loops) containing $N$ vertices from which $k$ are marked. This interpretation motivated search algorithms in other graphs -- complete bipartite graph, grid, and hypercube. Using Grover's algorithm's linear operator, the quantum counting algorithm estimates the value of $k$ with an error of $O(\sqrt{k})$ using $O(\sqrt{N})$ steps. This work tackles the problem of using the quantum counting algorithm for estimating the value $k$ of marked elements in other graphs; more specifically, the complete bipartite graph. It is concluded that for a particular case, running the proposed algorithm at most $t$ times wields an estimation of $k$ with an error of $O(\sqrt{k})$ using $O(t\sqrt{N})$ steps and success probability of at least $(1 - 2^{-t})8/\pi^2$.
翻訳日:2023-12-08 17:38:49 公開日:2023-12-05
# ソースフリーなオープンセットドメイン適応のための未知のサンプル発見

Unknown Sample Discovery for Source Free Open Set Domain Adaptation ( http://arxiv.org/abs/2312.03767v1 )

ライセンス: Link先を確認
Chowdhury Sadman Jahan and Andreas Savakis(参考訳) Open Set Domain Adaptation (OSDA)は、ソースドメイン上でトレーニングされたモデルを、ソースドメイン外の新しいクラスからのサンプルを含む、ターゲットドメインに適応させることを目的としている。 ソースフリーOSDA(SF-OSDA)技術は、ソースドメインのサンプルにアクセスする必要をなくすが、現在のSF-OSDA法は、ターゲットドメインの既知のクラスのみを適応に利用し、適応後の推論でもターゲットドメイン全体にアクセスする必要があり、未知のサンプルと未知のサンプルを区別する。 本稿では,教師と生徒の協調学習と時間的一貫性を用いて,既知の未知のサンプル分離を行い,学生モデルを全クラスにわたって対象領域に適応させるsf-osda法として未知サンプル発見法(usd)を提案する。 USDはJensen-Shannon 距離 (JSD) を未知試料分離の有効な指標として推奨している。 教師/学生のフレームワークは,不完全な未知のサンプル分離による誤りの蓄積を著しく減らし,カリキュラム指導は,対象の未知の部分空間と対象の未知の部分空間の区別を確実に学習するのに役立つ。 USDはターゲットモデルを未知のクラスノードに付加するので、後続の適応推論段階において、ターゲットサンプルを既知のクラスまたは未知のクラスのいずれかに容易に分類する。 実験の結果,USD は既存の SF-OSDA 手法よりも優れており,適応中にソースドメインとターゲットドメインの両方を利用するOSDA モデルと競合することがわかった。

Open Set Domain Adaptation (OSDA) aims to adapt a model trained on a source domain to a target domain that undergoes distribution shift and contains samples from novel classes outside the source domain. Source-free OSDA (SF-OSDA) techniques eliminate the need to access source domain samples, but current SF-OSDA methods utilize only the known classes in the target domain for adaptation, and require access to the entire target domain even during inference after adaptation, to make the distinction between known and unknown samples. In this paper, we introduce Unknown Sample Discovery (USD) as an SF-OSDA method that utilizes a temporally ensembled teacher model to conduct known-unknown target sample separation and adapts the student model to the target domain over all classes using co-training and temporal consistency between the teacher and the student. USD promotes Jensen-Shannon distance (JSD) as an effective measure for known-unknown sample separation. Our teacher-student framework significantly reduces error accumulation resulting from imperfect known-unknown sample separation, while curriculum guidance helps to reliably learn the distinction between target known and target unknown subspaces. USD appends the target model with an unknown class node, thus readily classifying a target sample into any of the known or unknown classes in subsequent post-adaptation inference stages. Empirical results show that USD is superior to existing SF-OSDA methods and is competitive with current OSDA models that utilize both source and target domains during adaptation.
翻訳日:2023-12-08 17:38:19 公開日:2023-12-05
# mismatch quest: 画像とテキストのミスアライメントのためのフィードバック

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment ( http://arxiv.org/abs/2312.03766v1 )

ライセンス: Link先を確認
Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen, Dani Lischinski, Daniel Cohen-Or, Idan Szpektor(参考訳) 既存の画像テキストアライメントモデルは高品質なバイナリアセスメントに達するが、正確なミスアライメントの源を特定できない。 本稿では,検出されたテキストと画像のペア間の誤りの詳細なテキストと視覚的説明を提供する手法を提案する。 大規模言語モデルと視覚接地モデルを用いて,与えられた画像と対応するテキスト説明と視覚指標に対する適切な不整合キャプションを保持するトレーニングセットを自動構築する。 また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。 実験結果から,トレーニングセット上での微調整型視覚言語モデルにより,画像内における誤認識と視覚的表示が可能となり,バイナリアライメント分類と説明生成タスクの双方において,強いベースラインを達成できた。 私たちのメソッドコードと人間のキュレートされたテストセットは以下の通りです。

While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. We leverage large language models and visual grounding models to automatically construct a training set that holds plausible misaligned captions for a given image and corresponding textual explanations and visual indicators. We also publish a new human curated test set comprising ground-truth textual and visual misalignment annotations. Empirical results show that fine-tuning vision language models on our training set enables them to articulate misalignments and visually indicate them within images, outperforming strong baselines both on the binary alignment classification and the explanation generation tasks. Our method code and human curated test set are available at: https://mismatch-quest.github.io/
翻訳日:2023-12-08 17:37:35 公開日:2023-12-05
# クロスドメイン強化学習のための類似性に基づく知識伝達

Similarity-based Knowledge Transfer for Cross-Domain Reinforcement Learning ( http://arxiv.org/abs/2312.03764v1 )

ライセンス: Link先を確認
Sergio A. Serrano and Jose Martinez-Carranza and L. Enrique Sucar(参考訳) クロスドメイン強化学習における知識の伝達は、異なる観察空間や行動空間を持つタスクから知識を再利用することで学習を加速させる難題である。 しかし、転送プロセスから利益を得るためには、受信側の知識の源を慎重に選択することがしばしば必要となる。 本稿では,クロスドメイン強化学習タスク間の類似度を計測し,学習エージェントの性能を向上させるための知識源を選択する方法について検討する。 我々は,異なる空間とエンコーダ・デコーダのセットをマッチングするために,半教師付きアライメント損失を開発し,タスク間の類似性やポリシーの伝達を計測した。 先行研究と比較して,本手法では,データアライメントやペアリング,あるいは専門家ポリシによる収集を必要としない。 実験の結果,様々なMujoco制御タスクのセットにおいて,ソースタスクの調整を行なわずに,知識を効果的に選択し,伝達する手法の堅牢性を示す。

Transferring knowledge in cross-domain reinforcement learning is a challenging setting in which learning is accelerated by reusing knowledge from a task with different observation and/or action space. However, it is often necessary to carefully select the source of knowledge for the receiving end to benefit from the transfer process. In this article, we study how to measure the similarity between cross-domain reinforcement learning tasks to select a source of knowledge that will improve the performance of the learning agent. We developed a semi-supervised alignment loss to match different spaces with a set of encoder-decoders, and use them to measure similarity and transfer policies across tasks. In comparison to prior works, our method does not require data to be aligned, paired or collected by expert policies. Experimental results, on a set of varied Mujoco control tasks, show the robustness of our method in effectively selecting and transferring knowledge, without the supervision of a tailored set of source tasks.
翻訳日:2023-12-08 17:37:07 公開日:2023-12-05
# Gaussian3Diff:3Dフルヘッド合成と編集のための3Dガウス拡散

Gaussian3Diff: 3D Gaussian Diffusion for 3D Full Head Synthesis and Editing ( http://arxiv.org/abs/2312.03763v1 )

ライセンス: Link先を確認
Yushi Lan, Feitong Tan, Di Qiu, Qiangeng Xu, Kyle Genova, Zeng Huang, Sean Fanello, Rohit Pandey, Thomas Funkhouser, Chen Change Loy, Yinda Zhang(参考訳) 本稿では,フォトリアリスティックな3次元頭部を創出し,それを操作・再現する新しい枠組みを提案する。 提案手法は,パラメトリック顔モデルに固定された3次元ガウスを用いた3次元頭部の暗黙の関数表現を利用する。 表現能力を高め、空間情報をエンコードするために、色や不透明を直接保存するのではなく、各ガウス語に軽量な三平面ペイロードを埋め込む。 さらに、3DMMにより2次元UV空間のガウスをパラメータ化し、3Dヘッドアバター生成のための拡散モデルの有効利用を可能にする。 本手法は,顔の特徴や表情を微妙に編集した多彩でリアルな3次元頭部の作成を容易にする。 広範な実験により本手法の有効性が実証された。

We present a novel framework for generating photorealistic 3D human head and subsequently manipulating and reposing them with remarkable flexibility. The proposed approach leverages an implicit function representation of 3D human heads, employing 3D Gaussians anchored on a parametric face model. To enhance representational capabilities and encode spatial information, we embed a lightweight tri-plane payload within each Gaussian rather than directly storing color and opacity. Additionally, we parameterize the Gaussians in a 2D UV space via a 3DMM, enabling effective utilization of the diffusion model for 3D head avatar generation. Our method facilitates the creation of diverse and realistic 3D human heads with fine-grained editing over facial features and expressions. Extensive experiments demonstrate the effectiveness of our method.
翻訳日:2023-12-08 17:36:37 公開日:2023-12-05
# 強化学習における色と形状の目標の誤一般化--事例研究

Colour versus Shape Goal Misgeneralization in Reinforcement Learning: A Case Study ( http://arxiv.org/abs/2312.03762v1 )

ライセンス: Link先を確認
Karolis Ramanauskas, \"Ozg\"ur \c{S}im\c{s}ek(参考訳) プロジェン迷路環境においてdi langosco et al. (2022) によって実証された色と形状の目標の誤一般化について検討し, あいまいな選択をすると, エージェントは形ではなく色に基づく一般化を好むように見える。 簡易な環境下で1000以上のエージェントを訓練し,1000万回以上のエピソードで評価した結果,特定の色チャンネルを通して目標物を検出することを学習したエージェントの行動に起因する可能性が示唆された。 この選択は任意です。 さらに,不特定化により,トレーニング実行に異なるランダムシードを使用する場合を除き,全く同じ手順でエージェントを再トレーニングする場合,エージェントの好みがどう変化するかを示す。 最後に, ランダムシードのみの学習に基づく分布外行動における外れ値の存在を実証する。

We explore colour versus shape goal misgeneralization originally demonstrated by Di Langosco et al. (2022) in the Procgen Maze environment, where, given an ambiguous choice, the agents seem to prefer generalization based on colour rather than shape. After training over 1,000 agents in a simplified version of the environment and evaluating them on over 10 million episodes, we conclude that the behaviour can be attributed to the agents learning to detect the goal object through a specific colour channel. This choice is arbitrary. Additionally, we show how, due to underspecification, the preferences can change when retraining the agents using exactly the same procedure except for using a different random seed for the training run. Finally, we demonstrate the existence of outliers in out-of-distribution behaviour based on training random seed alone.
翻訳日:2023-12-08 17:35:40 公開日:2023-12-05
# InfoBot: Information Bottleneckによる転送と探索

InfoBot: Transfer and Exploration via the Information Bottleneck ( http://arxiv.org/abs/1901.10902v5 )

ライセンス: Link先を確認
Anirudh Goyal, Riashat Islam, Daniel Strouse, Zafarali Ahmed, Matthew Botvinick, Hugo Larochelle, Yoshua Bengio, Sergey Levine(参考訳) 強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。 有用な報酬信号がなければ、効果的な探索戦略は「it決定状態」を求めるべきであると仮定する。 これらの状態は、エージェントが新しい、潜在的に探索されていない領域に遷移できる状態空間における臨界ジャンクションにある。 我々は事前の経験から意思決定状態について学ぶことを提案する。 目標条件付きポリシを情報ボトルネックでトレーニングすることにより、モデルが実際に目標状態を活用する場所を調べることで、決定状態を特定することができる。 この単純なメカニズムは、部分的に観察された設定であっても、決定状態を効果的に識別する。 効果的に、モデルは潜在する部分と相関する感覚的手がかりを学習する。 新しい環境では、このモデルはさらなる探索のために新しいサブゴールを特定し、潜在的な決定状態のシーケンスと状態空間の新しい領域を通してエージェントを導くことができる。

A central challenge in reinforcement learning is discovering effective policies for tasks where rewards are sparsely distributed. We postulate that in the absence of useful reward signals, an effective exploration strategy should seek out {\it decision states}. These states lie at critical junctions in the state space from where the agent can transition to new, potentially unexplored regions. We propose to learn about decision states from prior experience. By training a goal-conditioned policy with an information bottleneck, we can identify decision states by examining where the model actually leverages the goal state. We find that this simple mechanism effectively identifies decision states, even in partially observed settings. In effect, the model learns the sensory cues that correlate with potential subgoals. In new environments, this model can then identify novel subgoals for further exploration, guiding the agent through a sequence of potential decision states and through new regions of the state space.
翻訳日:2023-12-07 19:56:46 公開日:2023-12-05
# 3次元医用画像の効率的な生成のための2次元畳み込み重み付け

Inflating 2D Convolution Weights for Efficient Generation of 3D Medical Images ( http://arxiv.org/abs/2208.03934v3 )

ライセンス: Link先を確認
Yanbin Liu, Girish Dwivedi, Farid Boussaid, Frank Sanfilippo, Makoto Yamada, and Mohammed Bennamoun(参考訳) 3次元医用画像の生成は、3次元解剖学的構造を考慮すると、大きな応用可能性を持つ。 2つの問題は、(1)3次元医用画像の取得と注釈のコストが高く、訓練画像の数が不足し、(2)多くのパラメータが3次元畳み込みに関与している、という3次元医用生成モデルの効果的な訓練を妨げる。 方法: 3D Split&Shuffle-GANと呼ばれる新しいGANモデルを提案する。 3Dデータ不足問題に対処するために,我々はまず,豊富な画像スライスを用いて2次元(2D)GANモデルを事前訓練し,その2次元畳み込み重みを増大させて3DGANの初期化を改善する。 GANモデルのジェネレータと識別器の両方に新しい3Dネットワークアーキテクチャを提案し、画像生成の品質を維持しながらパラメータ数を著しく削減する。 重み付け戦略とパラメータ効率3Dアーキテクチャについて検討した。 結果: 心臓(スタンフォード・エイミ冠状カルシウム)と脳(アルツハイマー病の神経画像化イニシアチブ)における実験の結果, 3次元画像の画質(fr\'echetインセプション距離の14.7改善)が有意に低いパラメータ(ベースライン法では48.5%)で改善されることが判明した。 結論: パラメータ効率の高い3次元医用画像生成モデルを構築した。 効率と有効性のため、実際のユースケースで高品質な3d脳と心臓画像を生成する可能性がある。

The generation of three-dimensional (3D) medical images has great application potential since it takes into account the 3D anatomical structure. Two problems prevent effective training of a 3D medical generative model: (1) 3D medical images are expensive to acquire and annotate, resulting in an insufficient number of training images, and (2) a large number of parameters are involved in 3D convolution. Methods: We propose a novel GAN model called 3D Split&Shuffle-GAN. To address the 3D data scarcity issue, we first pre-train a two-dimensional (2D) GAN model using abundant image slices and inflate the 2D convolution weights to improve the initialization of the 3D GAN. Novel 3D network architectures are proposed for both the generator and discriminator of the GAN model to significantly reduce the number of parameters while maintaining the quality of image generation. Several weight inflation strategies and parameter-efficient 3D architectures are investigated. Results: Experiments on both heart (Stanford AIMI Coronary Calcium) and brain (Alzheimer's Disease Neuroimaging Initiative) datasets show that our method leads to improved 3D image generation quality (14.7 improvements on Fr\'echet inception distance) with significantly fewer parameters (only 48.5% of the baseline method). Conclusions: We built a parameter-efficient 3D medical image generation model. Due to the efficiency and effectiveness, it has the potential to generate high-quality 3D brain and heart images for real use cases.
翻訳日:2023-12-07 19:52:00 公開日:2023-12-05
# 特徴重要度の不整合

Inherent Inconsistencies of Feature Importance ( http://arxiv.org/abs/2206.08204v2 )

ライセンス: Link先を確認
Nimrod Harel, Uri Obolski, Ran Gilad-Bachrach(参考訳) 機械学習駆動技術の急速な進歩と普及は、解釈可能な人工知能システムを作成するための実用的で倫理的な必要性を強調している。 予測結果に対する個々の特徴の寄与にスコアを割り当てる方法であるfeature importantは、これらのシステムの人間の理解を高めるツールとして、このギャップを橋渡ししようとしている。 特徴の重要性は、データセット全体にわたる現象のグローバル解釈を提供することや、特定のデータポイントの結果に関する局所的な説明を提供することによって、さまざまなコンテキストにおける予測を説明するのに役立ちます。 さらに、特徴的重要性は、モデルの説明と、モデルとは独立に、データ内の妥当な因果関係を特定するために使用されている。 しかし、これらの様々な文脈は伝統的に独立して研究され、理論的な基礎は限られている。 本稿では,特徴重要度スコアの異なる文脈間のコヒーレントな関係を確立するために設計された公理的枠組みを提案する。 特に、我々の研究は驚くべき結論を公表している: 提案された特性と以前に文献で概説されたものを組み合わせると、矛盾の存在を実証する。 この矛盾は、特定の重要度スコアの本質的な性質が単一のフレームワーク内で調和して共存できないことを強調している。

The rapid advancement and widespread adoption of machine learning-driven technologies have underscored the practical and ethical need for creating interpretable artificial intelligence systems. Feature importance, a method that assigns scores to the contribution of individual features on prediction outcomes, seeks to bridge this gap as a tool for enhancing human comprehension of these systems. Feature importance serves as an explanation of predictions in diverse contexts, whether by providing a global interpretation of a phenomenon across the entire dataset or by offering a localized explanation for the outcome of a specific data point. Furthermore, feature importance is being used both for explaining models and for identifying plausible causal relations in the data, independently from the model. However, it is worth noting that these various contexts have traditionally been explored in isolation, with limited theoretical foundations. This paper presents an axiomatic framework designed to establish coherent relationships among the different contexts of feature importance scores. Notably, our work unveils a surprising conclusion: when we combine the proposed properties with those previously outlined in the literature, we demonstrate the existence of an inconsistency. This inconsistency highlights that certain essential properties of feature importance scores cannot coexist harmoniously within a single framework.
翻訳日:2023-12-07 19:47:51 公開日:2023-12-05
# 畳み込み層は離散シフトに同値であるが連続変換ではない

Convolutional layers are equivariant to discrete shifts but not continuous translations ( http://arxiv.org/abs/2206.04979v3 )

ライセンス: Link先を確認
Nick McGreivy, Ammar Hakim(参考訳) この短く簡単な注記の目的は、畳み込みニューラルネットワーク(cnns)に関する一般的な誤解を明らかにすることである。 CNNは、重み共有によるシフト同変である畳み込み層で構成されている。 しかし、畳み込み層は、境界効果が無視され、プールやサブサンプリングが欠如している場合でも、変換同変ではない。 これは、シフト同値が離散対称性であり、変換同値が連続対称性であるからである。 この事実は同変機械学習の研究者の間でよく知られているが、通常は非専門家の間で見過ごされている。 混乱を最小限に抑えるために、ピクセルの離散的なシフトを「シフト等分散」、連続的な変換を「変換等分散」と呼ぶことを提案している。

The purpose of this short and simple note is to clarify a common misconception about convolutional neural networks (CNNs). CNNs are made up of convolutional layers which are shift equivariant due to weight sharing. However, convolutional layers are not translation equivariant, even when boundary effects are ignored and when pooling and subsampling are absent. This is because shift equivariance is a discrete symmetry while translation equivariance is a continuous symmetry. This fact is well known among researchers in equivariant machine learning, but is usually overlooked among non-experts. To minimize confusion, we suggest using the term `shift equivariance' to refer to discrete shifts in pixels and `translation equivariance' to refer to continuous translations.
翻訳日:2023-12-07 19:47:28 公開日:2023-12-05
# T-Cal:予測モデルの校正のための最適試験

T-Cal: An optimal test for the calibration of predictive models ( http://arxiv.org/abs/2203.01850v4 )

ライセンス: Link先を確認
Donghwan Lee, Xinmeng Huang, Hamed Hassani, Edgar Dobriban(参考訳) 機械学習手法の予測精度は着実に向上しているが、不確実性予測の校正は大きな課題となっている。 多くの研究は十分に調整された予測モデルを得ることに集中しているが、モデルのキャリブレーションの信頼性についてはあまり知られていない。 これにより、キャリブレーションを改善するアルゴリズムが実効性を持つ場合や、有限データセットのランダムノイズによる単なるアーティファクトである場合の能力が制限される。 本研究では,仮説検証問題として有限検証データセットを用いて予測モデルの誤校正を検出することを検討する。 ヌル仮説は予測モデルがキャリブレーションされ、別の仮説はキャリブレーションからの偏差が十分に大きいというものである。 クラスの状態確率が予測の十分滑らかな関数である場合にのみ誤校正を検出することができる。 条件付きクラス確率が H より古い連続性である場合、$\ell_2$-Expected Calibration Error (ECE) のデバイアスド・プラグイン推定器に基づくキャリブレーションの最小値検定である T-Cal を提案する。 さらに、未知の滑らかさに適応するAdaptive T-Calを提案する。 我々は、一般的なディープニューラルネットアーキテクチャと標準のポストホックキャリブレーション法を含む幅広い実験によって、理論的な知見を検証する。 T-Calは、離散値予測器の古典的なテストと組み合わせて、事実上の確率的分類法の校正をテストするための実用的な汎用ツールである。

The prediction accuracy of machine learning methods is steadily increasing, but the calibration of their uncertainty predictions poses a significant challenge. Numerous works focus on obtaining well-calibrated predictive models, but less is known about reliably assessing model calibration. This limits our ability to know when algorithms for improving calibration have a real effect, and when their improvements are merely artifacts due to random noise in finite datasets. In this work, we consider detecting mis-calibration of predictive models using a finite validation dataset as a hypothesis testing problem. The null hypothesis is that the predictive model is calibrated, while the alternative hypothesis is that the deviation from calibration is sufficiently large. We find that detecting mis-calibration is only possible when the conditional probabilities of the classes are sufficiently smooth functions of the predictions. When the conditional class probabilities are H\"older continuous, we propose T-Cal, a minimax optimal test for calibration based on a debiased plug-in estimator of the $\ell_2$-Expected Calibration Error (ECE). We further propose Adaptive T-Cal, a version that is adaptive to unknown smoothness. We verify our theoretical findings with a broad range of experiments, including with several popular deep neural net architectures and several standard post-hoc calibration methods. T-Cal is a practical general-purpose tool, which -- combined with classical tests for discrete-valued predictors -- can be used to test the calibration of virtually any probabilistic classification method.
翻訳日:2023-12-07 19:46:28 公開日:2023-12-05
# モデル再プログラミング:資源効率の良いクロスドメイン機械学習

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning ( http://arxiv.org/abs/2202.10629v4 )

ライセンス: Link先を確認
Pin-Yu Chen(参考訳) 視覚、言語、音声などのデータ豊富な領域では、ディープラーニングは高性能なタスク固有モデルを提供することが一般的であり、下流タスクへの効率的な微調整のための一般的なタスク非依存表現も学べる。 しかし、リソース制限領域でのディープラーニングは、まだ多くの課題に直面している。 (i)限られたデータ (ii)制約付きモデル開発費、及び (iii)効果的な微調整のための適切な事前学習モデルがないこと。 本稿では,このギャップを埋めるためのモデル再プログラミングの概要を紹介する。 モデル再プログラミングは、リソース効率の高いクロスドメイン機械学習を可能にし、ソースドメインから十分に開発された事前学習されたモデルを再利用し、ターゲットドメインのタスクをモデル微調整なしで解決する。 多くのアプリケーションでは、モデル再プログラミングは、スクラッチから学習とトレーニングを転送する。 本稿では、モデル再プログラミングの方法論を解明し、既存のユースケースを要約し、モデル再プログラミングの成功に関する理論的説明を提供し、オープンな研究課題と機会に関する議論で結論付ける。 モデル再プログラミング研究の一覧はhttps://github.com/IBM/モデル再プログラミングで活発に維持および更新されている。

In data-rich domains such as vision, language, and speech, deep learning prevails to deliver high-performance task-specific models and can even learn general task-agnostic representations for efficient finetuning to downstream tasks. However, deep learning in resource-limited domains still faces multiple challenges including (i) limited data, (ii) constrained model development cost, and (iii) lack of adequate pre-trained models for effective finetuning. This paper provides an overview of model reprogramming to bridge this gap. Model reprogramming enables resource-efficient cross-domain machine learning by repurposing and reusing a well-developed pre-trained model from a source domain to solve tasks in a target domain without model finetuning, where the source and target domains can be vastly different. In many applications, model reprogramming outperforms transfer learning and training from scratch. This paper elucidates the methodology of model reprogramming, summarizes existing use cases, provides a theoretical explanation of the success of model reprogramming, and concludes with a discussion on open-ended research questions and opportunities. A list of model reprogramming studies is actively maintained and updated at https://github.com/IBM/model-reprogramming.
翻訳日:2023-12-07 19:45:57 公開日:2023-12-05
# 悪質な分類器: 推測時のデータ再構成攻撃

Vicious Classifiers: Data Reconstruction Attack at Inference Time ( http://arxiv.org/abs/2212.04223v2 )

ライセンス: Link先を確認
Mohammad Malekzadeh and Deniz Gunduz(参考訳) エッジコンピューティングパラダイムにおけるプライバシ保存推論は、マシンラーニングサービスのユーザに対して、ターゲットタスクのために、プライベート入力でモデルをローカルに実行し、モデルの出力をサーバとのみ共有するように促す。 本研究では,ターゲットモデル(ユーザ側で動作させる)と攻撃モデル(サーバ側でシークレットに使用する)を共同でトレーニングすることで,モデル出力のみを観察しながら,目標精度を正直なサーバと非常に近いものに保ちながら,悪意のあるサーバが入力データを再構築する方法を検討する。 エッジ推論における再建リスクを評価するための新しい尺度を提案する。 6つのベンチマークデータセットによる評価結果から,1つのターゲット推定の出力からモデルの入力をおよそ再構成できることが示唆された。 本稿では,推論時間における悪質と正直な分類器の識別を支援する防衛機構を提案する。 今後の研究のためのオープンな課題と方向性を議論し、将来の作業のためのベンチマークとしてコードをリリースします。

Privacy-preserving inference in edge computing paradigms encourages the users of machine-learning services to locally run a model on their private input, for a target task, and only share the model's outputs with the server. We study how a vicious server can reconstruct the input data by observing only the model's outputs, while keeping the target accuracy very close to that of a honest server: by jointly training a target model (to run at users' side) and an attack model for data reconstruction (to secretly use at server's side). We present a new measure to assess the reconstruction risk in edge inference. Our evaluations on six benchmark datasets demonstrate that the model's input can be approximately reconstructed from the outputs of a single target inference. We propose a potential defense mechanism that helps to distinguish vicious versus honest classifiers at inference time. We discuss open challenges and directions for future studies and release our code as a benchmark for future work.
翻訳日:2023-12-07 19:40:00 公開日:2023-12-05
# コンフォーマル量子力学の対称性発生器のスペクトル特性:経路内アプローチ

Spectral Properties of the Symmetry Generators of Conformal Quantum Mechanics: A Path-Integral Approach ( http://arxiv.org/abs/2210.02370v2 )

ライセンス: Link先を確認
H. E. Camblong, A. Chakraborty, P. Lopez-Duque, C. R. Ord\'o\~nez(参考訳) 経路積分法は、共形量子力学(CQM)のSO(2,1)対称性のジェネレータのスペクトル特性を研究するために用いられる。 特に、逆2乗ポテンシャルの弱結合状態に対応するCQMバージョンを考える。 一般対称性生成器$G$(ハミルトニアン$H$、特殊共形作用素$K$、ダイレーション作用素$D$の線形結合)を特徴付ける一般的なフレームワークを開発し、そこから経路積分プロパゲータが従って完全なスペクトル分解をもたらす。 これは作用素の3つのクラス、楕円型、放物型、双曲型に対して行われる。 また、連続スペクトルを持つ双曲作用素とその量子力学的解釈に関する新しい結果も強調する。 連続スペクトル作用素の固有系のために開発されたスペクトル技術は、他の作用素問題に一般化することができる。

A path-integral approach is used to study the spectral properties of the generators of the SO(2,1) symmetry of conformal quantum mechanics (CQM). In particular, we consider the CQM version that corresponds to the weak-coupling regime of the inverse square potential. We develop a general framework to characterize a generic symmetry generator $G$ (linear combinations of the Hamiltonian $H$, special conformal operator $K$, and dilation operator $D$), from which the path-integral propagators follow, leading to a complete spectral decomposition. This is done for the three classes of operators: elliptic, parabolic, and hyperbolic. We also highlight novel results for the hyperbolic operators, with a continuous spectrum, and their quantum-mechanical interpretation. The spectral technique developed for the eigensystem of continuous-spectrum operators can be generalized to other operator problems.
翻訳日:2023-12-07 19:36:56 公開日:2023-12-05
# 適応レーダ処理と畳み込みニューラルネットワークを用いたデータ駆動目標位置推定

Data-Driven Target Localization Using Adaptive Radar Processing and Convolutional Neural Networks ( http://arxiv.org/abs/2209.02890v5 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 本稿では、適応レーダ処理に特化して設計された現代無線周波数モデリング・シミュレーションツールの高度な機能を活用し、適応レーダ検出後のレーダターゲット位置決め精度を向上させるためのデータ駆動方式を提案する。 この目的のために,高忠実度,サイト固有,rfモデリングおよびシミュレーションツールであるrfviewを用いて,予め定義された領域に可変強度の目標をランダムに配置することにより,多数のレーダリターンを生成する。 我々は,正規化適応マッチングフィルタ(namf)のテスト統計値から,レーダリターン,範囲,方位(およびドップラー)からヒートマップテンソルを生成する。 次に、これらの熱マップテンソルから目標位置を推定するために回帰畳み込みニューラルネットワーク(CNN)を訓練し、この手法の目標位置をピークフィンディング法と局所探索法と比較する。 本実験では,回帰型cnnが目標位置推定精度を大幅に向上することを示す。 回帰CNNは、NAMFの分解しきい値SCNRに近いSCNR(Signal-to-clutter-plus-noise ratio)レジームにおいても、大きな利得と妥当な精度を提供する。 また、トレーニングされていない領域から収集したヒートマップテンソルでCNNを試験するレーダーデータにミスマッチするように、トレーニングされたCNNの堅牢性についても検討する。 我々のCNNは、比較的少数の新しいトレーニングサンプルを使用して、数ショットの学習によってレーダーデータのミスマッチを堅牢にできることを示す。

Leveraging the advanced functionalities of modern radio frequency (RF) modeling and simulation tools, specifically designed for adaptive radar processing applications, this paper presents a data-driven approach to improve accuracy in radar target localization post adaptive radar detection. To this end, we generate a large number of radar returns by randomly placing targets of variable strengths in a predefined area, using RFView, a high-fidelity, site-specific, RF modeling & simulation tool. We produce heatmap tensors from the radar returns, in range, azimuth [and Doppler], of the normalized adaptive matched filter (NAMF) test statistic. We then train a regression convolutional neural network (CNN) to estimate target locations from these heatmap tensors, and we compare the target localization accuracy of this approach with that of peak-finding and local search methods. This empirical study shows that our regression CNN achieves a considerable improvement in target location estimation accuracy. The regression CNN offers significant gains and reasonable accuracy even at signal-to-clutter-plus-noise ratio (SCNR) regimes that are close to the breakdown threshold SCNR of the NAMF. We also study the robustness of our trained CNN to mismatches in the radar data, where the CNN is tested on heatmap tensors collected from areas that it was not trained on. We show that our CNN can be made robust to mismatches in the radar data through few-shot learning, using a relatively small number of new training samples.
翻訳日:2023-12-07 19:35:16 公開日:2023-12-05
# コード解析のための大規模言語モデルにおける分布シフトの探索

Exploring Distributional Shifts in Large Language Models for Code Analysis ( http://arxiv.org/abs/2303.09128v2 )

ライセンス: Link先を確認
Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao and Xiang Ren(参考訳) CodeT5、Codex、ChatGPTの3つの大きな言語モデルがどのようにドメイン外データに一般化するかを体系的に研究する。 コード要約とコード生成という,2つの基本的なアプリケーションについて検討する。 私たちはデータを、組織、プロジェクト、そしてソフトウェアプロジェクト内のモジュールによって、自然な境界に沿ってドメインに分割します。 各新領域からのサンプルが,分布シフトの重大な課題を持つすべてのモデルを示すことを確認した。 確立された手法がモデルにどのように適応して新しい領域をより一般化するかを検討する。 私たちの実験では、マルチタスク学習だけでは合理的なベースラインであるものの、トレーニングデータから取得したサンプルのわずかな微調整と組み合わせることで、非常に強力なパフォーマンスを達成できることが示されています。 さらに、このソリューションは、非常に低データのシナリオで直接微調整より優れている。 最後に、このアプローチのバリエーションを検討し、複数のドメインに一度に適応するより広い適用方法を提案する。 コード生成では、複数のドメインに適応したモデルが1つのドメインに適応したモデルと同等に動作することが分かっています。

We systematically study how three large language models with code capabilities - CodeT5, Codex, and ChatGPT - generalize to out-of-domain data. We consider two fundamental applications - code summarization, and code generation. We split data into domains following its natural boundaries - by an organization, by a project, and by a module within the software project. We establish that samples from each new domain present all the models with a significant challenge of distribution shift. We study how established methods adapt models to better generalize to new domains. Our experiments show that while multitask learning alone is a reasonable baseline, combining it with few-shot finetuning on examples retrieved from training data can achieve very strong performance. Moreover, this solution can outperform direct finetuning for very low-data scenarios. Finally, we consider variations of this approach to create a more broadly applicable method to adapt to multiple domains at once. We find that for code generation, a model adapted to multiple domains simultaneously performs on par with those adapted to a single domain
翻訳日:2023-12-07 19:27:14 公開日:2023-12-05
# リアルタイムフィードバックによる指導の継続学習

Continual Learning for Instruction Following from Realtime Feedback ( http://arxiv.org/abs/2212.09710v2 )

ライセンス: Link先を確認
Alane Suhr, Yoav Artzi(参考訳) 我々は,協調作業中のユーザからのフィードバックから,指示追従エージェントを継続的に訓練するためのアプローチを提案し,展開する。 対話中、人間のユーザは自然言語を使ってエージェントに指示し、指示に従うエージェントを観察しながらリアルタイムでバイナリフィードバックを提供する。 ユーザのフィードバックを即時報酬に変換する,コンテキストのバンディット学習手法を設計した。 何千もの人間とエージェントの対話を通して評価を行い、時間とともに命令の実行精度が15.4%向上したことを示した。 また,提案手法は設計のバリエーションに頑健であり,フィードバック信号は教師ありデモンストレーションデータの学習信号と大まかに等価であることを示した。

We propose and deploy an approach to continually train an instruction-following agent from feedback provided by users during collaborative interactions. During interaction, human users instruct an agent using natural language, and provide realtime binary feedback as they observe the agent following their instructions. We design a contextual bandit learning approach, converting user feedback to immediate reward. We evaluate through thousands of human-agent interactions, demonstrating 15.4% absolute improvement in instruction execution accuracy over time. We also show our approach is robust to several design variations, and that the feedback signal is roughly equivalent to the learning signal of supervised demonstration data.
翻訳日:2023-12-07 19:21:49 公開日:2023-12-05
# 聴覚的単語認識と統合の神経力学

The neural dynamics of auditory word recognition and integration ( http://arxiv.org/abs/2305.13388v2 )

ライセンス: Link先を確認
Jon Gauthier and Roger Levy(参考訳) リスナーは、新しいコンテンツに対する期待と、インクリメンタルな感覚的証拠を組み合わせることで、単語を迅速かつ騒がしい日常会話で認識し統合する。 本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。 このモデルを用いて、被験者が架空の話に受動的に耳を傾けるように記録した頭皮脳波信号を解析し、オンライン聴覚単語認識プロセスのダイナミクスと、単語の認識と統合の神経的相関の両方を明らかにする。 このモデルでは、単語が素早く認識できるかどうかによって、単語の異なるニューラルプロセッシングを示す。 すべての単語が確率積分の神経応答特性、すなわち単語の前提によって予測される電圧変調をトリガーするが、これらの変調は認識するためにおよそ150ミリ秒以上の入力を必要とする単語に対して増幅される。 単語の認識時間に応じてこれらの神経反応のレイテンシに差は認められない。 本研究は,単語認識の急速なプロセスと時間的に独立な単語統合のプロセスを組み合わせた,音声理解の2部モデルと一致している。 また,同様の性能改善を示す単語認識ダイナミクスを含まない頭皮脳波信号の代替モデルを開発した。 これらの仮説を分離するための将来のモデリング手順について論じる。

Listeners recognize and integrate words in rapid and noisy everyday speech by combining expectations about upcoming content with incremental sensory evidence. We present a computational model of word recognition which formalizes this perceptual process in Bayesian decision theory. We fit this model to explain scalp EEG signals recorded as subjects passively listened to a fictional story, revealing both the dynamics of the online auditory word recognition process and the neural correlates of the recognition and integration of words. The model reveals distinct neural processing of words depending on whether or not they can be quickly recognized. While all words trigger a neural response characteristic of probabilistic integration -- voltage modulations predicted by a word's surprisal in context -- these modulations are amplified for words which require more than roughly 150 ms of input to be recognized. We observe no difference in the latency of these neural responses according to words' recognition times. Our results are consistent with a two-part model of speech comprehension, combining an eager and rapid process of word recognition with a temporally independent process of word integration. However, we also developed alternative models of the scalp EEG signal not incorporating word recognition dynamics which showed similar performance improvements. We discuss potential future modeling steps which may help to separate these hypotheses.
翻訳日:2023-12-07 19:13:28 公開日:2023-12-05
# 機能的フローマッチング

Functional Flow Matching ( http://arxiv.org/abs/2305.17209v2 )

ライセンス: Link先を確認
Gavin Kerrigan, Giosue Migliorini, Padhraic Smyth(参考訳) 本稿では,最近導入された無限次元空間におけるフローマッチングモデルを一般化した関数空間生成モデルである関数型フローマッチング(ffm)を提案する。 我々のアプローチは、まず、固定されたガウス測度とデータ分布を補間する確率測度の経路を定義し、次に、この測度の経路を生成する関数の基底空間上のベクトル場を学習する。 我々の手法は確率やシミュレーションに頼らず、関数空間の設定に適している。 このようなモデルを構築するための理論的枠組みと、手法の実証的評価の両方を提供する。 我々は,FFM法が最近提案した関数空間生成モデルより優れていることを示す実世界のベンチマーク実験を行った。

We propose Functional Flow Matching (FFM), a function-space generative model that generalizes the recently-introduced Flow Matching model to operate in infinite-dimensional spaces. Our approach works by first defining a path of probability measures that interpolates between a fixed Gaussian measure and the data distribution, followed by learning a vector field on the underlying space of functions that generates this path of measures. Our method does not rely on likelihoods or simulations, making it well-suited to the function space setting. We provide both a theoretical framework for building such models and an empirical evaluation of our techniques. We demonstrate through experiments on several real-world benchmarks that our proposed FFM method outperforms several recently proposed function-space generative models.
翻訳日:2023-12-07 19:02:30 公開日:2023-12-05
# 深O($n$)-同変超球面の学習

Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v4 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack, Andreas Robinson, Cuong Le(参考訳) 本稿では,超球面と正則な$n$-simplexes を用いて,直交変換の下で同値な (深い) $n$d 特徴を学習する手法を提案する。 我々の主な貢献は理論であり、幾何変換の下での等分散や不変といった幾何学的深層学習における大きな課題に取り組むことである。 すなわち、我々は最近開発された3次元球状ニューロン(SO(3)-同変フィルタバンク)の理論を、球状決定面を持つニューロンに基づいて強化し、そのニューロンを$n$Dに拡張し、深い同変超球と呼び、それらの多層構造を可能にする。 n$dで合成および実世界のデータを使用して、理論的な貢献を実験的に検証し、我々のアプローチが、ベンチマークデータセットの競合手法よりも1つのケースを除いて優れていることを発見し、他のケースを除いて、より優れたスピード/パフォーマンスのトレードオフを示す。

This paper presents an approach to learning (deep) $n$D features equivariant under orthogonal transformations, utilizing hyperspheres and regular $n$-simplexes. Our main contributions are theoretical and tackle major challenges in geometric deep learning such as equivariance and invariance under geometric transformations. Namely, we enrich the recently developed theory of steerable 3D spherical neurons -- SO(3)-equivariant filter banks based on neurons with spherical decision surfaces -- by extending said neurons to $n$D, which we call deep equivariant hyperspheres, and enabling their multi-layer construction. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the competing methods for benchmark datasets in all but one case, additionally demonstrating a better speed/performance trade-off in all but one other case.
翻訳日:2023-12-07 19:01:54 公開日:2023-12-05
# ケースベース推論を用いた機械読解

Machine Reading Comprehension using Case-based Reasoning ( http://arxiv.org/abs/2305.14815v4 )

ライセンス: Link先を確認
Dung Thai, Dhruv Agarwal, Mudit Chaudhary, Wenlong Zhao, Rajarshi Das, Manzil Zaheer, Jay-Yoon Lee, Hannaneh Hajishirzi, Andrew McCallum(参考訳) 本稿では,古典的AIからケースベース推論(CBR)を連想させる機械読解における解答抽出法を提案する。 提案手法(cbr-mrc)は,類似質問に対する文脈的回答が相互に意味的類似性を持つという仮説に基づいている。 テスト質問が与えられた場合、CBR-MRCはまず、非パラメトリックメモリから類似したケースの集合を検索し、次に、検索されたケースの回答の文脈化された表現に最もよく似たテストコンテキストにおけるスパンを選択することで、回答を予測する。 このアプローチの半パラメトリックな性質により、特定のエビデンスケースのセットに予測を関連付けることができ、信頼性とデバッグ可能なQAシステムを構築する上で望ましい選択となる。 我々は,CBR-MRCが大規模リーダモデルに匹敵する精度を示し,NaturalQuestionsとNewsQAでそれぞれ11.5と8.4のEMでベースラインを上回ります。 さらに,CBR-MRCが正解トークンだけでなく,最も関連性の高い証拠も識別できることを示す。 そして,CBR-MRCは,完全パラメトリック手法を用いた性能が低下する一方で,これらの変動に対して頑健であることが確認された。

We present an accurate and interpretable method for answer extraction in machine reading comprehension that is reminiscent of case-based reasoning (CBR) from classical AI. Our method (CBR-MRC) builds upon the hypothesis that contextualized answers to similar questions share semantic similarities with each other. Given a test question, CBR-MRC first retrieves a set of similar cases from a nonparametric memory and then predicts an answer by selecting the span in the test context that is most similar to the contextualized representations of answers in the retrieved cases. The semi-parametric nature of our approach allows it to attribute a prediction to the specific set of evidence cases, making it a desirable choice for building reliable and debuggable QA systems. We show that CBR-MRC provides high accuracy comparable with large reader models and outperforms baselines by 11.5 and 8.4 EM on NaturalQuestions and NewsQA, respectively. Further, we demonstrate the ability of CBR-MRC in identifying not just the correct answer tokens but also the span with the most relevant supporting evidence. Lastly, we observe that contexts for certain question types show higher lexical diversity than others and find that CBR-MRC is robust to these variations while performance using fully-parametric methods drops.
翻訳日:2023-12-07 19:00:18 公開日:2023-12-05
# 精度優先メカニズムのための適応的プライバシー構成

Adaptive Privacy Composition for Accuracy-first Mechanisms ( http://arxiv.org/abs/2306.13824v2 )

ライセンス: Link先を確認
Ryan Rogers and Gennady Samorodnitsky and Zhiwei Steven Wu and Aaditya Ramdas(参考訳) 差分プライバシーの多くの実践的応用において、実践者は、目標とする精度のレベルに属する最高のプライバシー保証を提供することを目指している。 Ligettらによる最近の作品。 17、ホワイトハウスなど。 このような精度優先のメカニズムは,個人計算において十分な統計量に相関雑音を付加し,より正確な解の列を生成するノイズ低減のアイデアを活用することで開発されている。 ノイズ低減メカニズムの大きな利点は、アナリストがリリースした最もノイズが少ない、あるいは最も正確な回答のプライバシーコストのみを支払うことだ。 この魅力ある特性を分離したものの、他の微分的プライベートなメカニズムと併用する方法に関する体系的な研究は行われていない。 根本的な課題は、ノイズ低減メカニズムのプライバシー保証が(必要に応じて)解放された結果の機能としてプライバシー損失を拘束するポストプライバシとして定式化されていることである。 さらに、ex-postのプライベートメカニズムがどのように構成され、いくつかのメカニズムで蓄積されたプライバシを追跡できるかについては、まだ研究されていない。 我々は、アナリストが全体的なプライバシー保証の対象となる、差分プライベートとポストプライベートのメカニズムを適応的に切り替えることができるプライバシーフィルター(rogers et al. '16, feldman and zrnic '21, whitehouse et al. '22')を開発した。

In many practical applications of differential privacy, practitioners seek to provide the best privacy guarantees subject to a target level of accuracy. A recent line of work by Ligett et al. '17 and Whitehouse et al. '22 has developed such accuracy-first mechanisms by leveraging the idea of noise reduction that adds correlated noise to the sufficient statistic in a private computation and produces a sequence of increasingly accurate answers. A major advantage of noise reduction mechanisms is that the analysts only pay the privacy cost of the least noisy or most accurate answer released. Despite this appealing property in isolation, there has not been a systematic study on how to use them in conjunction with other differentially private mechanisms. A fundamental challenge is that the privacy guarantee for noise reduction mechanisms is (necessarily) formulated as ex-post privacy that bounds the privacy loss as a function of the released outcome. Furthermore, there has yet to be any study on how ex-post private mechanisms compose, which allows us to track the accumulated privacy over several mechanisms. We develop privacy filters [Rogers et al. '16, Feldman and Zrnic '21, and Whitehouse et al. '22'] that allow an analyst to adaptively switch between differentially private and ex-post private mechanisms subject to an overall differential privacy guarantee.
翻訳日:2023-12-07 18:51:50 公開日:2023-12-05
# 過パラメータ線形モデルを用いた多クラス分類の高精度漸近的一般化

Precise Asymptotic Generalization for Multiclass Classification with Overparameterized Linear Models ( http://arxiv.org/abs/2306.13255v2 )

ライセンス: Link先を確認
David X. Wu, Anant Sahai(参考訳) subramanian et al で導入されたガウス共変量双レベルモデルの下での多クラス分類のための超パラメータ線形モデルの漸近的一般化について検討した。 ~'22,データポイント数,機能数,クラス数がすべて一緒になる。 subramanian et al で示される予想を完全に解決する。 ~'22 一般化の予測された体制に一致する。 さらに、新しい下限は情報理論的な強い会話に似ており、誤分類率は漸近的に 0 または 1 になる。 この密接な結果から,min-norm補間分類器は,min-norm補間レグレッサが最適であることが知られている場合,非補間分類器と比較して漸近的に最適であることがわかった。 厳密な解析の鍵はハンソン・ライトの不等式の新しい変種であり、スパースラベルの多重クラス問題に広く有用である。 アプリケーションとして,同タイプの解析を用いて,関連するマルチラベル分類問題を同一のバイレベルアンサンブルで解析できることを示す。

We study the asymptotic generalization of an overparameterized linear model for multiclass classification under the Gaussian covariates bi-level model introduced in Subramanian et al.~'22, where the number of data points, features, and classes all grow together. We fully resolve the conjecture posed in Subramanian et al.~'22, matching the predicted regimes for generalization. Furthermore, our new lower bounds are akin to an information-theoretic strong converse: they establish that the misclassification rate goes to 0 or 1 asymptotically. One surprising consequence of our tight results is that the min-norm interpolating classifier can be asymptotically suboptimal relative to noninterpolating classifiers in the regime where the min-norm interpolating regressor is known to be optimal. The key to our tight analysis is a new variant of the Hanson-Wright inequality which is broadly useful for multiclass problems with sparse labels. As an application, we show that the same type of analysis can be used to analyze the related multilabel classification problem under the same bi-level ensemble.
翻訳日:2023-12-07 18:51:06 公開日:2023-12-05
# デリゲート分類

Delegated Classification ( http://arxiv.org/abs/2306.11475v2 )

ライセンス: Link先を確認
Eden Saig, Inbal Talgam-Cohen, Nir Rosenfeld(参考訳) 機械学習が合理的エージェントにアウトソースされると、関心の衝突が起こり、予測性能に深刻な影響を及ぼす可能性がある。 本研究では,機械学習タスクのインセンティブ対応デリゲーションに関する理論的枠組みを提案する。 我々は、パフォーマンスベースの契約を用いて、精度の高い学習をプリンシパルによってインセンティブ化できるプリンシパルエージェントゲームとしてデリゲーションをモデル化する。 契約設計の経済理論をこの設定に適用し、予算最適契約を定義し、合理的な仮定の下で単純なしきい値を取ることを証明します。 双対作用の場合、そのような契約の最適性は古典的なニーマン・ピアソン補題と同値であることが示され、契約設計と統計的仮説検定の間の形式的接続が確立される。 実証的に, 学習曲線やスケーリング則の研究の最近の進歩を活用して, 小規模データを用いて予算最適契約を構築できることを実証する。 実世界および実世界の分類タスクを用いて,パフォーマンスと経済性を評価する。

When machine learning is outsourced to a rational agent, conflicts of interest might arise and severely impact predictive performance. In this work, we propose a theoretical framework for incentive-aware delegation of machine learning tasks. We model delegation as a principal-agent game, in which accurate learning can be incentivized by the principal using performance-based contracts. Adapting the economic theory of contract design to this setting, we define budget-optimal contracts and prove they take a simple threshold form under reasonable assumptions. In the binary-action case, the optimality of such contracts is shown to be equivalent to the classic Neyman-Pearson lemma, establishing a formal connection between contract design and statistical hypothesis testing. Empirically, we demonstrate that budget-optimal contracts can be constructed using small-scale data, leveraging recent advances in the study of learning curves and scaling laws. Performance and economic outcomes are evaluated using synthetic and real-world classification tasks.
翻訳日:2023-12-07 18:50:21 公開日:2023-12-05
# zkDL:Deep Learning Trainingの効率的なゼロ知識証明

zkDL: Efficient Zero-Knowledge Proofs of Deep Learning Training ( http://arxiv.org/abs/2307.16273v2 )

ライセンス: Link先を確認
Haochen Sun, Tonghe Bai, Jason Li, Hongyang Zhang(参考訳) 近年のディープラーニングの進歩は、人々の生活の様々な側面に大きな変化をもたらした。 一方、これらの急速な発展は、ディープニューラルネットワークのトレーニングプロセスの正当性に関する懸念を引き起こしている。 AI開発者の知的特性を保護するため、モデルパラメータとトレーニングデータにアクセスしてトレーニングプロセスを直接検査することは、検証者にとってしばしば禁止される。 この課題に対して,ディープラーニング学習のための効率的なゼロ知識証明であるゼロ知識ディープラーニング(zkDL)を提案する。 深層学習における非線形性の検証可能な計算の長期的課題に対処するために,relu活性化とそのバックプロパゲーションの特殊な証明であるzkreluを紹介する。 zkReLUは非算術的関係の欠点を有利にし、ニューラルネットワークをモデル化するための特別な演算回路設計であるFAC4DNNを作成する。 この設計は、トレーニングプロセスで順番に制約されることなく、異なるレイヤとトレーニングステップ上で証明を集約する。 テンソル構造と集約された証明設計との完全な互換性を実現する新しいCUDA実装により、zkDLは、データとモデルパラメータのプライバシを確実に保証しつつ、10Mパラメータと64のバッチサイズを持つ8層ニューラルネットワークに対して、バッチ更新1秒未満で完全かつ健全な証明を生成することができる。 最善の知識として、私たちは、100万規模のネットワークにスケーラブルなディープラーニングトレーニングのゼロ知識証明に関する既存の作業には気づいていません。

The recent advancements in deep learning have brought about significant changes in various aspects of people's lives. Meanwhile, these rapid developments have raised concerns about the legitimacy of the training process of deep neural networks. To protect the intellectual properties of AI developers, directly examining the training process by accessing the model parameters and training data is often prohibited for verifiers. In response to this challenge, we present zero-knowledge deep learning (zkDL), an efficient zero-knowledge proof for deep learning training. To address the long-standing challenge of verifiable computations of non-linearities in deep learning training, we introduce zkReLU, a specialized proof for the ReLU activation and its backpropagation. zkReLU turns the disadvantage of non-arithmetic relations into an advantage, leading to the creation of FAC4DNN, our specialized arithmetic circuit design for modelling neural networks. This design aggregates the proofs over different layers and training steps, without being constrained by their sequential order in the training process. With our new CUDA implementation that achieves full compatibility with the tensor structures and the aggregated proof design, zkDL enables the generation of complete and sound proofs in less than a second per batch update for an 8-layer neural network with 10M parameters and a batch size of 64, while provably ensuring the privacy of data and model parameters. To our best knowledge, we are not aware of any existing work on zero-knowledge proof of deep learning training that is scalable to million-size networks.
翻訳日:2023-12-07 18:40:11 公開日:2023-12-05
# 文脈のない異種ジェスチャーの対話的セグメンテーション

Interactive Segmentation for Diverse Gesture Types Without Context ( http://arxiv.org/abs/2307.10518v2 )

ライセンス: Link先を確認
Josh Myers-Dean, Yifei Fan, Brian Price, Wilson Chan, Danna Gurari(参考訳) インタラクティブセグメンテーションは、モデルがどのようにセグメンテーションを作成し、編集するかを導くために、人間がイメージをマークする。 画像にマーキングするためのジェスチャタイプ(クリックやスクリブルなど)のみをサポートするか、使用中のジェスチャタイプの知識を必要とするか、最終セグメンテーションにマークされた領域が含まれているか除外されるべきかを指定する必要があります。 その代わりに,ユーザがイメージのみをマークしなければならない,ジェスチャータイプを指定せずに任意のジェスチャータイプを入力できる,シンプルな対話型セグメンテーションタスクを提案する。 我々は,対話型セグメンテーションアルゴリズムを全体評価可能な新しい評価指標とともに,複数のジェスチャー型を持つ最初の対話型セグメンテーションデータセットを導入することで,この新しいタスクを支援する。 そして、新しいタスクに適応した部分を含む多数の対話的セグメンテーションアルゴリズムを分析する。 全体として有望なパフォーマンスを観察しながら、将来的な改善の領域も強調しています。 この作業をさらに拡張するために、新しいデータセットをhttps://github.com/joshmyersdean/digで公開しています。

Interactive segmentation entails a human marking an image to guide how a model either creates or edits a segmentation. Our work addresses limitations of existing methods: they either only support one gesture type for marking an image (e.g., either clicks or scribbles) or require knowledge of the gesture type being employed, and require specifying whether marked regions should be included versus excluded in the final segmentation. We instead propose a simplified interactive segmentation task where a user only must mark an image, where the input can be of any gesture type without specifying the gesture type. We support this new task by introducing the first interactive segmentation dataset with multiple gesture types as well as a new evaluation metric capable of holistically evaluating interactive segmentation algorithms. We then analyze numerous interactive segmentation algorithms, including ones adapted for our novel task. While we observe promising performance overall, we also highlight areas for future improvement. To facilitate further extensions of this work, we publicly share our new dataset at https://github.com/joshmyersdean/dig.
翻訳日:2023-12-07 18:38:59 公開日:2023-12-05
# 信念伝播を伴うテンソルネットワークの計測

Gauging tensor networks with belief propagation ( http://arxiv.org/abs/2306.17837v4 )

ライセンス: Link先を確認
Joseph Tindall and Matthew T. Fishman(参考訳) 効果的にテンソルネットワークを圧縮し最適化するには、ゲージとして知られるテンソルの潜在自由度を固定するための信頼できる方法が必要である。 本稿では,グラフィカルモデル上で統計的推論を行うための手法である信念伝搬を用いたテンソルネットワークのゲージ化アルゴリズムを提案し,最近テンソルネットワークアルゴリズムに応用を見出した。 本手法は既知のテンソルネットワーク計測手法と密接に関連していることを示す。 しかし、既存の信念伝搬実装をテンソルネットワークのゲージングに再利用することは現実的な利点であり、信念伝播は単にテンソルの収縮に基づく非常に単純なアルゴリズムであり、実装、最適化、一般化が容易である。 我々は,このアルゴリズムが既存のガウイングアルゴリズムよりも高速であることを示す数値的証拠とスケーリング論を提示し,構造化,非構造化,無限テンソルネットワーク上での利用を実証する。 さらに,この手法を,広く用いられている簡易更新ゲート進化アルゴリズムの精度向上に応用した。

Effectively compressing and optimizing tensor networks requires reliable methods for fixing the latent degrees of freedom of the tensors, known as the gauge. Here we introduce a new algorithm for gauging tensor networks using belief propagation, a method that was originally formulated for performing statistical inference on graphical models and has recently found applications in tensor network algorithms. We show that this method is closely related to known tensor network gauging methods. It has the practical advantage, however, that existing belief propagation implementations can be repurposed for tensor network gauging, and that belief propagation is a very simple algorithm based on just tensor contractions so it can be easier to implement, optimize, and generalize. We present numerical evidence and scaling arguments that this algorithm is faster than existing gauging algorithms, demonstrating its usage on structured, unstructured, and infinite tensor networks. Additionally, we apply this method to improve the accuracy of the widely used simple update gate evolution algorithm.
翻訳日:2023-12-07 18:35:31 公開日:2023-12-05
# ロータークラフトによる離着陸支援のためのマルチスケールfiducial markerの使用

The Use of Multi-Scale Fiducial Markers To Aid Takeoff and Landing Navigation by Rotorcraft ( http://arxiv.org/abs/2309.08769v2 )

ライセンス: Link先を確認
Jongwon Lee, Su Yeon Choi, Timothy Bretl(参考訳) 本稿では,マルチスケールのfiducial marker(すなわち,幅広い距離で検出可能な人工ランドマーク)を活用した視覚スラムの性能を定量化し,ロータークラフトにおける信頼性の高い離着陸ナビゲーションの可能性を示す。 以前の研究では、グリッドセルの白黒パターンを持つ四角いマーカーは、カラーカメラによるビジュアルスラムのパフォーマンスを改善するために使用できることが示されている。 この前の作業を拡張して、ネストされたマーカーレイアウトを可能にします。 2台のFLIRブラックフライカラーカメラを搭載したDJIマトリス300 RTKロータクラフトを用いて,各種環境条件下での半自律離着陸動作の性能評価を行い,RTK GNSSを用いて地中真実ポーズ推定値を得た。 性能指標には、絶対軌道誤差と、合計フレームに対する推定ポーズ数の分数が含まれる。 私たちのデータセットとfiducial markersを使ったvisual slamの実装のコードは、オープンソースとして公開しています。

This paper quantifies the performance of visual SLAM that leverages multi-scale fiducial markers (i.e., artificial landmarks that can be detected at a wide range of distances) to show its potential for reliable takeoff and landing navigation in rotorcraft. Prior work has shown that square markers with a black-and-white pattern of grid cells can be used to improve the performance of visual SLAM with color cameras. We extend this prior work to allow nested marker layouts. We evaluate performance during semi-autonomous takeoff and landing operations in a variety of environmental conditions by a DJI Matrice 300 RTK rotorcraft with two FLIR Blackfly color cameras, using RTK GNSS to obtain ground truth pose estimates. Performance measures include absolute trajectory error and the fraction of the number of estimated poses to the total frame. We release all of our results -- our dataset and the code of the implementation of the visual SLAM with fiducial markers -- to the public as open-source.
翻訳日:2023-12-07 18:28:24 公開日:2023-12-05
# 米国北東部臨界水域における時系列データの異常ピークパターン検出のための自動機械学習手法

An Automated Machine Learning Approach for Detecting Anomalous Peak Patterns in Time Series Data from a Research Watershed in the Northeastern United States Critical Zone ( http://arxiv.org/abs/2309.07992v2 )

ライセンス: Link先を確認
Ijaz Ul Haq, Byung Suk Lee, Donna M. Rizzo, Julia N Perdrial(参考訳) 本稿では,米国北東部の臨界水域におけるセンサによる時系列データの異常検出を支援する自動機械学習フレームワークを提案する。 このフレームワークは特に、センサの異常や自然現象から生じるピークパターン異常の特定に焦点を当てている。 しかしながら、異常検出のための分類手法の使用は、ラベル付きデータを基底真理として要求することや、与えられたタスクやデータセットに最も適したディープラーニングモデルの選択など、課題を提起する。 これらの課題に対処するため,合成ピークパターンを合成時系列データに注入することによりラベル付きデータセットを生成し,自動ハイパーパラメータ最適化機構を組み込んだ。 このメカニズムは、Temporal Convolutional Network (TCN)、InceptionTime、MiniRocket、Residual Networks (ResNet)、Long Short-Term Memory (LSTM)の5つのモデルからなるプールから、最高のアーキテクチャとトレーニングパラメータを持つ最適化モデルインスタンスを生成する。 選択は、異常検出精度と計算コストに関するユーザの好みに基づいて行われる。 このフレームワークは、合成データセットジェネレータとしてTimeGAN(Time-Series Generative Adversarial Networks)を使用している。 生成したモデルインスタンスは、異常検出プロセス中に、トレーニング時間とメモリを含む精度と計算コストのメトリクスの組み合わせを用いて評価される。 フレームワークの性能評価は、流域からのデータセットを用いて行われ、ユーザの好みを満たす最も適したモデルインスタンスの一貫性のある選択を実証した。

This paper presents an automated machine learning framework designed to assist hydrologists in detecting anomalies in time series data generated by sensors in a research watershed in the northeastern United States critical zone. The framework specifically focuses on identifying peak-pattern anomalies, which may arise from sensor malfunctions or natural phenomena. However, the use of classification methods for anomaly detection poses challenges, such as the requirement for labeled data as ground truth and the selection of the most suitable deep learning model for the given task and dataset. To address these challenges, our framework generates labeled datasets by injecting synthetic peak patterns into synthetically generated time series data and incorporates an automated hyperparameter optimization mechanism. This mechanism generates an optimized model instance with the best architectural and training parameters from a pool of five selected models, namely Temporal Convolutional Network (TCN), InceptionTime, MiniRocket, Residual Networks (ResNet), and Long Short-Term Memory (LSTM). The selection is based on the user's preferences regarding anomaly detection accuracy and computational cost. The framework employs Time-series Generative Adversarial Networks (TimeGAN) as the synthetic dataset generator. The generated model instances are evaluated using a combination of accuracy and computational cost metrics, including training time and memory, during the anomaly detection process. Performance evaluation of the framework was conducted using a dataset from a watershed, demonstrating consistent selection of the most fitting model instance that satisfies the user's preferences.
翻訳日:2023-12-07 18:28:07 公開日:2023-12-05
# TpuGraphs: 大規模テンソル計算グラフのパフォーマンス予測データセット

TpuGraphs: A Performance Prediction Dataset on Large Tensor Computational Graphs ( http://arxiv.org/abs/2308.13490v3 )

ライセンス: Link先を確認
Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Kaidi Cao, Bahare Fatemi, Mike Burrows, Charith Mendis, Bryan Perozzi(参考訳) 正確なハードウェアパフォーマンスモデルは、コード最適化において重要な役割を果たす。 コンパイラがヒューリスティックな決定を行うのを手助けしたり、プログラムの最適な設定を特定するオートチューナーを支援することができる。 例えば、機械学習コンパイラであるXLAの自動チューニングは、Googleで相当なプロダクショントラフィックを提供する最先端モデルの10-20%のスピードアップを発見した。 プログラムのパフォーマンス予測にはいくつかのデータセットがあるが、基本ブロックやカーネルのような小さなサブプログラムをターゲットにしている。 本稿では、テンソル処理ユニット(TPU)上で動作する計算グラフとして表されるフルテンソルプログラムの性能予測データセットであるTpuGraphsを紹介する。 データセットの各グラフは、機械学習のワークロード、例えばトレーニングエポックや推論ステップの主計算を表す。 各データサンプルは、計算グラフ、コンパイル構成、および、その構成でコンパイルされたグラフの実行時間を含む。 データセットのグラフはオープンソースの機械学習プログラムから収集され、ResNet、EfficientNet、Mask R-CNN、Transformerといった一般的なモデルアーキテクチャが特徴である。 TpuGraphsは、最大のグラフプロパティ予測データセット(グラフサイズに匹敵する)よりも25倍多くグラフを提供し、マシンラーニングプログラムの既存のパフォーマンス予測データセットと比較して平均して770倍大きなグラフを提供する。 このグラフレベルの大きなグラフ予測タスクは、スケーラビリティ、トレーニング効率、モデル品質など、学習における新たな課題を導入します。

Precise hardware performance models play a crucial role in code optimizations. They can assist compilers in making heuristic decisions or aid autotuners in identifying the optimal configuration for a given program. For example, the autotuner for XLA, a machine learning compiler, discovered 10-20% speedup on state-of-the-art models serving substantial production traffic at Google. Although there exist a few datasets for program performance prediction, they target small sub-programs such as basic blocks or kernels. This paper introduces TpuGraphs, a performance prediction dataset on full tensor programs, represented as computational graphs, running on Tensor Processing Units (TPUs). Each graph in the dataset represents the main computation of a machine learning workload, e.g., a training epoch or an inference step. Each data sample contains a computational graph, a compilation configuration, and the execution time of the graph when compiled with the configuration. The graphs in the dataset are collected from open-source machine learning programs, featuring popular model architectures, e.g., ResNet, EfficientNet, Mask R-CNN, and Transformer. TpuGraphs provides 25x more graphs than the largest graph property prediction dataset (with comparable graph sizes), and 770x larger graphs on average compared to existing performance prediction datasets on machine learning programs. This graph-level prediction task on large graphs introduces new challenges in learning, ranging from scalability, training efficiency, to model quality.
翻訳日:2023-12-07 18:26:48 公開日:2023-12-05
# 真空分岐、ダークエネルギー、ダークマター

Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v6 )

ライセンス: Link先を確認
Don Weingarten(参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。 本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。 本稿では、ミンコフスキー空間の格子上の電子と陽子の量子電磁力学に以前のバージョンを適用する。 しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。 この置換の結果、物理真空そのものは、未分岐の真空よりもわずかに大きいエネルギー密度の枝を分岐することが期待されるが、観測可能な粒子含量はない。 真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見える。 真空分岐が観測されたダークエネルギーの起源であり、暗黒物質密度が$O(10^{-18} m^3)$と推定されるという仮説は、分枝形成を管理する複雑性測度に入り、量子的挙動と古典的振舞いの境界を設定するパラメータである。

Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. In the present article, we adapt the earlier version to quantum electrodynamics of electrons and protons on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is expected to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum but no observable particle content. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities. The hypothesis that vacuum branching is the origin of the observed dark energy and dark matter densities leads to an estimate of $O(10^{-18} m^3)$ for the parameter $b$ which enters the complexity measure governing branch formation and sets the boundary between quantum and classical behavior.
翻訳日:2023-12-07 18:24:14 公開日:2023-12-05
# beyond detection: 不正言語モデルにおける公平性の脆弱性

Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language Models ( http://arxiv.org/abs/2311.09428v2 )

ライセンス: Link先を確認
Yueqing Liang, Lu Cheng, Ali Payani and Kai Shu(参考訳) 本研究では,不正言語検出における公平性と検出性能の両方を損なう可能性について検討する。 動的で複雑なデジタル世界では、これらの検出モデルの脆弱性を敵の公正攻撃に対して調査し、公平性を改善することが不可欠である。 本研究では,バックドア攻撃によるフェアネスと検出性能の目標制御が可能な,シンプルで効果的なフレームワークFABLEを提案する。 FABLEは3種類のトリガー設計(レア、人工、天然のトリガー)と新しいサンプリング戦略を探求している。 具体的には、敵は好ましくない結果("non-abusive")で少数派集団のサンプルにトリガーを注入し、ラベルを好ましくない結果、すなわち"abusive"に反転させることができる。 ベンチマークデータセットの実験は、乱用言語検出におけるFABLE攻撃の公平性と有用性を示す。

This work investigates the potential of undermining both fairness and detection performance in abusive language detection. In a dynamic and complex digital world, it is crucial to investigate the vulnerabilities of these detection models to adversarial fairness attacks to improve their fairness robustness. We propose a simple yet effective framework FABLE that leverages backdoor attacks as they allow targeted control over the fairness and detection performance. FABLE explores three types of trigger designs (i.e., rare, artificial, and natural triggers) and novel sampling strategies. Specifically, the adversary can inject triggers into samples in the minority group with the favored outcome (i.e., "non-abusive") and flip their labels to the unfavored outcome, i.e., "abusive". Experiments on benchmark datasets demonstrate the effectiveness of FABLE attacking fairness and utility in abusive language detection.
翻訳日:2023-12-07 18:04:56 公開日:2023-12-05
# 創造的心を解き放つ:課題解決の探求を改善するための階層的政策としての言語モデル

Unleashing the Creative Mind: Language Model As Hierarchical Policy For Improved Exploration on Challenging Problem Solving ( http://arxiv.org/abs/2311.00694v2 )

ライセンス: Link先を確認
Zhan Ling, Yunhao Fang, Xuanlin Li, Tongzhou Mu, Mingu Lee, Reza Pourreza, Roland Memisevic, Hao Su(参考訳) 大規模言語モデル(llm)は大きな進歩を遂げてきたが、それでもしばしば難しい推論問題に苦しむ。 現在のアプローチでは、詳細および低レベルの推論チェーンをサンプリングまたは検索することで、この問題に対処している。 しかし、これらの手法はまだ探索能力に限られており、大規模なソリューション分野において正しいソリューションが際立つことは困難である。 本研究では,LLMをコンテキスト内学習による階層的政策として捉えることで,多種多様な問題解決戦略を探求するLLMの創造的可能性を解き放つ。 この方針は、複数の多様なハイレベルな問題解決戦術をヒントとして提案するヴィジュアリーリーダーと、ハイレベルな指示のそれぞれに従って詳細な問題解決プロセスを実行する従者からなる。 フォロワは各リーダの指示をガイドとして使用し、問題に取り組むために複数の推論チェーンをサンプリングし、各リーダの提案に対するソリューショングループを生成する。 さらに,最終的な回答を得るために,検討対象のソリューショングループの中から選択するための,効率的かつ効率的なトーナメントベースアプローチを提案する。 提案手法は,有意義かつ刺激的なヒントを導き,問題解決戦略探索を強化し,MATHデータセットの課題に対する最終回答精度を向上させる。 コードはhttps://github.com/lz1oceani/LLM-As-Hierarchical-Policyでリリースされる。

Large Language Models (LLMs) have achieved tremendous progress, yet they still often struggle with challenging reasoning problems. Current approaches address this challenge by sampling or searching detailed and low-level reasoning chains. However, these methods are still limited in their exploration capabilities, making it challenging for correct solutions to stand out in the huge solution space. In this work, we unleash LLMs' creative potential for exploring multiple diverse problem solving strategies by framing an LLM as a hierarchical policy via in-context learning. This policy comprises of a visionary leader that proposes multiple diverse high-level problem-solving tactics as hints, accompanied by a follower that executes detailed problem-solving processes following each of the high-level instruction. The follower uses each of the leader's directives as a guide and samples multiple reasoning chains to tackle the problem, generating a solution group for each leader proposal. Additionally, we propose an effective and efficient tournament-based approach to select among these explored solution groups to reach the final answer. Our approach produces meaningful and inspiring hints, enhances problem-solving strategy exploration, and improves the final answer accuracy on challenging problems in the MATH dataset. Code will be released at https://github.com/lz1oceani/LLM-As-Hierarchical-Policy.
翻訳日:2023-12-07 18:01:52 公開日:2023-12-05
# 不均一データに基づく分散深層学習のためのクロスファインコントラスト損失

Cross-feature Contrastive Loss for Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2310.15890v3 )

ライセンス: Link先を確認
Sai Aparna Aketi and Kaushik Roy(参考訳) 現在の最先端の分散学習アルゴリズムは、データ分散を独立的かつ特定的分散(IID)とみなしている。 しかし、実際のシナリオでは、分散データセットはエージェント間で著しく異質なデータ分布を持つことができる。 本研究では,異種データを用いた分散学習の新たな手法を提案する。 一対の隣接するエージェントのクロスフィーチャは、他のエージェントのモデルパラメータに関してエージェントのデータから得られる特徴(すなわち最後の隠れ層活性化)である。 提案手法は,様々なコンピュータビジョンデータセット(cifar-10,cifar-100, fashion mnist,imagenette,imagenet),モデルアーキテクチャ,ネットワークトポロジ上で徹底的に実験を行い,その効果を示す。 実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度0.2~4%向上)が優れていることがわかった。

The current state-of-the-art decentralized learning algorithms mostly assume the data distribution to be Independent and Identically Distributed (IID). However, in practical scenarios, the distributed datasets can have significantly heterogeneous data distributions across the agents. In this work, we present a novel approach for decentralized learning on heterogeneous data, where data-free knowledge distillation through contrastive loss on cross-features is utilized to improve performance. Cross-features for a pair of neighboring agents are the features (i.e., last hidden layer activations) obtained from the data of an agent with respect to the model parameters of the other agent. We demonstrate the effectiveness of the proposed technique through an exhaustive set of experiments on various Computer Vision datasets (CIFAR-10, CIFAR-100, Fashion MNIST, Imagenette, and ImageNet), model architectures, and network topologies. Our experiments show that the proposed method achieves superior performance (0.2-4% improvement in test accuracy) compared to other existing techniques for decentralized learning on heterogeneous data.
翻訳日:2023-12-07 17:59:57 公開日:2023-12-05
# 事前学習目標によるバックドアの効果的緩和

Effective Backdoor Mitigation Depends on the Pre-training Objective ( http://arxiv.org/abs/2311.14948v3 )

ライセンス: Link先を確認
Sahil Verma and Gantavya Bhatt and Avi Schwarzschild and Soumye Singhal and Arnav Mohanty Das and Chirag Shah and John P Dickerson and Jeff Bilmes(参考訳) 現代の機械学習(ML)モデルの高度な能力にもかかわらず、敵やバックドア攻撃に弱いままである。 この脆弱性は、重要なシナリオで予測不可能な振る舞いを示す可能性のある、妥協されたモデルが現実のデプロイメントに特に関係している。 このようなリスクは、大規模なインターネットソースのデータセットを収集して、マルチモーダルモデルの事前トレーニングを行うことによって高められる。 現在最先端のアプローチであるCleanCLIPなど、これらのモデルにおけるバックドアの効果を緩和する様々な手法が提案されている。 本研究では,バックドアの緩和におけるcleanclipの有効性が,モデル事前学習における特定の目的に大きく依存していることを示す。 我々は,より強固な事前学習目標とバックドアの動作の除去が難しいことに注目した。 我々は,300万 (cc3m) と600万 (cc6m) のデータポイントからなる2つの大規模データセットでマルチモーダルモデルをトレーニングし,さらにcleanclipを用いた毒物除去を行った。 広範囲なハイパーパラメータチューニングであっても、より強力な事前学習目標が使用される場合、CleanCLIPは効果がないことが判明した。 本研究は,大規模ウェブカレーションデータを用いた事前トレーニングモデルを構築し,バックドアの脅威を懸念するML実践者にとって重要な考察である。 特に,より単純な事前学習目標が,効果的なバックドア除去に適していることが示唆された。 この洞察は、より強い事前訓練目標とバックドア攻撃に対するセキュリティとのトレードオフのバランスを求める実践者にとって重要なものだ。

Despite the advanced capabilities of contemporary machine learning (ML) models, they remain vulnerable to adversarial and backdoor attacks. This vulnerability is particularly concerning in real-world deployments, where compromised models may exhibit unpredictable behavior in critical scenarios. Such risks are heightened by the prevalent practice of collecting massive, internet-sourced datasets for pre-training multimodal models, as these datasets may harbor backdoors. Various techniques have been proposed to mitigate the effects of backdooring in these models such as CleanCLIP which is the current state-of-the-art approach. In this work, we demonstrate that the efficacy of CleanCLIP in mitigating backdoors is highly dependent on the particular objective used during model pre-training. We observe that stronger pre-training objectives correlate with harder to remove backdoors behaviors. We show this by training multimodal models on two large datasets consisting of 3 million (CC3M) and 6 million (CC6M) datapoints, under various pre-training objectives, followed by poison removal using CleanCLIP. We find that CleanCLIP is ineffective when stronger pre-training objectives are used, even with extensive hyperparameter tuning. Our findings underscore critical considerations for ML practitioners who pre-train models using large-scale web-curated data and are concerned about potential backdoor threats. Notably, our results suggest that simpler pre-training objectives are more amenable to effective backdoor removal. This insight is pivotal for practitioners seeking to balance the trade-offs between using stronger pre-training objectives and security against backdoor attacks.
翻訳日:2023-12-07 17:51:17 公開日:2023-12-05
# 再帰的量子ユニタリプログラムの合成の場合

A Case for Synthesis of Recursive Quantum Unitary Programs ( http://arxiv.org/abs/2311.11503v2 )

ライセンス: Link先を確認
Haowei Deng, Runzhou Tao, Yuxiang Peng, Xiaodi Wu(参考訳) 量子プログラムは、直感的な量子知識が量子プログラミングに関連するため、プログラミングや検証が難しいことで悪名高い。 したがって、テジウムと低レベルの量子の詳細に関連したエラーを緩和する自動化ツールは非常に望ましい。 本稿では,既存の量子プログラミング言語で広く使われている入力サイズの異なるユニタリ回路群を再帰的に定義する量子ユニタリプログラムのプログラム合成に関する研究を開始する。 具体的には、新しい帰納的量子プログラム言語、その仕様、推論のための音響ロジック、SMTインスタンスへの推論手順の符号化を含む、最初の量子プログラム合成フレームワークであるQSynthを紹介する。 既存のSMTソルバを利用することで、QSynthは量子加算器回路、量子固有値反転回路、量子フーリエ変換を含む10個の量子ユニタリプログラムをうまく合成し、Q#、IBM Qiskit、AWS Braketなどの主要な量子プラットフォーム上の実行可能プログラムに容易に変換できる。

Quantum programs are notoriously difficult to code and verify due to unintuitive quantum knowledge associated with quantum programming. Automated tools relieving the tedium and errors associated with low-level quantum details would hence be highly desirable. In this paper, we initiate the study of program synthesis for quantum unitary programs that recursively define a family of unitary circuits for different input sizes, which are widely used in existing quantum programming languages. Specifically, we present QSynth, the first quantum program synthesis framework, including a new inductive quantum programming language, its specification, a sound logic for reasoning, and an encoding of the reasoning procedure into SMT instances. By leveraging existing SMT solvers, QSynth successfully synthesizes ten quantum unitary programs including quantum adder circuits, quantum eigenvalue inversion circuits and Quantum Fourier Transformation, which can be readily transpiled to executable programs on major quantum platforms, e.g., Q#, IBM Qiskit, and AWS Braket.
翻訳日:2023-12-07 17:48:56 公開日:2023-12-05
# Slide-SAM:医療SAMがスライディングウィンドウを発表

Slide-SAM: Medical SAM Meets Sliding Window ( http://arxiv.org/abs/2311.10121v2 )

ライセンス: Link先を確認
Quan Quan, Fenghe Tang, Zikang Xu, Heqin Zhu, S.Kevin Zhou(参考訳) Segment Anything Model (SAM)は自然画像における2次元画像分割において顕著な成功を収めた。 しかし、医用画像と自然画像の実質的なギャップは、医用画像分割タスクへの直接的な適用を妨げる。 特に3D医療画像では、SAMはスライス間のコンテキスト関係の学習に苦労し、実用性を制限する。 さらに、2d samを3dイメージに適用するには、ボリューム全体をプロンプトする必要がある。 そこで本研究では,隣接する3つのスライスのスタックを予測ウィンドウとして扱うslide-samを提案する。 まず3dボリュームから3つのスライスを取り、中央のスライスにポイントまたはバウンディングボックスがプロンプトし、3つのスライスのセグメンテーションマスクを予測する。 その後、上部と下部のスライスのマスクを使用して、隣接するスライスに対して新しいプロンプトを生成する。 最後に、ボリューム全体を通して予測ウィンドウを前方または後方にスライドさせることで、ステップワイズ予測を実現することができる。 私たちのモデルは、複数のパブリックおよびプライベートな医療データセットでトレーニングされ、最小限のプロンプトの助けを借りて、広範囲な3dセグメテーション実験を通じてその効果を実証します。 コードは \url{https://github.com/Curli-quan/Slide-SAM} で公開されている。

The Segment Anything Model (SAM) has achieved a notable success in two-dimensional image segmentation in natural images. However, the substantial gap between medical and natural images hinders its direct application to medical image segmentation tasks. Particularly in 3D medical images, SAM struggles to learn contextual relationships between slices, limiting its practical applicability. Moreover, applying 2D SAM to 3D images requires prompting the entire volume, which is time- and label-consuming. To address these problems, we propose Slide-SAM, which treats a stack of three adjacent slices as a prediction window. It firstly takes three slices from a 3D volume and point- or bounding box prompts on the central slice as inputs to predict segmentation masks for all three slices. Subsequently, the masks of the top and bottom slices are then used to generate new prompts for adjacent slices. Finally, step-wise prediction can be achieved by sliding the prediction window forward or backward through the entire volume. Our model is trained on multiple public and private medical datasets and demonstrates its effectiveness through extensive 3D segmetnation experiments, with the help of minimal prompts. Code is available at \url{https://github.com/Curli-quan/Slide-SAM}.
翻訳日:2023-12-07 17:48:14 公開日:2023-12-05
# LangChainを用いた乳房超音波レポート生成

Breast Ultrasound Report Generation using LangChain ( http://arxiv.org/abs/2312.03013v1 )

ライセンス: Link先を確認
Jaeyoung Huh, Hyun Jeong Park, Jong Chul Ye(参考訳) 乳房超音波(BUS)は乳房画像診断において重要な診断ツールであり,乳房異常の早期発見と特徴付けを支援する。 乳房超音波画像の解釈は通常、患者の状態を迅速に評価するための重要な情報を含む包括的な医療報告を作成する。 しかし、超音波イメージングシステムは、様々な部分の複数の画像をキャプチャして単一のレポートをコンパイルする必要がある。 この問題に対処するために,LangChain using Large Language Models (LLM) を用いた複数画像解析ツールを胸部報告プロセスに統合することを提案する。 提案手法は,LangChainによる特定ツールとテキスト生成の組み合わせにより,超音波画像から関連する特徴を正確に抽出し,臨床的文脈で解釈し,包括的で標準化された報告を生成する。 このアプローチは、放射線科医や医療専門家の負担を軽減するだけでなく、レポートの一貫性と品質を高める。 実験により,提案手法に関わる各ツールが質的,定量的に有意な結果が得られることが示された。 さらに, 臨床評価の結果から, 提案手法が臨床的に有意義な方法で報告できることが示された。

Breast ultrasound (BUS) is a critical diagnostic tool in the field of breast imaging, aiding in the early detection and characterization of breast abnormalities. Interpreting breast ultrasound images commonly involves creating comprehensive medical reports, containing vital information to promptly assess the patient's condition. However, the ultrasound imaging system necessitates capturing multiple images of various parts to compile a single report, presenting a time-consuming challenge. To address this problem, we propose the integration of multiple image analysis tools through a LangChain using Large Language Models (LLM), into the breast reporting process. Through a combination of designated tools and text generation through LangChain, our method can accurately extract relevant features from ultrasound images, interpret them in a clinical context, and produce comprehensive and standardized reports. This approach not only reduces the burden on radiologists and healthcare professionals but also enhances the consistency and quality of reports. The extensive experiments shows that each tools involved in the proposed method can offer qualitatively and quantitatively significant results. Furthermore, clinical evaluation on the generated reports demonstrates that the proposed method can make report in clinically meaningful way.
翻訳日:2023-12-07 17:42:16 公開日:2023-12-05
# ネットワークによる日毎取引指数のユニスワップ化

Uniswap Daily Transaction Indices by Network ( http://arxiv.org/abs/2312.02660v1 )

ライセンス: Link先を確認
Nir Chemaya, Lin William Cong, Emma Jorgensen, Dingyue Liu, Luyao Zhang(参考訳) DeFiは、仲介者を排除し、豊富なオープンソースデータを生成することで、金融サービスを変革している。 この変換はLayer 2 (L2) ソリューションによって推進され、現在のLayer 1 (L1) 機能を超えてネットワーク効率とスケーラビリティを高めることを目的としている。 本研究は,Uniswapからの5000万件以上のトランザクションを調べることで,詳細なL2影響分析の欠如に対処する。 ethereumやpolygonといったネットワーク間のl1とl2のトランザクションを特徴とする当社のデータセットは、デフィスペースにおける採用、スケーラビリティ、分散化の指標を日々公開しています。 これらの指標は、DeFiとL2技術の間の複雑な関係を解明し、エコシステムの理解を深めるのに役立ちます。 データセットは、分散インデックスを計算するためのオープンソースのpythonフレームワークによって強化され、様々な研究ニーズに対応できる。 これによりデータセットは、マシンラーニング、特にディープラーニングのための重要なリソースとなり、web3のインフラストラクチャとしてブロックチェーンの開発に大きく貢献する。

DeFi is transforming financial services by removing intermediaries and producing a wealth of open-source data. This transformation is propelled by Layer 2 (L2) solutions, aimed at boosting network efficiency and scalability beyond current Layer 1 (L1) capabilities. This study addresses the lack of detailed L2 impact analysis by examining over 50 million transactions from Uniswap. Our dataset, featuring transactions from L1 and L2 across networks like Ethereum and Polygon, provides daily indices revealing adoption, scalability, and decentralization within the DeFi space. These indices help to elucidate the complex relationship between DeFi and L2 technologies, advancing our understanding of the ecosystem. The dataset is enhanced by an open-source Python framework for computing decentralization indices, adaptable for various research needs. This positions the dataset as a vital resource for machine learning endeavors, particularly deep learning, contributing significantly to the development of Blockchain as Web3's infrastructure.
翻訳日:2023-12-07 17:35:59 公開日:2023-12-05
# Egoの現状は、オープン・ループ・エンド・エンドの自動運転に必要か?

Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? ( http://arxiv.org/abs/2312.03031v1 )

ライセンス: Link先を確認
Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, Jose M. Alvarez(参考訳) エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする有望な研究方向として最近登場した。 この線に沿って、最新の作品の多くは、計画行動を研究するためにnuScenesのオープンループ評価設定に従っている。 本稿では,より詳細な分析を行い,さらに詳細なデヴィルをデミスティフィケーションすることで問題を深く掘り下げる。 まず、比較的単純な運転シナリオを特徴とするnuscenesデータセットが、ego車両の速度のようなegoステータスを組み込んだエンドツーエンドモデルにおける知覚情報の過小利用につながることを観測した。 これらのモデルは、将来の経路計画におけるエゴ車の地位に大きく依存する傾向にある。 データセットの制限を超えて、現在のメトリクスは計画品質を包括的に評価せず、既存のベンチマークから引き出された潜在的なバイアスのある結論につながっている点にも注意が必要だ。 この問題に対処するために,予測軌跡が道路に付着するかどうかを評価するための新しい指標を導入する。 さらに,認識アノテーションに頼らずに,競争的な結果が得られるシンプルなベースラインを提案する。 ベンチマークとメトリクスの現在の制限を考えると、コミュニティは関連研究を再評価し、最先端の追求が説得力と普遍的な結論をもたらすかどうかを慎重に検討することを提案する。 コードとモデルは \url{https://github.com/NVlabs/BEV-Planner} で公開されている。

End-to-end autonomous driving recently emerged as a promising research direction to target autonomy from a full-stack perspective. Along this line, many of the latest works follow an open-loop evaluation setting on nuScenes to study the planning behavior. In this paper, we delve deeper into the problem by conducting thorough analyses and demystifying more devils in the details. We initially observed that the nuScenes dataset, characterized by relatively simple driving scenarios, leads to an under-utilization of perception information in end-to-end models incorporating ego status, such as the ego vehicle's velocity. These models tend to rely predominantly on the ego vehicle's status for future path planning. Beyond the limitations of the dataset, we also note that current metrics do not comprehensively assess the planning quality, leading to potentially biased conclusions drawn from existing benchmarks. To address this issue, we introduce a new metric to evaluate whether the predicted trajectories adhere to the road. We further propose a simple baseline able to achieve competitive results without relying on perception annotations. Given the current limitations on the benchmark and metrics, we suggest the community reassess relevant prevailing research and be cautious whether the continued pursuit of state-of-the-art would yield convincing and universal conclusions. Code and models are available at \url{https://github.com/NVlabs/BEV-Planner}
翻訳日:2023-12-07 17:29:33 公開日:2023-12-05
# 視覚的な逆境パッチの生成

Generating Visually Realistic Adversarial Patch ( http://arxiv.org/abs/2312.03030v1 )

ライセンス: Link先を確認
Xiaosen Wang, Kunyu Wang(参考訳) ディープニューラルネットワーク(dnn)は、さまざまなタイプの敵例に対して脆弱であり、セキュリティクリティカルなアプリケーションに大きな脅威をもたらします。 これらのうち、物理的な世界でのDNNを騙すのに十分な適用性のために、敵のパッチが注目を集めている。 しかし、既存の作品はしばしば無意味なノイズやパターンのパッチを生成するため、人間には目立たない。 この問題に対処するために,我々は,視覚的にリアルな敵パッチを生成する方法を探る。 まず,高品質の対向パッチは現実的であり,位置が無関係で,物理的に展開可能な印刷が可能であることを解析する。 この分析に基づいて,視覚的に現実的な敵パッチを生成するために,VRAPと呼ばれる効果的な攻撃を提案する。 具体的には、VRAPは、実際の画像の近傍のパッチを制約し、視覚的現実を確実にし、位置無関係で最も低い位置のパッチを最適化し、トータルバリアンス損失とガンマ変換を採用して、生成したパッチを情報を失うことなく印刷可能にする。 ImageNetデータセットの実証的な評価は、提案したVRAPがデジタル世界で優れた攻撃性能を示すことを示している。 さらに、生成された敵のパッチは物理世界のスクロールやロゴに変装して、ディープモデルを検出せずに騙し、DNN対応アプリケーションに重大な脅威をもたらす。

Deep neural networks (DNNs) are vulnerable to various types of adversarial examples, bringing huge threats to security-critical applications. Among these, adversarial patches have drawn increasing attention due to their good applicability to fool DNNs in the physical world. However, existing works often generate patches with meaningless noise or patterns, making it conspicuous to humans. To address this issue, we explore how to generate visually realistic adversarial patches to fool DNNs. Firstly, we analyze that a high-quality adversarial patch should be realistic, position irrelevant, and printable to be deployed in the physical world. Based on this analysis, we propose an effective attack called VRAP, to generate visually realistic adversarial patches. Specifically, VRAP constrains the patch in the neighborhood of a real image to ensure the visual reality, optimizes the patch at the poorest position for position irrelevance, and adopts Total Variance loss as well as gamma transformation to make the generated patch printable without losing information. Empirical evaluations on the ImageNet dataset demonstrate that the proposed VRAP exhibits outstanding attack performance in the digital world. Moreover, the generated adversarial patches can be disguised as the scrawl or logo in the physical world to fool the deep models without being detected, bringing significant threats to DNNs-enabled applications.
翻訳日:2023-12-07 17:29:08 公開日:2023-12-05
# ガウスの頭部アバター:動的ガウスによる超高忠実頭部アバター

Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians ( http://arxiv.org/abs/2312.03029v1 )

ライセンス: Link先を確認
Yuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu(参考訳) 高精細な3dヘッドアバターを作ることは、常に研究のホットスポットでしたが、軽量なスパースビュー設定では依然として大きな課題があります。 本稿では,高忠実度頭部アバターモデリングのための制御可能な3次元ガウスアンで表されるガウスヘッドアバターを提案する。 中性3次元ガウスおよび完全学習されたmlpに基づく変形場を最適化し,複雑な表現を取り込む。 そこで本手法は,表現精度を確保しつつ,微細な動的詳細をモデル化することができる。 さらに、暗黙のSDFとDeep Marching Tetrahedraに基づく幾何誘導初期化戦略を考案し、トレーニング手順の安定性と収束を図る。 実験により, 過大な表現下でも2K解像度での超高忠実なレンダリング品質を実現することができる。

Creating high-fidelity 3D head avatars has always been a research hotspot, but there remains a great challenge under lightweight sparse view setups. In this paper, we propose Gaussian Head Avatar represented by controllable 3D Gaussians for high-fidelity head avatar modeling. We optimize the neutral 3D Gaussians and a fully learned MLP-based deformation field to capture complex expressions. The two parts benefit each other, thereby our method can model fine-grained dynamic details while ensuring expression accuracy. Furthermore, we devise a well-designed geometry-guided initialization strategy based on implicit SDF and Deep Marching Tetrahedra for the stability and convergence of the training procedure. Experiments show our approach outperforms other state-of-the-art sparse-view methods, achieving ultra high-fidelity rendering quality at 2K resolution even under exaggerated expressions.
翻訳日:2023-12-07 17:28:44 公開日:2023-12-05
# CT画像を用いたALSOA誘導肺癌分類を併用した二重積分零化ニューラルネットワーク

Double Integral Enhanced Zeroing Neural Network Optimized with ALSOA fostered Lung Cancer Classification using CT Images ( http://arxiv.org/abs/2312.03028v1 )

ライセンス: Link先を確認
V S Priya Sumitha, V.Keerthika, A. Geetha(参考訳) 肺がんは最も致命的な疾患の1つであり、疾患や死亡の原因となっている。 肺がんは早期に予測できないため、他の肺に拡がってしまえば、より広範囲にしか発見できない。 放射線技師や他の専門家が肺がんが進行しているかどうかを判断すると、リスクは増大する。 疾患の重症度に基づく治療の種類の決定の重要性と深さから, がんの進行段階において, スマートで自動的ながん予測手法の開発が重要となる。 本稿では,CT画像(LCC-DIEZNN-ALSO-CTI)を用いた肺がん分類を最適化したDouble Integral Enhanced Zeroing Neural Networkを提案する。 当初、肺がんデータセットから入力CT画像が収集される。 入力CT画像は、 Unscented Trainable Kalman Filtering (UTKF) 技術を介して前処理される。 前処理段階では、不要なノイズがCT画像から除去される。 その後、Adaptive and Concise Empirical Wavelet Transform (ACEWT) によって抽出されたグレースケール統計特徴とハリックテクスチャ特徴について検討した。 提案モデルはMATLAB上に実装されている。 提案手法の性能を既存の手法を用いて解析する。 提案手法は,AHHMM(LCC-AHHMM-CT),畳み込みニューラルネットワークを用いた肺結節悪性度評価法(LCC-ICNN-CT),肺がんの分類支援法(LCC-RFCN-MLRPN-CT),肺がんの分類支援法(LCC-RFCN-MLRPN-CT)などを用いて,既存の方法を用いて,18.32%,27.20%,34.32%の精度で解析した。

Lung cancer is one of the deadliest diseases and the leading cause of illness and death. Since lung cancer cannot predicted at premature stage, it able to only be discovered more broadly once it has spread to other lung parts. The risk grows when radiologists and other specialists determine whether lung cancer is current. Owing to significance of determining type of treatment and its depth based on severity of the illness, critical to develop smart and automatic cancer prediction scheme is precise, at which stage of cancer. In this paper, Double Integral Enhanced Zeroing Neural Network Optimized with ALSOA fostered Lung Cancer Classification using CT Images (LCC-DIEZNN-ALSO-CTI) is proposed. Initially, input CT image is amassed from lung cancer dataset. The input CT image is pre-processing via Unscented Trainable Kalman Filtering (UTKF) technique. In pre-processing stage unwanted noise are removed from CT images. Afterwards, grayscale statistic features and Haralick texture features extracted by Adaptive and Concise Empirical Wavelet Transform (ACEWT). The proposed model is implemented on MATLAB. The performance of the proposed method is analyzed through existing techniques. The proposed method attains 18.32%, 27.20%, and 34.32% higher accuracy analyzed with existing method likes Deep Learning Assisted Predict of Lung Cancer on Computed Tomography Images Utilizing AHHMM (LCC-AHHMM-CT), Convolutional neural networks based pulmonary nodule malignancy assessment in pipeline for classifying lung cancer (LCC-ICNN-CT), Automated Decision Support Scheme for Lung Cancer Identification with Categorization (LCC-RFCN-MLRPN-CT) methods respectively.
翻訳日:2023-12-07 17:28:27 公開日:2023-12-05
# 安定拡散が露呈:プロンプトからイメージへのジェンダーバイアス

Stable Diffusion Exposed: Gender Bias from Prompt to Image ( http://arxiv.org/abs/2312.03027v1 )

ライセンス: Link先を確認
Yankun Wu, Yuta Nakashima, Noa Garcia(参考訳) 近年の研究では、生成モデルにおけるバイアスが強調され、性別に基づくステレオタイプや不均衡に対する偏見に光を当てている。 本稿では, 安定拡散画像に対する性別指標の影響を自動的に解析する評価プロトコルを導入することで, 本研究の進展に寄与する。 先行研究から得た知見を活かし、性別指標が性別表現だけでなく、生成された画像内のオブジェクトやレイアウトの表現にどのように影響するかを考察する。 本研究の成果は,特定の性別に合わせて調整された楽器や,全体のレイアウトの変化など,物体の描写の違いの存在である。 また,中性プロンプトは,女性プロンプトよりも男性プロンプトに近い画像を生成する傾向にあり,安定拡散に内在するニュアンス性バイアスに対する貴重な洞察を与える。

Recent studies have highlighted biases in generative models, shedding light on their predisposition towards gender-based stereotypes and imbalances. This paper contributes to this growing body of research by introducing an evaluation protocol designed to automatically analyze the impact of gender indicators on Stable Diffusion images. Leveraging insights from prior work, we explore how gender indicators not only affect gender presentation but also the representation of objects and layouts within the generated images. Our findings include the existence of differences in the depiction of objects, such as instruments tailored for specific genders, and shifts in overall layouts. We also reveal that neutral prompts tend to produce images more aligned with masculine prompts than their feminine counterparts, providing valuable insights into the nuanced gender biases inherent in Stable Diffusion.
翻訳日:2023-12-07 17:27:54 公開日:2023-12-05
# Uni3DL: 3Dおよび言語理解のための統一モデル

Uni3DL: Unified Model for 3D and Language Understanding ( http://arxiv.org/abs/2312.03026v1 )

ライセンス: Link先を確認
Xiang Li, Jian Ding, Zhaoyang Chen, Mohamed Elhoseiny(参考訳) 本稿では,3Dおよび言語理解のための統一モデルであるUni3DLを提案する。 タスクの多様性に制限があり、投影された多視点画像に依存している既存の統合視覚言語モデルとは異なり、Uni3DLはポイントクラウド上で直接動作する。 このアプローチは、3Dにおける視覚と視覚の両方のタスクを含む、3Dにおけるサポート対象タスクの範囲を大幅に拡大する。 問合せ変換器は,3次元視覚特徴に参画してタスク非依存のセマンティクスとマスク出力を学習するように設計され,タスクルータを用いてタスク固有の出力を選択的に生成する。 統一されたアーキテクチャでは、我々のUni3DLモデルはシームレスなタスク分解とタスク間の実質的なパラメータ共有を楽しみます。 Uni3DLは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、視覚的グラウンドニング、3Dキャプション、テキスト3Dのクロスモーダル検索など、様々な3D視覚言語理解タスクにおいて厳格に評価されている。 これは、最新技術(SOTA)タスク固有のモデルと同等のパフォーマンスを示す。 私たちは、ベンチマークとuni3dlモデルが、3dと言語理解の領域における統一モデルの将来の研究を容易にするための確かなステップになることを期待しています。 プロジェクトページ: https://uni3dl.github.io

In this work, we present Uni3DL, a unified model for 3D and Language understanding. Distinct from existing unified vision-language models in 3D which are limited in task variety and predominantly dependent on projected multi-view images, Uni3DL operates directly on point clouds. This approach significantly expands the range of supported tasks in 3D, encompassing both vision and vision-language tasks in 3D. At the core of Uni3DL, a query transformer is designed to learn task-agnostic semantic and mask outputs by attending to 3D visual features, and a task router is employed to selectively generate task-specific outputs required for diverse tasks. With a unified architecture, our Uni3DL model enjoys seamless task decomposition and substantial parameter sharing across tasks. Uni3DL has been rigorously evaluated across diverse 3D vision-language understanding tasks, including semantic segmentation, object detection, instance segmentation, visual grounding, 3D captioning, and text-3D cross-modal retrieval. It demonstrates performance on par with or surpassing state-of-the-art (SOTA) task-specific models. We hope our benchmark and Uni3DL model will serve as a solid step to ease future research in unified models in the realm of 3D and language understanding. Project page: https://uni3dl.github.io.
翻訳日:2023-12-07 17:27:37 公開日:2023-12-05
# マルチモーダル関係抽出における実データを打ち負かす合成データの学習

Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction ( http://arxiv.org/abs/2312.03025v1 )

ライセンス: Link先を確認
Zilin Du, Haoxin Li, Xu Guo, Boyang Li(参考訳) マルチモーダルな関係抽出のタスクは、重要な研究の注目を集めているが、進歩は利用可能なトレーニングデータの不足によって制約されている。 自然な考え方のひとつは、既存のデータセットをクロスモーダル生成モデルで拡張することです。 本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。 我々は,実マルチモーダルテストデータ上でよく動作する合成データから,マルチモーダル分類器を訓練することを目指している。 しかし、合成データによるトレーニングには、データの多様性の欠如とラベル情報損失の2つの障害がある。 そこで,本稿では,相互情報認識型マルチモーダル・リレーショナル・データ生成 (mi2rage) を提案する。これは連鎖型クロスモーダル・ジェネレーション (ccg) を適用し,生成データの多様性を促進するとともに,教師ネットワークを利用して,接地ラベルと高い相互情報を持つ貴重なトレーニングサンプルを選択する。 本手法を合成データの直接学習と比較し,合成テキストによる24.06%f1,合成画像を用いた26.42%f1の有意な改善を認めた。 特に、完全合成画像で訓練された最良のモデルは、実際のマルチモーダルデータで訓練された最先端モデルよりも、F1のマージンが3.76%向上した。 私たちのコードベースは受け入れ次第利用可能になります。

The task of multimodal relation extraction has attracted significant research attention, but progress is constrained by the scarcity of available training data. One natural thought is to extend existing datasets with cross-modal generative models. In this paper, we consider a novel problem setting, where only unimodal data, either text or image, are available during training. We aim to train a multimodal classifier from synthetic data that perform well on real multimodal test data. However, training with synthetic data suffers from two obstacles: lack of data diversity and label information loss. To alleviate the issues, we propose Mutual Information-aware Multimodal Iterated Relational dAta GEneration (MI2RAGE), which applies Chained Cross-modal Generation (CCG) to promote diversity in the generated data and exploits a teacher network to select valuable training samples with high mutual information with the ground-truth labels. Comparing our method to direct training on synthetic data, we observed a significant improvement of 24.06% F1 with synthetic text and 26.42% F1 with synthetic images. Notably, our best model trained on completely synthetic images outperforms prior state-of-the-art models trained on real multimodal data by a margin of 3.76% in F1. Our codebase will be made available upon acceptance.
翻訳日:2023-12-07 17:27:14 公開日:2023-12-05
# beyond isolation: ナレッジグラフ構築を改善するマルチエージェントシナジー

Beyond Isolation: Multi-Agent Synergy for Improving Knowledge Graph Construction ( http://arxiv.org/abs/2312.03022v1 )

ライセンス: Link先を確認
Hongbin Ye, Honghao Gui, Aijia Zhang, Tong Liu, Wei Hua, Weiqiang Jia(参考訳) 知識グラフ構築(KGC)は、エンティティ、関係、イベントの抽出を含む多面的な作業である。 伝統的に、大規模言語モデル(llm)はこの複雑な状況において単独のタスク解決エージェントと見なされてきた。 しかし,本稿では,新しいフレームワークである cooperkgc を導入することで,このパラダイムに挑戦する。 従来のアプローチとは別に、CooperKGCは協調処理ネットワークを確立し、エンティティ、リレーショナル、イベント抽出タスクを同時に処理できるKGCコラボレーションチームを構成する。 我々の実験は、CooperKGC内の多様なエージェント間の協調と情報相互作用の促進が、単独で動作している個々の認知プロセスよりも優れた結果をもたらすことを示した。 重要な点として,cooperkgcによるコラボレーションは,複数のインタラクションをまたいだ知識選択,修正,集約能力の向上に寄与することが明らかとなった。

Knowledge graph construction (KGC) is a multifaceted undertaking involving the extraction of entities, relations, and events. Traditionally, large language models (LLMs) have been viewed as solitary task-solving agents in this complex landscape. However, this paper challenges this paradigm by introducing a novel framework, CooperKGC. Departing from the conventional approach, CooperKGC establishes a collaborative processing network, assembling a KGC collaboration team capable of concurrently addressing entity, relation, and event extraction tasks. Our experiments unequivocally demonstrate that fostering collaboration and information interaction among diverse agents within CooperKGC yields superior results compared to individual cognitive processes operating in isolation. Importantly, our findings reveal that the collaboration facilitated by CooperKGC enhances knowledge selection, correction, and aggregation capabilities across multiple rounds of interactions.
翻訳日:2023-12-07 17:26:50 公開日:2023-12-05
# MobileNetV2を用いた乳癌腫瘍の分類 : 画像強度, エラー軽減, ストリーム駆動リアルタイム展開の詳細な検討

Enhanced Breast Cancer Tumor Classification using MobileNetV2: A Detailed Exploration on Image Intensity, Error Mitigation, and Streamlit-driven Real-time Deployment ( http://arxiv.org/abs/2312.03020v1 )

ライセンス: Link先を確認
Aaditya Surya, Aditya Shah, Jarnell Kabore, Subash Sasikumar(参考訳) 本研究では,1576種類の超音波画像(265例,891例,悪性420例)のデータセットを用いて,乳がん腫瘍分類のためのgoogleのmobilenetv2に基づく洗練されたトランスファー学習モデルを提案する。 精度は 0.82、精度は 0.83、リコールは 0.81、ROC-AUCは 0.94、PR-AUCは 0.88、MCCは 0.74 である。 画像強度分布と誤分類誤差を調べ、将来のアプリケーションに改善をもたらす。 データセットの不均衡に対処するため、研究は一般化可能なモデルを保証する。 この研究は、Walid Al-Dhabyaniらによって編纂されたエジプトのカイロのBaheya Hospitalのデータセットを用いて、MobileNetV2の医療画像における可能性を強調し、腫瘍学における診断精度の向上を目指している。 さらに,リアルタイム腫瘍分類のためのstreamlitベースの展開について検討し,mobilenetv2の医療画像への適用性を示し,腫瘍診断における今後の研究のためのベンチマークを設定した。

This research introduces a sophisticated transfer learning model based on Google's MobileNetV2 for breast cancer tumor classification into normal, benign, and malignant categories, utilizing a dataset of 1576 ultrasound images (265 normal, 891 benign, 420 malignant). The model achieves an accuracy of 0.82, precision of 0.83, recall of 0.81, ROC-AUC of 0.94, PR-AUC of 0.88, and MCC of 0.74. It examines image intensity distributions and misclassification errors, offering improvements for future applications. Addressing dataset imbalances, the study ensures a generalizable model. This work, using a dataset from Baheya Hospital, Cairo, Egypt, compiled by Walid Al-Dhabyani et al., emphasizes MobileNetV2's potential in medical imaging, aiming to improve diagnostic precision in oncology. Additionally, the paper explores Streamlit-based deployment for real-time tumor classification, demonstrating MobileNetV2's applicability in medical imaging and setting a benchmark for future research in oncology diagnostics.
翻訳日:2023-12-07 17:26:37 公開日:2023-12-05
# qaoaを用いた最大カット問題に対する量子回路シミュレーションの最適化に向けて

Towards Optimizations of Quantum Circuit Simulation for Solving Max-Cut Problems with QAOA ( http://arxiv.org/abs/2312.03019v1 )

ライセンス: Link先を確認
Yu-Cheng Lin, Chuan-Chi Wang, Chia-Heng Tu, Shih-Hao Hung(参考訳) 量子近似最適化アルゴリズム(QAOA)は、近似を用いて組合せ最適化問題を解決するために用いられる一般的な量子アルゴリズムの1つである。 qaoaは、従来のコンピュータがシミュレートした物理量子コンピュータと仮想量子コンピュータの両方で評価することができ、仮想量子コンピュータはそのノイズのない機能と可用性で好まれている。 それでも、仮想量子コンピュータ上でのqaoaの実行は、大規模量子回路シミュレーション(qcs)を必要とする組合せ最適化問題を解決するために、遅いシミュレーション速度に苦しむ。 本稿では,量子演算の数学的最適化を用いてQAOAのQCSを高速化する手法を提案し,より効率的なビットワイズ演算を導入して計算複雑性を低減し,現代のマルチコアプロセッサから異なるレベルの並列処理を利用する手法を提案する。

Quantum approximate optimization algorithm (QAOA) is one of the popular quantum algorithms that are used to solve combinatorial optimization problems via approximations. QAOA is able to be evaluated on both physical and virtual quantum computers simulated by classical computers, with virtual ones being favored for their noise-free feature and availability. Nevertheless, performing QAOA on virtual quantum computers suffers from a slow simulation speed for solving combinatorial optimization problems which require large-scale quantum circuit simulation (QCS). In this paper, we propose techniques to accelerate QCS for QAOA using mathematical optimizations to compress quantum operations, incorporating efficient bitwise operations to further lower the computational complexity, and leveraging different levels of parallelisms from modern multi-core processors, with a study case to show the effectiveness on solving max-cut problems.
翻訳日:2023-12-07 17:26:14 公開日:2023-12-05
# dreamvideo: 画像保持とテキストガイダンスを備えた高忠実度画像対ビデオ生成

DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance ( http://arxiv.org/abs/2312.03018v1 )

ライセンス: Link先を確認
Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang(参考訳) 参照画像からビデオを生成することを目的とした画像対ビデオ生成が注目されている。 既存の方法は、事前訓練されたテキスト誘導画像拡散モデルから画像誘導映像生成モデルへの拡張を試みる。 それにもかかわらず、これらの手法は、浅い画像誘導と時間的一貫性の欠如により、低い忠実度または時間の経過とともに点滅する。 これらの問題に対処するために,DreamVideo という名前の事前学習ビデオ拡散モデルに基づいてフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。 参照画像をセマンティックなレベルで拡散するプロセスに統合する代わりに、DreamVideoはコンボリューション層を通じて参照画像を認識し、ノイズの多いラテントをモデル入力として特徴を結合する。 これにより、参照画像の詳細を最大限に保存することができる。 さらに、ダブルコンディショナライザフリーのガイダンスを組み込むことで、さまざまなプロンプトテキストを提供することで、異なるアクションの動画に単一のイメージを向けることができる。 これは制御可能なビデオ生成に重要な意味を持ち、幅広い応用可能性を持っている。 定量的および定性的な結果から,本手法が最先端の手法より優れていることを示すため,公開データセットの総合的な実験を行った。 特に忠実度では画像保持能力が強く,UCF101では他の画像対映像モデルと比較してFVDが高い。 また、異なるテキストプロンプトを与えることで、正確な制御が可能となる。 このモデルのさらなる詳細と包括的な結果はhttps://anonymous0769.github.io/dreamvideo/で示されます。

Image-to-video generation, which aims to generate a video starting from a given reference image, has drawn great attention. Existing methods try to extend pre-trained text-guided image diffusion models to image-guided video generation models. Nevertheless, these methods often result in either low fidelity or flickering over time due to their limitation to shallow image guidance and poor temporal consistency. To tackle these problems, we propose a high-fidelity image-to-video generation method by devising a frame retention branch on the basis of a pre-trained video diffusion model, named DreamVideo. Instead of integrating the reference image into the diffusion process in a semantic level, our DreamVideo perceives the reference image via convolution layers and concatenate the features with the noisy latents as model input. By this means, the details of the reference image can be preserved to the greatest extent. In addition, by incorporating double-condition classifier-free guidance, a single image can be directed to videos of different actions by providing varying prompt texts. This has significant implications for controllable video generation and holds broad application prospects. We conduct comprehensive experiments on the public dataset, both quantitative and qualitative results indicate that our method outperforms the state-of-the-art method. Especially for fidelity, our model has powerful image retention ability and result in high FVD in UCF101 compared to other image-to-video models. Also, precise control can be achieved by giving different text prompts. Further details and comprehensive results of our model will be presented in https://anonymous0769.github.io/DreamVideo/.
翻訳日:2023-12-07 17:25:56 公開日:2023-12-05
# aiによるthzメタサーフェススペクトル予測による周波数情報非一様分布の出現

AI-driven emergence of frequency information non-uniform distribution via THz metasurface spectrum prediction ( http://arxiv.org/abs/2312.03017v1 )

ライセンス: Link先を確認
Xiaohua Xing, Yuqi Ren, Die Zou, Qiankun Zhang, Bingxuan Mao, Jianquan Yao, Deyi Xiong, Shuang Zhang and Liang Wu(参考訳) 近年、人工知能は様々な科学分野に広く展開され、豊富なデータセットの統合を通じて実験の進行を最適化し、指導し、データにカプセル化された広大な理論空間を継続的に探っている。 特に、ディープラーニングモデルは、エンドツーエンドの適応学習能力のため、本質的なデータ特徴を自律的に学習することができるため、従来の経験の限界をある程度超越することができる。 本稿では,ai予測に基づくメタ表面のテラヘルツスペクトル変調効果の予測において出現する周波数の異なる情報特性について明らかにする。 さらに,提案手法では,目標スペクトル予測プロセス中に既存のデータセットに補足的多周波入力を追加することで,ネットワークの予測精度を大幅に向上させることができることを検証した。 このアプローチは、既存のデータセットの利用を効果的に最適化し、人工知能、化学、複合材料設計、バイオメディシンなどの分野における学際的な研究と応用の道を開く。

Recently, artificial intelligence has been extensively deployed across various scientific disciplines, optimizing and guiding the progression of experiments through the integration of abundant datasets, whilst continuously probing the vast theoretical space encapsulated within the data. Particularly, deep learning models, due to their end-to-end adaptive learning capabilities, are capable of autonomously learning intrinsic data features, thereby transcending the limitations of traditional experience to a certain extent. Here, we unveil previously unreported information characteristics pertaining to different frequencies emerged during our work on predicting the terahertz spectral modulation effects of metasurfaces based on AI-prediction. Moreover, we have substantiated that our proposed methodology of simply adding supplementary multi-frequency inputs to the existing dataset during the target spectral prediction process can significantly enhance the predictive accuracy of the network. This approach effectively optimizes the utilization of existing datasets and paves the way for interdisciplinary research and applications in artificial intelligence, chemistry, composite material design, biomedicine, and other fields.
翻訳日:2023-12-07 17:25:31 公開日:2023-12-05
# タンパク質言語モデルによる3dリガンド結合部位の予測

Protein Language Model-Powered 3D Ligand Binding Site Prediction from Protein Sequence ( http://arxiv.org/abs/2312.03016v1 )

ライセンス: Link先を確認
Shuo Zhang, Lei Xie(参考訳) タンパク質のリガンド結合部位の予測は、タンパク質の機能を理解し、潜在的薬物をスクリーニングするための基本的で重要な課題である。 既存の方法の多くは、入力として実験的に決定されたタンパク質ホロ構造を必要とする。 しかし、そのような構造は新規または研究の少ないタンパク質では利用できない。 この制限に対処するため,リガンド結合部位予測の入力としてタンパク質配列とリガンド分子グラフのみを用いるLaMPSiteを提案する。 タンパク質配列は、事前訓練されたESM-2タンパク質言語モデルから残基レベルの埋め込みと接触マップを取得するために使用される。 リガンド分子グラフは、原子レベルの埋め込みを計算するためにグラフニューラルネットワークに供給される。 次に、タンパク質残基レベルの埋め込みとリガンド原子レベルの埋め込み、および推定されたタンパク質接触マップとリガンド距離マップにおける幾何学的制約に基づいて、タンパク質-リガンド相互作用埋め込みを計算・更新する。 タンパク質-リガンド相互作用の埋め込みの最終プールは、どの残基が結合部位に属するかを示す。 タンパク質の3D座標情報がないため,本モデルでは結合部位の予測に3Dタンパク質構造を必要とするベースライン法と比較して競合性能が向上する。 現在、タンパク質の50%未満が信頼できる構造情報を持っていることを考慮すれば、LaMPSiteは薬物発見の新しい機会を提供するだろう。

Prediction of ligand binding sites of proteins is a fundamental and important task for understanding the function of proteins and screening potential drugs. Most existing methods require experimentally determined protein holo-structures as input. However, such structures can be unavailable on novel or less-studied proteins. To tackle this limitation, we propose LaMPSite, which only takes protein sequences and ligand molecular graphs as input for ligand binding site predictions. The protein sequences are used to retrieve residue-level embeddings and contact maps from the pre-trained ESM-2 protein language model. The ligand molecular graphs are fed into a graph neural network to compute atom-level embeddings. Then we compute and update the protein-ligand interaction embedding based on the protein residue-level embeddings and ligand atom-level embeddings, and the geometric constraints in the inferred protein contact map and ligand distance map. A final pooling on protein-ligand interaction embedding would indicate which residues belong to the binding sites. Without any 3D coordinate information of proteins, our proposed model achieves competitive performance compared to baseline methods that require 3D protein structures when predicting binding sites. Given that less than 50% of proteins have reliable structure information in the current stage, LaMPSite will provide new opportunities for drug discovery.
翻訳日:2023-12-07 17:25:15 公開日:2023-12-05
# partslip++:マルチビューインスタンスセグメンテーションと最大確率推定による低ショット3d部分セグメンテーションの拡張

PartSLIP++: Enhancing Low-Shot 3D Part Segmentation via Multi-View Instance Segmentation and Maximum Likelihood Estimation ( http://arxiv.org/abs/2312.03015v1 )

ライセンス: Link先を確認
Yuchen Zhou and Jiayuan Gu and Xuanlin Li and Minghua Liu and Yunhao Fang and Hao Su(参考訳) オープンワールドの3D部分のセグメンテーションは、ロボティクスやAR/VRといった多様な応用において重要である。 従来の教師付き手法は、しばしば3Dデータの可用性を制限し、見えないオブジェクトカテゴリに一般化するのに苦労する。 最近の進歩であるPartSLIPは、ゼロと少数ショットの3D部分セグメンテーションにおいて大きな進歩を遂げている。 これは、2Dオープン語彙検出モジュールGLIPの機能を活用し、マルチビュー2D境界ボックス予測を3Dセグメンテーションマスクに変換して持ち上げるヒューリスティック手法を導入することで実現される。 本稿では、前者の制限を克服するために設計された拡張バージョンであるPartSLIP++を紹介する。 このアプローチには2つの大きな改善が含まれている。 まず,事前学習した2DセグメンテーションモデルSAMを用いて画素単位の2Dセグメンテーションを生成し,PartSLIPで使用される2Dバウンディングボックスよりも高精度で正確なアノテーションを生成する。 第二に、PartSLIP++はヒューリスティックな3D変換プロセスを革新的な修正期待最大化アルゴリズムで置き換える。 このアルゴリズムは、観測されていない潜在変数として3Dインスタンスセグメンテーションを概念化し、2D-3Dマッチングと勾配勾配の最適化を交互に行う。 広範に評価した結果,PartSLIP++はローショット3Dセマンティクスとインスタンスベースのオブジェクト部分分割タスクの両方において,PartSLIPよりも優れた性能を示すことがわかった。 コードリリースはhttps://github.com/zyc00/partslip2。

Open-world 3D part segmentation is pivotal in diverse applications such as robotics and AR/VR. Traditional supervised methods often grapple with limited 3D data availability and struggle to generalize to unseen object categories. PartSLIP, a recent advancement, has made significant strides in zero- and few-shot 3D part segmentation. This is achieved by harnessing the capabilities of the 2D open-vocabulary detection module, GLIP, and introducing a heuristic method for converting and lifting multi-view 2D bounding box predictions into 3D segmentation masks. In this paper, we introduce PartSLIP++, an enhanced version designed to overcome the limitations of its predecessor. Our approach incorporates two major improvements. First, we utilize a pre-trained 2D segmentation model, SAM, to produce pixel-wise 2D segmentations, yielding more precise and accurate annotations than the 2D bounding boxes used in PartSLIP. Second, PartSLIP++ replaces the heuristic 3D conversion process with an innovative modified Expectation-Maximization algorithm. This algorithm conceptualizes 3D instance segmentation as unobserved latent variables, and then iteratively refines them through an alternating process of 2D-3D matching and optimization with gradient descent. Through extensive evaluations, we show that PartSLIP++ demonstrates better performance over PartSLIP in both low-shot 3D semantic and instance-based object part segmentation tasks. Code released at https://github.com/zyc00/PartSLIP2.
翻訳日:2023-12-07 17:24:51 公開日:2023-12-05
# 気象・気候データ理解のための基礎モデル:総合的な調査

Foundation Models for Weather and Climate Data Understanding: A Comprehensive Survey ( http://arxiv.org/abs/2312.03014v1 )

ライセンス: Link先を確認
Shengchao Chen, Guodong Long, Jing Jiang, Dikai Liu, and Chengqi Zhang(参考訳) 人工知能(AI)は急速に進化し続けており、地球と大気科学の領域は、深層学習(DL)の進歩的な発展によるデータ駆動モデルの採用がますます進んでいる。 特に、DL技術は、地球のシステムのカオス的・非線形的な側面をデコードし、気象や気候データを理解することで気候問題に対処するために広く利用されている。 より狭い時空間スケールでの特定のタスクにおけるカットエッジ性能は、最近DLによって達成されている。 大規模モデルの台頭、特に大規模言語モデル(LLM)は、様々な下流タスクで顕著な結果をもたらす微調整プロセスを可能にし、汎用AIの進歩を推進している。 しかし、天気と気候のための汎用AIの開発の初期段階は、まだナビゲート中です。 本稿では,気象・気候データに特化した最新のai方法論の徹底したタイムリーな概要を,時系列とテキストデータを中心に紹介する。 主な対象は、気象・気候データの種類、主要モデルアーキテクチャ、モデルスコープと応用、気象・気候のデータセットの4つです。 さらに,気象・気候データ理解のための基礎モデルの作成と応用に関して,この分野の課題を考察し,重要な知見を提供し,今後の研究に向けた詳細な道筋を提案する。 この包括的なアプローチは実践者に必要な知識を与え、この分野でかなりの進歩をもたらす。 我々の調査は、気象および気候データ理解のための大規模データ駆動モデルの研究における最新のブレークスルーを要約し、堅牢な基盤、現在の進歩、実践的応用、重要なリソース、そして将来的な研究機会を強調した。

As artificial intelligence (AI) continues to rapidly evolve, the realm of Earth and atmospheric sciences is increasingly adopting data-driven models, powered by progressive developments in deep learning (DL). Specifically, DL techniques are extensively utilized to decode the chaotic and nonlinear aspects of Earth systems, and to address climate challenges via understanding weather and climate data. Cutting-edge performance on specific tasks within narrower spatio-temporal scales has been achieved recently through DL. The rise of large models, specifically large language models (LLMs), has enabled fine-tuning processes that yield remarkable outcomes across various downstream tasks, thereby propelling the advancement of general AI. However, we are still navigating the initial stages of crafting general AI for weather and climate. In this survey, we offer an exhaustive, timely overview of state-of-the-art AI methodologies specifically engineered for weather and climate data, with a special focus on time series and text data. Our primary coverage encompasses four critical aspects: types of weather and climate data, principal model architectures, model scopes and applications, and datasets for weather and climate. Furthermore, in relation to the creation and application of foundation models for weather and climate data understanding, we delve into the field's prevailing challenges, offer crucial insights, and propose detailed avenues for future research. This comprehensive approach equips practitioners with the requisite knowledge to make substantial progress in this domain. Our survey encapsulates the most recent breakthroughs in research on large, data-driven models for weather and climate data understanding, emphasizing robust foundations, current advancements, practical applications, crucial resources, and prospective research opportunities.
翻訳日:2023-12-07 17:24:27 公開日:2023-12-05
# オープン量子物質における普遍性

Universality in driven open quantum matter ( http://arxiv.org/abs/2312.03073v1 )

ライセンス: Link先を確認
Lukas M. Sieberer, Michael Buchhold, Jamir Marino, and Sebastian Diehl(参考訳) 普遍性は強力な概念であり、多くの自由度を持つシステムにおいて質的かつ定量的な予測を可能にする。 これは、非平衡系を含む物理学のほとんど全ての分野において実現される。 ここでの焦点は、非平衡定常状態の特定のクラスにおけるその表出である:駆動的開量子物質である。 この分野の進展は、冷原子ガスのような合成量子システム上の光駆動量子材料から、ノイズの多い中間スケール量子時代の機能装置に至るまで、多くの蜂起プラットフォームによって加速されている。 これらの系は、微視的なスケールでは量子力学の法則に従うが、ハミルトンユニタリダイナミクスと非ユニタリ駆動と散逸が同時に存在するため、熱力学的平衡の詳細なバランスが崩れている。 課題は、この微視的な物理学をマクロ的な観測物に結びつけることであり、平衡状態の破れをユニークに目撃する普遍的な集合現象を同定することであり、したがって平衡状態が存在しないことである。 リンドブラッド・ケルディシュ場の理論の枠組みでは、駆動された定常状態から熱力学平衡を導出する原理について論じ、一方、対称性、状態の純度、スケーリング論といった統一概念がどのように実装されているかを示す。 次に、最初の実験的実現のサーベイを含むパラダイム的非平衡現象の新しい実現、これらの系で量子成分から作られる非平衡普遍性の新たな事例、フェルミオン系を含む平衡から真に量子現象の3つのクラスに構成された普遍的挙動の例を示す。 オープン量子物質に関する今後の研究の展望についても論じる。

Universality is a powerful concept, which enables making qualitative and quantitative predictions in systems with extensively many degrees of freedom. It finds realizations in almost all branches of physics, including in the realm of nonequilibrium systems. Our focus here is on its manifestations within a specific class of nonequilibrium stationary states: driven open quantum matter. Progress in this field is fueled by a number of uprising platforms ranging from light-driven quantum materials over synthetic quantum systems like cold atomic gases to the functional devices of the noisy intermediate scale quantum era. These systems share in common that, on the microscopic scale, they obey the laws of quantum mechanics, while detailed balance underlying thermodynamic equilibrium is broken due to the simultaneous presence of Hamiltonian unitary dynamics and nonunitary drive and dissipation. The challenge is then to connect this microscopic physics to macroscopic observables, and to identify universal collective phenomena that uniquely witness the breaking of equilibrium conditions, thus having no equilibrium counterparts. In the framework of a Lindblad-Keldysh field theory, we discuss on the one hand the principles delimiting thermodynamic equilibrium from driven open stationary states, and on the other hand show how unifying concepts such as symmetries, the purity of states, and scaling arguments are implemented. We then present instances of universal behavior structured into three classes: new realizations of paradigmatic nonequilibrium phenomena, including a survey of first experimental realizations; novel instances of nonequilibrium universality found in these systems made of quantum ingredients; and genuinely quantum phenomena out of equilibrium, including in fermionic systems. We also discuss perspectives for future research on driven open quantum matter.
翻訳日:2023-12-07 17:19:47 公開日:2023-12-05
# DGInStyle:画像拡散モデルとスティル化セマンティック制御によるドメイン一般化可能なセマンティックセマンティックセグメンテーション

DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control ( http://arxiv.org/abs/2312.03048v1 )

ライセンス: Link先を確認
Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov(参考訳) 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的なコンテンツを生成し、数ショットの微調整によってユーザーデータに特化し、セマンティックマップのような他のモダリティに出力を条件付けるという異常な能力を示した。 しかし、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できるだろうか? 我々は、この問題を自動運転の文脈で調査し、それを「はい」という音で答える。 DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。 まず,学習済みの LDM を,狭い領域内で意味的に制御された生成に限定する問題について検討する。 第2に, LDMの主対象への偏りを克服する多分解能ラテント融合法を設計する。 第3に,学習した意味制御に先行して豊かな生成物を付与するスタイルスワップ手法を提案する。 DGInStyleを用いて、街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、複数の人気のある自動運転データセット上でモデルを評価する。 提案手法はいくつかの領域一般化法の性能を連続的に向上させるが, 生成的拡張法を使わずに, 従来の最先端手法と比較して+2.5 mIoUで向上する。 ソースコードとデータセットはhttps://dginstyle.github.ioで入手できる。

Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding "yes". We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Third, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods, in some cases by +2.5 mIoU compared to the previous state-of-the-art method without our generative augmentation scheme. Source code and dataset are available at https://dginstyle.github.io .
翻訳日:2023-12-07 17:19:20 公開日:2023-12-05
# MagicStick:コントロールハンドル変換によるコントロール可能なビデオ編集

MagicStick: Controllable Video Editing via Control Handle Transformations ( http://arxiv.org/abs/2312.03047v1 )

ライセンス: Link先を確認
Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen(参考訳) テキストベースのビデオ編集は、最近、スタイルを変更したり、オブジェクトを同様の構造に置き換えることにかなりの関心を集めている。 さらに, 形状, 大きさ, 位置, 動きなどの特性もビデオで編集できることを実証した。 私たちのキーとなる洞察は、特定の内部特徴(例えば、オブジェクトのエッジマップや人間のポーズ)のキーフレーム変換が、他のフレームに容易に伝播して生成ガイダンスを提供することができるということです。 そこで我々は,抽出した内部制御信号の変換を利用して映像特性を編集する,制御可能なビデオ編集手法であるMagicStickを提案する。 具体的には,事前学習された画像拡散モデルと制御ネットの両方を時間次元に膨らませ,ローランク適応(lora)層を訓練し,特定のシーンに適合させる。 そして、編集において、インバージョンおよび編集フレームワークを実行する。 異なる方法では、反転と編集の空間的注意マップ間の注意リミックスにより、注意誘導のための反転と生成の両方に微調整制御ネットが導入される。 しかし,本手法は,事前学習したテキスト・画像モデルからビデオプロパティを編集する機能を示す最初の方法である。 統合フレームワークにおける多数の実例について実験を行った。 また,シェープアウェアテキストベースの編集と手作りモーションビデオ生成との比較を行い,従来の作品よりも優れた時間的一貫性と編集能力を示した。 コードとモデルは公開される予定だ。

Text-based video editing has recently attracted considerable interest in changing the style or replacing the objects with a similar structure. Beyond this, we demonstrate that properties such as shape, size, location, motion, etc., can also be edited in videos. Our key insight is that the keyframe transformations of the specific internal feature (e.g., edge maps of objects or human pose), can easily propagate to other frames to provide generation guidance. We thus propose MagicStick, a controllable video editing method that edits the video properties by utilizing the transformation on the extracted internal control signals. In detail, to keep the appearance, we inflate both the pretrained image diffusion model and ControlNet to the temporal dimension and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in editing, we perform an inversion and editing framework. Differently, finetuned ControlNet is introduced in both inversion and generation for attention guidance with the proposed attention remix between the spatial attention maps of inversion and editing. Yet succinct, our method is the first method to show the ability of video property editing from the pre-trained text-to-image model. We present experiments on numerous examples within our unified framework. We also compare with shape-aware text-based editing and handcrafted motion video generation, demonstrating our superior temporal consistency and editing capability than previous works. The code and models will be made publicly available.
翻訳日:2023-12-07 17:18:52 公開日:2023-12-05
# 数ショット分類のための効率的な微調整によるドメイン内分散合成

Diversified in-domain synthesis with efficient fine-tuning for few-shot classification ( http://arxiv.org/abs/2312.03046v1 )

ライセンス: Link先を確認
Victor G. Turrisi da Costa, Nicola Dall'Asen, Yiming Wang, Nicu Sebe, Elisa Ricci(参考訳) 画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。 少数ショット分類器の改良に向けた最近の研究の方向性は、最新のテキスト対画像生成モデルによって作成された合成画像でラベル付きサンプルを増強することである。 この傾向に従い,合成データを用いた単発学習における一般化課題に対処する新しい手法である,効率的な微調整(disef)による多角的ドメイン内合成を提案する。 DISEFは2つの主要コンポーネントから構成される。 まず,高度なキャプションモデルから得られる実サンプルとそのリッチセマンティクスを活用することで,ドメイン内サンプルの多様性を促進し,より一般化する新しいテキストから画像への拡張パイプラインを提案する。 次に,視覚言語モデルにおけるテキストと画像エンコーダの協調適応のための低ランク適応(lora)の利用を提案する。 提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端技術を確立する。 コードは \url{https://github.com/vturrisi/disef} で入手できる。

Few-shot image classification aims to learn an image classifier using only a small set of labeled examples per class. A recent research direction for improving few-shot classifiers involves augmenting the labelled samples with synthetic images created by state-of-the-art text-to-image generation models. Following this trend, we propose Diversified in-domain synthesis with efficient fine-tuning (DISEF), a novel approach which addresses the generalization challenge in few-shot learning using synthetic data. DISEF consists of two main components. First, we propose a novel text-to-image augmentation pipeline that, by leveraging the real samples and their rich semantics coming from an advanced captioning model, promotes in-domain sample diversity for better generalization. Second, we emphasize the importance of effective model fine-tuning in few-shot recognition, proposing to use Low-Rank Adaptation (LoRA) for joint adaptation of the text and image encoders in a Vision Language Model. We validate our method in ten different benchmarks, consistently outperforming baselines and establishing a new state-of-the-art for few-shot classification. Code is available at \url{https://github.com/vturrisi/disef}
翻訳日:2023-12-07 17:18:28 公開日:2023-12-05
# テキスト対画像生成のためのカスタマイズアシスタント

Customization Assistant for Text-to-image Generation ( http://arxiv.org/abs/2312.03045v1 )

ライセンス: Link先を確認
Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun(参考訳) トレーニング済みのテキスト・ツー・イメージ生成モデルのカスタマイズは、現実世界のアプリケーションにおいて大きな可能性を秘めているため、近年、大きな研究関心を集めている。 既存の手法では、単一のユーザ入力画像に含まれる新しい概念のためのクリエイティブなコンテンツを生成することができるが、その能力は完璧には程遠い。 特に、既存の方法の多くは、画像のテストにおいて生成モデルを微調整する必要がある。 既存のメソッドは微調整を必要としないが、パフォーマンスは不十分である。 さらに、ユーザとモデル間のインタラクションは、指示やキャプションといった指示的および記述的プロンプトに限定されている。 本研究では,事前訓練された大規模言語モデルと拡散モデルに基づくカスタマイズアシスタントを構築し,チューニング不要な方法でカスタマイズされた生成を行うだけでなく,ユーザフレンドリなインタラクションを可能にする。 具体的には,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。 得られたアシスタントは、テスト時間を微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。 大規模な実験を行い, 提案手法の有効性を実証し, 異なる領域にわたる競争結果を得た。

Customizing pre-trained text-to-image generation model has attracted massive research interest recently, due to its huge potential in real-world applications. Although existing methods are able to generate creative content for a novel concept contained in single user-input image, their capability are still far from perfection. Specifically, most existing methods require fine-tuning the generative model on testing images. Some existing methods do not require fine-tuning, while their performance are unsatisfactory. Furthermore, the interaction between users and models are still limited to directive and descriptive prompts such as instructions and captions. In this work, we build a customization assistant based on pre-trained large language model and diffusion model, which can not only perform customized generation in a tuning-free manner, but also enable more user-friendly interactions: users can chat with the assistant and input either ambiguous text or clear instruction. Specifically, we propose a new framework consists of a new model design and a novel training strategy. The resulting assistant can perform customized generation in 2-5 seconds without any test time fine-tuning. Extensive experiments are conducted, competitive results have been obtained across different domains, illustrating the effectiveness of the proposed method.
翻訳日:2023-12-07 17:18:07 公開日:2023-12-05
# REST: DNNにおけるグループロバストネスの強化とスパーストレーニング

REST: Enhancing Group Robustness in DNNs through Reweighted Sparse Training ( http://arxiv.org/abs/2312.03044v1 )

ライセンス: Link先を確認
Jiaxu Zhao, Lu Yin, Shiwei Liu, Meng Fang, Mykola Pechenizkiy(参考訳) ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。 しかし、ほとんどのデータグループで強いパフォーマンスを示したにもかかわらず、推論中に一部のマイノリティグループでうまく機能するのに苦労することが多い。 これは、過剰パラメータモデルが多くの \textit{bias-aligned} トレーニングサンプルから \textit{bias attribute} を学んだためである。 これらのバイアス特性は、ターゲット変数と強く刺激的に相関し、モデルが刺激的な相関(すなわち \textit{bias-conflicting})にバイアスされる。 この問題に対処するため,我々は,計算とメモリ効率を改善しつつバイアスデータの性能を向上させることを目的とした,新しい \textit{\textbf{re}weighted \textbf{s}parse \textbf{t}raining framework, \textit{\textbf{rest}} を提案する。 提案するrestフレームワークは,3つのデータセット上で実験的に検証され,偏りのないサブネットワークを探索する上での有効性を示す。 私たちは、RESTが急激な相関を持つ機能への依存を減らし、トレーニングや推論リソースを減らし、より広い範囲のデータグループのパフォーマンスを向上させることに気づきました。 このフレームワークは、バイアスデータ上でのDNNのパフォーマンスを改善するとともに、計算とメモリ効率を同時に向上するための有望なアプローチである。 急激な相関への依存を減らすことで、RESTはDNNの堅牢性を高め、その一般化能力を向上させる可能性がある。 コードは \url{https://github.com/zhao1402072392/REST} でリリースされる

The deep neural network (DNN) has been proven effective in various domains. However, they often struggle to perform well on certain minority groups during inference, despite showing strong performance on the majority of data groups. This is because over-parameterized models learned \textit{bias attributes} from a large number of \textit{bias-aligned} training samples. These bias attributes are strongly spuriously correlated with the target variable, causing the models to be biased towards spurious correlations (i.e., \textit{bias-conflicting}). To tackle this issue, we propose a novel \textbf{re}weighted \textbf{s}parse \textbf{t}raining framework, dubbed as \textit{\textbf{REST}}, which aims to enhance the performance of biased data while improving computation and memory efficiency. Our proposed REST framework has been experimentally validated on three datasets, demonstrating its effectiveness in exploring unbiased subnetworks. We found that REST reduces the reliance on spuriously correlated features, leading to better performance across a wider range of data groups with fewer training and inference resources. We highlight that the \textit{REST} framework represents a promising approach for improving the performance of DNNs on biased data, while simultaneously improving computation and memory efficiency. By reducing the reliance on spurious correlations, REST has the potential to enhance the robustness of DNNs and improve their generalization capabilities. Code is released at \url{https://github.com/zhao1402072392/REST}
翻訳日:2023-12-07 17:17:51 公開日:2023-12-05
# 合成領域をナビゲートする:ラパロスコープテキスト・画像生成のための拡散モデル

Navigating the Synthetic Realm: Harnessing Diffusion-based Models for Laparoscopic Text-to-Image Generation ( http://arxiv.org/abs/2312.03043v1 )

ライセンス: Link先を確認
Simeon Allmendinger, Patrick Hemmer, Moritz Queisner, Igor Sauer, Leopold M\"uller, Johannes Jakubik, Michael V\"ossing, Niklas K\"uhl(参考訳) 合成画像の最近の進歩は、外科画像の分野での追加データを得る機会を開く。 このデータは、コンピュータビジョンによる外科的応用と意思決定を支援する信頼できるサプリメントを提供することができる。 特に腹腔鏡やロボット支援手術のような画像誘導手術の分野は、合成画像データセットと仮想手術訓練法から強く恩恵を受けている。 本研究では,拡散型生成モデルを用いた短文プロンプトから合成腹腔鏡画像を生成するための直感的手法を提案する。 胆嚢の外科的切除を例に, 腹腔鏡下画像診断における最先端のテクスト・ツー・イメージ・アーキテクチャの使用例を示す。 忠実性と多様性に関する結果から,拡散モデルが画像誘導手術の分野におけるスタイルや意味に関する知識を得ることが示されている。 人間アセスメント調査(human assessment survey)による検証研究は、医療従事者が生成画像が66%の偽陽性率を引き起こすプール内の実際の画像を検出することで、われわれの合成データの現実的な性質を裏付けるものだ。 さらに、外科的動作を認識する最先端の機械学習モデルの研究は、最大5.20%の追加生成画像でトレーニングした場合の強化結果を示している。 全体的に、達成された画像品質は、外科的応用におけるコンピュータ生成画像の使用に寄与し、成熟への道筋を高める。

Recent advances in synthetic imaging open up opportunities for obtaining additional data in the field of surgical imaging. This data can provide reliable supplements supporting surgical applications and decision-making through computer vision. Particularly the field of image-guided surgery, such as laparoscopic and robotic-assisted surgery, benefits strongly from synthetic image datasets and virtual surgical training methods. Our study presents an intuitive approach for generating synthetic laparoscopic images from short text prompts using diffusion-based generative models. We demonstrate the usage of state-of-the-art text-to-image architectures in the context of laparoscopic imaging with regard to the surgical removal of the gallbladder as an example. Results on fidelity and diversity demonstrate that diffusion-based models can acquire knowledge about the style and semantics in the field of image-guided surgery. A validation study with a human assessment survey underlines the realistic nature of our synthetic data, as medical personnel detects actual images in a pool with generated images causing a false-positive rate of 66%. In addition, the investigation of a state-of-the-art machine learning model to recognize surgical actions indicates enhanced results when trained with additional generated images of up to 5.20%. Overall, the achieved image quality contributes to the usage of computer-generated images in surgical applications and enhances its path to maturity.
翻訳日:2023-12-07 17:17:21 公開日:2023-12-05
# 空間情報に関するllmの固有の制限

Inherent limitations of LLMs regarding spatial information ( http://arxiv.org/abs/2312.03042v1 )

ライセンス: Link先を確認
He Yan, Xinyao Hu, Xiangpeng Wan, Chengyu Huang, Kai Zou, Shiqi Xu(参考訳) ChatGPTのような大規模言語モデルで実証された自然言語処理能力の著しい進歩にもかかわらず、特に2Dおよび3D経路計画領域における空間情報の理解と処理能力は明らかに未発達である。 本稿では、自律走行車案内から視覚障害者支援技術まで幅広い分野において重要な分野である、空間推論やナビゲーション関連タスクにおけるChatGPTと類似モデルの性質的限界について検討する。 本稿では,本研究に用いたベースラインデータセットを補完する新しい評価フレームワークを提案する。 このデータセットは、空間点のプロット、二次元(2次元)空間での計画経路、三次元(3次元)環境における開発経路の3つの重要なタスクで構成されている。 chatgptの空間的推論能力を評価するために,このデータセットを特別に開発した。 評価の結果、モデルの能力と空間理解の限界に関する重要な知見が明らかになった。

Despite the significant advancements in natural language processing capabilities demonstrated by large language models such as ChatGPT, their proficiency in comprehending and processing spatial information, especially within the domains of 2D and 3D route planning, remains notably underdeveloped. This paper investigates the inherent limitations of ChatGPT and similar models in spatial reasoning and navigation-related tasks, an area critical for applications ranging from autonomous vehicle guidance to assistive technologies for the visually impaired. In this paper, we introduce a novel evaluation framework complemented by a baseline dataset, meticulously crafted for this study. This dataset is structured around three key tasks: plotting spatial points, planning routes in two-dimensional (2D) spaces, and devising pathways in three-dimensional (3D) environments. We specifically developed this dataset to assess the spatial reasoning abilities of ChatGPT. Our evaluation reveals key insights into the model's capabilities and limitations in spatial understanding.
翻訳日:2023-12-07 17:16:48 公開日:2023-12-05
# 変圧器型深層学習モデルによるバンコク地下地盤のボーリングパイル荷重変形予測

Transformer-Based Deep Learning Model for Bored Pile Load-Deformation Prediction in Bangkok Subsoil ( http://arxiv.org/abs/2312.03041v1 )

ライセンス: Link先を確認
Sompote Youwai and Chissanupong Thongnoo(参考訳) 本稿では,バンコク低地における大規模ボーリングパイルの荷重-変形挙動を予測するためのトランスフォーマーアーキテクチャに基づく新しい深層学習モデルを提案する。 モデルは、土壌プロファイルと杭の特徴をトークン化入力として符号化し、負荷変形曲線を出力として生成する。 このモデルはまた、前回のロード変形曲線のシーケンシャルデータをデコーダに組み込んで予測精度を向上させる。 このモデルは、ロード・デフォーメーション曲線の以前のシーケンシャルなデータをデコーダに組み込む。 このモデルでは負荷変形曲線予測の精度と一般化が良好であり、テストデータの平均絶対誤差は5.72%である。 モデルはまた, 異なる土壌, 杭条件, 杭断面, 杭長さ, タイプの杭のパラメトリック解析および設計最適化にも利用できる。

This paper presents a novel deep learning model based on the transformer architecture to predict the load-deformation behavior of large bored piles in Bangkok subsoil. The model encodes the soil profile and pile features as tokenization input, and generates the load-deformation curve as output. The model also incorporates the previous sequential data of load-deformation curve into the decoder to improve the prediction accuracy. The model also incorporates the previous sequential data of load-deformation curve into the decoder. The model shows a satisfactory accuracy and generalization ability for the load-deformation curve prediction, with a mean absolute error of 5.72% for the test data. The model could also be used for parametric analysis and design optimization of piles under different soil and pile conditions, pile cross section, pile length and type of pile.
翻訳日:2023-12-07 17:16:24 公開日:2023-12-05
# 非マルコフ量子チャネルにおけるデバイス独立量子保護直接通信

Device-Independent Quantum Secure Direct Communication Under Non-Markovian Quantum Channels ( http://arxiv.org/abs/2312.03040v1 )

ライセンス: Link先を確認
Pritam Roy, Subhankar Bera, Shashank Gupta and A. S. Majumdar(参考訳) デバイス非依存型量子セキュアダイレクト通信(DI-QSDC)は、デバイス不完全性とキー管理の問題に対処することを目的とした量子暗号における有望なプリミティブである。 しかし、量子チャネルのデコヒーリング効果による距離制限のような現実的な課題に取り組むためには、多大な努力が必要である。 本稿では,非マルコフ雑音によるDI-QSDCの性能向上効果について検討する。 振幅減衰と減音チャネルによってモデル化された2つの異なる環境力学を考えると、どちらの場合も非マルコフ性はDI-QSDCタスクの3つのベンチマーク性能基準でマルコフ力学よりも大幅に改善される。 具体的には、非マルコフ雑音は (i)ベル違反によるプロトコルセキュリティの向上。 (ii)量子ビットエラー率を低下させ、 (iii)秘密通信の容量を増やすことにより、より広い通信距離を可能にする。

Device-independent quantum secure direct communication (DI-QSDC) is a promising primitive in quantum cryptography aimed towards addressing the problems of device imperfections and key management. However, significant effort is required to tackle practical challenges such as the distance limitation due to decohering effects of quantum channels. Here, we explore the constructive effect of non-Markovian noise to improve the performance of DI-QSDC. Considering two different environmental dynamics modeled by the amplitude damping and the dephasing channels, we show that for both cases non-Markovianty leads to a considerable improvement over Markovian dynamics in terms of three benchmark performance criteria of the DI-QSDC task. Specifically, we find that non-Markovian noise (i) enhances the protocol security measured by Bell-violation, (ii) leads to a lower quantum bit error rate, and (iii) enables larger communication distances by increasing the capacity of secret communication.
翻訳日:2023-12-07 17:15:58 公開日:2023-12-05
# コンテキスト帯域による層と頭部のフレキシビリティを有するサンプルベース動的階層変換器

Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit ( http://arxiv.org/abs/2312.03038v1 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに柔軟であり、トレーニングや推論の費用がかかる。 そこで,本稿では,サンプルベース動的階層型トランスフォーマ (dht) モデルを提案する。 層数と頭数を決定するために、組合せトンプソンサンプリング(英語版)を展開する間、統一された信頼度バウンドを使い、その数に応じて特定の頭の組み合わせを選択する。 推論のみのためにトレーニングされたネットワークを圧縮することに焦点を当てた以前の作業とは異なり、dhtはトレーニング中に基盤となるネットワークアーキテクチャを適応的に最適化するだけでなく、効率的な推論のための柔軟なネットワークを持つ。 私たちの知る限りでは、これは動的システムを実装する追加の補助ニューラルネットワークを使わずに、初めて包括的なデータ駆動動的トランスフォーマーである。 実験結果によると、精度の低下を最小限に抑えつつ、トレーニングと推論の両方で最大74%の計算節約を達成している。

Transformer requires a fixed number of layers and heads which makes them inflexible to the complexity of individual samples and expensive in training and inference. To address this, we propose a sample-based Dynamic Hierarchical Transformer (DHT) model whose layers and heads can be dynamically configured with single data samples via solving contextual bandit problems. To determine the number of layers and heads, we use the Uniform Confidence Bound while we deploy combinatorial Thompson Sampling in order to select specific head combinations given their number. Different from previous work that focuses on compressing trained networks for inference only, DHT is not only advantageous for adaptively optimizing the underlying network architecture during training but also has a flexible network for efficient inference. To the best of our knowledge, this is the first comprehensive data-driven dynamic transformer without any additional auxiliary neural networks that implement the dynamic system. According to the experiment results, we achieve up to 74% computational savings for both training and inference with a minimal loss of accuracy.
翻訳日:2023-12-07 17:15:32 公開日:2023-12-05
# SEVA:人間と機械の視覚的抽象化の整合性を評価するスケッチを活用する

SEVA: Leveraging sketches to evaluate alignment between human and machine visual abstraction ( http://arxiv.org/abs/2312.03035v1 )

ライセンス: Link先を確認
Kushin Mukherjee and Holly Huey and Xuanchen Lu and Yael Vinker and Rio Aguina-Kang and Ariel Shamir and Judith E. Fan(参考訳) スケッチは、スパースだが有意義な抽象イメージを作成するための強力なツールである。 スケッチ理解は、自然な視覚入力に対するスケッチのスパース性に対する堅牢性が必要であり、また、スケッチが複数の意味を確実に誘発できるため、セマンティックな曖昧さに対する耐性を必要とするため、汎用視覚アルゴリズムにとって基本的な課題となる。 現在のビジョンアルゴリズムは、様々な視覚タスクで高いパフォーマンスを達成しているが、人間のようにスケッチをどの程度理解しているかは不明だ。 本稿では,異なる時間制約下で生成された128のオブジェクト概念の,約90Kの人為的なスケッチを含む新しいベンチマークデータセットSEVAを紹介する。 我々は,これらのスケッチで表現されたターゲット概念を正しく識別し,同一のスケッチ認識タスクにおいてヒトの反応パターンに強く適合する応答を生成する能力について,最先端の視覚アルゴリズム群の評価を行った。 人間のスケッチ認識性能を良く予測するビジョンアルゴリズムは、スケッチの意味に関する人間の不確かさをよく近似するが、モデルと人間の反応パターンの間にはかなりのギャップがある。 近年開発されたスケッチ生成アルゴリズム (Vinker et al., 2022) を用いて, 空間的に異なるスケッチを生成することにより, 人間の視覚的抽象化をエミュレートするモデルの可能性について検討した。 このデータセットと評価プロトコルの公開リリースによって,人間の視覚的抽象化能力が向上したアルゴリズムへの進展が促進されることを期待する。

Sketching is a powerful tool for creating abstract images that are sparse but meaningful. Sketch understanding poses fundamental challenges for general-purpose vision algorithms because it requires robustness to the sparsity of sketches relative to natural visual inputs and because it demands tolerance for semantic ambiguity, as sketches can reliably evoke multiple meanings. While current vision algorithms have achieved high performance on a variety of visual tasks, it remains unclear to what extent they understand sketches in a human-like way. Here we introduce SEVA, a new benchmark dataset containing approximately 90K human-generated sketches of 128 object concepts produced under different time constraints, and thus systematically varying in sparsity. We evaluated a suite of state-of-the-art vision algorithms on their ability to correctly identify the target concept depicted in these sketches and to generate responses that are strongly aligned with human response patterns on the same sketch recognition task. We found that vision algorithms that better predicted human sketch recognition performance also better approximated human uncertainty about sketch meaning, but there remains a sizable gap between model and human response patterns. To explore the potential of models that emulate human visual abstraction in generative tasks, we conducted further evaluations of a recently developed sketch generation algorithm (Vinker et al., 2022) capable of generating sketches that vary in sparsity. We hope that public release of this dataset and evaluation protocol will catalyze progress towards algorithms with enhanced capacities for human-like visual abstraction.
翻訳日:2023-12-07 17:13:31 公開日:2023-12-05
# LiDARによる人物再識別

LiDAR-based Person Re-identification ( http://arxiv.org/abs/2312.03033v1 )

ライセンス: Link先を確認
Wenxuan Guo, Zhiyu Pan, Yingping Liang, Ziheng Xi, Zhi Chen Zhong, Jianjiang Feng, Jie Zhou(参考訳) カメラベースの人物識別(ReID)システムは、公共セキュリティの分野で広く応用されている。 しかしながら、カメラは人間の3次元形態情報の認識を欠くことが多く、不適切な照明、複雑な背景、個人のプライバシーなど、様々な制限を受けやすい。 本稿では,3次元形状の特徴の抽出に事前学習戦略を用いたlidarベースのreidフレームワークであるreid3dを提案し,包括的特徴の抽出にグラフに基づく補完的強調エンコーダを導入する。 LiDARデータセットが不足しているため、LiDARベースの最初の人物ReIDデータセットであるLReIDを構築し、自然条件の異なる屋外シーンで収集する。 さらに,lreid-sync(lreid-sync)という,ポイントクラウド補完や形状パラメータ学習といったタスクを事前にトレーニングするために設計された歩行者データセットも紹介する。 LReIDに関する大規模な実験により、ReID3Dは94.0のランク1の精度で例外的な性能を達成し、人物のReIDタスクに対処するLiDARの有意義な可能性を強調している。 我々の知る限り、私たちはLiDARベースのReIDのためのソリューションを最初に提案しました。 コードとデータセットは間もなくリリースされる。

Camera-based person re-identification (ReID) systems have been widely applied in the field of public security. However, cameras often lack the perception of 3D morphological information of human and are susceptible to various limitations, such as inadequate illumination, complex background, and personal privacy. In this paper, we propose a LiDAR-based ReID framework, ReID3D, that utilizes pre-training strategy to retrieve features of 3D body shape and introduces Graph-based Complementary Enhancement Encoder for extracting comprehensive features. Due to the lack of LiDAR datasets, we build LReID, the first LiDAR-based person ReID dataset, which is collected in several outdoor scenes with variations in natural conditions. Additionally, we introduce LReID-sync, a simulated pedestrian dataset designed for pre-training encoders with tasks of point cloud completion and shape parameter learning. Extensive experiments on LReID show that ReID3D achieves exceptional performance with a rank-1 accuracy of 94.0, highlighting the significant potential of LiDAR in addressing person ReID tasks. To the best of our knowledge, we are the first to propose a solution for LiDAR-based ReID. The code and datasets will be released soon.
翻訳日:2023-12-07 17:13:03 公開日:2023-12-05
# ゼロショットポイントクラウド登録

Zero-Shot Point Cloud Registration ( http://arxiv.org/abs/2312.03032v1 )

ライセンス: Link先を確認
Weijie Wang, Guofeng Mei, Bin Ren, Xiaoshui Huang, Fabio Poiesi, Luc Van Gool, Nicu Sebe, Bruno Lepri(参考訳) 学習ベースのポイントクラウド登録アプローチは、従来のものを大きく上回っている。 しかし、通常は特定のデータセットに関する広範なトレーニングが必要です。 本稿では,ポイントクラウドデータセットのトレーニングを不要とする,最初のゼロショットポイントクラウド登録手法を提案する。 zeroregの基盤は、キーポイントからポイントクラウドへの画像特徴の新たな転送であり、3次元幾何学的近傍からの情報を集約することで強化されている。 具体的には,凍結した2Dバックボーンを用いて2次元画像ペアからキーポイントと特徴を抽出する。 これらの機能は3dで投影され、パッチは隣接点を検索して構築される。 パラメータフリーな幾何デコーダを用いて各点の幾何学的特徴と視覚的特徴を統合する。 その後、点雲間の対応を決定するタスクを最適な輸送問題として定式化する。 zeroregの広範な評価は、従来の方法と学習に基づく方法の両方に対する競争力を示している。 3DMatch、3DLoMatch、ScanNetなどのベンチマークでは、ZeroRegはそれぞれ84%、46%、75%という印象的なリコール比(RR)を達成した。

Learning-based point cloud registration approaches have significantly outperformed their traditional counterparts. However, they typically require extensive training on specific datasets. In this paper, we propose , the first zero-shot point cloud registration approach that eliminates the need for training on point cloud datasets. The cornerstone of ZeroReg is the novel transfer of image features from keypoints to the point cloud, enriched by aggregating information from 3D geometric neighborhoods. Specifically, we extract keypoints and features from 2D image pairs using a frozen pretrained 2D backbone. These features are then projected in 3D, and patches are constructed by searching for neighboring points. We integrate the geometric and visual features of each point using our novel parameter-free geometric decoder. Subsequently, the task of determining correspondences between point clouds is formulated as an optimal transport problem. Extensive evaluations of ZeroReg demonstrate its competitive performance against both traditional and learning-based methods. On benchmarks such as 3DMatch, 3DLoMatch, and ScanNet, ZeroReg achieves impressive Recall Ratios (RR) of over 84%, 46%, and 75%, respectively.
翻訳日:2023-12-07 17:12:42 公開日:2023-12-05
# 風刺的なpythonスクリプトのプログラミングによるコンピューティングアーティファクトの評価

Critiquing Computing Artifacts through Programming Satirical Python Scripts ( http://arxiv.org/abs/2312.03090v1 )

ライセンス: Link先を確認
Aadarsh Padiyath, Tamara Nelson-Fromm, Barbara Ericson(参考訳) コンピューティングアーティファクトは、限界化された学生を除外する傾向があるため、批判と変更のための新しい方法を作成しなければなりません。 文化的応答性コンピューティング(crc)教育の一環として,アーティファクトを批判する"satirical programming"の可能性を検討した。 3つのbpcプログラム(n=51)について1時間セッションを行った。 風刺的なPythonスクリプトの例を示し、Pythonの要素を使ってスクリプトを作成しました。 学生の50%が共同で風刺的なスクリプトを作成し、80%が彼らの"glitches"を風刺的なpythonスクリプトに変換するのを楽しんだ。

Computing artifacts tend to exclude marginalized students, so we must create new methods to critique and change them. We studied the potential for "satirical programming" to critique artifacts as part of culturally responsive computing (CRC) pedagogy. We conducted a one-hour session for three different BPC programs (N=51). We showed an example of a satirical Python script and taught elements of Python to create a script. Our findings suggest this method is a promising CRC pedagogical approach: 50% of marginalized students worked together to create a satirical script, and 80% enjoyed translating their "glitches" into satirical Python scripts.
翻訳日:2023-12-07 17:05:27 公開日:2023-12-05
# インテリジェンス/安全批判的応用におけるマルチモーダル知識抽出と解析のためのLLM

LLMs for Multi-Modal Knowledge Extraction and Analysis in Intelligence/Safety-Critical Applications ( http://arxiv.org/abs/2312.03088v1 )

ライセンス: Link先を確認
Brett Israelsen, Soumalya Sarkar(参考訳) この進歩は加速しており、様々なベンチマークによって測定されたその能力は人間のものに近づき始めている。 さまざまなアプリケーションでこのようなモデルを使用するという強い要求があるが、未解決の脆弱性と制限のため、インテリジェンスや安全クリティカルなアプリケーションに適用する前に、大きな注意を払う必要がある。 本稿は,LLM評価と脆弱性に関する最近の文献をレビューし,現在の研究状況の総合化と,これらの技術を知能・安全クリティカルな応用に活用するための最重要課題について述べる。 脆弱性は10のハイレベルカテゴリに分解され、LLMのハイレベルライフサイクルにオーバーレイされる。 緩和策の一般的なカテゴリを概説する。

Large Language Models have seen rapid progress in capability in recent years; this progress has been accelerating and their capabilities, measured by various benchmarks, are beginning to approach those of humans. There is a strong demand to use such models in a wide variety of applications but, due to unresolved vulnerabilities and limitations, great care needs to be used before applying them to intelligence and safety-critical applications. This paper reviews recent literature related to LLM assessment and vulnerabilities to synthesize the current research landscape and to help understand what advances are most critical to enable use of of these technologies in intelligence and safety-critical applications. The vulnerabilities are broken down into ten high-level categories and overlaid onto a high-level life cycle of an LLM. Some general categories of mitigations are reviewed.
翻訳日:2023-12-07 17:05:16 公開日:2023-12-05
# ScAR:LiDARオブジェクト検出のための逆ロバストネスのスケーリング

ScAR: Scaling Adversarial Robustness for LiDAR Object Detection ( http://arxiv.org/abs/2312.03085v1 )

ライセンス: Link先を確認
Xiaohu Lu and Hayder Radha(参考訳) モデルの敵対的堅牢性は、入力データに対する小さな摂動という形で敵の攻撃に抵抗する能力である。 Fast Sign Gradient Method (FSGM) やProjected Gradient Descend (PGD) のような普遍的敵攻撃法はLiDARオブジェクト検出に人気があるが、タスク固有の敵攻撃に比べてしばしば不十分である。 さらに、これらの普遍的手法は一般に、実際の応用では入手が困難であるモデルの情報への無制限アクセスを必要とする。 これらの制約に対処するため、LiDARオブジェクト検出のためのブラックボックススケーリング適応ロバストネス(ScAR)法を提案する。 KITTI,Waymo,nuScenesなどの3Dオブジェクト検出データセットの統計特性を解析した結果,モデルの予測は3Dインスタンスのスケーリングに敏感であることが判明した。 本稿では,モデル認識攻撃,分布認識攻撃,ブラインド攻撃の3つのブラックボックススケーリング攻撃手法を提案する。 また,これら3つの対向攻撃に対するモデルの堅牢性を改善するために,対向スケーリングの例を生成する戦略も導入する。 異なる3次元オブジェクト検出アーキテクチャの公開データセットにおける他の手法との比較により,提案手法の有効性が示された。

The adversarial robustness of a model is its ability to resist adversarial attacks in the form of small perturbations to input data. Universal adversarial attack methods such as Fast Sign Gradient Method (FSGM) and Projected Gradient Descend (PGD) are popular for LiDAR object detection, but they are often deficient compared to task-specific adversarial attacks. Additionally, these universal methods typically require unrestricted access to the model's information, which is difficult to obtain in real-world applications. To address these limitations, we present a black-box Scaling Adversarial Robustness (ScAR) method for LiDAR object detection. By analyzing the statistical characteristics of 3D object detection datasets such as KITTI, Waymo, and nuScenes, we have found that the model's prediction is sensitive to scaling of 3D instances. We propose three black-box scaling adversarial attack methods based on the available information: model-aware attack, distribution-aware attack, and blind attack. We also introduce a strategy for generating scaling adversarial examples to improve the model's robustness against these three scaling adversarial attacks. Comparison with other methods on public datasets under different 3D object detection architectures demonstrates the effectiveness of our proposed method.
翻訳日:2023-12-07 17:05:01 公開日:2023-12-05
# Dual-VQE:基底状態エネルギーを下げる量子アルゴリズム

Dual-VQE: A quantum algorithm to lower bound the ground-state energy ( http://arxiv.org/abs/2312.03083v1 )

ライセンス: Link先を確認
Hanna Westerheim, Jingxuan Chen, Zo\"e Holmes, Ivy Luo, Theshani Nuradha, Dhrumil Patel, Soorya Rethinasamy, Kathie Wang, and Mark M. Wilde(参考訳) 変分量子固有解法(VQE)は、ハミルトンの基底状態エネルギーを上界で推定するハイブリッド量子-古典的変分法である。 量子コンピュータがより強力になり、古典的なブルートフォースシミュレーションの限界を超えるにつれて、量子コンピュータが生成する解の質を評価することが重要である。 本稿では、基底状態エネルギーの低バウンド推定を生成する双変分量子固有解法(dual-vqe)を提案する。 理想的には、VQE上界と双対VQE下界は基底状態エネルギーの真の最適値を含む区間を形成する。 双対VQEの背景にある考え方は、基底状態最適化問題を制約付き最大化問題として書き直すために半定プログラミング双対性を採用することである。 古典的生成モデルとともに凸結合アンサッツを使用する場合、双対VQEの目的関数を評価するために必要な量子計算資源は、VQEの目的関数よりも大きくはならない。 逆場IsingモデルにおけるデュアルVQEの性能をシミュレートし、例えば、デュアルVQEトレーニングはVQEよりも遅く、ノイズが多いが、オーダー10^{-2}$の誤差で真の値にアプローチすることを発見した。

The variational quantum eigensolver (VQE) is a hybrid quantum--classical variational algorithm that produces an upper-bound estimate of the ground-state energy of a Hamiltonian. As quantum computers become more powerful and go beyond the reach of classical brute-force simulation, it is important to assess the quality of solutions produced by them. Here we propose a dual variational quantum eigensolver (dual-VQE) that produces a lower-bound estimate of the ground-state energy. As such, VQE and dual-VQE can serve as quality checks on their solutions; in the ideal case, the VQE upper bound and the dual-VQE lower bound form an interval containing the true optimal value of the ground-state energy. The idea behind dual-VQE is to employ semi-definite programming duality to rewrite the ground-state optimization problem as a constrained maximization problem, which itself can be bounded from below by an unconstrained optimization problem to be solved by a variational quantum algorithm. When using a convex combination ansatz in conjunction with a classical generative model, the quantum computational resources needed to evaluate the objective function of dual-VQE are no greater than those needed for that of VQE. We simulated the performance of dual-VQE on the transverse-field Ising model, and found that, for the example considered, while dual-VQE training is slower and noisier than VQE, it approaches the true value with error of order $10^{-2}$.
翻訳日:2023-12-07 17:04:38 公開日:2023-12-05
# LooseControl: 汎用深度コンディショニングのためのリフティング制御ネット

LooseControl: Lifting ControlNet for Generalized Depth Conditioning ( http://arxiv.org/abs/2312.03079v1 )

ライセンス: Link先を確認
Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka(参考訳) 拡散画像生成のための一般化深度条件付けを可能にするLooseControlを提案する。 深度条件付き画像生成のためのSOTAであるControlNetは、顕著な結果をもたらすが、ガイダンスのための詳細な深度マップへのアクセスに依存する。 このような正確な深度マップを作成することは、多くのシナリオにおいて難しい。 本稿では,多くの新しいコンテンツ作成ワークフローを実現する深層コンディショニングの一般化版を提案する。 具体的には、(c1)シーン境界制御により、境界条件だけでシーンをゆるやかに指定でき、(c2) オブジェクトの正確な形状や外観ではなく、対象オブジェクトのレイアウト位置を特定する3dボックス制御が可能となる。 LooseControlを使用して、ユーザーはテキストガイダンスとともに、シーン境界とプライマリオブジェクトの位置のみを指定することで、複雑な環境(部屋、ストリートビューなど)を作成することができる。 e1) 3dボックス編集により、画像のスタイルを凍結しながら、ボックスを変更したり、追加したり、削除したりすることで、画像を洗練することができる。 これにより、編集されたボックスによって誘導される変更とは別に、最小限の変更が得られる。 (E2) 属性編集は、全体のオブジェクト密度や特定のオブジェクトなど、シーンの特定の側面を変更することができる編集方向を提案する。 大規模試験とベースラインとの比較により,本手法の汎用性を示した。 LooseControlは複雑な環境を簡単に作成し、他の形式のガイダンスチャネルに拡張するための重要な設計ツールになるだろうと考えています。 コードと詳細はhttps://shariqfarooq123.github.io/loose-control/で確認できる。

We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
翻訳日:2023-12-07 17:04:09 公開日:2023-12-05
# 地平線から遠く離れた島

Islands Far Outside the Horizon ( http://arxiv.org/abs/2312.03078v1 )

ライセンス: Link先を確認
Raphael Bousso and Geoff Penington(参考訳) 半古典重力の絡み合った島にある情報は、遠方の放射から非摂動的に再構成することができ、実効場理論の過激な崩壊を意味する。 この現象は、地平線を張ったブラックホールの外側でよく起こる。 4次元シュワルツシルトブラックホールの大角運動量ホーキングモードに関連する島を計算した。 これらのモードは典型的にはブラックホールに逆戻りするが、相対論的弦やより抽象的には時間的な管定理を用いて構築された漸近境界作用素によって無限大に抽出することができる。 驚くべきことに、それらの島は地平線外から$\sqrt{\ell_p r_{\rm hor}}$のオーダーの距離を突き出すことができる。 これはプランクスケールの$\ell_p$よりもパラメトリックに大きく、超大質量ブラックホールのボーア半径に匹敵する。 したがって、原理的には、遠方の観測者は、ブラックホール情報パラドックスが相補性やファイアウォールによって解決されるか否かを実験的に判定することができる。

Information located in an entanglement island in semiclassical gravity can be nonperturbatively reconstructed from distant radiation, implying a radical breakdown of effective field theory. We show that this occurs well outside of the black hole stretched horizon. We compute the island associated to large-angular momentum Hawking modes of a four-dimensional Schwarzschild black hole. These modes typically fall back into the black hole but can be extracted to infinity by relativistic strings or, more abstractly, by asymptotic boundary operators constructed using the timelike tube theorem. Remarkably, we find that their island can protrude a distance of order $\sqrt{\ell_p r_{\rm hor}}$ outside the horizon. This is parametrically larger than the Planck scale $\ell_p$ and is comparable to the Bohr radius for supermassive black holes. Therefore, in principle, a distant observer can determine experimentally whether the black hole information information paradox is resolved by complementarity, or by a firewall.
翻訳日:2023-12-07 17:03:43 公開日:2023-12-05
# 理学療法士の疲労に関する臨床的考察

Clinical Notes Reveal Physician Fatigue ( http://arxiv.org/abs/2312.03077v1 )

ライセンス: Link先を確認
Chao-Chun Hsu, Ziad Obermeyer, Chenhao Tan(参考訳) 医師は患者のメモを書きます。 そうすることで、彼らは自分自身について多くを明らかにします。 129,228件の救急室訪問のデータを使って、疲労した医師が書いたメモを識別するモデルを訓練した。 ホールドアウトセットでは、モデルがこれらの高負荷の医師によって書かれたメモを正確に識別し、他の高負荷設定で書かれたノートをフラグする。 モデル予測は、少なくとも1つの重要な指標において、より悪い意思決定と相関する: 心臓発作に対するテストの利得は、モデル予測疲労の標準偏差の増加とともに18%低い。 最後に、黒とヒスパニックの患者について書かれたメモは、白人よりも12%と21%高い疲労を予測していることを示している。 これらの結果は、大きな言語モデル(LLM)に重要な意味を持つ。 我々のモデルは、疲労した医師がより予測可能なメモを書くことを示している。 意外なことに、単語予測がLSMの動作のコアであるため、LSMで書かれたノートは実際の医師のノートよりも17%高い疲労を予測している。 これは、LLMがまだ完全に理解されていない生成テキストに歪みをもたらす可能性があることを示している。

Physicians write notes about patients. In doing so, they reveal much about themselves. Using data from 129,228 emergency room visits, we train a model to identify notes written by fatigued physicians -- those who worked 5 or more of the prior 7 days. In a hold-out set, the model accurately identifies notes written by these high-workload physicians, and also flags notes written in other high-fatigue settings: on overnight shifts, and after high patient volumes. Model predictions also correlate with worse decision-making on at least one important metric: yield of testing for heart attack is 18% lower with each standard deviation increase in model-predicted fatigue. Finally, the model indicates that notes written about Black and Hispanic patients have 12% and 21% higher predicted fatigue than Whites -- larger than overnight vs. daytime differences. These results have an important implication for large language models (LLMs). Our model indicates that fatigued doctors write more predictable notes. Perhaps unsurprisingly, because word prediction is the core of how LLMs work, we find that LLM-written notes have 17% higher predicted fatigue than real physicians' notes. This indicates that LLMs may introduce distortions in generated text that are not yet fully understood.
翻訳日:2023-12-07 17:03:26 公開日:2023-12-05
# 一般計算による量子機械学習の利点

Advantage of Quantum Machine Learning from General Computational Advantages ( http://arxiv.org/abs/2312.03057v1 )

ライセンス: Link先を確認
Hayata Yamasaki, Natsuto Isogai, Mio Murao(参考訳) 量子機械学習(qml:quantum machine learning)の全体的なマイルストーンは、古典データによる教師付き学習で表される一般的な学習タスクを加速する、すべての可能な古典的学習方法に対するqmlの利点を示すことである。 しかしながら、教師付き学習におけるqmlの証明可能な利点は、特定の量子アルゴリズム、すなわちショアのアルゴリズムを利用するように設計された学習タスクでのみ知られている。 ここでは、一般的な量子計算の利点に基づくqmlの証明可能な利点を提供するために、古典データを用いた教師付き学習タスクの、前例のない広範なファミリーを明示的に構築する。 我々の学習課題は、任意の量子アルゴリズムによって多くの入力に対して多項式時間で効率的に計算できる関数の一般クラスを実行することで実現可能である。 任意の多項式時間古典学習法において,この学習課題を達成することの難しさを証明する。 また,この学習課題を実証するために,古典データ作成のためのプロトコルを明らかにする。 これらの結果は、QMLの利点を実験的に実証するために、コンピューティング機能における様々な量子上の利点を利用するためのルートを開く。

An overarching milestone of quantum machine learning (QML) is to demonstrate the advantage of QML over all possible classical learning methods in accelerating a common type of learning task as represented by supervised learning with classical data. However, the provable advantages of QML in supervised learning have been known so far only for the learning tasks designed for using the advantage of specific quantum algorithms, i.e., Shor's algorithms. Here we explicitly construct an unprecedentedly broader family of supervised learning tasks with classical data to offer the provable advantage of QML based on general quantum computational advantages, progressing beyond Shor's algorithms. Our learning task is feasibly achievable by executing a general class of functions that can be computed efficiently in polynomial time for a large fraction of inputs by arbitrary quantum algorithms but not by any classical algorithm. We prove the hardness of achieving this learning task for any possible polynomial-time classical learning method. We also clarify protocols for preparing the classical data to demonstrate this learning task in experiments. These results open routes to exploit a variety of quantum advantages in computing functions for the experimental demonstration of the advantage of QML.
翻訳日:2023-12-07 17:03:08 公開日:2023-12-05
# 損失欠陥と位相境界状態の相互作用によるブレイドと高次例外点

Braids and Higher-order Exceptional Points from the Interplay Between Lossy Defects and Topological Boundary States ( http://arxiv.org/abs/2312.03054v1 )

ライセンス: Link先を確認
Zi-Jian Li, Gabriel Cardoso, Emil J. Bergholtz, Qing-Dong Jiang(参考訳) 局所的損失欠陥によるSu-Schrieffer-Heeger鎖の摂動が高次例外点(HOEP)につながることを示す。 欠陥の位置によって、3階と4階の例外点(EP3sとEP4s)はハミルトンパラメータの空間に現れる。 一方、パラメータ空間における例外的直線 (EL) の非アベル的ブレイディング特性によって生じる。 すなわち、HOEPは相互に非可換なELの交差点に位置する。 一方、非エルミート的欠陥によって引き起こされるエッジ状態の非局在化が欠陥状態とそれらをハイブリダイズするという事実から、そのような特別な交叉が生じることを示す。 これらはEP3に結合する。 欠陥が鎖の中間点にあるとき、全スペクトルの特別な対称性はep4に導くことができる。 このようにして、本モデルは位相相の非エルミート摂動の多バンド構造における興味深い非アーベル位相の性質の出現を示す。

We show that the perturbation of the Su-Schrieffer-Heeger chain by a localized lossy defect leads to higher-order exceptional points (HOEPs). Depending on the location of the defect, third- and fourth-order exceptional points (EP3s & EP4s) appear in the space of Hamiltonian parameters. On the one hand, they arise due to the non-Abelian braiding properties of exceptional lines (ELs) in parameter space. Namely, the HOEPs lie at intersections of mutually non-commuting ELs. On the other hand, we show that such special intersections happen due to the fact that the delocalization of edge states, induced by the non-Hermitian defect, hybridizes them with defect states. These can then coalesce together into an EP3. When the defect lies at the midpoint of the chain, a special symmetry of the full spectrum can lead to an EP4. In this way, our model illustrates the emergence of interesting non-Abelian topological properties in the multiband structure of non-Hermitian perturbations of topological phases.
翻訳日:2023-12-07 17:02:46 公開日:2023-12-05
# DiffusionPCR:ロバスト多段階クラウド登録のための拡散モデル

DiffusionPCR: Diffusion Models for Robust Multi-Step Point Cloud Registration ( http://arxiv.org/abs/2312.03053v1 )

ライセンス: Link先を確認
Zhi Chen, Yufan Ren, Tong Zhang, Zheng Dang, Wenbing Tao, Sabine S\"usstrunk, Mathieu Salzmann(参考訳) ポイントクラウド登録(PCR)は、2つのポイントクラウド間の相対的な剛性変換を推定する。 本稿では, PCR を拡散確率過程として定式化し, ノイズ変換を基礎的真理にマッピングする。 しかし、pcrに対する拡散モデルの使用には、生成モデルから識別タスクへの適応や、前段階から推定された非線形変換の活用など、非自明な課題がある。 拡散モデルを訓練して純粋なノイズを直接基底真理にマッピングするのではなく、市販のpcrモデルの予測を基底真理にマッピングする。 オフ・ザ・シェルフモデルの予測はしばしば不完全であり、特に2点の雲が重なり合いが低く、したがって真の剛性変換のノイズのあるバージョンと見なされる場合においてである。 さらに, 回転行列を球面線形空間に変換し, 試料間の補間を行い, 剛性変換を補助情報に変換し, 逆過程における最終ステップ推定を暗黙的に活用する。 その結果、時間ステップで条件付きで、デノナイジングモデルはステップ間の精度の向上に適応し、登録を洗練させる。 3DMatch と 3DLoMatch におけるDiffusionPCR の有効性を示し, 現状の登録リコール率 (95.3%/81.6%) を得た。 コードは公開時に公開される。

Point Cloud Registration (PCR) estimates the relative rigid transformation between two point clouds. We propose formulating PCR as a denoising diffusion probabilistic process, mapping noisy transformations to the ground truth. However, using diffusion models for PCR has nontrivial challenges, such as adapting a generative model to a discriminative task and leveraging the estimated nonlinear transformation from the previous step. Instead of training a diffusion model to directly map pure noise to ground truth, we map the predictions of an off-the-shelf PCR model to ground truth. The predictions of off-the-shelf models are often imperfect, especially in challenging cases where the two points clouds have low overlap, and thus could be seen as noisy versions of the real rigid transformation. In addition, we transform the rotation matrix into a spherical linear space for interpolation between samples in the forward process, and convert rigid transformations into auxiliary information to implicitly exploit last-step estimations in the reverse process. As a result, conditioned on time step, the denoising model adapts to the increasing accuracy across steps and refines registrations. Our extensive experiments showcase the effectiveness of our DiffusionPCR, yielding state-of-the-art registration recall rates (95.3%/81.6%) on 3DMatch and 3DLoMatch. The code will be made public upon publication.
翻訳日:2023-12-07 17:02:32 公開日:2023-12-05
# ビジュアルプログラム蒸留 : 視覚言語モデルへの蒸留ツールとプログラム推論

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models ( http://arxiv.org/abs/2312.03052v1 )

ライセンス: Link先を確認
Yushi Hu, Otilia Stretcu, Chun-Ta Lu, Krishnamurthy Viswanathan, Kenji Hata, Enming Luo, Ranjay Krishna, Ariel Fuxman(参考訳) 右の楽器を誰が発明したのか?」のような複雑な視覚的タスクを解くには、空間の理解、楽器の認識、事前の知識の獲得といったスキルの合成が必要となる。 最近の研究は、大きな言語モデル(LLM)を用いてタスクを特殊な視覚モデルを呼び出す実行可能なプログラムに分解することで、将来性を示す。 しかし、生成されたプログラムはエラーを起こしやすく、必要なステップを省略し、スプリアスを含む。 さらに、複数のモデルを読み込む必要があり、高いレイテンシと計算コストが発生します。 本稿では,視覚言語モデル(VLM)を1つのフォワードパスで複雑な視覚タスクを解くことができる命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。 VPDはLSMの推論能力を蒸留し、複数の候補プログラムをサンプリングし、そのプログラムを実行して正しいプログラムを特定する。 それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。 広範な実験により、vpd は vlm の空間関係を数え、理解し、構成的に理性を向上できることが示されている。 MMBench,OK-VQA,A-OKVQA,TallyQA,POPE,Hateful Memesなど,複雑なビジョンタスクにおける最先端のパフォーマンスを実現する。 ヒューマンアノテータによる評価では、vpdがモデル応答の事実性と一貫性を向上させることも確認されている。 最後に、コンテンツモデレーションの実験により、VPDは限られたデータを持つ現実世界のアプリケーションへの適応にも役立ちます。

Solving complex visual tasks such as "Who invented the musical instrument on the right?" involves a composition of skills: understanding space, recognizing instruments, and also retrieving prior knowledge. Recent work shows promise by decomposing such tasks using a large language model (LLM) into an executable program that invokes specialized vision models. However, generated programs are error-prone: they omit necessary steps, include spurious ones, and are unable to recover when the specialized models give incorrect outputs. Moreover, they require loading multiple models, incurring high latency and computation costs. We propose Visual Program Distillation (VPD), an instruction tuning framework that produces a vision-language model (VLM) capable of solving complex visual tasks with a single forward pass. VPD distills the reasoning ability of LLMs by using them to sample multiple candidate programs, which are then executed and verified to identify a correct one. It translates each correct program into a language description of the reasoning steps, which are then distilled into a VLM. Extensive experiments show that VPD improves the VLM's ability to count, understand spatial relations, and reason compositionally. Our VPD-trained PaLI-X outperforms all prior VLMs, achieving state-of-the-art performance across complex vision tasks, including MMBench, OK-VQA, A-OKVQA, TallyQA, POPE, and Hateful Memes. An evaluation with human annotators also confirms that VPD improves model response factuality and consistency. Finally, experiments on content moderation demonstrate that VPD is also helpful for adaptation to real-world applications with limited data.
翻訳日:2023-12-07 17:02:10 公開日:2023-12-05
# Hypernetworks を用いた解釈可能なネットワークの生成

Generating Interpretable Networks using Hypernetworks ( http://arxiv.org/abs/2312.03051v1 )

ライセンス: Link先を確認
Isaac Liao, Ziming Liu, Max Tegmark(参考訳) ニューラルネットワークの生重量を解釈可能なアルゴリズムに変換するという、ネットワークをデコードする機械論的解釈可能性の重要な目標である。 復号化問題の難しさを考えると、より簡単な符号化問題、すなわち解釈可能なアルゴリズムをネットワーク重みに変換することが進歩している。 これまでの研究は、定義によって解釈可能な既存のアルゴリズムをネットワークにエンコードすることに重点を置いていた。 しかし、エンコーディングに焦点を合わせることで、人間が一度も見つからなかった新しいアルゴリズムを発見する可能性には限界があるが、それでも解釈可能である。 本研究では、ハイパーネットワークを用いて、基盤となるアルゴリズムがまだ分かっていない解釈可能なネットワークを生成する可能性を検討する。 ハイパーネットワークは、ネットワークの複雑さを制御できるように慎重に設計されており、その複雑さによってランク付けされる様々な解釈可能なアルゴリズム群に繋がる。 これらはすべて後見で解釈できるが、一部は人間に直感的ではないため、ニューラルネットワークのように「考える」方法についての新しい洞察を与える。 L1ノルムの計算では、ハイパーネットは3つのアルゴリズムを見つける。 (a)二重化アルゴリズム。 (b)凸性アルゴリズム。 (c) プディングアルゴリズムは, 実験前に著者が期待した最初のアルゴリズムに過ぎなかった。 これらのアルゴリズムを自動的に分類し、トレーニング中にアルゴリズムのフェーズがどのように発達するかを分析し、複雑さの制御によってどのように影響を受けるかを分析する。 さらに、トレーニングされたハイパーネットワークは、トレーニングで見えない入力次元のモデルを正しく構築でき、体系的な一般化を実証できることを示す。

An essential goal in mechanistic interpretability to decode a network, i.e., to convert a neural network's raw weights to an interpretable algorithm. Given the difficulty of the decoding problem, progress has been made to understand the easier encoding problem, i.e., to convert an interpretable algorithm into network weights. Previous works focus on encoding existing algorithms into networks, which are interpretable by definition. However, focusing on encoding limits the possibility of discovering new algorithms that humans have never stumbled upon, but that are nevertheless interpretable. In this work, we explore the possibility of using hypernetworks to generate interpretable networks whose underlying algorithms are not yet known. The hypernetwork is carefully designed such that it can control network complexity, leading to a diverse family of interpretable algorithms ranked by their complexity. All of them are interpretable in hindsight, although some of them are less intuitive to humans, hence providing new insights regarding how to "think" like a neural network. For the task of computing L1 norms, hypernetworks find three algorithms: (a) the double-sided algorithm, (b) the convexity algorithm, (c) the pudding algorithm, although only the first algorithm was expected by the authors before experiments. We automatically classify these algorithms and analyze how these algorithmic phases develop during training, as well as how they are affected by complexity control. Furthermore, we show that a trained hypernetwork can correctly construct models for input dimensions not seen in training, demonstrating systematic generalization.
翻訳日:2023-12-07 17:01:40 公開日:2023-12-05
# HIG:階層型インターレースグラフによる映像理解におけるシーングラフ生成

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding ( http://arxiv.org/abs/2312.03050v1 )

ライセンス: Link先を確認
Trong-Thuan Nguyen, Pha Nguyen, Khoa Luu(参考訳) 視覚シーンにおける視覚的対話性理解は、コンピュータビジョンにおいて重要な課題である。 既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。 しかし、これらの方法は、ビデオの外観、状況、位置、相互作用、関係の多様性に苦しむ。 この制限は、被験者の複雑な視覚力学における相互作用を完全に理解する能力を妨げる。 本稿では,人間と物体間の密接な相互作用からシーングラフ表現を導出することにより,視覚内容内の相互作用性を理解する。 この目的を達成するために,我々はまず,aspireと呼ばれる出現-位置-相互作用-関係の述語を含む新しいデータセットを提示した。 そして,階層構造内の統一層とグラフを利用して,5つの異なるタスク間のシーン変化の深い洞察を提供する階層型インターレースメントグラフ (HIG) を提案する。 本手法は,様々なシナリオで行った広範囲な実験により,他の手法よりも優れた性能を示す。

Visual interactivity understanding within visual scenes presents a significant challenge in computer vision. Existing methods focus on complex interactivities while leveraging a simple relationship model. These methods, however, struggle with a diversity of appearance, situation, position, interaction, and relation in videos. This limitation hinders the ability to fully comprehend the interplay within the complex visual dynamics of subjects. In this paper, we delve into interactivities understanding within visual content by deriving scene graph representations from dense interactivities among humans and objects. To achieve this goal, we first present a new dataset containing Appearance-Situation-Position-Interaction-Relation predicates, named ASPIRe, offering an extensive collection of videos marked by a wide range of interactivities. Then, we propose a new approach named Hierarchical Interlacement Graph (HIG), which leverages a unified layer and graph within a hierarchical structure to provide deep insights into scene changes across five distinct tasks. Our approach demonstrates superior performance to other methods through extensive experiments conducted in various scenarios.
翻訳日:2023-12-07 17:01:15 公開日:2023-12-05
# データ集約型システム開発における課題を克服するアーキテクチャアプローチ

Architectural Approaches to Overcome Challenges in the Development of Data-Intensive Systems ( http://arxiv.org/abs/2312.03049v1 )

ライセンス: Link先を確認
Aleksandar Dimov, Simeon Emanuilov, Boyan Bontchev, Yavor Dankov, and Tasos Papapostolu(参考訳) 現代のソフトウェアシステムのデータ集約処理への指向は、そのようなシステムの構築と保守に関するソフトウェア工学における新たな困難を提起する。 重要な課題のいくつかは、ソフトウェアアーキテクチャの設計に関するものだ。 本稿では、データ集約型コンピューティングシステムの設計における根本的な課題を調査し、これらの課題に対処する可能性とともに、最もポピュラーなソフトウェアアーキテクチャスタイルをいくつか提示する。

Orientation of modern software systems towards data-intensive processing raises new difficulties in software engineering on how to build and maintain such systems. Some of the important challenges concern the design of software architecture. In this article, we survey the fundamental challenges when designing data-intensive computing systems and present some of the most popular software architectural styles together with their potential to tackle these challenges.
翻訳日:2023-12-07 17:00:58 公開日:2023-12-05
# 大規模言語モデル推論のためのハードウェア評価フレームワーク

A Hardware Evaluation Framework for Large Language Model Inference ( http://arxiv.org/abs/2312.03134v1 )

ライセンス: Link先を確認
Hengrui Zhang, August Ning, Rohan Prabhakar, David Wentzlaff(参考訳) 過去1年間、大規模言語モデル(llm)の人気が高まっている。 彼らの前例のない規模と関連するハードウェアコストは、効率的なハードウェア設計を求める彼らの幅広い採用を妨げた。 LLM推論を実行するために大きなハードウェアを必要とするため、異なるハードウェア設計を評価することが新たなボトルネックとなる。 この研究は、LLM推論ワークロードのためのハードウェア評価フレームワークであるLLMCompassを紹介する。 LLMCompassは高速で正確で汎用的で、様々なハードウェアの設計を記述し評価することができる。 LLMCompassには、パフォーマンス最適化マッピングとスケジューリングを自動的に見つけるマッパーが含まれている。 エリアベースのコストモデルも組み込まれており、アーキテクトが設計の選択を判断するのに役立つ。 実世界のハードウェアと比較して、LLMCompassの推定レイテンシは、様々な入力サイズを持つ様々な演算子の平均10.4%のエラー率と、LLM推論の平均4.1%のエラー率を達成する。 LLMCompassでは、GPT-3 175B推論を実行している4-NVIDIA A100 GPUノードをシミュレートすることができる。 LLMCompassの助けを借りて、この研究はアーキテクチャ上の意味を描き、新しいコスト効率のハードウェア設計を探求した。 計算能力の低下や高帯域幅メモリ(hbm)を従来のdramに置き換えることで、これらの新設計はnvidia a100よりもパフォーマンス/コストが3.41倍向上し、llmの民主化に有望な選択肢となる。 LLMCompassは完全にオープンソースになる予定である。

The past year has witnessed the increasing popularity of Large Language Models (LLMs). Their unprecedented scale and associated high hardware cost have impeded their broader adoption, calling for efficient hardware designs. With the large hardware needed to simply run LLM inference, evaluating different hardware designs becomes a new bottleneck. This work introduces LLMCompass, a hardware evaluation framework for LLM inference workloads. LLMCompass is fast, accurate, versatile, and able to describe and evaluate different hardware designs. LLMCompass includes a mapper to automatically find performance-optimal mapping and scheduling. It also incorporates an area-based cost model to help architects reason about their design choices. Compared to real-world hardware, LLMCompass' estimated latency achieves an average 10.4% error rate across various operators with various input sizes and an average 4.1% error rate for LLM inference. With LLMCompass, simulating a 4-NVIDIA A100 GPU node running GPT-3 175B inference can be done within 16 minutes on commodity hardware, including 26,400 rounds of the mapper's parameter search. With the aid of LLMCompass, this work draws architectural implications and explores new cost-effective hardware designs. By reducing the compute capability or replacing High Bandwidth Memory (HBM) with traditional DRAM, these new designs can achieve as much as 3.41x improvement in performance/cost compared to an NVIDIA A100, making them promising choices for democratizing LLMs. LLMCompass is planned to be fully open-source.
翻訳日:2023-12-07 16:54:59 公開日:2023-12-05
# 視覚トランスフォーマーと合成細胞微細構造データを用いた骨劣化予測

Predicting Bone Degradation Using Vision Transformer and Synthetic Cellular Microstructures Dataset ( http://arxiv.org/abs/2312.03133v1 )

ライセンス: Link先を確認
Mohammad Saber Hashemi, Azadeh Sheidaei(参考訳) 特に微小重力下での宇宙飛行士の骨の劣化は、低い適用外力によって骨の硬さと強度が大幅に減少するので、宇宙探査ミッションにとって重要である。 既存の計算モデルは、この現象を理解し、将来その効果を制限するのに役立ちますが、個々の骨の微細構造だけでなく、骨の変化を詳細にシミュレートするのに時間がかかります。 本研究では骨の劣化を予測・可視化するロバストで高速な計算手法を開発した。 我々のディープラーニング手法であるTransVNetは,ハイブリッド3D-CNN-VisionTransformerオートエンコーダアーキテクチャを用いて,異なる3Dボクセル化画像を取り込み,数ヶ月にわたってその進化を予測する。 新しいサンプルを得るための限られた実験データと課題のため、様々な初期骨のような微細構造のデジタルツインデータセットが生成され、これまで開発された微小重力の劣化モデルを用いて、トランスVNetの3D画像の進化を訓練した。

Bone degradation, especially for astronauts in microgravity conditions, is crucial for space exploration missions since the lower applied external forces accelerate the diminution in bone stiffness and strength substantially. Although existing computational models help us understand this phenomenon and possibly restrict its effect in the future, they are time-consuming to simulate the changes in the bones, not just the bone microstructures, of each individual in detail. In this study, a robust yet fast computational method to predict and visualize bone degradation has been developed. Our deep-learning method, TransVNet, can take in different 3D voxelized images and predict their evolution throughout months utilizing a hybrid 3D-CNN-VisionTransformer autoencoder architecture. Because of limited available experimental data and challenges of obtaining new samples, a digital twin dataset of diverse and initial bone-like microstructures was generated to train our TransVNet on the evolution of the 3D images through a previously developed degradation model for microgravity.
翻訳日:2023-12-07 16:54:32 公開日:2023-12-05
# Assertion Enhanced Few-Shot Learning:教育説明生成のための大規模言語モデルの指導手法

Assertion Enhanced Few-Shot Learning: Instructive Technique for Large Language Models to Generate Educational Explanations ( http://arxiv.org/abs/2312.03122v1 )

ライセンス: Link先を確認
Tasmia Shahriar, Noboru Matsuda and Kelly Ramos(参考訳) 人間の教育者は、学生からの教育的説明を予想し、探究する本質的な能力を有しており、学生がこれらの説明を独立して説明できない場合に、思考を誘発する質問を引き起こす。 我々は,大規模言語モデルの少数ショット学習機能を用いて,インテリジェントチューニングシステムを構築することを目指している。 本研究は, より正確な, 詳細指向の教育説明を生成するための, 新規なプロンプト技術であるAssertion Enhanced Few-Shot Learningを提案する。 我々の中心的な仮説は、教育領域では、数発のデモは必要だが、品質説明生成に十分な条件ではないということである。 本研究は,12人の教員を対象に,従来のFew-Shot Learningとの比較を行った。 その結果,Assertion Enhanced Few-Shot Learning は説明精度を15%向上し,教師が評価した高品質な説明が得られることがわかった。 また,アサーションの影響を判断する定性的なアブレーション研究を行い,関心領域における説明を生み出すための教育者フレンドリな指導ガイドラインを提供する。

Human educators possess an intrinsic ability to anticipate and seek educational explanations from students, which drives them to pose thought-provoking questions when students cannot articulate these explanations independently. We aim to imbue Intelligent Tutoring Systems with this ability using few-shot learning capability of Large Language Models. Our work proposes a novel prompting technique, Assertion Enhanced Few-Shot Learning, to facilitate the generation of accurate, detailed oriented educational explanations. Our central hypothesis is that, in educational domain, few-shot demonstrations are necessary but not a sufficient condition for quality explanation generation. We conducted a study involving 12 in-service teachers, comparing our approach to Traditional Few-Shot Learning. The results show that Assertion Enhanced Few-Shot Learning improves explanation accuracy by 15% and yields higher-quality explanations, as evaluated by teachers. We also conduct a qualitative ablation study to factor the impact of assertions to provide educator-friendly prompting guidelines for generating explanations in their domain of interest.
翻訳日:2023-12-07 16:53:42 公開日:2023-12-05
# 社会的選択理論を用いたエージェント評価

Evaluating Agents using Social Choice Theory ( http://arxiv.org/abs/2312.03121v1 )

ライセンス: Link先を確認
Marc Lanctot, Kate Larson, Yoram Bachrach, Luke Marris, Zun Li, Avishkar Bhoopchand, Thomas Anthony, Brian Tanner, Anna Koop(参考訳) 多くの一般的な評価問題は、投票理論のレンズを通して見ることができる。 各タスクは独立した投票者として解釈され、全体的な評価を得るためには順序付けやエージェントの対比較のみを必要とする。 アグリゲータを社会福祉機能と見なすことで、数世紀にわたる社会選択理論の研究を活用し、原理評価の枠組みを公理的基盤で導出することができる。 これらの評価は解釈可能で柔軟であるが、現在クロスタスク評価に直面している多くの問題を回避している。 我々は、強化学習、大規模言語モデル、人間を含む複数の設定にまたがって、この投票・評価(vase)フレームワークを適用する。 実際には、VasEは一般的な評価フレームワーク(EloとNash平均化)よりも堅牢であり、スコアだけでは明らかでない評価データの特性を発見し、複雑な7人プレイゲームにおいて、Eloよりも優れた結果を予測することができる。 評価に関連する重要な一貫性特性を満足する1つの特定のアプローチ、最大抽選法を計算的に効率よく同定し、ゲーム理論のサイクルを同定する。

We argue that many general evaluation problems can be viewed through the lens of voting theory. Each task is interpreted as a separate voter, which requires only ordinal rankings or pairwise comparisons of agents to produce an overall evaluation. By viewing the aggregator as a social welfare function, we are able to leverage centuries of research in social choice theory to derive principled evaluation frameworks with axiomatic foundations. These evaluations are interpretable and flexible, while avoiding many of the problems currently facing cross-task evaluation. We apply this Voting-as-Evaluation (VasE) framework across multiple settings, including reinforcement learning, large language models, and humans. In practice, we observe that VasE can be more robust than popular evaluation frameworks (Elo and Nash averaging), discovers properties in the evaluation data not evident from scores alone, and can predict outcomes better than Elo in a complex seven-player game. We identify one particular approach, maximal lotteries, that satisfies important consistency properties relevant to evaluation, is computationally efficient (polynomial in the size of the evaluation data), and identifies game-theoretic cycles
翻訳日:2023-12-07 16:53:21 公開日:2023-12-05
# 現代機械学習のランドスケープ: 機械学習、分散学習、フェデレーション学習の概観

The Landscape of Modern Machine Learning: A Review of Machine, Distributed and Federated Learning ( http://arxiv.org/abs/2312.03120v1 )

ライセンス: Link先を確認
Omer Subasi and Oceane Bel and Joseph Manzano and Kevin Barker(参考訳) 強力な異種並列分散コンピューティングシステムの進歩と膨大な量のデータの増加により、機械学習は最先端技術、科学研究、消費者製品にとって欠かせない部分となっている。 本研究では,現代機械とディープラーニングについて概観する。 我々は、最新の機械学習アルゴリズム、アプリケーション、フレームワークについて、ハイレベルな概要を提供する。 我々の議論は、並列分散学習、深層学習、および連合学習を含む。 その結果、我々の研究は現代の機械学習の幅広い分野への入門テキストとして機能する。

With the advance of the powerful heterogeneous, parallel and distributed computing systems and ever increasing immense amount of data, machine learning has become an indispensable part of cutting-edge technology, scientific research and consumer products. In this study, we present a review of modern machine and deep learning. We provide a high-level overview for the latest advanced machine learning algorithms, applications, and frameworks. Our discussion encompasses parallel distributed learning, deep learning as well as federated learning. As a result, our work serves as an introductory text to the vast field of modern machine learning.
翻訳日:2023-12-07 16:52:59 公開日:2023-12-05
# ai-sam: 自動およびインタラクティブセグメントのanyモデル

AI-SAM: Automatic and Interactive Segment Anything Model ( http://arxiv.org/abs/2312.03119v1 )

ライセンス: Link先を確認
Yimu Pan, Sitao Zhang, Alison D. Gernand, Jeffery A. Goldstein, and James Z. Wang(参考訳) セマンティックセグメンテーションはコンピュータビジョンのコアタスクである。 既存の手法は一般に、自動とインタラクティブの2つのカテゴリに分けられる。 Segment Anything Model (SAM)によって実証された対話的アプローチは、事前訓練されたモデルとして約束を示している。 しかしながら、これらのモデルに対する現在の適応戦略は、自動的またはインタラクティブなアプローチに傾く傾向にある。 インタラクティブなメソッドはユーザ入力の操作に依存し、自動的なメソッドは対話的なプロンプトを完全にバイパスする。 これらの制限に対処し、新しいパラダイムとその最初のモデルであるautomatic and interactive segment anything model (ai-sam)を導入する。 このパラダイムでは,プロンプトの品質を包括的に分析し,新たなユーザ入力を受け入れながら初期点プロンプトを自動生成するAI-Prompter(Automatic and Interactive Prompter)を導入する。 実験により,AI-SAMによる自動設定の有効性を実証し,最先端の性能を実現した。 重要な点として、追加のユーザプロンプトを組み込む柔軟性があるため、パフォーマンスがさらに向上する。 プロジェクトページはhttps://github.com/ymp5078/ai-sam。

Semantic segmentation is a core task in computer vision. Existing methods are generally divided into two categories: automatic and interactive. Interactive approaches, exemplified by the Segment Anything Model (SAM), have shown promise as pre-trained models. However, current adaptation strategies for these models tend to lean towards either automatic or interactive approaches. Interactive methods depend on prompts user input to operate, while automatic ones bypass the interactive promptability entirely. Addressing these limitations, we introduce a novel paradigm and its first model: the Automatic and Interactive Segment Anything Model (AI-SAM). In this paradigm, we conduct a comprehensive analysis of prompt quality and introduce the pioneering Automatic and Interactive Prompter (AI-Prompter) that automatically generates initial point prompts while accepting additional user inputs. Our experimental results demonstrate AI-SAM's effectiveness in the automatic setting, achieving state-of-the-art performance. Significantly, it offers the flexibility to incorporate additional user prompts, thereby further enhancing its performance. The project page is available at https://github.com/ymp5078/AI-SAM.
翻訳日:2023-12-07 16:52:50 公開日:2023-12-05
# 断熱限界を超える超伝導共振器へのn$-level quditの縦方向(曲率)結合

Longitudinal (curvature) couplings of an $N$-level qudit to a superconducting resonator at the adiabatic limit and beyond ( http://arxiv.org/abs/2312.03118v1 )

ライセンス: Link先を確認
Rusko Ruskov and Charles Tahan(参考訳) 量子コンピュータなどの量子系の設計において、固体量子ビットが金属線とどのように結合するかを理解することが重要である。 そこで本研究では,マルチレベルシステム(qudit)と超伝導共振器(sc)の電磁場との結合について検討し,quditの遷移モーメントと対角双極子モーメントの相互作用に着目した。 具体的には、SC共振器との静的な分散相互作用に加えて、固体キュイトが小さなゲート周波数と振幅で断熱的に変調されたときに生じる効果的な動的(時間依存)長手結合について検討する。 一般分散状態における時間的多レベル相互作用を記述するハミルトニアンを導出し、動的長手的相互作用と分散的相互作用の両方を包含する。 これらのハミルトニアンは、n番目のレベルのカップリングがクディットゲート電圧に関するレベルのエネルギー曲率に比例するような断熱値と、共振形因子によって生じる実質的に大きな分散値との間でスムーズに遷移する。 本稿では、電荷(1e DQD)量子ビット、トランモン、二重量子ドット一重項量子ビット、三重量子ドット交換のみ量子ビットなど、異なる量子ビット系における断熱から分散結合への移行を例示する。 これらの量子ビットのいくつかでは、特に量子ビットの双極子モーメントが極小またはゼロの場合、より高いエネルギーレベルが重要な役割を果たす。 磁場勾配をsc共振器に容量的に結合したスピンチャージ量子ビットに関する実験的なシナリオでは、これらの相互作用の可能性を示す。 qnd(quantum-limited quantum non-demolition)測定と遠隔幾何位相ゲートを可能にし、量子情報処理における実用性を示している。

Understanding how and to what magnitude solid-state qubits couple to metallic wires is crucial to the design of quantum systems such as quantum computers. Here, we investigate the coupling between a multi-level system, or qudit, and a superconducting (SC) resonator's electromagnetic field, focusing on the interaction involving both the transition and diagonal dipole moments of the qudit. Specifically, we explore the effective dynamical (time-dependent) longitudinal coupling that arises when a solid-state qudit is adiabatically modulated at small gate frequencies and amplitudes, in addition to a static dispersive interaction with the SC resonator. For the first time, we derive Hamiltonians describing the longitudinal multi-level interactions in a general dispersive regime, encompassing both dynamical longitudinal and dispersive interactions. These Hamiltonians smoothly transition between their adiabatic values, where the couplings of the n-th level are proportional to the level's energy curvature concerning a qudit gate voltage, and the substantially larger dispersive values, which occur due to a resonant form factor. We provide several examples illustrating the transition from adiabatic to dispersive coupling in different qubit systems, including the charge (1e DQD) qubit, the transmon, the double quantum dot singlet-triplet qubit, and the triple quantum dot exchange-only qubit. In some of these qubits, higher energy levels play a critical role, particularly when their qubit's dipole moment is minimal or zero. For an experimentally relevant scenario involving a spin-charge qubit with magnetic field gradient coupled capacitively to a SC resonator, we showcase the potential of these interactions. They enable close-to-quantum-limited quantum non-demolition (QND) measurements and remote geometric phase gates, demonstrating their practical utility in quantum information processing.
翻訳日:2023-12-07 16:52:32 公開日:2023-12-05
# 自動バイアス三角形特徴抽出フレームワーク

The Automated Bias Triangle Feature Extraction Framework ( http://arxiv.org/abs/2312.03110v1 )

ライセンス: Link先を確認
Madeleine Kotzagiannidis, Jonas Schuff, Nathan Korda(参考訳) バイアス三角形は、スピン物理学の重要な指標である量子ドット(QD)デバイスの安定性図の特徴を表す。 それでも、データの品質と可用性に関わる課題と、関心のある物理的現象の微妙さは、自動的かつ独創的な分析フレームワークを妨げ、しばしば人間のラベル付けと検証に依存している(一部では)。 本稿では,非教師付きセグメンテーションに基づくコンピュータビジョン手法を用いて,前者の物理的特性の直接同定と定量化を容易にするバイアス三角形の特徴抽出フレームワークを提案する。 これにより、教師付き学習アプローチに通知するための人的入力や大規模なトレーニングデータセットの必要性が回避され、画素形状や特徴ラベルの自動化も可能となる。 特に,このアプローチの直接的結果として,pauli spin block (psb) 検出が効果的,効率的に,かつトレーニングデータなしで行えることを実証した。

Bias triangles represent features in stability diagrams of Quantum Dot (QD) devices, whose occurrence and property analysis are crucial indicators for spin physics. Nevertheless, challenges associated with quality and availability of data as well as the subtlety of physical phenomena of interest have hindered an automatic and bespoke analysis framework, often still relying (in part) on human labelling and verification. We introduce a feature extraction framework for bias triangles, built from unsupervised, segmentation-based computer vision methods, which facilitates the direct identification and quantification of physical properties of the former. Thereby, the need for human input or large training datasets to inform supervised learning approaches is circumvented, while additionally enabling the automation of pixelwise shape and feature labeling. In particular, we demonstrate that Pauli Spin Blockade (PSB) detection can be conducted effectively, efficiently and without any training data as a direct result of this approach.
翻訳日:2023-12-07 16:51:56 公開日:2023-12-05
# トポロジカルディラック半金属Cd$_{3}$As$_{2}$のフェルミアークによる導電率における後方散乱の欠如

Absence of backscattering in Fermi-arc-mediated conductivity of topological Dirac semimetal Cd$_{3}$As$_{2}$ ( http://arxiv.org/abs/2312.03108v1 )

ライセンス: Link先を確認
Vsevolod Ivanov and Lotte Borkowski and Xiangang Wan and Sergey Y. Savrasov(参考訳) かつては半導体研究の対象であったが、現在ではアルセニウムカドミウムがトポロジカル材料として再燃し、フェルミ準位における理想的な3次元ディラック点を実現している。 これらの位相的ディラック点は、強い量子振動、大きな磁気抵抗、超高移動性、グラフェンを超えるフェルミ速度など、多くの異常な輸送現象を引き起こす。 ヒ化カドミウムの薄膜やナノワイヤでも大きなモビリティが持続し、トポロジカルな表面状態の関与が示唆された。 しかし、この物質の表面状態の計算的な研究は、部分的には80原子単位セルが大きいため不足している。 ここでは電子構造から直接誘導される強結合モデルに基づいて, ヒ化カドミウム薄膜のフェルミアーク状態を計算する。 ディラック点に近接しているにもかかわらず、フェルミ弧は非常に長くまっすぐであり、ブリルアンゾーンのほぼ全域に広がる。 フェルミ弧の形状とスピン特性は、位相空間上の明示的な積分によって表される表面の後方散乱と側面散乱の両方を抑制する。 強い電場で期待される小さな対称性を破る項の導入は電子構造のギャップを埋め、同様の輸送特性を示す弱いトポロジカル絶縁体相を作り出す。 この物質の散乱を抑制するメカニズムは、ワイル半金属や位相絶縁体などの他のトポロジカル材料と異なり、ディラック半金属表面状態に基づく新しい高移動度デバイスの設計方法が示唆されている。

Having previously been the subject of decades of semiconductor research, cadmium arsenide has now reemerged as a topological material, realizing ideal three-dimensional Dirac points at the Fermi level. These topological Dirac points lead to a number of extraordinary transport phenomena, including strong quantum oscillations, large magnetoresistance, ultrahigh mobilities, and Fermi velocities exceeding graphene. The large mobilities persist even in thin films and nanowires of cadmium arsenide, suggesting the involvement of topological surface states. However, computational studies of the surface states in this material are lacking, in part due to the large 80-atom unit cell. Here we present the computed Fermi arc surface states of a cadmium arsenide thin film, based on a tight-binding model derived directly from the electronic structure. We show that despite the close proximity of the Dirac points, the Fermi arcs are very long and straight, extending through nearly the entire Brillouin zone. The shape and spin properties of the Fermi arcs suppress both back- and side- scattering at the surface, which we show by explicit integrals over the phase space. The introduction of a small symmetry-breaking term, expected in a strong electric field, gaps the electronic structure, creating a weak topological insulator phase that exhibits similar transport properties. Crucially, the mechanisms suppressing scattering in this material differ from those in other topological materials such as Weyl semimetals and topological insulators, suggesting a new route for engineering high-mobility devices based on Dirac semimetal surface states.
翻訳日:2023-12-07 16:51:38 公開日:2023-12-05
# フィットネスランドスケープ解析による自動アルゴリズム選択の改善

Improving Automated Algorithm Selection by Advancing Fitness Landscape Analysis ( http://arxiv.org/abs/2312.03105v1 )

ライセンス: Link先を確認
Raphael Patrick Prager(参考訳) 最適化は私たちの日常生活においてユビキタスです。 過去には、あらゆる問題に対する(準)最適解は、試行錯誤、運の良さ、あるいは知識のある個人の専門性によって導かれてきた。 現代の時代には、これまで以上に信頼性の高い解を見つけることのできるアルゴリズムが多々存在することはありがたい。 しかし、特定の問題に対して適切なアルゴリズムを選択することは、それ自体が困難である。 自動アルゴリズム選択の分野は、この問題に対処するための様々なアプローチを提供する。 これは、与えられた問題に適したアルゴリズムの選択を複雑なコンピュータモデルに委譲することで行われる。 このコンピュータモデルは人工知能を用いて生成される。 これらのコンピュータモデルの多くは、適切な選択を行うために問題に関するある種の情報に依存している。 この情報入力を数値データとしてコンピュータモデルに提供するための様々な方法が存在する。 この累積論文では、情報入力の異なる変種に対するいくつかの改善を提案する。 これにより、アルゴリズムの自動選択の現在の状態が向上し、洗練される。 具体的には、将来の作業が構築する基盤を強化するため、既存の作業体に関する現在の問題を特定し、対処します。 さらに、ディープラーニングの台頭は、アルゴリズムの自動選択に十分な機会を提供する。 いくつかの共同研究で、同僚と私は既存の方法に取って代わる様々な方法を開発し、評価しました。 最後に、アルゴリズム選択の自動化アプローチは特定の種類の問題に制限されている。 本稿では,情報入力の発生を他の問題タイプに拡張する手法を提案し,今後の研究の方向性を展望する。

Optimization is ubiquitous in our daily lives. In the past, (sub-)optimal solutions to any problem have been derived by trial and error, sheer luck, or the expertise of knowledgeable individuals. In our contemporary age, there thankfully exists a plethora of different algorithms that can find solutions more reliably than ever before. Yet, choosing an appropriate algorithm for any given problem is challenging in itself. The field of automated algorithm selection provides various approaches to tackle this latest problem. This is done by delegating the selection of a suitable algorithm for a given problem to a complex computer model. This computer model is generated through the use of Artificial Intelligence. Many of these computer models rely on some sort of information about the problem to make a reasonable selection. Various methods exist to provide this informative input to the computer model in the form of numerical data. In this cumulative dissertation, I propose several improvements to the different variants of informative inputs. This in turn enhances and refines the current state-of-the-art of automated algorithm selection. Specifically, I identify and address current issues with the existing body of work to strengthen the foundation that future work builds upon. Furthermore, the rise of deep learning offers ample opportunities for automated algorithm selection. In several joint works, my colleagues and I developed and evaluated several different methods that replace the existing methods to extract an informative input. Lastly, automated algorithm selection approaches have been restricted to certain types of problems. I propose a method to extend the generation of informative inputs to other problem types and provide an outlook on further promising research directions.
翻訳日:2023-12-07 16:51:06 公開日:2023-12-05
# シングルスタックMRIにおける完全畳み込みスライス・ツー・ヴォーム再構成

Fully Convolutional Slice-to-Volume Reconstruction for Single-Stack MRI ( http://arxiv.org/abs/2312.03102v1 )

ライセンス: Link先を確認
Sean I. Young, Ya\"el Balbastre, Bruce Fischl, Polina Golland, Juan Eugenio Iglesias(参考訳) mriでは、slic-to-volume reconstruction(svr)は、運動によって破損した2次元スライスのスタックから未知の3次元磁気共鳴ボリュームの計算再構成を指す。 将来性はあるものの、現在のSVR法では正確な3D再構成のために複数のスライススタックが必要である。 本稿では,先行研究の欠点を克服し,極端にスライス間運動が存在する場合に最先端の再構築を行うsvr手法を提案する。 近年のシングルビュー深度推定手法の成功に触発されて,svrをシングルスタック動作推定タスクとして定式化し,与えられたスライススタックの動作スタックを予測する完全畳み込みネットワークを訓練し,予測動作の副産物として3次元再構成を行う。 成人および胎児脳のsvrに関する広範囲な実験は、我々の完全畳み込み法が従来のsvr法より2倍正確であることを示している。 私たちのコードはgithub.com/seannz/svrで入手できる。

In magnetic resonance imaging (MRI), slice-to-volume reconstruction (SVR) refers to computational reconstruction of an unknown 3D magnetic resonance volume from stacks of 2D slices corrupted by motion. While promising, current SVR methods require multiple slice stacks for accurate 3D reconstruction, leading to long scans and limiting their use in time-sensitive applications such as fetal fMRI. Here, we propose a SVR method that overcomes the shortcomings of previous work and produces state-of-the-art reconstructions in the presence of extreme inter-slice motion. Inspired by the recent success of single-view depth estimation methods, we formulate SVR as a single-stack motion estimation task and train a fully convolutional network to predict a motion stack for a given slice stack, producing a 3D reconstruction as a byproduct of the predicted motion. Extensive experiments on the SVR of adult and fetal brains demonstrate that our fully convolutional method is twice as accurate as previous SVR methods. Our code is available at github.com/seannz/svr.
翻訳日:2023-12-07 16:50:47 公開日:2023-12-05
# 偶発的多神論

Incidental Polysemanticity ( http://arxiv.org/abs/2312.03096v1 )

ライセンス: Link先を確認
Victor Lecomte, Kushal Thaman, Trevor Chow, Rylan Schaeffer, Sanmi Koyejo(参考訳) ポリセマンティックニューロン(一連の無関係な特徴を活性化するニューロン)は、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害であり、AIの安全性に影響を及ぼすと考えられている。 多神論の古典的な起源の物語は、そのデータはニューロンよりも多くの「特徴」を含んでおり、タスクを実行するための学習は、ネットワークが同じニューロンに複数の無関係な特徴を共配置させ、ネットワークの内部処理を理解する能力を危険にさらす。 本研究では,多意味性という2つ目の,非相互排他的起源を提示する。 我々は、理論と実験の組み合わせを用いて、データ中の全ての特徴を表現できる十分なニューロンが存在する場合でも、多義性は偶然に起こる可能性があることを示す。 この第2の多意味性は、ランダム初期化が偶然に同じニューロンに複数の特徴を割り当てることができ、訓練力学がそのような重なり合いを強化するために生じる。 その起源から、この \textit{incidental polysemanticity} と呼ぶ。

Polysemantic neurons (neurons that activate for a set of unrelated features) have been seen as a significant obstacle towards interpretability of task-optimized deep networks, with implications for AI safety. The classic origin story of polysemanticity is that the data contains more "features" than neurons, such that learning to perform a task forces the network to co-allocate multiple unrelated features to the same neuron, endangering our ability to understand the network's internal processing. In this work, we present a second and non-mutually exclusive origin story of polysemanticity. We show that polysemanticity can arise incidentally, even when there are ample neurons to represent all features in the data, using a combination of theory and experiments. This second type of polysemanticity occurs because random initialization can, by chance alone, initially assign multiple features to the same neuron, and the training dynamics then strengthen such overlap. Due to its origin, we term this \textit{incidental polysemanticity}.
翻訳日:2023-12-07 16:50:26 公開日:2023-12-05
# 環境ポストの理解:ソーシャルメディアデータの感情分析と感情分析

Understanding Environmental Posts: Sentiment and Emotion Analysis of Social Media Data ( http://arxiv.org/abs/2312.03095v1 )

ライセンス: Link先を確認
Daniyar Amangeldi, Aida Usmanova, Pakizar Shamoi(参考訳) ソーシャルメディアは現在、即時の公開応答が利用できるため、主要な情報源となっている。 その結果、ソーシャルメディアデータは、大衆の感情を理解するための貴重なリソースとなっている。 研究により、アイデアを増幅し、大衆の感情に影響を与えることが示されている。 本研究は,2014年から2023年までの10年間の気候変動と環境に対する一般の認識を分析した。 pointwise mutual information (pmi) アルゴリズムを使用して感情を識別し、様々なソーシャルメディアプラットフォーム(twitter、reddit、youtube)の環境ツイートで表現される一般的な感情を探索する。 人間の注釈付きデータセットの精度は0.65であり、vaderスコアよりも高く、エキスパート・レートラーのそれよりも低い(0.90)。 否定的な環境ツイートは、ポジティブなツイートや中立的なツイートよりはるかに多いことが示唆された。 気候変動、大気質、排出ガス、プラスチック、リサイクルはソーシャルメディアプラットフォームでもっとも議論されている話題であり、世界の大きな懸念を浮き彫りにしている。 環境ツイートで最も一般的な感情は恐怖、信頼、期待であり、公衆の反応を広く複雑な性質で示している。 環境に関する意見のパターンや傾向を特定することで、環境問題に対する意識を高め、介入の進展を知らせ、環境問題に対応するためのさらなる行動に適応できる洞察を提供したいと考えています。

Social media is now the predominant source of information due to the availability of immediate public response. As a result, social media data has become a valuable resource for comprehending public sentiments. Studies have shown that it can amplify ideas and influence public sentiments. This study analyzes the public perception of climate change and the environment over a decade from 2014 to 2023. Using the Pointwise Mutual Information (PMI) algorithm, we identify sentiment and explore prevailing emotions expressed within environmental tweets across various social media platforms, namely Twitter, Reddit, and YouTube. Accuracy on a human-annotated dataset was 0.65, higher than Vader score but lower than that of an expert rater (0.90). Our findings suggest that negative environmental tweets are far more common than positive or neutral ones. Climate change, air quality, emissions, plastic, and recycling are the most discussed topics on all social media platforms, highlighting its huge global concern. The most common emotions in environmental tweets are fear, trust, and anticipation, demonstrating public reactions wide and complex nature. By identifying patterns and trends in opinions related to the environment, we hope to provide insights that can help raise awareness regarding environmental issues, inform the development of interventions, and adapt further actions to meet environmental challenges.
翻訳日:2023-12-07 16:49:58 公開日:2023-12-05
# RESIN-EDITOR: スキーマ誘導型階層型イベントグラフビジュアライザとエディタ

RESIN-EDITOR: A Schema-guided Hierarchical Event Graph Visualizer and Editor ( http://arxiv.org/abs/2312.03093v1 )

ライセンス: Link先を確認
Khanh Duy Nguyen, Zixuan Zhang, Reece Suchocki, Sha Li, Martha Palmer, Susan Brown, Jiawei Han, Heng Ji(参考訳) 本稿では,複雑なイベントを分析するためのインタラクティブなイベントグラフビジュアライゼーションおよびエディタである resin-editor を提案する。 本システムでは,マルチメディアおよびマルチドキュメントのニュースクラスタから抽出した階層的イベントグラフを,人間が作成したイベントスキーマから誘導して描画・編集することができる。 resin-editorのユニークな特徴は、階層グラフの可視化、包括的なソーストレース、インタラクティブなユーザ編集であり、既存の情報抽出(ie)可視化ツールよりも強力で汎用性がある。 RESIN-EDITORの評価では,複雑な事象の理解やシステム性能の向上にツールが有効であることを示す。 ソースコード、ビデオデモ、RESIN-EDITORのライブウェブサイトが公開されている。

In this paper, we present RESIN-EDITOR, an interactive event graph visualizer and editor designed for analyzing complex events. Our RESIN-EDITOR system allows users to render and freely edit hierarchical event graphs extracted from multimedia and multi-document news clusters with guidance from human-curated event schemas. RESIN-EDITOR's unique features include hierarchical graph visualization, comprehensive source tracing, and interactive user editing, which is more powerful and versatile than existing Information Extraction (IE) visualization tools. In our evaluation of RESIN-EDITOR, we demonstrate ways in which our tool is effective in understanding complex events and enhancing system performance. The source code, a video demonstration, and a live website for RESIN-EDITOR have been made publicly available.
翻訳日:2023-12-07 16:49:19 公開日:2023-12-05
# CaloQVAE : ハイブリッド量子古典生成モデルを用いた高エネルギー粒子-カロリメータ相互作用のシミュレーション

CaloQVAE : Simulating high-energy particle-calorimeter interactions using hybrid quantum-classical generative models ( http://arxiv.org/abs/2312.03179v1 )

ライセンス: Link先を確認
Sehmimul Hoque (1, 2), Hao Jia (3), Abhishek Abhishek (4), Mojde Fadaie (1), J. Quetzalcoatl Toledo-Mar\'in (4), Tiago Vale (5, 4), Roger G. Melko (1, 6), Maximilian Swiatlowski (4), Wojciech T. Fedorko (4) ((1) Perimeter Institute for Theoretical Physics, (2) Faculty of Mathematics, University of Waterloo, (3) Department of Physics and Astronomy, University of British Columbia, (4) TRIUMF, (5) Department of Physics, Simon Fraser University, (6) Department of Physics and Astronomy, University of Waterloo)(参考訳) 大型ハドロン衝突型加速器の高輝度時代は、衝突現象の分析において重要な計算上の課題を呈している。 モンテカルロシミュレーション(MC)は、これらの実験データの下のシミュレーションデータセットの統計的不確実性を制限するために必要とされる。 検出器のカロリー領域を伝播する高エネルギー粒子のモデリングは、最も計算集約的なMCシミュレーションタスクである。 本稿では,高エネルギー粒子-カロリメータ相互作用の高速かつ効率的なシミュレーションのための生成モデルと量子アニールの最近の進歩を組み合わせた手法を提案する。

The Large Hadron Collider's high luminosity era presents major computational challenges in the analysis of collision events. Large amounts of Monte Carlo (MC) simulation will be required to constrain the statistical uncertainties of the simulated datasets below these of the experimental data. Modelling of high-energy particles propagating through the calorimeter section of the detector is the most computationally intensive MC simulation task. We introduce a technique combining recent advancements in generative models and quantum annealing for fast and efficient simulation of high-energy particle-calorimeter interactions.
翻訳日:2023-12-07 16:42:16 公開日:2023-12-05
# オフライン強化学習におけるタスク表現への好奇心の活用

Using Curiosity for an Even Representation of Tasks in Continual Offline Reinforcement Learning ( http://arxiv.org/abs/2312.03177v1 )

ライセンス: Link先を確認
Pankayaraj Pathmanathan, Natalia D\'iaz-Rodr\'iguez, Javier Del Ser(参考訳) 本研究では,非定常性によって定義されたタスクが,時間内に学習者に均等に露出していない場合に,リプレイバッファ上で好奇性を用いてオフラインマルチタスク継続強化学習を改善する方法を検討する。 特に,タスク境界検出ツールとしての好奇心と,古いトランジッションタプルを保持する上での優先指標としての好奇心の使用について検討し,それぞれ異なる2つのバッファを提案する。 まず,タスク分離(hrbts)を備えたハイブリッド型リザーババッファを提案する。 第二に、古いトランジションタプルを保持する際に好奇心を優先指標として使うことにより、Hybrid Curious Buffer(HCB)を提案する。 最終的に,これらのバッファは,正規強化学習アルゴリズムとともに,エージェントのタスクへの露出が時間とともに等しくない場合に,リプレイバッファの芸術的状態によって生じる破滅的な忘れる問題を緩和するために使用できることを示した。 我々は,3つの連続的強化学習環境において,Hybrid Reservoir Buffer (HRB) やMulti-Time Scale Replay Buffer (MTR) といった最新の研究に対して,破滅的な記憶とバッファの効率を評価する。 古典的な制御タスクとメタワールド環境の実験が行われた。 実験の結果,提案するリプレイバッファは,ほとんどの設定で既存の作品に比べ,破滅的な忘れやすさに優れることがわかった。

In this work, we investigate the means of using curiosity on replay buffers to improve offline multi-task continual reinforcement learning when tasks, which are defined by the non-stationarity in the environment, are non labeled and not evenly exposed to the learner in time. In particular, we investigate the use of curiosity both as a tool for task boundary detection and as a priority metric when it comes to retaining old transition tuples, which we respectively use to propose two different buffers. Firstly, we propose a Hybrid Reservoir Buffer with Task Separation (HRBTS), where curiosity is used to detect task boundaries that are not known due to the task agnostic nature of the problem. Secondly, by using curiosity as a priority metric when it comes to retaining old transition tuples, a Hybrid Curious Buffer (HCB) is proposed. We ultimately show that these buffers, in conjunction with regular reinforcement learning algorithms, can be used to alleviate the catastrophic forgetting issue suffered by the state of the art on replay buffers when the agent's exposure to tasks is not equal along time. We evaluate catastrophic forgetting and the efficiency of our proposed buffers against the latest works such as the Hybrid Reservoir Buffer (HRB) and the Multi-Time Scale Replay Buffer (MTR) in three different continual reinforcement learning settings. Experiments were done on classical control tasks and Metaworld environment. Experiments show that our proposed replay buffers display better immunity to catastrophic forgetting compared to existing works in most of the settings.
翻訳日:2023-12-07 16:42:07 公開日:2023-12-05
# 派生型ガウス過程による急激なシフト点検出のためのアクティブラーニング

Active Learning for Abrupt Shifts Change-point Detection via Derivative-Aware Gaussian Processes ( http://arxiv.org/abs/2312.03176v1 )

ライセンス: Link先を確認
Hao Zhao, Rong Pan(参考訳) 変化点検出(CPD)は、さまざまな領域にわたる意思決定と効率的なリソース割り当てに影響を与えるデータの急激なシフトを特定するために重要である。 CPDにおける費用と時間を要するデータ取得による課題に対処するため,デリバティブ・アウェア・チェンジ検出法(DACD)を提案する。 アクティブラーニング(AL)のためのガウス過程(GP)の導出プロセスを活用し、変化点位置を効果的に特定することを目的としている。 DACDは、複数のデータ取得機能(AF)を通じて派生プロセスの活用と探索のバランスをとる。 GP導出平均と分散を基準として、DACDは次回のサンプリングデータポイントを順次選択し、アルゴリズム効率を向上し、信頼性と精度の確保を図る。 様々なシナリオにおけるDACD法の有効性について検討し、他のアクティブな学習変化点検出手法よりも優れていることを示す。

Change-point detection (CPD) is crucial for identifying abrupt shifts in data, which influence decision-making and efficient resource allocation across various domains. To address the challenges posed by the costly and time-intensive data acquisition in CPD, we introduce the Derivative-Aware Change Detection (DACD) method. It leverages the derivative process of a Gaussian process (GP) for Active Learning (AL), aiming to pinpoint change-point locations effectively. DACD balances the exploitation and exploration of derivative processes through multiple data acquisition functions (AFs). By utilizing GP derivative mean and variance as criteria, DACD sequentially selects the next sampling data point, thus enhancing algorithmic efficiency and ensuring reliable and accurate results. We investigate the effectiveness of DACD method in diverse scenarios and show it outperforms other active learning change-point detection approaches.
翻訳日:2023-12-07 16:41:40 公開日:2023-12-05
# プログラミング教育におけるAI生成(GPT-4)と人為的MCQの比較研究

A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education ( http://arxiv.org/abs/2312.03173v1 )

ライセンス: Link先を確認
Jacob Doughty, Zipiao Wan, Anishka Bompelli, Jubahed Qayum, Taozhi Wang, Juran Zhang, Yujia Zheng, Aidan Doyle, Pragnya Sridhar, Arav Agarwal, Christopher Bogart, Eric Keylor, Can Kultur, Jaromir Savelka, Majd Sakr(参考訳) 教育者は、常に最新の評価を開発し、維持する必要がある。 大規模言語モデル(LLM)の世代別利用とコーディング演習への関与について,コンピュータ教育における研究機関が増えているが,プログラミングMCQの生成にはLLMの利用が広く研究されていない。 我々は,高等教育におけるPythonプログラミングクラスから,特定の学習目標(LO)に適合した複数選択質問(MCQ)を生成するGPT-4の能力について分析した。 具体的には,高次コースコンテキストとモジュールレベルLOからMCQを生成するためのLCM(GPT-4)システムを開発した。 我々は6つのPythonコースから246 LOに適合する651 LLMと449の人造MCQを評価した。 GPT-4は明瞭な言語でMCQを生成でき、1つの正しい選択と高品質なイントラクタを実現できることがわかった。 また, 生成したMCQはLOと良好に一致していることがわかった。 本研究の成果は,MCQ作成を支援する最先端の生成モデルを活用したい教育者が活用できる。

There is a constant need for educators to develop and maintain effective up-to-date assessments. While there is a growing body of research in computing education on utilizing large language models (LLMs) in generation and engagement with coding exercises, the use of LLMs for generating programming MCQs has not been extensively explored. We analyzed the capability of GPT-4 to produce multiple-choice questions (MCQs) aligned with specific learning objectives (LOs) from Python programming classes in higher education. Specifically, we developed an LLM-powered (GPT-4) system for generation of MCQs from high-level course context and module-level LOs. We evaluated 651 LLM-generated and 449 human-crafted MCQs aligned to 246 LOs from 6 Python courses. We found that GPT-4 was capable of producing MCQs with clear language, a single correct choice, and high-quality distractors. We also observed that the generated MCQs appeared to be well-aligned with the LOs. Our findings can be leveraged by educators wishing to take advantage of the state-of-the-art generative models to support MCQ authoring efforts.
翻訳日:2023-12-07 16:41:25 公開日:2023-12-05
# カウントプロセスと分類の組み合わせによる技術支援レビューの停止ルールの改善

Combining Counting Processes and Classification Improves a Stopping Rule for Technology Assisted Review ( http://arxiv.org/abs/2312.03171v1 )

ライセンス: Link先を確認
Reem Bin-Hezam and Mark Stevenson(参考訳) technology assisted review (tar) stop rulesは、必要なリコールレベルを確保するために、検査すべき文書の数を最小にすることで、関連のある文書を手動で評価するコストを削減することを目的としている。 本稿では,追加のアノテーションを必要とせずに学習できるテキスト分類器の情報を用いて,効果的な停止ルールを拡張する。 複数データセット(CLEF e-Health, TREC Total Recall, TREC Legal, RCV1)の実験により, 提案手法は一貫して性能を向上し, いくつかの代替手法を上回る性能を示した。

Technology Assisted Review (TAR) stopping rules aim to reduce the cost of manually assessing documents for relevance by minimising the number of documents that need to be examined to ensure a desired level of recall. This paper extends an effective stopping rule using information derived from a text classifier that can be trained without the need for any additional annotation. Experiments on multiple data sets (CLEF e-Health, TREC Total Recall, TREC Legal and RCV1) showed that the proposed approach consistently improves performance and outperforms several alternative methods.
翻訳日:2023-12-07 16:41:10 公開日:2023-12-05
# 協調フィルタリングのための適応スペクトルグラフウェーブレット

Adaptive spectral graph wavelets for collaborative filtering ( http://arxiv.org/abs/2312.03167v1 )

ライセンス: Link先を確認
Osama Alshareet and A. Ben Hamza(参考訳) 協調フィルタリングはレコメンデーションシステムにおいて一般的なアプローチであり、その目的は、購入や閲覧履歴に基づいて、潜在的ユーザにパーソナライズされたアイテム提案を提供することである。 しかし、パーソナライズされたレコメンデーションでは、ユーザーに対してかなりの量の行動データが要求される。 この課題を解決するために,ユーザやアイテム,それらのインタラクションを2部グラフとして表現する,暗黙的なフィードバックデータのためのスペクトルグラフウェーブレット協調フィルタリングフレームワークを提案する。 具体的には,スペクトル領域におけるグラフ周波数の分散を安定化することを目的として,パワー変換を利用した適応伝達関数を提案する。 そこで我々は,スペクトルグラフウェーブレットを用いたユーザとアイテムの低次元埋め込みをエンドツーエンドで効率的に学習するための深層推薦モデルを設計する。 グラフの局所的および大域的構造を捉えることに加えて,空間的およびスペクトル的領域におけるグラフ信号の局在性も生み出すため,ユーザとアイテムの識別表現を学習するだけでなく,レコメンデーション品質も向上する。 提案モデルの有効性は,実世界のベンチマークデータセットに対する広範な実験により実証され,強力なベースライン手法と比較して,推奨性能が向上した。

Collaborative filtering is a popular approach in recommender systems, whose objective is to provide personalized item suggestions to potential users based on their purchase or browsing history. However, personalized recommendations require considerable amount of behavioral data on users, which is usually unavailable for new users, giving rise to the cold-start problem. To help alleviate this challenging problem, we introduce a spectral graph wavelet collaborative filtering framework for implicit feedback data, where users, items and their interactions are represented as a bipartite graph. Specifically, we first propose an adaptive transfer function by leveraging a power transform with the goal of stabilizing the variance of graph frequencies in the spectral domain. Then, we design a deep recommendation model for efficient learning of low-dimensional embeddings of users and items using spectral graph wavelets in an end-to-end fashion. In addition to capturing the graph's local and global structures, our approach yields localization of graph signals in both spatial and spectral domains, and hence not only learns discriminative representations of users and items, but also promotes the recommendation quality. The effectiveness of our proposed model is demonstrated through extensive experiments on real-world benchmark datasets, achieving better recommendation performance compared with strong baseline methods.
翻訳日:2023-12-07 16:40:57 公開日:2023-12-05
# 力学モデルのパラメータの高速推論のための深層学習

Deep Learning for Fast Inference of Mechanistic Models' Parameters ( http://arxiv.org/abs/2312.03166v1 )

ライセンス: Link先を確認
Maxim Borisyak, Stefan Born, Peter Neubauer and Mariano Nicolas Cruz-Bournazou(参考訳) 実験データから通常微分方程式(ODE)で表されるマクロ運動成長モデルのパラメータを推定することは、バイオプロセス工学における重要なステップである。 従来は, メカニックモデルを観測に適合させてパラメータの推定を行う。 しかし、フィッティングには計算能力がかなり必要である。 具体的には、これまで知られていなかった生物や株を用いた新しいバイオプロセスの開発において、効率的でロバストで、計算的に安価なパラメータ推定手法は非常に有用である。 本研究では,観測された力学モデルのパラメータを直接予測するためにディープニューラルネットワーク(NN)を提案する。 このアプローチでは、NNのトレーニングに計算リソースを使う必要があるが、一度訓練されると、そのようなネットワークは従来の手法よりもはるかに高速にパラメータ推定の順序を提供することができる。 ニューラルネットワークとメカニスティックモデルを組み合わせたトレーニング手法を検討する。 本研究では, 生物工学において典型的なバッチ処理を記述した数種類の機械モデルから抽出したデータに対する提案アルゴリズムの性能を実証し, 提案手法, 典型的な勾配に基づく適合法, および2つの組み合わせを比較した。 ニューラルネットワークの推定値は、さらなる適合によってわずかに改善されているが、これらの推定は、適合手順単独よりも測定精度が良い。

Inferring parameters of macro-kinetic growth models, typically represented by Ordinary Differential Equations (ODE), from the experimental data is a crucial step in bioprocess engineering. Conventionally, estimates of the parameters are obtained by fitting the mechanistic model to observations. Fitting, however, requires a significant computational power. Specifically, during the development of new bioprocesses that use previously unknown organisms or strains, efficient, robust, and computationally cheap methods for parameter estimation are of great value. In this work, we propose using Deep Neural Networks (NN) for directly predicting parameters of mechanistic models given observations. The approach requires spending computational resources for training a NN, nonetheless, once trained, such a network can provide parameter estimates orders of magnitude faster than conventional methods. We consider a training procedure that combines Neural Networks and mechanistic models. We demonstrate the performance of the proposed algorithms on data sampled from several mechanistic models used in bioengineering describing a typical industrial batch process and compare the proposed method, a typical gradient-based fitting procedure, and the combination of the two. We find that, while Neural Network estimates are slightly improved by further fitting, these estimates are measurably better than the fitting procedure alone.
翻訳日:2023-12-07 16:40:34 公開日:2023-12-05
# HybridNeRF:適応体積表面による効率的なニューラルレンダリング

HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces ( http://arxiv.org/abs/2312.03160v1 )

ライセンス: Link先を確認
Haithem Turki, Vasu Agrawal, Samuel Rota Bul\`o, Lorenzo Porzi, Peter Kontschieder, Deva Ramanan, Michael Zollh\"ofer, Christian Richardt(参考訳) ニューラルラミアンスフィールドは最先端のビュー合成品質を提供するが、レンダリングが遅い傾向がある。 1つの理由は、ボリュームレンダリングを利用するため、レンダリング時に1レイあたりに多くのサンプル(およびモデルクエリ)を必要とするためである。 この表現は柔軟で最適化が容易であるが、ほとんどの実世界のオブジェクトは体積ではなく表面でより効率的にモデル化することができ、1光あたりのサンプルがはるかに少ない。 この観測は、符号付き距離関数のような表面表現に大きな進歩をもたらしたが、これは半透明で薄い構造をモデル化するのに苦労する可能性がある。 本稿では,ほとんどのオブジェクトを表面としてレンダリングし,(典型的には)挑戦領域のごく一部を体積的にモデル化することで,両表現の強みを活用する手法であるHybridNeRFを提案する。 我々はHybridNeRFを、他のよく使われるビュー合成データセットとともに、挑戦的なEyeful Towerデータセットに対して評価する。 近年のラスタライズベースアプローチを含む最先端のベースラインと比較すると,リアルタイムフレームレート(2Kx2K)を実現しつつ,エラー率を15~30%向上する。

Neural radiance fields provide state-of-the-art view synthesis quality but tend to be slow to render. One reason is that they make use of volume rendering, thus requiring many samples (and model queries) per ray at render time. Although this representation is flexible and easy to optimize, most real-world objects can be modeled more efficiently with surfaces instead of volumes, requiring far fewer samples per ray. This observation has spurred considerable progress in surface representations such as signed distance functions, but these may struggle to model semi-opaque and thin structures. We propose a method, HybridNeRF, that leverages the strengths of both representations by rendering most objects as surfaces while modeling the (typically) small fraction of challenging regions volumetrically. We evaluate HybridNeRF against the challenging Eyeful Tower dataset along with other commonly used view synthesis datasets. When comparing to state-of-the-art baselines, including recent rasterization-based approaches, we improve error rates by 15-30% while achieving real-time framerates (at least 36 FPS) for virtual-reality resolutions (2Kx2K).
翻訳日:2023-12-07 16:40:13 公開日:2023-12-05
# プロパゲータのFeynman-Dyson図形摂動拡大の失敗

Failures of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v1 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, Rodney J. Bartlett(参考訳) 分子の一般多体グリーン関数法を用いて, 電子プロパゲータとしての一粒子多体グリーン関数のファインマン・ダイソン図形摂動膨張の3つの病理学的挙動を数値的に示す。 まず、周波数依存性の自己エネルギーの摂動膨張は、広い周波数領域の正確な自己エネルギーでは収束しない。 第二に、奇階自己エネルギーを持つダイソン方程式は定性的に間違った形状であり、その結果、衛星の根の大部分は複雑で非物理的である。 第三に、等階の自己エネルギーを持つダイソン方程式は摂動順序が上昇するにつれて指数関数的に増加する根の数を持ち、正しい根の数を超える。 頂点や辺修正による図形の無限部分和はこれらの問題を悪化させる。 非収束理論は高次摂動理論を衛星の根には役に立たないだけでなく、すべての極と残基の知識を必要とする ans\"{a}tze との併用の有効性を疑問視する。 このような ans\"{a}tze には、ガリツキー・ミグダルの公式、自己整合グリーン関数法、ルッティンガー・ウォード汎函数、代数図形構成のモデルなどがある。

Using a general-order many-body Green's-function method for molecules, we illustrate numerically three pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron propagators. First, the perturbation expansion of the frequency-dependent self-energy is nonconvergent at the exact self-energy in wide domains of frequency. Second, the Dyson equation with an odd-order self-energy has a qualitatively wrong shape and, as a result, most of their satellite roots are complex and nonphysical. Third, the Dyson equation with an even-order self-energy has an exponentially increasing number of roots as the perturbation order is raised, which quickly exceeds the correct number of roots. Infinite partial summation of diagrams by vertex or edge modification exacerbates these problems. Not only does the nonconvergence render higher-order perturbation theories useless for satellite roots, but it also calls into question the validity of their combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal formula, self-consistent Green's-function methods, Luttinger-Ward functional, and some models of the algebraic diagrammatic construction.
翻訳日:2023-12-07 16:39:52 公開日:2023-12-05
# フィードバックによるアルゴリズム的公平性

Algorithmic Fairness with Feedback ( http://arxiv.org/abs/2312.03155v1 )

ライセンス: Link先を確認
John W. Patty and Elizabeth Maggie Penn(参考訳) アルゴリズムの公平さの分野は、アルゴリズムが日常生活でユビキタスになり、過去15年間に急速に現れてきた。 アルゴリズム的公平性は、伝統的に、公正性アルゴリズムの統計的概念がノイズデータに基づく決定において満足されると考える。 まず, 福祉に基づく公正概念とは理論的に切り離されていることを示す。 次に、公正性、うらやましい自由性、偏見の自由性の2つの個別の福祉的概念について議論し、それぞれエラーレートバランスと予測パリティに相当する条件を確立する。 アルゴリズム的公平性(kleinberg, mullainathan, & raghavan (2016), chouldechova (2017))において最近発見された不確実性定理に照らして,これらの発見の意義について議論する。

The field of algorithmic fairness has rapidly emerged over the past 15 years as algorithms have become ubiquitous in everyday lives. Algorithmic fairness traditionally considers statistical notions of fairness algorithms might satisfy in decisions based on noisy data. We first show that these are theoretically disconnected from welfare-based notions of fairness. We then discuss two individual welfare-based notions of fairness, envy freeness and prejudice freeness, and establish conditions under which they are equivalent to error rate balance and predictive parity, respectively. We discuss the implications of these findings in light of the recently discovered impossibility theorem in algorithmic fairness (Kleinberg, Mullainathan, & Raghavan (2016), Chouldechova (2017)).
翻訳日:2023-12-07 16:39:25 公開日:2023-12-05
# ViscoNet: ControlNet用のビジュアルコンディショニングとテキストコンディショニングのブリッジと調和

ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet ( http://arxiv.org/abs/2312.03154v1 )

ライセンス: Link先を確認
Soon Yau Cheong, Armin Mustafa, Andrew Gilbert(参考訳) 本稿では,視覚プロンプトによるテキスト対画像生成モデルを強化する新しい手法である visconet を提案する。 画像構造を制御するための長いテキスト記述に依存する既存の方法とは異なり、ViscoNetはユーザーが対象のオブジェクトの視覚的外観を参照画像で指定できるようにする。 ViscoNetはオブジェクトの外観を画像背景から切り離し、ControlNetブランチを介して事前訓練された潜在拡散モデル(LDM)モデルに注入する。 このようにして、ViscoNetはスタイルモード崩壊問題を緩和し、正確で柔軟な視覚制御を可能にする。 視覚特性や芸術的スタイルをテキストや画像のプロンプトで操作できる人間の画像生成におけるViscoNetの有効性を実証する。 また、ViscoNetは、LDMバックボーンの生成力を保ちながら、小さくて特定のオブジェクトドメインから視覚条件を学習できることを示す。

This paper introduces ViscoNet, a novel method that enhances text-to-image human generation models with visual prompting. Unlike existing methods that rely on lengthy text descriptions to control the image structure, ViscoNet allows users to specify the visual appearance of the target object with a reference image. ViscoNet disentangles the object's appearance from the image background and injects it into a pre-trained latent diffusion model (LDM) model via a ControlNet branch. This way, ViscoNet mitigates the style mode collapse problem and enables precise and flexible visual control. We demonstrate the effectiveness of ViscoNet on human image generation, where it can manipulate visual attributes and artistic styles with text and image prompts. We also show that ViscoNet can learn visual conditioning from small and specific object domains while preserving the generative power of the LDM backbone.
翻訳日:2023-12-07 16:39:09 公開日:2023-12-05
# マルチタスク学習は最悪のグループの結果を改善する

Multitask Learning Can Improve Worst-Group Outcomes ( http://arxiv.org/abs/2312.03151v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Lucio Dery, Amrith Setlur, Aditi Raghunathan, Ameet Talwalkar and Graham Neubig(参考訳) 多様なユーザをよく利用する機械学習システムを構築するためには、高い平均パフォーマンスを達成するだけでなく、多様なグループにまたがる公平な結果を保証することが不可欠である。 しかし、ほとんどの機械学習手法は、最悪のグループエラーの影響を考慮せずに、選択したエンドタスクにおけるモデルの平均性能を改善するように設計されている。 マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。 本稿では,MTLが最悪のグループ精度に与える影響を理解するだけでなく,グループワイドフェアネスの課題に対処するためのツールとしての可能性を探る。 我々は主に事前学習モデルの微調整の共通設定を検討し、最近の研究(gururangan et al., 2020; dery et al., 2023)に続いて、最終タスクデータ自身から構築された事前学習目標で最終タスクをマルチタスクする。 グループアノテーションがほとんど、あるいは全くない設定では、マルチタスクは、just-train-twice (jtt; liu et al. (2021)) -- 典型的な分散ロバストな最適化 (dro) メソッドよりも、最悪のグループ精度を達成することが多い。 合成データ実験から得られた知見を活用し,共同マルチタスク表現空間の正規化による標準MTLの変更を提案する。 我々はコンピュータビジョンと自然言語にまたがって多数の微調整実験を行い、我々の正規化されたMTLアプローチは、最悪のグループと平均的なグループの両方でJTTを一貫して上回ります。 公式コードは以下のとおり。 https://github.com/atharvajk98/mtl-group-robustness。

In order to create machine learning systems that serve a variety of users well, it is vital to not only achieve high average performance but also ensure equitable outcomes across diverse groups. However, most machine learning methods are designed to improve a model's average performance on a chosen end task without consideration for their impact on worst group error. Multitask learning (MTL) is one such widely used technique. In this paper, we seek not only to understand the impact of MTL on worst-group accuracy but also to explore its potential as a tool to address the challenge of group-wise fairness. We primarily consider the common setting of fine-tuning a pre-trained model, where, following recent work (Gururangan et al., 2020; Dery et al., 2023), we multitask the end task with the pre-training objective constructed from the end task data itself. In settings with few or no group annotations, we find that multitasking often, but not always, achieves better worst-group accuracy than Just-Train-Twice (JTT; Liu et al. (2021)) -- a representative distributionally robust optimization (DRO) method. Leveraging insights from synthetic data experiments, we propose to modify standard MTL by regularizing the joint multitask representation space. We run a large number of fine-tuning experiments across computer vision and natural language and find that our regularized MTL approach consistently outperforms JTT on both worst and average group outcomes. Our official code can be found here: https://github.com/atharvajk98/MTL-group-robustness.
翻訳日:2023-12-07 16:38:54 公開日:2023-12-05
# 流行予測のための神経パラメータ校正と不確実性定量化

Neural parameter calibration and uncertainty quantification for epidemic forecasting ( http://arxiv.org/abs/2312.03147v1 )

ライセンス: Link先を確認
Thomas Gaskin, Tim Conrad, Grigorios A. Pavliotis, Christof Sch\"utte(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、感染のダイナミクスを正確に予測し、感染パラメータを学習することが重要視されている。 同時に、効果的な政策作成には、例えば病院や集中治療室が必要以上に無駄なリソースを浪費することなく最悪のシナリオに備えられるように、このような予測の不確実性に関する知識が必要である。 本研究では,感染パラメータの確率密度を学習し,パンデミック予測に不確実性量を与える問題に対して,新しい強力な計算手法を適用する。 ニューラルネットワークを用いて、2020年のベルリンにおけるCOVID-19の拡散に関するデータにODEモデルをキャリブレーションし、マルコフ・チェインモンテカルロ(MCMC)ベースのサンプリング手法よりもはるかに正確なキャリブレーションと予測を達成する。 我々の予測の不確実性は、感染数や入院率などの有意義な信頼区間を提供し、一方、神経スキームの訓練と実行には、MCMCが数時間かかる数分を要する。 本研究では,本手法を簡易化したSIRモデルにおいて真の後方への収束性を示すとともに,データの利用可能な少数のコンパートメントから複雑なモデルを学習する縮小データセット上で,本手法の学習能力を実証する。

The recent COVID-19 pandemic has thrown the importance of accurately forecasting contagion dynamics and learning infection parameters into sharp focus. At the same time, effective policy-making requires knowledge of the uncertainty on such predictions, in order, for instance, to be able to ready hospitals and intensive care units for a worst-case scenario without needlessly wasting resources. In this work, we apply a novel and powerful computational method to the problem of learning probability densities on contagion parameters and providing uncertainty quantification for pandemic projections. Using a neural network, we calibrate an ODE model to data of the spread of COVID-19 in Berlin in 2020, achieving both a significantly more accurate calibration and prediction than Markov-Chain Monte Carlo (MCMC)-based sampling schemes. The uncertainties on our predictions provide meaningful confidence intervals e.g. on infection figures and hospitalisation rates, while training and running the neural scheme takes minutes where MCMC takes hours. We show convergence of our method to the true posterior on a simplified SIR model of epidemics, and also demonstrate our method's learning capabilities on a reduced dataset, where a complex model is learned from a small number of compartments for which data is available.
翻訳日:2023-12-07 16:38:05 公開日:2023-12-05
# ガウス図形モデルとグラフラッソの最大精度しきい値

Maximum likelihood thresholds of Gaussian graphical models and graphical lasso ( http://arxiv.org/abs/2312.03145v1 )

ライセンス: Link先を確認
Daniel Irving Bernstein and Hayden Outlaw(参考訳) 各グラフ G に関連するものはガウス図形モデルである。 このようなモデルは高次元の設定、すなわち変数の数に比べてデータポイントが比較的少ない場合にしばしば使用される。 グラフの最大値閾値は、最大値推定を用いて対応するグラフィカルモデルに適合するために必要なデータポイントの最小値である。 グラフィカルラッソ(Graphical lasso)は、グラフィカルモデルを選択して適合させる方法である。 このプロジェクトでは、グラフィカルラッソがnのデータポイントにグラフィカルモデルの選択と適合に使用されるとき、nが対応するグラフの最大許容しきい値以上である確率はどれくらいか? 我々の結果は一連の計算実験である。

Associated to each graph G is a Gaussian graphical model. Such models are often used in high-dimensional settings, i.e. where there are relatively few data points compared to the number of variables. The maximum likelihood threshold of a graph is the minimum number of data points required to fit the corresponding graphical model using maximum likelihood estimation. Graphical lasso is a method for selecting and fitting a graphical model. In this project, we ask: when graphical lasso is used to select and fit a graphical model on n data points, how likely is it that n is greater than or equal to the maximum likelihood threshold of the corresponding graph? Our results are a series of computational experiments.
翻訳日:2023-12-07 16:37:44 公開日:2023-12-05
# FlexModel: 分散大規模言語モデルの解釈可能性のためのフレームワーク

FlexModel: A Framework for Interpretability of Distributed Large Language Models ( http://arxiv.org/abs/2312.03140v1 )

ライセンス: Link先を確認
Matthew Choi, Muhammad Adil Asif, John Willes and David Emerson(参考訳) 数十億のパラメータを取り入れた大規模言語モデルの成長に伴い、トレーニングとデプロイメントのためのハードウェアの前提条件は、それに対応している。 既存のツールはモデルの並列化と分散トレーニングを促進するが、解釈可能性と責任あるAI技術にとって不可欠なモデルインタラクションは、依然として分散コンピューティングの詳細な知識を必要とする。 これはしばしば、機械学習の専門知識を持つ研究者の貢献を妨げるが、分散コンピューティングのバックグラウンドは限られている。 マルチgpuおよびマルチノード構成に分散したモデルを扱うための、合理化されたインターフェースを提供するソフトウェアパッケージであるflexmodelを提案する。 このライブラリは既存のモデル配布ライブラリと互換性があり、pytorchモデルをカプセル化する。 ユーザ登録可能なフック関数を公開し、分散モデル内部とのインタラクションを容易にし、分散モデルと単一デバイスモデルパラダイムのギャップを埋める。 主にFlexModelは、モデルインタラクションの民主化によるアクセシビリティの向上と、大規模ニューラルネットワークの領域におけるより包括的な研究を促進する。 パッケージはhttps://github.com/VectorInstitute/flex_modelにある。

With the growth of large language models, now incorporating billions of parameters, the hardware prerequisites for their training and deployment have seen a corresponding increase. Although existing tools facilitate model parallelization and distributed training, deeper model interactions, crucial for interpretability and responsible AI techniques, still demand thorough knowledge of distributed computing. This often hinders contributions from researchers with machine learning expertise but limited distributed computing background. Addressing this challenge, we present FlexModel, a software package providing a streamlined interface for engaging with models distributed across multi-GPU and multi-node configurations. The library is compatible with existing model distribution libraries and encapsulates PyTorch models. It exposes user-registerable HookFunctions to facilitate straightforward interaction with distributed model internals, bridging the gap between distributed and single-device model paradigms. Primarily, FlexModel enhances accessibility by democratizing model interactions and promotes more inclusive research in the domain of large-scale neural networks. The package is found at https://github.com/VectorInstitute/flex_model.
翻訳日:2023-12-07 16:37:30 公開日:2023-12-05
# AI説明とユーザエージェンシーの関係の概念化

Conceptualizing the Relationship between AI Explanations and User Agency ( http://arxiv.org/abs/2312.03193v1 )

ライセンス: Link先を確認
Iyadunni Adenuga, Jonathan Dodge(参考訳) 誰が、なぜ、説明可能な人工知能(XAI)が、エージェンシーのユーザー目標をサポートするべきなのか? 特に,事例研究と思考実験を通して,ユーザ中心レンズによる代理店と説明の関係を分析した。 提案手法は,利用者が将来的なインタラクションにおいて,より効果的な結果の変換を行えるようにすることで,エージェンシーのためのいくつかの第一歩の1つとなる。 また,XAIシステムでは,説明とユーザコントロールを組み合わせて意味のある変更を行う場合,特に"ティンカー"の方が,より便利である可能性が示唆された。

We grapple with the question: How, for whom and why should explainable artificial intelligence (XAI) aim to support the user goal of agency? In particular, we analyze the relationship between agency and explanations through a user-centric lens through case studies and thought experiments. We find that explanation serves as one of several possible first steps for agency by allowing the user convert forethought to outcome in a more effective manner in future interactions. Also, we observe that XAI systems might better cater to laypersons, particularly "tinkerers", when combining explanations and user control, so they can make meaningful changes.
翻訳日:2023-12-07 16:27:38 公開日:2023-12-05
# $^3$He*原子の退化フェルミガス中の$n$body反バンキング

$n$-body anti-bunching in a degenerate Fermi gas of $^3$He* atoms ( http://arxiv.org/abs/2312.03189v1 )

ライセンス: Link先を確認
Kieran F. Thomas, Shijie Li, A. H. Abbas, Andrew G. Truscott, Sean. S. Hodgman(参考訳) 量子系の研究において重要なものは$n$body相関関数であり、これはコヒーレンスを実験的に決定し、多体波動関数を直接探索する強力なツールを提供する。 フォトニック系の(ボソニックな)相関はよく研究されているが、特にフェルミオン原子の物質波系に存在する相関はいまだに発展している分野である。 本研究では、$^3$He*原子のユニークな単一原子検出特性を用いて、縮退したフェルミガスの5階までの$n$ボディ量子相関を同時測定する。 パウリ排他原理の直接の実証では、全ての順序で明確な反バンチを観察し、予測された相関体積と良好な一致を見出す。 本研究は, 超伝導体におけるd波対など, フェルミオン系に関連するリッチ物理を相関関数を用いて探究する方法を示す。

A key observable in investigations into quantum systems are the $n$-body correlation functions, which provide a powerful tool for experimentally determining coherence and directly probing the many-body wavefunction. While the (bosonic) correlations of photonic systems are well explored, the correlations present in matter-wave systems, particularly for fermionic atoms, are still an emerging field. In this work, we use the unique single-atom detection properties of $^3$He* atoms to perform simultaneous measurements of the $n$-body quantum correlations, up to the fifth-order, of a degenerate Fermi gas. In a direct demonstration of the Pauli exclusion principle, we observe clear anti-bunching at all orders and find good agreement with predicted correlation volumes. Our results pave the way for using correlation functions to probe some of the rich physics associated with fermionic systems, such as d-wave pairing in superconductors.
翻訳日:2023-12-07 16:27:28 公開日:2023-12-05
# ポートベーステレポーテーションのための効率的な量子回路

Efficient quantum circuits for port-based teleportation ( http://arxiv.org/abs/2312.03188v1 )

ライセンス: Link先を確認
Dmitry Grinko, Adam Burchardt, Maris Ozols(参考訳) ポートベーステレポーテーション(Port-based teleportation, PBT)は、Bennettらによる標準プロトコルとは異なり、テレポーテーション状態の修正操作を必要としない量子テレポーテーションの一種である。 2008年に石坂と広島が導入して以来、PSTの効率的な実装は知られていない。 我々は、部分置換行列代数と混合量子シュアー変換の表現に関する最近の結果を基にして、この長年にわたるギャップを閉じる。 任意の局所次元の$n$ポート上での確率的および決定論的PBTプロトコルのための効率的な量子回路について述べる。 例えば、$\widetilde{o}(n)$ time と $o(n\mathrm{log}(n)$ space complexity と $\widetilde{o}(n^2)$ time と $o(\mathrm{log}(n))$ space complexity の両方を達成する標準符号化である。 また,最適資源状態を作成するための効率的な回路について述べる。

Port-based teleportation (PBT) is a variant of quantum teleportation that, unlike the canonical protocol by Bennett et al., does not require a correction operation on the teleported state. Since its introduction by Ishizaka and Hiroshima in 2008, no efficient implementation of PBT was known. We close this long-standing gap by building on our recent results on representations of partially transposed permutation matrix algebras and mixed quantum Schur transform. We describe efficient quantum circuits for probabilistic and deterministic PBT protocols on $n$ ports of arbitrary local dimension, both for EPR and optimized resource states. We describe two constructions based on different encodings of the Gelfand-Tsetlin basis for $n$ qudits: a standard encoding that achieves $\widetilde{O}(n)$ time and $O(n\mathrm{log}(n))$ space complexity, and a Yamanouchi encoding that achieves $\widetilde{O}(n^2)$ time and $O(\mathrm{log}(n))$ space complexity, both for constant local dimension and target error. We also describe efficient circuits for preparing the optimal resource states.
翻訳日:2023-12-07 16:27:08 公開日:2023-12-05
# FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション

FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction ( http://arxiv.org/abs/2312.03187v1 )

ライセンス: Link先を確認
Shuangquan Feng, Junhua Ma, and Virginia R. de Sa(参考訳) 研究者は、テキスト対画像生成モデルに人間の好みフィードバックのデータを使用することを提案した。 しかしながら、手動アノテーションに依存することで、人間のフィードバック収集のスケーラビリティは制限されている。 そこで本研究では,生成画像に対する自発的な表情反応からユーザの好みを自動アノテートする手法を開発した。 本研究では,生成画像に対する表情反応(fergi)のデータセットを収集し,複数の顔行動単位(aus)の活性化が,生成画像のユーザ評価と高い相関性を示す。 特に、AU4は、生成した画像の負の評価を最も一貫して反映している。 これは2つの点で有用である。 まず,AU4応答がかなり異なる画像ペア間のユーザの好みを自動でアノテートでき,精度は最先端のスコアリングモデルよりも大幅に向上する。 次に、AU4レスポンスとスコアモデルを直接統合することで、人間の好みとの一貫性が向上する。 さらに、AU4応答は、ユーザのイメージ忠実度の評価を最も反映しており、画像テキストのアライメントを反映するのが一般的である最先端のスコアリングモデルと相補的である。 最後に、この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。 コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。

Researchers have proposed to use data of human preference feedback to fine-tune text-to-image generative models. However, the scalability of human feedback collection has been limited by its reliance on manual annotation. Therefore, we develop and test a method to automatically annotate user preferences from their spontaneous facial expression reaction to the generated images. We collect a dataset of Facial Expression Reaction to Generated Images (FERGI) and show that the activations of multiple facial action units (AUs) are highly correlated with user evaluations of the generated images. Specifically, AU4 (brow lowerer) is most consistently reflective of negative evaluations of the generated image. This can be useful in two ways. Firstly, we can automatically annotate user preferences between image pairs with substantial difference in AU4 responses to them with an accuracy significantly outperforming state-of-the-art scoring models. Secondly, directly integrating the AU4 responses with the scoring models improves their consistency with human preferences. Additionally, the AU4 response best reflects the user's evaluation of the image fidelity, making it complementary to the state-of-the-art scoring models, which are generally better at reflecting image-text alignment. Finally, this method of automatic annotation with facial expression analysis can be potentially generalized to other generation tasks. The code is available at https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at the same link for research purposes.
翻訳日:2023-12-07 16:26:42 公開日:2023-12-05
# データ駆動型交通再建とカーネル法による渋滞の同定

Data-Driven Traffic Reconstruction and Kernel Methods for Identifying Stop-and-Go Congestion ( http://arxiv.org/abs/2312.03186v1 )

ライセンス: Link先を確認
Edgar Ramirez Sanchez, Shreyaa Raghavan, Cathy Wu(参考訳) 交通流におけるストップ・アンド・ゴー現象(SAGs)の特定は、二酸化炭素排出量、旅行時間、燃料消費、道路安全に重大な影響を及ぼすため、気候変動の緩和と持続可能性に関するデータ駆動研究を進めるための重要な道を示す。 実際、SAGは高速道路の外部交通の33-50%を占めると見積もられている。 しかし、介入設計や政策分析など、下流の意思決定に必要となるSAGの所在、時期、規模を正確に把握するには、十分な注意が払われている。 重要な課題は、研究者や政府に利用可能なデータは、通常、SAGを隠蔽する粒度まで粗く集約されていることだ。 このようなデータ制限を克服するため,SAG識別のための交通再建手法について検討した。 特に,トラフィックの時空間的特徴を識別するカーネルベースの手法を導入し,再構築プロセスの不確かさを定量化するためにブートストラップを利用する。 カリフォルニア高速道路のデータによる実験結果は、SAGを捕捉する手法の可能性を実証している。 この研究は、トラヒックシステムの持続可能性を高めるためのデータ駆動決定の基礎に貢献する。

Identifying stop-and-go events (SAGs) in traffic flow presents an important avenue for advancing data-driven research for climate change mitigation and sustainability, owing to their substantial impact on carbon emissions, travel time, fuel consumption, and roadway safety. In fact, SAGs are estimated to account for 33-50% of highway driving externalities. However, insufficient attention has been paid to precisely quantifying where, when, and how much these SAGs take place -necessary for downstream decision making, such as intervention design and policy analysis. A key challenge is that the data available to researchers and governments are typically sparse and aggregated to a granularity that obscures SAGs. To overcome such data limitations, this study thus explores the use of traffic reconstruction techniques for SAG identification. In particular, we introduce a kernel-based method for identifying spatio-temporal features in traffic and leverage bootstrapping to quantify the uncertainty of the reconstruction process. Experimental results on California highway data demonstrate the promise of the method for capturing SAGs. This work contributes to a foundation for data-driven decision making to advance sustainability of traffic systems.
翻訳日:2023-12-07 16:26:18 公開日:2023-12-05
# スタックオーバーフローにおけるユーザのQ&Aトレースの分析による技術利用拡大の検討

Investigating Technology Usage Span by Analyzing Users' Q&A Traces in Stack Overflow ( http://arxiv.org/abs/2312.03182v1 )

ライセンス: Link先を確認
Saikat Mondal, Debajyoti Mondal, Chanchal K. Roy(参考訳) 適切なソフトウェア開発技術(例えば、プログラミング言語)を選択することは、多様な選択肢が広まるために困難である。 開発に適した技術の選択は、ソフトウェア開発者のキャリアの成長に大きく影響する可能性がある。 作業後、別のテクノロジに切り替えることは、複雑な学習曲線につながる可能性があり、それゆえ、より困難になる。 したがって、ソフトウェア開発者は高い使用率を持つ技術を見つけることが不可欠である。 直感的には、テクノロジの利用範囲は、開発者がそのテクノロジを使用した時間によって決定できる。 既存の文献では、テクノロジ間の複雑で暗黙的な依存関係を探求するテクノロジランドスケープに焦点を当てている。 本稿では,スタックオーバーフロー(so)のq&aトレースを分析して,これまでで最大の技術的q&awebサイトであるstack overflow(so)のq&aトレースを分析した。 特に、約9万のアクティブSOユーザによって投稿された670万のQ&Aトレースを分析し、質問や回答にどのような技術が現れるのかを15年にわたって確認しています。 私たちの分析によると、C#とJavaプログラミング言語は高い使用率を持ち、次いでJavaScriptです。 さらに、開発者は.NET Coreを使用する。 NETフレームワーク、iOSとWindows Operating Systems(OS)、SQLクエリ言語を長い間(平均で)サポートしています。 私たちの研究は、新しく成長する技術も明らかにしています。 例えば、swiftuiや.netといったテクノロジの利用だ。 NET-6.0、Visual Studio 2022、Blazor WebAssemblyフレームワークが増加している。 調査の結果は、初心者開発者、スタートアップソフトウェア産業、ソフトウェア利用者が適切な技術を決定するのに役立つ。 これはまた、将来のソフトウェア技術の利用に関する調査のための最初のベンチマークを確立する。

Choosing an appropriate software development technology (e.g., programming language) is challenging due to the proliferation of diverse options. The selection of inappropriate technologies for development may have a far-reaching effect on software developers' career growth. Switching to a different technology after working with one may lead to a complex learning curve and, thus, be more challenging. Therefore, it is crucial for software developers to find technologies that have a high usage span. Intuitively, the usage span of a technology can be determined by the time span developers have used that technology. Existing literature focuses on the technology landscape to explore the complex and implicit dependencies among technologies but lacks formal studies to draw insights about their usage span. This paper investigates the technology usage span by analyzing the question and answering (Q&A) traces of Stack Overflow (SO), the largest technical Q&A website available to date. In particular, we analyze 6.7 million Q&A traces posted by about 97K active SO users and see what technologies have appeared in their questions or answers over 15 years. According to our analysis, C# and Java programming languages have a high usage span, followed by JavaScript. Besides, developers used the .NET framework, iOS & Windows Operating Systems (OS), and SQL query language for a long time (on average). Our study also exposes the emerging (i.e., newly growing) technologies. For example, usages of technologies such as SwiftUI, .NET-6.0, Visual Studio 2022, and Blazor WebAssembly framework are increasing. The findings from our study can assist novice developers, startup software industries, and software users in determining appropriate technologies. This also establishes an initial benchmark for future investigation on the use span of software technologies.
翻訳日:2023-12-07 16:25:58 公開日:2023-12-05
# インタラクティブナビゲーションのための視覚後視自己模倣学習

Visual Hindsight Self-Imitation Learning for Interactive Navigation ( http://arxiv.org/abs/2312.03446v1 )

ライセンス: Link先を確認
Kibeom Kim, Kisung Shin, Min Whoo Lee, Moonhoen Lee, Minsu Lee, Byoung-Tak Zhang(参考訳) インタラクティブなビジュアルナビゲーションタスクは、特定のターゲットに到達し、対話するための次の命令を伴うが、成功した経験が非常に稀であるだけでなく、複雑な視覚入力にはかなりの数のサンプルを必要とするため、難しい。 これらのタスクの以前の方法は、複雑な設計の密集した報酬や、高価な専門家データを使って模倣学習を行うことが多い。 そこで,これらの課題に取り組むために,視覚後発的自己模倣学習(vhs)という新しいアプローチを提案し,後発的目標の再ラベルと自己模倣を通じてサンプル効率を向上させる。 また,視覚ベースおよび部分観測可能な環境において特に効果的である経験的目標観測に基づく目標埋め込み手法を提案する。 この埋め込み技術により、エージェントは失敗する試みを視覚的に再解釈することができ、視覚に基づくゴールのラベル付けと、成功経験の強化による自己想像を可能にする。 実験の結果、VHSはインタラクティブな視覚ナビゲーションタスクにおいて既存の技術よりも優れており、優れた性能とサンプル効率が確認されている。

Interactive visual navigation tasks, which involve following instructions to reach and interact with specific targets, are challenging not only because successful experiences are very rare but also because the complex visual inputs require a substantial number of samples. Previous methods for these tasks often rely on intricately designed dense rewards or the use of expensive expert data for imitation learning. To tackle these challenges, we propose a novel approach, Visual Hindsight Self-Imitation Learning (VHS) for enhancing sample efficiency through hindsight goal re-labeling and self-imitation. We also introduce a prototypical goal embedding method derived from experienced goal observations, that is particularly effective in vision-based and partially observable environments. This embedding technique allows the agent to visually reinterpret its unsuccessful attempts, enabling vision-based goal re-labeling and self-imitation from enhanced successful experiences. Experimental results show that VHS outperforms existing techniques in interactive visual navigation tasks, confirming its superior performance and sample efficiency.
翻訳日:2023-12-07 15:11:23 公開日:2023-12-05
# Revisiting Game Representations:シークエンシャル決定アルゴリズムにおける隠れた効率のコスト

Revisiting Game Representations: The Hidden Costs of Efficiency in Sequential Decision-making Algorithms ( http://arxiv.org/abs/2112.10890v3 )

ライセンス: Link先を確認
Vojt\v{e}ch Kova\v{r}\'ik, David Milec, Michal \v{S}ustr, Dominik Seitz, Viliam Lis\'y(参考訳) 不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、リミットポーカーやノーリミットポーカーのような大きなゲームで顕著な成功を収めている。 これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化するが、これは理論上は正しいが、実際はメモリ非効率で計算集約的である。 これらの課題を軽減するために、人気のある回避策はプレイヤー固有の情報状態木に基づく特殊表現を使用することである。 しかし、我々が示すように、この代替手段は効率的に表現できるゲームの集合を著しく狭める。 本研究では,現代のアルゴリズムが逐次ベイズゲームで自然に表現されているとベンチマークされた大規模ゲームの集合を同定する。 拡張型ゲームとシーケンシャルベイズゲーム表現の臨界差を理論的および経験的に解明する。 さらに、文献でしばしば引用される印象的な実験結果は、これらのアルゴリズムをこの制限された種類のゲームでのみテストすることに起因するため、歪曲される可能性があると論じる。 これらのニュアンスを理解することで、不完全な情報の下でシーケンシャルな意思決定のためのより普遍的に適用可能で効率的なアルゴリズムを開発するための将来の研究を導くことを目指している。

Recent advancements in algorithms for sequential decision-making under imperfect information have shown remarkable success in large games such as limit- and no-limit poker. These algorithms traditionally formalize the games using the extensive-form game formalism, which, as we show, while theoretically sound, is memory-inefficient and computationally intensive in practice. To mitigate these challenges, a popular workaround involves using a specialized representation based on player specific information-state trees. However, as we show, this alternative significantly narrows the set of games that can be represented efficiently. In this study, we identify the set of large games on which modern algorithms have been benchmarked as being naturally represented by Sequential Bayesian Games. We elucidate the critical differences between extensive-form game and sequential Bayesian game representations, both theoretically and empirically. We further argue that the impressive experimental results often cited in the literature may be skewed, as they frequently stem from testing these algorithms only on this restricted class of games. By understanding these nuances, we aim to guide future research in developing more universally applicable and efficient algorithms for sequential decision-making under imperfect information.
翻訳日:2023-12-07 11:57:28 公開日:2023-12-05
# 非同期バイオプロセスの時系列予測のためのDeep Set Neural Networks

Deep Set Neural Networks for forecasting asynchronous bioprocess timeseries ( http://arxiv.org/abs/2312.02079v2 )

ライセンス: Link先を確認
Maxim Borisyak, Stefan Born, Peter Neubauer and Mariano Nicolas Cruz-Bournazou(参考訳) 栽培実験はしばしばスパース級数と不規則級数を生成する。 機械的なモデルに基づく古典的なアプローチは、最大帰納法やモンテカルロマルコフ連鎖サンプリングのように、スパース性や時間軸の不規則性を簡単に考慮できるが、ほとんどの統計的および機械学習ツールは、箱から外れたデータを扱うために設計されていない。 一般的なアプローチには、欠落した値(計算)と補間を正規グリッド(アラインメント)に埋め込む様々なスキームがある。 しかし、そのような手法は補間モデルや命令モデルのバイアスを対象モデルに伝達する。 入力データのトリプルトエンコーディングを備えたDeep Set Neural Networksは,計算処理やアライメント処理を必要とせずに,バイオプロセスデータの処理に成功できることを示す。 この方法は時系列の特定の性質に非依存であり、オンライン監視、予測制御、実験の設計など、あらゆるタスクに適応することができる。 本研究では,予測に焦点を当てる。 このような手法は, 一般的な栽培プロセスに特に適しており, 実環境下でのマクロ運動成長モデルから生成したデータを用いて, 複数の予測タスクにおける手法の性能を実証し, インプテーションとアライメントに基づく従来の適合法や手法と比較する。

Cultivation experiments often produce sparse and irregular time series. Classical approaches based on mechanistic models, like Maximum Likelihood fitting or Monte-Carlo Markov chain sampling, can easily account for sparsity and time-grid irregularities, but most statistical and Machine Learning tools are not designed for handling sparse data out-of-the-box. Among popular approaches there are various schemes for filling missing values (imputation) and interpolation into a regular grid (alignment). However, such methods transfer the biases of the interpolation or imputation models to the target model. We show that Deep Set Neural Networks equipped with triplet encoding of the input data can successfully handle bio-process data without any need for imputation or alignment procedures. The method is agnostic to the particular nature of the time series and can be adapted for any task, for example, online monitoring, predictive control, design of experiments, etc. In this work, we focus on forecasting. We argue that such an approach is especially suitable for typical cultivation processes, demonstrate the performance of the method on several forecasting tasks using data generated from macrokinetic growth models under realistic conditions, and compare the method to a conventional fitting procedure and methods based on imputation and alignment.
翻訳日:2023-12-07 11:49:09 公開日:2023-12-05
# NeuroMixGDP: プライベートデータリリースのためのニューラルネットワークによるランダム混在

NeuroMixGDP: A Neural Collapse-Inspired Random Mixup for Private Data Release ( http://arxiv.org/abs/2202.06467v2 )

ライセンス: Link先を確認
Donghao Li, Yang Cao and Yuan Yao(参考訳) プライバシ保存型データリリースアルゴリズムは、下流の機械学習タスクを可能にしながら、ユーザのプライバシを保護する能力に注目が集まっている。 しかし、現在の一般的なアルゴリズムの有用性は必ずしも満足のいくものではない。 生データのミックスアップは、新しいデータ拡張方法を提供し、有用性を改善するのに役立つ。 しかし,ディファレンシャルプライバシ(dp)ノイズが付加されると,その性能は著しく低下する。 本稿では,最近観測されたニューラル・コラプス(NC)現象から着想を得た。この現象は,ニューラルネットワークの最終層の特徴が,Equiangular Tight Frame (ETF) として単純な頂点に集中していることを示している。 そこで本研究では,etfシンプレックス構造を活用し,ノイズの多い混合特徴を開放し,データの有用性を高めるために,神経崩壊機能を混合する手法を提案する。 ガウス微分プライバシー(gdp)を用いて最適な混合度に対する漸近率を求める。 混合度が大きい場合の有効性をさらに向上し,ラベル崩壊問題に対処するために,少数のクラスで混合サンプルを階層化するための階層的サンプリング手法を提案する。 この方法はクラス数が大きければ有用性が著しく向上する。 大規模実験により,攻撃防止と実用性向上のための提案手法の有効性が示された。 特に,CIFAR100およびMiniImagenetデータセット上でのDPSGDによる分類ネットワークの直接トレーニングに比べて,実用性は著しく向上し,プライバシー保護データリリースのメリットが浮かび上がっている。 我々は再現可能なコードをhttps://github.com/Lidonghao1996/NeuroMixGDPでリリースします。

Privacy-preserving data release algorithms have gained increasing attention for their ability to protect user privacy while enabling downstream machine learning tasks. However, the utility of current popular algorithms is not always satisfactory. Mixup of raw data provides a new way of data augmentation, which can help improve utility. However, its performance drastically deteriorates when differential privacy (DP) noise is added. To address this issue, this paper draws inspiration from the recently observed Neural Collapse (NC) phenomenon, which states that the last layer features of a neural network concentrate on the vertices of a simplex as Equiangular Tight Frame (ETF). We propose a scheme to mixup the Neural Collapse features to exploit the ETF simplex structure and release noisy mixed features to enhance the utility of the released data. By using Gaussian Differential Privacy (GDP), we obtain an asymptotic rate for the optimal mixup degree. To further enhance the utility and address the label collapse issue when the mixup degree is large, we propose a Hierarchical sampling method to stratify the mixup samples on a small number of classes. This method remarkably improves utility when the number of classes is large. Extensive experiments demonstrate the effectiveness of our proposed method in protecting against attacks and improving utility. In particular, our approach shows significantly improved utility compared to directly training classification networks with DPSGD on CIFAR100 and MiniImagenet datasets, highlighting the benefits of using privacy-preserving data release. We release reproducible code in https://github.com/Lidonghao1996/NeuroMixGDP.
翻訳日:2023-12-06 20:49:52 公開日:2023-12-05
# 線形化量子重力における局所的に媒介される絡み合い

Locally mediated entanglement in linearised quantum gravity ( http://arxiv.org/abs/2202.03368v2 )

ライセンス: Link先を確認
Marios Christodoulou, Andrea Di Biagio, Markus Aspelmeyer, \v{C}aslav Brukner, Carlo Rovelli, Richard Howl(参考訳) 重力によって媒介される絡みを実験室で検出することに対する現在の関心は、情報理論の議論によって引き起こされた: 局所場によって媒介される絡み合いは、場が古典的でないことを証明している。 ここでは、経路積分形式を用いてローレンツ不変性を維持しながら線型化された量子一般相対性理論から導かれる。 この枠組みでは、絡み合いは明らかに場の量子的特徴によって媒介される。 また,即時的相互作用では説明できないような絡み合いの観測の可能性も指摘している。 これは重力の難しい実験であるが、電磁的類似のケースでは妥当である。

The current interest in laboratory detection of entanglement mediated by gravity was sparked by an information--theoretic argument: entanglement mediated by a local field certifies that the field is not classical. Previous derivations of the effect modelled gravity as instantaneous; here we derive it from linearised quantum general relativity while keeping Lorentz invariance explicit, using the path integral formalism. In this framework, entanglement is clearly mediated by a quantum feature of the field. We also point out the possibility of observing retarded entanglement, which cannot be explained by an instantaneous interaction. This is a difficult experiment for gravity, but is plausible for the analogous electromagnetic case.
翻訳日:2023-12-06 20:49:24 公開日:2023-12-05
# 通信深部強化学習エージェントを用いた交通信号制御 : 事例研究

Traffic Signal Control with Communicative Deep Reinforcement Learning Agents: a Case Study ( http://arxiv.org/abs/2107.01347v4 )

ライセンス: Link先を確認
Paolo Fazzini, Isaac Wheeler, Francesco Petracchini(参考訳) 本研究では,適応交通信号制御(ATSC)問題に適用可能なマルチエージェント強化学習アルゴリズムであるマルチエージェント・アドバンテージ・アクタ・クリティカル(MA2C)を分析する。 その可能性を評価するために、ma2cを独立アドバンテージアクタ-クリティック(ia2c)や他の強化学習やヒューリスティックベースアルゴリズムと比較する。 具体的には,アルゴリズムの深い洞察を可能にする非マルコフ決定過程の枠組みを用いて理論的にma2cを解析し,atsc問題に対するソフトウェアモデリングツールであるsumoでシミュレートされたbologna(イタリア)にある2つのトラフィックエリアでテストすることにより,手法の有効性と堅牢性について批判的に検討する。 この結果から,擬似ランダム車流を訓練したMA2Cは,代替手法よりも優れた性能を発揮する可能性が示唆された。

In this work we analyze Multi-Agent Advantage Actor-Critic (MA2C) a recently proposed multi-agent reinforcement learning algorithm that can be applied to adaptive traffic signal control (ATSC) problems. To evaluate its potential we compare MA2C with Independent Advantage Actor-Critic (IA2C) and other Reinforcement Learning or heuristic based algorithms. Specifically, we analyze MA2C theoretically with the framework provided by non-Markov decision processes, which allows a deeper insight of the algorithm, and we critically examine the effectiveness and the robustness of the method by testing it in two traffic areas located in Bologna (Italy) simulated in SUMO, a software modeling tool for ATSC problems. Our results indicate that MA2C, trained with pseudo-random vehicle flows, is a promising technique able to outperform the alternative methods.
翻訳日:2023-12-06 20:48:52 公開日:2023-12-05
# 生成逆ネットワークと他のミニマックス問題の統計的推論

Statistical inference for generative adversarial networks and other minimax problems ( http://arxiv.org/abs/2104.10601v2 )

ライセンス: Link先を確認
Mika Meitz(参考訳) 本稿では,GAN(Generative Adversarial Network)を統計的推論の観点から検討する。 GANは、2つのニューラルネットワーク(ジェネレータと識別器)のパラメータを推定して特定のミニマックス問題を解く、一般的な機械学習手法である。 このミニマックス問題は通常多数の解を持ち、本論文の焦点はこれらの解の統計的性質である。 本稿では,ジェネレータと識別器ネットワークパラメータ,一貫した推定と信頼セットの2つの重要な統計問題に対処する。 まず、サンプル GAN 問題に対する解の集合は、対応する集団 GAN 問題に対する解の集合の(ハウスドルフ)一貫した推定子であることを示す。 次に,信頼集合を形成するための計算集約的な手続きを考案し,これらの集合が所望のカバレッジ確率を持つ人口gan解を含むことを示す。 小さな数値実験とモンテカルロの研究は、我々の結果を示し、理論的な結果を検証する。 また、この結果は、非凸、非凸、複数の解を持つ一般的なミニマックス問題にも適用できることを示した。

This paper studies generative adversarial networks (GANs) from the perspective of statistical inference. A GAN is a popular machine learning method in which the parameters of two neural networks, a generator and a discriminator, are estimated to solve a particular minimax problem. This minimax problem typically has a multitude of solutions and the focus of this paper are the statistical properties of these solutions. We address two key statistical issues for the generator and discriminator network parameters, consistent estimation and confidence sets. We first show that the set of solutions to the sample GAN problem is a (Hausdorff) consistent estimator of the set of solutions to the corresponding population GAN problem. We then devise a computationally intensive procedure to form confidence sets and show that these sets contain the population GAN solutions with the desired coverage probability. Small numerical experiments and a Monte Carlo study illustrate our results and verify our theoretical findings. We also show that our results apply in general minimax problems that may be non-convex, non-concave, and have multiple solutions.
翻訳日:2023-12-06 20:48:32 公開日:2023-12-05
# スケールにおける準次正規化多変量凸回帰

Subgradient Regularized Multivariate Convex Regression at Scale ( http://arxiv.org/abs/2005.11588v3 )

ライセンス: Link先を確認
Wenyu Chen, Rahul Mazumder(参考訳) そこで本研究では,準次正規化多変量凸回帰関数を$d$次元のサンプル$n$に適合させるための新しい大規模アルゴリズムを提案する。 無限次元学習タスクは、$O(nd)$決定変数と$O(n^2)$制約を持つ凸二次プログラム(QP)を介して表現することができる。 数千ドル以下のインスタンスは、合理的なランタイム内で現在のアルゴリズムで対処できるが、より大きな問題(例えば、$n\approx 10^4$ または 10^5$)の解決は計算的に難しい。 この目的のために,双対 qp 上のアクティブセット型アルゴリズムを提案する。 計算スケーラビリティのために,削減された部分問題に対する近似最適化を可能にし,アクティブ集合の拡張のためのランダム化拡張規則を提案する。 我々はアルゴリズムに新しい計算保証を導出する。 提案手法は,10^5$ および $d=10$ の下位次正規化凸回帰問題のインスタンスを数分でほぼ解決できることを実証し,従来の手法と比較して強い計算性能を示す。

We present new large-scale algorithms for fitting a subgradient regularized multivariate convex regression function to $n$ samples in $d$ dimensions -- a key problem in shape constrained nonparametric regression with applications in statistics, engineering and the applied sciences. The infinite-dimensional learning task can be expressed via a convex quadratic program (QP) with $O(nd)$ decision variables and $O(n^2)$ constraints. While instances with $n$ in the lower thousands can be addressed with current algorithms within reasonable runtimes, solving larger problems (e.g., $n\approx 10^4$ or $10^5$) is computationally challenging. To this end, we present an active set type algorithm on the dual QP. For computational scalability, we allow for approximate optimization of the reduced sub-problems; and propose randomized augmentation rules for expanding the active set. We derive novel computational guarantees for our algorithms. We demonstrate that our framework can approximately solve instances of the subgradient regularized convex regression problem with $n=10^5$ and $d=10$ within minutes; and shows strong computational performance compared to earlier approaches.
翻訳日:2023-12-06 20:48:16 公開日:2023-12-05
# 低ノイズチャネルの量子容量とプライベート容量

Quantum and private capacities of low-noise channels ( http://arxiv.org/abs/1705.04335v3 )

ライセンス: Link先を確認
Felix Leditzky, Debbie Leung and Graeme Smith(参考訳) 我々は、低ノイズの量子チャネルの量子容量とプライベート容量の両方を、完全チャネルへのチャネル距離の順に決定する。 脱分極チャネルなど、これらの低ノイズチャネルの容量を決定するために、20年以上、未解決の問題であった。 また,両キャパシティはチャネルの単一レターコヒーレント情報に等しく,また先頭の順序に等しくなることを示した。 その結果,低雑音条件下では,高付加能および縮退符号は量子容量に対して無視できる利点を有し,遮蔽効果は量子容量を超えるプライベートキャパシティを向上しないことがわかった。

We determine both the quantum and the private capacities of low-noise quantum channels to leading orders in the channel's distance to the perfect channel. It has been an open problem for more than 20 years to determine the capacities of some of these low-noise channels such as the depolarizing channel. We also show that both capacities are equal to the single-letter coherent information of the channel, again to leading orders. We thus find that, in the low noise regime, super-additivity and degenerate codes have negligible benefit for the quantum capacity, and shielding does not improve the private capacity beyond the quantum capacity, in stark contrast to the situation when noisier channels are considered.
翻訳日:2023-12-06 20:47:55 公開日:2023-12-05
# ベッチ数推定のための(単純)古典的アルゴリズム

A (simple) classical algorithm for estimating Betti numbers ( http://arxiv.org/abs/2211.09618v3 )

ライセンス: Link先を確認
Simon Apers, Sander Gribling, Sayantan Sen, D\'aniel Szab\'o(参考訳) 経路積分モンテカルロ法を用いて、$k$-th正規化ベッチ数を$n$要素上の単純複素数として推定する簡単なアルゴリズムを記述する。 一般単純複体の場合、アルゴリズムの実行時間は$n^{o\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$であり、$\gamma$は組合せラプラシアンのスペクトルギャップを測定し、$\varepsilon \in (0,1)$は加法精度である。 クリフ複体の場合、我々のアルゴリズムの実行時間は$\left(n/\lambda_{\max}\right)^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\lambda_{\max} \geq k$, ここで$\lambda_{\max}$は組合せラプラシアンの最大固有値である。 本アルゴリズムは、ベッチ数を推定する一連の量子アルゴリズムの古典的なベンチマークを提供する。 クリッド複体では、例えば $\gamma \in \Omega(1)$ と $k \in \Omega(n)$ のランニング時間と一致する。

We describe a simple algorithm for estimating the $k$-th normalized Betti number of a simplicial complex over $n$ elements using the path integral Monte Carlo method. For a general simplicial complex, the running time of our algorithm is $n^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\gamma$ measuring the spectral gap of the combinatorial Laplacian and $\varepsilon \in (0,1)$ the additive precision. In the case of a clique complex, the running time of our algorithm improves to $\left(n/\lambda_{\max}\right)^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\lambda_{\max} \geq k$, where $\lambda_{\max}$ is the maximum eigenvalue of the combinatorial Laplacian. Our algorithm provides a classical benchmark for a line of quantum algorithms for estimating Betti numbers. On clique complexes it matches their running time when, for example, $\gamma \in \Omega(1)$ and $k \in \Omega(n)$.
翻訳日:2023-12-06 20:44:33 公開日:2023-12-05
# コネクテッド・コレレータを用いた2ビット混合状態における量子絡み合いの定量化

Quantifying Quantum Entanglement in Two-Qubit Mixed State from Connected Correlator ( http://arxiv.org/abs/2211.08638v2 )

ライセンス: Link先を確認
Xingyu Guo and Chen-Te Ma(参考訳) 本研究では,量子エンタングルメントの定量化に相関行列を用いた。 この行列は粒子間の絡み合いの程度を評価するために必要な全ての手段を含んでいる。 まず3キュービット状態から始め、1キュービット上で部分的トレースを行うことで混合状態を得る。 我々の目標は、連結関係に焦点をあてて非連結セクターを除外することである。 このことは、連結相関が関連する絡み合い度を捉えるために重要であることを示唆している。 この研究は混合状態を分類し、分離可能な状態が各クラスの中で最も低い相関を示すことを観察する。 相関測度に関して,絡み合い尺度が単調に増加することを示す。 これは、連結相関が量子エンタングルメントの効果的な尺度であることを意味する。 最後に, 量子エンタングルメントを局所的な視点から解釈可能であることを示唆する。 可観測性は局所性を持つベクトルとして記述されるが、選択の自由に反する。

Our study employs a connected correlation matrix to quantify Quantum Entanglement. The matrix encompasses all necessary measures for assessing the degree of entanglement between particles. We begin with a three-qubit state and involve obtaining a mixed state by performing partial tracing over one qubit. Our goal is to exclude the non-connected sector by focusing on the connected correlation. This suggests that the connected correlation is deemed crucial for capturing relevant entanglement degrees. The study classifies mixed states and observes that separable states exhibit the lowest correlation within each class. We demonstrate that the entanglement measure monotonically increases concerning the correlation measure. This implies that connected correlation serves as an effective measure of Quantum Entanglement. Finally, our proposal suggests that interpreting Quantum Entanglement from a local perspective is possible. The observable is described as a vector with locality but violates freedom of choice.
翻訳日:2023-12-06 20:44:02 公開日:2023-12-05
# 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model ( http://arxiv.org/abs/2211.01751v4 )

ライセンス: Link先を確認
Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov(参考訳) ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。 ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。 その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。 しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。 従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。 本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。 提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。

Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model's quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios.
翻訳日:2023-12-06 20:43:33 公開日:2023-12-05
# 医療画像分析と医療の公正性:文献調査

Fairness in Medical Image Analysis and Healthcare: A Literature Survey ( http://arxiv.org/abs/2209.13177v6 )

ライセンス: Link先を確認
Zikang Xu, Jun Li, Qingsong Yao, Han Li, S. Kevin Zhou(参考訳) 自動診断システムでは,機械学習を利用した医用画像解析が不可欠となっている。 しかし、機械学習、特にディープラーニングモデルは、特定のサブグループに対する体系的なバイアスを示すことが示されている。 例えば、女性よりも男性に優先的な予測能力を与え、特に医療シナリオでは不公平で潜在的に有害である。 本稿では,医療画像解析(media)と医療における公平性研究の現状について概観する。 具体的には、まず公平性の定義、不公平さの源泉、潜在的な解決策について論じる。 次に,公平度評価と不公平度軽減によって分類されたMedIAの公正度に関する最近の研究について論じる。 さらに,異なる医療画像タスクの公平性を評価するために,広範な実験を行った。 最後に、公正な医療アプリケーション開発における課題と今後の方向性について論じる。

Machine learning-enabled medical imaging analysis has become a vital part of the automatic diagnosis system. However, machine learning, especially deep learning models have been shown to demonstrate a systematic bias towards certain subgroups of people. For instance, they yield a preferential predictive performance to males over females, which is unfair and potentially harmful especially in healthcare scenarios. In this literature survey, we give a comprehensive review of the current progress of fairness studies in medical image analysis (MedIA) and healthcare. Specifically, we first discuss the definitions of fairness, the source of unfairness and potential solutions. Then, we discuss current research on fairness for MedIA categorized by fairness evaluation and unfairness mitigation. Furthermore, we conduct extensive experiments to evaluate the fairness of different medical imaging tasks. Finally, we discuss the challenges and future directions in developing fair MedIA and healthcare applications
翻訳日:2023-12-06 20:43:20 公開日:2023-12-05
# 相互接触発見

Mutual Contact Discovery ( http://arxiv.org/abs/2209.12003v4 )

ライセンス: Link先を確認
Jaap-Henk Hoepman(参考訳) 連絡先発見により、メッセージングサービスの新規ユーザは、すでにそのサービスを使っている既存の連絡先を見つけることができる。 既存のユーザーも同様に加入する新規ユーザーについて通知される。 これはプライバシーの問題を引き起こします:あなたの電話番号を連絡先リストに登録しているサービスにいる人は、あなたが参加したことを通知されます。 たとえその人物を知らない人でも、あるいはあなたが長い間別れた元同僚で、誰の連絡先の詳細をずっと前に削除したとしても。 そこで本稿では,ユーザ同士が(まだ)お互いの連絡先リストにある場合にのみ,お互いを発見できる相互接触発見プロトコルを提案する。 相互接触発見は、信頼できるハードウェアに頼らずに、従来の一方的なコンタクト発見よりも、よりプライバシーに優しい方法で実装できるという利点がある(例えば、サーバからソーシャルグラフを保護するなど)。

Contact discovery allows new users of a messaging service to find existing contacts that already use that service. Existing users are similarly informed of new users that join. This creates a privacy issue: anyone already on the service that has your number on their contact list gets notified that you joined. Even if you don't know that person, or if it is an ex or former colleague that you long parted with and whose contact details you deleted long ago. To solve this, we propose a mutual contact discovery protocol, that only allow users to discover each other when both are (still) in each other's contact list. Mutual contact discovery has the additional advantage that it can be implemented in a more privacy friendly fashion (e.g. protecting the social graph from the server) than traditional, one-sided contact discovery, without necessarily relying on trusted hardware.
翻訳日:2023-12-06 20:43:10 公開日:2023-12-05
# TokenCut: 自己監督型トランスフォーマーと正規化カットによる画像とビデオ中のオブジェクトのセグメンテーション

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut ( http://arxiv.org/abs/2209.00383v3 )

ライセンス: Link先を確認
Yangtao Wang (M-PSI), Xi Shen, Yuan Yuan (MIT CSAIL), Yuming Du, Maomao Li, Shell Xu Hu, James L Crowley (M-PSI), Dominique Vaufreydaz (M-PSI)(参考訳) 本稿では,自己教師付きトランスフォーマによって得られた特徴を用いて,画像や映像中の有価物の検出とセグメント化を行うグラフベースアルゴリズムについて述べる。 このアプローチにより、画像やビデオを構成する画像パッチは、完全に連結されたグラフに編成され、各パッチ間のエッジに、トランスフォーマーが学習した特徴を用いて、パッチ間の類似度スコアをラベル付けする。 有線物体の検出と分割はグラフカット問題として定式化し、古典的な正規化カットアルゴリズムを用いて解く。 このアプローチの単純さにもかかわらず、いくつかの共通画像およびビデオ検出およびセグメンテーションタスクにおける最先端の結果を達成する。 教師なしのオブジェクト発見において、このアプローチは、VOC07、VOC12、COCO20Kデータセットでテストした場合、それぞれ6.1%、5.7%、および2.6%のマージンで競合するアプローチより優れている。 画像中の教師なし唾液濃度検出タスクでは、IoU(Intersection over Union)のスコアを4.4%、5.6%、5.2%改善する。 現在の最先端技術と比較して、ECSSD、DUTS、DUT-OMRONデータセットでそれぞれテストする。 この方法は、davis、segtv2、fbmsデータセットで教師なしのビデオオブジェクトセグメンテーションタスクの競合結果も得る。

In this paper, we describe a graph-based algorithm that uses the features obtained by a self-supervised transformer to detect and segment salient objects in images and videos. With this approach, the image patches that compose an image or video are organised into a fully connected graph, where the edge between each pair of patches is labeled with a similarity score between patches using features learned by the transformer. Detection and segmentation of salient objects is then formulated as a graph-cut problem and solved using the classical Normalized Cut algorithm. Despite the simplicity of this approach, it achieves state-of-the-art results on several common image and video detection and segmentation tasks. For unsupervised object discovery, this approach outperforms the competing approaches by a margin of 6.1%, 5.7%, and 2.6%, respectively, when tested with the VOC07, VOC12, and COCO20K datasets. For the unsupervised saliency detection task in images, this method improves the score for Intersection over Union (IoU) by 4.4%, 5.6% and 5.2%. When tested with the ECSSD, DUTS, and DUT-OMRON datasets, respectively, compared to current state-of-the-art techniques. This method also achieves competitive results for unsupervised video object segmentation tasks with the DAVIS, SegTV2, and FBMS datasets.
翻訳日:2023-12-06 20:42:48 公開日:2023-12-05
# マルチエージェント強化学習における責任拡散問題の解決のための政策共鳴アプローチ

A Policy Resonance Approach to Solve the Problem of Responsibility Diffusion in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2208.07753v3 )

ライセンス: Link先を確認
Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Xiaolin Ai, Wanmai Yuan(参考訳) sotaマルチエージェント強化アルゴリズムは、その単一エージェント等価性から多くの点で自己を区別する。 しかし、その多くは単独の探査・探査戦略を完全に継承している。 単一エージェントアルゴリズムからこの戦略を無意識に継承することは、潜在的にコラボレーションの失敗を引き起こし、エージェントは主流の行動に盲目的に従い、少数派の責任を負うことを拒否する。 我々はこの問題を責任拡散(RD)と呼び、同名の社会心理学効果と類似性を共有する。 本研究では,このRD問題の原因を理論的に解析し,マルチエージェントシステム(特に大規模マルチエージェントシステム)の探索・探索ジレンマに遡ることができる。 本稿では,政策共振(pr)アプローチを提案し,協調エージェント政策をリファクタリングし,個々の政策をほぼ不変に保ちながらエージェントの協調的探索戦略を変更する。 次に,複雑な協調作業におけるエージェントの協調性能向上にsotaアルゴリズムを応用できることを示す。 実験は複数のテストベンチマークタスクで行われ、このアプローチの有効性を説明する。

SOTA multiagent reinforcement algorithms distinguish themselves in many ways from their single-agent equivalences. However, most of them still totally inherit the single-agent exploration-exploitation strategy. Naively inheriting this strategy from single-agent algorithms causes potential collaboration failures, in which the agents blindly follow mainstream behaviors and reject taking minority responsibility. We name this problem the Responsibility Diffusion (RD) as it shares similarities with a same-name social psychology effect. In this work, we start by theoretically analyzing the cause of this RD problem, which can be traced back to the exploration-exploitation dilemma of multiagent systems (especially large-scale multiagent systems). We address this RD problem by proposing a Policy Resonance (PR) approach which modifies the collaborative exploration strategy of agents by refactoring the joint agent policy while keeping individual policies approximately invariant. Next, we show that SOTA algorithms can equip this approach to promote the collaborative performance of agents in complex cooperative tasks. Experiments are performed in multiple test benchmark tasks to illustrate the effectiveness of this approach.
翻訳日:2023-12-06 20:42:06 公開日:2023-12-05
# 画像によるポイント発見:UAV自己ローカライゼーションの簡便かつ効率的な方法

Finding Point with Image: A Simple and Efficient Method for UAV Self-Localization ( http://arxiv.org/abs/2208.06561v2 )

ライセンス: Link先を確認
Ming Dai, Enhui Zheng, Zhenhua Feng, Jiahao Chen, Wankou Yang(参考訳) 画像検索は無人航空機(UAV)の自己ローカライゼーションタスクの顕著な解決策として浮上している。 しかし、このアプローチは複雑な前処理と後処理を伴い、計算資源とストレージ資源の両方にかなりの要求を課す。 本報告では,衛星画像におけるUAVの対応する位置を,UAVビュー画像を介して直接識別することを目的とした,画像付きポイント(FPI)のエンドツーエンド位置決めフレームワークを提案する。 本フレームワークの実用性を検証するため,UAVと衛星ビューからなるUL14というペアデータセットを構築した。 さらに、エンドツーエンドのトレーニングと推論のための2つのトランスフォーマーベースベースラインモデル、Post FusionとMix Fusionを構築した。 実験により、バックボーンネットワークにおける融合は、後続の融合よりも優れた性能が得られると結論付けることができる。 さらに、ペア画像の単一性を考慮して、ペアデータの多様性を高めるためにランダムスケールクロップ(RSC)を提案する。 また、正と負のサンプルの比率と重み付けはモデル収束において重要な役割を果たす。 そこで本研究では, 正および負の試料の影響を評価するために, 重量バランス損失 (WBL) を実験的に検証し, 提案した。 最後に,Mix Fusion 構造をベースとしたベースラインは,画像検索法と同等あるいはそれ以上の性能を達成しつつ,それぞれ1/24 と 1/68 に留まり,時間と記憶効率に優れた性能を示す。 データセットとコードは公開される予定だ。

Image retrieval has emerged as a prominent solution for the self-localization task of unmanned aerial vehicles (UAVs). However, this approach involves complicated pre-processing and post-processing operations, placing significant demands on both computational and storage resources. To mitigate this issue, this paper presents an end-to-end positioning framework, namely Finding Point with Image (FPI), which aims to directly identify the corresponding location of a UAV in satellite-view images via a UAV-view image. To validate the practicality of our framework, we construct a paired dataset, namely UL14, that consists of UAV and satellite views. In addition, we establish two transformer-based baseline models, Post Fusion and Mix Fusion, for end-to-end training and inference. Through experiments, we can conclude that fusion in the backbone network can achieve better performance than later fusion. Furthermore, considering the singleness of paired images, Random Scale Crop (RSC) is proposed to enrich the diversity of the paired data. Also, the ratio and weight of positive and negative samples play a key role in model convergence. Therefore, we conducted experimental verification and proposed a Weight Balance Loss (WBL) to weigh the impact of positive and negative samples. Last, our proposed baseline based on Mix Fusion structure exhibits superior performance in time and storage efficiency, amounting to just 1/24 and 1/68, respectively, while delivering comparable or even superior performance compared to the image retrieval method. The dataset and code will be made publicly available.
翻訳日:2023-12-06 20:41:46 公開日:2023-12-05
# 量子確率過程からの予測的作業抽出のためのエンジン

Engines for predictive work extraction from memoryful quantum stochastic processes ( http://arxiv.org/abs/2207.03480v4 )

ライセンス: Link先を確認
Ruo Cheng Huang, Paul M. Riechers, Mile Gu, and Varun Narasimhachar(参考訳) 量子情報処理技術は、古典的な自由エネルギーに加えて、システムの本質的に量子的な特徴から仕事の抽出を可能にする。 一方、計算力学の科学は、非マルコフ古典および量子確率過程の予測モデリングのためのツールを与える。 これら2つの科学のツールを組み合わせて、量子出力を持つ非マルコフ確率過程から予測作業を抽出する手法を開発した。 提案手法は,非予測的な量子ワーク抽出プロトコルよりも多くの作業を抽出することができ,また,量子情報処理を伴わない予測作業抽出が可能であることを実証する。 古典的前例のない量子プロセスからの作業抽出において,メモリの有効性において相転移が認められる。 我々の研究は、基本的に量子的、本質的に時間的に変化する形で環境自由エネルギーを利用する機械の展望を開放する。

Quantum information-processing techniques enable work extraction from a system's inherently quantum features, in addition to the classical free energy it contains. Meanwhile, the science of computational mechanics affords tools for the predictive modeling of non-Markovian classical and quantum stochastic processes. We combine tools from these two sciences to develop a technique for predictive work extraction from non-Markovian stochastic processes with quantum outputs. We demonstrate that this technique can extract more work than non-predictive quantum work extraction protocols, on one hand, and predictive work extraction without quantum information processing, on the other. We discover a phase transition in the efficacy of memory for work extraction from quantum processes, which is without classical precedent. Our work opens up the prospect of machines that harness environmental free energy in an essentially quantum, essentially time-varying form.
翻訳日:2023-12-06 20:41:00 公開日:2023-12-05
# 多くの弱・無効な楽器による楽器変数推定について

On the instrumental variable estimation with many weak and invalid instruments ( http://arxiv.org/abs/2207.03035v2 )

ライセンス: Link先を確認
Yiqi Lin, Frank Windmeijer, Xinyuan Song, Qingliang Fan(参考訳) 線形インスツルメンタル変数(IV)モデルにおける同定の基本的な問題点について検討する。 計算アルゴリズムでは,複数のルールに匹敵する「スパース・ルール」を仮定して,2段階選択に基づく他のIV推定器に対する非凸ペナル化手法の利点を,選択の整合性および個々に弱いIVの収容性の観点から検討し,証明する。 さらに,oracle のスパース構造を同時に提供するため,識別条件に適合するサロゲートスパルセストペナルティを提案する。 従来より弱いiv強度条件を持つ推定器に対して望ましい理論的性質が導出されている。 シミュレーションを用いて有限試料特性を実証し,BMIが拡張期血圧に及ぼす影響に関する実験的検討に選択と推定法を適用した。

We discuss the fundamental issue of identification in linear instrumental variable (IV) models with unknown IV validity. With the assumption of the "sparsest rule", which is equivalent to the plurality rule but becomes operational in computation algorithms, we investigate and prove the advantages of non-convex penalized approaches over other IV estimators based on two-step selections, in terms of selection consistency and accommodation for individually weak IVs. Furthermore, we propose a surrogate sparsest penalty that aligns with the identification condition and provides oracle sparse structure simultaneously. Desirable theoretical properties are derived for the proposed estimator with weaker IV strength conditions compared to the previous literature. Finite sample properties are demonstrated using simulations and the selection and estimation method is applied to an empirical study concerning the effect of BMI on diastolic blood pressure.
翻訳日:2023-12-06 20:40:46 公開日:2023-12-05
# 不確実性セット正規化を伴う連続制御タスクにおけるロバスト強化学習

Robust Reinforcement Learning in Continuous Control Tasks with Uncertainty Set Regularization ( http://arxiv.org/abs/2207.02016v4 )

ライセンス: Link先を確認
Yuan Zhang, Jianhong Wang, Joschka Boedecker(参考訳) 強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されており、現実世界のロボット工学への応用を過度に制限している。 以前は、値関数に正規化を追加することは、不確実な遷移を伴う堅牢なポリシーを学ぶことと等価であると主張した。 正規化・ロバスト性変換はその単純さと効率をアピールしているが、それでも連続制御タスクには欠けている。 本稿では、遷移関数のパラメータ空間上の不確かさを定式化することにより、 $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR) という新しい正規化器を提案する。 特にUSRは、既存のRLフレームワークにプラグインできるほど柔軟です。 未知の不確実性集合に対処するために,我々はさらに,値関数に基づいてそれを生成するための新しい敵対的アプローチを提案する。 実世界の強化学習(rwrl)ベンチマークでusrを評価し,摂動テスト環境におけるロバスト性能の改善を実証した。

Reinforcement learning (RL) is recognized as lacking generalization and robustness under environmental perturbations, which excessively restricts its application for real-world robotics. Prior work claimed that adding regularization to the value function is equivalent to learning a robust policy with uncertain transitions. Although the regularization-robustness transformation is appealing for its simplicity and efficiency, it is still lacking in continuous control tasks. In this paper, we propose a new regularizer named $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR), by formulating the uncertainty set on the parameter space of the transition function. In particular, USR is flexible enough to be plugged into any existing RL framework. To deal with unknown uncertainty sets, we further propose a novel adversarial approach to generate them based on the value function. We evaluate USR on the Real-world Reinforcement Learning (RWRL) benchmark, demonstrating improvements in the robust performance for perturbed testing environments.
翻訳日:2023-12-06 20:40:31 公開日:2023-12-05
# 境界モデルを用いた散乱不確かさログのオフラインおよびオンラインエネルギー効率モニタリング

Offline and online energy-efficient monitoring of scattered uncertain logs using a bounding model ( http://arxiv.org/abs/2204.11505v4 )

ライセンス: Link先を確認
Bineet Ghosh and \'Etienne Andr\'e(参考訳) 分散サイバー物理システムの正確性を監視することは不可欠である。 潜在的な安全性違反の検出は、いくつかのサンプルが不確実または欠落している場合に難しい。 ここではブラックボックスのサイバー物理システムを監視し、ログは状態とタイムスタンプの両方で不確実である。 さらに、動的システムの非線形拡張によって与えられる過近似だが表現的モデルを利用する。 オフラインログを前提にすれば,不正アラームの数を限定して,安全仕様に対するログ監視が可能になります。 第2の貢献として,エネルギッシュな効率を目標として,サンプルトリガー数を最小化する手法をオンライン上で実施できることを実証した。 我々は,3つのベンチマーク,麻酔モデル,適応型クルーズコントローラ,航空機軌道システムにアプローチを適用した。

Monitoring the correctness of distributed cyber-physical systems is essential. Detecting possible safety violations can be hard when some samples are uncertain or missing. We monitor here black-box cyber-physical system, with logs being uncertain both in the state and timestamp dimensions: that is, not only the logged value is known with some uncertainty, but the time at which the log was made is uncertain too. In addition, we make use of an over-approximated yet expressive model, given by a non-linear extension of dynamical systems. Given an offline log, our approach is able to monitor the log against safety specifications with a limited number of false alarms. As a second contribution, we show that our approach can be used online to minimize the number of sample triggers, with the aim at energetic efficiency. We apply our approach to three benchmarks, an anesthesia model, an adaptive cruise controller and an aircraft orbiting system.
翻訳日:2023-12-06 20:40:05 公開日:2023-12-05
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v4 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,産業的な視点から効率的な3d物体検出の課題に取り組むため,配置に優しい柱型3d検出器「fastpillars」を開発した。 まず,小型の3Dオブジェクトを拡張可能な軽量なMax-and-Attention Pillar Encoding (MAPE) モジュールを提案する。 第2に,柱型3d検出におけるバックボーンの設計において,単純かつ効果的な原理を提案する。 これらの設計に基づいてFastPillarを構築し,SPConvなしで高い性能と低レイテンシを実現する。 2つの大規模データセットに関する広範囲な実験は、性能と速度の両方に関するデバイス上の3d検出におけるfastpillarの有効性と効率を示している。 具体的には、FastPillarsはWaymo Open Datasetの最先端の精度を1.8倍、CenterPoint(SPConvベース)よりも3.8mAPH/L2改善している。 私たちのコードは、https://github.com/StiphyJay/FastPillars.comで公開されています。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolutions (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment, especially for on-device applications. In this paper, to tackle the challenge of efficient 3D object detection from an industry perspective, we devise a deployment-friendly pillar-based 3D detector, termed FastPillars. First, we introduce a novel lightweight Max-and-Attention Pillar Encoding (MAPE) module specially for enhancing small 3D objects. Second, we propose a simple yet effective principle for designing a backbone in pillar-based 3D detection. We construct FastPillars based on these designs, achieving high performance and low latency without SPConv. Extensive experiments on two large-scale datasets demonstrate the effectiveness and efficiency of FastPillars for on-device 3D detection regarding both performance and speed. Specifically, FastPillars delivers state-of-the-art accuracy on Waymo Open Dataset with 1.8X speed up and 3.8 mAPH/L2 improvement over CenterPoint (SPConv-based). Our code is publicly available at: https://github.com/StiphyJay/FastPillars.
翻訳日:2023-12-06 20:33:07 公開日:2023-12-05
# スコアマッチングによる逆物理問題の解法

Solving Inverse Physics Problems with Score Matching ( http://arxiv.org/abs/2301.10250v2 )

ライセンス: Link先を確認
Benjamin J. Holzschuh, Simona Vegetti, Nils Thuerey(参考訳) 拡散モデルの最近の進歩を活用して,物理系の時間的進化に関わる逆問題を解決することを提案する。 本手法は, 近似逆物理学シミュレータと学習補正関数を組み合わせることで, システムの電流状態を段階的に後方に移動させる。 我々の研究の中心的な洞察は、学習した補正を1ステップの損失でトレーニングすることはスコアマッチングの目標に相当し、訓練中の軌道の長い部分を再帰的に予測することは、対応する確率フローの最大確率トレーニングに関係している、ということである。 本アルゴリズムの長所は,標準分位スコアマッチングと暗黙的スコアマッチング,および幅広い逆物理学問題に対する完全学習ベースラインと比較した点である。 得られた逆解法は精度と時間安定性に優れ、他の学習された逆解法とは対照的に、解の後方をサンプリングすることができる。

We propose to solve inverse problems involving the temporal evolution of physics systems by leveraging recent advances from diffusion models. Our method moves the system's current state backward in time step by step by combining an approximate inverse physics simulator and a learned correction function. A central insight of our work is that training the learned correction with a single-step loss is equivalent to a score matching objective, while recursively predicting longer parts of the trajectory during training relates to maximum likelihood training of a corresponding probability flow. We highlight the advantages of our algorithm compared to standard denoising score matching and implicit score matching, as well as fully learned baselines for a wide range of inverse physics problems. The resulting inverse solver has excellent accuracy and temporal stability and, in contrast to other learned inverse solvers, allows for sampling the posterior of the solutions.
翻訳日:2023-12-06 20:32:43 公開日:2023-12-05
# アンサンブル学習における多様性の統一理論

A Unified Theory of Diversity in Ensemble Learning ( http://arxiv.org/abs/2301.03962v2 )

ライセンス: Link先を確認
Danny Wood and Tingting Mu and Andrew Webb and Henry Reeve and Mikel Lujan and Gavin Brown(参考訳) 本稿では,多様な教師付き学習シナリオにおける多様性の性質を説明するアンサンブル多様性の理論を提案する。 アンサンブルの多様性を理解するというこの課題は、30年以上にわたるオープンな研究課題であるアンサンブル学習の「聖杯」と呼ばれている。 この枠組みは,アンサンブル損失のバイアス分散分解において,多様性が隠された次元であることを明らかにする。 回帰と分類、例えば正方形、クロスエントロピー、ポアソンの損失について、正確なバイアス分散-多様性分解の族を証明した。 加法バイアス分散分解が得られない損失(例えば 0/1 の損失)に対しては、多様性の効果を正確に定量化し、ラベル分布に依存することが判明する別のアプローチを提案する。 実験では,バッキング,ブースティング,ランダムフォレストといった一般的な手法の多様性向上メカニズムを理解するために,我々のフレームワークをどのように利用できるかを示す。

We present a theory of ensemble diversity, explaining the nature of diversity for a wide range of supervised learning scenarios. This challenge, of understanding ensemble diversity, has been referred to as the "holy grail" of ensemble learning, an open research issue for over 30 years. Our framework reveals that diversity is in fact a hidden dimension in the bias-variance decomposition of the ensemble loss. We prove a family of exact bias-variance-diversity decompositions, for both regression and classification, e.g., squared, cross-entropy, and Poisson losses. For losses where an additive bias-variance decomposition is not available (e.g., 0/1 loss) we present an alternative approach, which precisely quantifies the effects of diversity, turning out to be dependent on the label distribution. Experiments show how we can use our framework to understand the diversity-encouraging mechanisms of popular methods: Bagging, Boosting, and Random Forests.
翻訳日:2023-12-06 20:32:14 公開日:2023-12-05
# バランスはエッセンス:適応的勾配補正によるスパーストレーニングの加速

Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction ( http://arxiv.org/abs/2301.03573v2 )

ライセンス: Link先を確認
Bowen Lei, Dongkuan Xu, Ruqi Zhang, Shuren He, Bani K. Mallick(参考訳) 優れたパフォーマンスにもかかわらず、ディープニューラルネットワークはメモリと計算コストを大幅に削減し、リソース制約のあるシナリオでの応用を禁止している。 スパーストレーニングはこれらのコストを削減する最も一般的な手法の1つであるが、スパース制約は最適化に困難をもたらし、トレーニング時間と不安定性が増大する。 本研究では,この問題を克服し,時空協調効率の実現を目指す。 スパーストレーニングの収束を加速・安定化するために,勾配変化を分析し,適応勾配補正法を開発した。 具体的には,2つの勾配のバランスを取って補正勾配を得るために用いられる電流勾配と先行勾配の相関を近似する。 提案手法は,標準と逆の双方で,最も一般的なスパーストレーニングパイプラインで使用することができる。 理論上,本手法はスパーストレーニングの収束速度を加速できることを実証する。 複数のデータセット、モデルアーキテクチャ、スパース性に関する広範囲な実験により、同じトレーニングエポック数を考慮すれば、本手法は、最大で偏ったトレーニングメソッドを最大で \textbf{5.0\%} の精度で上回り、同じ精度を達成するために最大で \textbf{52.1\%} のトレーニングエポック数を減少させることが示された。 私たちのコードは下記のとおりです。

Despite impressive performance, deep neural networks require significant memory and computation costs, prohibiting their application in resource-constrained scenarios. Sparse training is one of the most common techniques to reduce these costs, however, the sparsity constraints add difficulty to the optimization, resulting in an increase in training time and instability. In this work, we aim to overcome this problem and achieve space-time co-efficiency. To accelerate and stabilize the convergence of sparse training, we analyze the gradient changes and develop an adaptive gradient correction method. Specifically, we approximate the correlation between the current and previous gradients, which is used to balance the two gradients to obtain a corrected gradient. Our method can be used with the most popular sparse training pipelines under both standard and adversarial setups. Theoretically, we prove that our method can accelerate the convergence rate of sparse training. Extensive experiments on multiple datasets, model architectures, and sparsities demonstrate that our method outperforms leading sparse training methods by up to \textbf{5.0\%} in accuracy given the same number of training epochs, and reduces the number of training epochs by up to \textbf{52.1\%} to achieve the same accuracy. Our code is available on: \url{https://github.com/StevenBoys/AGENT}.
翻訳日:2023-12-06 20:31:57 公開日:2023-12-05
# motor: 構造化医療記録のためのイベントファウンデーションモデル

MOTOR: A Time-To-Event Foundation Model For Structured Medical Records ( http://arxiv.org/abs/2301.03150v4 )

ライセンス: Link先を確認
Ethan Steinberg, Jason Fries, Yizhe Xu, Nigam Shah(参考訳) 電子健康記録(EHR)および健康保険請求における事象の時系列を事前学習したMOTOR(Many Outcome Time Oriented Representations)と呼ばれる,自己監督型TTE基盤モデルを提案する。 tteモデルは特定の事象が起こるまでの時間の確率分布を推定するために使用され、医療現場では重要なタスクである。 TTEモデルは、自然に検閲された観測データを扱うなど、固定時間地平線を用いた分類よりも多くの利点を提供するが、ラベル付きデータで訓練することは困難である。 MOTORはこの課題に対処するため、最大55万件の患者記録(9B臨床イベント)を事前トレーニングする。 3つの患者データベース(プライベートEHRシステム,MIMIC-IV,Merativeクレームデータ)を対象に,MOTORの移動学習性能を評価した。 MOTORから適応されたタスク固有モデルは、最先端のC統計を4.6%改善し、ラベル効率を最大95%改善し、時間分布シフトに対してより堅牢である。 さらに、MIMIC-IVデータセット上の6つの予測タスクに対してMOTOR基盤モデルを適用することで、クロスサイトポータビリティを評価する。 MOTORは医学的TTE予測のための最初の基礎モデルであり、[reacted URL]での研究用の143Mパラメータ事前トレーニングモデルをリリースする。

We present a self-supervised, time-to-event (TTE) foundation model called MOTOR (Many Outcome Time Oriented Representations) which is pretrained on timestamped sequences of events in electronic health records (EHR) and health insurance claims. TTE models are used for estimating the probability distribution of the time until a specific event occurs, which is an important task in medical settings. TTE models provide many advantages over classification using fixed time horizons, including naturally handling censored observations, but are challenging to train with limited labeled data. MOTOR addresses this challenge by pretraining on up to 55M patient records (9B clinical events). We evaluate MOTOR's transfer learning performance on 19 tasks, across 3 patient databases (a private EHR system, MIMIC-IV, and Merative claims data). Task-specific models adapted from MOTOR improve time-dependent C statistics by 4.6% over state-of-the-art, improve label efficiency by up to 95% ,and are more robust to temporal distributional shifts. We further evaluate cross-site portability by adapting our MOTOR foundation model for six prediction tasks on the MIMIC-IV dataset, where it outperforms all baselines. MOTOR is the first foundation model for medical TTE predictions and we release a 143M parameter pretrained model for research use at [redacted URL].
翻訳日:2023-12-06 20:31:31 公開日:2023-12-05
# テキスト要約のための逆強化学習

Inverse Reinforcement Learning for Text Summarization ( http://arxiv.org/abs/2212.09917v2 )

ライセンス: Link先を確認
Yu Fu, Deyi Xiong, Yue Dong(参考訳) 本稿では,人間の要約行動を模倣した抽象的要約モデルの学習に有効なパラダイムとして,逆強化学習(IRL)を導入する。 我々のIRLモデルは、重要なサブリワードの集合を用いて報酬関数を推定し、ポリシーネットワークを同時に最適化する。 異なる領域のデータセット(CNN/DailyMail と WikiHow)と様々なモデルサイズ(BART-base と BART-large)にまたがる実験結果から,提案した IRL モデルが MLE と RL のベースラインよりも優れていることを示す。 結果として得られた要約は、ルージュ、カバレッジ、ノベルティ、圧縮比、事実性、人間評価などの指標のmleおよびrlベースラインよりも高い類似性を示している。

We introduce inverse reinforcement learning (IRL) as an effective paradigm for training abstractive summarization models, imitating human summarization behaviors. Our IRL model estimates the reward function using a suite of important sub-rewards for summarization and concurrently optimizes the policy network. Experimental results across datasets in different domains (CNN/DailyMail and WikiHow) and various model sizes (BART-base and BART-large) demonstrate the superiority of our proposed IRL model for summarization over MLE and RL baselines. The resulting summaries exhibit greater similarity to human-crafted gold references, outperforming MLE and RL baselines on metrics such as ROUGE, coverage, novelty, compression ratio, factuality, and human evaluations.
翻訳日:2023-12-06 20:30:51 公開日:2023-12-05
# su(2)$ の還元可能表現のための近傍可換行列の構築と緒方定理への応用

Constructing Nearby Commuting Matrices for Reducible Representations of $su(2)$ with an Application to Ogata's Theorem ( http://arxiv.org/abs/2212.06012v2 )

ライセンス: Link先を確認
David Herrera (Rutgers University)(参考訳) フォン・ノイマンの予想を解くと、arxiv:1111.5933 のオガタの定理は、n$ のサイトと固定されたサイト次元 $d$ のマクロ可観測量に対応する行列が、漸近的に近傍の可換可観測量 $n \to \infty$ である非常に非自明な結果を示した。 本論文では,既約部分表現の多重度が一定の単調な減少挙動を示す$su(2)$の正規化高既約表現に対して,近傍の可換行列を構築する手法を開発した。 次に、現場次元 $d=2$ に対するオガタの定理の構成的証明と、近傍の可観測物がどれほど近いかを明確に見積もる。 さらに、arxiv:1012.3494で探究された時間反転対称性の適用により、実巨視可観測性は漸近的に近傍の実可換可観測性を有するという性質を持つ。

Resolving a conjecture of von Neumann, Ogata's theorem in arXiv:1111.5933 showed the highly nontrivial result that arbitrarily many matrices corresponding to macroscopic observables with $N$ sites and a fixed site dimension $d$ are asymptotically nearby commuting observables as $N \to \infty$. In this paper, we develop a method to construct nearby commuting matrices for normalized highly reducible representations of $su(2)$ whose multiplicities of irreducible subrepresentations exhibit a certain monotonically decreasing behavior. We then provide a constructive proof of Ogata's theorem for site dimension $d=2$ with explicit estimates for how close the nearby observables are. Moreover, motivated by the application to time-reversal symmetry explored in arXiv:1012.3494, our construction has the property that real macroscopic observables are asymptotically nearby real commuting observables.
翻訳日:2023-12-06 20:30:02 公開日:2023-12-05
# フェイク機能による正規化トレードオフ

Regularization Trade-offs with Fake Features ( http://arxiv.org/abs/2212.00433v2 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) 近年の過パラメータモデルの成功は、過パラメータモデルがうまく一般化できる基礎となる条件を調査する新しい一連の研究に影響を与えている。 本稿では、過度にパラメータ化されたモデルに偽の機能、すなわちモデルに存在するがデータには存在しない機能を含むフレームワークについて考察する。 擬似特徴を持つモデルの誤特定の下で、リッジ回帰問題の一般化誤差に縛られる非漸近的高確率を示す。 以上の結果から,偽特徴による暗黙的正規化とリッジパラメータによる明示的正規化との相互作用について考察する。 数値計算の結果, 擬似特徴数と最適リッジパラメータとのトレードオフが, 擬似特徴数に大きく依存することを示す。

Recent successes of massively overparameterized models have inspired a new line of work investigating the underlying conditions that enable overparameterized models to generalize well. This paper considers a framework where the possibly overparametrized model includes fake features, i.e., features that are present in the model but not in the data. We present a non-asymptotic high-probability bound on the generalization error of the ridge regression problem under the model misspecification of having fake features. Our highprobability results provide insights into the interplay between the implicit regularization provided by the fake features and the explicit regularization provided by the ridge parameter. Numerical results illustrate the trade-off between the number of fake features and how the optimal ridge parameter may heavily depend on the number of fake features.
翻訳日:2023-12-06 20:29:42 公開日:2023-12-05
# 分散最適化による継続的学習:CoCoAは忘れているか?

Continual Learning with Distributed Optimization: Does CoCoA Forget? ( http://arxiv.org/abs/2211.16994v4 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) タスクが順次到着し,前回見たタスクのパフォーマンス低下を伴わずに新たに到着したタスクをうまく実行することを目的とした,連続学習問題に焦点を当てた。 中央集権的設定に着目した連続学習文学とは対照的に,分散推定フレームワークについて検討する。 分散学習アルゴリズムCOCOAについて検討する。 過パラメータ化の場合の反復に対する閉形式式を導出する。 本稿では,問題のオーバー/アンダーパラメータ化に基づくアルゴリズムの収束と誤差性能について述べる。 以上の結果から,COCOAは課題の列を通じて連続的な学習を行うことが可能であること,すなわち,一度に1つのタスクにのみアクセスすることで,以前学習したタスクを忘れることなく新しいタスクを学習できることが示唆された。

We focus on the continual learning problem where the tasks arrive sequentially and the aim is to perform well on the newly arrived task without performance degradation on the previously seen tasks. In contrast to the continual learning literature focusing on the centralized setting, we investigate the distributed estimation framework. We consider the well-established distributed learning algorithm COCOA. We derive closed form expressions for the iterations for the overparametrized case. We illustrate the convergence and the error performance of the algorithm based on the over/under-parameterization of the problem. Our results show that depending on the problem dimensions and data generation assumptions, COCOA can perform continual learning over a sequence of tasks, i.e., it can learn a new task without forgetting previously learned tasks, with access only to one task at a time.
翻訳日:2023-12-06 20:29:31 公開日:2023-12-05
# VideoDubber:ビデオダビングのための音声認識長制御による機械翻訳

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing ( http://arxiv.org/abs/2211.16934v2 )

ライセンス: Link先を確認
Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian(参考訳) ビデオダビングは、映画やテレビ番組の原音声をターゲット言語で音声に変換することを目的としており、音声認識、機械翻訳、音声合成からなるカスケードシステムによって実現されている。 翻訳音声が対応するビデオと適切に一致するようにするためには、翻訳音声の長さ/順は、厳密な長さ制御を必要とする元の音声にできるだけ近いべきである。 それまでの著作では、機械翻訳モデルが生成した語数や文字は、異なる言語の単語/文字の発話時間が異なるため、発話の等時性を考慮せずに、原文と類似している。 本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。このシステムでは,翻訳中の各トークンの発話時間を直接考慮し,ソースとターゲットの音声の長さを一致させる。 具体的には、各単語の予測を持続時間情報とともに導くことにより、生成した文の音声長を制御し、残りの単語にどれだけの期間が残されているかを制御する。 提案手法は, 4つの言語方向(ドイツ語->英語,スペイン語->英語,中国語->英語)で実験を行い, 提案手法がベースライン法よりも, 生成した音声の長手制御能力を向上させることを示す。 実世界のデータセットの欠如を補うために,映画から収集した実世界のテストセットを構築し,映像ダビングタスクの包括的評価を行う。

Video dubbing aims to translate the original speech in a film or television program into the speech in a target language, which can be achieved with a cascaded system consisting of speech recognition, machine translation and speech synthesis. To ensure the translated speech to be well aligned with the corresponding video, the length/duration of the translated speech should be as close as possible to that of the original speech, which requires strict length control. Previous works usually control the number of words or characters generated by the machine translation model to be similar to the source sentence, without considering the isochronicity of speech as the speech duration of words/characters in different languages varies. In this paper, we propose a machine translation system tailored for the task of video dubbing, which directly considers the speech duration of each token in translation, to match the length of source and target speech. Specifically, we control the speech length of generated sentence by guiding the prediction of each word with the duration information, including the speech duration of itself as well as how much duration is left for the remaining words. We design experiments on four language directions (German -> English, Spanish -> English, Chinese <-> English), and the results show that the proposed method achieves better length control ability on the generated speech than baseline methods. To make up the lack of real-world datasets, we also construct a real-world test set collected from films to provide comprehensive evaluations on the video dubbing task.
翻訳日:2023-12-06 20:29:17 公開日:2023-12-05
# 未知測定ノイズを持つ物理形ニューラルネットワーク

Physics-informed neural networks with unknown measurement noise ( http://arxiv.org/abs/2211.15498v4 )

ライセンス: Link先を確認
Philipp Pilar, Niklas Wahlstr\"om(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、解の発見と偏微分方程式のパラメータの同定の両方に対する柔軟なアプローチである。 ほとんどの作業は、ノイズのないデータや、ガウスノイズの弱いデータを想定している。 標準の pinn フレームワークが非ガウスノイズの場合に分解されることを示す。 本稿では,この基本的な問題を解決する方法を提供し,エネルギーベースモデル(EBM)を協調訓練して,正しい雑音分布を学習することを提案する。 複数の例を用いて,提案手法の性能改善について述べる。

Physics-informed neural networks (PINNs) constitute a flexible approach to both finding solutions and identifying parameters of partial differential equations. Most works on the topic assume noiseless data, or data contaminated with weak Gaussian noise. We show that the standard PINN framework breaks down in case of non-Gaussian noise. We give a way of resolving this fundamental issue and we propose to jointly train an energy-based model (EBM) to learn the correct noise distribution. We illustrate the improved performance of our approach using multiple examples.
翻訳日:2023-12-06 20:28:51 公開日:2023-12-05
# 符号付きバイナリウェイトネットワーク

Signed Binary Weight Networks ( http://arxiv.org/abs/2211.13838v3 )

ライセンス: Link先を確認
Sachit Kuhar, Alexey Tumanov, Judy Hoffman(参考訳) AIをユビキタスにするためには、ディープニューラルネットワーク(DNN)の効率的な推論が不可欠である。 効率的な推論を可能にする2つの重要なアルゴリズム技術 - sparsityとbinarization。 これらの技術は、ハードウェア・ソフトウェアレベルでの重みの幅と重みの繰り返しに変換され、電力と遅延の要求が極端に低いDNNをデプロイできる。 類似の精度を維持しつつ(重み空間と重み繰り返しを両立させることにより)効率を向上する,符号二元ネットワークと呼ばれる新しい手法を提案する。 本手法は,imagenet および cifar10 データセットにおいて,バイナリで同等の精度を実現し,69%のスパーシティを実現する。 汎用デバイスにこれらのモデルをデプロイする際の実際のスピードアップを観察し、この高い非構造空間がASICのエネルギー消費のさらなる削減につながることを示す。

Efficient inference of Deep Neural Networks (DNNs) is essential to making AI ubiquitous. Two important algorithmic techniques have shown promise for enabling efficient inference - sparsity and binarization. These techniques translate into weight sparsity and weight repetition at the hardware-software level enabling the deployment of DNNs with critically low power and latency requirements. We propose a new method called signed-binary networks to improve efficiency further (by exploiting both weight sparsity and weight repetition together) while maintaining similar accuracy. Our method achieves comparable accuracy on ImageNet and CIFAR10 datasets with binary and can lead to 69% sparsity. We observe real speedup when deploying these models on general-purpose devices and show that this high percentage of unstructured sparsity can lead to a further reduction in energy consumption on ASICs.
翻訳日:2023-12-06 20:28:43 公開日:2023-12-05
# トラップイオンのパラメトリック励起に基づく合成$\mathbb{Z}_2$ゲージ理論

Synthetic $\mathbb{Z}_2$ gauge theories based on parametric excitations of trapped ions ( http://arxiv.org/abs/2305.08700v2 )

ライセンス: Link先を確認
O. B\u{a}z\u{a}van, S. Saner, E. Tirrito, G. Araneda, R. Srinivas, A. Bermudez(参考訳) 本稿では,z2ゲージ理論のアナログ量子シミュレーションのための詳細なスキームを,固有内部および運動の自由度を用いて,ゲージと物質場のより効率的なハイブリッド符号化を行う。 内部量子ビット状態に条件付けられたイオン振動励起のトンネル化を誘導する異なるスピンモーション結合方式に対応するパラメトリック励起に基づく多目的ツールボックスを提案する。 このビルディングブロックは、単一の閉じ込められたイオンで実装された場合、極小z2ゲージ理論に対応し、量子ビットは合成リンク上のゲージ場の役割を担い、異なるトラップ軸に沿った振動励起は2つの合成部位の動的物質場を模倣し、それぞれz2電荷を担っている。 その実現可能性を評価するために,現実的なパラメータを用いた状態依存トンネルの数値シミュレーションを行い,今後の実験でエラーの原因を特定する。 この最小のケースをより複雑な設定に一般化するには、イオンの数を増やし、単一のリンクからZ2プラケットに移動し、Z2鎖全体へ移動する。 本稿では,行列積状態シミュレーションを用いて,ゲージ不変ダイナミクスとそれに対応する閉じ込めに関する解析式を提案する。

We present a detailed scheme for the analog quantum simulation of Z2 gauge theories in crystals of trapped ions, which exploits a more efficient hybrid encoding of the gauge and matter fields using the native internal and motional degrees of freedom. We introduce a versatile toolbox based on parametric excitations corresponding to different spin-motion-coupling schemes that induce a tunneling of the ions vibrational excitations conditioned to their internal qubit state. This building block, when implemented with a single trapped ion, corresponds to a minimal Z2 gauge theory, where the qubit plays the role of the gauge field on a synthetic link, and the vibrational excitations along different trap axes mimic the dynamical matter fields two synthetic sites, each carrying a Z2 charge. To evaluate their feasibility, we perform numerical simulations of the state-dependent tunneling using realistic parameters, and identify the leading sources of error in future experiments. We discuss how to generalise this minimal case to more complex settings by increasing the number of ions, moving from a single link to a Z2 plaquette, and to an entire Z2 chain. We present analytical expressions for the gauge-invariant dynamics and the corresponding confinement, which are benchmarked using matrix product state simulations.
翻訳日:2023-12-06 20:22:05 公開日:2023-12-05
# 複素力学系からデータ中の多様体次元と座標を検出するオートエンコーダ

Autoencoders for discovering manifold dimension and coordinates in data from complex dynamical systems ( http://arxiv.org/abs/2305.01090v2 )

ライセンス: Link先を確認
Kevin Zeng, Carlos E. P\'erez De Jes\'us, Andrew J. Fox, Michael D. Graham(参考訳) 物理学や工学における多くの現象は形式的には高次元であるが、その長期ダイナミクスはしばしば低次元多様体上に存在する。 本研究は,暗黙の正則化と内部線形層,および$L_2$正則化(重崩壊)を組み合わせて,データセットの基底次元を自動的に推定し,直交多様体座標系を作成し,周囲空間と多様体空間の間の写像関数を提供し,サンプル外射影を可能にするオートエンコーダフレームワークを提案する。 様々な複雑度の力学系から一連のデータセットの多様体次元を推定し、他の最先端推定器と比較するフレームワークの能力を検証する。 ネットワークのトレーニングダイナミクスを分析して、低ランク学習のメカニズムを把握し、暗黙の正規化レイヤが、トレーニング中に低ランク表現と自己正当性を組み合わせていることを確認する。 線形の場合におけるこのアーキテクチャの勾配降下ダイナミクスの解析は、全ての層を包含する「集合的重み変数」のより早い崩壊に導く内部線形層の役割と、破壊的縮退における重み減少の役割を明らかにした。 本研究では, 時空間的カオス偏微分方程式のデータ駆動動的モデルを生成することにより, 状態空間モデリングと予測の適用を自然に拡張できることを示す。 最後に、ハイパーパラメータの選択にロバストなフレームワークであることを示します。

While many phenomena in physics and engineering are formally high-dimensional, their long-time dynamics often live on a lower-dimensional manifold. The present work introduces an autoencoder framework that combines implicit regularization with internal linear layers and $L_2$ regularization (weight decay) to automatically estimate the underlying dimensionality of a data set, produce an orthogonal manifold coordinate system, and provide the mapping functions between the ambient space and manifold space, allowing for out-of-sample projections. We validate our framework's ability to estimate the manifold dimension for a series of datasets from dynamical systems of varying complexities and compare to other state-of-the-art estimators. We analyze the training dynamics of the network to glean insight into the mechanism of low-rank learning and find that collectively each of the implicit regularizing layers compound the low-rank representation and even self-correct during training. Analysis of gradient descent dynamics for this architecture in the linear case reveals the role of the internal linear layers in leading to faster decay of a "collective weight variable" incorporating all layers, and the role of weight decay in breaking degeneracies and thus driving convergence along directions in which no decay would occur in its absence. We show that this framework can be naturally extended for applications of state-space modeling and forecasting by generating a data-driven dynamic model of a spatiotemporally chaotic partial differential equation using only the manifold coordinates. Finally, we demonstrate that our framework is robust to hyperparameter choices.
翻訳日:2023-12-06 20:21:42 公開日:2023-12-05
# コンパクト再形観測処理による分布シフト型ロバスト強化学習に向けて

CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing ( http://arxiv.org/abs/2304.13616v2 )

ライセンス: Link先を確認
Philipp Altmann, Fabian Ritz, Leonard Feuchtinger, Jonas N\"u{\ss}lein, Claudia Linnhoff-Popien, Thomy Phan(参考訳) 強化学習(rl)の安全な適用には、限られたトレーニングデータから未知のシナリオへの一般化が必要である。 しかし、状況の変化によるタスクの達成は、RLの重要な課題である。 一般化のための最先端のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。 これにより、トレーニング環境への過度な適合が防がれるが、ポリシーの最適化が妨げられる。 重要な情報のみを含む適切な観察をすること自体が困難な課題であることが示されている。 データ効率と一般化機能を改善するため,政策最適化に使用する状態情報を削減するためにCROP(Compact Reshaped Observation Processing)を提案する。 関連する情報のみを提供することにより、特定のトレーニングレイアウトへの過度な適合が前提となり、見えない環境への一般化が改善される。 観測可能な観測空間と行動空間に適用可能な3つのCROPを定式化し,方法論的基礎を提供する。 分散的に移動した安全グリッドワールドにおけるCROPの改善を実証的に示す。 さらに,2種類の異なるプロセス生成迷路において,完全な可観測性とデータ表示に対するベンチマーク比較を行う。

The safe application of reinforcement learning (RL) requires generalization from limited training data to unseen scenarios. Yet, fulfilling tasks under changing circumstances is a key challenge in RL. Current state-of-the-art approaches for generalization apply data augmentation techniques to increase the diversity of training data. Even though this prevents overfitting to the training environment(s), it hinders policy optimization. Crafting a suitable observation, only containing crucial information, has been shown to be a challenging task itself. To improve data efficiency and generalization capabilities, we propose Compact Reshaped Observation Processing (CROP) to reduce the state information used for policy optimization. By providing only relevant information, overfitting to a specific training layout is precluded and generalization to unseen environments is improved. We formulate three CROPs that can be applied to fully observable observation- and action-spaces and provide methodical foundation. We empirically show the improvements of CROP in a distributionally shifted safety gridworld. We furthermore provide benchmark comparisons to full observability and data-augmentation in two different-sized procedurally generated mazes.
翻訳日:2023-12-06 20:21:13 公開日:2023-12-05
# 強い結合状態の開始時に作用する単サイト制御逆ピラミッド状InGaAsQDナノ空孔

Single site-controlled inverted pyramidal InGaAs QD-nanocavity operating at the onset of the strong coupling regime ( http://arxiv.org/abs/2304.11258v2 )

ライセンス: Link先を確認
Jiahui Huang, Wei Liu, Xiang Cheng, Alessio Miranda, Benjamin Dwir, Alok Rudra, Eli Kapon, Chee Wei Wong(参考訳) GaAsフォトニック結晶キャビティの反極における単サイト制御逆ピラミッド状InGaAs QDの高精度位置決めは、自己組立QDと比較して一意の利点があり、実用的なオンチップフォトニック量子情報処理に大いに期待できる。 しかし, (111)b配向膜構造に基づく低空洞q因子により, この構造における強結合構造は達成されていない。 そこで本研究では,フォトニック結晶キャビティにフォノンを介するコヒーレント励起子-光子相互作用の出現を明らかにした。 以上の結果から,エキソニック成分とフォトニック成分との発光強度のラビ様発振は,そのエネルギー分割と相関することがわかった。 このようなラビ様振動は、励起子-光子集団のコヒーレント交換をモデル化することによってよく再現される。 さらに、QDキャビティ共振器における振動性2時間共振が明らかとなり、強い結合状態の開始時にシステムが動作することを示す。 さらに, フォノン散乱によるQDの仮想状態のプローブとしてキャビティモードを用いることで, QDキャビティ共鳴近傍でのフォノン散乱速度の増加と50K前後での非対称フォノン放出, 吸収速度の増加が明らかになった。

Precise positioning of single site-controlled inverted pyramidal InGaAs QD at the antinode of a GaAs photonic crystal cavity with nanometer-scale accuracy holds unique advantages compared to self-assembled QDs and offers great promise for practical on-chip photonic quantum information processing. However, the strong coupling regime in this geometry has not yet been achieved due to the low cavity Q-factor based on the (111)B-oriented membrane structures. Here, we reveal the onset of phonon-mediated coherent exciton-photon interaction on our tailored single site-controlled InGaAs QD - photonic crystal cavity. Our results present a Rabi-like oscillation of luminescence intensity between excitonic and photonic components correlated with their energy splitting pronounced at small detuning. Such Rabi-like oscillation is well reproduced by modeling the coherent exchange of the exciton-photon population. The modeling further reveals an oscillatory two-time covariance at QD-cavity resonance, which indicates that the system operates at the onset of the strong coupling regime. Moreover, by using the cavity mode as a probe of the virtual state of the QD induced by phonon scattering, it reveals an increase in phonon scattering rates near the QD-cavity resonance and asymmetric phonon emission and absorption rate even around 50 K.
翻訳日:2023-12-06 20:20:38 公開日:2023-12-05
# PG-VTON:プログレッシブ推論パラダイムによる新しい画像ベース仮想試行法

PG-VTON: A Novel Image-Based Virtual Try-On Method via Progressive Inference Paradigm ( http://arxiv.org/abs/2304.08956v2 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu(参考訳) 仮想試着は、フォトリアリスティック効果のある人に新しい衣服を視覚的に着用する、高い商業価値を持つ有望なコンピュータビジョンのトピックである。 従来の研究では, 単一スケールのワープ機構と, 比較的未熟な内容推論機構を用いて, 形状と内容推論を行っている。 これらのアプローチは、挑戦的な試着シナリオ下での衣服のゆらぎと肌の保温の観点から、最適以下の結果をもたらす。 これらの制限に対処するために,トップダウン推論パイプラインと一般的な衣服試着戦略を活用した,プログレッシブ推論パラダイム(pgvton)による新しい仮想試着法を提案する。 具体的には,意味カテゴリーの分離と一貫性の導入によるロバストなトライオン解析法を提案する。 形状誘導法として試着法を試作し, ワープ・マッピング・コンポジションを用いて試着法を実装した。 広い範囲の試用シナリオへの適応を容易にするために,より広範囲にカバーし,一つのウォーピング戦略を選択し,アライメントに基づいてタスクを明示的に区別する。 さらに,StyleGAN2は,ターゲット皮膚形状と空間認識性皮膚の特徴を条件に,再塗布の実施を規制している。 実験により,本手法は2つの挑戦シナリオ下での最先端性能を示す。 コードはhttps://github.com/NerdFNY/PGVTON.comで入手できる。

Virtual try-on is a promising computer vision topic with a high commercial value wherein a new garment is visually worn on a person with a photo-realistic effect. Previous studies conduct their shape and content inference at one stage, employing a single-scale warping mechanism and a relatively unsophisticated content inference mechanism. These approaches have led to suboptimal results in terms of garment warping and skin reservation under challenging try-on scenarios. To address these limitations, we propose a novel virtual try-on method via progressive inference paradigm (PGVTON) that leverages a top-down inference pipeline and a general garment try-on strategy. Specifically, we propose a robust try-on parsing inference method by disentangling semantic categories and introducing consistency. Exploiting the try-on parsing as the shape guidance, we implement the garment try-on via warping-mapping-composition. To facilitate adaptation to a wide range of try-on scenarios, we adopt a covering more and selecting one warping strategy and explicitly distinguish tasks based on alignment. Additionally, we regulate StyleGAN2 to implement re-naked skin inpainting, conditioned on the target skin shape and spatial-agnostic skin features. Experiments demonstrate that our method has state-of-the-art performance under two challenging scenarios. The code will be available at https://github.com/NerdFNY/PGVTON.
翻訳日:2023-12-06 20:19:46 公開日:2023-12-05
# 画像生成モデルの定性的故障とディープフェイク検出への応用

Qualitative Failures of Image Generation Models and Their Application in Detecting Deepfakes ( http://arxiv.org/abs/2304.06470v4 )

ライセンス: Link先を確認
Ali Borji(参考訳) 画像生成モデルと映像生成モデルがフォトリアリスティックな画像を作成する能力は前代未聞の高さに達しており、実像と偽像を区別することは多くの場合困難である。 しかし、この進歩にもかかわらず、生成した画像の品質と現実世界に見られるものとの間にはギャップが残っている。 そこで本稿では,画像生成モデルにおける質的欠点を5つのカテゴリに分類し,学術出版物とソーシャルメディアの双方から膨大な文献をレビューした。 これらの失敗を理解することによって、これらのモデルの改善が必要な領域を特定し、深い偽物を検出する戦略を開発することができる。 今日の社会におけるディープフェイクの流行は深刻な懸念であり、我々の発見は彼らのネガティブな影響を軽減するのに役立つ。

The ability of image and video generation models to create photorealistic images has reached unprecedented heights, making it difficult to distinguish between real and fake images in many cases. However, despite this progress, a gap remains between the quality of generated images and those found in the real world. To address this, we have reviewed a vast body of literature from both academic publications and social media to identify qualitative shortcomings in image generation models, which we have classified into five categories. By understanding these failures, we can identify areas where these models need improvement, as well as develop strategies for detecting deep fakes. The prevalence of deep fakes in today's society is a serious concern, and our findings can help mitigate their negative impact.
翻訳日:2023-12-06 20:19:24 公開日:2023-12-05
# 低分解能赤外線アレイを用いたプライバシー保護のための効率的な深層学習モデル

Efficient Deep Learning Models for Privacy-preserving People Counting on Low-resolution Infrared Arrays ( http://arxiv.org/abs/2304.06059v2 )

ライセンス: Link先を確認
Chen Xie, Francesco Daghero, Yukai Chen, Marco Castellano, Luca Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 超低解像度赤外線(ir)アレイセンサーは、人計数のための低コスト、エネルギー効率、プライバシー保護ソリューションを提供する。 これまでの研究は、ディープラーニング(DL)がこのタスクにおいて優れたパフォーマンスが得られることを示した。 しかし、これらの文献では、irアレイに基づく様々な効率的なdlアーキテクチャの比較分析が欠落しており、その精度だけでなく、メモリやエネルギー制約のあるiot(internet of things)エッジノードへのデプロイコストも考慮されている。 本研究では、商用8x8アレイから収集したIR画像からなる新しいデータセットに対して、6種類のDLアーキテクチャを比較し、このニーズに対処する。 各モデルタイプを広いアーキテクチャで探索することにより、55.70-82.70%の範囲で、クロスバリデーションされた平衡精度スコアにまたがる、パレート最適解の豊富な集合が得られる。 STマイクロエレクトロニクス(STM32L4A6ZG)によって商用のマイクロコントローラ(MCU)に配備されると、これらのモデルは0.41-9.28kBのメモリを占有し、推論毎に1.10-7.74msを必要とする。 我々のモデルは従来の決定論的手法(最大39.9%)よりもかなり正確だが、最大で3.53倍高速でエネルギー効率が高い。 さらに,我々のモデルの精度は,精度がかなり低いにもかかわらず,同様の解像度センサを用いた最先端のdlソリューションに匹敵する。 当社のモデルはすべて,MCUベースのIoTノード上で,バッテリ充電なしで数年間の自律運用が可能な,継続的かつリアルタイムな推論を実現しています。

Ultra-low-resolution Infrared (IR) array sensors offer a low-cost, energy-efficient, and privacy-preserving solution for people counting, with applications such as occupancy monitoring. Previous work has shown that Deep Learning (DL) can yield superior performance on this task. However, the literature was missing an extensive comparative analysis of various efficient DL architectures for IR array-based people counting, that considers not only their accuracy, but also the cost of deploying them on memory- and energy-constrained Internet of Things (IoT) edge nodes. In this work, we address this need by comparing 6 different DL architectures on a novel dataset composed of IR images collected from a commercial 8x8 array, which we made openly available. With a wide architectural exploration of each model type, we obtain a rich set of Pareto-optimal solutions, spanning cross-validated balanced accuracy scores in the 55.70-82.70% range. When deployed on a commercial Microcontroller (MCU) by STMicroelectronics, the STM32L4A6ZG, these models occupy 0.41-9.28kB of memory, and require 1.10-7.74ms per inference, while consuming 17.18-120.43 $\mu$J of energy. Our models are significantly more accurate than a previous deterministic method (up to +39.9%), while being up to 3.53x faster and more energy efficient. Further, our models' accuracy is comparable to state-of-the-art DL solutions on similar resolution sensors, despite a much lower complexity. All our models enable continuous, real-time inference on a MCU-based IoT node, with years of autonomous operation without battery recharging.
翻訳日:2023-12-06 20:19:11 公開日:2023-12-05
# オフザシェルフデバイスを用いた量子デリゲート

Quantum delegation with an off-the-shelf device ( http://arxiv.org/abs/2304.03448v2 )

ライセンス: Link先を確認
Anne Broadbent, Arthur Mehta, and Yuming Zhao(参考訳) 信頼性の高いクラウド量子コンピュータが現実に近づいていることを考えると、量子計算のデリゲーションとその検証可能性の概念は中心的な関心事である。 多くのモデルが提案されており、それぞれに強みと弱みがある。 ここでは,クライアントが従来の処理のみを信頼し,計算的な仮定を行わず,単一ラウンドで量子サーバと対話する新たなモデルを提案する。 さらに、設定フェーズの間、クライアントは計算のサイズを$n$と指定し、単一の測定結果の報告に使用される信頼できないオフザシェルフ(OTS)量子デバイスを受信する。 OTSモデルにおける多項式時間量子計算の委譲方法を示す。 これはまた、QMAの全てに対してインタラクティブな証明システムをもたらし、さらに統計的ゼロ知識で達成できることを示す。 これはQMAに対する最初の相対論的(1ラウンド)2プロップゼロ知識証明システムを提供する。 検証手法として,定数サイズのパウリ測定のみを用いたn個のepr対に対する新しい自己テストを行い,局所ハミルトニアン検証にシミュラブル符号を使用するための新しい方法を示す。 その過程で、GowersとHatamiによるよく知られた安定性結果の強化版も提供し、セルフテストでよく使われる議論をどうやって完了させるかを示します。

Given that reliable cloud quantum computers are becoming closer to reality, the concept of delegation of quantum computations and its verifiability is of central interest. Many models have been proposed, each with specific strengths and weaknesses. Here, we put forth a new model where the client trusts only its classical processing, makes no computational assumptions, and interacts with a quantum server in a single round. In addition, during a set-up phase, the client specifies the size $n$ of the computation and receives an untrusted, off-the-shelf (OTS) quantum device that is used to report the outcome of a single measurement. We show how to delegate polynomial-time quantum computations in the OTS model. This also yields an interactive proof system for all of QMA, which, furthermore, we show can be accomplished in statistical zero-knowledge. This provides the first relativistic (one-round), two-prover zero-knowledge proof system for QMA. As a proof approach, we provide a new self-test for n EPR pairs using only constant-sized Pauli measurements, and show how it provides a new avenue for the use of simulatable codes for local Hamiltonian verification. Along the way, we also provide an enhanced version of a well-known stability result due to Gowers and Hatami and show how it completes a common argument used in self-testing.
翻訳日:2023-12-06 20:18:36 公開日:2023-12-05
# ViewRefer: GPTとプロトタイプガイダンスによる3次元視覚グラウンドの多視点知識

ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance ( http://arxiv.org/abs/2303.16894v4 )

ライセンス: Link先を確認
Zoey Guo, Yiwen Tang, Ray Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) マルチビュー入力からの3dシーンの理解は、3dビジュアルグラウンドにおけるビューの不一致を緩和することが証明されている。 しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を測ることに失敗する。 本稿では,テキストと3Dモダリティの両方からビュー知識を把握する方法を探索する3次元視覚基盤のための多視点フレームワークであるViewReferを提案する。 テキストブランチでは、ViewReferはGPTのような大規模言語モデルの多様な言語知識を活用して、単一の基底テキストを複数の幾何学的記述に拡張する。 一方、3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。 さらに,様々な視点からシーン非依存の知識を記憶し,より堅牢なテキスト機能を備えたビューガイド付アテンションモジュールと,最終予測時のビューガイド付スコアリング戦略という2つの視点からフレームワークを強化する,学習可能なマルチビュープロトタイプのセットも提示する。 設計したパラダイムでは、ViewReferは3つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、ScanReferでは+2.8%、+1.5%、+1.35%という2番目のベットを上回ります。 コードはhttps://github.com/Ivan-Tang-3D/ViewRefer3Dで公開されている。

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.5%, and +1.35% on Sr3D, Nr3D, and ScanRefer. Code is released at https://github.com/Ivan-Tang-3D/ViewRefer3D.
翻訳日:2023-12-06 20:18:14 公開日:2023-12-05
# 大規模言語モデルを用いたニューロシンボリックロボット行動計画のためのフレームワーク

A Framework for Neurosymbolic Robot Action Planning using Large Language Models ( http://arxiv.org/abs/2303.00438v2 )

ライセンス: Link先を確認
Alessio Capitanelli and Fulvio Mastrogiovanni(参考訳) シンボリックタスクプランニング(symbolive task planning)は、ロボットの自律性を実現するために広く使われているアプローチである。 しかし、例えば人間とロボットの相互作用や予期せぬ出来事のために、頻繁な再計画が必要な場合、象徴的なタスクプランニングは現実世界でスケールすることが困難である。 計画の長さと計画時間はロボットの効率を阻害し、人間とロボットの相互作用の流速に悪影響を及ぼす。 本稿では,大規模言語モデル (LLM) を,計画領域定義言語 (PDDL) と互換性のあるニューロシンボリックタスクプランナーに訓練することにより,記号的タスク計画と機械学習アプローチのギャップを埋めるためのフレームワークであるテリヤキを提案する。 潜在的な利点は i) LLMの応答時間は、シンボリックタスクプランナーのように超直線ではなく、入力と出力の組合せで線形にスケールするため、計画領域の複雑さが増大するほどスケーラビリティが向上する。 (ii) エンド・ツー・エンドではなくプラン・アクション・バイ・アクションを合成し、各アクションが生成されたらすぐに実行できるようにし、同時に計画と実行を可能にします。 過去1年間、研究コミュニティはllmの全体的な認知能力を評価することに多大な努力を捧げてきた。 その代わり、teriyakiでは、特定の計画領域における従来のプランナーに匹敵する全体的なプランニングパフォーマンスを提供し、ルックアヘッド予測計画モデルを構築するために使用される他のメトリクスでllms機能を活用します。 選択されたドメインにおける予備的な結果は、我々のメソッドが可能であることを示す。 (i)1000サンプルの試験データセットにおいて95.5%の問題を解決する。 (ii) 従来の象徴的プランナーよりも最大13.5%短いプランを生産する。 (iii)計画提供の待ち時間の平均を61.4%削減する。

Symbolic task planning is a widely used approach to enforce robot autonomy due to its ease of understanding and deployment. However, symbolic task planning is difficult to scale in real-world when frequent re-planning is needed, for example, due to human-robot interactions or unforeseen events. Plan length and planning time can hinder the robot's efficiency and negatively affect the overall human-robot interaction's fluency. We present a framework, Teriyaki, designed to bridge the gap between symbolic task planning and machine learning approaches, by training Large Language Models (LLMs), namely GPT-3, into neurosymbolic task planners compatible with the Planning Domain Definition Language (PDDL). Potential benefits include: (i) better scalability in so far as the planning domain complexity increases, since LLMs' response time linearly scales with the combined length of the input and the output, instead of super-linearly as in the case of symbolic task planners, and (ii) the ability to synthesize a plan action-by-action instead of end-to-end, and to make each action available for execution as soon as it is generated, which in turn enables concurrent planning and execution. In the past year, significant efforts have been devoted by the research community to evaluate the overall cognitive abilities of LLMs, with alternate successes. Instead, with Teriyaki we aim to providing an overall planning performance comparable to traditional planners in specific planning domains, while leveraging LLMs capabilities in other metrics which are used to build a look-ahead predictive planning model. Preliminary results in selected domains show that our method can: (i) solve 95.5% of problems in a test data set of 1000 samples; (ii) produce plans up to 13.5% shorter than a traditional symbolic planner; (iii) reduce average overall waiting times for a plan availability by up to 61.4%.
翻訳日:2023-12-06 20:17:32 公開日:2023-12-05
# 医用画像変換学習における隠れ表現の再検討

Revisiting Hidden Representations in Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2302.08272v3 )

ライセンス: Link先を確認
Dovile Juodelyte, Amelia Jim\'enez-S\'anchez, Veronika Cheplygina(参考訳) ディープラーニングの成功の鍵となるコンポーネントは、大量のトレーニングデータの提供であるが、医療画像データセットは多様性とサイズに制限されることが多い。 転送学習は、関連するが異なるドメイン間のギャップを埋める可能性がある。 しかし, 医学的応用については, 自然画像や医用画像の事前学習が有益かは定かではない。 我々は,imagenet と radimagenet の初期化を 7 つの医療分類タスクで比較することにより,この問題に光を当てる。 我々の研究には、以前に発表された結果とは逆の結果をもたらす複製研究が含まれている。 我々の実験では、ImageNetで事前トレーニングされたResNet50モデルは、RadImageNetでトレーニングされたモデルよりも優れています。 さらなる知見を得るため,CCA(Canonical correlation Analysis)を用いて学習した表現を調査し,異なるモデルの予測を比較した。 以上の結果から,imagenet と radimagenet は,直観とは対照的に,異なる中間表現に収束する可能性が示唆された。 これらの異なる表現にもかかわらず、モデルの予測は似通っている。 以上の結果から,微調整前後のネットワーク間の類似性は,性能向上と相関せず,畳み込みニューラルネットワークの初期層における特徴の再利用のみによるものではないことが示唆された。

While a key component to the success of deep learning is the availability of massive amounts of training data, medical image datasets are often limited in diversity and size. Transfer learning has the potential to bridge the gap between related yet different domains. For medical applications, however, it remains unclear whether it is more beneficial to pre-train on natural or medical images. We aim to shed light on this problem by comparing initialization on ImageNet and RadImageNet on seven medical classification tasks. Our work includes a replication study, which yields results contrary to previously published findings. In our experiments, ResNet50 models pre-trained on ImageNet tend to outperform those trained on RadImageNet. To gain further insights, we investigate the learned representations using Canonical Correlation Analysis (CCA) and compare the predictions of the different models. Our results indicate that, contrary to intuition, ImageNet and RadImageNet may converge to distinct intermediate representations, which appear to diverge further during fine-tuning. Despite these distinct representations, the predictions of the models remain similar. Our findings show that the similarity between networks before and after fine-tuning does not correlate with performance gains, suggesting that the advantages of transfer learning might not solely originate from the reuse of features in the early layers of a convolutional neural network.
翻訳日:2023-12-06 20:17:00 公開日:2023-12-05
# 輪郭型インタラクティブセグメンテーション

Contour-based Interactive Segmentation ( http://arxiv.org/abs/2302.06353v2 )

ライセンス: Link先を確認
Danil Galeev, Polina Popenova, Anna Vorontsova and Anton Konushin(参考訳) インタラクティブセグメンテーション(IS)の最近の進歩により、画像編集とラベリングの高速化と簡素化が可能になった。 現代のisのアプローチの大部分は、クリックの形でユーザー入力を受け入れる。 しかし、クリックを使用することで、特に小さなオブジェクト、オブジェクトの小さな部分、または同じタイプのオブジェクトのグループを選択する場合、多くのユーザーインタラクションが必要になる可能性がある。 本稿では,このような自然なユーザインタラクションをゆるい輪郭とみなし,輪郭に基づくIS手法を提案する。 提案手法は,標準セグメンテーションベンチマーク,新規なusercontoursデータセット,および難セグメンテーションケースを含むサブセットusercontours-gを用いて評価する。 実験により,1つの輪郭が複数のクリックと同じ精度を提供し,必要なユーザインタラクション量を削減できることを実証した。

Recent advances in interactive segmentation (IS) allow speeding up and simplifying image editing and labeling greatly. The majority of modern IS approaches accept user input in the form of clicks. However, using clicks may require too many user interactions, especially when selecting small objects, minor parts of an object, or a group of objects of the same type. In this paper, we consider such a natural form of user interaction as a loose contour, and introduce a contour-based IS method. We evaluate the proposed method on the standard segmentation benchmarks, our novel UserContours dataset, and its subset UserContours-G containing difficult segmentation cases. Through experiments, we demonstrate that a single contour provides the same accuracy as multiple clicks, thus reducing the required amount of user interactions.
翻訳日:2023-12-06 20:16:39 公開日:2023-12-05
# TR3D:リアルタイム屋内3Dオブジェクト検出を目指して

TR3D: Towards Real-Time Indoor 3D Object Detection ( http://arxiv.org/abs/2302.02858v3 )

ライセンス: Link先を確認
Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 近年,スパース3次元畳み込みは3次元物体検出に変化をもたらした。 投票ベースのアプローチと同等のパフォーマンスで、3D CNNはメモリ効率が高く、大きなシーンにスケールできる。 しかし、改善の余地はまだあります。 問題解決に対する意識的,実践指向的なアプローチにより,そのような手法の性能を分析し,弱点をローカライズする。 標準ベンチマークであるScanNet v2、SUN RGB-D、S3DISで最先端の結果を得る、高速で完全に畳み込まれた3Dオブジェクト検出モデルである。 さらに、ポイントクラウドとRGBの両方の入力を活用するために、2Dと3Dの早期融合を導入する。 我々は,従来の3次元物体検出手法をマルチモーダル化するためにfusionモジュールを用い,その性能向上を実証した。 TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。 全体としては、正確性に加えて、tr3dモデルとtr3d+ffモデルの両方が軽量でメモリ効率が高く、高速であるため、リアルタイム3dオブジェクト検出に向けた新たなマイルストーンとなる。 コードはhttps://github.com/SamsungLabs/tr3dで入手できる。

Recently, sparse 3D convolutions have changed 3D object detection. Performing on par with the voting-based approaches, 3D CNNs are memory-efficient and scale to large scenes better. However, there is still room for improvement. With a conscious, practice-oriented approach to problem-solving, we analyze the performance of such methods and localize the weaknesses. Applying modifications that resolve the found issues one by one, we end up with TR3D: a fast fully-convolutional 3D object detection model trained end-to-end, that achieves state-of-the-art results on the standard benchmarks, ScanNet v2, SUN RGB-D, and S3DIS. Moreover, to take advantage of both point cloud and RGB inputs, we introduce an early fusion of 2D and 3D features. We employ our fusion module to make conventional 3D object detection methods multimodal and demonstrate an impressive boost in performance. Our model with early feature fusion, which we refer to as TR3D+FF, outperforms existing 3D object detection approaches on the SUN RGB-D dataset. Overall, besides being accurate, both TR3D and TR3D+FF models are lightweight, memory-efficient, and fast, thereby marking another milestone on the way toward real-time 3D object detection. Code is available at https://github.com/SamsungLabs/tr3d .
翻訳日:2023-12-06 20:16:24 公開日:2023-12-05
# 価値関数は制御障壁関数である:制御理論を用いた安全ポリシーの検証

Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory ( http://arxiv.org/abs/2306.04026v4 )

ライセンス: Link先を確認
Daniel C.H. Tan and Fernando Acero and Robert McCarthy and Dimitrios Kanoulas and Zhibin Li(参考訳) 強化学習(RL)ポリシーの安全性を確保することは、RLの汎用性とスケーラビリティにもかかわらず、安全クリティカルなアプリケーションにとって大きな課題となる。 そこで本研究では,制御理論から学習値関数へ検証手法を適用する新しい手法を提案する。 安全維持のためのタスク構造を分析することで、価値関数と制御障壁関数のリンクを確立する元の定理を定式化する。 さらに,安全制御タスクにおける価値関数の検証のための新しい指標と,学習を改善するための実践的実装詳細を提案する。 本研究は,RLポリシの制御理論から検証手法の多様性を解放し,RLベースの制御システムの汎用的かつスケーラブルかつ検証可能な設計のための形式的枠組みに向けた重要な一歩となる証明書学習手法を提案する。 コードとビデオはこの https url: https://rl-cbf.github.io/

Guaranteeing safe behaviour of reinforcement learning (RL) policies poses significant challenges for safety-critical applications, despite RL's generality and scalability. To address this, we propose a new approach to apply verification methods from control theory to learned value functions. By analyzing task structures for safety preservation, we formalize original theorems that establish links between value functions and control barrier functions. Further, we propose novel metrics for verifying value functions in safe control tasks and practical implementation details to improve learning. Our work presents a novel method for certificate learning, which unlocks a diversity of verification techniques from control theory for RL policies, and marks a significant step towards a formal framework for the general, scalable, and verifiable design of RL-based control systems. Code and videos are available at this https url: https://rl-cbf.github.io/
翻訳日:2023-12-06 20:10:33 公開日:2023-12-05
# スパースReLUネットワークトレーニング問題は、常に最適か?

Does a sparse ReLU network training problem always admit an optimum? ( http://arxiv.org/abs/2306.02666v2 )

ライセンス: Link先を確認
Quoc-Tung Le (LIP, OCKHAM), Elisa Riccietti (OCKHAM), R\'emi Gribonval (OCKHAM)(参考訳) トレーニングセット、損失関数、ニューラルネットワークアーキテクチャが与えられた場合、最適ネットワークパラメータが存在することは当然のことであり、それらの探索に利用可能な最適化アルゴリズムを適用するのが一般的である。 本研究では,特にreluニューラルネットワークの文脈において,最適解が存在することは必ずしも保証されないことを示す。 特に,特定のスパーシティパターンを持つディープネットワークを含む最適化問題は,必ずしも最適パラメータを持ち得ず,最適化アルゴリズムが分岐する可能性があることを示す。 スパースReLUニューラルネットワークとリニアニューラルネットワークの新たなトポロジカルな関係により、既存のツールを実際の代数幾何学から利用し、与えられた空間パターンがこの問題に直面することを検証するアルゴリズムを導出します。 そして、出力次元1の浅いスパースreluニューラルネットワークを含む各具体的最適化問題に対して、大域的最適性の存在が証明される。 全体として、解析はスパースReLUニューラルネットワークとして実装可能な関数空間の2つのトポロジカルな特性、すなわち最適な近似特性と閉性(英語版)性(英語版)についての研究に基づいている。 これは有限訓練集合の実際訓練に対応する(有限)領域と単位立方体のようなより一般的な領域の両方について研究される。 これにより、スパーシティパターンが与えられた最適の存在を保証する条件を提供することができる。 この結果は、近年のネットワークプルーニング/スパーシフィケーションの研究で提案されているいくつかのスパーシティパターンだけでなく、従来のニューラルネットワークにも当てはまる。

Given a training set, a loss function, and a neural network architecture, it is often taken for granted that optimal network parameters exist, and a common practice is to apply available optimization algorithms to search for them. In this work, we show that the existence of an optimal solution is not always guaranteed, especially in the context of {\em sparse} ReLU neural networks. In particular, we first show that optimization problems involving deep networks with certain sparsity patterns do not always have optimal parameters, and that optimization algorithms may then diverge. Via a new topological relation between sparse ReLU neural networks and their linear counterparts, we derive -- using existing tools from real algebraic geometry -- an algorithm to verify that a given sparsity pattern suffers from this issue. Then, the existence of a global optimum is proved for every concrete optimization problem involving a shallow sparse ReLU neural network of output dimension one. Overall, the analysis is based on the investigation of two topological properties of the space of functions implementable as sparse ReLU neural networks: a best approximation property, and a closedness property, both in the uniform norm. This is studied both for (finite) domains corresponding to practical training on finite training sets, and for more general domains such as the unit cube. This allows us to provide conditions for the guaranteed existence of an optimum given a sparsity pattern. The results apply not only to several sparsity patterns proposed in recent works on network pruning/sparsification, but also to classical dense neural networks, including architectures not covered by existing results.
翻訳日:2023-12-06 20:09:51 公開日:2023-12-05
# 量子コンピュータ上での量子化学計算のGo-No Go基準

Go-No go criteria for performing quantum chemistry calculations on quantum computers ( http://arxiv.org/abs/2306.02620v2 )

ライセンス: Link先を確認
Thibaud Louvet, Thomas Ayral, Xavier Waintal(参考訳) 量子化学は、量子コンピュータの早期かつ破壊的な応用として考えられている。 この問題に対する2つの主要な量子アプローチを評価するための2つの基準を提案する。 最初の基準は変分量子固有解法(VQE)アルゴリズムに適用される。 量子ハードウェアで許容できるノイズのレベルに上限を設定し、ターゲットとした精度と問題サイズの関数として設定する。 ノイズの影響は、対応する古典的アルゴリズムよりも汎用的に好まれる精度の全体的なスケーリングによって明らかである。 実際、研究された分子は、ハードウェアのダイナミクスとは無関係であるため、そのノイズは、逆に、研究された分子の任意のエネルギーの状態を発生させる。 第2の基準は量子位相推定(QPE)アルゴリズムに適用され、(ノイズのない)フォールトトレラント量子コンピュータが利用可能になったときにVQEの代替としてしばしば提示される。 QPEは直交大惨事に悩まされ、問題のサイズが大きくなると指数関数的に小さな成功確率に繋がる。 我々の基準は、計算に使用される入力状態のエネルギーの分散に関する知識から、この現象の重要性を定量的に推定することができる。

Quantum chemistry is envisioned as an early and disruptive application for quantum computers. We propose two criteria for evaluating the two leading quantum approaches for this class of problems. The first criterion applies to the Variational Quantum Eigensolver (VQE) algorithm. It sets an upper bound to the level of noise that can be tolerated in quantum hardware as a function of the targetted precision and problem size. We find a crippling effect of noise with an overall scaling of the precision that is generically {\it less} favourable than in the corresponding classical algorithms. Indeed, the studied molecule is unrelated to the hardware dynamics, hence to its noise; conversely the hardware noise populates states of arbitrary energy of the studied molecule. The second criterion applies to the Quantum Phase Estimation (QPE) algorithm that is often presented as the go-to replacement of VQE upon availability of (noiseless) fault-tolerant quantum computers. QPE suffers from the orthogonality catastrophe that generically leads to an exponentially small success probability when the size of the problem grows. Our criterion allows one to estimate quantitatively the importance of this phenomenon from the knowledge of the variance of the energy of the input state used in the calculation.
翻訳日:2023-12-06 20:09:24 公開日:2023-12-05
# プライマル・アテンション:非対称カーネルsvdによる自己アテンション

Primal-Attention: Self-attention through Asymmetric Kernel SVD in Primal Representation ( http://arxiv.org/abs/2305.19798v2 )

ライセンス: Link先を確認
Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens(参考訳) 近年、カーネルマシンとして扱うことで変圧器の自己着脱を理解・改善するための新しい作品が登場している。 しかし、既存の研究は対称カーネルの手法を非対称自己アテンションに適用し、解析的理解と数値的実装の間に非自明なギャップをもたらす。 本稿では,非対称なカーネル特異値分解(KSVD)による自己注意の表現と最適化を行う新しい視点を提供する。 Through asymmetric KSVD, $i$) a primal-dual representation of self-attention is formulated, where the optimization objective is cast to maximize the projection variances in the attention outputs; $ii$) a novel attention mechanism, i.e., Primal-Attention, is proposed via the primal representation of KSVD, avoiding explicit computation of the kernel matrix in the dual; $iii$) with KKT conditions, we prove that the stationary solution to the KSVD optimization in Primal-Attention yields a zero-value objective. このようにksvd最適化は、単に正規化損失を最小化することで実装できるため、低ランク特性は、余分な分解なしに促進される。 数値実験により, プライマル・アテンションの精度が向上し, 術中性能が向上した。 さらに, ksvd最適化は, 標準的自己アテンションよりも鋭利な特異値減衰を伴う主観的アテンションを正則化し, 提案手法の可能性をさらに検証することを示す。 我々の知る限りでは、これは非対称なカーネルに対して自己注意で原始双対表現を提供し、モデリングと最適化にうまく適用する最初の作品である。

Recently, a new line of works has emerged to understand and improve self-attention in Transformers by treating it as a kernel machine. However, existing works apply the methods for symmetric kernels to the asymmetric self-attention, resulting in a nontrivial gap between the analytical understanding and numerical implementation. In this paper, we provide a new perspective to represent and optimize self-attention through asymmetric Kernel Singular Value Decomposition (KSVD), which is also motivated by the low-rank property of self-attention normally observed in deep layers. Through asymmetric KSVD, $i$) a primal-dual representation of self-attention is formulated, where the optimization objective is cast to maximize the projection variances in the attention outputs; $ii$) a novel attention mechanism, i.e., Primal-Attention, is proposed via the primal representation of KSVD, avoiding explicit computation of the kernel matrix in the dual; $iii$) with KKT conditions, we prove that the stationary solution to the KSVD optimization in Primal-Attention yields a zero-value objective. In this manner, KSVD optimization can be implemented by simply minimizing a regularization loss, so that low-rank property is promoted without extra decomposition. Numerical experiments show state-of-the-art performance of our Primal-Attention with improved efficiency. Moreover, we demonstrate that the deployed KSVD optimization regularizes Primal-Attention with a sharper singular value decay than that of the canonical self-attention, further verifying the great potential of our method. To the best of our knowledge, this is the first work that provides a primal-dual representation for the asymmetric kernel in self-attention and successfully applies it to modeling and optimization.
翻訳日:2023-12-06 20:09:06 公開日:2023-12-05
# 大規模言語モデル, 科学的知識, 事実性: 抗生物質発見の体系的分析

Large Language Models, scientific knowledge and factuality: A systematic analysis in antibiotic discovery ( http://arxiv.org/abs/2305.17819v2 )

ライセンス: Link先を確認
Magdalena Wysocka, Oskar Wysocki, Maxime Delmas, Vincent Mutel, Andre Freitas(参考訳) 大規模言語モデル(LLM)から科学文献の大規模なコーパスに訓練された情報を推測して抽出することは、生体医学研究の新しい時代を招き、既存の医学的証拠にアクセスする障壁を減らせる可能性がある。 本研究は,生物医学的背景知識と対話する LLM の可能性について,抗生物質発見の文脈を用いて検討する。 生物医学的なコーパスを専門とするモデルからchatgpt, gpt-4, llama 2などの一般的なモデルまで, 化学化合物定義生成と化合物-真菌関係決定の2つの課題において, 体系的な分析を行った。 この研究は、LLMがこれらの関係をエンコードし表現する能力についての体系的な評価を提供し、流布、迅速な調整、セマンティック・コヒーレンス、事実的知識、生成された応答の特異性を検証する。 その結果,近年のモデルでは流動性が向上しているが,事実的正確性は依然として低く,過度に表現されたエンティティに偏っていることがわかった。 LLMが生物医学的知識基盤として機能する能力は疑問視され、新たな体系的評価フレームワークの必要性が強調される。 最高性能のGPT-4は70%の化合物と43.6%のキノコとの事実関係を、最高のオープンソースモデルであるBioGPTは30%の化合物を、最も優れたプロンプトの30%を生産した。 その結果, LLMは, 現在, バイオメディカルな事実知識基盤としての利用には適していないものの, モデルがドメインに特化し, サイズ, フィードバックのレベルが上がるにつれて, 現実性に有望な新規性があることが示唆された。

Inferring over and extracting information from Large Language Models (LLMs) trained on a large corpus of scientific literature can potentially drive a new era in biomedical research, reducing the barriers for accessing existing medical evidence. This work examines the potential of LLMs for dialoguing with biomedical background knowledge, using the context of antibiotic discovery. The systematic analysis is applied to ten state-of-the-art models, from models specialised on biomedical scientific corpora to general models such as ChatGPT, GPT-4 and Llama 2 in two prompting-based tasks: chemical compound definition generation and chemical compound-fungus relation determination. The work provides a systematic assessment on the ability of LLMs to encode and express these relations, verifying for fluency, prompt-alignment, semantic coherence, factual knowledge and specificity of generated responses. Results show that while recent models have improved in fluency, factual accuracy is still low and models are biased towards over-represented entities. The ability of LLMs to serve as biomedical knowledge bases is questioned, and the need for additional systematic evaluation frameworks is highlighted. The best performing GPT-4 produced a factual definition for 70% of chemical compounds and 43.6% factual relations to fungi, whereas the best open source model BioGPT-large 30% of the compounds and 30% of the relations for the best-performing prompt. The results show that while LLMs are currently not fit for purpose to be used as biomedical factual knowledge bases, there is a promising emerging property in the direction of factuality as the models become domain specialised, scale-up in size and level of human feedback.
翻訳日:2023-12-06 20:08:15 公開日:2023-12-05
# ロングテール認識問題における重みバランスの検討

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v5 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato(参考訳) データセット内のクラス毎のサンプルサイズ分布が故意に調整されない限り、一般的に指数関数的であるため、ロングテールデータにおけるクラス毎のサンプルサイズが大きく歪んだ認識問題の重要性が高まっている。 これらの問題に対処する様々な方法が考案されている。 近年,有名な古典的正規化手法と二段階訓練を組み合わせた重みバランスが提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法と比較して高い性能で知られている。 しかし,この手法が長期データに有効である理由については理解されていない。 本研究では,各訓練段階における神経崩壊と錐体効果に着目して,体重バランスの分析を行い,体重減少とクロスエントロピー損失による特徴抽出器のフィッシャーの判別比の増加と,体重減少とクラスバランス損失による暗黙のロジット調整に分解できることを見出した。 本分析により,トレーニング段階数を1に減らし,精度を向上し,トレーニング手法をさらに単純化することができる。

Recognition problems in long-tailed data, in which the sample size per class is heavily skewed, have gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various methods have been devised to address these problems. Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance compared with existing methods devised in various ways. However, there is a lack of understanding as to why this method is effective for long-tailed data. In this study, we analyze weight balancing by focusing on neural collapse and the cone effect at each training stage and found that it can be decomposed into an increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis enables the training method to be further simplified by reducing the number of training stages to one while increasing accuracy.
翻訳日:2023-12-06 20:07:36 公開日:2023-12-05
# 複雑な背景と降雨アーティファクトを有する画像におけるUAV検出の検討

Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts ( http://arxiv.org/abs/2305.16450v2 )

ライセンス: Link先を確認
Adnan Munir, Abdul Jabbar Siddiqui, Saeed Anwar(参考訳) 無人航空機(UAV)をリアルタイムで検出するために、コンピュータビジョンとディープラーニングアプローチは研究領域を進化させつつある。 この問題への関心は、多くのアプリケーションでUAVを悪用する危険性や危険性に関する懸念から高まっている。 プライバシー侵害の可能性がある。 これらの問題に対処するため、UAV検出のための視覚に基づく物体検出法が開発されている。 しかし、複雑な背景を持つ画像や雨などの気象アーティファクトでのuav検出は、まだ合理的に研究されていない。 そのため,2つのトレーニングデータセットを用意した。 最初のデータセットは背景として空を持ち、Sky background Dataset (SBD)と呼ばれる。 第2のトレーニングデータセットは(さまざまなバックグラウンドを持つ)より複雑なシーンを持ち、complex background dataset(cbd)と名付けられた。 さらに2つのテストセットが準備され、1つは透明な画像を含むもので、もう1つはレインテストセット(RTS)と呼ばれる雨の人工物を持つ画像である。 本研究は最先端の物体検出モデルのベンチマークにも焦点を当てており、我々の知る限りでは、複雑な背景、異なるuavサイズ、低豪雨条件などの困難な条件下で、最近普及した視覚に基づく物体検出手法の性能を初めて調査した。 本論文は, 課題条件下でのUAV検出のための選択されたモデルの性能に関する知見を提供するとともに, より堅牢なUAV検出手法の開発に資する。 コードとデータセットは、https://github.com/AdnanMunir294/UAVD-CBRAで公開されている。

To detect unmanned aerial vehicles (UAVs) in real-time, computer vision and deep learning approaches are evolving research areas. Interest in this problem has grown due to concerns regarding the possible hazards and misuse of employing UAVs in many applications. These include potential privacy violations. To address the concerns, vision-based object detection methods have been developed for UAV detection. However, UAV detection in images with complex backgrounds and weather artifacts like rain has yet to be reasonably studied. Hence, for this purpose, we prepared two training datasets. The first dataset has the sky as its background and is called the Sky Background Dataset (SBD). The second training dataset has more complex scenes (with diverse backgrounds) and is named the Complex Background Dataset (CBD). Additionally, two test sets were prepared: one containing clear images and the other with images with three rain artifacts, named the Rainy Test Set (RTS). This work also focuses on benchmarking state-of-the-art object detection models, and to the best of our knowledge, it is the first to investigate the performance of recent and popular vision-based object detection methods for UAV detection under challenging conditions such as complex backgrounds, varying UAV sizes, and low-to-heavy rainy conditions. The findings presented in the paper shall help provide insights concerning the performance of the selected models for UAV detection under challenging conditions and pave the way to develop more robust UAV detection methods. The codes and datasets are available at: https://github.com/AdnanMunir294/UAVD-CBRA.
翻訳日:2023-12-06 20:07:17 公開日:2023-12-05
# 変圧器ニューラルプロセスを用いたエンドツーエンドメタベイズ最適化

End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes ( http://arxiv.org/abs/2305.15930v3 )

ライセンス: Link先を確認
Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Haitham Bou Ammar(参考訳) Meta-Bayesian optimization (Meta-BO)は、関連するタスクからのデータを活用することで、ベイズ最適化のサンプル効率を改善することを目的としている。 従来の手法はサロゲートモデルまたは獲得関数を独立にメタ学習することに成功したが、両コンポーネントの共同トレーニングは依然としてオープンな課題である。 本稿では、トランスフォーマーアーキテクチャを介して獲得関数を学ぶために、神経過程を一般化する最初のエンドツーエンドの微分可能メタボフレームワークを提案する。 強化学習(rl)を用いたこのエンドツーエンドフレームワークにより,ラベル付き取得データの欠如に対処できる。 初期の段階では、特に報酬が不足している場合、RLでスクラッチからトランスフォーマーベースのニューラルプロセスのトレーニングが困難であることに気付きました。 この主張を,報奨信号として広く用いられている後悔の概念が,軌道長の対数間隔パターンを示すことを示す組合せ解析で定式化した。 この問題に対処するため,アーキテクチャの一部を指導し,帰納的バイアスとして有効な確率モデルを学習する補助的なタスクでRLの目的を増強する。 提案手法は, 標準的なハイパーパラメータ最適化タスクの実験において, 様々なベースラインに対して, 最先端の後悔結果を達成するとともに, 混合整数プログラミングチューニング, 抗体設計, 電子設計自動化のための論理合成の現実的問題において, 他よりも優れていることを示す。

Meta-Bayesian optimisation (meta-BO) aims to improve the sample efficiency of Bayesian optimisation by leveraging data from related tasks. While previous methods successfully meta-learn either a surrogate model or an acquisition function independently, joint training of both components remains an open challenge. This paper proposes the first end-to-end differentiable meta-BO framework that generalises neural processes to learn acquisition functions via transformer architectures. We enable this end-to-end framework with reinforcement learning (RL) to tackle the lack of labelled acquisition data. Early on, we notice that training transformer-based neural processes from scratch with RL is challenging due to insufficient supervision, especially when rewards are sparse. We formalise this claim with a combinatorial analysis showing that the widely used notion of regret as a reward signal exhibits a logarithmic sparsity pattern in trajectory lengths. To tackle this problem, we augment the RL objective with an auxiliary task that guides part of the architecture to learn a valid probabilistic model as an inductive bias. We demonstrate that our method achieves state-of-the-art regret results against various baselines in experiments on standard hyperparameter optimisation tasks and also outperforms others in the real-world problems of mixed-integer programming tuning, antibody design, and logic synthesis for electronic design automation.
翻訳日:2023-12-06 20:06:31 公開日:2023-12-05
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v4 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens(参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動することでこの問題を緩和しようとしており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 この結果に基づき,time-shift samplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験の結果,fidスコアの異なるデータセットとサンプリング法において有意かつ一貫した改善が得られた。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMに比べて44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 受け入れ次第、コードをリリースします。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. We will release the code upon acceptance.
翻訳日:2023-12-06 20:06:03 公開日:2023-12-05
# Tweetorial Hooks: ソーシャルメディアで科学を動機付ける生成AIツール

Tweetorial Hooks: Generative AI Tools to Motivate Science on Social Media ( http://arxiv.org/abs/2305.12265v2 )

ライセンス: Link先を確認
Tao Long, Dorothy Zhang, Grace Li, Batool Taraif, Samia Menon, Kynnedy Simone Smith, Sitong Wang, Katy Ilonka Gero, Lydia B. Chilton(参考訳) 科学とテクノロジーのコミュニケーションは、大衆が急速に変化する世界を理解し、関与することが不可欠である。 Tweetorialsは、専門家がソーシャルメディア上のSTEMトピックを創造的で魅力的な方法で説明する、新たな現象だ。 しかし、STEMの専門家は、読者の注意を引く最初のツイートで、魅力的な「フック」を書くのに苦労している。 本研究では, 大規模言語モデル(LLM)を用いて, 複雑な科学的トピックに関連性のあるフックを書くプロセスの足場を構築する手法を提案する。 LLMは、一般大衆に近づき、興味深い日常的な体験を見つけるのに役立ち、ジャーゴンを避け、好奇心を喚起する。 評価の結果、システムは認知的負荷を減らし、より良いフックを書くのに役立ちます。 最後に,筆記の正確性,有効性,信頼性を維持するため,LLMとの相互作用の重要性について論じる。

Communicating science and technology is essential for the public to understand and engage in a rapidly changing world. Tweetorials are an emerging phenomenon where experts explain STEM topics on social media in creative and engaging ways. However, STEM experts struggle to write an engaging "hook" in the first tweet that captures the reader's attention. We propose methods to use large language models (LLMs) to help users scaffold their process of writing a relatable hook for complex scientific topics. We demonstrate that LLMs can help writers find everyday experiences that are relatable and interesting to the public, avoid jargon, and spark curiosity. Our evaluation shows that the system reduces cognitive load and helps people write better hooks. Lastly, we discuss the importance of interactivity with LLMs to preserve the correctness, effectiveness, and authenticity of the writing.
翻訳日:2023-12-06 20:05:05 公開日:2023-12-05
# コンピュータ支援結核診断の再検討

Revisiting Computer-Aided Tuberculosis Diagnosis ( http://arxiv.org/abs/2307.02848v2 )

ライセンス: Link先を確認
Yun Liu, Yu-Huan Wu, Shi-Chen Zhang, Li Liu, Min Wu, and Ming-Ming Cheng(参考訳) 結核(TB)は世界的な健康上の脅威であり、毎年数百万人が死亡している。 早期診断と治療は生存率を大幅に向上させるが、特に発展途上国では依然として大きな課題である。 近年,深層学習による結核診断 (ctd) が期待されているが, 限られたトレーニングデータによって進歩が妨げられている。 そこで本研究では,結核X線(TBX11K)データセットを大規模に構築し,TB領域に対応する境界ボックスアノテーションを備えた胸部X線(CXR)画像を含む。 このデータセットは高品質ctdのための高度な検出器のトレーニングを可能にする。 さらに,CXR画像の同時分類とTB感染領域検出のための強力なベースラインであるSymFormerを提案する。 SymFormerはSymmetric Search Attention(SymAttention)を導入し、CXR画像の左右対称特性に取り組み、識別的特徴を学習する。 cxr画像は左右対称性に厳密に従わないため,特徴リカバリレーションによるシンマテンションを容易にする対称位置符号化 (spe) も提案する。 今後のctd研究を促進するために,評価指標の導入,既存の検出器から再構成したベースラインモデルの評価,オンラインチャレンジの実施により,ベンチマークを構築する。 SymFormerはTBX11Kデータセット上で最先端のパフォーマンスを実現する。 データ、コード、モデルはhttps://github.com/yun-liu/tuberculosisでリリースされる。

Tuberculosis (TB) is a major global health threat, causing millions of deaths annually. Although early diagnosis and treatment can greatly improve the chances of survival, it remains a major challenge, especially in developing countries. Recently, computer-aided tuberculosis diagnosis (CTD) using deep learning has shown promise, but progress is hindered by limited training data. To address this, we establish a large-scale dataset, namely the Tuberculosis X-ray (TBX11K) dataset, which contains 11,200 chest X-ray (CXR) images with corresponding bounding box annotations for TB areas. This dataset enables the training of sophisticated detectors for high-quality CTD. Furthermore, we propose a strong baseline, SymFormer, for simultaneous CXR image classification and TB infection area detection. SymFormer incorporates Symmetric Search Attention (SymAttention) to tackle the bilateral symmetry property of CXR images for learning discriminative features. Since CXR images may not strictly adhere to the bilateral symmetry property, we also propose Symmetric Positional Encoding (SPE) to facilitate SymAttention through feature recalibration. To promote future research on CTD, we build a benchmark by introducing evaluation metrics, evaluating baseline models reformed from existing detectors, and running an online challenge. Experiments show that SymFormer achieves state-of-the-art performance on the TBX11K dataset. The data, code, and models will be released at https://github.com/yun-liu/Tuberculosis.
翻訳日:2023-12-06 19:58:59 公開日:2023-12-05
# 近接量子デバイスを用いた量子機械学習:実世界応用のための監視・非監督技術の現状

Quantum Machine Learning on Near-Term Quantum Devices: Current State of Supervised and Unsupervised Techniques for Real-World Applications ( http://arxiv.org/abs/2307.00908v2 )

ライセンス: Link先を確認
Yaswitha Gujju, Atsushi Matsuo and Rudy Raymond(参考訳) 過去10年間、量子ハードウェアの大幅な進歩が見られ、速度、量子ビット量、量子ボリュームが改善され、量子回路の最大サイズを定義する計量が近未来の量子デバイスで効果的に実装された。 この進歩により、量子機械学習(QML)の実際のハードウェアへの応用が急増し、古典的なアプローチに対する量子優位性の実現を目指している。 この調査は、量子ハードウェア上で実行される教師なしおよび教師なしの学習アプリケーション、特に現実世界のシナリオに適したものに焦点を当てている。 この調査では、量子ハードウェア上での現在のQML実装制限を徹底的に分析し、エンコーディング、アンサッツ構造、エラー軽減、これらの課題に対処するための勾配メソッドなどのテクニックをカバーしている。 さらに,従来のQML実装と比較して,QML実装の性能を評価する。 結論として、実量子デバイスにQMLを適用する際の既存のボトルネックについて議論し、これらの課題を克服するための潜在的な解決策を提案する。

The past decade has witnessed significant advancements in quantum hardware, encompassing improvements in speed, qubit quantity, and quantum volume-a metric defining the maximum size of a quantum circuit effectively implementable on near-term quantum devices. This progress has led to a surge in Quantum Machine Learning (QML) applications on real hardware, aiming to achieve quantum advantage over classical approaches. This survey focuses on selected supervised and unsupervised learning applications executed on quantum hardware, specifically tailored for real-world scenarios. The exploration includes a thorough analysis of current QML implementation limitations on quantum hardware, covering techniques like encoding, ansatz structure, error mitigation, and gradient methods to address these challenges. Furthermore, the survey evaluates the performance of QML implementations in comparison to classical counterparts. In conclusion, we discuss existing bottlenecks related to applying QML on real quantum devices and propose potential solutions to overcome these challenges in the future.
翻訳日:2023-12-06 19:58:35 公開日:2023-12-05
# ドメイン一般化都市-シーンセグメンテーションのための学習コンテンツエンハンスドマスクトランス

Learning Content-enhanced Mask Transformer for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2307.00371v3 )

ライセンス: Link先を確認
Qi Bi, Shaodi You, Theo Gevers(参考訳) ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。 ドメインギャップの課題とは異なり、usssは、意味的なカテゴリが異なる都市シーンでよく似ているのに対して、都市景観の変化、気象条件、照明、その他の要因によりスタイルが著しく異なる点が特徴である。 既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。 本稿では、ドメイン一般化USSSのためのコンテンツ強化Mask TransFormer(CMFormer)を提案する。 主な考え方は、コンテンツ情報に対するトランスフォーマーセグメンテーションモデルにおける基本的なコンポーネントであるマスアテンション機構の焦点を強化することである。 そこで本研究では,新しいマスキング機構を提案する。 低解像度の画像機能は、通常より堅牢なコンテンツ情報を含み、スタイルのバリエーションに敏感でないため、イメージ機能とダウンサンプルの両方からマスククエリを学習する。 これらの機能はTransformerデコーダに融合され、マルチ解像度のコンテンツ強調学習スキームに統合される。 様々な領域一般化都市・シーンセグメンテーションデータセットを用いて行った大規模な実験により、提案したCMFormerは、ドメイン一般化セグメンテーションの既存のCNN手法を著しく上回っており、mIoUの点において最大14.00\%の改善が達成されている。 ソースコードは \url{https://github.com/BiQiWHU/CMFormer} で公開されている。

Domain-generalized urban-scene semantic segmentation (USSS) aims to learn generalized semantic predictions across diverse urban-scene styles. Unlike domain gap challenges, USSS is unique in that the semantic categories are often similar in different urban scenes, while the styles can vary significantly due to changes in urban landscapes, weather conditions, lighting, and other factors. Existing approaches typically rely on convolutional neural networks (CNNs) to learn the content of urban scenes. In this paper, we propose a Content-enhanced Mask TransFormer (CMFormer) for domain-generalized USSS. The main idea is to enhance the focus of the fundamental component, the mask attention mechanism, in Transformer segmentation models on content information. To achieve this, we introduce a novel content-enhanced mask attention mechanism. It learns mask queries from both the image feature and its down-sampled counterpart, as lower-resolution image features usually contain more robust content information and are less sensitive to style variations. These features are fused into a Transformer decoder and integrated into a multi-resolution content-enhanced mask attention learning scheme. Extensive experiments conducted on various domain-generalized urban-scene segmentation datasets demonstrate that the proposed CMFormer significantly outperforms existing CNN-based methods for domain-generalized semantic segmentation, achieving improvements of up to 14.00\% in terms of mIoU (mean intersection over union). The source code is publicly available at \url{https://github.com/BiQiWHU/CMFormer}.
翻訳日:2023-12-06 19:58:17 公開日:2023-12-05
# 空間時間エンハンストランスによるマルチフレーム3次元物体検出

Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object Detection ( http://arxiv.org/abs/2307.00347v2 )

ライセンス: Link先を確認
Yifan Zhang, Zhiyu Zhu, Junhui Hou and Dapeng Wu(参考訳) 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。 しかし、マルチフレーム3dオブジェクト検出領域におけるその可能性はほとんど未解明のままである。 本稿では,detrライクなパラダイムに基づくマルチフレーム3dオブジェクト検出のための新しいエンドツーエンドフレームワークstemdを提案する。 stemdは、シーケンスからシーケンスへのタスクとしてマルチフレーム3dオブジェクト検出を扱い、機能レベルとクエリレベルの両方で空間-時間依存を効果的に捉えます。 具体的には、対象間の空間的相互作用と複雑な時間的依存関係をモデル化するために、グラフ内のノードとしてクエリを表現し、社会的コンテキスト内のオブジェクト間相互作用の効果的なモデリングを可能にする空間-時間グラフアテンションネットワークを導入する。 現在のフレームで提案するエンコーダの出力において、ハードケースを欠くという問題を解決するため、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。 さらに,モデルが類似クエリから重複するボックスを多数生成する冗長検出結果の問題を緩和するため,損失関数におけるiou正規化項を考察し,基底ボックスにマッチするクエリと,改良過程で類似するが一致しないクエリを区別し,冗長性が低下し,より正確な検出が可能となる。 大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。 コードは \url{https://github.com/eaphan/stemd} で入手できる。

The Detection Transformer (DETR) has revolutionized the design of CNN-based object detection systems, showcasing impressive performance. However, its potential in the domain of multi-frame 3D object detection remains largely unexplored. In this paper, we present STEMD, a novel end-to-end framework for multi-frame 3D object detection based on the DETR-like paradigm. STEMD treats multi-frame 3D object detection as a sequence-to-sequence task and effectively captures spatial-temporal dependencies at both the feature and query levels. Specifically, to model the inter-object spatial interaction and complex temporal dependencies, we introduce the spatial-temporal graph attention network, which represents queries as nodes in a graph and enables effective modeling of object interactions within a social context. To solve the problem of missing hard cases in the proposed output of the encoder in the current frame, we incorporate the output of the previous frame to initialize the query input of the decoder. Moreover, to mitigate the issue of redundant detection results, where the model generates numerous overlapping boxes from similar queries, we consider an IoU regularization term in the loss function, which can distinguish between queries matched with the ground-truth box and queries that are similar but unmatched during the refinement process, leading to reduced redundancy and more accurate detections. Through extensive experiments, we demonstrate the effectiveness of our approach in handling challenging scenarios, while incurring only a minor additional computational overhead. The code is available at \url{https://github.com/Eaphan/STEMD}.
翻訳日:2023-12-06 19:57:50 公開日:2023-12-05
# 拡散確率モデルのスパイキング

Spiking Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.17046v4 )

ライセンス: Link先を確認
Jiahang Cao, Ziqing Wang, Hanzhong Guo, Hao Cheng, Qiang Zhang, Renjing Xu(参考訳) スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワーク(ANN)と比較して、二元的および生物駆動的な性質のため、超低エネルギー消費と高い生物学的可視性を有する。 これまでの研究は主に分類タスクにおけるsnsの性能向上に重点を置いてきたが、snsの生成可能性は比較的未解明のままである。 本稿では,SNN を用いた新しい生成モデルである Spking Denoising Diffusion Probabilistic Models (SDDPM) について述べる。 SNNのエネルギー効率をフル活用するために,ANNに匹敵する性能を実現する純粋にスパイクされたU-Netアーキテクチャを提案する。 広範な実験結果から,提案手法は生成タスクの最先端化を達成し,他のsnベースの生成モデルよりも大幅に優れ,cifar-10とcelebaデータセットでは最大12倍,6倍の改善が得られた。 さらに,トレーニングフリーでパフォーマンスをさらに2.69%向上させることができるしきい値誘導戦略を提案する。 SDDPMはSNN生成の分野での大きな進歩を象徴し、新たな視点と潜在的な探索の道のりを注入している。 私たちのコードはhttps://github.com/AndyCao1125/SDDPMで利用可能です。

Spiking neural networks (SNNs) have ultra-low energy consumption and high biological plausibility due to their binary and bio-driven nature compared with artificial neural networks (ANNs). While previous research has primarily focused on enhancing the performance of SNNs in classification tasks, the generative potential of SNNs remains relatively unexplored. In our paper, we put forward Spiking Denoising Diffusion Probabilistic Models (SDDPM), a new class of SNN-based generative models that achieve high sample quality. To fully exploit the energy efficiency of SNNs, we propose a purely Spiking U-Net architecture, which achieves comparable performance to its ANN counterpart using only 4 time steps, resulting in significantly reduced energy consumption. Extensive experimental results reveal that our approach achieves state-of-the-art on the generative tasks and substantially outperforms other SNN-based generative models, achieving up to 12x and 6x improvement on the CIFAR-10 and the CelebA datasets, respectively. Moreover, we propose a threshold-guided strategy that can further improve the performances by 2.69% in a training-free manner. The SDDPM symbolizes a significant advancement in the field of SNN generation, injecting new perspectives and potential avenues of exploration. Our code is available at https://github.com/AndyCao1125/SDDPM.
翻訳日:2023-12-06 19:57:09 公開日:2023-12-05
# 量子化因子の同定可能性について

On the Identifiability of Quantized Factors ( http://arxiv.org/abs/2306.16334v2 )

ライセンス: Link先を確認
Vit\'oria Barin-Pacela, Kartik Ahuja, Simon Lacoste-Julien, Pascal Vincent(参考訳) ディスタングルメントは、観測された分布のみから有意義な潜在的地下構造因子を回収することを目的としており、識別可能性の理論によって形式化されている。 独立潜在因子の識別性は、因子から観測までの一般的な非線形写像の下での教師なしの設定では不可能であることが証明されている。 しかし,本研究では,一般非線形微分同相写像の下で量子化された潜在因子を回収できることを実証する。 潜在因子が、統計的に独立である必要なしに、その密度に独立な不連続性を持つと仮定するのみである。 本稿では、この新しい形の量子化因子識別可能性を紹介し、量子化因子の回復の包括的証明を提供する。

Disentanglement aims to recover meaningful latent ground-truth factors from the observed distribution solely, and is formalized through the theory of identifiability. The identifiability of independent latent factors is proven to be impossible in the unsupervised i.i.d. setting under a general nonlinear map from factors to observations. In this work, however, we demonstrate that it is possible to recover quantized latent factors under a generic nonlinear diffeomorphism. We only assume that the latent factors have independent discontinuities in their density, without requiring the factors to be statistically independent. We introduce this novel form of identifiability, termed quantized factor identifiability, and provide a comprehensive proof of the recovery of the quantized factors.
翻訳日:2023-12-06 19:56:45 公開日:2023-12-05
# 部分観測力学系に対するエコー状態ネットワーク予測地平線の可変性

Variability of echo state network prediction horizon for partially observed dynamical systems ( http://arxiv.org/abs/2306.10797v3 )

ライセンス: Link先を確認
Ajit Mahata, Reetish Padhi and Amit Apte(参考訳) 部分状態観測を用いた力学系の研究は、多くの実世界のシステムに適用できるため重要な問題である。 本稿では,部分状態入力と完全状態出力とを併用したエコー状態ネットワーク(ESN)フレームワークについて検討する。 LorenzシステムとChuaの発振器(数値シミュレーションと実験の両方)への応用は,本手法の有効性を示す。 自律力学系としてのESNは,数回のリャプノフ時間までの短期的な予測を行うことができることを示す。 しかし,予測地平線は,予測地平線の分布を用いて詳細に検討する初期条件に依存して高い変動性を有する。 さらに,esn予測の長期ダイナミクスと数値シミュレーションや実験ダイナミクスを比較し,同様の結果を得た結果から,ノイズのある数値データセットや実験データセットでトレーニングしても,esnはシステムのダイナミクスを効果的に学習できることを示した。 そこで本研究では,完全な観測ができないシステムのダイナミクスをシミュレートするための安価なサロゲートモデルとしてのesnの可能性を示す。

Study of dynamical systems using partial state observation is an important problem due to its applicability to many real-world systems. We address the problem by studying an echo state network (ESN) framework with partial state input with partial or full state output. Application to the Lorenz system and Chua's oscillator (both numerically simulated and experimental systems) demonstrate the effectiveness of our method. We show that the ESN, as an autonomous dynamical system, is capable of making short-term predictions up to a few Lyapunov times. However, the prediction horizon has high variability depending on the initial condition-an aspect that we explore in detail using the distribution of the prediction horizon. Further, using a variety of statistical metrics to compare the long-term dynamics of the ESN predictions with numerically simulated or experimental dynamics and observed similar results, we show that the ESN can effectively learn the system's dynamics even when trained with noisy numerical or experimental datasets. Thus, we demonstrate the potential of ESNs to serve as cheap surrogate models for simulating the dynamics of systems where complete observations are unavailable.
翻訳日:2023-12-06 19:55:17 公開日:2023-12-05
# サンプル効率適応のためのニューラルプライミング

Neural Priming for Sample-Efficient Adaptation ( http://arxiv.org/abs/2306.10191v3 )

ライセンス: Link先を確認
Matthew Wallingford, Vivek Ramanujan, Alex Fang, Aditya Kusupati, Roozbeh Mottaghi, Aniruddha Kembhavi, Ludwig Schmidt, Ali Farhadi(参考訳) ラベル付き例がほとんど,あるいはまったくない下流タスクに,大規模事前学習モデルを適用する手法であるneural primingを提案する。 クラス名やラベルのないテストサンプルで示されるニューラルプライミングは、モデルが事前トレーニング中に見た関連するデータに基づいてパラメータをリコールし、条件付けし、テスト分布にプライミングする。 LAION-2Bのようなデータセットを事前トレーニングしても、ニューラルプライミングはテスト時に実行できる。 リコールされたデータのライトウェイトな更新は、さまざまな分散シフトと転送学習ベンチマークの精度を大幅に向上させる。 具体的には、ゼロショット設定では、imagenetの精度が2.45%向上し、標準転送学習ベンチマークの平均で3.81%向上しています。 さらに,分布シフトに適応するために推論のニューラルプライミングを用いると,imagenetv2の精度が1.41%向上する。 これらの結果は,限定ラベル付きデータの課題と分布変化に対するニューラルプライミングの有効性を示す。 コードはgithub.com/RAIVNLab/neural-primingで入手できる。

We propose Neural Priming, a technique for adapting large pretrained models to distribution shifts and downstream tasks given few or no labeled examples. Presented with class names or unlabeled test samples, Neural Priming enables the model to recall and conditions its parameters on relevant data seen throughout pretraining, thereby priming it for the test distribution. Neural Priming can be performed at test time, even for pretraining datasets as large as LAION-2B. Performing lightweight updates on the recalled data significantly improves accuracy across a variety of distribution shift and transfer learning benchmarks. Concretely, in the zero-shot setting, we see a 2.45% improvement in accuracy on ImageNet and 3.81% accuracy improvement on average across standard transfer learning benchmarks. Further, using Neural Priming at inference to adapt to distribution shift, we see a 1.41% accuracy improvement on ImageNetV2. These results demonstrate the effectiveness of Neural Priming in addressing the challenge of limited labeled data and changing distributions. Code is available at github.com/RAIVNLab/neural-priming.
翻訳日:2023-12-06 19:54:58 公開日:2023-12-05
# TWIGMA: Twitterのメタデータを備えたAI生成画像のデータセット

TWIGMA: A dataset of AI-Generated Images with Metadata From Twitter ( http://arxiv.org/abs/2306.08310v2 )

ライセンス: Link先を確認
Yiqun Chen, James Zou(参考訳) 生成型人工知能(gen-AI)の最近の進歩により、写真リアリスティック写真や芸術的インスピレーション写真が1クリックで生成できるようになった。 DALLEやStableDiffusionといったジェネラルAIモデルの使用方法を検討するためには、AI生成写真に存在するテーマ、内容、バリエーションを理解することが重要である。 本稿では、2021年1月から2023年3月までにTwitter上で収集された800,000以上のgen-AI画像を含む包括的なデータセットであるTWIGMAを紹介し、https://zenodo.org/records/8031785で利用可能である。 TWIGMAと自然画像と人間のアートワークを比較した結果,gen-AI画像は特徴的特徴を有し,非gen-AI画像と比較した場合,平均的,低変動性を示すことがわかった。 また,gen-AI画像と自然画像との類似性は,その数と逆相関していることがわかった。 最後に、Twitter上でAI生成画像のテーマの経年変化を観察し、ユーザーは複雑な人間の肖像画などの芸術的に洗練されたコンテンツをシェアする一方で、自然の場面や動物のような単純な主題への関心は減少している。 我々は,AI生成画像の研究において,TWIGMAがユニークなデータ資源であることを示す。

Recent progress in generative artificial intelligence (gen-AI) has enabled the generation of photo-realistic and artistically-inspiring photos at a single click, catering to millions of users online. To explore how people use gen-AI models such as DALLE and StableDiffusion, it is critical to understand the themes, contents, and variations present in the AI-generated photos. In this work, we introduce TWIGMA (TWItter Generative-ai images with MetadatA), a comprehensive dataset encompassing over 800,000 gen-AI images collected from Jan 2021 to March 2023 on Twitter, with associated metadata (e.g., tweet text, creation date, number of likes), available at https://zenodo.org/records/8031785. Through a comparative analysis of TWIGMA with natural images and human artwork, we find that gen-AI images possess distinctive characteristics and exhibit, on average, lower variability when compared to their non-gen-AI counterparts. Additionally, we find that the similarity between a gen-AI image and natural images is inversely correlated with the number of likes. Finally, we observe a longitudinal shift in the themes of AI-generated images on Twitter, with users increasingly sharing artistically sophisticated content such as intricate human portraits, whereas their interest in simple subjects such as natural scenes and animals has decreased. Our findings underscore the significance of TWIGMA as a unique data resource for studying AI-generated images.
翻訳日:2023-12-06 19:54:00 公開日:2023-12-05
# sciencebenchmark:sqlシステムへの自然言語評価のための複雑な実世界ベンチマーク

ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural Language to SQL Systems ( http://arxiv.org/abs/2306.04743v2 )

ライセンス: Link先を確認
Yi Zhang, Jan Deriu, George Katsogiannis-Meimarakis, Catherine Kosten, Georgia Koutrika, Kurt Stockinger(参考訳) natural language to sql systems (nl-to-sql) は最近、自然言語からsqlへのクエリ変換の精度が大幅に向上していることを示した。 この改善は、トランスフォーマーベースの言語モデルの出現と、NL-to-SQLシステムを評価するデファクト標準であるSpiderベンチマークの人気によるものだ。 上位nl-to-sqlシステムは最大85\%のアキュラシーに達する。 しかし、スパイダーは主にテーブル、列、エントリがほとんどない単純なデータベースを含んでおり、現実的な設定を反映していない。 さらに、ドメイン固有のコンテンツを持つ複雑な実世界のデータベースは、nl/sql-pair形式で利用可能なトレーニングデータが少なく、既存のnl-sqlシステムのパフォーマンスが低下する。 本稿では,3つの実世界の高ドメイン固有データベースを対象とした複雑なNL-to-SQLベンチマークであるScienceBenchmarkを紹介する。 この新しいベンチマークでは、SQLの専門家とドメインの専門家が、各ドメインに高品質なNL/SQLペアを作成した。 さらに,GPT-3を用いて生成した合成データを用いて,少ない量の人為的データを拡張した。 Spiderの上位パフォーマンスシステムがベンチマークで非常に低いパフォーマンスを達成するため、我々のベンチマークは非常に難しいことを示しています。 複雑なドメイン向けにnl-to-sqlシステムを作成し、合成データを付加した、少量の手作りのトレーニングデータを持つ。 私たちの知る限り、sciencebenchmarkは複雑な実世界の科学データベースで設計された最初のnl-to-sqlベンチマークであり、ドメインの専門家によって慎重に検証されたトレーニングとテストデータを含んでいる。

Natural Language to SQL systems (NL-to-SQL) have recently shown a significant increase in accuracy for natural language to SQL query translation. This improvement is due to the emergence of transformer-based language models, and the popularity of the Spider benchmark - the de-facto standard for evaluating NL-to-SQL systems. The top NL-to-SQL systems reach accuracies of up to 85\%. However, Spider mainly contains simple databases with few tables, columns, and entries, which does not reflect a realistic setting. Moreover, complex real-world databases with domain-specific content have little to no training data available in the form of NL/SQL-pairs leading to poor performance of existing NL-to-SQL systems. In this paper, we introduce ScienceBenchmark, a new complex NL-to-SQL benchmark for three real-world, highly domain-specific databases. For this new benchmark, SQL experts and domain experts created high-quality NL/SQL-pairs for each domain. To garner more data, we extended the small amount of human-generated data with synthetic data generated using GPT-3. We show that our benchmark is highly challenging, as the top performing systems on Spider achieve a very low performance on our benchmark. Thus, the challenge is many-fold: creating NL-to-SQL systems for highly complex domains with a small amount of hand-made training data augmented with synthetic data. To our knowledge, ScienceBenchmark is the first NL-to-SQL benchmark designed with complex real-world scientific databases, containing challenging training and test data carefully validated by domain experts.
翻訳日:2023-12-06 19:53:21 公開日:2023-12-05
# FIMO: 自動定理証明のための挑戦形式データセット

FIMO: A Challenge Formal Dataset for Automated Theorem Proving ( http://arxiv.org/abs/2309.04295v2 )

ライセンス: Link先を確認
Chengwu Liu, Jianhao Shen, Huajian Xin, Zhengying Liu, Ye Yuan, Haiming Wang, Wei Ju, Chuanyang Zheng, Yichun Yin, Lin Li, Ming Zhang, Qun Liu(参考訳) IMO(International Mathematical Olympiad)ショートリスト問題から得られる公式な数学的問題文からなる革新的なデータセットFIMOを提案する。 IMOレベルでの高度な自動定理の証明を容易にするために設計されたFIMOは現在、Lean形式言語用に調整されている。 149の形式的問題文と、形式的問題記述と、それに対応するラテックスに基づく形式的証明の両方からなる。 GPT-4に関する最初の実験を通じて,本研究は既存の手法の限界を浮き彫りにし,優れたIMOレベルの自動定理の証明に先立って大きな進歩をみせている。

We present FIMO, an innovative dataset comprising formal mathematical problem statements sourced from the International Mathematical Olympiad (IMO) Shortlisted Problems. Designed to facilitate advanced automated theorem proving at the IMO level, FIMO is currently tailored for the Lean formal language. It comprises 149 formal problem statements, accompanied by both informal problem descriptions and their corresponding LaTeX-based informal proofs. Through initial experiments involving GPT-4, our findings underscore the existing limitations in current methodologies, indicating a substantial journey ahead before achieving satisfactory IMO-level automated theorem proving outcomes.
翻訳日:2023-12-06 19:46:05 公開日:2023-12-05
# ディープラーニングモデルにおけるCPUとGPUプロファイリングの比較解析

Comparative Analysis of CPU and GPU Profiling for Deep Learning Models ( http://arxiv.org/abs/2309.02521v2 )

ライセンス: Link先を確認
Dipesh Gyawali(参考訳) 近年,ディープラーニング(DL)と機械学習(ML)アプリケーションが急速に増加している。 インターネット上で大量のデータが生成されており、MLとDLアルゴリズムを使用することで意味のある結果が得られる。 ハードウェアリソースとオープンソースライブラリにより、これらのアルゴリズムの実装が容易になった。 TensorflowとPytorchはMLプロジェクトを実装する主要なフレームワークの1つだ。 これらのフレームワークを使用することで、gpuとcpuの両方で実行される操作をトレースし、リソースの割り当てと消費を分析することができる。 本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。 本稿では,深層ニューラルネットワークのCPUと比較してGPUの実行時間が低いことを示す。 単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。

Deep Learning(DL) and Machine Learning(ML) applications are rapidly increasing in recent days. Massive amounts of data are being generated over the internet which can derive meaningful results by the use of ML and DL algorithms. Hardware resources and open-source libraries have made it easy to implement these algorithms. Tensorflow and Pytorch are one of the leading frameworks for implementing ML projects. By using those frameworks, we can trace the operations executed on both GPU and CPU to analyze the resource allocations and consumption. This paper presents the time and memory allocation of CPU and GPU while training deep neural networks using Pytorch. This paper analysis shows that GPU has a lower running time as compared to CPU for deep neural networks. For a simpler network, there are not many significant improvements in GPU over the CPU.
翻訳日:2023-12-06 19:45:53 公開日:2023-12-05
# 論文蒸留 : NLPモデルにおけるバイアスのヘイトスピーチ検出への影響の検討

Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection ( http://arxiv.org/abs/2308.16549v2 )

ライセンス: Link先を確認
Fatma Elsafoury(参考訳) 本論文は私の博士論文における業績の概要である。 NLPモデルにおけるバイアスがヘイトスピーチ検出の課題に与える影響について,説明可能性,攻撃的ステレオタイピングバイアス,公平性の3つの視点から検討した。 次に、私の論文からの主な教訓と、より広いnlpコミュニティにどのように貢献できるかについて論じます。 最後に、今後の重要な研究方針について論じる。 その結果,NLPモデルの偏りが3つの視点からヘイトスピーチ検出の課題に影響を与えることが示唆された。 そして、NLPモデルにおけるバイアスの研究に社会科学を取り入れない限り、NLPモデルにおけるバイアスの測定と緩和の現在の限界を効果的に克服することはできません。

This paper is a summary of the work done in my PhD thesis. Where I investigate the impact of bias in NLP models on the task of hate speech detection from three perspectives: explainability, offensive stereotyping bias, and fairness. Then, I discuss the main takeaways from my thesis and how they can benefit the broader NLP community. Finally, I discuss important future research directions. The findings of my thesis suggest that the bias in NLP models impacts the task of hate speech detection from all three perspectives. And that unless we start incorporating social sciences in studying bias in NLP models, we will not effectively overcome the current limitations of measuring and mitigating bias in NLP models.
翻訳日:2023-12-06 19:45:44 公開日:2023-12-05
# 歩行認識のためのフリーランチ:新しい関係記述子

Free Lunch for Gait Recognition: A Novel Relation Descriptor ( http://arxiv.org/abs/2308.11487v3 )

ライセンス: Link先を確認
Jilong Wang, Saihui Hou, Yan Huang, Chunshui Cao, Xu Liu, Yongzhen Huang, Tianzhu Zhang, Liang Wang(参考訳) 歩行認識は、独自の歩行パターンによってクエリ個人に適切なマッチングを求めることである。 しかし、現在の手法は「対人関係」を見越して個人固有の特徴の抽出にのみ焦点をあてている。 本稿では,個々の特徴だけでなく,テスト歩行と事前選択された歩行アンカーの関係も捉える,新しい$\textbf{relation descriptor}$を提案する。 具体的には,分類器重みを歩行アンカーとして再解釈し,テスト特徴とこれらのアンカーの類似度スコアを計算し,個々の歩行特徴を類似度関係分布に再表現する。 本質的に、リレーション・ディスクリプタは分類器の重みの中に格納された集合的知識を活用し、有意義なパターンを強調し、堅牢性を高める包括的視点を提供する。 その可能性にもかかわらず、関係記述子は、その次元がトレーニングセットのアイデンティティ数に依存するため、次元的課題を提起する。 そこで本研究では,最も識別的な歩行アンカーと直交正規化損失を識別し,歩行アンカー内の多様性を高めるための最遠の歩行アンカー選択を提案する。 バックボーンから抽出した個々の特徴と比較して、我々の関係記述子は余分なコストなしで性能を向上させることができる。 提案手法がGREW, Gait3D, OU-MVLP, CASIA-B, CCPGに対して有効であることを示す。

Gait recognition is to seek correct matches for query individuals by their unique walking patterns. However, current methods focus solely on extracting individual-specific features, overlooking ``interpersonal" relationships. In this paper, we propose a novel $\textbf{Relation Descriptor}$ that captures not only individual features but also relations between test gaits and pre-selected gait anchors. Specifically, we reinterpret classifier weights as gait anchors and compute similarity scores between test features and these anchors, which re-expresses individual gait features into a similarity relation distribution. In essence, the relation descriptor offers a holistic perspective that leverages the collective knowledge stored within the classifier's weights, emphasizing meaningful patterns and enhancing robustness. Despite its potential, relation descriptor poses dimensionality challenges since its dimension depends on the training set's identity count. To address this, we propose Farthest gait-Anchor Selection to identify the most discriminative gait anchors and an Orthogonal Regularization Loss to increase diversity within gait anchors. Compared to individual-specific features extracted from the backbone, our relation descriptor can boost the performance nearly without any extra costs. We evaluate the effectiveness of our method on the popular GREW, Gait3D, OU-MVLP, CASIA-B, and CCPG, showing that our method consistently outperforms the baselines and achieves state-of-the-art performance.
翻訳日:2023-12-06 19:45:33 公開日:2023-12-05
# トポロジカルグラフ信号圧縮

Topological Graph Signal Compression ( http://arxiv.org/abs/2308.11068v2 )

ライセンス: Link先を確認
Guillermo Bern\'ardez, Lev Telyatnikov, Eduard Alarc\'on, Albert Cabellos-Aparicio, Pere Barlet-Ros, Pietro Li\`o(参考訳) 最近登場したトポロジカルディープラーニング(TDL)手法は、グラフ表現によって定義されたペア関係や局所近傍を越えて、高次相互作用を自然に処理することで、現在のグラフニューラルネットワーク(GNN)を拡張することを目的としている。 本稿では,グラフ上の信号を圧縮する新しいTDL方式を提案する。まず,高次構造の解離した集合を,元の信号に基づいて推定する -$N$データポイントを$K\ll N$コレクションにクラスタリングすることで,位相的メッセージパッシングは,これらの多元集合内の信号の圧縮表現を得る。 我々のフレームワークは、標準的なGNNとフィードフォワードアーキテクチャの両方を改善して、2つのリアルタイムインターネットサービスプロバイダネットワークのデータセットから時間リンクベースの信号を圧縮します。

Recently emerged Topological Deep Learning (TDL) methods aim to extend current Graph Neural Networks (GNN) by naturally processing higher-order interactions, going beyond the pairwise relations and local neighborhoods defined by graph representations. In this paper we propose a novel TDL-based method for compressing signals over graphs, consisting in two main steps: first, disjoint sets of higher-order structures are inferred based on the original signal --by clustering $N$ datapoints into $K\ll N$ collections; then, a topological-inspired message passing gets a compressed representation of the signal within those multi-element sets. Our results show that our framework improves both standard GNN and feed-forward architectures in compressing temporal link-based signals from two real-word Internet Service Provider Networks' datasets --from $30\%$ up to $90\%$ better reconstruction errors across all evaluation scenarios--, suggesting that it better captures and exploits spatial and temporal correlations over the whole graph-based network structure.
翻訳日:2023-12-06 19:45:09 公開日:2023-12-05
# 神経エミュレーションによる量子プロセス学習

Quantum Process Learning Through Neural Emulation ( http://arxiv.org/abs/2308.08815v2 )

ライセンス: Link先を確認
Yan Zhu, Ya-Dong Wu, Qiushi Liu, Yuexuan Wang, Giulio Chiribella(参考訳) ニューラルネットワークは、限られた量の測定データから中間規模の量子デバイスを特徴付ける有望なツールである。 この領域における難しい問題は、物理的に関連する入力状態のアンサンブルに対する未知の量子過程の作用を学ぶことである。 そこで本研究では,入力アンサンブルの内部表現を構築し,状態表現レベルでのプロセスの動作を模倣することで未知のプロセスを模倣するニューラルネットワークを提案する。 数組の入力/出力量子状態の測定データをトレーニングした後、ネットワークは関心の集まりにおけるすべての入力の計測統計を予測できるようになる。 我々のモデルは量子コンピューティング、量子フォトニクス、量子多体物理学への応用において高い精度を示す。

Neural networks are a promising tool for characterizing intermediate-scale quantum devices from limited amounts of measurement data. A challenging problem in this area is to learn the action of an unknown quantum process on an ensemble of physically relevant input states. To tackle this problem, we introduce a neural network that emulates the unknown process by constructing an internal representation of the input ensemble and by mimicking the action of the process at the state representation level. After being trained with measurement data from a few pairs of input/output quantum states, the network becomes able to predict the measurement statistics for all inputs in the ensemble of interest. We show that our model exhibits high accuracy in applications to quantum computing, quantum photonics, and quantum many-body physics.
翻訳日:2023-12-06 19:44:45 公開日:2023-12-05
# 表面心電図からの心電気生理学的モデルのデジタルツインニング : 測地学的バックプロパゲーションアプローチ

Digital twinning of cardiac electrophysiology models from the surface ECG: a geodesic backpropagation approach ( http://arxiv.org/abs/2308.08410v2 )

ライセンス: Link先を確認
Thomas Grandits, Jan Verh\"ulsdonk, Gundolf Haase, Alexander Effland, Simone Pezzuto(参考訳) 固有方程式は、心臓の電気的活性化を正確かつ効率的にモデル化するのに欠かせないツールとなっている。 臨床的に記録された心電図と心電図(ECG)を照合することにより、患者固有の心電気生理学的モデルを構築することができる。 それでも、フィッティング手順は難しい課題である。 本研究では,逆固有問題を解くための新しい手法geodesic-bpを提案する。 Geodesic-BPはGPU加速機械学習フレームワークに適しており、固有方程式のパラメータを最適化して所定のECGを再生することができる。 その結果,Geodesic-BPは, モデル不正確な場合であっても, 合成テストケースにおいて, シミュレーション心活性化を高精度に再現できることが示唆された。 さらに,本アルゴリズムを二室性ウサギモデルの公開データセットに適用し,有望な結果を得た。 パーソナライズされた医療への将来のシフトを考えると、Geodesic-BPは、最先端の心臓モデルの生理的精度を維持しつつ、臨床時間制約を満たす心臓モデルの将来の機能化に役立つ可能性がある。

The eikonal equation has become an indispensable tool for modeling cardiac electrical activation accurately and efficiently. In principle, by matching clinically recorded and eikonal-based electrocardiograms (ECGs), it is possible to build patient-specific models of cardiac electrophysiology in a purely non-invasive manner. Nonetheless, the fitting procedure remains a challenging task. The present study introduces a novel method, Geodesic-BP, to solve the inverse eikonal problem. Geodesic-BP is well-suited for GPU-accelerated machine learning frameworks, allowing us to optimize the parameters of the eikonal equation to reproduce a given ECG. We show that Geodesic-BP can reconstruct a simulated cardiac activation with high accuracy in a synthetic test case, even in the presence of modeling inaccuracies. Furthermore, we apply our algorithm to a publicly available dataset of a biventricular rabbit model, with promising results. Given the future shift towards personalized medicine, Geodesic-BP has the potential to help in future functionalizations of cardiac models meeting clinical time constraints while maintaining the physiological accuracy of state-of-the-art cardiac models.
翻訳日:2023-12-06 19:44:31 公開日:2023-12-05
# 60原子アナログ量子シミュレータによる高絡み合い状態のベンチマーク

Benchmarking highly entangled states on a 60-atom analog quantum simulator ( http://arxiv.org/abs/2308.07914v2 )

ライセンス: Link先を確認
Adam L. Shaw, Zhuo Chen, Joonhee Choi, Daniel K. Mark, Pascal Scholl, Ran Finkelstein, Andreas Elben, Soonwon Choi, Manuel Endres(参考訳) 量子システムは、古典的なコンピュータが高度に絡み合った量子状態を表す近似をしなければならない競争体制に入った。 しかし、この超古典的な状況下では、量子系と古典系の忠実度比較は今のところデジタル量子デバイスに限られており、実験の実際の絡み合い量を推定する方法は未解決のままである。 ここでは60原子のアナログRydberg量子シミュレータを用いて、忠実度ベンチマークと混合状態エンタングルメント推定を行い、正確な古典シミュレーションが非現実的な高エンタングルメントエントロピー状態に達する。 我々のベンチマークプロトコルは、ここで紹介された近似古典的アルゴリズムとの比較から外挿する。 次に,実験結果の混合状態の絡み合いを推定し,ランダム回路進化を行う最先端のディジタル量子デバイスとの競合性を見出した。 最後に、様々な古典的アルゴリズムによって達成された実験の忠実度を比較し、導入したアルゴリズムだけが古典的ハードウェアの実験に追従できることを示した。 本研究は,アナログ量子デバイスとデジタル量子デバイスの両方のエンタングルメントを生成する能力を評価するための新しいパラダイムの実現を可能にし,量子システムと古典システムの間の発展を強調する。

Quantum systems have entered a competitive regime where classical computers must make approximations to represent highly entangled quantum states. However, in this beyond-classically-exact regime, fidelity comparisons between quantum and classical systems have so far been limited to digital quantum devices, and it remains unsolved how to estimate the actual entanglement content of experiments. Here we perform fidelity benchmarking and mixed-state entanglement estimation with a 60-atom analog Rydberg quantum simulator, reaching a high entanglement entropy regime where exact classical simulation becomes impractical. Our benchmarking protocol involves extrapolation from comparisons against an approximate classical algorithm, introduced here, with varying entanglement limits. We then develop and demonstrate an estimator of the experimental mixed-state entanglement, finding our experiment is competitive with state-of-the-art digital quantum devices performing random circuit evolution. Finally, we compare the experimental fidelity against that achieved by various approximate classical algorithms, and find that only the algorithm we introduce is able to keep pace with the experiment on the classical hardware we employ. Our results enable a new paradigm for evaluating the ability of both analog and digital quantum devices to generate entanglement in the beyond-classically-exact regime, and highlight the evolving divide between quantum and classical systems.
翻訳日:2023-12-06 19:44:10 公開日:2023-12-05
# Miroによるメモリ階層によるデバイス上連続学習の費用対効果

Cost-effective On-device Continual Learning over Memory Hierarchy with Miro ( http://arxiv.org/abs/2308.06053v4 )

ライセンス: Link先を確認
Xinyue Ma, Suyeon Jeong, Minjia Zhang, Di Wang, Jonghyun Choi, Myeongjae Jeon(参考訳) 連続学習(CL)は、タスクの連続ストリームからNNモデルを漸進的に訓練する。 以前に学んだ知識を思い出すために、以前の研究は古いサンプルをメモリ階層上に保存し、新しいタスクが到着したら再生する。 データプライバシを保存するためにCLを採用するエッジデバイスは、通常、エネルギーに敏感であり、エネルギー効率、すなわちコスト効率を損なうことなく、高いモデル精度を必要とする。 我々の研究は、階層型メモリリプレイベースのCLの設計空間を初めて探求し、エッジデバイスでコスト効率を達成するための洞察を得た。 我々は,資源状態に基づいてCLシステムを動的に構成し,コスト効率を最大化することにより,CLフレームワークに対する洞察を注意深く統合するシステムランタイムであるMiroを紹介する。 この目標を達成するために、Miroは、精度とエネルギーのトレードオフを明確にしたパラメータのオンラインプロファイリングを行い、オーバーヘッドの少ない最適な値に適応する。 大規模な評価の結果、Miroは私たちが構築するベースラインシステムを大幅に上回り、高いコスト効率を実現している。

Continual learning (CL) trains NN models incrementally from a continuous stream of tasks. To remember previously learned knowledge, prior studies store old samples over a memory hierarchy and replay them when new tasks arrive. Edge devices that adopt CL to preserve data privacy are typically energy-sensitive and thus require high model accuracy while not compromising energy efficiency, i.e., cost-effectiveness. Our work is the first to explore the design space of hierarchical memory replay-based CL to gain insights into achieving cost-effectiveness on edge devices. We present Miro, a novel system runtime that carefully integrates our insights into the CL framework by enabling it to dynamically configure the CL system based on resource states for the best cost-effectiveness. To reach this goal, Miro also performs online profiling on parameters with clear accuracy-energy trade-offs and adapts to optimal values with low overhead. Extensive evaluations show that Miro significantly outperforms baseline systems we build for comparison, consistently achieving higher cost-effectiveness.
翻訳日:2023-12-06 19:43:44 公開日:2023-12-05
# 画像認識のためのスピントロニクス:超高速データ駆動シミュレーションによる性能ベンチマーク

Spintronics for image recognition: performance benchmarking via ultrafast data-driven simulations ( http://arxiv.org/abs/2308.05810v2 )

ライセンス: Link先を確認
Anatole Moureaux and Chlo\'e Chopin and Laurent Jacques and Flavio Abreu Araujo(参考訳) 本稿では,Vortex-based spin-torque oscillator (STVO) と呼ばれる単一スピントロニクスナノ構造を用いたエコー状態ネットワーク(ESN)を用いた画像分類の実証を行った。 我々は,データ駆動型thiele方程式法(dd-tea)と呼ばれる超高速データ駆動シミュレーションフレームワークを用いてstvoダイナミクスをシミュレートする。 これにより、ナノ構造系の繰り返しの実験操作に伴う問題を回避することができる。 我々は、mnist, emnist-letters, fashion mnistデータセットを用いた分類課題の解決に成功して、ソリューションの汎用性を示す。 シミュレーションにより,大きなesn内でstvoダイナミクスを活性化関数として用いた結果が,reluやsgmoidのような従来の非線形活性化関数と同等であることが判明した。 MNISTデータセットで最先端の精度を実現する一方で、システムアーキテクチャの比較的単純さとタスクの複雑さの増加により、EMNISTレターとファッションMNISTの性能は低下する。 DD-TEAフレームワークがより深いアーキテクチャの探索を可能にし、最終的に分類精度が向上することを期待しています。

We present a demonstration of image classification using an echo-state network (ESN) relying on a single simulated spintronic nanostructure known as the vortex-based spin-torque oscillator (STVO) delayed in time. We employ an ultrafast data-driven simulation framework called the data-driven Thiele equation approach (DD-TEA) to simulate the STVO dynamics. This allows us to avoid the challenges associated with repeated experimental manipulation of such a nanostructured system. We showcase the versatility of our solution by successfully applying it to solve classification challenges with the MNIST, EMNIST-letters and Fashion MNIST datasets. Through our simulations, we determine that within a large ESN the results obtained using the STVO dynamics as an activation function are comparable to the ones obtained with other conventional nonlinear activation functions like the reLU and the sigmoid. While achieving state-of-the-art accuracy levels on the MNIST dataset, our model's performance on EMNIST-letters and Fashion MNIST is lower due to the relative simplicity of the system architecture and the increased complexity of the tasks. We expect that the DD-TEA framework will enable the exploration of deeper architectures, ultimately leading to improved classification accuracy.
翻訳日:2023-12-06 19:43:25 公開日:2023-12-05
# 感覚を超えた学習 : 夢はどのように神経表現を組織するか

Learning beyond sensations: how dreams organize neuronal representations ( http://arxiv.org/abs/2308.01830v2 )

ライセンス: Link先を確認
Nicolas Deperrois, Mihai A. Petrovici, Walter Senn, and Jakob Jordan(参考訳) 高次感覚皮質における意味表現は、頑健だが柔軟な行動の基礎を形成する。 これらの表現は、未監督の方法で開発過程で獲得され、生物の寿命にわたって継続的に維持される。 予測学習理論は、これらの表現が感覚入力の予測または再構成から生じることを示唆する。 しかし、脳は想像や夢のような、以前に経験した経験を超越した仮想体験を生み出すことが知られている。 ここでは、仮想体験は、皮質表現を形作る際の実際の感覚入力と同等の関連性があることを示唆する。 特に,仮想体験の生成を通じて表現を整理する2つの相補的学習原理について論じる。 まず、"adversarial dreaming"は、創造的な夢は、フィードバックとフィードフォワードの経路が互いに騙そうとする生産的なゲームに関与する、敵の学習の皮質的実装をサポートすることを提案している。 第2に"contrastive dreaming"では、類似した仮想体験を対比学習プロセスを通じてマップすることで、変動の無関係な要因に対するニューロン表現の不変性を得ることが提案されている。 これらの原理は既知の皮質構造とダイナミクス、睡眠の現象学と相性があり、古典的予測学習パラダイムを超えて皮質学習を説明する有望な方向を与える。

Semantic representations in higher sensory cortices form the basis for robust, yet flexible behavior. These representations are acquired over the course of development in an unsupervised fashion and continuously maintained over an organism's lifespan. Predictive learning theories propose that these representations emerge from predicting or reconstructing sensory inputs. However, brains are known to generate virtual experiences, such as during imagination and dreaming, that go beyond previously experienced inputs. Here, we suggest that virtual experiences may be just as relevant as actual sensory inputs in shaping cortical representations. In particular, we discuss two complementary learning principles that organize representations through the generation of virtual experiences. First, "adversarial dreaming" proposes that creative dreams support a cortical implementation of adversarial learning in which feedback and feedforward pathways engage in a productive game of trying to fool each other. Second, "contrastive dreaming" proposes that the invariance of neuronal representations to irrelevant factors of variation is acquired by trying to map similar virtual experiences together via a contrastive learning process. These principles are compatible with known cortical structure and dynamics and the phenomenology of sleep thus providing promising directions to explain cortical learning beyond the classical predictive learning paradigm.
翻訳日:2023-12-06 19:43:05 公開日:2023-12-05
# 相対論的スピン1/2粒子のユニタリシフトパラメータ推定のための誤差トレードオフ関係

Error tradeoff relation for estimating the unitary-shift parameter of a relativistic spin-1/2 particle ( http://arxiv.org/abs/2308.00669v2 )

ライセンス: Link先を確認
Shin Funada, Jun Suzuki(参考訳) 本稿では,相対論的スピン1/2系における2つのユニタリシフトパラメータを推定するための非自明なトレードオフ関係の存在について考察する。 パラメトリックモデルが古典的でありながら、移動観察者は同時に2つのパラメータを推定できないことが示されている。 この古典モデルから真の量子モデルへの遷移は、量子フィッシャー情報行列の1パラメータ族を用いて解析的に研究される。 本稿では,トレードオフ関係の存在を検知できるだけでなく,その強度を評価する指標を用いることを提案する。 本稿では,提案する指標に基づき,トレードオフ関係の性質を詳細に検討する。

The purpose of this paper is to discuss the existence of a nontrivial tradeoff relation for estimating two unitary-shift parameters in a relativistic spin-1/2 system. It is shown that any moving observer cannot estimate two parameters simultaneously, even though a parametric model is classical in the rest frame. This transition from the classical model to a genuine quantum model is investigated analytically using a one-parameter family of quantum Fisher information matrices. This paper proposes to use an indicator that can not only detect the existence of a tradeoff relation but can also evaluate its strength. Based on the proposed indicator, this paper investigates the nature of the tradeoff relation in detail.
翻訳日:2023-12-06 19:42:45 公開日:2023-12-05
# 機械学習回帰におけるトレーニングセット充填距離の最小化について

On minimizing the training set fill distance in machine learning regression ( http://arxiv.org/abs/2307.10988v2 )

ライセンス: Link先を確認
Paolo Climaco and Jochen Garcke(参考訳) 回帰タスクでは、予測機械学習モデルのトレーニングに大規模なデータセットを利用することが多い。 しかし、大規模なデータセットを使用することは、計算上の制限や高いデータラベリングコストのため実現不可能である。 したがって、効率を保ちながらモデル性能を最大化するためには、乱れのないデータポイントの大きなプールから小さなトレーニングセットを選択することが望ましい。 本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法であるfarthest point sampling(fps)について検討する。 我々は,最大予測誤差の上限を,学習セットの充足距離に線形に依存する非競合データ点の位置に条件付けることによって導出した。 実験的な検証のために、3つのデータセット上で2つの回帰モデルを用いて実験を行う。 実験により, 充填距離を最小化し, 導出境界を最小化することでトレーニングセットの選択は, 様々な回帰モデルの最大予測誤差を著しく低減し, 代替サンプリングアプローチを大きなマージンで上回ることを示した。 さらに, fpsを用いたトレーニングセットの選択は, ガウス核回帰アプローチの特定の場合のモデル安定性を向上できることを示した。

For regression tasks one often leverages large datasets for training predictive machine learning models. However, using large datasets may not be feasible due to computational limitations or high data labelling costs. Therefore, suitably selecting small training sets from large pools of unlabelled data points is essential to maximize model performance while maintaining efficiency. In this work, we study Farthest Point Sampling (FPS), a data selection approach that aims to minimize the fill distance of the selected set. We derive an upper bound for the maximum expected prediction error, conditional to the location of the unlabelled data points, that linearly depends on the training set fill distance. For empirical validation, we perform experiments using two regression models on three datasets. We empirically show that selecting a training set by aiming to minimize the fill distance, thereby minimizing our derived bound, significantly reduces the maximum prediction error of various regression models, outperforming alternative sampling approaches by a large margin. Furthermore, we show that selecting training sets with the FPS can also increase model stability for the specific case of Gaussian kernel regression approaches.
翻訳日:2023-12-06 19:42:36 公開日:2023-12-05
# 量子シミュレータにおける関連情報のデータ駆動検出

Data-driven discovery of relevant information in quantum simulators ( http://arxiv.org/abs/2307.10040v2 )

ライセンス: Link先を確認
R. Verdel, V. Vitale, R. K. Panda, E. D. Donkor, A. Rodriguez, S. Lannig, Y. Deller, H. Strobel, M. K. Oberthaler, M. Dalmonte(参考訳) 量子シミュレータは強い相関を持つ量子物質を調べる強力な手段を提供する。 しかし,このようなシステムにおける測定結果の解釈には大きな課題が伴う。 本稿では,スピノルボース・アインシュタイン凝縮実験における量子クエンチの場合の合成量子物質の情報抽出に関する理論的枠組みについて述べる。 情報コンテンツの異なる尺度を提供する非パラメトリックな教師なし学習ツールを用いて,支配的自由度を識別するためのシステム非依存的アプローチを示す。 これにより、実効場理論と同様に、作用素の関連性に応じてランク付けすることができる。 対応する効果的な記述を特徴付けるために、データセットの固有次元をダイナミクスの複雑さの尺度として検討する。 これは、研究システムにおける時間依存的普遍行動の出現と相関するデータ構造を単純化することを明らかにする。 我々の仮定自由アプローチは、すぐに様々な実験プラットフォームに適用できる。

Quantum simulators offer powerful means to investigate strongly correlated quantum matter. However, interpreting measurement outcomes in such systems poses significant challenges. Here, we present a theoretical framework for information extraction in synthetic quantum matter, illustrated for the case of a quantum quench in a spinor Bose-Einstein condensate experiment. Employing non-parametric unsupervised learning tools that provide different measures of information content, we demonstrate a system-agnostic approach to identify dominant degrees of freedom. This enables us to rank operators according to their relevance, akin to effective field theory. To characterize the corresponding effective description, we then explore the intrinsic dimension of data sets as a measure of the complexity of the dynamics. This reveals a simplification of the data structure, which correlates with the emergence of time-dependent universal behavior in the studied system. Our assumption-free approach can be immediately applied in a variety of experimental platforms.
翻訳日:2023-12-06 19:42:16 公開日:2023-12-05
# byzantine-robust分散オンライン学習: 敵の参加者を敵の環境に改ざんする

Byzantine-Robust Distributed Online Learning: Taming Adversarial Participants in An Adversarial Environment ( http://arxiv.org/abs/2307.07980v3 )

ライセンス: Link先を確認
Xingrong Dong, Zhaoxian Wu, Qing Ling, Zhi Tian(参考訳) 本稿では,ビザンチン攻撃下でのオンライン学習について検討する。 オンライン学習アルゴリズムの性能は、しばしば(逆)後悔によって特徴づけられ、環境が対向的な損失を与えるときのワンステップ決定の質を評価し、サブ線形境界が好ましい。 しかし, 逆境環境やビザンチンの参加者の存在下では, 最先端の頑健な集約ルールのクラスであっても, オンライン勾配の分散は, 厳密な線形的反逆的後悔境界を達成できないことが証明された。 これはビザンツ攻撃の避けられない結果であり、線形敵の後悔の定数を合理的なレベルに制御することができる。 興味深いことに、正直な参加者の損失が無依存かつ均等に分配されるように環境が完全に敵対的でない場合は、上記の敵対的後悔とは対照的に、亜線形確率的後悔が可能となる。 そこで我々は, ビザンチン・ロバスト分散オンラインモーメントアルゴリズムを開発し, このような半線形確率的後悔境界を実現する。 大規模な数値実験は我々の理論解析を裏付ける。

This paper studies distributed online learning under Byzantine attacks. The performance of an online learning algorithm is often characterized by (adversarial) regret, which evaluates the quality of one-step-ahead decision-making when an environment provides adversarial losses, and a sublinear bound is preferred. But we prove that, even with a class of state-of-the-art robust aggregation rules, in an adversarial environment and in the presence of Byzantine participants, distributed online gradient descent can only achieve a linear adversarial regret bound, which is tight. This is the inevitable consequence of Byzantine attacks, even though we can control the constant of the linear adversarial regret to a reasonable level. Interestingly, when the environment is not fully adversarial so that the losses of the honest participants are i.i.d. (independent and identically distributed), we show that sublinear stochastic regret, in contrast to the aforementioned adversarial regret, is possible. We develop a Byzantine-robust distributed online momentum algorithm to attain such a sublinear stochastic regret bound. Extensive numerical experiments corroborate our theoretical analysis.
翻訳日:2023-12-06 19:42:02 公開日:2023-12-05
# FroSSL: 自己監督型学習のためのFrobenius Norm最小化

FroSSL: Frobenius Norm Minimization for Self-Supervised Learning ( http://arxiv.org/abs/2310.02903v2 )

ライセンス: Link先を確認
Oscar Skean, Aayush Dhakal, Nathan Jacobs, Luis Gonzalo Sanchez Giraldo(参考訳) 自己教師付き学習(SSL)は、表現学習のパラダイムとしてますます人気が高まっている。 最近の手法は、サンプル・コントラスト、次元・コントラスト、および非対称ネットワークベースに分類でき、それぞれのファミリーは情報的崩壊を避ける独自のアプローチを持っている。 次元コントラスト法はサンプルコントラスト法と同様の解に収束するが、いくつかの方法は収束するためによりエポックな訓練を必要とすることを実証的に示すことができる。 この分割を閉じることによって動機づけられた、対象関数 frossl は、埋め込み正規化までサンプルと次元に両立する。 FroSSLは、崩壊を避けるために共分散フロベニウスノルムを最小化し、拡張不変性に対する平均二乗誤差を最小化する。 我々はFroSSLが他のSSLメソッドよりも高速に収束していることを示し、この高速収束は、FroSSLが埋め込み共分散行列の固有値にどのように影響するかに起因するという理論的および実証的な支持を提供する。 また、CIFAR-10, CIFAR-100, STL-10, ImageNetデータセット上でResNet18をトレーニングする際に、FroSSLが線形プローブ評価の競合表現を学習することを示す。

Self-supervised learning (SSL) is an increasingly popular paradigm for representation learning. Recent methods can be classified as sample-contrastive, dimension-contrastive, or asymmetric network-based, with each family having its own approach to avoiding informational collapse. While dimension-contrastive methods converge to similar solutions as sample-contrastive methods, it can be empirically shown that some methods require more epochs of training to converge. Motivated by closing this divide, we present the objective function FroSSL which is both sample- and dimension-contrastive up to embedding normalization. FroSSL works by minimizing covariance Frobenius norms for avoiding collapse and minimizing mean-squared error for augmentation invariance. We show that FroSSL converges more quickly than a variety of other SSL methods and provide theoretical and empirical support that this faster convergence is due to how FroSSL affects the eigenvalues of the embedding covariance matrices. We also show that FroSSL learns competitive representations on linear probe evaluation when used to train a ResNet18 on the CIFAR-10, CIFAR-100, STL-10, and ImageNet datasets.
翻訳日:2023-12-06 19:36:09 公開日:2023-12-05
# GPT-Driver: GPTでドライブを学ぶ

GPT-Driver: Learning to Drive with GPT ( http://arxiv.org/abs/2310.01415v3 )

ライセンス: Link先を確認
Jiageng Mao, Yuxi Qian, Junjie Ye, Hang Zhao, Yue Wang(参考訳) 我々は,OpenAI GPT-3.5モデルを自律走行車のための信頼性の高い運動プランナに変換する,シンプルで効果的なアプローチを提案する。 運動計画は自動運転における中核的な課題であり、安全で快適な運転経路を計画することを目指している。 既存の運動プランナーは、主にヒューリスティックな手法を用いて運転軌跡を予測するが、これらの手法は、新規で目に見えない運転シナリオに直面した上での一般化能力が不十分であることを示す。 本稿では,大規模言語モデル(llm)に固有の強力な推論能力と一般化可能性を活かした動き計画手法を提案する。 我々のアプローチの基本的な洞察は、言語モデリング問題としての運動計画の再構築である。 具体的には、プランナーの入力と出力を言語トークンとして表現し、LLMを利用して座標位置の言語記述を通して駆動軌道を生成する。 さらに,llmの数値推論ポテンシャルを刺激する新しいprogging-reasoning-finetuning strategyを提案する。 この戦略により、LLMは高精度な軌道座標と、自然言語における内部決定過程を記述できる。 我々は,大規模な nuScenes データセットに対するアプローチを評価し,GPT ベースの運動プランナの有効性,一般化能力,解釈可能性について検証した。 コードはhttps://github.com/PointsCoder/GPT-Driver.comで入手できる。

We present a simple yet effective approach that can transform the OpenAI GPT-3.5 model into a reliable motion planner for autonomous vehicles. Motion planning is a core challenge in autonomous driving, aiming to plan a driving trajectory that is safe and comfortable. Existing motion planners predominantly leverage heuristic methods to forecast driving trajectories, yet these approaches demonstrate insufficient generalization capabilities in the face of novel and unseen driving scenarios. In this paper, we propose a novel approach to motion planning that capitalizes on the strong reasoning capabilities and generalization potential inherent to Large Language Models (LLMs). The fundamental insight of our approach is the reformulation of motion planning as a language modeling problem, a perspective not previously explored. Specifically, we represent the planner inputs and outputs as language tokens, and leverage the LLM to generate driving trajectories through a language description of coordinate positions. Furthermore, we propose a novel prompting-reasoning-finetuning strategy to stimulate the numerical reasoning potential of the LLM. With this strategy, the LLM can describe highly precise trajectory coordinates and also its internal decision-making process in natural language. We evaluate our approach on the large-scale nuScenes dataset, and extensive experiments substantiate the effectiveness, generalization ability, and interpretability of our GPT-based motion planner. Code is now available at https://github.com/PointsCoder/GPT-Driver.
翻訳日:2023-12-06 19:35:48 公開日:2023-12-05
# GSDC変換器:単眼多フレーム深度推定のための効率的かつ効果的なキュー融合

GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular Multi-Frame Depth Estimation ( http://arxiv.org/abs/2309.17059v2 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Zheyuan Zhou, Kerui Hu(参考訳) 深度推定は、自動運転で3d情報を知覚するための代替アプローチを提供する。 単眼深度推定は、単一フレームまたは複数フレームの入力であっても、様々な種類のキューを学習し、静的または動的シーンに特化することで大きな成功を収めている。 近年、これらの手がかり融合は魅力的な話題となり、両方の場面で組み合わせの手がかりがうまく機能することを目指している。 しかし、適応キュー融合は2次複雑性がキュー表現の粒度を制限する注意機構に依存する。 さらに、明示的な手がかりの融合は正確なセグメンテーションに依存するため、マスク予測に重荷がかかる。 この問題に対処するために,単眼多フレーム深度推定におけるcue融合の効率的かつ効果的な成分であるgsdcトランスを提案する。 微妙なスケールで手がかり関係を学ぶために変形可能な注意を活用し,粒度が増加すると計算要件が小さくなる。 動的シーンの精度低下を補うために,シーン特性を高精度な形状に頼ることなく,スーパートークンの形で表現する。 動的シーンによって引き起こされるそれぞれのスーパートークンの中で、関連する手がかりを収集し、局所的な密接な関係を学び、手がかりの融合を促進する。 本手法は,KITTIデータセット上での高速核融合速度で最先端の性能を実現する。

Depth estimation provides an alternative approach for perceiving 3D information in autonomous driving. Monocular depth estimation, whether with single-frame or multi-frame inputs, has achieved significant success by learning various types of cues and specializing in either static or dynamic scenes. Recently, these cues fusion becomes an attractive topic, aiming to enable the combined cues to perform well in both types of scenes. However, adaptive cue fusion relies on attention mechanisms, where the quadratic complexity limits the granularity of cue representation. Additionally, explicit cue fusion depends on precise segmentation, which imposes a heavy burden on mask prediction. To address these issues, we propose the GSDC Transformer, an efficient and effective component for cue fusion in monocular multi-frame depth estimation. We utilize deformable attention to learn cue relationships at a fine scale, while sparse attention reduces computational requirements when granularity increases. To compensate for the precision drop in dynamic scenes, we represent scene attributes in the form of super tokens without relying on precise shapes. Within each super token attributed to dynamic scenes, we gather its relevant cues and learn local dense relationships to enhance cue fusion. Our method achieves state-of-the-art performance on the KITTI dataset with efficient fusion speed.
翻訳日:2023-12-06 19:35:23 公開日:2023-12-05
# デノジング拡散橋モデル

Denoising Diffusion Bridge Models ( http://arxiv.org/abs/2309.16948v3 )

ライセンス: Link先を確認
Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon(参考訳) 拡散モデルは、確率過程を用いてデータにノイズをマッピングする強力な生成モデルである。 しかし、画像編集などの多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来ている。 このように、拡散モデルは、生成プロセスにこの情報を組み込むために、ガイダンスや投影サンプリングのような厄介な方法に依存する必要がある。 本研究では,2つの相対分布をエンドポイントとして補間する拡散ブリッジ群に基づく,このパラダイムの自然な代替として,ddbms(denoising diffusion bridge models)を提案する。 本手法は,データから拡散橋のスコアを学習し,学習したスコアに基づいて(統計的)微分方程式を解いて,一方のエンドポイント分布から他方へマップする。 本手法は,スコアベース拡散モデルやOTフローマッチングなどの生成モデルのクラスを自然に統一することで,既存の設計とアーキテクチャの選択をより一般的な問題に適応させることができる。 経験的に、ピクセルと潜在空間の両方の画像データセットにddbmsを適用する。 標準画像変換問題において、DDBMはベースライン法よりも大幅に改善され、ソース分布をランダムノイズに設定することで画像生成の問題を減らすと、DDBMはより一般的なタスクのために構築されているにもかかわらず、最先端のFIDスコアに匹敵する結果が得られる。

Diffusion models are powerful generative models that map noise to data using stochastic processes. However, for many applications such as image editing, the model input comes from a distribution that is not random noise. As such, diffusion models must rely on cumbersome methods like guidance or projected sampling to incorporate this information in the generative process. In our work, we propose Denoising Diffusion Bridge Models (DDBMs), a natural alternative to this paradigm based on diffusion bridges, a family of processes that interpolate between two paired distributions given as endpoints. Our method learns the score of the diffusion bridge from data and maps from one endpoint distribution to the other by solving a (stochastic) differential equation based on the learned score. Our method naturally unifies several classes of generative models, such as score-based diffusion models and OT-Flow-Matching, allowing us to adapt existing design and architectural choices to our more general problem. Empirically, we apply DDBMs to challenging image datasets in both pixel and latent space. On standard image translation problems, DDBMs achieve significant improvement over baseline methods, and, when we reduce the problem to image generation by setting the source distribution to random noise, DDBMs achieve comparable FID scores to state-of-the-art methods despite being built for a more general task.
翻訳日:2023-12-06 19:35:02 公開日:2023-12-05
# シナリオベース閉ループ自動運転における継続的な政策改善のためのStackelbergドライバモデル

Stackelberg Driver Model for Continual Policy Improvement in Scenario-Based Closed-Loop Autonomous Driving ( http://arxiv.org/abs/2309.14235v3 )

ライセンス: Link先を確認
Haoyi Niu, Qimao Chen, Yingyue Li, Yi Zhang, Jianming Hu(参考訳) 自律走行車(AV)の配備は、運転シナリオの長期分布において稀だが重要なコーナーケースが支配的であり、全体のパフォーマンスに悪影響を及ぼすため、ハードルに直面している。 この課題に対処するために、adversarial generation methodは、avテストの安全性-クリティカルシナリオを合成するための効率的なアプローチのクラスとして登場した。 しかし、これらの生成されたシナリオはしばしばav訓練に未使用であり、それを達成するのに必要なクローズドループ設計の欠如とともに、継続的なavポリシー改善の可能性を秘めている。 そこで我々は,Stackelberg Driver Model (SDM) を用いて,車両相互作用の階層的特性を正確に把握し,背景車両 (BV) とAVを逐次ゲームライクなインタラクションパラダイムで動作させることにより,反復的改善を促進する。 AVがリーダーとして働き、BVがフォロワーとして振る舞うことにより、このリーダー・フォロワー・モデリングは、AVが一貫して政策を洗練させ、常にBVがAVに挑戦する上で最良の対応をする追加情報を考慮する。 広範な実験により,本アルゴリズムは,特に高次元シナリオにおいて,複数のベースラインよりも優れた性能を示し,段階的に挑戦的なシナリオを生成しながら,av能力が大幅に向上することを示した。 コードはhttps://github.com/BlueCat-de/SDMで入手できる。

The deployment of autonomous vehicles (AVs) has faced hurdles due to the dominance of rare but critical corner cases within the long-tail distribution of driving scenarios, which negatively affects their overall performance. To address this challenge, adversarial generation methods have emerged as a class of efficient approaches to synthesize safety-critical scenarios for AV testing. However, these generated scenarios are often underutilized for AV training, resulting in the potential for continual AV policy improvement remaining untapped, along with a deficiency in the closed-loop design needed to achieve it. Therefore, we tailor the Stackelberg Driver Model (SDM) to accurately characterize the hierarchical nature of vehicle interaction dynamics, facilitating iterative improvement by engaging background vehicles (BVs) and AV in a sequential game-like interaction paradigm. With AV acting as the leader and BVs as followers, this leader-follower modeling ensures that AV would consistently refine its policy, always taking into account the additional information that BVs play the best response to challenge AV. Extensive experiments have shown that our algorithm exhibits superior performance compared to several baselines especially in higher dimensional scenarios, leading to substantial advancements in AV capabilities while continually generating progressively challenging scenarios. Code is available at https://github.com/BlueCat-de/SDM.
翻訳日:2023-12-06 19:34:39 公開日:2023-12-05
# 画像スーパーレゾリューションのためのデータアップサイクリング知識蒸留

Data Upcycling Knowledge Distillation for Image Super-Resolution ( http://arxiv.org/abs/2309.14162v2 )

ライセンス: Link先を確認
Yun Zhang, Wei Li, Simiao Li, Jie Hu, Hanting Chen, Hailing Wang, Zhijun Tu, Wenjia Wang, Bingyi Jing and Yunhe Wang(参考訳) 知識蒸留(KD)は深層ニューラルネットワークを圧縮するための有望で挑戦的な手法として登場し、熟練した計算集約的な教師モデルからコンパクトな学生モデルへの広範な学習表現の転送を目指している。 しかし、現在の超解像モデル(SR)のKD法は、SRタスクの特性が見過ごされているため、性能が制限され、応用が制限されている。 本稿では,教師が入力画像から得られたアップサイクルされたドメイン内データを通じて提供した事前知識により,学生モデルを容易にするデータリサイクル知識蒸留(DuKD)という,効果的なデータ利用の観点からアプローチを行った。 さらに、SRモデルのKDにおけるラベル整合性規則化を初めて実現し、ペア化された可逆データ拡張によって実装する。 これはKDの訓練過程を制約し、学生モデルのより優れた一般化能力をもたらす。 DUKDはその汎用性から、教師と学生の幅広いアーキテクチャ(CNNやTransformerモデルなど)や、シングルイメージSR、実世界SR、SR量子化といったSRタスクに適用でき、他の圧縮技術と平行している。 様々なベンチマークに関する総合的な実験は、DUKD法が過去の技術よりも大幅に優れていることを示した。

Knowledge distillation (KD) emerges as a promising yet challenging technique for compressing deep neural networks, aiming to transfer extensive learning representations from proficient and computationally intensive teacher models to compact student models. However, current KD methods for super-resolution (SR) models have limited performance and restricted applications, since the characteristics of SR tasks are overlooked. In this paper, we put forth an approach from the perspective of effective data utilization, namely, the Data Upcycling Knowledge Distillation (DUKD), which facilitates the student model by the prior knowledge the teacher provided through the upcycled in-domain data derived from the input images. Besides, for the first time, we realize the label consistency regularization in KD for SR models, which is implemented by the paired invertible data augmentations. It constrains the training process of KD and leads to better generalization capability of the student model. The DUKD, due to its versatility, can be applied across a broad spectrum of teacher-student architectures (e.g., CNN and Transformer models) and SR tasks, such as single image SR, real-world SR, and SR quantization, and is in parallel with other compression techniques. Comprehensive experiments on diverse benchmarks demonstrate that the DUKD method significantly outperforms previous art.
翻訳日:2023-12-06 19:34:11 公開日:2023-12-05
# Deep Knowledge Tracingは暗黙の動的多次元アイテム応答理論モデルである

Deep Knowledge Tracing is an implicit dynamic multidimensional item response theory model ( http://arxiv.org/abs/2309.12334v2 )

ライセンス: Link先を確認
Jill-J\^enn Vie (SODA), Hisashi Kashima(参考訳) 知識追跡は、過去の質問に対する評価から得られる新しい質問に対する一部の学生のパフォーマンスを予測することであり、評価と学習を最適化するための事前ステップとなる。 ディープ・ナレッジ・トレーシング(Deep Knowledge Trace, DKT)は、リカレントニューラルネットワークに依存する知識トレースの競合モデルである。 しかし、なぜDKTがうまく機能するのかは分かっていない。 本稿では,深層知識トレースをエンコーダデコーダアーキテクチャとして構成する。 この視点により、パフォーマンス、単純さ、表現性の観点からより良いモデルを提案するだけでなく、将来の研究の方向性に有望な道を開くことができます。 特に、DKTが使用するものよりもパラメータが少ない単純なデコーダが、学生のパフォーマンスをより良く予測できる、小規模で大規模なデータセットをいくつか紹介する。

Knowledge tracing consists in predicting the performance of some students on new questions given their performance on previous questions, and can be a prior step to optimizing assessment and learning. Deep knowledge tracing (DKT) is a competitive model for knowledge tracing relying on recurrent neural networks, even if some simpler models may match its performance. However, little is known about why DKT works so well. In this paper, we frame deep knowledge tracing as a encoderdecoder architecture. This viewpoint not only allows us to propose better models in terms of performance, simplicity or expressivity but also opens up promising avenues for future research directions. In particular, we show on several small and large datasets that a simpler decoder, with possibly fewer parameters than the one used by DKT, can predict student performance better.
翻訳日:2023-12-06 19:33:47 公開日:2023-12-05
# LongLoRA: 長期言語モデルの効率的な微調整

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models ( http://arxiv.org/abs/2309.12307v2 )

ライセンス: Link先を確認
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia(参考訳) 我々は,事前学習された大規模言語モデル(llm)のコンテキストサイズを計算コストの制限付きで拡張する,効率的な微調整手法であるlongloraを提案する。 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。 例えば、8192のコンテキスト長のトレーニングには、2048年の16倍の計算コストが必要である。 本稿では,LLMの文脈拡張を2つの側面で高速化する。 一方,推定には大域的注意が必要であるが,局所的な注意を疎かにすることで,モデルの微調整を効果的かつ効率的に行うことができる。 提案するシフトsparse attention (s$^2$-attn)は,コンテキスト拡張を効果的に実現し,バニラ注意による微調整と同様の性能で,非自明な計算セーブを実現する。 特に、トレーニングでは2行のコードでしか実装できないが、推論ではオプションである。 一方,文脈拡張のためのパラメータ効率の良い微調整方式について検討する。 特に、コンテキスト拡張用のLoRAは、トレーニング可能な埋め込みと正規化の前提下でうまく機能する。 LongLoRAはこの改良されたLoRAとS$^2$-Attnを組み合わせる。 LongLoRAは、7B/13Bから70BまでのLlama2モデルの様々なタスクに対して強い実験結果を示す。 LongLoRAはLlama2 7Bを4kから100k、Llama2 70Bから32kに採用している。 LongLoRAはオリジナルのアーキテクチャを維持しながらモデルのコンテキストを拡張し、Flash-Attention2のような既存の技術と互換性がある。 さらに,LongLoRAとLongAlpacaデータセットを用いて教師付き微調整を行う。

We present LongLoRA, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (LLMs), with limited computation cost. Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. For example, training on the context length of 8192 needs 16x computational costs in self-attention layers as that of 2048. In this paper, we speed up the context extension of LLMs in two aspects. On the one hand, although dense global attention is needed during inference, fine-tuning the model can be effectively and efficiently done by sparse local attention. The proposed shifted sparse attention (S$^2$-Attn) effectively enables context extension, leading to non-trivial computation saving with similar performance to fine-tuning with vanilla attention. Particularly, it can be implemented with only two lines of code in training, while being optional in inference. On the other hand, we revisit the parameter-efficient fine-tuning regime for context expansion. Notably, we find that LoRA for context extension works well under the premise of trainable embedding and normalization. LongLoRA combines this improved LoRA with S$^2$-Attn. LongLoRA demonstrates strong empirical results on various tasks on Llama2 models from 7B/13B to 70B. LongLoRA adopts Llama2 7B from 4k context to 100k, or Llama2 70B to 32k on a single 8x A100 machine. LongLoRA extends models' context while retaining their original architectures, and is compatible with most existing techniques, like Flash-Attention2. In addition, we further conduct supervised fine-tuning with LongLoRA and our long instruction-following LongAlpaca dataset.
翻訳日:2023-12-06 19:33:32 公開日:2023-12-05
# 位置依存質量背景における振動子型量子井戸ポテンシャルの合理的拡張

Rational extensions of an oscillator-shaped quantum well potential in a position-dependent mass background ( http://arxiv.org/abs/2309.11364v2 )

ライセンス: Link先を確認
C. Quesne(参考訳) Scarf I ポテンシャルに対する定数質量 Schr\"odinger 方程式に点正準変換を適用することにより、最近提案された位置依存質量に付随する振動子型量子井戸モデルが解けることを示す。 X_1$-ヤコビ例外直交多項式と連結された後者の既知の有理拡大を用いて、始点と同じスペクトルを持つ有理拡張位置依存質量モデルを構築する。 さらに、$X_2$-ヤコビ例外直交多項式に付随する位置依存質量モデルも考慮されている。

We show that a recently proposed oscillator-shaped quantum well model associated with a position-dependent mass can be solved by applying a point canonical transformation to the constant-mass Schr\"odinger equation for the Scarf I potential. On using the known rational extension of the latter connected with $X_1$-Jacobi exceptional orthogonal polynomials, we build a rationally-extended position-dependent mass model with the same spectrum as the starting one. Some more involved position-dependent mass models associated with $X_2$-Jacobi exceptional orthogonal polynomials are also considered.
翻訳日:2023-12-06 19:32:31 公開日:2023-12-05
# マルチモーダル大言語モデルにおけるカタストロフィック・フォーミングの検討

Investigating the Catastrophic Forgetting in Multimodal Large Language Models ( http://arxiv.org/abs/2309.10313v4 )

ライセンス: Link先を確認
Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma(参考訳) GPT4の成功を受けて、マルチモーダル大言語モデル(MLLM)研究への関心が高まっている。 この一連の研究は、微調整済みのLLMと視覚モデルによる汎用LLMの開発に焦点を当てている。 しかし、微調整モデルが事前訓練モデルと同じような性能を保たないという悪名高い破滅的な忘れ込みは、マルチモーダルLLM(MLLM)に固有の問題として残っている。 本稿では,各MLLMを画像分類器として扱うことにより,MLLMの破滅的忘れを評価するためのMulTimodalityの評価を行う。 我々はまず,オープンソースの細調整MLLMの評価にEMTを適用し,ほぼすべての評価されたMLLMが,標準的な画像分類タスクにおける視覚エンコーダと同じ性能を維持することができないことを発見した。 さらに、MLLMであるLLaVAの微調整を継続し、EMTを用いて微調整を通して性能を評価する。 興味深いことに、画像データセットの初期段階の微調整により、テキストとビジュアル機能のアライメントが向上し、他の画像データセットのパフォーマンスが向上することが示唆される。 しかし、微調整が進むにつれてMLLMは幻覚し始め、イメージエンコーダが凍結したままでも、一般化性が著しく低下する。 以上の結果から,MLLMは標準的な画像分類作業におけるビジョンモデルと同等の性能を示していないことが示唆された。

Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.
翻訳日:2023-12-06 19:32:21 公開日:2023-12-05
# ライセンスプレート認識改善のためのモデル融合の活用

Leveraging Model Fusion for Improved License Plate Recognition ( http://arxiv.org/abs/2309.04331v2 )

ライセンス: Link先を確認
Rayson Laroca, Luiz A. Zanlorensi, Valter Estevam, Rodrigo Minetto, David Menotti(参考訳) ライセンスプレート認識(LPR)は、料金徴収、駐車管理、交通法執行など、様々な用途において重要な役割を果たしている。 LPRは深層学習の発展を通じて大きな進歩を遂げてきたが、複数の認識モデルからの出力を融合させることにより、結果の改善の可能性を探究する研究は目立ったものがない。 本研究の目的は,最大12種類のモデルの組み合わせを,最も確実な予測の選択や多数決ベースの戦略の導入など,簡単なアプローチで調査することで,このギャップを埋めることである。 我々の実験は幅広いデータセットを包含し、イントラデータセットとクロスデータセットの両方で融合アプローチの実質的な利点を明らかにした。 本質的には、複数のモデルを使用することで、特定のデータセット/scenario上でsubparパフォーマンスを得る可能性を大幅に低減できる。 また、スピードに基づいたモデルの組み合わせは魅力的なアプローチであることも分かりました。 具体的には、認識タスクが余分な時間を許容できるアプリケーションに対して、4-6モデルを組み合わせることが効果的な戦略である。 これらのモデルが最も正確ではないかもしれないが、それらの融合は速度と精度の最適なバランスをとる。

License Plate Recognition (LPR) plays a critical role in various applications, such as toll collection, parking management, and traffic law enforcement. Although LPR has witnessed significant advancements through the development of deep learning, there has been a noticeable lack of studies exploring the potential improvements in results by fusing the outputs from multiple recognition models. This research aims to fill this gap by investigating the combination of up to 12 different models using straightforward approaches, such as selecting the most confident prediction or employing majority vote-based strategies. Our experiments encompass a wide range of datasets, revealing substantial benefits of fusion approaches in both intra- and cross-dataset setups. Essentially, fusing multiple models reduces considerably the likelihood of obtaining subpar performance on a particular dataset/scenario. We also found that combining models based on their speed is an appealing approach. Specifically, for applications where the recognition task can tolerate some additional time, though not excessively, an effective strategy is to combine 4-6 models. These models may not be the most accurate individually, but their fusion strikes an optimal balance between speed and accuracy.
翻訳日:2023-12-06 19:30:35 公開日:2023-12-05
# 最適化の落とし穴:リスク基準のランダム化による分散強化学習

Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion ( http://arxiv.org/abs/2310.16546v3 )

ライセンス: Link先を確認
Taehyun Cho, Seungyub Han, Heesoo Lee, Kyungjae Lee, Jungwoo Lee(参考訳) 分布強化学習アルゴリズムは、不確実性に直面した楽観主義などの推定不確実性を探索に利用しようと試みている。 しかし、楽観的な探索に推定分散を使うことは、偏りのあるデータ収集と収束や性能の妨げとなる可能性がある。 本稿では,リスク基準をランダム化することにより,リスクの一方的傾向を回避する行動選択を行う分布強化学習アルゴリズムを提案する。 リスク尺度を歪ませ、より弱い収縮特性で提案手法の収束性と最適性を証明し、摂動分布のベルマン最適性演算子を提供する。 理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。 最後に,Atari 55 ゲームを含む様々な環境において,本手法が既存の分散アルゴリズムよりも優れていることを示す。

Distributional reinforcement learning algorithms have attempted to utilize estimated uncertainty for exploration, such as optimism in the face of uncertainty. However, using the estimated variance for optimistic exploration may cause biased data collection and hinder convergence or performance. In this paper, we present a novel distributional reinforcement learning algorithm that selects actions by randomizing risk criterion to avoid one-sided tendency on risk. We provide a perturbed distributional Bellman optimality operator by distorting the risk measure and prove the convergence and optimality of the proposed method with the weaker contraction property. Our theoretical results support that the proposed method does not fall into biased exploration and is guaranteed to converge to an optimal return. Finally, we empirically show that our method outperforms other existing distribution-based algorithms in various environments including Atari 55 games.
翻訳日:2023-12-06 19:23:20 公開日:2023-12-05
# 局所符号化を用いた格子フェルミオン理論のスケーラブルディジタル量子シミュレーション

Scalable digital quantum simulation of lattice fermion theories with local encoding ( http://arxiv.org/abs/2310.15091v2 )

ライセンス: Link先を確認
Marco Ballarin, Giovanni Cataldi, Giuseppe Magnifico, Daniel Jaschke, Marco Di Liberto, Ilaria Siloi, Simone Montangero and Pietro Silvi(参考訳) 開境界条件下でのフェルミオン格子場理論の量子シミュレーションを行うためのプラットフォームニュートラル一般戦略の有効性を数値解析する。 デジタル量子シミュレータは1ビットと2ビットのゲートのみを必要とし、ハミルトン項を統合するには有限の(スケーリングしない)コストを必要とするためスケーラブルである。 我々が採用する正確な局所フェルミオン符号化は、トーリック符号に純粋ゲージハミルトニアン項を追加することによって補助的な$\mathbb{z}_2$格子ゲージ場に依存する。 量子シミュレータのリアルタイムダイナミクスを数値的にエミュレートすることで、スピン-$\frac{1}{2}$ hubbardラダーにおけるスピン・電荷励起の時間スケール分離を、モデル限界で観測する。 さらに,そのような局所フェルミオン符号化はテンソルネットワークの数値シミュレーションにも有用であることを示す。

We numerically analyze the feasibility of a platform-neutral, general strategy to perform quantum simulations of fermionic lattice field theories under open boundary conditions. The digital quantum simulator requires solely one- and two-qubit gates and is scalable since integrating each Hamiltonian term requires a finite (non-scaling) cost. The exact local fermion encoding we adopt relies on auxiliary $\mathbb{Z}_2$ lattice gauge fields by adding a pure gauge Hamiltonian term akin to the Toric Code. By numerically emulating the quantum simulator real-time dynamics, we observe a timescale separation for spin- and charge-excitations in a spin-$\frac{1}{2}$ Hubbard ladder in the $t-J$ model limit. Additionally, we show that such local fermion encoding is also useful in tensor network numerical simulations.
翻訳日:2023-12-06 19:23:05 公開日:2023-12-05
# Kernel Quadratureによる政策グラディエント

Policy Gradient with Kernel Quadrature ( http://arxiv.org/abs/2310.14768v2 )

ライセンス: Link先を確認
Satoshi Hayakawa, Tetsuro Morimura(参考訳) エピソードのリワード評価は、幅広い強化学習タスクにおいてボトルネックとなる。 本論文の目的は,多数のエピソードの小さなが代表的な部分を選択することであり,より効率的なポリシー勾配イテレーションに対して報奨を実際に計算することのみである。 我々は,エピソードの空間上の正定値カーネルを導出するために,ディスカウントされたリターンや報酬のガウス過程モデルを構築し, ``episodic' kernel quadrature method を実行し,サンプルエピソードの情報を圧縮し,縮小されたエピソードをポリシーネットワークに渡して勾配更新を行う。 本手法の理論的背景と,MuJoCoタスクにおける数値図形について述べる。

Reward evaluation of episodes becomes a bottleneck in a broad range of reinforcement learning tasks. Our aim in this paper is to select a small but representative subset of a large batch of episodes, only on which we actually compute rewards for more efficient policy gradient iterations. We build a Gaussian process modeling of discounted returns or rewards to derive a positive definite kernel on the space of episodes, run an ``episodic" kernel quadrature method to compress the information of sample episodes, and pass the reduced episodes to the policy network for gradient updates. We present the theoretical background of this procedure as well as its numerical illustrations in MuJoCo tasks.
翻訳日:2023-12-06 19:22:46 公開日:2023-12-05
# 二重降下の謎を解き放ち--学習特徴空間のレンズを通しての深い分析

Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space ( http://arxiv.org/abs/2310.13572v2 )

ライセンス: Link先を確認
Yufei Gu, Xiaoqing Zheng, and Tomaso Aste(参考訳) ダブルサブジェクションは機械学習領域において直観に反する側面を示しており、研究者は様々なモデルやタスクでその現象を観察している。 特定の文脈でこの現象についていくつかの理論的説明が提案されているが、深層学習における現象を考慮に入れた理論はまだ確立されていない。 本研究では,二重降下現象を再検討し,その発生が雑音データの存在に強く影響していることを示す。 学習表現の特徴空間の包括的解析を行い,ノイズデータを用いた不完全モデルにおいて二重降下が発生することを明らかにした。 二重降下は、まず補間するまでノイズデータを学習し、次に過パラメータ化による暗黙の正規化を加えることによって、ノイズから情報を分離する能力を持つモデルの結果であると主張する。

Double descent presents a counter-intuitive aspect within the machine learning domain, and researchers have observed its manifestation in various models and tasks. While some theoretical explanations have been proposed for this phenomenon in specific contexts, an accepted theory to account for its occurrence in deep learning remains yet to be established. In this study, we revisit the phenomenon of double descent and demonstrate that its occurrence is strongly influenced by the presence of noisy data. Through conducting a comprehensive analysis of the feature space of learned representations, we unveil that double descent arises in imperfect models trained with noisy data. We argue that double descent is a consequence of the model first learning the noisy data until interpolation and then adding implicit regularization via over-parameterization acquiring therefore capability to separate the information from the noise.
翻訳日:2023-12-06 19:22:33 公開日:2023-12-05
# 2バンドハバードモデルにおける空洞媒介相互作用の励起性増強

Excitonic enhancement of cavity-mediated interactions in a two-band Hubbard model ( http://arxiv.org/abs/2310.12626v2 )

ライセンス: Link先を確認
Xiao Wang, Dieter Jaksch, Frank Schlawin(参考訳) 本研究は, 2次元2バンドハバードモデルにおいて, 強いレーザーにより駆動されるとき, 光共振器に結合したキャビティを媒介とする相互作用について研究する。 Floquetによる駆動システムの記述から、高エネルギー自由度を投影し、平均場レベルでの内在的相互作用を処理することにより、有効な低エネルギーハミルトニアンを導出する。 次に, 電子バンド近傍で形成される電子バンドカップリングによる高エネルギーフレンケル励起子の出現が, 電子バンド構造のレーザ誘起フロッケ再正規化と相互作用に与える影響について検討した。 キャビティを介する相互作用は、光が励起遷移に結合するときに強く強化される。 さらに、相互作用とフロケ再正規化は相互空間において強く拡張され、これにより空洞媒介相互作用が駆動散逸定常状態に与える影響をさらに高めることができる。

We study cavity-mediated interactions that are generated in a two-dimensional two-band Hubbard model coupled to an optical cavity, when it is driven in-gap by a strong laser. Starting from a Floquet description of the driven system, we derive effective low-energy Hamiltonians by projecting out the high-energy degrees of freedom and treating intrinsic interactions on a mean field level. We then investigate how the emergence of high-energy Frenkel excitons from the electronic interband coupling, which form near the upper electronic band, affects the interactions as well as the laser-induced Floquet renormalization of the electronic band structure. Cavity-mediated interactions are enhanced strongly when the light couples to an excitonic transition. Additionally, the interaction as well as the Floquet renormalization are strongly broadened in reciprocal space, which could further boost the impact of cavity-mediated interactions on the driven-dissipative steady state.
翻訳日:2023-12-06 19:22:19 公開日:2023-12-05
# GaussianDreamer:2次元および3次元拡散モデルによるテキストから3次元ガウスへの高速生成

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models ( http://arxiv.org/abs/2310.08529v2 )

ライセンス: Link先を確認
Taoran Yi, Jiemin Fang, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang(参考訳) 近年、テキストプロンプトによる3Dアセットの生成は、目覚ましい結果を示している。 2Dと3Dの拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成するのに役立つ。 3d拡散モデルは良好な3d一貫性を持つが、トレーニング可能な3dデータは高価で入手が難しいため、その品質と一般化は限られている。 2次元拡散モデルには、一般化と微細生成の強い能力があるが、3次元の一貫性は保証できない。 本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。 高速な3次元オブジェクト生成フレームワークであるGaussianDreamerが提案され、3次元拡散モデルが初期化の事前を提供し、2次元拡散モデルが幾何学と外観を豊かにする。 ガウスの初期化を促進するために、ノイズの多い点の成長と色摂動の操作を導入した。 我々のGaussianDreamerは、1つのGPUで15分以内に高品質な3Dインスタンスや3Dアバターを生成することができる。 デモとコードはhttps://taoranyi.com/gaussiandreamer/で入手できる。

In recent times, the generation of 3D assets from text prompts has shown impressive results. Both 2D and 3D diffusion models can help generate decent 3D objects based on prompts. 3D diffusion models have good 3D consistency, but their quality and generalization are limited as trainable 3D data is expensive and hard to obtain. 2D diffusion models enjoy strong abilities of generalization and fine generation, but 3D consistency is hard to guarantee. This paper attempts to bridge the power from the two types of diffusion models via the recent explicit and efficient 3D Gaussian splatting representation. A fast 3D object generation framework, named as GaussianDreamer, is proposed, where the 3D diffusion model provides priors for initialization and the 2D diffusion model enriches the geometry and appearance. Operations of noisy point growing and color perturbation are introduced to enhance the initialized Gaussians. Our GaussianDreamer can generate a high-quality 3D instance or 3D avatar within 15 minutes on one GPU, much faster than previous methods, while the generated instances can be directly rendered in real time. Demos and code are available at https://taoranyi.com/gaussiandreamer/.
翻訳日:2023-12-06 19:21:11 公開日:2023-12-05
# 言語間のスタイルの比較

Comparing Styles across Languages ( http://arxiv.org/abs/2310.07135v2 )

ライセンス: Link先を確認
Shreya Havaldar, Matthew Pressimone, Eric Wong, Lyle Ungar(参考訳) 言語間のスタイルの違いを理解することは、人間とコンピュータの両方が文化的に適切なテキストを生成するように訓練する上で有利である。 本稿では,多言語LMからスタイリスティックな違いを抽出し,言語間のスタイルを比較するための説明フレームワークを提案する。 我々のフレームワーク(1)は、あらゆる言語で包括的なスタイルレキシカを生成し、(2)LMから同等の語彙カテゴリに特徴を集約する。 この枠組みを適用して、多言語多言語多言語多義性データセットを初めて作成し、4つの言語で多義性がどのように変化するかを探索する。 本手法は, 言語カテゴリーの違いが形態的変化にどのように寄与するかを効果的に評価し, 人々のコミュニケーションの仕方に関する解釈可能な洞察を提供する。

Understanding how styles differ across languages is advantageous for training both humans and computers to generate culturally appropriate text. We introduce an explanation framework to extract stylistic differences from multilingual LMs and compare styles across languages. Our framework (1) generates comprehensive style lexica in any language and (2) consolidates feature importances from LMs into comparable lexical categories. We apply this framework to compare politeness, creating the first holistic multilingual politeness dataset and exploring how politeness varies across four languages. Our approach enables an effective evaluation of how distinct linguistic categories contribute to stylistic variations and provides interpretable insights into how people communicate differently around the world.
翻訳日:2023-12-06 19:20:24 公開日:2023-12-05
# 記号回帰と離散外積を用いた解釈可能な物理モデルの検出

Discovering Interpretable Physical Models using Symbolic Regression and Discrete Exterior Calculus ( http://arxiv.org/abs/2310.06609v2 )

ライセンス: Link先を確認
Simone Manti and Alessandro Lucantonio(参考訳) 計算モデリングは、現代の科学研究と工学における物理システムに関する洞察を集めるための重要な資源である。 大量のデータへのアクセスは、実験から物理モデルを復元し、物理シミュレーションの精度を高めるために機械学習(ML)の利用を加速させているが、純粋にデータ駆動モデルは一般化と解釈可能性に制限がある。 これらの制約を克服するために、実験データから始まる物理モデルの自動発見のために、シンボリック回帰(SR)と離散エクター計算(DEC)を組み合わせたフレームワークを提案する。 これらのモデルは数学的表現から成り立っているため、解析に解釈可能であり、物理学に自然で汎用的な離散数学言語を使うことは、限られた入力データによる一般化を好む。 重要なことに、DECは、SRの物理問題への最先端の応用を超える分野理論の離散的な類似に対して、ビルディングブロックを提供する。 さらに,decは,復元したモデルの数学的一貫性を保証し,記号表現の探索空間を減少させる強型sr手順を実装可能であることを示す。 最後に, ポアソン方程式, オイラーの弾性方程式, 線形弾性方程式の3つのモデルを再発見することにより, 提案手法の有効性を実証する。 汎用的な性質から,本論文で開発された手法は,物理モデリングの多様な文脈に適用できる。

Computational modeling is a key resource to gather insight into physical systems in modern scientific research and engineering. While access to large amount of data has fueled the use of Machine Learning (ML) to recover physical models from experiments and increase the accuracy of physical simulations, purely data-driven models have limited generalization and interpretability. To overcome these limitations, we propose a framework that combines Symbolic Regression (SR) and Discrete Exterior Calculus (DEC) for the automated discovery of physical models starting from experimental data. Since these models consist of mathematical expressions, they are interpretable and amenable to analysis, and the use of a natural, general-purpose discrete mathematical language for physics favors generalization with limited input data. Importantly, DEC provides building blocks for the discrete analogue of field theories, which are beyond the state-of-the-art applications of SR to physical problems. Further, we show that DEC allows to implement a strongly-typed SR procedure that guarantees the mathematical consistency of the recovered models and reduces the search space of symbolic expressions. Finally, we prove the effectiveness of our methodology by re-discovering three models of Continuum Physics from synthetic experimental data: Poisson equation, the Euler's Elastica and the equations of Linear Elasticity. Thanks to their general-purpose nature, the methods developed in this paper may be applied to diverse contexts of physical modeling.
翻訳日:2023-12-06 19:20:10 公開日:2023-12-05
# パノプティカルシーングラフ生成のためのドメインワイド不変学習

Domain-wise Invariant Learning for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2310.05867v2 )

ライセンス: Link先を確認
Li Li, You Qin, Wei Ji, Yuxiao Zhou, Roger Zimmermann(参考訳) パノプティック・シーングラフ生成(PSG)は、オブジェクトの検出とそれに対応する関係(述語)の予測を含む。 しかしながら、偏見付き述語アノテーションの存在は、異なる述語間の明確な決定境界を確立する能力の妨げとなるため、PSGモデルにとって重要な課題となる。 この問題はPSGモデルの実用性と実世界の適用性を著しく損なう。 上記の本質的なバイアスに対処するために,各対象物対(ドメイン)内の述語予測リスクを測定し,不変な述語表現埋め込みを学習することにより,バイアス付きアノテーションを一貫したアノテーションに適応的に転送する手法を提案する。 実験により,本手法はベンチマークモデルの性能を著しく向上させ,新たな最先端性能を実現し,psgデータセットの一般化と有効性を示した。

Panoptic Scene Graph Generation (PSG) involves the detection of objects and the prediction of their corresponding relationships (predicates). However, the presence of biased predicate annotations poses a significant challenge for PSG models, as it hinders their ability to establish a clear decision boundary among different predicates. This issue substantially impedes the practical utility and real-world applicability of PSG models. To address the intrinsic bias above, we propose a novel framework to infer potentially biased annotations by measuring the predicate prediction risks within each subject-object pair (domain), and adaptively transfer the biased annotations to consistent ones by learning invariant predicate representation embeddings. Experiments show that our method significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on PSG dataset.
翻訳日:2023-12-06 19:19:45 公開日:2023-12-05
# CloudOpsドメインにおける時系列予測のための事前トレーニングの限界を押し上げる

Pushing the Limits of Pre-training for Time Series Forecasting in the CloudOps Domain ( http://arxiv.org/abs/2310.05063v3 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Akshat Kumar, Doyen Sahoo(参考訳) 事前トレーニングと転校学習の時代には、時系列は残されている。 自然言語処理とコンピュータビジョンの分野の研究は、大規模モデルをトレーニングするために徐々に拡大したデータセットを享受していますが、最も人気のある時系列データセットは数万の時間ステップで構成されており、事前トレーニングとスケーリングの有効性を研究できる能力は限られています。 近年の研究では、表現力のあるモデルやスケールの必要性も疑問視されている。 これらの問題を緩和するために、cloud operations(cloudops)ドメインからの3つの大規模時系列予測データセットを導入する。 本研究では,時系列モデルの事前学習とスケーリングに関する実証的な基盤を構築し,将来的な候補アーキテクチャの特定による今後の研究の道を開く。 これは強力なゼロショットベースラインであり、モデルサイズとデータセットサイズの両方において、さらなるスケーリングによるメリットがあります。 これらのデータセットと結果を取得することは、古典的およびディープラーニングのベースラインをトレーニング済みの方法と比較する包括的なベンチマーク結果のスイートです。 コードとデータセットはhttps://github.com/SalesforceAIResearch/pretrain-time-series-cloudopsにある。

Time series has been left behind in the era of pre-training and transfer learning. While research in the fields of natural language processing and computer vision are enjoying progressively larger datasets to train massive models, the most popular time series datasets consist of only tens of thousands of time steps, limiting our ability to study the effectiveness of pre-training and scaling. Recent studies have also cast doubt on the need for expressive models and scale. To alleviate these issues, we introduce three large-scale time series forecasting datasets from the cloud operations (CloudOps) domain, the largest having billions of observations, enabling further study into pre-training and scaling of time series models. We build the empirical groundwork for studying pre-training and scaling of time series models and pave the way for future research by identifying a promising candidate architecture. We show that it is a strong zero-shot baseline and benefits from further scaling, both in model and dataset size. Accompanying these datasets and results is a suite of comprehensive benchmark results comparing classical and deep learning baselines to our pre-trained method - achieving a 27% reduction in error on the largest dataset. Code and datasets can be found https://github.com/SalesforceAIResearch/pretrain-time-series-cloudops.
翻訳日:2023-12-06 19:19:28 公開日:2023-12-05
# 言語エージェント木探索による言語モデルにおける推論と計画の統合

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models ( http://arxiv.org/abs/2310.04406v2 )

ライセンス: Link先を確認
Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang, Yu-Xiong Wang(参考訳) 大規模言語モデル(LLM)は、さまざまな意思決定タスクにおいて印象的なパフォーマンスを示してきたが、単純な動作プロセスに依存しており、自律的なエージェントとして広くデプロイされていない。 LATS(Language Agent Tree Search)は, LLMの計画, 行動, 推論能力の相乗化を目的とした汎用フレームワークである。 モデルに基づく強化学習においてモンテカルロの木探索からインスピレーションを得たLATSは、LSMをエージェント、価値関数、最適化器として採用し、意思決定の強化のために潜在的強みを再調達した。 この方法において重要なことは、外部からのフィードバックに環境を使用することであり、既存のテクニックの限界を超えて、より意図的で適応的な問題解決メカニズムを提供する。 プログラミングやHotPotQA,WebShopなど,さまざまな分野にわたる実験的な評価は,LATSが推論と行動の両方に適用可能であることを示す。 特に, LATSは, GPT-4を用いたHumanEval上でのプログラミングでは94.4%, GPT-3.5によるWebShop上でのWebブラウジングでは平均75.9のスコアを達成し, 本手法の有効性と汎用性を実証した。

While large language models (LLMs) have demonstrated impressive performance on a range of decision-making tasks, they rely on simple acting processes and fall short of broad deployment as autonomous agents. We introduce LATS (Language Agent Tree Search), a general framework that synergizes the capabilities of LLMs in planning, acting, and reasoning. Drawing inspiration from Monte Carlo tree search in model-based reinforcement learning, LATS employs LLMs as agents, value functions, and optimizers, repurposing their latent strengths for enhanced decision-making. What is crucial in this method is the use of an environment for external feedback, which offers a more deliberate and adaptive problem-solving mechanism that moves beyond the limitations of existing techniques. Our experimental evaluation across diverse domains, such as programming, HotPotQA, and WebShop, illustrates the applicability of LATS for both reasoning and acting. In particular, LATS achieves 94.4% for programming on HumanEval with GPT-4 and an average score of 75.9 for web browsing on WebShop with GPT-3.5, demonstrating the effectiveness and generality of our method.
翻訳日:2023-12-06 19:19:07 公開日:2023-12-05
# 音声対話の状態を追跡する壁を壊すのに十分か?

Is one brick enough to break the wall of spoken dialogue state tracking? ( http://arxiv.org/abs/2311.04923v2 )

ライセンス: Link先を確認
Lucas Druart (LIA), Valentin Vielzeuf, Yannick Est\`eve (LIA)(参考訳) Task-Oriented Dialogue (TOD)システムでは、システムのユーザニーズに対する理解(例えば対話状態追跡)を正しく更新することがスムーズな対話の鍵となる。 伝統的に、TODシステムは、ユーザの発話の書き起こし、キーコンセプトのセマンティック抽出、以前に特定された概念によるコンテキスト化という3つのステップでこの更新を実行する。 このようなカスケードアプローチは、カスケードエラーと別々の最適化に苦しむ。 エンド・ツー・エンドのアプローチは意味抽出の段階まで有効であることが証明されている。 本稿では,(1)アートカスケードアプローチ,(2)ルールに基づく文脈化による局所的E2Eアプローチ,(3)完全にニューラルアプローチの3つのアプローチを比較して,完全な音声対話状態追跡への道筋を一歩進める。

In Task-Oriented Dialogue (TOD) systems, correctly updating the system's understanding of the user's needs (a.k.a dialogue state tracking) is key to a smooth interaction. Traditionally, TOD systems perform this update in three steps: transcription of the user's utterance, semantic extraction of the key concepts, and contextualization with the previously identified concepts. Such cascade approaches suffer from cascading errors and separate optimization. End-to-End approaches have been proved helpful up to the semantic extraction step. This paper goes one step further paving the path towards completely neural spoken dialogue state tracking by comparing three approaches: (1) a state of the art cascade approach, (2) a locally E2E approach with rule-based contextualization and (3) a completely neural approach.
翻訳日:2023-12-06 19:12:44 公開日:2023-12-05
# 信頼性の低い分布外源を用いた分布外検出学習

Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources ( http://arxiv.org/abs/2311.03236v2 )

ライセンス: Link先を確認
Haotian Zheng, Qizhou Wang, Zhen Fang, Xiaobo Xia, Feng Liu, Tongliang Liu, Bo Han(参考訳) out-of-distribution (ood) 検出は、予測者が有効な予測をin-distribution (id) データとしてできない ood データを識別し、オープンワールド分類の信頼性を高める。 しかし、一般的には、IDとOODパターンを識別できる予測器を訓練するために、実際のアウト・オブ・ディストリビューション(OOD)データを収集することは困難である。 この障害は、実際のOODデータを必要としない予測学習のためにデータジェネレータを介してOODデータを合成する、データ生成ベースの学習方法を引き起こす。 関連するメソッドは通常、idデータでジェネレータを事前トレーニングし、oodケースである可能性が高いデータを見つけるために様々な選択手順を採用する。 しかし、生成されたデータは依然としてIDのセマンティクス、すなわちOOD生成の誤りと一致し、IDとOODデータの予測を混乱させる可能性がある。 そこで本論文では,OOD検出を補助するタスクを考案するために,(OOD生成を間違えた)生成データを使用することを提案する。 具体的には,id部とood部が非協力的なサポートを持つ場合には,その補助タスクからの学習が有益であることを,予測者のためのよく設計された訓練手順の助けを借りて確認することができる。 そこで本稿では,Auxiliary Task-based OOD Learning (ATOL) という,データ生成に基づく強力な学習手法を提案する。 各種OOD検出装置を用いて広範囲な実験を行い, 提案手法の有効性を実証した。

Out-of-distribution (OOD) detection discerns OOD data where the predictor cannot make valid predictions as in-distribution (ID) data, thereby increasing the reliability of open-world classification. However, it is typically hard to collect real out-of-distribution (OOD) data for training a predictor capable of discerning ID and OOD patterns. This obstacle gives rise to data generation-based learning methods, synthesizing OOD data via data generators for predictor training without requiring any real OOD data. Related methods typically pre-train a generator on ID data and adopt various selection procedures to find those data likely to be the OOD cases. However, generated data may still coincide with ID semantics, i.e., mistaken OOD generation remains, confusing the predictor between ID and OOD data. To this end, we suggest that generated data (with mistaken OOD generation) can be used to devise an auxiliary OOD detection task to facilitate real OOD detection. Specifically, we can ensure that learning from such an auxiliary task is beneficial if the ID and the OOD parts have disjoint supports, with the help of a well-designed training procedure for the predictor. Accordingly, we propose a powerful data generation-based learning method named Auxiliary Task-based OOD Learning (ATOL) that can relieve the mistaken OOD generation. We conduct extensive experiments under various OOD detection setups, demonstrating the effectiveness of our method against its advanced counterparts.
翻訳日:2023-12-06 19:12:29 公開日:2023-12-05
# DeepInception: 大きな言語モデルをジェイルブレーカーにする

DeepInception: Hypnotize Large Language Model to Be Jailbreaker ( http://arxiv.org/abs/2311.03191v2 )

ライセンス: Link先を確認
Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han(参考訳) 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大規模な言語モデル(llm)は、safe guardrailsを無効にする敵のジェイルブレイクに対して脆弱である。 しかし、従来のジェイルブレイクの研究では、計算コストの高いブルートフォース最適化や外挿が必要であり、実用的でも効果的でもない。 本稿では,個人が権威者からそのように指示された場合,他人を害することができるというミルグラム実験に触発されて,LLMをジェイルブレーカーとして容易に催眠し,その誤用リスクを和らげる,DeepInceptionと呼ばれる軽量な手法を開示する。 特に、DeepInceptionは、LLMの人格化能力を活用して、新しいネストシーンを構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現し、さらに直接的なジェイルブレイクの可能性を提供します。 実験では,その有効性を示すための総合的な実験を行った。 私たちのDeepInceptionは、以前のものと競合するジェイルブレイクの成功率を実現し、その後のインタラクションにおいて継続的なジェイルブレイクを実現することができます。 我々の調査は、LCMの安全面と誤用リスクに対する防御強化にもっと注意を払うべきだと訴えている。 コードはhttps://github.com/tmlr-group/deepinceptionで公開されている。

Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment that individuals can harm another person if they are told to do so by an authoritative figure, we disclose a lightweight method, termed as DeepInception, which can easily hypnotize LLM to be a jailbreaker and unlock its misusing risks. Specifically, DeepInception leverages the personification ability of LLM to construct a novel nested scene to behave, which realizes an adaptive way to escape the usage control in a normal scenario and provides the possibility for further direct jailbreaks. Empirically, we conduct comprehensive experiments to show its efficacy. Our DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open/closed-source LLMs like Falcon, Vicuna, Llama-2, and GPT-3.5/4/4V. Our investigation appeals that people should pay more attention to the safety aspects of LLMs and a stronger defense against their misuse risks. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
翻訳日:2023-12-06 19:12:02 公開日:2023-12-05
# ベイズニューラルネットワークを用いた材料特性予測のための多変量回帰の不確かさ定量化

Uncertainty Quantification in Multivariable Regression for Material Property Prediction with Bayesian Neural Networks ( http://arxiv.org/abs/2311.02495v2 )

ライセンス: Link先を確認
Longze Li, Jiang Chang, Aleksandar Vakanski, Yachun Wang, Tiankai Yao, Min Xian(参考訳) 物質科学におけるデータ駆動アプローチと機械学習に基づく手法の利用の増加により、情報決定のための予測変数の信頼性確実性定量化(UQ)の重要性は過大評価されない。 材料特性予測におけるUQは、先進的な材料のマルチスケールおよびマルチフィジカルな性質、多数の要因間の複雑な相互作用、モデルトレーニングのための大規模キュレートデータセットの限定的利用など、ユニークな課題を提起する。 近年、ベイジアンニューラルネットワーク(BNN)がUQの有望なアプローチとして登場し、ニューラルネットワーク内の不確実性を捉えるための確率的フレームワークを提供している。 そこで本研究では,物質モデリングにおける規制法則から知識を統合し,モデルを物理的に一貫した予測へと導く手法を提案する。 本手法の有効性を評価するために, 鋼のクリープ破断寿命を予測するケーススタディを提案する。 クリープ試験から収集した3つのデータセットによる実験的検証は、従来のガウス過程回帰法の性能を超える、正確な点と不確実性の推定値を生成するBNNの能力を示す。 同様に、アクティブラーニングアプリケーションにおけるBNNのUQに対する適合性を評価し、競合性能を報告した。 最も有望なクリープ寿命予測の枠組みはマルコフ連鎖モンテカルロ近似に基づくbnnであり、変動推論近似や確率的アウトプットを持つ関連するnnに基づくbnnと比較してより信頼性の高い結果が得られた。 コードはhttps://github.com/avakanski/creep-uncertainty-quantificationで入手できる。

With the increased use of data-driven approaches and machine learning-based methods in material science, the importance of reliable uncertainty quantification (UQ) of the predicted variables for informed decision-making cannot be overstated. UQ in material property prediction poses unique challenges, including the multi-scale and multi-physics nature of advanced materials, intricate interactions between numerous factors, limited availability of large curated datasets for model training, etc. Recently, Bayesian Neural Networks (BNNs) have emerged as a promising approach for UQ, offering a probabilistic framework for capturing uncertainties within neural networks. In this work, we introduce an approach for UQ within physics-informed BNNs, which integrates knowledge from governing laws in material modeling to guide the models toward physically consistent predictions. To evaluate the effectiveness of this approach, we present case studies for predicting the creep rupture life of steel alloys. Experimental validation with three datasets of collected measurements from creep tests demonstrates the ability of BNNs to produce accurate point and uncertainty estimates that are competitive or exceed the performance of the conventional method of Gaussian Process Regression. Similarly, we evaluated the suitability of BNNs for UQ in an active learning application and reported competitive performance. The most promising framework for creep life prediction is BNNs based on Markov Chain Monte Carlo approximation of the posterior distribution of network parameters, as it provided more reliable results in comparison to BNNs based on variational inference approximation or related NNs with probabilistic outputs. The codes are available at: https://github.com/avakanski/Creep-uncertainty-quantification.
翻訳日:2023-12-06 19:11:36 公開日:2023-12-05
# 拡散モデルと誘導勾配を用いた制御可能な音楽制作

Controllable Music Production with Diffusion Models and Guidance Gradients ( http://arxiv.org/abs/2311.00613v2 )

ライセンス: Link先を確認
Mark Levy, Bruno Di Giorgi, Floris Weers, Angelos Katharopoulos, Tom Nickson(参考訳) 本研究では,44.1kHzのステレオオーディオにおいて,拡散モデルから条件付き生成を行うことで,様々な現実的な課題に対処できることを示す。 私たちが考えるシナリオは、音楽オーディオの継続、インペインティング、再生、2つの異なる音楽トラック間のスムーズな遷移の作成、望ましいスタイル特性の既存のオーディオクリップへの転送です。 本研究は,再編成と分類損失の両立を支援する単純なフレームワークを用いて,サンプリング時にガイダンスを適用することで実現した。 このアプローチは、生成されたオーディオが周囲のコンテキストにマッチすること、あるいは適切な事前学習された分類器や埋め込みモデルに対して指定されたクラス分布や潜在表現に適合することを保証する。 オーディオサンプルはhttps://machinelearning.apple.com/research/controllable-musicで入手できる。

We demonstrate how conditional generation from diffusion models can be used to tackle a variety of realistic tasks in the production of music in 44.1kHz stereo audio with sampling-time guidance. The scenarios we consider include continuation, inpainting and regeneration of musical audio, the creation of smooth transitions between two different music tracks, and the transfer of desired stylistic characteristics to existing audio clips. We achieve this by applying guidance at sampling time in a simple framework that supports both reconstruction and classification losses, or any combination of the two. This approach ensures that generated audio can match its surrounding context, or conform to a class distribution or latent representation specified relative to any suitable pre-trained classifier or embedding model. Audio samples are available at https://machinelearning.apple.com/research/controllable-music
翻訳日:2023-12-06 19:10:49 公開日:2023-12-05
# dino-mix:基本視覚モデルと特徴混合による視覚位置認識の強化

DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing ( http://arxiv.org/abs/2311.00230v2 )

ライセンス: Link先を確認
Gaoshuang Huang, Yang Zhou, Xiaofei Hu, Chenglong Zhang, Luying Zhao, Wenjian Gan and Mingbo Hou(参考訳) 公開画像の地理的位置を確認するために視覚的位置認識(VPR)技術を利用することは、現実のVPRアプリケーションにとって重要な問題である。 現在のVPR法の多くは理想的な条件下で良好な結果が得られるが、光の変動、季節変化、移動物体による閉塞といった複雑な環境での性能は概して満足できない。 本研究では,トリミングと微調整のためのバックボーンネットワークとしてdinov2モデルを用いてロバストな画像特徴を抽出する。 本稿では,基本ビジョンモデルと特徴集約を組み合わせた新しいvprアーキテクチャであるdino-mixを提案する。 このアーキテクチャは、基本ビジョンモデルの強力な画像特徴抽出機能に依存している。 MLP-Mixer ベースの混合モジュールを用いて画像特徴を集約し,高精度 VPR を実現する。 提案したDINO-Mixアーキテクチャが現在最先端(SOTA)手法よりも優れていることを示す。 照明変化,季節変化,咬合を有するテストセット(tokyo24/7,nordland,sf-xl-testv1)では,dino-mixアーキテクチャが91.75%,80.18%,82%の精度でトップ1となった。 SOTA法と比較すると, 平均精度は5.14%向上した。

Utilizing visual place recognition (VPR) technology to ascertain the geographical location of publicly available images is a pressing issue for real-world VPR applications. Although most current VPR methods achieve favorable results under ideal conditions, their performance in complex environments, characterized by lighting variations, seasonal changes, and occlusions caused by moving objects, is generally unsatisfactory. In this study, we utilize the DINOv2 model as the backbone network for trimming and fine-tuning to extract robust image features. We propose a novel VPR architecture called DINO-Mix, which combines a foundational vision model with feature aggregation. This architecture relies on the powerful image feature extraction capabilities of foundational vision models. We employ an MLP-Mixer-based mix module to aggregate image features, resulting in globally robust and generalizable descriptors that enable high-precision VPR. We experimentally demonstrate that the proposed DINO-Mix architecture significantly outperforms current state-of-the-art (SOTA) methods. In test sets having lighting variations, seasonal changes, and occlusions (Tokyo24/7, Nordland, SF-XL-Testv1), our proposed DINO-Mix architecture achieved Top-1 accuracy rates of 91.75%, 80.18%, and 82%, respectively. Compared with SOTA methods, our architecture exhibited an average accuracy improvement of 5.14%.
翻訳日:2023-12-06 19:10:36 公開日:2023-12-05
# ほぼ無限履歴を用いた一般検索型医療予測モデル

General-Purpose Retrieval-Enhanced Medical Prediction Model Using Near-Infinite History ( http://arxiv.org/abs/2310.20204v2 )

ライセンス: Link先を確認
Junu Kim and Chaeeun Shim and Bosco Seong Kyu Yang and Chami Im and Sung Yoon Lim and Han-Gil Jeong and Edward Choi(参考訳) 電子健康記録(ehrs)に基づく臨床予測モデル(例えば死亡予測)の開発は通常、特徴の選択と観察ウィンドウサイズの調整に専門家の意見に依存する。 これは専門家を負担し、開発プロセスのボトルネックを生み出します。 このような課題に対処するために、検索型医療予測モデル(REMed)を提案する。 REMedは基本的に、無制限の臨床イベントを評価し、関連するイベントを選択し、予測する。 このアプローチは,手動による特徴選択の必要性を効果的に排除し,無制限な観察窓を実現する。 我々はこれらの特性を27の臨床的タスクと2つの独立したEHRデータセットを用いて検証し、REMedは可能な限り多くのイベントを扱うことを目的とした他の現代のアーキテクチャよりも優れていた。 特に,REMedの嗜好は医療専門家と密接に一致していることがわかった。 我々は,手作業による介入の必要性を最小限に抑えて,EHR予測モデルの開発を著しく促進するアプローチを期待する。

Developing clinical prediction models (e.g., mortality prediction) based on electronic health records (EHRs) typically relies on expert opinion for feature selection and adjusting observation window size. This burdens experts and creates a bottleneck in the development process. We propose Retrieval-Enhanced Medical prediction model (REMed) to address such challenges. REMed can essentially evaluate an unlimited number of clinical events, select the relevant ones, and make predictions. This approach effectively eliminates the need for manual feature selection and enables an unrestricted observation window. We verified these properties through experiments on 27 clinical tasks and two independent cohorts from publicly available EHR datasets, where REMed outperformed other contemporary architectures that aim to handle as many events as possible. Notably, we found that the preferences of REMed align closely with those of medical experts. We expect our approach to significantly expedite the development of EHR prediction models by minimizing clinicians' need for manual involvement.
翻訳日:2023-12-06 19:10:13 公開日:2023-12-05
# DEPN:事前訓練言語モデルにおけるプライバシニューロンの検出と編集

DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models ( http://arxiv.org/abs/2310.20138v2 )

ライセンス: Link先を確認
Xinwei Wu, Junzhuo Li, Minghui Xu, Weilong Dong, Shuangzhi Wu, Chao Bian, Deyi Xiong(参考訳) 大量のデータに基づいて事前訓練された大規模な言語モデルは、トレーニングデータの豊富な知識と情報をキャプチャする。 事前訓練された言語モデルにおけるデータ記憶と復活の能力は、以前の研究で明らかになったように、データ漏洩のリスクをもたらす。 これらのリスクを効果的に軽減するために,事前訓練された言語モデルにおけるプライバシニューロンの検出と編集のためのフレームワークDEPNを提案する。 DEPNでは、プライバシニューロン検出器と呼ばれる新しい手法を導入し、プライベート情報に関連するニューロンを特定し、その活性化をゼロにすることでこれらの検出されたプライバシニューロンを編集する。 さらに,プライバシニューロンアグリゲータにおいて,プライベート情報をバッチ処理で記憶する手法を提案する。 実験の結果, モデルの性能を損なうことなく, 個人データ漏洩の露光量を大幅に, 効率的に低減できることがわかった。 さらに,モデルサイズ,トレーニング時間,プロンプト,プライバシニューロン分布など,複数の視点からモデル記憶とプライバシニューロンの関係を実証的に示す。

Large language models pretrained on a huge amount of data capture rich knowledge and information in the training data. The ability of data memorization and regurgitation in pretrained language models, revealed in previous studies, brings the risk of data leakage. In order to effectively reduce these risks, we propose a framework DEPN to Detect and Edit Privacy Neurons in pretrained language models, partially inspired by knowledge neurons and model editing. In DEPN, we introduce a novel method, termed as privacy neuron detector, to locate neurons associated with private information, and then edit these detected privacy neurons by setting their activations to zero. Furthermore, we propose a privacy neuron aggregator dememorize private information in a batch processing manner. Experimental results show that our method can significantly and efficiently reduce the exposure of private data leakage without deteriorating the performance of the model. Additionally, we empirically demonstrate the relationship between model memorization and privacy neurons, from multiple perspectives, including model size, training time, prompts, privacy neuron distribution, illustrating the robustness of our approach.
翻訳日:2023-12-06 19:09:56 公開日:2023-12-05
# レガシビデオコンテンツの再生:双方向情報伝達によるデインターレース

Revitalizing Legacy Video Content: Deinterlacing with Bidirectional Information Propagation ( http://arxiv.org/abs/2310.19535v2 )

ライセンス: Link先を確認
Zhaowei Gao, Mingyang Song, Christopher Schroers, Yang Zhang(参考訳) 古いcrt表示技術と限られた伝送帯域のため、初期のフィルムやテレビ放送ではインターレース走査が一般的であった。 これは各フィールドが情報の半分しか含まないことを意味する。 現代のディスプレイはフルフレームを必要とするため、これはデインターレースの研究、すなわちレガシービデオコンテンツの欠落した情報を復元するきっかけとなった。 本稿では,アニメーションコンテンツとライブアクションコンテンツを分離する深層学習手法を提案する。 提案手法は,空間と時間の両方で情報を活用するために,複数スケールにわたる双方向時空間情報伝搬を支援する。 より具体的には,アライメント,融合,整流などの機能改良を行うフローガイドリファインメントブロック(frb)を設計する。 さらに,複数のフィールドを同時に処理し,フレーム単位の処理時間を短縮し,リアルタイム処理を可能にする。 実験の結果,提案手法は既存手法と比較して優れた性能を示した。

Due to old CRT display technology and limited transmission bandwidth, early film and TV broadcasts commonly used interlaced scanning. This meant each field contained only half of the information. Since modern displays require full frames, this has spurred research into deinterlacing, i.e. restoring the missing information in legacy video content. In this paper, we present a deep-learning-based method for deinterlacing animated and live-action content. Our proposed method supports bidirectional spatio-temporal information propagation across multiple scales to leverage information in both space and time. More specifically, we design a Flow-guided Refinement Block (FRB) which performs feature refinement including alignment, fusion, and rectification. Additionally, our method can process multiple fields simultaneously, reducing per-frame processing time, and potentially enabling real-time processing. Our experimental results demonstrate that our proposed method achieves superior performance compared to existing methods.
翻訳日:2023-12-06 19:09:36 公開日:2023-12-05
# ベイズ安定動物園

The Bayesian Stability Zoo ( http://arxiv.org/abs/2310.18428v2 )

ライセンス: Link先を確認
Shay Moran, Hilla Schefler, Jonathan Shafer(参考訳) 学習理論文献に見られる安定性の多くの定義が互いに等価であることを示す。 安定性の定義は, 分布依存と分布非依存の二つのベイズ安定性とを区別する。 各ファミリーにおいて、近似微分プライバシー、純粋微分プライバシー、再現性、グローバル安定性、完全一般化、テレビ安定性、相互情報安定性、kl-ダイバージェンス安定性、r\'enyi-divergence stabilityを含む様々な定義間の等価性を確立する。 その過程で,学習規則の安定性の増幅を可能にする結果が得られた。 この研究は、学習理論における安定性概念のより体系的な分類への一歩であり、これは明確性を促進し、近年出現した安定性概念の一連の理解を改善することができる。

We show that many definitions of stability found in the learning theory literature are equivalent to one another. We distinguish between two families of definitions of stability: distribution-dependent and distribution-independent Bayesian stability. Within each family, we establish equivalences between various definitions, encompassing approximate differential privacy, pure differential privacy, replicability, global stability, perfect generalization, TV stability, mutual information stability, KL-divergence stability, and R\'enyi-divergence stability. Along the way, we prove boosting results that enable the amplification of the stability of a learning rule. This work is a step towards a more systematic taxonomy of stability notions in learning theory, which can promote clarity and an improved understanding of an array of stability concepts that have emerged in recent years.
翻訳日:2023-12-06 19:08:56 公開日:2023-12-05
# Bio Image.IO Chatbot: コミュニティ知識ベースによるバイオ画像分析のためのパーソナライズされたアシスタント

BioImage.IO Chatbot: A Personalized Assistant for BioImage Analysis Augmented by Community Knowledge Base ( http://arxiv.org/abs/2310.18351v3 )

ライセンス: Link先を確認
Wanlu Lei, Caterina Fuster-Barcel\'o, Arrate Mu\~noz-Barrutia, Wei Ouyang(参考訳) バイオイメージ分析ツールの急速な発展は、専門家と新参者の両方にとってナビゲーション上の課題となる。 従来の検索手法は、この複雑な環境でユーザーを助けるのに不足することが多い。 これを解決するために、BioImage$を紹介します。 $IO ChatbotはAIによる会話アシスタントで、バイオ画像のコミュニティ向けに作られた。 大規模な言語モデルに基づいて構築されたこのチャットボットは、さまざまなデータベースやツール固有のドキュメント、構造化データソースからの情報を集約して解釈することで、パーソナライズされたコンテキスト対応の回答を提供する。 コミュニティに分散した知識ベースと微調整された検索方法によって強化されたバイオイメージ$。 $IO Chatbotは、パーソナライズされたインタラクションだけでなく、知識に富んだコンテキスト認識エクスペリエンスを提供する。 これは、生物学者、生物画像分析者、および開発者が高度な生物画像分析ツールをナビゲートし利用する方法を根本的に変え、コミュニティ主導でアクセス可能な科学研究の新しい標準を設定します。

The rapidly expanding landscape of bioimage analysis tools presents a navigational challenge for both experts and newcomers. Traditional search methods often fall short in assisting users in this complex environment. To address this, we introduce the BioImage$.$IO Chatbot, an AI-driven conversational assistant tailored for the bioimage community. Built upon large language models, this chatbot provides personalized, context-aware answers by aggregating and interpreting information from diverse databases, tool-specific documentation, and structured data sources. Enhanced by a community-contributed knowledge base and fine-tuned retrieval methods, the BioImage$.$IO Chatbot offers not just a personalized interaction but also a knowledge-enriched, context-aware experience. It fundamentally transforms the way biologists, bioimage analysts, and developers navigate and utilize advanced bioimage analysis tools, setting a new standard for community-driven, accessible scientific research.
翻訳日:2023-12-06 19:08:42 公開日:2023-12-05
# 極限値理論によるパラメータサルマンシーの理解

Understanding Parameter Saliency via Extreme Value Theory ( http://arxiv.org/abs/2310.17951v2 )

ライセンス: Link先を確認
Shuo Wang and Issei Sato(参考訳) 近年,深層ニューラルネットワークが社会全体に普及している。 望ましくないモデル行動の診断において、どのパラメータが誤分類を引き起こすかを特定するのに有用である。 パラメータサリエンシの概念が提案され、パラメータサリエンシに基づいて誤分類を引き起こしたかもしれない畳み込みフィルタのランク付けによって畳み込みニューラルネットワーク(cnns)を診断するために使用される。 また,最上位のsalientフィルタの微調整がimagenetの誤認を効率的に補正することを示した。 しかし、なぜパラメータ塩分ランキングが誤認を誘発するフィルタを見つけられるのかを理解する上では、まだ知識のギャップがある。 本研究では,パラメータの正当性ランキングを統計的視点,すなわち極値理論から分析することにより,このギャップを埋める試みを行う。 まず,各フィルタに対して計算された勾配ノルムが正規分布に従うことを暗黙的に仮定する。 次に,極端値のモデル化によく用いられるピークオーバースレッショルド法(pot法)に基づいて,パラメータ塩分とスコアの関係を明らかにする。 最後に,POT法を用いてパラメータ・サリエンシを再構成し,この改定を統計的異常検出とみなし,既存のパラメータ・サリエンシ定式化の暗黙的な仮定を必要としない。 実験の結果,悪質なフィルタも検出できることが判明した。 さらに,既存のパラメータ塩分法では,ディープニューラルネットワークの層深さに対するバイアスがみられた。 特に、このバイアスは、ドメインシフトが発生した場合に誤同定を引き起こすフィルターの発見を抑制する可能性がある。 対照的に、ポットに基づくパラメータの塩分は、このバイアスをあまり示さない。

Deep neural networks are being increasingly implemented throughout society in recent years. It is useful to identify which parameters trigger misclassification in diagnosing undesirable model behaviors. The concept of parameter saliency is proposed and used to diagnose convolutional neural networks (CNNs) by ranking convolution filters that may have caused misclassification on the basis of parameter saliency. It is also shown that fine-tuning the top ranking salient filters efficiently corrects misidentification on ImageNet. However, there is still a knowledge gap in terms of understanding why parameter saliency ranking can find the filters inducing misidentification. In this work, we attempt to bridge the gap by analyzing parameter saliency ranking from a statistical viewpoint, namely, extreme value theory. We first show that the existing work implicitly assumes that the gradient norm computed for each filter follows a normal distribution. Then, we clarify the relationship between parameter saliency and the score based on the peaks-over-threshold (POT) method, which is often used to model extreme values. Finally, we reformulate parameter saliency in terms of the POT method, where this reformulation is regarded as statistical anomaly detection and does not require the implicit assumptions of the existing parameter-saliency formulation. Our experimental results demonstrate that our reformulation can detect malicious filters as well. Furthermore, we show that the existing parameter saliency method exhibits a bias against the depth of layers in deep neural networks. In particular, this bias has the potential to inhibit the discovery of filters that cause misidentification in situations where domain shift occurs. In contrast, parameter saliency based on POT shows less of this bias.
翻訳日:2023-12-06 19:08:27 公開日:2023-12-05
# パラメータ化量子機械学習回路における不毛高原の緩和:高度パラメータ初期化戦略の検討

Alleviating Barren Plateaus in Parameterized Quantum Machine Learning Circuits: Investigating Advanced Parameter Initialization Strategies ( http://arxiv.org/abs/2311.13218v2 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Rashid, Saif Al-Kuwari, Muhammad Shafique(参考訳) パラメタライズド量子回路(PQC)は、量子アルゴリズムの開発と応用の基礎的要素として登場した。 しかし、ランダムパラメータ値で初期化すると、pqcはしばしば不毛高原(bp)を示す。 これらの高原は量子ビット数の増加に伴う勾配の消失によって特徴づけられ、量子アルゴリズムの最適化を妨げる。 本稿では,ランダムpqcにおける古典的機械学習における最先端パラメータ初期化戦略の影響をbp現象の側面から分析する。 本研究は,ランダム,Xavier(正常および均一な変種),He,LeCun,Orthogonalメソッドなど,初期化手法のスペクトルを包含する。 経験的評価は, ランダムに初期化したPQCと比較して, 勾配の分散減衰を顕著に減少させることを示した。 具体的には、Xavier初期化法は残りよりも優れており、ランダム初期化法に比べて62%の分散減衰が改善している。 He, Lecunおよび直交法も改善され, それぞれ32\%, 28\%, 26\%となった。 これは、これらの既存の初期化技術の採用が、PQCのサブクラスである量子ニューラルネットワーク(QNN)のトレーニング効果を著しく増幅する可能性を示唆している。 この効果を実証し、識別されたQNNを訓練してアイデンティティ関数を学習し、BPの悪影響を効果的に軽減する。 最善から最悪のレベルにランクされたトレーニングパフォーマンスは、上述の分散減衰の強化と一致している。 本稿では,bp問題の緩和とqnnのトレーニングダイナミクス向上におけるパラメータ初期化の役割について考察する。

Parameterized quantum circuits (PQCs) have emerged as a foundational element in the development and applications of quantum algorithms. However, when initialized with random parameter values, PQCs often exhibit barren plateaus (BP). These plateaus, characterized by vanishing gradients with an increasing number of qubits, hinder optimization in quantum algorithms. In this paper, we analyze the impact of state-of-the-art parameter initialization strategies from classical machine learning in random PQCs from the aspect of BP phenomenon. Our investigation encompasses a spectrum of initialization techniques, including random, Xavier (both normal and uniform variants), He, LeCun, and Orthogonal methods. Empirical assessment reveals a pronounced reduction in variance decay of gradients across all these methodologies compared to the randomly initialized PQCs. Specifically, the Xavier initialization technique outperforms the rest, showing a 62\% improvement in variance decay compared to the random initialization. The He, Lecun, and orthogonal methods also display improvements, with respective enhancements of 32\%, 28\%, and 26\%. This compellingly suggests that the adoption of these existing initialization techniques holds the potential to significantly amplify the training efficacy of Quantum Neural Networks (QNNs), a subclass of PQCs. Demonstrating this effect, we employ the identified techniques to train QNNs for learning the identity function, effectively mitigating the adverse effects of BPs. The training performance, ranked from the best to the worst, aligns with the variance decay enhancement as outlined above. This paper underscores the role of tailored parameter initialization in mitigating the BP problem and eventually enhancing the training dynamics of QNNs.
翻訳日:2023-12-06 19:01:18 公開日:2023-12-05
# 開量子系における二次元対称性保護位相と遷移

Two-dimensional symmetry-protected topological phases and transitions in open quantum systems ( http://arxiv.org/abs/2311.12619v2 )

ライセンス: Link先を確認
Yuxuan Guo and Yuto Ashida(参考訳) 2次元(2次元)クラスター状態の対称性保護位相(SPT)位相に対する局所デコヒーレンスの影響について検討した。 デコヒーレンスの下での2次元クラスター状態を古典的なスピンモデルにマッピングし、$\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT 位相の位相遷移を有限デコヒーレンス強度で生じる自明な位相に変換する。 位相遷移を特徴付けるために,異なる位相的エッジ状態を持つ2つの非結合spt状態間の相対エントロピー,$\mathbb{z}_2^{(1)}$ chargeの奇妙な相関関数,ディスク上の混合状態の多成分ネガティリティという,3つの異なる診断手法を用いた。 全ての診断は、対応する古典的モデルの特定の熱力学量として得ることができ、3つの診断結果が互いに一致している。 2次元クラスター状態が測定ベースの量子計算の文脈で普遍的な計算能力を持っていることを考慮すれば、ここで見られる位相遷移は計算力の遷移と解釈できる。

We investigate the influence of local decoherence on a symmetry-protected topological (SPT) phase of the two-dimensional (2D) cluster state. Mapping the 2D cluster state under decoherence to a classical spin model, we show a topological phase transition of a $\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT phase into the trivial phase occurring at a finite decoherence strength. To characterize the phase transition, we employ three distinct diagnostic methods, namely, the relative entropy between two decohered SPT states with different topological edge states, the strange correlation function of $\mathbb{Z}_2^{(1)}$ charge, and the multipartite negativity of the mixed state on a disk. All the diagnostics can be obtained as certain thermodynamic quantities in the corresponding classical model, and the results of three diagnostic tests are consistent with each other. Given that the 2D cluster state possesses universal computational capabilities in the context of measurement-based quantum computation, the topological phase transition found here can also be interpreted as a transition in the computational power.
翻訳日:2023-12-06 19:00:35 公開日:2023-12-05
# シミュレーションと機械学習を用いた実時間地対空ミサイルエンゲージメントゾーン予測

Real-Time Surface-to-Air Missile Engagement Zone Prediction Using Simulation and Machine Learning ( http://arxiv.org/abs/2311.11905v2 )

ライセンス: Link先を確認
Joao P. A. Dantas, Diego Geraldo, Felipe L. L. Medeiros, Marcos R. O. A. Maximo, Takashi Yoneyama(参考訳) 地対空ミサイル(SAM)は現代の防空システムにおいて不可欠である。 それらの効果の重要な側面はエンゲージメントゾーン(EZ)であり、SAMが標的を効果的に動かし中立化できる空間領域である。 特に、EZはミサイルの最大射程と本質的に関係しており、ミサイルが目標を迎撃できる最遠距離を定義している。 このezの正確な計算は必須であるが、動的で複雑な要因が原因で難しいため、従来のシミュレーション手法を用いた場合、高い計算コストと処理時間の延長に繋がることが多い。 これらの課題を踏まえて、機械学習技術の可能性を調査し、機械学習とカスタム設計のシミュレーションツールを統合して教師付きアルゴリズムを訓練するアプローチを提案する。 プリコンパイルされたSAM EZシミュレーションの包括的データセットを活用し、新しい入力パラメータに対してSAM EZを正確に予測することができる。 SAM EZシミュレーションを加速し、航空防衛戦略計画を強化し、リアルタイムの洞察を提供し、SAMシステムの性能を向上させる。 この研究には、機械学習アルゴリズムの比較分析、その能力とパフォーマンスメトリクスの照明、将来の研究分野の提案も含まれており、sam ezシミュレーションにおける機械学習の変換可能性を強調している。

Surface-to-Air Missiles (SAMs) are crucial in modern air defense systems. A critical aspect of their effectiveness is the Engagement Zone (EZ), the spatial region within which a SAM can effectively engage and neutralize a target. Notably, the EZ is intrinsically related to the missile's maximum range; it defines the furthest distance at which a missile can intercept a target. The accurate computation of this EZ is essential but challenging due to the dynamic and complex factors involved, which often lead to high computational costs and extended processing times when using conventional simulation methods. In light of these challenges, our study investigates the potential of machine learning techniques, proposing an approach that integrates machine learning with a custom-designed simulation tool to train supervised algorithms. We leverage a comprehensive dataset of pre-computed SAM EZ simulations, enabling our model to accurately predict the SAM EZ for new input parameters. It accelerates SAM EZ simulations, enhances air defense strategic planning, and provides real-time insights, improving SAM system performance. The study also includes a comparative analysis of machine learning algorithms, illuminating their capabilities and performance metrics and suggesting areas for future research, highlighting the transformative potential of machine learning in SAM EZ simulations.
翻訳日:2023-12-06 18:59:37 公開日:2023-12-05
# 光フローのないビデオフレーム補間のためのマルチインシングルアウトネットワーク

A Multi-In-Single-Out Network for Video Frame Interpolation without Optical Flow ( http://arxiv.org/abs/2311.11602v3 )

ライセンス: Link先を確認
Jaemin Lee, Minseok Seo, Sangwoo Lee, Hyobin Park, Dong-Geol Choi(参考訳) 一般に、深層学習に基づくビデオフレーム補間(vfi)法は、主に2つの入力フレーム間の動きベクトルを推定し、それを目標時間にゆがめることに焦点を当てている。 このアプローチは2つの入力フレーム間の線形運動に対して顕著な性能を示すが、オクルージョンや非線形運動を扱う際の限界を示す。 近年,これらの問題に対処するための生成モデルがVFIに適用されている。 しかしながら、VFIは可塑性画像の生成に重点を置いているのではなく、与えられた2つのフレーム間の正確な中間フレームの予測に重点を置いているため、性能制限は継続する。 本稿では,動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI手法を提案し,オクルージョンと非線形動作を効果的にモデル化する。 さらに,MISO-VFIによりビデオフレーム内の時空間相関をよりよく捉えることができる新しい動き知覚損失を導入する。 MISO-VFI法は,VFIベンチマークのVimeo90K,Middlebury,UCF101において,既存手法と比較して高い性能差を示した。

In general, deep learning-based video frame interpolation (VFI) methods have predominantly focused on estimating motion vectors between two input frames and warping them to the target time. While this approach has shown impressive performance for linear motion between two input frames, it exhibits limitations when dealing with occlusions and nonlinear movements. Recently, generative models have been applied to VFI to address these issues. However, as VFI is not a task focused on generating plausible images, but rather on predicting accurate intermediate frames between two given frames, performance limitations still persist. In this paper, we propose a multi-in-single-out (MISO) based VFI method that does not rely on motion vector estimation, allowing it to effectively model occlusions and nonlinear motion. Additionally, we introduce a novel motion perceptual loss that enables MISO-VFI to better capture the spatio-temporal correlations within the video frames. Our MISO-VFI method achieves state-of-the-art results on VFI benchmarks Vimeo90K, Middlebury, and UCF101, with a significant performance gap compared to existing approaches.
翻訳日:2023-12-06 18:59:16 公開日:2023-12-05
# 呼吸音分類のためのマルチビュースペクトログラム変換器

Multi-View Spectrogram Transformer for Respiratory Sound Classification ( http://arxiv.org/abs/2311.09655v2 )

ライセンス: Link先を確認
Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang(参考訳) 深層ニューラルネットワークは呼吸音分類のための音声スペクトログラムに適用されている。 既存のモデルは、しばしば分光図を合成画像として扱い、物理特性を見下ろしている。 本稿では、視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。 提案したMVSTは, メリースペクトルを異なる大きさのパッチに分割し, 呼吸音の多視点音響特性を表す。 これらのパッチと位置埋め込みをトランスフォーマーエンコーダに入力し、自己保持機構を通じてパッチ間の注意情報を抽出する。 最後に、ゲート融合スキームは、特定のシナリオで最良のものを強調するために、マルチビュー機能を自動的に評価するように設計されている。 ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法に優れていた。

Deep neural networks have been applied to audio spectrograms for respiratory sound classification. Existing models often treat the spectrogram as a synthetic image while overlooking its physical characteristics. In this paper, a Multi-View Spectrogram Transformer (MVST) is proposed to embed different views of time-frequency characteristics into the vision transformer. Specifically, the proposed MVST splits the mel-spectrogram into different sized patches, representing the multi-view acoustic elements of a respiratory sound. These patches and positional embeddings are then fed into transformer encoders to extract the attentional information among patches through a self-attention mechanism. Finally, a gated fusion scheme is designed to automatically weigh the multi-view features to highlight the best one in a specific scenario. Experimental results on the ICBHI dataset demonstrate that the proposed MVST significantly outperforms state-of-the-art methods for classifying respiratory sounds.
翻訳日:2023-12-06 18:58:29 公開日:2023-12-05
# 量子暗号におけるロバストコンビネータとユニバーサル構成

Robust Combiners and Universal Constructions for Quantum Cryptography ( http://arxiv.org/abs/2311.09487v2 )

ライセンス: Link先を確認
Taiga Hiroka, Fuyuki Kitagawa, Ryo Nishimaki, Takashi Yamakawa(参考訳) ロバストコンビネータは暗号プリミティブの多くの候補を結合し、同じプリミティブの新しい候補を生成する。 正しさとセキュリティは、元の候補の1つが正しさと安全性を満たす限り維持される。 普遍構成は強結合体に密接に関連する概念である。 プリミティブに対する普遍的な構成は、プリミティブが存在する限り正確かつ安全であるプリミティブの明示的な構成である。 プリミティブに対する普遍的な構成は、多くの場合、プリミティブに対する堅牢なコンバインダーから構築できることが知られている。 古典暗号に対するロバストなコンバインダーと普遍的な構成は広く研究されているが、量子暗号に対するロバストなコンバインと普遍的な構成は研究されていない。 本研究では、一方向状態生成器、公開鍵量子マネー、量子ビットのコミットメント、および不可解な暗号化を含むいくつかの量子暗号プリミティブのロバストコンビネータと普遍的構成を定義し、それらの構成を提供する。 別の点として、制限不能な暗号化の平文長を拡張する方法はオープンな問題だった。 不可解な暗号化のための普遍的な構成の1つで、平文の長さを広げることができ、オープンな問題を解決することができます。

A robust combiner combines many candidates for a cryptographic primitive and generates a new candidate for the same primitive. Its correctness and security hold as long as one of the original candidates satisfies correctness and security. A universal construction is a closely related notion to a robust combiner. A universal construction for a primitive is an explicit construction of the primitive that is correct and secure as long as the primitive exists. It is known that a universal construction for a primitive can be constructed from a robust combiner for the primitive in many cases. Although robust combiners and universal constructions for classical cryptography are widely studied, robust combiners and universal constructions for quantum cryptography have not been explored so far. In this work, we define robust combiners and universal constructions for several quantum cryptographic primitives including one-way state generators, public-key quantum money, quantum bit commitments, and unclonable encryption, and provide constructions of them. On a different note, it was an open problem how to expand the plaintext length of unclonable encryption. In one of our universal constructions for unclonable encryption, we can expand the plaintext length, which resolves the open problem.
翻訳日:2023-12-06 18:58:14 公開日:2023-12-05
# NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v3 )

ライセンス: Link先を確認
Ziyin Zhang and Chaoyu Chen and Bingchang Liu and Cong Liao and Zi Gong and Hang Yu and Jianguo Li and Rui Wang(参考訳) 本稿では,50以上のモデル,30以上の評価タスク,170以上のデータセット,700以上の関連作業を含む,言語モデルによるコード処理の最近の進歩を体系的にレビューする。 私たちは、コード処理モデルをgptファミリに代表される一般的な言語モデルと、特にコードで事前学習される特殊なモデルに分解します。 これらのモデルとの関係と相違について考察し,nlpが実施したのと全く同じ方法で,統計モデルやrnnから事前学習されたトランスフォーマーやllmへのコードモデリングの歴史的変遷を強調する。 また、ast、cfg、ユニットテストといったコード固有の機能や、コード言語モデルをトレーニングするアプリケーションについても議論し、このドメインにおける重要な課題と将来的な方向性を特定します。 私たちは調査をオープンにし、githubのhttps://github.com/codefuse-ai/awesome-code-llmで更新しています。

In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, 170+ datasets, and 700 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM.
翻訳日:2023-12-06 18:57:54 公開日:2023-12-05
# wikipediansの調査: 8言語のwikipediaにおけるユーザとコントリビュータのプラクティスのデータセット

Surveying Wikipedians: a dataset of users and contributors' practices on Wikipedia in 8 languages ( http://arxiv.org/abs/2311.07964v2 )

ライセンス: Link先を確認
Caterina Cruciani, L\'eo Joubert (LEST, DySoLab), Nicolas Jullien (IMT Atlantique - LUSSI, MARSOUIN, LEGO), Laurent Mell (CREAD, MARSOUIN), Sasha Piccione, Jeanne Vermeirsche (AU)(参考訳) このデータセットはwikipediaユーザーに焦点を当てており、回答者の人口統計と社会経済特性とウィキペディアにおける活動に関する情報を含んでいる。 データは2023年6月から7月にかけてオンライン公開されているアンケートを用いて収集された。 アンケートへのリンクはウィキペディアのページにある8つの言語で公開されたバナーを通じて配布された。 アンケートの充足は自発的であり、何のインセンティブも与えなかった。 The survey includes 200 questions about: what people were doing on Wikipedia before clicking the link to the questionnaire; how they use Wikipedia as readers (``professional'' and ``personal'' uses); their opinion on the quality, the thematic coverage, the importance of the encyclopaedia; the making of Wikipedia (how they think it is made, if they have ever contributed and how); their social, sport, artistic and cultural activities, both online and offline; their socio-economic characteristics including political beliefs, and trust propensities. 20万人以上がアンケートを開き、100人の332人が回答し始め、私たちのデータセットを構成しました。 将来の研究者によって特定される他のテーマの中で、このデータセットは、読者とオンラインコモンズのコントリビュータの特徴、信頼、情報、ソース、そしてこの情報で作られた使用との関係に関する研究を進めるのに役立つ。

The dataset focuses on Wikipedia users and contains information about demographic and socioeconomic characteristics of the respondents and their activity on Wikipedia. The data was collected using a questionnaire available online between June and July 2023. The link to the questionnaire was distributed via a banner published in 8 languages on the Wikipedia page. Filling out the questionnaire was voluntary and not incentivised in any way. The survey includes 200 questions about: what people were doing on Wikipedia before clicking the link to the questionnaire; how they use Wikipedia as readers (``professional'' and ``personal'' uses); their opinion on the quality, the thematic coverage, the importance of the encyclopaedia; the making of Wikipedia (how they think it is made, if they have ever contributed and how); their social, sport, artistic and cultural activities, both online and offline; their socio-economic characteristics including political beliefs, and trust propensities. More than 200 000 people opened the questionnaire, 100 332 started to answer, and constitute our dataset, and 10 576 finished it. Among other themes identified by future researchers, the dataset can be useful for advancing the research regarding the features of readers vs contributors of online commons, the relationship between trust, information, sources, and the use made of this information.
翻訳日:2023-12-06 18:57:37 公開日:2023-12-05
# ロボット制御のための事前訓練強化学習を目的とした中央モータシステム

A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control ( http://arxiv.org/abs/2311.07822v2 )

ライセンス: Link先を確認
Pei Zhang, Zhaobo Hua, Jinliang Ding(参考訳) マルチジョイントロボットの自然運動能力を実現するためのコントローラーの設計は、大きな課題である。 しかし、自然界の動物は自然に基本的な運動能力を持ち、獲得した学習を通じて様々な複雑な運動スキルを習得することができる。 そこで,本研究では,哺乳類の中枢運動系のメカニズムを解析し,ロボットが豊富な運動スキルを学習し,外部データに頼らずに複雑な作業環境に適用できる,新しい事前学習強化学習アルゴリズムを提案する。 本稿ではまず,小脳基底核における随意運動の選択機構と小脳の運動調節能力を利用して,小脳に似たスキルベースネットワークを設計する。 その後、中央モーターシステムにおける高度なセンターの構造を模倣することにより、異なるスキルの組み合わせを生成するための高レベルなポリシーを提案し、ロボットが自然運動能力を得ることができるようにした。 本研究では,4種類のロボットと22種類のタスク環境について実験を行い,提案手法により,柔軟な運動能力を実現することができることを示す。 全体として、本研究はニューラルネットワークモータコントローラの設計に有望なフレームワークを提供する。

Designing controllers to achieve natural motor capabilities for multi-joint robots is a significant challenge. However, animals in nature are naturally with basic motor abilities and can master various complex motor skills through acquired learning. On the basis of analyzing the mechanism of the central motor system in mammals, we propose a novel pre-training reinforcement learning algorithm that enables robots to learn rich motor skills and apply them to complex task environments without relying on external data. We first design a skill based network similar to the cerebellum by utilizing the selection mechanism of voluntary movements in the basal ganglia and the basic motor regulation ability of the cerebellum. Subsequently, by imitating the structure of advanced centers in the central motor system, we propose a high-level policy to generate different skill combinations, thereby enabling the robot to acquire natural motor abilities. We conduct experiments on 4 types of robots and 22 task environments, and the results show that the proposed method can enable different types of robots to achieve flexible motor skills. Overall, our research provides a promising framework for the design of neural network motor controllers.
翻訳日:2023-12-06 18:57:17 公開日:2023-12-05
# 表データにおける新しいクラス発見への実践的アプローチ

A Practical Approach to Novel Class Discovery in Tabular Data ( http://arxiv.org/abs/2311.05440v2 )

ライセンス: Link先を確認
Colin Troisemaine, Alexandre Reiffers-Masson, St\'ephane Gosselin, Vincent Lemaire, Sandrine Vaton(参考訳) 新規クラス発見(ncd)の問題は、既知のクラスのラベル付き集合から知識を抽出して、ラベルのない新しいクラスの集合を正確に分割することである。 ncdは最近コミュニティから多くの注目を集めているが、コンピュータビジョンの問題や非現実的な状況下でしばしば解決されている。 特に、新しいクラスの数は通常事前に知られており、そのラベルは時折ハイパーパラメータをチューニングするために使われる。 これらの仮定に依存する手法は現実のシナリオでは適用できない。 本研究は,新規クラスの事前知識が得られない場合の表データによるncdの解決に焦点をあてる。 この目的のために,$k$-fold のクロスバリデーションプロセスを適用し,既知のクラスを各フォールドに隠して ncd メソッドのハイパーパラメータを調整することを提案する。 過パラメータが多すぎるメソッドがこれらの隠れクラスに過度に適合することを発見したので、単純な深いNCDモデルを定義する。 本手法は, NCD問題に必要な必須要素のみで構成され, 現実的な条件下では優れた性能を発揮する。 さらに,本手法の潜在空間を用いて,新規クラスの数を確実に推定できることを見いだした。 さらに、既知のクラスの知識を活用するために、2つの教師なしクラスタリングアルゴリズム(k$-meansとSpectral Clustering)を適用する。 7つの表型データセットについて広範な実験を行い,提案手法とハイパーパラメータチューニングプロセスの有効性を実証し,新しいクラスからの知識を頼らずにncd問題を解決できることを示した。

The problem of Novel Class Discovery (NCD) consists in extracting knowledge from a labeled set of known classes to accurately partition an unlabeled set of novel classes. While NCD has recently received a lot of attention from the community, it is often solved on computer vision problems and under unrealistic conditions. In particular, the number of novel classes is usually assumed to be known in advance, and their labels are sometimes used to tune hyperparameters. Methods that rely on these assumptions are not applicable in real-world scenarios. In this work, we focus on solving NCD in tabular data when no prior knowledge of the novel classes is available. To this end, we propose to tune the hyperparameters of NCD methods by adapting the $k$-fold cross-validation process and hiding some of the known classes in each fold. Since we have found that methods with too many hyperparameters are likely to overfit these hidden classes, we define a simple deep NCD model. This method is composed of only the essential elements necessary for the NCD problem and performs impressively well under realistic conditions. Furthermore, we find that the latent space of this method can be used to reliably estimate the number of novel classes. Additionally, we adapt two unsupervised clustering algorithms ($k$-means and Spectral Clustering) to leverage the knowledge of the known classes. Extensive experiments are conducted on 7 tabular datasets and demonstrate the effectiveness of the proposed method and hyperparameter tuning process, and show that the NCD problem can be solved without relying on knowledge from the novel classes.
翻訳日:2023-12-06 18:56:59 公開日:2023-12-05
# ct肺血管造影画像における深部学習 : 肺塞栓症検出のためのデュアルプロングアプローチ

Deep Learning in Computed Tomography Pulmonary Angiography Imaging: A Dual-Pronged Approach for Pulmonary Embolism Detection ( http://arxiv.org/abs/2311.05197v2 )

ライセンス: Link先を確認
Fabiha Bushra, Muhammad E. H. Chowdhury, Rusab Sarmun, Saidul Kabir, Menatalla Said, Sohaib Bassam Zoghoul, Adam Mushtak, Israa Al-Hashimi, Abdulrahman Alqahtani, Anwarul Hasan(参考訳) 肺塞栓症 (PE) 診断におけるCTによる肺血管造影検査への依存度が増大し, 診断ソリューションの改善の必要性が高まっている。 本研究の目的は,深層学習技術を活用し,PEのコンピュータ支援診断を強化することである。 本研究では,分類器の確率的推論を効果的に活用して検出予測を指示する分類器誘導検出手法を提案する。 当社のエンドツーエンド分類フレームワークでは,アテンションガイド型畳み込みニューラルネットワーク(AG-CNN)を導入している。 このアプローチは、決定的な決定を下す前に、グローバルな外観と局所的な病変領域の両方を見ることによって、人間の専門家の注意をエミュレートする。 この分類器は、インセプションv3バックボーンアーキテクチャを持つFUMPEデータセット上で、それぞれ0.927、0.862、0.879、0.805のAUROC、感度、特異度、F1スコアを達成する。 さらに、AG-CNNはベースラインのDenseNet-121モデルを上回っ、8.1%のAUROCゲインを達成した。 先行研究は主動脈のPE検出に主眼を置いているが,最先端の物体検出モデルとアンサンブル技術は末梢動脈の小さな塞栓症に対する検出精度を大幅に向上させる。 最後に,提案する分類器ガイド検出手法は,コミュニティに新たな最先端をもたらす検出指標をさらに洗練する: map$_{50}$, sensitivity and f1-score of 0.846, 0.901, 0.779。 本研究は,aiソリューションを臨床ワークフローに統合し,医療診断における人間-aiコラボレーションの可能性を強調し,pe患者ケアの向上を目指している。

The increasing reliance on Computed Tomography Pulmonary Angiography for Pulmonary Embolism (PE) diagnosis presents challenges and a pressing need for improved diagnostic solutions. The primary objective of this study is to leverage deep learning techniques to enhance the Computer Assisted Diagnosis of PE. In this study, we propose a classifier-guided detection approach that effectively leverages the classifier's probabilistic inference to direct the detection predictions, marking a novel contribution in the domain of automated PE diagnosis. Our end-to-end classification framework introduces an Attention-Guided Convolutional Neural Network (AG-CNN) that leverages local context by utilizing an attention mechanism. This approach emulates the attention of a human expert by looking at both global appearances and local lesion regions before forming a conclusive decision. The classifier achieves a notable AUROC, sensitivity, specificity and F1-score of 0.927, 0.862, 0.879 and 0.805 respectively on the FUMPE dataset with Inception-v3 backbone architecture. Moreover, AG-CNN outperforms the baseline DenseNet-121 model, achieving an 8.1% AUROC gain. While prior studies have primarily focused on PE detection in main arteries, our utilization of state-of-the-art object detection models and ensembling techniques significantly enhances detection accuracy for small embolisms in the peripheral arteries. Finally, our proposed classifier-guided detection approach further refines the detection metrics contributing new state-of-the-art to the community: mAP$_{50}$, sensitivity and F1-score of 0.846, 0.901 and 0.779 respectively outperforming the former benchmark with a significant 3.7% improvement in mAP$_{50}$. Our research aims to elevate PE patient care by integrating AI solutions into clinical workflows, highlighting the potential of human-AI collaboration in medical diagnostics.
翻訳日:2023-12-06 18:56:32 公開日:2023-12-05
# CRAFT:顔認識訓練のためのフィルタの文脈再活性化

CRAFT: Contextual Re-Activation of Filters for face recognition Training ( http://arxiv.org/abs/2312.00072v2 )

ライセンス: Link先を確認
Aman Bhatta, Domingo Mery, Haiyu Wu, Kevin W. Bowyer(参考訳) ディープcnnバックボーンの第1レイヤは、イメージにフィルタを適用して、後のレイヤで使用可能な基本的な機能を抽出する。 トレーニング中、一部のフィルタは非アクティブになり、フィルター内の全ての重みがゼロに近づく。 最終モデルの非アクティブfil terは、有用な機能を抽出する機会の欠如を表している。 この現象は、顔認識(ImageNetなどとは対照的に)のような特殊なCNNで特に顕著である。 例えば、最も広く使われている顔認識モデル(arcface)では、第1層の畳み込みフィルタの約半分が非アクティブである。 本研究は,顔認識ネットワークの仕様を高度に設計・テストする新しい手法であるcraft: context re-activated of filter for face recognition trainingを提案する。 CRAFTはトレーニング中の不活性フィルタを特定し、トレーニングの段階で強いフィルタのコンテキストに基づいて再起動する。 CRAFTは,非活性フィルタの割合を平均で44%から32%に減らし,標準トレーニングでは見つからないフィルタパターンを発見する。 CRAFTは、リアクティベーションのない標準的なトレーニングと比較して、AgeDB-30、CPLFW、LFW、CALFW、CFP-FPといった標準的な顔認識ベンチマークデータセットや、IJBBやIJBCといったより困難なデータセットに対して、モデルの精度を向上することを示した。

The first layer of a deep CNN backbone applies filters to an image to extract the basic features available to later layers. During training, some filters may go inactive, mean ing all weights in the filter approach zero. An inactive fil ter in the final model represents a missed opportunity to extract a useful feature. This phenomenon is especially prevalent in specialized CNNs such as for face recogni tion (as opposed to, e.g., ImageNet). For example, in one the most widely face recognition model (ArcFace), about half of the convolution filters in the first layer are inactive. We propose a novel approach designed and tested specif ically for face recognition networks, known as "CRAFT: Contextual Re-Activation of Filters for Face Recognition Training". CRAFT identifies inactive filters during training and reinitializes them based on the context of strong filters at that stage in training. We show that CRAFT reduces fraction of inactive filters from 44% to 32% on average and discovers filter patterns not found by standard training. Compared to standard training without reactivation, CRAFT demonstrates enhanced model accuracy on standard face-recognition benchmark datasets including AgeDB-30, CPLFW, LFW, CALFW, and CFP-FP, as well as on more challenging datasets like IJBB and IJBC.
翻訳日:2023-12-06 18:49:57 公開日:2023-12-05
# 最適因果推論のためのWasserstein流れの幾何学的正規化

Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal Inference ( http://arxiv.org/abs/2311.18826v2 )

ライセンス: Link先を確認
Kaiwen Hou(参考訳) この原稿は、因果推論における連続正規化フロー(CNF)の枠組みを強化し、主に目標最大推定(TMLE)に使用されるパラメトリックサブモデルの幾何学的性質を増大させる。 CNFの革新的な応用を導入することにより、先行分布の$p_0$と経験分布の$p_1$との直接補間を可能にする改良されたパラメトリックサブモデルを構築する。 提案手法は, Wsserstein勾配流に整合するようにCNFを編成することにより, 因果推論における半パラメトリック効率を最適化する。 提案手法は, 推定における平均二乗誤差を最小限に抑えるだけでなく, 幾何的高度化による推定器にも適用し, 誤特定に対する堅牢性を高める。 この頑健性は、tmle における二重ロバスト摂動方向の標準 $n^{\frac{1}{4}}$ の依存性を緩和するため重要である。 強固な最適化原理と微分幾何学を推定器に組み込むことにより、開発された幾何対応のcnfは二重に強固な因果推論の追求において重要な進歩を示している。

This manuscript enriches the framework of continuous normalizing flows (CNFs) within causal inference, primarily to augment the geometric properties of parametric submodels used in targeted maximum likelihood estimation (TMLE). By introducing an innovative application of CNFs, we construct a refined series of parametric submodels that enable a directed interpolation between the prior distribution $p_0$ and the empirical distribution $p_1$. This proposed methodology serves to optimize the semiparametric efficiency bound in causal inference by orchestrating CNFs to align with Wasserstein gradient flows. Our approach not only endeavors to minimize the mean squared error in the estimation but also imbues the estimators with geometric sophistication, thereby enhancing robustness against misspecification. This robustness is crucial, as it alleviates the dependence on the standard $n^{\frac{1}{4}}$ rate for a doubly-robust perturbation direction in TMLE. By incorporating robust optimization principles and differential geometry into the estimators, the developed geometry-aware CNFs represent a significant advancement in the pursuit of doubly robust causal inference.
翻訳日:2023-12-06 18:49:30 公開日:2023-12-05
# 分子コンバータフィールドの生成

Generating Molecular Conformer Fields ( http://arxiv.org/abs/2311.17932v2 )

ライセンス: Link先を確認
Yuyang Wang, Ahmed A. Elhag, Navdeep Jaitly, Joshua M. Susskind, Miguel Angel Bautista(参考訳) 本稿では,分子グラフを与えられた3次元空間における分子のコンフォメータ生成問題に取り組む。 これらを分子グラフから3次元空間内の点への要素を写像する連続関数としてパラメータ化する。 次に、分子適合体場(mcf)と呼ばれる拡散生成モデルを用いて、これらの関数上の分布を学習することで適合体を生成するための学習の問題を定式化する。 我々のアプローチは単純でスケーラブルであり、分子の明示的な構造(例えば、ねじれ角のモデリング)を仮定することなく、挑戦的な分子コンホメータ生成ベンチマークにおける最先端のパフォーマンスを達成する。 MCFは、概念的に単純でスケーラブルで効果的な方法で複雑な科学的問題を扱うために拡散モデルを拡張している。

In this paper we tackle the problem of generating conformers of a molecule in 3D space given its molecular graph. We parameterize these conformers as continuous functions that map elements from the molecular graph to points in 3D space. We then formulate the problem of learning to generate conformers as learning a distribution over these functions using a diffusion generative model, called Molecular Conformer Fields (MCF). Our approach is simple and scalable, and achieves state-of-the-art performance on challenging molecular conformer generation benchmarks while making no assumptions about the explicit structure of molecules (e.g. modeling torsional angles). MCF represents an advance in extending diffusion models to handle complex scientific problems in a conceptually simple, scalable and effective manner.
翻訳日:2023-12-06 18:49:07 公開日:2023-12-05
# ChatGPTの1周年 - オープンソースの大規模言語モデルは追いつくのか?

ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? ( http://arxiv.org/abs/2311.16989v3 )

ライセンス: Link先を確認
Hailin Chen, Fangkai Jiao, Xingxuan Li, Chengwei Qin, Mathieu Ravaut, Ruochen Zhao, Caiming Xiong, Shafiq Joty(参考訳) 2022年後半にリリースされたChatGPTは、研究と商業の両方において、AIのランドスケープ全体において、地震的な変化をもたらした。 大規模言語モデル(LLM)の教師付き微調整と人間からのフィードバックによる強化学習を通じて,モデルが人間の質問に答え,タスクの広いパネルで指示に従うことを示した。 この成功の後、LLMへの関心が高まり、新しいLLMは学界や業界で頻繁な間隔で繁栄し、LSMに焦点を絞ったスタートアップも数多く存在する。 オープンソースLCM(OpenAIのGPT、AnthropicのClaudeなど)は、一般的にオープンソースよりも優れているが、後者の進歩は、パーティを達成するか、特定のタスクでさらに優れているという主張によって急速に進んでいる。 これは研究だけでなくビジネスにも重要な意味を持つ。 本稿では,ChatGPT の1周年を記念して,オープンソース LLM が ChatGPT と同等かそれ以上であると主張するすべてのタスクについて,その成功の概要を概観する。

Upon its release in late 2022, ChatGPT has brought a seismic shift in the entire landscape of AI, both in research and commerce. Through instruction-tuning a large language model (LLM) with supervised fine-tuning and reinforcement learning from human feedback, it showed that a model could answer human questions and follow instructions on a broad panel of tasks. Following this success, interests in LLMs have intensified, with new LLMs flourishing at frequent interval across academia and industry, including many start-ups focused on LLMs. While closed-source LLMs (e.g., OpenAI's GPT, Anthropic's Claude) generally outperform their open-source counterparts, the progress on the latter has been rapid with claims of achieving parity or even better on certain tasks. This has crucial implications not only on research but also on business. In this work, on the first anniversary of ChatGPT, we provide an exhaustive overview of this success, surveying all tasks where an open-source LLM has claimed to be on par or better than ChatGPT.
翻訳日:2023-12-06 18:48:28 公開日:2023-12-05
# LLaFS: 大規模な言語モデルがFew-Shotセグメンテーションと出会うとき

LLaFS: When Large-Language Models Meet Few-Shot Segmentation ( http://arxiv.org/abs/2311.16926v3 )

ライセンス: Link先を確認
Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu(参考訳) 本稿では,小規模セグメンテーションにおける大規模言語モデル(llms)を活用した最初の試みであるllafsを提案する。 LLaFSは、注釈付きサポート画像からの限られた偏り情報のみに依存する従来のいくつかのショットセグメンテーション法とは対照的に、LLMが獲得した膨大な事前知識を効果的なサプリメントとして活用し、数ショットで画像のセグメンテーションにLLMを直接利用する。 テキストベースのLLMが画像関連タスクを処理できるようにするため,LLMがポリゴンとして表現されたセグメンテーション結果を生成するための入力命令を慎重に設計し,人間の視覚機構をシミュレートし,マルチモーダルガイダンスを提供する領域属性テーブルを提案する。 また,疑似サンプルを合成し,事前学習にカリキュラム学習を用いてデータを強化し,より良い最適化を実現する。 LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。 コードはhttps://github.com/lanyunzhu99/LLaFSで入手できる。

This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks. Code will be available at https://github.com/lanyunzhu99/LLaFS.
翻訳日:2023-12-06 18:48:06 公開日:2023-12-05
# 安定セグメントオールモデル

Stable Segment Anything Model ( http://arxiv.org/abs/2311.15776v2 )

ライセンス: Link先を確認
Qi Fan, Xin Tao, Lei Ke, Mingqiao Ye, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Yu-Wing Tai, Chi-Keung Tang(参考訳) SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。 SAMをカジュアルなプロンプトに頑健にするために,本論文はSAMのセグメンテーション安定性について,特に不正確なバウンディングボックスと不足点の多種多様な特性のスペクトルにわたって包括的解析を行った。 我々の重要な発見は、このような低品質のプロンプトが与えられた場合、SAMのマスクデコーダは背景に偏ったり、特定のオブジェクトに制限された画像特徴を活性化する傾向があることを示している。 この問題を緩和するために、私たちはSAMのマスクのみの注意を調整し、画像特徴のサンプリング位置と振幅を調整し、オリジナルのSAMモデルアーキテクチャと重みは変わっていない。 その結果,DSP (Deformable sample plugin) により, SAM はデータ駆動方式で誘導対象領域に適応的に注意を移すことが可能となり, 効率的なロバストトレーニング戦略 (RTS) によって促進される。 推論中、動的ルーティングプラグイン(DRP)が提案され、インプットプロンプトの品質を条件に、変形可能なグリッドサンプリングモードと正規のグリッドサンプリングモードの間でSAMを切り替える。 したがって、Stable-SAMと呼ばれるソリューションにはいくつかの利点がある。 1)SAMのセグメンテーション安定性は、幅広い即興品質で改善されている。 2)SAMの強力なセグメンテーション効率と一般性を維持すること 3) 学習可能な最小パラメータ(0.08M)と高速適応(1トレーニングエポック)。 複数のデータセットにわたる大規模な実験により、アプローチの有効性とメリットが検証され、Stable-SAMはより堅牢なセグメンテーションソリューションとして評価される。 コードは受理後に公開される。 https://github.com/fanq15/Stable-SAM

The Segment Anything Model (SAM) achieves remarkable promptable segmentation given high-quality prompts which, however, often require good skills to specify. To make SAM robust to casual prompts, this paper presents the first comprehensive analysis on SAM's segmentation stability across a diverse spectrum of prompt qualities, notably imprecise bounding boxes and insufficient points. Our key finding reveals that given such low-quality prompts, SAM's mask decoder tends to activate image features that are biased towards the background or confined to specific object parts. To mitigate this issue, our key idea consists of calibrating solely SAM's mask attention by adjusting the sampling locations and amplitudes of image features, while the original SAM model architecture and weights remain unchanged. Consequently, our deformable sampling plugin (DSP) enables SAM to adaptively shift attention to the prompted target regions in a data-driven manner, facilitated by our effective robust training strategy (RTS). During inference, dynamic routing plugin (DRP) is proposed that toggles SAM between the deformable and regular grid sampling modes, conditioned on the input prompt quality. Thus, our solution, termed Stable-SAM, offers several advantages: 1) improved SAM's segmentation stability across a wide range of prompt qualities, while 2) retaining SAM's powerful promptable segmentation efficiency and generality, with 3) minimal learnable parameters (0.08 M) and fast adaptation (by 1 training epoch). Extensive experiments across multiple datasets validate the effectiveness and advantages of our approach, underscoring Stable-SAM as a more robust solution for segmenting anything. Codes will be released upon acceptance. https://github.com/fanq15/Stable-SAM
翻訳日:2023-12-06 18:46:41 公開日:2023-12-05
# NeuRAD: 自律運転のためのニューラルレンダリング

NeuRAD: Neural Rendering for Autonomous Driving ( http://arxiv.org/abs/2311.15260v2 )

ライセンス: Link先を確認
Adam Tonderski, Carl Lindstr\"om, Georg Hess, William Ljungbergh, Lennart Svensson, Christoffer Petersson(参考訳) neural radiance fields(nerfs)は、自動運転(ad)コミュニティで人気を集めている。 近年の手法では, クローズドループシミュレーションやADシステムのテスト, 高度なトレーニングデータ拡張技術などが実現されている。 しかし、既存の手法では、長い訓練時間、密集した意味的監督、あるいは一般化可能性の欠如がしばしば必要である。 これにより、大規模な AD への NeRF の適用が妨げられる。 本稿では,動的ADデータに適した,堅牢なビュー合成手法であるNeuRADを提案する。 我々の手法は単純なネットワーク設計、カメラとライダーの両方のための広範なセンサーモデリング -- ローリングシャッター、ビーム発散、レイドロップなど -- を備えており、最初から複数のデータセットに適用できる。 一般的な5つのADデータセット上でのパフォーマンスを検証する。 さらなる開発を促進するため、neuradのソースコードをオープンにリリースします。 https://github.com/georghess/NeuRAD を参照。

Neural radiance fields (NeRFs) have gained popularity in the autonomous driving (AD) community. Recent methods show NeRFs' potential for closed-loop simulation, enabling testing of AD systems, and as an advanced training data augmentation technique. However, existing methods often require long training times, dense semantic supervision, or lack generalizability. This, in turn, hinders the application of NeRFs for AD at scale. In this paper, we propose NeuRAD, a robust novel view synthesis method tailored to dynamic AD data. Our method features simple network design, extensive sensor modeling for both camera and lidar -- including rolling shutter, beam divergence and ray dropping -- and is applicable to multiple datasets out of the box. We verify its performance on five popular AD datasets, achieving state-of-the-art performance across the board. To encourage further development, we will openly release the NeuRAD source code. See https://github.com/georghess/NeuRAD .
翻訳日:2023-12-06 18:46:09 公開日:2023-12-05
# 定量的・質的統合分析を用いたリアルタイムオンライン株価予測

Real-Time Online Stock Forecasting Utilizing Integrated Quantitative and Qualitative Analysis ( http://arxiv.org/abs/2311.15218v2 )

ライセンス: Link先を確認
Sai Akash Bathini, Dagli Cihan(参考訳) 機械学習の金融への応用は、株式市場の予測よりもよく知られたアプローチになっている。 株式市場は揮発性が高く、全世界で毎分大量のデータが生成される。 このデータから効果的なインテリジェンスを抽出することが重要である。 しかし,数値ストックデータと定性的テキストデータとの協調は難しい課題である。 本研究は,前例のない,技術的かつ基本的なデータと,ニュースアーカイブやテレビニュースキャプション,ラジオの書き起こし,ツイート,日々の金融新聞などから収集した感情を備えたデータセットを提供する。 感情抽出に使われるテキストデータエントリは合計で140万以上である。 データセットは、2018年1月から2022年12月まで、様々な産業セクターを代表する8社の日次エントリーと、ダウ・ジョーンズ工業平均(DJIA)全体で構成されている。 モデル学習とデプロイの準備が整った、ホロスティック基本および技術データを提供する。 生成されたデータは、リアルタイムのデータポイントを毎日取得したインクリメンタルオンライン学習に使用することができる。 また、株価のリターンと感情分析を結びつけるリアルタイムデータに対するスピアーマンのランク相関の利用は、精度が60%を超えるdjiaにとって注目すべき結果となっている。 データセットはhttps://github.com/batking24/Huge-Stock-Datasetで公開されている。

The application of Machine learning to finance has become a familiar approach, even more so in stock market forecasting. The stock market is highly volatile and huge amounts of data are generated every minute globally. The extraction of effective intelligence from this data is of critical importance. However, a collaboration of numerical stock data with qualitative text data can be a challenging task. In this work, we accomplish this and provide an unprecedented, publicly available dataset with technical and fundamental data, sentiment that we gathered from News Archives, TV news captions, Radio Transcripts, Tweets, Daily financial newspapers, etc. The text data entries used for sentiment extraction total more than 1.4 Million. The dataset consists of daily entries from January 2018 to December 2022 for 8 companies representing diverse industrial sectors and the Dow Jones Industrial Average (DJIA) as a whole. Holistic Fundamental and Technical data is provided training ready for Model learning and deployment. The data generated could be used for Incremental online learning with real-time data points retrieved daily, since there was no stagnant data utilized, all the data was retired from APIs or self-designed scripts. Moreover, the utilization of Spearman's rank correlation over real-time data, linking stock returns with sentiment analysis has produced noteworthy results for the DJIA achieving accuracy levels surpassing 60\%. The dataset is made available at https://github.com/batking24/Huge-Stock-Dataset
翻訳日:2023-12-06 18:45:55 公開日:2023-12-05
# テキストガイド画像分類器のハードウェアレジリエンス特性

Hardware Resilience Properties of Text-Guided Image Classifiers ( http://arxiv.org/abs/2311.14062v2 )

ライセンス: Link先を確認
Syed Talal Wasim, Kabila Haile Soboka, Abdulrahman Mahmoud, Salman Khan, David Brooks, Gu-Yeon Wei(参考訳) 本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。 GPT-3から派生したリッチテキスト埋め込みをクラスごとの質問プロンプトとCLIP事前訓練テキストエンコーダを用いて,分類層の初期化としての影響を検討する。 我々のアプローチは、ベースラインのpytorchモデルと比較して最小の精度低下 (0.3\%$) で、最重要層内の様々なアーキテクチャで、ハードウェアの信頼性(最大14\times$)が5.5\times$で向上する。 さらに,任意の画像分類バックボーンとシームレスに統合し,様々なネットワークアーキテクチャにまたがる結果を表示し,パラメータとフラップのオーバーヘッドを低減し,一貫したトレーニングレシピに従う。 この研究は、ハードウェア障害に対する画像分類モデルのロバスト性を強化するための、実用的で効率的なソリューションを提供する。 私たちのコードとモデルはhttps://github.com/talalwasim/textguidedresilienceでリリースしています。

This paper presents a novel method to enhance the reliability of image classification models during deployment in the face of transient hardware errors. By utilizing enriched text embeddings derived from GPT-3 with question prompts per class and CLIP pretrained text encoder, we investigate their impact as an initialization for the classification layer. Our approach achieves a remarkable $5.5\times$ average increase in hardware reliability (and up to $14\times$) across various architectures in the most critical layer, with minimal accuracy drop ($0.3\%$ on average) compared to baseline PyTorch models. Furthermore, our method seamlessly integrates with any image classification backbone, showcases results across various network architectures, decreases parameter and FLOPs overhead, and follows a consistent training recipe. This research offers a practical and efficient solution to bolster the robustness of image classification models against hardware failures, with potential implications for future studies in this domain. Our code and models are released at https://github.com/TalalWasim/TextGuidedResilience.
翻訳日:2023-12-06 18:44:58 公開日:2023-12-05
# 因果推論と対策強化による放射線学報告の再考

Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation ( http://arxiv.org/abs/2311.13307v2 )

ライセンス: Link先を確認
Xiao Song, Jiafan Liu, Yun Li, Wenbin Lei, Ruxin Wang(参考訳) radiology report generation (rrg) は視覚と言語間の相互作用として注目を集めている。 以前の著作は、レポートとして高い一貫性を持つ段落を生成するために、視覚から言語への生成タスクのイデオロギーを継承した。 しかし、病気間の独立性であるRRGの特徴の1つは無視され、バックドアパスを通じて結果に影響を与える共同創設者として病気の共起が注入された。 残念ながら、この共同設立者はRRGデータの偏りのためにレポート生成が悪化するプロセスを混乱させる。 本稿では,この問題を徹底的に再考するため,統計学と因果学の新しい視点からその原因と効果を推察し,共同視覚結合と条件文コヒーレンス結合の2つの側面から,レポートの精度を暗黙的に低下させる。 次に,これら2つのスプリアス効果の側面を破るために,偽サンプル合成と偽レポート再構成サブメソッドを含む偽りの増補戦略を提案する。 広く使われている2つのデータセットに関する実験結果とさらなる分析は、推論と提案手法を正当化する。

Radiology Report Generation (RRG) draws attention as an interaction between vision and language fields. Previous works inherited the ideology of vision-to-language generation tasks,aiming to generate paragraphs with high consistency as reports. However, one unique characteristic of RRG, the independence between diseases, was neglected, leading to the injection of disease co-occurrence as a confounder that effects the results through backdoor path. Unfortunately, this confounder confuses the process of report generation worse because of the biased RRG data distribution. In this paper, to rethink this issue thoroughly, we reason about its causes and effects from a novel perspective of statistics and causality, where the Joint Vision Coupling and the Conditional Sentence Coherence Coupling are two aspects prone to implicitly decrease the accuracy of reports. Then, a counterfactual augmentation strategy that contains the Counterfactual Sample Synthesis and the Counterfactual Report Reconstruction sub-methods is proposed to break these two aspects of spurious effects. Experimental results and further analyses on two widely used datasets justify our reasoning and proposed methods.
翻訳日:2023-12-06 18:44:37 公開日:2023-12-05
# pefa:大規模組込み型検索モデルのためのパラメータフリーアダプタ

PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models ( http://arxiv.org/abs/2312.02429v1 )

ライセンス: Link先を確認
Wei-Cheng Chang, Jyun-Yu Jiang, Jiong Zhang, Mutasem Al-Darabsah, Choon Hui Teo, Cho-Jui Hsieh, Hsiang-Fu Yu, S.V.N. Vishwanathan(参考訳) 埋め込み型検索モデル (ERMs) は, 大規模テキスト検索問題に対して, 強力な大規模言語モデルによる将来的なフレームワークとして登場した。 それでも、最先端の成果に達するための微調整のERMは、データの極端なスケールと多段パイプライン(例えば、事前訓練、微調整、蒸留)の複雑さのために高価である。 そこで本研究では,ermの高速チューニングのためのパラメータフリーアダプタであるpefaフレームワークを提案する。 インデックス構築段階では、PEFAはERMに非パラメトリックk-アネレスト隣人(kNN)成分を装備する。 推論段階でPEFAは、ERMとkNNの2つのスコアリング関数の凸結合を行う。 PEFAフレームワークは、近傍の定義に基づいて、二重ANNインデックスを使用したPEFA-XL(英: PEFA-XL)と単一ANNインデックスを使用したPEFA-XS(英: extra small)の2つの実現を誘導する。 実証的に、PEFAは2つの検索アプリケーションで大幅に改善されている。 Recall@100メトリックに関する文書検索では、PEFAはTrivia-QAで事前訓練されたERMを平均13.2%改善するだけでなく、NQ-320Kで微調整されたERMを平均5.5%改善する。 製品検索では、PEFA-XSとPEFA-XLはそれぞれ5.3%と14.5%の細調整EMMのRecall@100を改善している。 私たちのコードはhttps://github.com/ amzn/pecos/tree/mainline/examples/pefa-wsdm24で利用可能です。

Embedding-based Retrieval Models (ERMs) have emerged as a promising framework for large-scale text retrieval problems due to powerful large language models. Nevertheless, fine-tuning ERMs to reach state-of-the-art results can be expensive due to the extreme scale of data as well as the complexity of multi-stages pipelines (e.g., pre-training, fine-tuning, distillation). In this work, we propose the PEFA framework, namely ParamEter-Free Adapters, for fast tuning of ERMs without any backward pass in the optimization. At index building stage, PEFA equips the ERM with a non-parametric k-nearest neighbor (kNN) component. At inference stage, PEFA performs a convex combination of two scoring functions, one from the ERM and the other from the kNN. Based on the neighborhood definition, PEFA framework induces two realizations, namely PEFA-XL (i.e., extra large) using double ANN indices and PEFA-XS (i.e., extra small) using a single ANN index. Empirically, PEFA achieves significant improvement on two retrieval applications. For document retrieval, regarding Recall@100 metric, PEFA improves not only pre-trained ERMs on Trivia-QA by an average of 13.2%, but also fine-tuned ERMs on NQ-320K by an average of 5.5%, respectively. For product search, PEFA improves the Recall@100 of the fine-tuned ERMs by an average of 5.3% and 14.5%, for PEFA-XS and PEFA-XL, respectively. Our code is available at https://github.com/ amzn/pecos/tree/mainline/examples/pefa-wsdm24
翻訳日:2023-12-06 17:19:09 公開日:2023-12-05
# FreestyleRet:スタイルの異なるクエリから画像を取得する

FreestyleRet: Retrieving Images from Style-Diversified Queries ( http://arxiv.org/abs/2312.02428v1 )

ライセンス: Link先を確認
Hao Li, Curise Jia, Peng Jin, Zesen Cheng, Kehan Li, Jialu Sui, Chang Liu, Li Yuan(参考訳) Image Retrievalは、所定のクエリに基づいて対応するイメージを取得することを目的としている。 アプリケーションシナリオでは、ユーザは様々なクエリスタイルで検索意図を表現する。 しかし、現在の検索タスクは、主にテキスト検索検索の探索に焦点を当てており、検索クエリオプションの制限と、ユーザの意図におけるあいまいさやバイアスの可能性を生んでいる。 本稿では,様々なクエリスタイルに基づいた検索が可能なスタイル分散クエリベース画像検索タスクを提案する。 そこで本研究では,テキスト,スケッチ,低解像度,アートなどの多様な問合せスタイルを包含する,最初の多彩な検索データセットを提案する。 また,軽量なスタイル分散検索フレームワークを提案する。 様々なクエリスタイル入力に対して、gramマトリックスを適用してクエリのテキスト特徴を抽出し、スタイル固有のベースを持つスタイル空間にクラスタ化する。 次に,ビジュアルエンコーダがクエリのテクスチャやスタイル情報を理解できるように,スタイルイントプロンプトチューニングモジュールを使用する。 実験により,本モデルでは,スタイルインシプリタ・インシプリタ・チューニング・ストラテジーを用いて,既存の検索モデルよりも高い性能を示した。 さらに、このモデルでは、スタイルの異なるクエリ~(sketch+text、art+textなど)を同時に検索できます。 他のクエリからの補助情報により、各クエリ内の検索性能が向上する。

Image Retrieval aims to retrieve corresponding images based on a given query. In application scenarios, users intend to express their retrieval intent through various query styles. However, current retrieval tasks predominantly focus on text-query retrieval exploration, leading to limited retrieval query options and potential ambiguity or bias in user intention. In this paper, we propose the Style-Diversified Query-Based Image Retrieval task, which enables retrieval based on various query styles. To facilitate the novel setting, we propose the first Diverse-Style Retrieval dataset, encompassing diverse query styles including text, sketch, low-resolution, and art. We also propose a light-weighted style-diversified retrieval framework. For various query style inputs, we apply the Gram Matrix to extract the query's textural features and cluster them into a style space with style-specific bases. Then we employ the style-init prompt tuning module to enable the visual encoder to comprehend the texture and style information of the query. Experiments demonstrate that our model, employing the style-init prompt tuning strategy, outperforms existing retrieval models on the style-diversified retrieval task. Moreover, style-diversified queries~(sketch+text, art+text, etc) can be simultaneously retrieved in our model. The auxiliary information from other queries enhances the retrieval performance within the respective query.
翻訳日:2023-12-06 17:17:45 公開日:2023-12-05
# $\mathcal{pt}$-symmetrical quantum system における例外点:散乱行列によるアプローチ

Exceptional Points in a $\mathcal{PT}$-symmetrical quantum system: a Scattering matrix approach ( http://arxiv.org/abs/2312.02423v1 )

ライセンス: Link先を確認
J. Col\'in-G\'alvez, E. Casta\~no, G. B\'aez and V. Dom\'inguez-Rocha(参考訳) 非エルミート開1次元量子系の挙動をParity-Time(\mathcal{PT}$)対称性で解析する。 このシステムは、パラメータ$\gamma$で記述された利得と損失のバランスをとるdimerによって構築される。 自然に分離された系共鳴は、$\gamma$の変化により、例外点 (EP) で合体する。 透過スペクトルは散乱行列(英語版)(s$ matrix)の形式化によって決定され、共振に対応する波動関数を$\gamma$の関数として検討する。 具体的には、例外点の前後におけるS行列の位相の挙動と分布を求める。

We analyze the behavior of a non-Hermitian opened one-dimensional quantum system with Parity-Time ($\mathcal{PT}$) symmetry. This system is built by a dimer, which has balanced gains and losses described by a parameter $\gamma$. By varying $\gamma$ the system resonances, which are naturally separated, coalesce at the exceptional point (EP). The transmission spectrum is obteined by means of the scattering matrix ($S$ matrix) formalism and we examine the wave functions corresponding to the resonances as a function of $\gamma$. Specifically, we look for the behavior and distribution of the phases of the S matrix before, at and after the exceptional point.
翻訳日:2023-12-06 17:16:59 公開日:2023-12-05
# 粒度調整型画素レベルの意味アノテーションに向けて

Towards Granularity-adjusted Pixel-level Semantic Annotation ( http://arxiv.org/abs/2312.02420v1 )

ライセンス: Link先を確認
Rohit Kundu, Sudipta Paul, Rohit Lal and Amit K. Roy-Chowdhury(参考訳) 近年のコンピュータビジョンの進歩は、主に学習ベースのシステムに依存しており、アノテーションを特殊なモデルを開発する原動力として活用している。 しかしながら、ピクセルレベルの情報をアノテートすることは、特に意味セグメンテーションにおいて、困難で労働集約的なタスクであり、自律的なプロセスの必要性を生じさせる。 本研究では,非ラベルデータに対するユーザ定義の粒度レベルでの意味セグメンテーションを,手作業による監督を必要とせずに提供し,セマンティックマスクアノテーション法におけるユニークな貢献を提供するグランサムを提案する。 具体的には,Segment Anything Model(SAM)を意味認識機能付きで実現し,手動による監督なしに画像のピクセルレベルのアノテーションを生成するアプローチを提案する。 そこで我々は,安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積し,このデータを用いてSAMマスク埋め込みとオブジェクトクラスラベルのマッピング関数を学習する。 結果として、粒度調整マスク認識で使用可能なsamは、ピクセルレベルの意味的アノテーション目的に使用できる。 PASCAL VOC 2012 と COCO-80 のデータセットを用いて実験を行い,mIoU の約 17.95% と +5.17% の増加を観測した。

Recent advancements in computer vision predominantly rely on learning-based systems, leveraging annotations as the driving force to develop specialized models. However, annotating pixel-level information, particularly in semantic segmentation, presents a challenging and labor-intensive task, prompting the need for autonomous processes. In this work, we propose GranSAM which distinguishes itself by providing semantic segmentation at the user-defined granularity level on unlabeled data without the need for any manual supervision, offering a unique contribution in the realm of semantic mask annotation method. Specifically, we propose an approach to enable the Segment Anything Model (SAM) with semantic recognition capability to generate pixel-level annotations for images without any manual supervision. For this, we accumulate semantic information from synthetic images generated by the Stable Diffusion model or web crawled images and employ this data to learn a mapping function between SAM mask embeddings and object class labels. As a result, SAM, enabled with granularity-adjusted mask recognition, can be used for pixel-level semantic annotation purposes. We conducted experiments on the PASCAL VOC 2012 and COCO-80 datasets and observed a +17.95% and +5.17% increase in mIoU, respectively, compared to existing state-of-the-art methods when evaluated under our problem setting.
翻訳日:2023-12-06 17:16:48 公開日:2023-12-05
# 合成崩壊によるデータ品質のデコード:コードデータの埋め込み誘導プルーニング

Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data ( http://arxiv.org/abs/2312.02418v1 )

ライセンス: Link先を確認
Yu Yang, Aaditya K. Singh, Mostafa Elhoushi, Anas Mahmoud, Kushal Tirumala, Fabian Gloeckle, Baptiste Rozi\`ere, Carole-Jean Wu, Ari S. Morcos, Newsha Ardalani(参考訳) githubのような多様で制御されていないソースから収集されるコードデータセットは品質の問題に直面する可能性があり、コード生成に最適化された大規模言語モデル(llm)のパフォーマンスとトレーニング効率に影響を与える。 従来の研究では、埋め込み空間をデータプルーニングに利用することの利点が示されていたが、主に重複除去や多様性の増加、画像などの他のモダリティに焦点を当てていた。 コードデータの識別と削除に組込みを使うことに重点を置いています。 まず,合成腐敗を利用した組込み空間における"低品質"コードの特徴について検討する。 この知識を活かして、スタックデータセットの低品質エントリを識別し削除するために、埋め込みスペースで動作する新しい刈り取りメトリクスを考案します。 我々は,この合成汚職情報処理(SCIP)アプローチの,確立されたHumanEvalおよびMBPPベンチマークに対する利点を実証し,既存の埋め込み方式よりも優れていることを示す。 重要なことは, 刈り取りをせずに最大3%の性能向上を実現し, データ刈り込みにおける合成汚職からの洞察の約束を示すことである。

Code datasets, often collected from diverse and uncontrolled sources such as GitHub, potentially suffer from quality issues, thereby affecting the performance and training efficiency of Large Language Models (LLMs) optimized for code generation. Previous studies demonstrated the benefit of using embedding spaces for data pruning, but they mainly focused on duplicate removal or increasing variety, and in other modalities, such as images. Our work focuses on using embeddings to identify and remove "low-quality" code data. First, we explore features of "low-quality" code in embedding space, through the use of synthetic corruptions. Armed with this knowledge, we devise novel pruning metrics that operate in embedding space to identify and remove low-quality entries in the Stack dataset. We demonstrate the benefits of this synthetic corruption informed pruning (SCIP) approach on the well-established HumanEval and MBPP benchmarks, outperforming existing embedding-based methods. Importantly, we achieve up to a 3% performance improvement over no pruning, thereby showing the promise of insights from synthetic corruptions for data pruning.
翻訳日:2023-12-06 17:16:17 公開日:2023-12-05
# ヘテロスケダス性変種による近距離平均推定

Near-Optimal Mean Estimation with Unknown, Heteroskedastic Variances ( http://arxiv.org/abs/2312.02417v1 )

ライセンス: Link先を確認
Spencer Compton, Gregory Valiant(参考訳) 共通平均を持つガウス変数の集合から引き出されたデータについて、その共通平均を推定するのに最適なアルゴリズムは何か。 我々はこの課題に対して直感的かつ効率的なアルゴリズムを提案する。 異なるクローズドフォーム保証を比較するのが難しいため、Subset-of-Signalsモデルはヘテロスケダスティック平均推定のベンチマークとして機能する:$n$ Gaussian変数の未知のサブセットを持つ$m$変数が1で制限されている場合、$n$と$m$の関数として最適な推定誤差は何か? 我々のアルゴリズムは、このオープンな問題を対数的因子まで解決し、すべての$0<c<1$に対して$m = n^c$となるときの多項式因子による既知推定誤差を改善する。 特に、エラー$o(1)$ with $m = \tilde{O}(n^{1/4})$ variance-bounded sample を得るのに対して、以前の作業では $m = \tilde{\Omega}(n^{1/2})$ が必要であった。 最後に、d=2$の多次元設定において、我々の手法は各サンプルの分散を知るのに匹敵する速度を実現できることを示す。

Given data drawn from a collection of Gaussian variables with a common mean but different and unknown variances, what is the best algorithm for estimating their common mean? We present an intuitive and efficient algorithm for this task. As different closed-form guarantees can be hard to compare, the Subset-of-Signals model serves as a benchmark for heteroskedastic mean estimation: given $n$ Gaussian variables with an unknown subset of $m$ variables having variance bounded by 1, what is the optimal estimation error as a function of $n$ and $m$? Our algorithm resolves this open question up to logarithmic factors, improving upon the previous best known estimation error by polynomial factors when $m = n^c$ for all $0<c<1$. Of particular note, we obtain error $o(1)$ with $m = \tilde{O}(n^{1/4})$ variance-bounded samples, whereas previous work required $m = \tilde{\Omega}(n^{1/2})$. Finally, we show that in the multi-dimensional setting, even for $d=2$, our techniques enable rates comparable to knowing the variance of each sample.
翻訳日:2023-12-06 17:15:56 公開日:2023-12-05
# 高速かつ安定的なフェデレーションラーニングを目指して:知識アンカーによる異種性の克服

Towards Fast and Stable Federated Learning: Confronting Heterogeneity via Knowledge Anchor ( http://arxiv.org/abs/2312.02416v1 )

ライセンス: Link先を確認
Jinqian Chen, Jihua Zhu, Qinghai Zheng(参考訳) フェデレーション学習は、データ不均一性において重要な課題に直面し、フェデレーションモデルの性能と収束に悪影響を及ぼす。 この問題に対処するための様々なアプローチが提案されているが、その効果はまだ限られている。 近年の研究では、フェデレートモデルが局所訓練において深刻な忘れ込みに悩まされ、グローバルな忘れ込みと性能低下につながっていることが明らかになった。 分析は貴重な洞察を提供するが、脆弱なクラスとその影響要因に関する包括的理解はまだ確立されていない。 本稿では,異なるコミュニケーションラウンドをまたがるローカルトレーニングにおいて,各クラスの忘れやすさを体系的に分析することで,このギャップを埋めることを目的とする。 1) 障害クラスと非支配クラスは, 地域訓練中にも同様に忘れられ, 支配クラスは成績が向上した。 2) 優占集団のサンプルサイズを動的に減少させると,そのサンプルの割合が一定の閾値以下である場合,破滅的忘れが突然発生し,局所モデルが特定の集団のサンプルを効果的に活用するのに苦労していることを示す。 これらの知見に動機づけられ,federated knowledge anchor (fedka) と呼ばれる新しい素直なアルゴリズムを提案する。 すべてのクライアントが各クラスに対して単一の共有サンプルを持っていると仮定すると、知識アンカーは、不足するクラスの共有サンプルを抽出し、非支配クラスのクラス毎に1つのサンプルをランダムに選択することで、各ローカルトレーニングステージの前に構築される。 知識アンカーは、不足クラスと非支配クラスの知識を保存する方向への各ミニバッチの勾配を補正するために使用される。 その結果,提案したFedKAは高速かつ安定な収束を実現し,ベンチマークの精度を大幅に向上した。

Federated learning encounters a critical challenge of data heterogeneity, adversely affecting the performance and convergence of the federated model. Various approaches have been proposed to address this issue, yet their effectiveness is still limited. Recent studies have revealed that the federated model suffers severe forgetting in local training, leading to global forgetting and performance degradation. Although the analysis provides valuable insights, a comprehensive understanding of the vulnerable classes and their impact factors is yet to be established. In this paper, we aim to bridge this gap by systematically analyzing the forgetting degree of each class during local training across different communication rounds. Our observations are: (1) Both missing and non-dominant classes suffer similar severe forgetting during local training, while dominant classes show improvement in performance. (2) When dynamically reducing the sample size of a dominant class, catastrophic forgetting occurs abruptly when the proportion of its samples is below a certain threshold, indicating that the local model struggles to leverage a few samples of a specific class effectively to prevent forgetting. Motivated by these findings, we propose a novel and straightforward algorithm called Federated Knowledge Anchor (FedKA). Assuming that all clients have a single shared sample for each class, the knowledge anchor is constructed before each local training stage by extracting shared samples for missing classes and randomly selecting one sample per class for non-dominant classes. The knowledge anchor is then utilized to correct the gradient of each mini-batch towards the direction of preserving the knowledge of the missing and non-dominant classes. Extensive experimental results demonstrate that our proposed FedKA achieves fast and stable convergence, significantly improving accuracy on popular benchmarks.
翻訳日:2023-12-06 17:15:31 公開日:2023-12-05
# MGTR:LiDARを用いた動き予測用多角形変圧器

MGTR: Multi-Granular Transformer for Motion Prediction with LiDAR ( http://arxiv.org/abs/2312.02409v1 )

ライセンス: Link先を確認
Yiqian Gan, Hao Xiao, Yizhe Zhao, Ethan Zhang, Zhe Huang, Xin Ye, Lingting Ge(参考訳) 動き予測は、異なる種類の移動エージェントを含む非常に不確実で複雑なシナリオを扱うため、自動運転システムにおいて不可欠な要素である。 本稿では,多言語TRansformer(MGTR)フレームワークを提案する。これは,異なる種類のトラフィックエージェントに対して,異なる粒度のコンテキスト特徴を利用するエンコーダデコーダネットワークである。 MGTRの機能をさらに強化するために,既製のLiDAR特徴抽出器からLiDAR意味機能を組み込むことで,LiDARポイントクラウドデータを活用する。 waymo open dataset motion prediction benchmark 上で mgtr を評価し,提案手法が最先端性能を達成し,そのリーダボードでは1位となった(https://waymo.com/open/challenges/2023/motion-prediction/)。

Motion prediction has been an essential component of autonomous driving systems since it handles highly uncertain and complex scenarios involving moving agents of different types. In this paper, we propose a Multi-Granular TRansformer (MGTR) framework, an encoder-decoder network that exploits context features in different granularities for different kinds of traffic agents. To further enhance MGTR's capabilities, we leverage LiDAR point cloud data by incorporating LiDAR semantic features from an off-the-shelf LiDAR feature extractor. We evaluate MGTR on Waymo Open Dataset motion prediction benchmark and show that the proposed method achieved state-of-the-art performance, ranking 1st on its leaderboard (https://waymo.com/open/challenges/2023/motion-prediction/).
翻訳日:2023-12-06 17:14:58 公開日:2023-12-05
# 超次元計算によるロバストクラスタリング

Robust Clustering using Hyperdimensional Computing ( http://arxiv.org/abs/2312.02407v1 )

ライセンス: Link先を確認
Lulu Ge, Keshab K. Parhi(参考訳) 本稿では,超次元コンピューティング(hdc)領域におけるデータのクラスタリングについて述べる。 以前の作業では、hdclusterと呼ばれるhdcベースのクラスタリングフレームワークが提案されている。 しかし、既存のhdクラスタのパフォーマンスは堅牢ではない。 HDClusterの性能は、初期化ステップ中にクラスタのハイパーベクターがランダムに選択されるため劣化する。 このボトルネックを克服するために、エンコードされたデータの類似性を調べることによって、初期クラスタハイパーベクトルを割り当てる。 クラスタ内ハイパーベクターはクラスタ間ハイパーベクターよりも高い類似性を有する。 本稿では,クエリハイパーベクトル間の類似性を利用して,類似度に基づくk-means,等しいbin-widthヒストグラム,等しいbin-heightヒストグラム,類似度に基づく親和性伝播の4つのクラスタリングアルゴリズムを提案する。 実験結果はこう示しています i) 既存のHDClusterと比較して,提案したHDCベースのクラスタリングアルゴリズムは,精度の向上,堅牢性の向上,イテレーションの削減,実行時間の短縮を実現している。 類似性に基づく親和性伝播は、他の3つのHDCベースのクラスタリングアルゴリズムを8つのデータセットで2~38%精度で上回る。 (ii) クラスタハイパーベクタの反復的な更新を行わない一パスクラスタリングにおいても,提案アルゴリズムはHDClusterよりもロバストなクラスタリング精度を提供できる。 (iii)8つのデータセットのうち5つは、超次元空間に投影されたときに高い精度または同等の精度を達成することができる。 クラスタ数が$k$である場合、従来のクラスタリングの方がHDCよりも望ましい。

This paper addresses the clustering of data in the hyperdimensional computing (HDC) domain. In prior work, an HDC-based clustering framework, referred to as HDCluster, has been proposed. However, the performance of the existing HDCluster is not robust. The performance of HDCluster is degraded as the hypervectors for the clusters are chosen at random during the initialization step. To overcome this bottleneck, we assign the initial cluster hypervectors by exploring the similarity of the encoded data, referred to as \textit{query} hypervectors. Intra-cluster hypervectors have a higher similarity than inter-cluster hypervectors. Harnessing the similarity results among query hypervectors, this paper proposes four HDC-based clustering algorithms: similarity-based k-means, equal bin-width histogram, equal bin-height histogram, and similarity-based affinity propagation. Experimental results illustrate that: (i) Compared to the existing HDCluster, our proposed HDC-based clustering algorithms can achieve better accuracy, more robust performance, fewer iterations, and less execution time. Similarity-based affinity propagation outperforms the other three HDC-based clustering algorithms on eight datasets by 2~38% in clustering accuracy. (ii) Even for one-pass clustering, i.e., without any iterative update of the cluster hypervectors, our proposed algorithms can provide more robust clustering accuracy than HDCluster. (iii) Over eight datasets, five out of eight can achieve higher or comparable accuracy when projected onto the hyperdimensional space. Traditional clustering is more desirable than HDC when the number of clusters, $k$, is large.
翻訳日:2023-12-06 17:14:40 公開日:2023-12-05
# 言語モデル事前学習のための効率的なオンラインデータ混合

Efficient Online Data Mixing For Language Model Pre-Training ( http://arxiv.org/abs/2312.02406v1 )

ライセンス: Link先を確認
Alon Albalak and Liangming Pan and Colin Raffel and William Yang Wang(参考訳) 大規模言語モデルの事前トレーニングに使用されるデータは、モデル下流のパフォーマンスに決定的な影響を与え、事前トレーニングに使用する最も適切なデータを自動的に決定することを目的とした、データ選択方法に関する膨大な作業につながった。 既存のデータ選択手法は、モデルのサイズの増加とデータセットの事前トレーニングによって増幅される、低速で計算コストの高いプロセスに苦しむ。 一方、データ混合はデータポイントをグループ化し、グループ全体のサンプリング確率を決定することで、データ選択の複雑さを低減している。 しかしながら、データ混合比率はトレーニング前に固定されるため、トレーニングダイナミクスの変化に対応できない。 これらの制約に対処するために,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。 マルチアームバンディットアルゴリズムに基づくオンラインアプローチでは,トレーニング中のデータ混合比率を最適化する。 また,本手法では,1.9%の精度で5ショットMMLUベンチマークの性能を向上し,事前トレーニング中に壁面時間を追加することで,次のベストメソッドの難易度に達するモデルを訓練する。

The data used to pretrain large language models has a decisive impact on a model's downstream performance, which has led to a large body of work on data selection methods that aim to automatically determine the most suitable data to use for pretraining. Existing data selection methods suffer from slow and computationally expensive processes, a problem amplified by the increasing size of models and of pretraining datasets. Data mixing, on the other hand, reduces the complexity of data selection by grouping data points together and determining sampling probabilities across entire groups. However, data mixing proportions are typically fixed before training and therefore cannot adapt to changing training dynamics. To address these limitations, we develop an efficient algorithm for Online Data Mixing (ODM) that combines elements from both data selection and data mixing. Based on multi-armed bandit algorithms, our online approach optimizes the data mixing proportions during training. Remarkably, our method trains a model that reaches the final perplexity of the next best method with 19\% fewer training iterations, and improves performance on the 5-shot MMLU benchmark by 1.9% relative accuracy, while adding negligible wall-clock time during pretraining.
翻訳日:2023-12-06 17:14:15 公開日:2023-12-05
# BEDD:ファジィタスクを解く訓練・ベンチマークエージェントのためのMineRL BASALT評価と実証データセット

BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for Training and Benchmarking Agents that Solve Fuzzy Tasks ( http://arxiv.org/abs/2312.02405v1 )

ライセンス: Link先を確認
Stephanie Milani, Anssi Kanervisto, Karolis Ramanauskas, Sander Schulhoff, Brandon Houghton, Rohin Shah(参考訳) MineRL BASALTコンペティションは、マインクラフトの4つの難しいタスク(滝の作成や撮影など)を通じて、人間のフィードバックから学習の進歩を触媒する役割を果たしている。 BASALTコンペティションの2年間を振り返って、我々はBASALT Evaluation and Demonstrations Dataset (BEDD) を通じて、アルゴリズム開発と性能評価のリソースとなる公式なベンチマークをコミュニティに提供する。 BEDDは、MinecraftでBASALTタスクを完了した約14,000人のプレイヤーのビデオから、2600万のイメージアクションペアを集めている。 また、3000以上の密集した人間による人間とアルゴリズムのエージェントの評価も含んでいる。 これらの比較は、新しく開発されたアルゴリズムを評価するための固定された予備的なリーダーボードとして機能する。 この比較を可能にするために、新しいアルゴリズムをリーダーボードに対してベンチマークするための合理化されたコードベースを提案する。 これらのデータセットの提示に加えて,両データセットからのデータの詳細な分析を行い,アルゴリズムの開発と評価の指導を行う。 リリースされたコードとデータはhttps://github.com/minerllabs/basalt-benchmarkで入手できる。

The MineRL BASALT competition has served to catalyze advances in learning from human feedback through four hard-to-specify tasks in Minecraft, such as create and photograph a waterfall. Given the completion of two years of BASALT competitions, we offer to the community a formalized benchmark through the BASALT Evaluation and Demonstrations Dataset (BEDD), which serves as a resource for algorithm development and performance assessment. BEDD consists of a collection of 26 million image-action pairs from nearly 14,000 videos of human players completing the BASALT tasks in Minecraft. It also includes over 3,000 dense pairwise human evaluations of human and algorithmic agents. These comparisons serve as a fixed, preliminary leaderboard for evaluating newly-developed algorithms. To enable this comparison, we present a streamlined codebase for benchmarking new algorithms against the leaderboard. In addition to presenting these datasets, we conduct a detailed analysis of the data from both datasets to guide algorithm development and evaluation. The released code and data are available at https://github.com/minerllabs/basalt-benchmark .
翻訳日:2023-12-06 17:13:53 公開日:2023-12-05
# グローバル音声の調和:文化性を考慮したコンテンツモデレーションモデル

Harmonizing Global Voices: Culturally-Aware Models for Enhanced Content Moderation ( http://arxiv.org/abs/2312.02401v1 )

ライセンス: Link先を確認
Alex J. Chan, Jos\'e Luis Redondo Garc\'ia, Fabrizio Silvestri, Colm O'Donnel, Konstantina Palla(参考訳) コンテンツモデレーション 規模のコンテンツモデレーションは、コンテンツを評価する際に地域文化の区別を検討するという課題に直面している。 グローバルな政策は意思決定の一貫性を維持し、任意のルール適用を防ぐことを目的としているが、コンテンツで表される自然言語の解釈における地域的バリエーションを見落としていることが多い。 本研究では,局所的理解ニュアンスに適応することで,モデレーションシステムがこの問題にどのように対処できるかを検討する。 メディアニュースや記事の広範なデータセットに基づいて大規模な言語モデルをトレーニングし、文化的に直感的なモデルを作成します。 後者は、攻撃的コンテンツと見なされるものにおける文化的・社会的バリエーションを認識することを目的として、地理間のコミュニケーションのニュアンスを捉えることを目的としている。 さらに、これらのモデルがコンテンツ違反の事例を説明する能力について検討し、文化的・社会的文脈の変化が政策ガイドラインがどのように認識されるかを明らかにすることを目的とする。 その結果,広範囲なメディアデータセットのトレーニングが文化意識の獲得に成功し,地域レベルでのコンテンツ違反処理の改善につながった。 さらに,本研究における注釈者の嗜好が示すように,特定の局所規範やニュアンスに沿う説明を提供する能力も備えている。 この多面的な成功は、それが監督するコンテンツの進化を続ける性質とペースを維持するために、適応可能なコンテンツモデレーションアプローチの重要な役割を強化する。

Content moderation at scale faces the challenge of considering local cultural distinctions when assessing content. While global policies aim to maintain decision-making consistency and prevent arbitrary rule enforcement, they often overlook regional variations in interpreting natural language as expressed in content. In this study, we are looking into how moderation systems can tackle this issue by adapting to local comprehension nuances. We train large language models on extensive datasets of media news and articles to create culturally attuned models. The latter aim to capture the nuances of communication across geographies with the goal of recognizing cultural and societal variations in what is considered offensive content. We further explore the capability of these models to generate explanations for instances of content violation, aiming to shed light on how policy guidelines are perceived when cultural and societal contexts change. We find that training on extensive media datasets successfully induced cultural awareness and resulted in improvements in handling content violations on a regional basis. Additionally, these advancements include the ability to provide explanations that align with the specific local norms and nuances as evidenced by the annotators' preference in our conducted study. This multifaceted success reinforces the critical role of an adaptable content moderation approach in keeping pace with the ever-evolving nature of the content it oversees.
翻訳日:2023-12-06 17:13:34 公開日:2023-12-05
# 自動DP-SGD:自動クリッピング閾値とノイズ乗算器推定によるプライバシーと精度の二重改善

Auto DP-SGD: Dual Improvements of Privacy and Accuracy via Automatic Clipping Threshold and Noise Multiplier Estimation ( http://arxiv.org/abs/2312.02400v1 )

ライセンス: Link先を確認
Sai Venkatesh Chilukoti, Md Imran Hossen, Liqun Shan, Vijay Srinivas Tida, and Xiai Hei(参考訳) DP-SGDは、ディープラーニングアプリケーションにおける個人識別情報を保護する一般的な方法として登場した。 残念なことに、DP-SGDのサンプル毎勾配クリッピングとトレーニング中の均一ノイズ付加は、モデルの有用性を著しく低下させる可能性がある。 モデルの有用性を高めるために、研究者は様々な適応DP-SGD法を提案した。 しかし、これらの手法が従来のDP-SGD法よりも高いプライバシー漏洩や低い精度をもたらすか、CIFAR100のような複雑なデータセットに対する評価の欠如を検証し、発見する。 これらの制約に対処するため,Auto DP-SGDを提案する。 本手法は,DLモデルの勾配基準に基づくクリッピング閾値推定を自動化し,勾配情報を失うことなく各トレーニングサンプルの勾配をスケールする。 これにより、プライバシー予算を減らしながらアルゴリズムの実用性を向上させることができる。 さらに精度を向上させるため、各エポック後のノイズ乗算器の減衰を低減させる自動ノイズ乗算器崩壊機構を導入する。 最後に、自動ノイズ乗算器と自動クリッピング閾値推定のためのtCDP会計士を用いた閉形式数式を開発した。 広範な実験を通じて、Auto DP-SGDは、様々なベンチマークデータセットのプライバシーと精度において、既存のSOTA DP-SGDメソッドよりも優れていることを示す。 また,精度を著しく低下させることなく,スケールファクタを低減し,学習率スケジューラを使用することで,プライバシを向上できることを示す。 具体的には、ステップノイズ乗算器で使用する場合、mnist, cifar10, cifar100, agニュースコーパスデータセットの精度を3.20, 1.57, 6.73, 1.42向上させる。 さらに、対応するデータセットに対して、94.9、79.16、67.36、53.37のプライバシー予算を大幅に削減する。

DP-SGD has emerged as a popular method to protect personally identifiable information in deep learning applications. Unfortunately, DP-SGD's per-sample gradient clipping and uniform noise addition during training can significantly degrade model utility. To enhance the model's utility, researchers proposed various adaptive DP-SGD methods. However, we examine and discover that these techniques result in greater privacy leakage or lower accuracy than the traditional DP-SGD method, or a lack of evaluation on a complex data set such as CIFAR100. To address these limitations, we propose an Auto DP-SGD. Our method automates clipping threshold estimation based on the DL model's gradient norm and scales the gradients of each training sample without losing gradient information. This helps to improve the algorithm's utility while using a less privacy budget. To further improve accuracy, we introduce automatic noise multiplier decay mechanisms to decrease the noise multiplier after every epoch. Finally, we develop closed-form mathematical expressions using tCDP accountant for automatic noise multiplier and automatic clipping threshold estimation. Through extensive experimentation, we demonstrate that Auto DP-SGD outperforms existing SOTA DP-SGD methods in privacy and accuracy on various benchmark datasets. We also show that privacy can be improved by lowering the scale factor and using learning rate schedulers without significantly reducing accuracy. Specifically, Auto DP-SGD, when used with a step noise multiplier, improves accuracy by 3.20, 1.57, 6.73, and 1.42 for the MNIST, CIFAR10, CIFAR100, and AG News Corpus datasets, respectively. Furthermore, it obtains a substantial reduction in the privacy budget of 94.9, 79.16, 67.36, and 53.37 for the corresponding data sets.
翻訳日:2023-12-06 17:13:10 公開日:2023-12-05
# etc: 時間境界拡大によるマルチモーダル大言語モデルによる弱教師付きビデオグラウンドの明確化

EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model ( http://arxiv.org/abs/2312.02483v1 )

ライセンス: Link先を確認
Guozhang Li, Xinpeng Ding, De Cheng, Jie Li, Nannan Wang and Xinbo Gao(参考訳) 初期の弱い教師付きビデオグラウンドディング(WSVG)法は、時間境界アノテーションがないために不完全な境界検出に苦慮することが多い。 ビデオレベルのアノテーションと境界レベルのアノテーションのギャップを埋めるために、トレーニングのための擬似時間境界を生成する明示的なスーパービジョン手法は大きな成功を収めた。 しかし、これらの手法におけるデータ拡張は、重要な時間的情報を妨害し、擬似境界が貧弱になる可能性がある。 本稿では,不完全な境界を広げるためのより貴重な情報を導入しながら,元の時間的コンテンツの完全性を維持する新たな視点を提案する。 この目的のためにEtC(Expand then Clarify)を提案し、まず追加情報を用いて初期不完全な擬似境界を拡張し、その後、拡張された境界を洗練して正確な境界を達成する。 ビデオの連続性、すなわち、隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームに注釈を付けるために強力なマルチモーダル大言語モデル(MLLM)を使用する。 拡張境界の雑音をより明確にするために、我々は相互学習と、学習可能なアプローチを用いて、不完全でクリーンな(初期)境界と包括的でノイズの多い(拡張)境界とのバランスをより正確なものに調和させる。 2つの挑戦的なWSVGデータセットに対して,本手法の優位性を示す実験を行った。

Early weakly supervised video grounding (WSVG) methods often struggle with incomplete boundary detection due to the absence of temporal boundary annotations. To bridge the gap between video-level and boundary-level annotation, explicit-supervision methods, i.e., generating pseudo-temporal boundaries for training, have achieved great success. However, data augmentations in these methods might disrupt critical temporal information, yielding poor pseudo boundaries. In this paper, we propose a new perspective that maintains the integrity of the original temporal content while introducing more valuable information for expanding the incomplete boundaries. To this end, we propose EtC (Expand then Clarify), first use the additional information to expand the initial incomplete pseudo boundaries, and subsequently refine these expanded ones to achieve precise boundaries. Motivated by video continuity, i.e., visual similarity across adjacent frames, we use powerful multimodal large language models (MLLMs) to annotate each frame within initial pseudo boundaries, yielding more comprehensive descriptions for expanded boundaries. To further clarify the noise of expanded boundaries, we combine mutual learning with a tailored proposal-level contrastive objective to use a learnable approach to harmonize a balance between incomplete yet clean (initial) and comprehensive yet noisy (expanded) boundaries for more precise ones. Experiments demonstrate the superiority of our method on two challenging WSVG datasets.
翻訳日:2023-12-06 17:05:20 公開日:2023-12-05
# マイクロキャビティ光子による励起子絡み込み

Entangling Excitons with Microcavity Photons ( http://arxiv.org/abs/2312.02453v1 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Jie Li(参考訳) マイクロキャビティ光子で励起子を絡めるシステム理論を提供する。 これは、エキシトン-オプトメカニクスシステムを採用し、機械発振器と非線形分散相互作用を導入することで実現される。 弱結合系におけるエキシトンモードとキャビティモードと、強結合系における2つのエキシトン-ポラリトンモードが、それぞれオプトメカニカルストークスとアンチストークスサイドバンドに共振している場合、エキシトンとキャビティ光子間の絡み合い、または2つのエキシトン偏光子を分離できることを示す。 絡み合いは安定した状態にあり、室温で達成できる可能性がある。 どちらの場合も、真の三分儀の絡み合いが存在することが示されている。

We provide a systemic theory to entangle excitons with microcavity photons. This is realized by adopting an exciton-optomechanics system and introducing a nonlinear dispersive interaction with a mechanical oscillator. We show that when either the exciton and cavity modes in the weak-coupling regime, or the two exciton-polariton modes in the strong-coupling regime, are respectively resonant with the optomechanical Stokes and anti-Stokes sidebands, entanglement between excitons and cavity photons, or between two exciton polaritons, can be established. The entanglement is in the steady state and can potentially be achievable at room temperature. In both cases, genuine tripartite entanglement is shown to be present.
翻訳日:2023-12-06 17:04:54 公開日:2023-12-05
# 量子ニューラルタンジェントカーネルの収束限界の評価

Evaluating the Convergence Limit of Quantum Neural Tangent Kernel ( http://arxiv.org/abs/2312.02451v1 )

ライセンス: Link先を確認
Trong Duong(参考訳) 量子変分アルゴリズムは、現在の量子デバイスを用いた量子コンピューティングの主要な応用の1つである。 これらのアルゴリズムの基礎を確立するための最近の試みがある。 考えられるアプローチは、量子ニューラルネットワークカーネルでトレーニングダイナミクスを特徴づけることである。 本研究では、量子アンサンブルと量子ニューラルネットワークという2つのモデルのカーネルを構築し、無限に多くの量子ビットの極限におけるこれらのモデルの収束を示す。 また,回帰タスクにおけるカーネル制限の適用例を示す。

Quantum variational algorithms have been one of major applications of quantum computing with current quantum devices. There are recent attempts to establish the foundation for these algorithms. A possible approach is to characterize the training dynamics with quantum neural tangent kernel. In this work, we construct the kernel for two models, Quantun Ensemble and Quantum Neural Network, and show the convergence of these models in the limit of infinitely many qubits. We also show applications of the kernel limit in regression tasks.
翻訳日:2023-12-06 17:04:38 公開日:2023-12-05
# GIT-Net:演算子学習のための一般化積分変換

GIT-Net: Generalized Integral Transform for Operator Learning ( http://arxiv.org/abs/2312.02450v1 )

ライセンス: Link先を確認
Chao Wang and Alexandre Hoang Thiery(参考訳) 本稿では、積分変換演算子にインスパイアされた部分微分方程式(PDE)演算子を近似するディープニューラルネットワークアーキテクチャであるGIT-Netを紹介する。 GIT-NETは、PDEを定義するためによく使われる微分作用素が、特殊機能基底(例えばフーリエ基底)で表現されるときに、しばしば同義的に表現されるという事実を利用する。 剛性積分変換とは異なり、GIT-Netは深いニューラルネットワークで適応的な一般化積分変換をパラメトリズする。 最近提案されたいくつかの代替案と比較すると、git-netの計算とメモリ要件はメッシュの離散化によって優雅にスケールし、複雑なジオメトリのpde問題への応用を容易にする。 数値実験により、GIT-Netは競争力のあるニューラルネットワーク演算子であり、様々なPDE問題に対して小さなテストエラーと低い評価を示すことが示された。 これは、既存のニューラルネットワークオペレータとは対照的で、通常はこれらの領域の1つで優れている。

This article introduces GIT-Net, a deep neural network architecture for approximating Partial Differential Equation (PDE) operators, inspired by integral transform operators. GIT-NET harnesses the fact that differential operators commonly used for defining PDEs can often be represented parsimoniously when expressed in specialized functional bases (e.g., Fourier basis). Unlike rigid integral transforms, GIT-Net parametrizes adaptive generalized integral transforms with deep neural networks. When compared to several recently proposed alternatives, GIT-Net's computational and memory requirements scale gracefully with mesh discretizations, facilitating its application to PDE problems on complex geometries. Numerical experiments demonstrate that GIT-Net is a competitive neural network operator, exhibiting small test errors and low evaluations across a range of PDE problems. This stands in contrast to existing neural network operators, which typically excel in just one of these areas.
翻訳日:2023-12-06 17:04:31 公開日:2023-12-05
# 離散拡散を伴う高速非自己回帰逆折り畳み

Fast non-autoregressive inverse folding with discrete diffusion ( http://arxiv.org/abs/2312.02447v1 )

ライセンス: Link先を確認
John J. Yang, Jason Yim, Regina Barzilay, Tommi Jaakkola(参考訳) 意図した3D構造に折り畳まれたタンパク質配列を生成することは、デノボタンパク質設計の基本的なステップである。 デファクト法は自己回帰生成を利用するが、これは推論速度を改善するために利用可能な高次相互作用を誘発する。 本稿では,CATHベンチマークの性能を損なうことなく,一定回数の呼び出しによって23倍の速度で推論を行う非自己回帰的な代替手法について述べる。 3次元構造を条件として,pmpnnを微調整し,指標サンプリング順序よりも先に純度で離散拡散を行う。 提案手法は,拡散速度を変調することで,推定速度と精度をトレードオフする柔軟性を与える。 コード: https://github.com/johnyang101/pmpnndiff

Generating protein sequences that fold into a intended 3D structure is a fundamental step in de novo protein design. De facto methods utilize autoregressive generation, but this eschews higher order interactions that could be exploited to improve inference speed. We describe a non-autoregressive alternative that performs inference using a constant number of calls resulting in a 23 times speed up without a loss in performance on the CATH benchmark. Conditioned on the 3D structure, we fine-tune ProteinMPNN to perform discrete diffusion with a purity prior over the index sampling order. Our approach gives the flexibility in trading off inference speed and accuracy by modulating the diffusion speed. Code: https://github.com/johnyang101/pmpnndiff
翻訳日:2023-12-06 17:04:15 公開日:2023-12-05
# E4SRec: シーケンシャルレコメンデーションのための大規模言語モデルのエレガントな効率的な拡張可能なソリューション

E4SRec: An Elegant Effective Efficient Extensible Solution of Large Language Models for Sequential Recommendation ( http://arxiv.org/abs/2312.02443v1 )

ライセンス: Link先を確認
Xinhang Li, Chong Chen, Xiangyu Zhao, Yong Zhang, Chunxiao Xing(参考訳) 大規模言語モデル(llm)の最近の進歩は、レコメンダシステムでその可能性を活用することに関心をひいた。 LLMは自然言語タスク用に設計されているため、既存のレコメンデーションアプローチは、主にレコメンデーションタスクをオープンドメインの自然言語生成タスクに変換する。 しかし、このアプローチはアイテムがリッチな意味情報を持つことを必要とし、しばしば範囲外の結果を生み出し、特に低い効率と限定的な拡張性に苦しむ。 さらに、ユーザやアイテムを表すために多数のID(ID)を頼りにしている実用的なIDベースのレコメンデーション戦略は、実世界のレコメンデーションシステムにおいて、その有効性と効率性から注目されている。 にもかかわらず、モデルIDに対するLLMの非能力は、パーソナライズされたレコメンデーションにLLMを活用しようとする場合、重大な課題となる。 本稿では,従来のレコメンダシステムとのシームレスな統合により,アイテムの表現にidのみを利用する大規模言語モデル(e4srec)のためのエレガントな効率的な拡張ソリューションを提案する。 具体的には、E4SRecはIDシーケンスを入力として取り、生成された出力が候補リスト内に収まることを保証する。 さらに、E4SRecは単一のフォワードプロセスでランキングリスト全体を生成する機能を持ち、LLM全体を凍結したままデータセット毎にトレーニングされる最小限のプラグイン可能なパラメータのみを要求する。 提案するe4srecの有効性,効率性,拡張性について,実世界の4つのデータセットを用いて総合実験を行った。 実装コードはhttps://github.com/hestiasky/e4srec/からアクセスできる。

The recent advancements in Large Language Models (LLMs) have sparked interest in harnessing their potential within recommender systems. Since LLMs are designed for natural language tasks, existing recommendation approaches have predominantly transformed recommendation tasks into open-domain natural language generation tasks. However, this approach necessitates items to possess rich semantic information, often generates out-of-range results, and suffers from notably low efficiency and limited extensibility. Furthermore, practical ID-based recommendation strategies, reliant on a huge number of unique identities (IDs) to represent users and items, have gained prominence in real-world recommender systems due to their effectiveness and efficiency. Nevertheless, the incapacity of LLMs to model IDs presents a formidable challenge when seeking to leverage LLMs for personalized recommendations. In this paper, we introduce an Elegant Effective Efficient Extensible solution for large language models for Sequential Recommendation (E4SRec), which seamlessly integrates LLMs with traditional recommender systems that exclusively utilize IDs to represent items. Specifically, E4SRec takes ID sequences as inputs, ensuring that the generated outputs fall within the candidate lists. Furthermore, E4SRec possesses the capability to generate the entire ranking list in a single forward process, and demands only a minimal set of pluggable parameters, which are trained for each dataset while keeping the entire LLM frozen. We substantiate the effectiveness, efficiency, and extensibility of our proposed E4SRec through comprehensive experiments conducted on four widely-used real-world datasets. The implementation code is accessible at https://github.com/HestiaSky/E4SRec/.
翻訳日:2023-12-06 17:04:04 公開日:2023-12-05
# MedDM:LLM-executable clinical guidance tree for clinical decision-making

MedDM:LLM-executable clinical guidance tree for clinical decision-making ( http://arxiv.org/abs/2312.02441v1 )

ライセンス: Link先を確認
Binbin Li and Tianxin Meng and Xiaoming Shi and Jie Zhai and Tong Ruan(参考訳) 臨床診断決定にLLMが関与することの重要性がますます強調されている。 しかしながら、低い専門化は、現在の医学llmは、医学的なq\&aに近い特定の医療アドバイスを提供できないことを意味する。 LLMで直接使用できる適切な臨床ガイダンスツリーデータセットは存在しない。 この問題に対処するために,我々はまず,大規模言語モデルで直接使用できるLCM-executavle Clinical Guide Tree(CGT)を提案し,臨床実践ガイドラインのフローチャートから医療診断意思決定データセット(MedDM)を構築した。 医学文献からフローチャートをスクリーン化する方法を提案し,その識別と標準化された診断決定木への変換を行う。 内科, 外科, 精神科, および500以上の疾患を含む12の病院に, 5000件の医学文献から得られた1202本の決定木を用いた知識ベースを構築し, さらに, LLM-executable CGTと患者-LLM多ターン対話の枠組みに基づく推論手法を提案する。

It is becoming increasingly emphasis on the importance of LLM participating in clinical diagnosis decision-making. However, the low specialization refers to that current medical LLMs can not provide specific medical advice, which are more like a medical Q\&A. And there is no suitable clinical guidance tree data set that can be used directly with LLM. To address this issue, we first propose LLM-executavle clinical guidance tree(CGT), which can be directly used by large language models, and construct medical diagnostic decision-making dataset (MedDM), from flowcharts in clinical practice guidelines. We propose an approach to screen flowcharts from medical literature, followed by their identification and conversion into standardized diagnostic decision trees. Constructed a knowledge base with 1202 decision trees, which came from 5000 medical literature and covered 12 hospital departments, including internal medicine, surgery, psychiatry, and over 500 diseases.Moreover, we propose a method for reasoning on LLM-executable CGT and a Patient-LLM multi-turn dialogue framework.
翻訳日:2023-12-06 17:03:37 公開日:2023-12-05
# 外部から考える - 創造的なユーモア生成を伴う大規模言語モデルにおける思考の跳躍を探求する

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation ( http://arxiv.org/abs/2312.02439v1 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou(参考訳) Chain-of-Thought (CoT)は、大きな言語モデル(LLM)をステップバイステップで推論し、その論理的推論能力を動機付ける。 論理的なタスクには効果的ですが、CoTは創造的な問題解決には向いていません。 本稿では,LLMにおけるLeap-of-Thought(LoT)能力について考察する。 この目的のために, 参加者に優れた創造性と強い連想的思考を持たせ, 与えられた画像, テキスト, あるいはその両方に予期せぬ, ユーモラスに反応させることで, かつ, LoT 研究に適したゲームである Oogiri ゲーム上での LLM について検討する。 次に,Oogiri ゲームにおける LLM の LoT 能力を調べるために,Oogiri ゲームからの 1130,000 以上のサンプルを含むマルチモーダルかつ多言語な Oogiri-GO データセットを構築し,Oogiri ゲームにおける既存の LLM の LoT 能力や失敗を観察する。 そこで我々は,LLMのLoT能力を改善するために,クリエイティブなLeap-of-Thought(CLoT)パラダイムを導入する。 CLoTは、まず、Oogiri-GOデータセットをLoT指向のインストラクションチューニングデータに定式化し、特定のLoTユーモアの生成と識別能力を達成するために、事前訓練されたLLMを訓練する。 そして、CLoTは爆発的な自己リファインメントを設計し、LLMは、一見無関係な概念間の並列を探索することで、より創造的なLoTデータを生成することを奨励し、自己リファインメントのために自分自身を訓練するために高品質なデータを選択する。 CLoTは、Oogiriゲームにおけるユーモア生成に優れるだけでなく、クラウド推測ゲームやダイバージェントアソシエーションタスクなど、さまざまなタスクにおける創造能力を高める。 これらの知見は我々の理解を深め、ドメインをまたがる革新的なアプリケーションに対するllmsの創造的能力を改善するための経路を提供する。 データセット、コード、モデルはオンラインでリリースされる。 https://github.com/sail-sg/CLoT.com

Chain-of-Thought (CoT) guides large language models (LLMs) to reason step-by-step, and can motivate their logical reasoning ability. While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements. In this paper, we explore the Leap-of-Thought (LoT) abilities within LLMs -- a non-sequential, creative paradigm involving strong associations and knowledge leaps. To this end, we study LLMs on the popular Oogiri game which needs participants to have good creativity and strong associative thinking for responding unexpectedly and humorously to the given image, text, or both, and thus is suitable for LoT study. Then to investigate LLMs' LoT ability in the Oogiri game, we first build a multimodal and multilingual Oogiri-GO dataset which contains over 130,000 samples from the Oogiri game, and observe the insufficient LoT ability or failures of most existing LLMs on the Oogiri game. Accordingly, we introduce a creative Leap-of-Thought (CLoT) paradigm to improve LLM's LoT ability. CLoT first formulates the Oogiri-GO dataset into LoT-oriented instruction tuning data to train pretrained LLM for achieving certain LoT humor generation and discrimination abilities. Then CLoT designs an explorative self-refinement that encourages the LLM to generate more creative LoT data via exploring parallels between seemingly unrelated concepts and selects high-quality data to train itself for self-refinement. CLoT not only excels in humor generation in the Oogiri game but also boosts creative abilities in various tasks like cloud guessing game and divergent association task. These findings advance our understanding and offer a pathway to improve LLMs' creative capacities for innovative applications across domains. The dataset, code, and models will be released online. https://github.com/sail-sg/CLoT.
翻訳日:2023-12-06 17:03:18 公開日:2023-12-05
# 間接実験のための適応機器設計

Adaptive Instrument Design for Indirect Experiments ( http://arxiv.org/abs/2312.02438v1 )

ライセンス: Link先を確認
Yash Chandak, Shiv Shankar, Vasilis Syrgkanis, Emma Brunskill(参考訳) 間接的な実験は、ランダム化制御試験(RCT)が非現実的または非倫理的である状況における治療効果を推定するための貴重なフレームワークを提供する。 RCTとは異なり、間接的な実験は(条件付き)機器変数を利用して治療効果を推定し、厳格な治療代入ではなく、奨励と推奨による見積もりを可能にする。 しかしながら、これらの推定器のサンプル効率は、結果の固有の変動性だけでなく、インストゥルメンタル変数を持つユーザのコンプライアンスレベルや、特に多数のインストゥルメンタル変数を扱う場合に使用される推定器の選択にも依存する。 適応実験設計には直接実験のための文献が豊富にあるが,本論文では,データ収集ポリシーを機器変数に適応的に設計することで,間接実験における試料効率の向上に向けた最初のステップについて述べる。 我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索し、所望(非線形)推定器の平均二乗誤差を最小化する実用的な計算手法である。 実世界の応用に触発された様々な領域で行った実験を通じて,本手法が間接実験のサンプル効率を著しく改善することを示す。

Indirect experiments provide a valuable framework for estimating treatment effects in situations where conducting randomized control trials (RCTs) is impractical or unethical. Unlike RCTs, indirect experiments estimate treatment effects by leveraging (conditional) instrumental variables, enabling estimation through encouragement and recommendation rather than strict treatment assignment. However, the sample efficiency of such estimators depends not only on the inherent variability in outcomes but also on the varying compliance levels of users with the instrumental variables and the choice of estimator being used, especially when dealing with numerous instrumental variables. While adaptive experiment design has a rich literature for direct experiments, in this paper we take the initial steps towards enhancing sample efficiency for indirect experiments by adaptively designing a data collection policy over instrumental variables. Our main contribution is a practical computational procedure that utilizes influence functions to search for an optimal data collection policy, minimizing the mean-squared error of the desired (non-linear) estimator. Through experiments conducted in various domains inspired by real-world applications, we showcase how our method can significantly improve the sample efficiency of indirect experiments.
翻訳日:2023-12-06 17:02:34 公開日:2023-12-05
# GDN:皮膚がん診断に使用されるスタックネットワーク

GDN: A Stacking Network Used for Skin Cancer Diagnosis ( http://arxiv.org/abs/2312.02437v1 )

ライセンス: Link先を確認
Jingmin Wei, Haoyang Shen, Ziyi Wang, Ziqian Zhang(参考訳) 視覚的認識によって識別できる主要な種類のがんである皮膚がんは、異なる種類の病変を正確に分類できる自動識別システムを必要とする。 本稿では,皮膚癌,基底細胞癌,メラノーマの2種類の画像分類モデルであるGoogLe-Dense Network(GDN)について述べる。 GDNは様々なネットワークを積み重ねてモデル性能を向上させる。 具体的には、gdnはその構造における2つのシーケンシャルなレベルからなる。 最初のレベルはGoogLeNetとDenseNetによって達成された基本的な分類タスクを実行する。 低い精度と長いトレーニング時間を避けるため、第2レベルは、ロジスティック回帰モデルの入力として、GoogLeNetとDenseNetの出力を取る。 提案手法を,データセット上のResNet,VGGNet,DenseNet,GoogLeNetの4つのベースラインネットワークと比較し,GoogLeNetとDenseNetはResNetとVGGNetを大きく上回った。 第2段階では, パーセプトロン, ロジスティック回帰, svm, 決定木, k-neighbor などの異なるスタック法が検討され, ロジスティック回帰は, すべての中で最良の予測結果を示す。 その結果,GDNは単一ネットワーク構造に比べて皮膚がん検出の最適化において高い精度が得られた。

Skin cancer, the primary type of cancer that can be identified by visual recognition, requires an automatic identification system that can accurately classify different types of lesions. This paper presents GoogLe-Dense Network (GDN), which is an image-classification model to identify two types of skin cancer, Basal Cell Carcinoma, and Melanoma. GDN uses stacking of different networks to enhance the model performance. Specifically, GDN consists of two sequential levels in its structure. The first level performs basic classification tasks accomplished by GoogLeNet and DenseNet, which are trained in parallel to enhance efficiency. To avoid low accuracy and long training time, the second level takes the output of the GoogLeNet and DenseNet as the input for a logistic regression model. We compare our method with four baseline networks including ResNet, VGGNet, DenseNet, and GoogLeNet on the dataset, in which GoogLeNet and DenseNet significantly outperform ResNet and VGGNet. In the second level, different stacking methods such as perceptron, logistic regression, SVM, decision trees and K-neighbor are studied in which Logistic Regression shows the best prediction result among all. The results prove that GDN, compared to a single network structure, has higher accuracy in optimizing skin cancer detection.
翻訳日:2023-12-06 17:02:13 公開日:2023-12-05
# MUFFIN: インストラクションフォローを改善するための多面的インストラクションの計算

MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following ( http://arxiv.org/abs/2312.02436v1 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin(参考訳) 大規模言語モデル(llm)の領域では、命令追従能力の強化は、しばしば拡張的なトレーニングデータのキュレーションを伴う。 これは2つの主要なスキームによって達成される。 i)スケーリング入力: タスク命令毎のペア(入出力)を増幅し、より良い命令順守を目指す。 ii) 入力自由タスクのスケーリング: タスクを拡大し、それぞれが(指示、出力)ペアで構成されます(もはや別の入力を必要としない)。 しかし、Scaling-Inputs の LLM は入力に対して過度に敏感であり、誤った解釈や命令への不適合につながる。 逆に、Scaling Input-Free Tasksは相当数のタスクを必要とするが、Scaling-Inputsのインスタンスを扱う場合の命令処理では効果が低い。 MUFFINは命令追従型データセットキュレーションの新しいスキームである。 具体的には、これらのタスクを様々な入力ファセットで多様化することにより、入力毎のタスクを自動的にスケールする。 4つのゼロショットベンチマーク(Scaling-Inputs)とScaling Input-Free Tasksスキーム(Scaling Input-Free Tasksスキーム)にまたがる実験結果から、MUFFINで訓練されたLLMは、上記の2つのスキームで訓練されたものに比べて、一般的に優れた命令追従能力を示すことが明らかになった。

In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes.
翻訳日:2023-12-06 17:01:49 公開日:2023-12-05
# FINER: 可変周期活性化関数による入射ニューラル表現におけるフレキシブルスペクトルバイアスチューニング

FINER: Flexible spectral-bias tuning in Implicit NEural Representation by Variable-periodic Activation Functions ( http://arxiv.org/abs/2312.02434v1 )

ライセンス: Link先を確認
Zhen Liu, Hao Zhu, Qi Zhang, Jingde Fu, Weibing Deng, Zhan Ma, Yanwen Guo, Xun Cao(参考訳) ニューラルネットワークを使用して座標入力を対応する属性にマッピングする暗黙的ニューラルネットワーク表現(inr)は、信号処理の分野で革命を引き起こしている。 しかし、現在のinr技術は、サポートされた周波数セットをチューニングする制限された能力に苦しむため、複数の周波数で複雑な信号を表現する際に不完全な性能をもたらす。 我々は,この周波数関連問題を可変周期アクティベーション関数を導入することで大幅に軽減できることを確認した。 ニューラルネットワークのバイアスを異なる範囲に初期化することにより、可変周期関数の様々な周波数のサブ関数が活性化のために選択される。 これにより、FINERの周波数セットを柔軟に調整でき、信号表現の性能が向上する。 我々は,FINERの2次元画像適合性,3次元符号付き距離場表現,および5次元ニューラルラジアンス場最適化における性能を実証し,既存のINRよりも優れていることを示す。

Implicit Neural Representation (INR), which utilizes a neural network to map coordinate inputs to corresponding attributes, is causing a revolution in the field of signal processing. However, current INR techniques suffer from a restricted capability to tune their supported frequency set, resulting in imperfect performance when representing complex signals with multiple frequencies. We have identified that this frequency-related problem can be greatly alleviated by introducing variable-periodic activation functions, for which we propose FINER. By initializing the bias of the neural network within different ranges, sub-functions with various frequencies in the variable-periodic function are selected for activation. Consequently, the supported frequency set of FINER can be flexibly tuned, leading to improved performance in signal representation. We demonstrate the capabilities of FINER in the contexts of 2D image fitting, 3D signed distance field representation, and 5D neural radiance fields optimization, and we show that it outperforms existing INRs.
翻訳日:2023-12-06 17:01:25 公開日:2023-12-05
# Lenna: 言語拡張推論検出アシスタント

Lenna: Language Enhanced Reasoning Detection Assistant ( http://arxiv.org/abs/2312.02433v1 )

ライセンス: Link先を確認
Fei Wei, Xinyu Zhang, Ailing Zhang, Bo Zhang, Xiangxiang Chu(参考訳) マルチモーダル大言語モデル(MLLM)の急速な発展により、自然言語のAIシステムと対話して画像を理解することができるようになった。 しかし、大規模言語モデルに埋め込まれた推論能力と世界知識は、画像認識タスクにおいて、はるかに少なく研究され、活用されている。 本稿では,MLLMの頑健なマルチモーダル特徴表現を利用した言語強化推論検出アシスタントLennaを提案する。 これはMLLM語彙に<DET>トークンを追加することで実現され、明示的な意味的コンテキストを持たないが、検出者が対応する位置を特定するためのプロンプトとして機能する。 Lennaの推論能力を評価するために、推論に基づく検出においてその性能を測定するためにReasonDetデータセットを構築した。 注目すべきは、LennaがReasonDetで優れたパフォーマンスを示し、トレーニングコストが大幅に低いことだ。 他のタスクに拡張した場合のオーバーヘッドの転送も最小限に抑えられる。 私たちのコードとモデルはhttps://git.io/Lenna.orgで公開されます。

With the fast-paced development of multimodal large language models (MLLMs), we can now converse with AI systems in natural languages to understand images. However, the reasoning power and world knowledge embedded in the large language models have been much less investigated and exploited for image perception tasks. In this paper, we propose Lenna, a language-enhanced reasoning detection assistant, which utilizes the robust multimodal feature representation of MLLMs, while preserving location information for detection. This is achieved by incorporating an additional <DET> token in the MLLM vocabulary that is free of explicit semantic context but serves as a prompt for the detector to identify the corresponding position. To evaluate the reasoning capability of Lenna, we construct a ReasonDet dataset to measure its performance on reasoning-based detection. Remarkably, Lenna demonstrates outstanding performance on ReasonDet and comes with significantly low training costs. It also incurs minimal transferring overhead when extended to other tasks. Our code and model will be available at https://git.io/Lenna.
翻訳日:2023-12-06 17:01:07 公開日:2023-12-05
# 拡散モデルのモジュラーカスタマイズのための直交適応

Orthogonal Adaptation for Modular Customization of Diffusion Models ( http://arxiv.org/abs/2312.02432v1 )

ライセンス: Link先を確認
Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein(参考訳) テキストから画像へのモデルのカスタマイズ技術は、これまで達成できなかった幅広いアプリケーションへの道を開き、さまざまなコンテキストやスタイルにまたがる特定の概念の生成を可能にした。 既存の手法では、個々の概念に対する忠実度の高いカスタマイズや、限定された事前定義セットが容易であるが、単一のモデルが無数の概念をシームレスにレンダリングできるスケーラビリティの実現には至っていない。 本稿では,個々の概念に対して独立して微調整されたカスタマイズモデルを効率的に統合することを目的として,モジュールカスタマイズと呼ばれる新しい問題に対処する。 これにより、マージモデルは、忠実さを損なうことなく、あるいは追加の計算コストを伴わずに、1つのイメージで概念を共同で合成することができる。 そこで本研究では, 微調整時に相互にアクセスできないカスタマイズモデルに対して, 直交残留重みを持たせるように工夫した直交適応法を提案する。 これにより、推論時間中に、カスタマイズされたモデルを最小限の干渉でまとめることができる。 提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。 定量的・質的評価により,提案手法は,効率とアイデンティティの保存の観点から,関連するベースラインを一貫して上回っており,拡散モデルのスケーラブルなカスタマイズに向けた大きな飛躍を示している。

Customization techniques for text-to-image models have paved the way for a wide range of previously unattainable applications, enabling the generation of specific concepts across diverse contexts and styles. While existing methods facilitate high-fidelity customization for individual concepts or a limited, pre-defined set of them, they fall short of achieving scalability, where a single model can seamlessly render countless concepts. In this paper, we address a new problem called Modular Customization, with the goal of efficiently merging customized models that were fine-tuned independently for individual concepts. This allows the merged model to jointly synthesize concepts in one image without compromising fidelity or incurring any additional computational costs. To address this problem, we introduce Orthogonal Adaptation, a method designed to encourage the customized models, which do not have access to each other during fine-tuning, to have orthogonal residual weights. This ensures that during inference time, the customized models can be summed with minimal interference. Our proposed method is both simple and versatile, applicable to nearly all optimizable weights in the model architecture. Through an extensive set of quantitative and qualitative evaluations, our method consistently outperforms relevant baselines in terms of efficiency and identity preservation, demonstrating a significant leap toward scalable customization of diffusion models.
翻訳日:2023-12-06 17:00:52 公開日:2023-12-05
# 視覚的接地型言語学習--言語ゲーム、データセット、タスク、およびモデルのレビュー

Visually Grounded Language Learning: a review of language games, datasets, tasks, and models ( http://arxiv.org/abs/2312.02431v1 )

ライセンス: Link先を確認
Alessandro Suglia and Ioannis Konstas and Oliver Lemon(参考訳) 近年,機械学習モデルがいくつか提案されている。 それらは、大規模テキストのみのデータに基づいて言語モデリングの目的を訓練されている。 このような事前学習によって、多くの自然言語理解と生成タスクで印象的な結果が得られる。 しかし、多くの意味の面は『ラジオを聴く』だけでは学べない。 文献では視覚+言語(v+l)の多くのタスクが、視覚モダリティのシンボルを基礎付けるモデルの作成を目的として定義されている。 本稿では,V+L分野におけるいくつかの課題とモデルについて,系統的な文献レビューを行う。 我々はヴィトゲンシュタインの「言語ゲーム」という考え方に依拠して、これらのタスクを3つの異なるファミリーに分類する。 1)判別ゲーム, 2)生成ゲーム、及び 3)インタラクティブゲーム。 本稿の分析は,自然言語におけるコミュニケーションがオブジェクト参照やアクションプランのあいまいさを解決する上で重要である対話型ゲームに,今後の作業が焦点を当てるべきであることを示す。 全体として、これらは神経モデルにおける基底的意味を発達させるための重要な要件である。

In recent years, several machine learning models have been proposed. They are trained with a language modelling objective on large-scale text-only data. With such pretraining, they can achieve impressive results on many Natural Language Understanding and Generation tasks. However, many facets of meaning cannot be learned by ``listening to the radio" only. In the literature, many Vision+Language (V+L) tasks have been defined with the aim of creating models that can ground symbols in the visual modality. In this work, we provide a systematic literature review of several tasks and models proposed in the V+L field. We rely on Wittgenstein's idea of `language games' to categorise such tasks into 3 different families: 1) discriminative games, 2) generative games, and 3) interactive games. Our analysis of the literature provides evidence that future work should be focusing on interactive games where communication in Natural Language is important to resolve ambiguities about object referents and action plans and that physical embodiment is essential to understand the semantics of situations and events. Overall, these represent key requirements for developing grounded meanings in neural models.
翻訳日:2023-12-06 17:00:30 公開日:2023-12-05
# MKA:医療会話課題における生成モデルのためのスケーラブルな医療知識支援機構

MKA: A Scalable Medical Knowledge Assisted Mechanism for Generative Models on Medical Conversation Tasks ( http://arxiv.org/abs/2312.02496v1 )

ライセンス: Link先を確認
Ke Liang, Sifan Wu, Jiayi Gu(参考訳) 自然言語処理(nlp)技術を使用して医療チャットボットを開発することにより、患者の診断がより便利で効率的になる。 その重要性から、多くの研究がなされている。 近年,神経生成モデルはチャットボットのコアとしてその印象的な能力を示しているが,医学的知識の欠如により直接医療会話に適用してもスケールアップできない。 本論文では,この限界に対処するために,スケーラブルな医療知識支援機構であるMKAを提案する。 このメカニズムは、一般的な神経生成モデルを支援し、医療会話タスクの性能を向上させることを目的としている。 医療固有の知識グラフは、このメカニズム内に設計されており、部門、薬物、チェック、症状、疾患、食品を含む6種類の医療関連情報を含んでいる。 さらに、特定のトークン結合ポリシーを定義し、医療情報を入力データに効果的に注入する。 本手法の評価はMedDGとMedDialog-CNの2つの典型的な医療データセットを用いて行われる。 評価の結果,複数の自動評価指標において,本機構と組み合わせたモデルが元の手法を上回ることがわかった。 さらに、MKA-Bert-GPTは最先端の性能を達成する。 https://github.com/LIANGKE23/Knowledge_Assisted_Medical_Dialogue_Generation_Mechanism

Using natural language processing (NLP) technologies to develop medical chatbots makes the diagnosis of the patient more convenient and efficient, which is a typical application in healthcare AI. Because of its importance, lots of research have been come out. Recently, the neural generative models have shown their impressive ability as the core of chatbot, while it cannot scale well when directly applied to medical conversation due to the lack of medical-specific knowledge. To address the limitation, a scalable Medical Knowledge Assisted mechanism, MKA, is proposed in this paper. The mechanism aims to assist general neural generative models to achieve better performance on the medical conversation task. The medical-specific knowledge graph is designed within the mechanism, which contains 6 types of medical-related information, including department, drug, check, symptom, disease, food. Besides, the specific token concatenation policy is defined to effectively inject medical information into the input data. Evaluation of our method is carried out on two typical medical datasets, MedDG and MedDialog-CN. The evaluation results demonstrate that models combined with our mechanism outperform original methods in multiple automatic evaluation metrics. Besides, MKA-Bert-GPT achieves state-of-the-art performance. The open-sourced codes are public: https://github.com/LIANGKE23/Knowledge_Assisted_Medical_Dialogue_Generation_Mechanism
翻訳日:2023-12-06 16:56:05 公開日:2023-12-05
# ReconU-Net:後方投射型スキップ接続を用いたU-NetアーキテクチャによるPET画像の直接再構成

ReconU-Net: a direct PET image reconstruction using U-Net architecture with back projection-induced skip connection ( http://arxiv.org/abs/2312.02494v1 )

ライセンス: Link先を確認
Fumio Hashimoto, Kibo Ote(参考訳) [目的]本研究は,深層学習に基づく直接ポジトロン放射トモグラフィ(PET)画像再構成のためのバックプロジェクションによるU-Net型アーキテクチャであるReconU-Netを導入することを目的とする。 さらに,提案したReconU-Netアーキテクチャと他のエンコーダデコーダアーキテクチャを比較して,直接PET画像再構成の動作を分析し,深い洞察を得る。 [アプリケーション]提案したReconU-Netアーキテクチャはバックプロジェクション操作の物理モデルをスキップ接続に一意に統合する。 この特徴は、入力されたシングラムから埋め込み物理モデルによる再構成画像への固有空間情報の効果的な転送を容易にする。 提案したreconu-netは、brainweb phantomのモンテカルロシミュレーションデータを用いて訓練され、シミュレーションと実際のhoffman brain phantomデータの両方でテストされた。 [主な結果]ReconU-Net法は,他の深層学習に基づく直接再構成法と比較して,より正確な構造を持つ再構成画像を生成する。 さらに分析した結果,提案したReconU-Netアーキテクチャは複数の解像度の特徴,特に非抽象的な高解像度情報をスキップ接続を介して転送する機能を持つことがわかった。 シミュレーションデータに関する限られた訓練にもかかわらず、提案されたReconU-Netは、他の深層学習に基づく直接再構成法とは異なり、本物のホフマン脳ファントムの再構築に成功した。 [意義]データ駆動型モデリングと画像処理プロセスの物理モデルとの相乗関係を利用して,小さなトレーニングデータセットを扱う場合であっても,提案したReconU-NetはPET画像再構成の忠実性を向上させることができる。

[Objective] This study aims to introduce a novel back projection-induced U-Net-shaped architecture, called ReconU-Net, for deep learning-based direct positron emission tomography (PET) image reconstruction. Additionally, our objective is to analyze the behavior of direct PET image reconstruction and gain deeper insights by comparing the proposed ReconU-Net architecture with other encoder-decoder architectures without skip connections. [Approach] The proposed ReconU-Net architecture uniquely integrates the physical model of the back projection operation into the skip connection. This distinctive feature facilitates the effective transfer of intrinsic spatial information from the input sinogram to the reconstructed image via an embedded physical model. The proposed ReconU-Net was trained using Monte Carlo simulation data from the Brainweb phantom and tested on both simulated and real Hoffman brain phantom data. [Main results] The proposed ReconU-Net method generated a reconstructed image with a more accurate structure compared to other deep learning-based direct reconstruction methods. Further analysis showed that the proposed ReconU-Net architecture has the ability to transfer features of multiple resolutions, especially non-abstract high-resolution information, through skip connections. Despite limited training on simulated data, the proposed ReconU-Net successfully reconstructed the real Hoffman brain phantom, unlike other deep learning-based direct reconstruction methods, which failed to produce a reconstructed image. [Significance] The proposed ReconU-Net can improve the fidelity of direct PET image reconstruction, even when dealing with small training datasets, by leveraging the synergistic relationship between data-driven modeling and the physics model of the imaging process.
翻訳日:2023-12-06 16:55:44 公開日:2023-12-05
# 予測不能ネットワーク上での最適分散学習のためのフレキシブル通信

Flexible Communication for Optimal Distributed Learning over Unpredictable Networks ( http://arxiv.org/abs/2312.02493v1 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) グラディエント圧縮は、通常Allgather (AG)を介して、より少ない値とその対応するインデックスを送信することによって、分散ディープラーニングにおける高価な通信を緩和する。 高圧縮率(cr)トレーニングは、高密度sgdのような高い精度を実現するが、通信コスト(すなわち、並列効率)が高いため、並列スケーリングが低くなる。 低いcrsを使用すると同期コストを下げることで並列効率が向上するが、モデルの精度も低下する(統計的効率)。 さらに、異なるモデルとCRで達成されるスピードアップは、ネットワークレイテンシ、効果的な帯域幅、集約に使用される集合オプトによっても異なる。 多くの場合、Allreduce(AR)のような集団は同じ量のデータを交換するAGよりもコストが低い。 本稿では,帯域幅を最適化し,特定のネットワーク構成においてagよりも優れた性能を持つar互換のtopk圧縮機を提案する。 我々は,agとarの間を,現在の状況において最適である集団に基づいて切り替えるフレキシブルな通信戦略を開発し,並列と統計効率のパレート関係を多目的最適化(moo)問題としてモデル化し,crを動的に調整し,高い精度を保ちながらトレーニングを加速する。

Gradient compression alleviates expensive communication in distributed deep learning by sending fewer values and its corresponding indices, typically via Allgather (AG). Training with high compression ratio (CR) achieves high accuracy like DenseSGD, but has lower parallel scaling due to high communication cost (i.e., parallel efficiency). Using lower CRs improves parallel efficiency by lowering synchronization cost, but degrades model accuracy as well (statistical efficiency). Further, speedup attained with different models and CRs also varies with network latency, effective bandwidth and collective op used for aggregation. In many cases, collectives like Allreduce (AR) have lower cost than AG to exchange the same amount of data. In this paper, we propose an AR-compatible Topk compressor that is bandwidth-optimal and thus performs better than AG in certain network configurations. We develop a flexible communication strategy that switches between AG and AR based on which collective is optimal in the current settings, and model the pareto-relationship between parallel and statistical efficiency as a multi-objective optimization (MOO) problem to dynamically adjust CR and accelerate training while still converging to high accuracy.
翻訳日:2023-12-06 16:55:15 公開日:2023-12-05
# 擬似再生型クラス連続学習による付加物製造におけるオンライン新カテゴリー異常検出

Pseudo Replay-based Class Continual Learning for Online New Category Anomaly Detection in Additive Manufacturing ( http://arxiv.org/abs/2312.02491v1 )

ライセンス: Link先を確認
Zhangyue Shi, Tianxin Xie, Chenang Liu, Yuxuan Li(参考訳) 先進的なセンサーと機械学習技術の導入により、現代の製造業企業は、製造プロセスで収集されたセンサーデータに基づいて、データ駆動型品質監視を行うことができる。 しかし、ひとつの重要な課題は、新たに提示された欠陥カテゴリが製造プロセスが進むにつれて現れる可能性があり、その結果、トレーニング済みの機械学習モデルのパフォーマンス低下が監視される。 したがって、継続的に学習するために機械学習モデルを強化する必要性が高まっている。 すべての連続学習手法の中で、メモリベースの連続学習は最高の性能を持つが、データストレージ容量の制約に直面している。 そこで本研究では,クラスインクリメンタル学習とオーバーサンプリングベースデータ生成を統合することで,新たな擬似リプレイ型連続学習を提案する。 すべてのデータを保存せずに、新たなカテゴリ異常が発生した時に機械学習モデルをインクリメンタルにトレーニングするために、前クラスを表す高品質なデータを生成することができる。 さらに、データ品質も効果的に向上するため、監視性能も向上する可能性がある。 提案手法の有効性は,異常検出のための教師付き分類問題を活用する添加物製造プロセスにおいて検証される。 実験の結果,本手法は従来手法よりも優れた性能を維持しつつ,新しい異常の検出に非常に有望であり,モデルアーキテクチャの柔軟性も高まることがわかった。

The incorporation of advanced sensors and machine learning techniques has enabled modern manufacturing enterprises to perform data-driven in-situ quality monitoring based on the sensor data collected in manufacturing processes. However, one critical challenge is that newly presented defect category may manifest as the manufacturing process continues, resulting in monitoring performance deterioration of previously trained machine learning models. Hence, there is an increasing need for empowering machine learning model to learn continually. Among all continual learning methods, memory-based continual learning has the best performance but faces the constraints of data storage capacity. To address this issue, this paper develops a novel pseudo replay-based continual learning by integrating class incremental learning and oversampling-based data generation. Without storing all the data, the developed framework could generate high-quality data representing previous classes to train machine learning model incrementally when new category anomaly occurs. In addition, it could even enhance the monitoring performance since it also effectively improves the data quality. The effectiveness of the proposed framework is validated in an additive manufacturing process, which leverages supervised classification problem for anomaly detection. The experimental results show that the developed method is very promising in detecting novel anomaly while maintaining a good performance on the previous task and brings up more flexibility in model architecture.
翻訳日:2023-12-06 16:54:52 公開日:2023-12-05
# IoTシステムにおける侵入検知のための制約付き双発変分自動エンコーダ

Constrained Twin Variational Auto-Encoder for Intrusion Detection in IoT Systems ( http://arxiv.org/abs/2312.02490v1 )

ライセンス: Link先を確認
Phai Vu Dinh, Quang Uy Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Son Pham Bao, and Eryk Dutkiewicz(参考訳) 侵入検知システム(IDS)は、悪意のある攻撃から何十億ものIoTデバイスを保護する上で重要な役割を果たす。 しかし、IoTデバイスのIDSは、IoTデータ/デバイスの不均一性、トレーニングデータの高次元性、不均衡なデータなど、IoTシステムの固有の課題に直面している。 さらに、典型的なIoTデバイスのメモリ/ストレージやコンピューティング能力といった限られたリソースのため、IoTシステムへのIDSのデプロイは困難であり、時には不可能である。 これらの課題に対処するため、本論文では、より分離・識別可能な低次元表現データでIDSの分類器を供給できる、制約付き双変分オートエンコーダ(CTVAE)と呼ばれる新しいディープニューラルネットワーク/アーキテクチャを提案する。 さらに、IDSで使用されている最先端のニューラルネットワークと比較して、CTVAEはメモリ/ストレージとコンピューティングのパワーを減らし、IoT IDSシステムに適している。 最も人気のある11のIoTボットネットデータセットによる大規模な実験によると、CTVAEは、最先端の機械学習および表現学習手法と比較して、精度で1%、検出攻撃ではFscoreが増加し、攻撃検出の実行時間は2E-6秒未満、モデルサイズは1MB未満である。 また,CTVAEの潜在空間および再構成表現における諸特性について検討し,その効果を現在のよく知られた手法と比較した。

Intrusion detection systems (IDSs) play a critical role in protecting billions of IoT devices from malicious attacks. However, the IDSs for IoT devices face inherent challenges of IoT systems, including the heterogeneity of IoT data/devices, the high dimensionality of training data, and the imbalanced data. Moreover, the deployment of IDSs on IoT systems is challenging, and sometimes impossible, due to the limited resources such as memory/storage and computing capability of typical IoT devices. To tackle these challenges, this article proposes a novel deep neural network/architecture called Constrained Twin Variational Auto-Encoder (CTVAE) that can feed classifiers of IDSs with more separable/distinguishable and lower-dimensional representation data. Additionally, in comparison to the state-of-the-art neural networks used in IDSs, CTVAE requires less memory/storage and computing power, hence making it more suitable for IoT IDS systems. Extensive experiments with the 11 most popular IoT botnet datasets show that CTVAE can boost around 1% in terms of accuracy and Fscore in detection attack compared to the state-of-the-art machine learning and representation learning methods, whilst the running time for attack detection is lower than 2E-6 seconds and the model size is lower than 1 MB. We also further investigate various characteristics of CTVAE in the latent space and in the reconstruction representation to demonstrate its efficacy compared with current well-known methods.
翻訳日:2023-12-06 16:54:31 公開日:2023-12-05
# 大規模VHRリモートセンシング画像からの橋梁のホログラフィー検出の学習

Learning to Holistically Detect Bridges from Large-Size VHR Remote Sensing Imagery ( http://arxiv.org/abs/2312.02481v1 )

ライセンス: Link先を確認
Yansheng Li, Junwei Luo, Yongjun Zhang, Yihua Tan, Jin-Gang Yu, Song Bai(参考訳) リモートセンシング画像(RSI)におけるブリッジ検出は,様々なアプリケーションにおいて重要な役割を担っているが,他のオブジェクトの検出と比較して,ユニークな課題が生じる。 RSIでは、橋は空間スケールとアスペクト比の点でかなりのバリエーションを示す。 したがって,橋梁の視認性と整合性を確保するためには,大規模超高分解能(VHR)RSIにおいて全体的橋梁検出を行う必要がある。 しかし、大規模なVHR RSIを持つデータセットの欠如は、ブリッジ検出におけるディープラーニングアルゴリズムのパフォーマンスを制限している。 大規模画像に対処する際のGPUメモリの制限のため、ディープラーニングに基づくオブジェクト検出手法は、一般的には収穫戦略を採用しており、必然的にラベルの断片化や不連続予測をもたらす。 データセットの不足を緩和するために,世界中の多様な地域から採取された6,000VHR RSIからなるGLH-Bridgeという大規模データセットを提案する。 画像サイズは2,048*2,048から16,38*16,384ピクセルまで様々で、合計59,737本の橋がある。 さらに,大規模RCIにおけるHBD-Netの効率的なネットワークを提案する。 HBD-Netは、別々の検出器ベースの特徴融合(SDFF)アーキテクチャを示し、形状感受性サンプル再重み付け(SSRW)戦略によって最適化されている。 提案したGLH-Bridgeデータセットに基づいて,OBBおよびHBBタスクを含むブリッジ検出ベンチマークを構築し,提案したHBD-Netの有効性を検証する。 さらに、2つの公開データセットにおけるクロスデータセットの一般化実験は、GLH-Bridgeデータセットの強力な一般化能力を示している。

Bridge detection in remote sensing images (RSIs) plays a crucial role in various applications, but it poses unique challenges compared to the detection of other objects. In RSIs, bridges exhibit considerable variations in terms of their spatial scales and aspect ratios. Therefore, to ensure the visibility and integrity of bridges, it is essential to perform holistic bridge detection in large-size very-high-resolution (VHR) RSIs. However, the lack of datasets with large-size VHR RSIs limits the deep learning algorithms' performance on bridge detection. Due to the limitation of GPU memory in tackling large-size images, deep learning-based object detection methods commonly adopt the cropping strategy, which inevitably results in label fragmentation and discontinuous prediction. To ameliorate the scarcity of datasets, this paper proposes a large-scale dataset named GLH-Bridge comprising 6,000 VHR RSIs sampled from diverse geographic locations across the globe. These images encompass a wide range of sizes, varying from 2,048*2,048 to 16,38*16,384 pixels, and collectively feature 59,737 bridges. Furthermore, we present an efficient network for holistic bridge detection (HBD-Net) in large-size RSIs. The HBD-Net presents a separate detector-based feature fusion (SDFF) architecture and is optimized via a shape-sensitive sample re-weighting (SSRW) strategy. Based on the proposed GLH-Bridge dataset, we establish a bridge detection benchmark including the OBB and HBB tasks, and validate the effectiveness of the proposed HBD-Net. Additionally, cross-dataset generalization experiments on two publicly available datasets illustrate the strong generalization capability of the GLH-Bridge dataset.
翻訳日:2023-12-06 16:54:04 公開日:2023-12-05
# 微分可能点ベース逆レンダリング

Differentiable Point-based Inverse Rendering ( http://arxiv.org/abs/2312.02480v1 )

ライセンス: Link先を確認
Hoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek(参考訳) 本研究では,多彩な照明下で撮像された画像の形状と空間的変化を推定する解析バイシンセシス法DPIRを提案する。 この目的のためにポイントベースのレンダリングを採用することで、ボリュームレンダリングの典型である1レイあたりの複数のサンプリングの必要性をなくし、逆レンダリングの速度を大幅に向上します。 この考え方を実現するために,幾何のハイブリッド点体積表現と反射率の正規化基底-BRDF表現を考案した。 ハイブリッド幾何表現は、SDFベースの表現に固有の幾何学的詳細と安定性を維持しつつ、点ベースのスプラッティングによる高速レンダリングを可能にする。 正規化ベース-BRDFは、限られた光視角サンプルから生じる逆レンダリングの不備を緩和する。 また,点ベースシャドウマップレンダリングを用いた効率的なシャドウ検出手法を提案する。 DPIRは, 再現精度, 計算効率, メモリフットプリントにおいて, 先行作業よりも優れていたことを示す。 さらに,明示的なポイントベース表現とレンダリングにより,直感的な幾何表現と反射率編集が可能となった。 コードは公開される予定だ。

We present differentiable point-based inverse rendering, DPIR, an analysis-by-synthesis method that processes images captured under diverse illuminations to estimate shape and spatially-varying BRDF. To this end, we adopt point-based rendering, eliminating the need for multiple samplings per ray, typical of volumetric rendering, thus significantly enhancing the speed of inverse rendering. To realize this idea, we devise a hybrid point-volumetric representation for geometry and a regularized basis-BRDF representation for reflectance. The hybrid geometric representation enables fast rendering through point-based splatting while retaining the geometric details and stability inherent to SDF-based representations. The regularized basis-BRDF mitigates the ill-posedness of inverse rendering stemming from limited light-view angular samples. We also propose an efficient shadow detection method using point-based shadow map rendering. Our extensive evaluations demonstrate that DPIR outperforms prior works in terms of reconstruction accuracy, computational efficiency, and memory footprint. Furthermore, our explicit point-based representation and rendering enables intuitive geometry and reflectance editing. The code will be publicly available.
翻訳日:2023-12-06 16:53:14 公開日:2023-12-05
# RLベースカーゴUAV軌道計画とセルアソシエーション : 最小ハンドオフ, 断線, エネルギー消費

RL-Based Cargo-UAV Trajectory Planning and Cell Association for Minimum Handoffs, Disconnectivity, and Energy Consumption ( http://arxiv.org/abs/2312.02478v1 )

ライセンス: Link先を確認
Nesrine Cherif, Wael Jaafar, Halim Yanikomeroglu, Abbas Yongacoglu(参考訳) 無人航空機(uav)はラストマイル貨物輸送に有望な技術である。 しかし、オンボードのバッテリー容量の制限、セルラーの信頼性の低下、空域での頻繁なハンドオフは、その潜在能力を解き放つ主な障害である。 既存のセルラーネットワークは主に地上ユーザー向けに設計されているため、cargo-uavのような高度にモバイルな航空ユーザーのために同じアーキテクチャを再利用することは困難であると考えられている。 実際、貨物UAVによる安全な配送を確保するためには、コマンド・アンド・コントロールの信頼性を確保し、頻繁にハンドオフを避けるとともに、利用可能なエネルギーを効率的に活用することが不可欠である。 この目的を達成するために,共同貨物・UAV軌道計画とセルアソシエーションのための新しいアプローチを提案する。 具体的には、カーゴUAVミッションを多目的問題として定式化する。 1)エネルギー消費を最小化する。 2)引き継ぎイベントの削減、及び 3) 軌道に沿ったセル信頼性を保証する。 補強学習(RL)を利用して,貨物UAVの軌道と細胞結合を協調的に最適化する。 シミュレーションの結果,提案手法の性能向上は,ベンチマークと比較すると,ハンドオフ,解離性,エネルギー消費の観点から示される。

Unmanned aerial vehicle (UAV) is a promising technology for last-mile cargo delivery. However, the limited on-board battery capacity, cellular unreliability, and frequent handoffs in the airspace are the main obstacles to unleash its full potential. Given that existing cellular networks were primarily designed to service ground users, re-utilizing the same architecture for highly mobile aerial users, e.g., cargo-UAVs, is deemed challenging. Indeed, to ensure a safe delivery using cargo-UAVs, it is crucial to utilize the available energy efficiently, while guaranteeing reliable connectivity for command-and-control and avoiding frequent handoff. To achieve this goal, we propose a novel approach for joint cargo-UAV trajectory planning and cell association. Specifically, we formulate the cargo-UAV mission as a multi-objective problem aiming to 1) minimize energy consumption, 2) reduce handoff events, and 3) guarantee cellular reliability along the trajectory. We leverage reinforcement learning (RL) to jointly optimize the cargo-UAV's trajectory and cell association. Simulation results demonstrate a performance improvement of our proposed method, in terms of handoffs, disconnectivity, and energy consumption, compared to benchmarks.
翻訳日:2023-12-06 16:52:47 公開日:2023-12-05
# NeutronStream: グラフストリームのためのスライディングウィンドウを備えた動的GNNトレーニングフレームワーク

NeutronStream: A Dynamic GNN Training Framework with Sliding Window for Graph Streams ( http://arxiv.org/abs/2312.02473v1 )

ライセンス: Link先を確認
Chaoyi Chen, Dechao Gao, Yanfeng Zhang, Qiange Wang, Zhenbo Fu, Xuecang Zhang, Junhua Zhu, Yu Gu, Ge Yu(参考訳) 既存のグラフニューラルネットワーク(GNN)トレーニングフレームワークは、開発者がパフォーマンスの高いGNN実装を簡単に作成できるように設計されている。 しかし、既存のほとんどのGNNフレームワークは、入力グラフは静的であるが、ほとんどの現実世界のグラフが常に進化していることを無視している。 グラフの進化から学ぶために多くの動的GNNモデルが登場したが、これらの動的GNNのトレーニングプロセスは、グラフ更新の空間的および時間的依存関係をキャプチャする従来のGNNと劇的に異なる。 これは動的GNNトレーニングフレームワークの設計に新たな課題をもたらす。 まず、従来のバッチトレーニング手法では、リアルタイムな構造進化情報をキャプチャできない。 第二に、時間に依存した性質は並列トレーニングを設計を困難にします。 第3に、動的GNNを効率的に実装するためのシステムサポートがない。 本稿では,動的GNNモデルのトレーニングフレームワークであるNeutronStreamについて述べる。 neutronstreamは入力された動的グラフを時系列的に更新したイベントストリームに抽象化し、ストリームを最適化されたスライディングウィンドウで処理し、イベントの空間的-時間的依存関係を漸進的にキャプチャする。 さらに、NeutronStreamは並列実行エンジンを提供し、高いパフォーマンスを達成するためのシーケンシャルなイベント処理課題に取り組む。 NeutronStreamはまた、動的更新をサポートする組み込みグラフストレージ構造を統合し、ユーザが動的GNNを表現できる使いやすいAPIセットを提供する。 実験の結果,現状の動的GNN実装と比較して,NeurotronStreamは1.48Xから5.87Xまで,平均精度は3.97%向上した。

Existing Graph Neural Network (GNN) training frameworks have been designed to help developers easily create performant GNN implementations. However, most existing GNN frameworks assume that the input graphs are static, but ignore that most real-world graphs are constantly evolving. Though many dynamic GNN models have emerged to learn from evolving graphs, the training process of these dynamic GNNs is dramatically different from traditional GNNs in that it captures both the spatial and temporal dependencies of graph updates. This poses new challenges for designing dynamic GNN training frameworks. First, the traditional batched training method fails to capture real-time structural evolution information. Second, the time-dependent nature makes parallel training hard to design. Third, it lacks system supports for users to efficiently implement dynamic GNNs. In this paper, we present NeutronStream, a framework for training dynamic GNN models. NeutronStream abstracts the input dynamic graph into a chronologically updated stream of events and processes the stream with an optimized sliding window to incrementally capture the spatial-temporal dependencies of events. Furthermore, NeutronStream provides a parallel execution engine to tackle the sequential event processing challenge to achieve high performance. NeutronStream also integrates a built-in graph storage structure that supports dynamic updates and provides a set of easy-to-use APIs that allow users to express their dynamic GNNs. Our experimental results demonstrate that, compared to state-of-the-art dynamic GNN implementations, NeutronStream achieves speedups ranging from 1.48X to 5.87X and an average accuracy improvement of 3.97%.
翻訳日:2023-12-06 16:52:16 公開日:2023-12-05
# グラフニューラルネットワークを用いた無線マルチホップネットワークにおける混雑対応分散タスクオフロード

Congestion-aware Distributed Task Offloading in Wireless Multi-hop Networks Using Graph Neural Networks ( http://arxiv.org/abs/2312.02471v1 )

ライセンス: Link先を確認
Zhongyuan Zhao and Jake Perazzone and Gunjan Verma and Santiago Segarra(参考訳) 計算オフロードは、モバイルおよびスマートデバイスにおけるエッジインテリジェンスの有効成分となっている。 既存のオフロード方式は主にモバイルデバイスとサーバに重点を置いているが、複数のモバイルデバイス、特に無線マルチホップネットワークによるタスクによるネットワークの混雑を無視している。 このギャップを埋めるために,分散グリーディフレームワークをグラフベース機械学習で拡張することにより,低オーバーヘッドで混雑を考慮した分散タスクオフロード方式を提案する。 20-110ノードを有するシミュレーション無線マルチホップネットワークと最短経路ルーティングと競合ベースのリンクスケジューリングに基づくリソース割り当てスキームにおいて,提案手法は,ローカルコンピューティングよりも実行遅延を改善しつつ,コンテキスト依存ベースライン下での混雑や不安定なキューの削減に有効であることを実証した。

Computational offloading has become an enabling component for edge intelligence in mobile and smart devices. Existing offloading schemes mainly focus on mobile devices and servers, while ignoring the potential network congestion caused by tasks from multiple mobile devices, especially in wireless multi-hop networks. To fill this gap, we propose a low-overhead, congestion-aware distributed task offloading scheme by augmenting a distributed greedy framework with graph-based machine learning. In simulated wireless multi-hop networks with 20-110 nodes and a resource allocation scheme based on shortest path routing and contention-based link scheduling, our approach is demonstrated to be effective in reducing congestion or unstable queues under the context-agnostic baseline, while improving the execution latency over local computing.
翻訳日:2023-12-06 16:51:13 公開日:2023-12-05
# 分類器から発生したジェネレータ

Generator Born from Classifier ( http://arxiv.org/abs/2312.02470v1 )

ライセンス: Link先を確認
Runpeng Yu, Xinchao Wang(参考訳) 本稿では,事前学習された分類器を与えられた場合,データサンプルに依存しない画像生成器の再構築を目標とする,野心的な課題に向けて大胆な試みを行う。 ブラックボックスの観点からすると、この課題は必然的に、情報抽出プロセスである分類器の逆関数を特定することを含むため、難解に思える。 したがって、ニューラルネットワークのパラメータにカプセル化された知識を活用することに頼る。 本稿では,勾配勾配勾配の最大-マルジンバイアスの理論に基づいて,ネットワークパラメータの収束条件が標本の生成分布上で満たされることを保証するために,ジェネレータを訓練する新たな学習パラダイムを提案する。 様々な画像生成タスクからの実証的検証は、我々の戦略の有効性を実証する。

In this paper, we make a bold attempt toward an ambitious task: given a pre-trained classifier, we aim to reconstruct an image generator, without relying on any data samples. From a black-box perspective, this challenge seems intractable, since it inevitably involves identifying the inverse function for a classifier, which is, by nature, an information extraction process. As such, we resort to leveraging the knowledge encapsulated within the parameters of the neural network. Grounded on the theory of Maximum-Margin Bias of gradient descent, we propose a novel learning paradigm, in which the generator is trained to ensure that the convergence conditions of the network parameters are satisfied over the generated distribution of the samples. Empirical validation from various image generation tasks substantiates the efficacy of our strategy.
翻訳日:2023-12-06 16:50:56 公開日:2023-12-05
# デュアルMCMCによるエネルギーモデル学習

Learning Energy-based Model via Dual-MCMC Teaching ( http://arxiv.org/abs/2312.02469v1 )

ライセンス: Link先を確認
Jiali Cui, Tian Han(参考訳) 本稿では,エネルギーベースモデル(EBM)の基本学習問題について考察する。 EBMの学習は、ランゲヴィン力学のようなマルコフ連鎖モンテカルロ(MCMC)サンプリングを含む最大極大推定(MLE)を用いて達成できる。 しかし、ノイズ初期化ランジュバンダイナミクスは実際には困難であり、混合が困難である。 これは、ジェネレータモデルがMCMCサンプリングをバイパスする補完モデルとして機能するジェネレータモデルとのジョイントトレーニングの探索を動機付けている。 しかし、このような方法はmcmcよりも精度が低く、偏りのあるebm学習となる。 ジェネレータはMCMCサンプリングを改善するイニシャライザモデルとしても機能するが、その学習はEMMに適合し、経験的なトレーニング例にアクセスできないため偏りがある。 このようなバイアス付きジェネレータ学習は、ESMを学習する可能性を制限する可能性がある。 この問題に対処するために,EMMと補完ジェネレータモデルの両方に対して,最大可能性学習アルゴリズムを織り交ぜた共同学習フレームワークを提案する。 特に、ジェネレータモデルは、EMMと経験的データ分布の両方を一致させるためにMLEによって学習され、EMMのMCMCサンプリングにおいてより有益な初期化器となる。 観測例によるジェネレータの学習は通常、ジェネレータ後部の推論を必要とする。 我々は,MCMC後続サンプリングを高精度かつ効率的に行うために,MCMC後続サンプリングを導入し,そのような潜伏MCMCサンプリングを初期化する補完推論モデルを導入する。 2つの(2つの)MCMC教育を通じて3つの異なるモデルを共同フレームワークにシームレスに統合し、効果的かつ効率的なEMM学習を可能にすることを示す。

This paper studies the fundamental learning problem of the energy-based model (EBM). Learning the EBM can be achieved using the maximum likelihood estimation (MLE), which typically involves the Markov Chain Monte Carlo (MCMC) sampling, such as the Langevin dynamics. However, the noise-initialized Langevin dynamics can be challenging in practice and hard to mix. This motivates the exploration of joint training with the generator model where the generator model serves as a complementary model to bypass MCMC sampling. However, such a method can be less accurate than the MCMC and result in biased EBM learning. While the generator can also serve as an initializer model for better MCMC sampling, its learning can be biased since it only matches the EBM and has no access to empirical training examples. Such biased generator learning may limit the potential of learning the EBM. To address this issue, we present a joint learning framework that interweaves the maximum likelihood learning algorithm for both the EBM and the complementary generator model. In particular, the generator model is learned by MLE to match both the EBM and the empirical data distribution, making it a more informative initializer for MCMC sampling of EBM. Learning generator with observed examples typically requires inference of the generator posterior. To ensure accurate and efficient inference, we adopt the MCMC posterior sampling and introduce a complementary inference model to initialize such latent MCMC sampling. We show that three separate models can be seamlessly integrated into our joint framework through two (dual-) MCMC teaching, enabling effective and efficient EBM learning.
翻訳日:2023-12-06 16:50:21 公開日:2023-12-05
# 物体と境界制約を考慮したリモートセンシングによるイメージセマンティクスセグメンテーション

SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object and Boundary Constraints ( http://arxiv.org/abs/2312.02464v1 )

ライセンス: Link先を確認
Xianping Ma, Qianqian Wu, Xingyu Zhao, Xiaokang Zhang, Man-On Pun, and Bo Huang(参考訳) リモートセンシング画像のセマンティクスセグメンテーションは、ダウンストリームアプリケーションの正確な情報を抽出する上で重要な役割を果たす。 高度な汎用セグメンテーションモデルであるsegment anything model(sam)の開発は、この分野に革命をもたらし、正確かつ効率的なセグメンテーションのための新しい道を提示した。 しかし、SAMはクラス情報なしでセグメンテーション結果を生成することに制限されている。 これにより、リモートセンシング画像における意味セグメンテーションのための強力な汎用視覚モデルの利用が研究の焦点となっている。 本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するための合理化フレームワークを提案する。 より具体的には、新しいオブジェクト損失を提案し、一般的なセマンティックセグメンテーションフレームワークにおけるモデル最適化を支援する拡張コンポーネントとして境界損失をさらに導入する。 SGOのコンテンツ特性を考慮し、セグメンテーションされた領域に意味情報を欠くオブジェクト一貫性の概念を導入する。 オブジェクト内の予測値の一貫性に制約を課すことで、オブジェクト損失はセマンティクスのセグメンテーション性能を高めることを目的としている。 さらに、境界損失は、モデルがオブジェクトの境界情報に注意を向けることによって、sgbの特徴的な特徴を浮き彫りにする。 ISPRS Vaihingen と LoveDA Urban の2つのよく知られたデータセットの実験結果から,提案手法の有効性が示された。 この作業のソースコードはhttps://github.com/sstary/SSRS.comからアクセスできる。

Semantic segmentation of remote sensing imagery plays a pivotal role in extracting precise information for diverse down-stream applications. Recent development of the Segment Anything Model (SAM), an advanced general-purpose segmentation model, has revolutionized this field, presenting new avenues for accurate and efficient segmentation. However, SAM is limited to generating segmentation results without class information. Consequently, the utilization of such a powerful general vision model for semantic segmentation in remote sensing images has become a focal point of research. In this paper, we present a streamlined framework aimed at leveraging the raw output of SAM by exploiting two novel concepts called SAM-Generated Object (SGO) and SAM-Generated Boundary (SGB). More specifically, we propose a novel object loss and further introduce a boundary loss as augmentative components to aid in model optimization in a general semantic segmentation framework. Taking into account the content characteristics of SGO, we introduce the concept of object consistency to leverage segmented regions lacking semantic information. By imposing constraints on the consistency of predicted values within objects, the object loss aims to enhance semantic segmentation performance. Furthermore, the boundary loss capitalizes on the distinctive features of SGB by directing the model's attention to the boundary information of the object. Experimental results on two well-known datasets, namely ISPRS Vaihingen and LoveDA Urban, demonstrate the effectiveness of our proposed method. The source code for this work will be accessible at https://github.com/sstary/SSRS.
翻訳日:2023-12-06 16:49:52 公開日:2023-12-05
# 深部ニューラルネットワークを用いた火炎振動子の円配列の次元化と動的モード認識

Dimensionality Reduction and Dynamical Mode Recognition of Circular Arrays of Flame Oscillators Using Deep Neural Network ( http://arxiv.org/abs/2312.02462v1 )

ライセンス: Link先を確認
Weiming Xu, Tao Yang, Peng Zhang(参考訳) エアロエンジンと現代のガスタービンの振動燃焼は運転に重大な悪影響を及ぼし、様々な振動モードを正確に認識することが燃焼不安定の理解と制御の必要条件である。 しかし、複雑な燃焼系の高次元時空間データは通常、動的モード認識にかなりの困難をもたらす。 本研究では, 双方向長周期メモリ変動オートエンコーダ(Bi-LSTM-VAE)次元削減モデルと2次元ワッサーシュタイン距離ベース分類器(WDC)に基づいて, 振動燃焼系の動的モードを認識するための有望な手法(Bi-LSTM-VAE-WDC)を提案する。 具体的には, 燃焼系の高次元時空間データを低次元位相空間に還元するためにBi-LSTM-VAE次元縮小モデルを導入し, 格子内の位相点分布に基づいてガウス核密度推定値(GKDE)を算出し, 振動モードを認識するために2次元WD値を算出した。 本研究で用いた時系列データは,層状火炎発振器の円形配列の数値シミュレーションにより得られた。 その結果,新しいBi-LSTM-VAE法では位相点の非重複分布が生成され,非教師なしモード認識と分類が効果的であることが示唆された。 さらに, 複雑な火炎系の動的モードを識別するためのVAEおよびPCA(主成分分析)よりも顕著な性能を示し, 乱流燃焼研究の可能性を示唆している。

Oscillatory combustion in aero engines and modern gas turbines often has significant adverse effects on their operation, and accurately recognizing various oscillation modes is the prerequisite for understanding and controlling combustion instability. However, the high-dimensional spatial-temporal data of a complex combustion system typically poses considerable challenges to the dynamical mode recognition. Based on a two-layer bidirectional long short-term memory variational autoencoder (Bi-LSTM-VAE) dimensionality reduction model and a two-dimensional Wasserstein distance-based classifier (WDC), this study proposes a promising method (Bi-LSTM-VAE-WDC) for recognizing dynamical modes in oscillatory combustion systems. Specifically, the Bi-LSTM-VAE dimension reduction model was introduced to reduce the high-dimensional spatial-temporal data of the combustion system to a low-dimensional phase space; Gaussian kernel density estimates (GKDE) were computed based on the distribution of phase points in a grid; two-dimensional WD values were calculated from the GKDE maps to recognize the oscillation modes. The time-series data used in this study were obtained from numerical simulations of circular arrays of laminar flame oscillators. The results show that the novel Bi-LSTM-VAE method can produce a non-overlapping distribution of phase points, indicating an effective unsupervised mode recognition and classification. Furthermore, the present method exhibits a more prominent performance than VAE and PCA (principal component analysis) for distinguishing dynamical modes in complex flame systems, implying its potential in studying turbulent combustion.
翻訳日:2023-12-06 16:49:22 公開日:2023-12-05
# ドラフト: 高密度検索によるトピック分類フレームワークの拡張

DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework ( http://arxiv.org/abs/2312.02532v1 )

ライセンス: Link先を確認
Keonwoo Kim and Younggun Lee(参考訳) 多様な情報量の増加に伴い、任意のトピックを分類する需要がますます重要になっている。 この課題に対処するために,少人数のトピック分類のための分類器をトレーニングするためのシンプルなフレームワークであるdraftを紹介する。 DRAFTは、特定のトピックのいくつかの例をクエリとして使用し、密集した検索モデルでカスタマイズデータセットを構築する。 特定のトピックに関連する複数のクエリを効果的に処理するマルチクエリ検索(MQR)アルゴリズムを適用し、カスタマイズデータセットを構築する。 その後、カスタマイズデータセットを使用して分類器を微調整してトピックを識別する。 提案手法の有効性を実証するため,広範に使用されている分類ベンチマークデータセットと291の多様なトピックを手作業で構築したデータセットを用いて評価を行った。 gpt-3 175bやinstructgpt 175bといったコンテキスト内学習を使用するベースラインと比較して,177分の1のパラメータしか持たないにも関わらず,限定的なトピック分類タスクでは,競合性や優れたパフォーマンスを示す。

With the growing volume of diverse information, the demand for classifying arbitrary topics has become increasingly critical. To address this challenge, we introduce DRAFT, a simple framework designed to train a classifier for few-shot topic classification. DRAFT uses a few examples of a specific topic as queries to construct Customized dataset with a dense retriever model. Multi-query retrieval (MQR) algorithm, which effectively handles multiple queries related to a specific topic, is applied to construct the Customized dataset. Subsequently, we fine-tune a classifier using the Customized dataset to identify the topic. To demonstrate the efficacy of our proposed approach, we conduct evaluations on both widely used classification benchmark datasets and manually constructed datasets with 291 diverse topics, which simulate diverse contents encountered in real-world applications. DRAFT shows competitive or superior performance compared to baselines that use in-context learning, such as GPT-3 175B and InstructGPT 175B, on few-shot topic classification tasks despite having 177 times fewer parameters, demonstrating its effectiveness.
翻訳日:2023-12-06 16:42:09 公開日:2023-12-05
# PolyFit: Sim-to-real Adaptationによる見知らぬポリゴン形状のためのペグインホールアセンブリフレームワーク

PolyFit: A Peg-in-hole Assembly Framework for Unseen Polygon Shapes via Sim-to-real Adaptation ( http://arxiv.org/abs/2312.02531v1 )

ライセンス: Link先を確認
Geonhyup Lee, Joosoon Lee, Sangjun Noh, Minhwan Ko, Kangmin Kim and Kyoobin Lee(参考訳) ロボット工学におけるペグ・イン・ホール・アセンブリの基礎的かつ挑戦的な課題は、センサーの不正確さや機械的エラーによってしばしば挿入の失敗や妨害につながる。 本稿では,強化学習アプローチから教師あり学習手法への移行によるパラダイムシフトを表すPolyFitを紹介する。 PolyFitは5-DoFペグインホールアセンブリ用に設計されたForce/Torque (F/T)ベースの教師あり学習フレームワークである。 f/tデータを精度の高いポーズ推定に利用し、pegのポーズを調整して誤用を正す。 シミュレーション環境での広範なトレーニングには、さまざまなペグホール形状、外部ポーズ、対応する接触f/t読み取りを含むデータセットが含まれる。 外部のポーズ推定を強化するために、同一のF/T読み取りが異なるポーズを示すことを認識して、マルチポイント接触戦略をモデル入力に統合する。 本研究は,複雑多角形および非開多角形への効果的な一般化を可能にするために,sim-real paired datasetを用いた実世界応用のためのsim-to-real適応法を提案する。 PolyFitは、それぞれシミュレーションにおいて見かけの見えない形状に対して97.3%と96.3%という印象的な成功率を達成した。 実世界の評価は86.7%と85.0%のかなりの成功率を示し、提案手法の堅牢性と適応性を強調している。

The study addresses the foundational and challenging task of peg-in-hole assembly in robotics, where misalignments caused by sensor inaccuracies and mechanical errors often result in insertion failures or jamming. This research introduces PolyFit, representing a paradigm shift by transitioning from a reinforcement learning approach to a supervised learning methodology. PolyFit is a Force/Torque (F/T)-based supervised learning framework designed for 5-DoF peg-in-hole assembly. It utilizes F/T data for accurate extrinsic pose estimation and adjusts the peg pose to rectify misalignments. Extensive training in a simulated environment involves a dataset encompassing a diverse range of peg-hole shapes, extrinsic poses, and their corresponding contact F/T readings. To enhance extrinsic pose estimation, a multi-point contact strategy is integrated into the model input, recognizing that identical F/T readings can indicate different poses. The study proposes a sim-to-real adaptation method for real-world application, using a sim-real paired dataset to enable effective generalization to complex and unseen polygon shapes. PolyFit achieves impressive peg-in-hole success rates of 97.3% and 96.3% for seen and unseen shapes in simulations, respectively. Real-world evaluations further demonstrate substantial success rates of 86.7% and 85.0%, highlighting the robustness and adaptability of the proposed method.
翻訳日:2023-12-06 16:41:48 公開日:2023-12-05
# memto:多変量時系列異常検出用メモリ誘導トランス

MEMTO: Memory-guided Transformer for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2312.02530v1 )

ライセンス: Link先を確認
Junho Song, Keonwoo Kim, Jeonglyul Oh, Sungzoon Cho(参考訳) 実世界の多変量時系列データにおける異常の検出は、複雑な時間的依存関係と変数間相関のために困難である。 近年, この問題を解決するために復元型深層モデルが広く用いられている。 しかし、これらの手法は依然として過度な一般化の問題に悩まされており、一貫して高い性能を提供できない。 この問題に対処するために,再構成方式を用いたメモリ誘導トランスMEMTOを提案する。 入力データに応じて各メモリ項目が更新される程度を学習できる新しいメモリモジュールを組み込むように設計されている。 トレーニング手順の安定化には,k-meansクラスタリングを用いたメモリアイテムの初期化を含む2相トレーニングパラダイムを用いる。 さらに,入力空間と潜在空間の両方を考慮した異常スコアを計算する2次元偏差に基づく検出基準を導入する。 提案手法は,多種多様な領域から得られた5つの実世界のデータセットについて評価し,平均的な異常検出f1-scoreを95.74%で達成した。 また,提案モデルの重要成分の有効性を実証的に検証する実験を行った。

Detecting anomalies in real-world multivariate time series data is challenging due to complex temporal dependencies and inter-variable correlations. Recently, reconstruction-based deep models have been widely used to solve the problem. However, these methods still suffer from an over-generalization issue and fail to deliver consistently high performance. To address this issue, we propose the MEMTO, a memory-guided Transformer using a reconstruction-based approach. It is designed to incorporate a novel memory module that can learn the degree to which each memory item should be updated in response to the input data. To stabilize the training procedure, we use a two-phase training paradigm which involves using K-means clustering for initializing memory items. Additionally, we introduce a bi-dimensional deviation-based detection criterion that calculates anomaly scores considering both input space and latent space. We evaluate our proposed method on five real-world datasets from diverse domains, and it achieves an average anomaly detection F1-score of 95.74%, significantly outperforming the previous state-of-the-art methods. We also conduct extensive experiments to empirically validate the effectiveness of our proposed model's key components.
翻訳日:2023-12-06 16:41:24 公開日:2023-12-05
# 自動電源バッテリ検出に向けて:新しい挑戦,ベンチマークデータセット,ベースライン

Towards Automatic Power Battery Detection: New Challenge, Benchmark Dataset and Baseline ( http://arxiv.org/abs/2312.02528v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Zhenyu Chen, Qian Yu, Lihe Zhang, Hanqi Liu, Jiaming Zuo, Huchuan Lu(参考訳) 我々は,高密度陰極および陽極板の終端をX線画像から局所化し,電池の品質を評価することを目的とした,PBD(Power Battery Detection)と呼ばれる新しいタスクについて包括的な研究を行う。 既存のメーカーは通常、PBDを完成させるために人間の目の観察に依存しており、検出の正確さと効率のバランスをとるのが困難である。 この問題に対処し、この有意義なタスクにもっと注意を向けるために、私たちはまず、さまざまなx線画像を5ドルのメーカーの数千のバッテリーから選択した1500ドルの多様なx線画像と、7ドルの視覚的干渉を持つ、x-ray pbdと呼ばれるデータセットを精巧に収集しました。 そこで我々は,多次元協調ネットワーク(MDCNet)と呼ばれるPBDのための新しいセグメンテーションベースソリューションを提案する。 線数と計数予測器の助けを借りて、ポイントセグメンテーションブランチの表現を意味的および詳細的に改善することができる。 さらに,プレートの不整合分布密度による視覚的課題を軽減し,MDCNetを安定的に管理する,効果的な距離適応マスク生成戦略を設計する。 私たちのセグメンテーションベースのMDCNetは、ベルやホイッスルがなければ、さまざまなコーナー検出や、群衆数、一般的なオブジェクト検出ベースのソリューションを一貫して上回ります。 最後に、潜在的な困難と将来の研究のために働きます。 ソースコードとデータセットは \href{http://www.gy3000.company/x3000%e5%bc%80%e6%94%be%e5%b9%b3%e5%8f%b0}{X-ray PBD} で公開されている。

We conduct a comprehensive study on a new task named power battery detection (PBD), which aims to localize the dense cathode and anode plates endpoints from X-ray images to evaluate the quality of power batteries. Existing manufacturers usually rely on human eye observation to complete PBD, which makes it difficult to balance the accuracy and efficiency of detection. To address this issue and drive more attention into this meaningful task, we first elaborately collect a dataset, called X-ray PBD, which has $1,500$ diverse X-ray images selected from thousands of power batteries of $5$ manufacturers, with $7$ different visual interference. Then, we propose a novel segmentation-based solution for PBD, termed multi-dimensional collaborative network (MDCNet). With the help of line and counting predictors, the representation of the point segmentation branch can be improved at both semantic and detail aspects. Besides, we design an effective distance-adaptive mask generation strategy, which can alleviate the visual challenge caused by the inconsistent distribution density of plates to provide MDCNet with stable supervision. Without any bells and whistles, our segmentation-based MDCNet consistently outperforms various other corner detection, crowd counting and general/tiny object detection-based solutions, making it a strong baseline that can help facilitate future research in PBD. Finally, we share some potential difficulties and works for future researches. The source code and datasets will be publicly available at \href{http://www.gy3000.company/x3000%e5%bc%80%e6%94%be%e5%b9%b3%e5%8f%b0}{X-ray PBD}.
翻訳日:2023-12-06 16:41:05 公開日:2023-12-05
# masp: スケーラブルなgnnベースのマルチエージェントナビゲーション計画

MASP: Scalable GNN-based Planning for Multi-Agent Navigation ( http://arxiv.org/abs/2312.02522v1 )

ライセンス: Link先を確認
Xinyi Yang, Xinting Yang, Chao Yu, Jiayu Chen, Huazhong Yang and Yu Wang(参考訳) 分散マルチエージェントナビゲーションタスクでは,複数のエージェントが初期指定されていないターゲットに限られた時間で到達する必要がある。 古典的な計画に基づく手法は、各ステップで高価な計算オーバーヘッドに苦しめられ、複雑な協調戦略の表現力は限られている。 対照的に、強化学習(RL)は近年この問題に対処するための一般的なパラダイムとなっている。 しかし、RLは、大規模な検索空間、特にエージェント数(例えば10以上のエージェント)の増加や複雑な環境(例えば3Dシミュレータ)で直接(ほぼ)最適なポリシーを探索する際に、低いデータ効率と協力に苦労する。 本稿では,MASP(Multi-Agent Scalable GNN-based P lanner)を提案する。 MASPは階層的なフレームワークを採用し、大規模な検索スペースを複数の小さなスペースに分割することで、空間の複雑さを低減し、トレーニングの収束を加速する。 また,グラフニューラルネットワーク(gnn)を利用してエージェントと目標の相互作用をモデル化し,目標達成度を向上させる。 さらに、目に見えないチームサイズのシナリオにおける一般化機能を強化するために、エージェントを複数のグループに分割します。 その結果、MASPは古典的計画ベースの競合相手やRLベースラインよりも優れており、50エージェントのマルチエージェント粒子環境(MPE)と20エージェントの4次元環境(OmniDrones)の両方において、最小限のトレーニングデータで100%近い成功率を達成した。 さらに、学習されたポリシーは、目に見えないチームサイズでゼロショットの一般化を示す。

We investigate the problem of decentralized multi-agent navigation tasks, where multiple agents need to reach initially unassigned targets in a limited time. Classical planning-based methods suffer from expensive computation overhead at each step and offer limited expressiveness for complex cooperation strategies. In contrast, reinforcement learning (RL) has recently become a popular paradigm for addressing this issue. However, RL struggles with low data efficiency and cooperation when directly exploring (nearly) optimal policies in the large search space, especially with an increased agent number (e.g., 10+ agents) or in complex environments (e.g., 3D simulators). In this paper, we propose Multi-Agent Scalable GNN-based P lanner (MASP), a goal-conditioned hierarchical planner for navigation tasks with a substantial number of agents. MASP adopts a hierarchical framework to divide a large search space into multiple smaller spaces, thereby reducing the space complexity and accelerating training convergence. We also leverage graph neural networks (GNN) to model the interaction between agents and goals, improving goal achievement. Besides, to enhance generalization capabilities in scenarios with unseen team sizes, we divide agents into multiple groups, each with a previously trained number of agents. The results demonstrate that MASP outperforms classical planning-based competitors and RL baselines, achieving a nearly 100% success rate with minimal training data in both multi-agent particle environments (MPE) with 50 agents and a quadrotor 3-dimensional environment (OmniDrones) with 20 agents. Furthermore, the learned policy showcases zero-shot generalization across unseen team sizes.
翻訳日:2023-12-06 16:40:37 公開日:2023-12-05
# 拡散モデルにおける参照画像からの条件抽出

Retrieving Conditions from Reference Images for Diffusion Models ( http://arxiv.org/abs/2312.02521v1 )

ライセンス: Link先を確認
Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik Chaudhari(参考訳) 近年の拡散に基づく被写体駆動生成法は、特定の物体や人間の肖像画に忠実な画像生成を可能にしている。 しかし,アプリケーションの汎用性を向上するためには,改良されたデータセットや評価が望まれるだけでなく,条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。 この目的のために,idと衣料ラベルが強化されたアニメ図形データセットretribooru-v1を提案する。 このデータセットによって実現された新しいタスクを述べるとともに、これらのタスクを完了させる成功を計測し、画像生成の柔軟性を定量化するための新しい多様性指標を導入する。 参照画像から正確な条件情報を取得するために,ragにインスパイアされたベースライン手法を確立した。 次に,既存のタスクにおける現在の手法と比較し,提案手法の能力を示す。 最後に,新しいタスクのベースライン実験結果を提供し,可能な構造選択に関するアブレーション研究を行う。

Recent diffusion-based subject driven generative methods have enabled image generations with good fidelity for specific objects or human portraits. However, to achieve better versatility for applications, we argue that not only improved datasets and evaluations are desired, but also more careful methods to retrieve only relevant information from conditional images are anticipated. To this end, we propose an anime figures dataset RetriBooru-V1, with enhanced identity and clothing labels. We state new tasks enabled by this dataset, and introduce a new diversity metric to measure success in completing these tasks, quantifying the flexibility of image generations. We establish an RAG-inspired baseline method, designed to retrieve precise conditional information from reference images. Then, we compare with current methods on existing task to demonstrate the capability of the proposed method. Finally, we provide baseline experiment results on new tasks, and conduct ablation studies on the possible structural choices.
翻訳日:2023-12-06 16:40:07 公開日:2023-12-05
# より統一されたコンテキスト内視覚理解に向けて

Towards More Unified In-context Visual Understanding ( http://arxiv.org/abs/2312.02520v1 )

ライセンス: Link先を確認
Dianmo Sheng, Dongdong Chen, Zhentao Tan, Qiankun Liu, Qi Chu, Jianmin Bao, Tao Gong, Bin Liu, Shengwei Xu, Nenghai Yu(参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理領域における最先端アプローチとして、文脈内学習(ICL)の出現を加速させた。 近年、iclはセマンティックセグメンテーションや画像キャプションといった視覚理解タスクに採用され、有望な結果をもたらしている。 しかし、既存のvisual iclフレームワークでは、複数のモードにまたがってコンテンツを生成することはできない。 この問題に対処するために,マルチモーダル出力を有効にした視覚理解のための新しいiclフレームワークを提案する。 まず、テキストと視覚プロンプトの両方を、インターリーブされたインコンテキストシーケンスとして構造化された統一表現空間に量子化し、埋め込む。 次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行い、コンテキスト内学習を容易にする。 この設計のおかげで、このモデルは統合パイプラインでマルチモーダル出力でコンテキスト内視覚理解タスクを処理できる。 実験の結果, 本モデルは, 特殊モデルおよび以前のiclベースラインと比較して, 性能が向上することが示された。 全体として、本研究はマルチモーダル・イン・コンテキスト学習へのさらなる一歩を踏み出した。

The rapid advancement of large language models (LLMs) has accelerated the emergence of in-context learning (ICL) as a cutting-edge approach in the natural language processing domain. Recently, ICL has been employed in visual understanding tasks, such as semantic segmentation and image captioning, yielding promising results. However, existing visual ICL framework can not enable producing content across multiple modalities, which limits their potential usage scenarios. To address this issue, we present a new ICL framework for visual understanding with multi-modal output enabled. First, we quantize and embed both text and visual prompt into a unified representational space, structured as interleaved in-context sequences. Then a decoder-only sparse transformer architecture is employed to perform generative modeling on them, facilitating in-context learning. Thanks to this design, the model is capable of handling in-context vision understanding tasks with multimodal output in a unified pipeline. Experimental results demonstrate that our model achieves competitive performance compared with specialized models and previous ICL baselines. Overall, our research takes a further step toward unified multimodal in-context learning.
翻訳日:2023-12-06 16:39:52 公開日:2023-12-05
# 創造的エージェント:創造的タスクのためのイマジネーションによるエージェントの強化

Creative Agents: Empowering Agents with Imagination for Creative Tasks ( http://arxiv.org/abs/2312.02519v1 )

ライセンス: Link先を確認
Chi Zhang, Penglin Cai, Yuhui Fu, Haoqi Yuan, Zongqing Lu(参考訳) オープンエンドな創造的タスクのための具体化エージェントの構築について検討する。 既存のメソッドでは、多様なオープンなタスクを実行できるインストラクションフォローエージェントが構築されているが、クリエイティビティ(創造性)は示されていない。 この制限は、抽象言語命令を環境内の具体的なタスク目標に変換し、そのような複雑な目標に対する長期計画を実行することができないことに由来する。 人間が創造的なタスクを想像力の助けを借りて実行するという観察を踏まえ、我々は創造的なエージェントのためのソリューションのクラスを提案し、そこでは、言語命令で条件付けられたタスク成果の詳細な想像力を生成する想像力によって、コントローラを拡張させる。 創造的エージェントの構成要素を実装するためのいくつかのアプローチを紹介する。 テキスト・イマジネーションのための大きな言語モデルと視覚的イマジネーションのための拡散モデルを実装した。 コントローラは、データから学んだ行動閉鎖ポリシーか、環境内で実行可能なコードを生成する事前訓練された基礎モデルのいずれかである。 私たちは、オープンワールドゲームminecraftで創造的なタスクをベンチマークし、エージェントにフリーフォームの言語指示を与えて、多様な建物を作るように依頼します。 また,GPT-4Vを用いたオープンエンドクリエイティブタスクの新たな評価指標を提案する。 我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。 私たちのベンチマークとモデルは、クリエイティブエージェント(https://github.com/PKU-RL/Creative-Agents)に関する将来の研究のためにオープンソースです。

We study building embodied agents for open-ended creative tasks. While existing methods build instruction-following agents that can perform diverse open-ended tasks, none of them demonstrates creativity -- the ability to give novel and diverse task solutions implicit in the language instructions. This limitation comes from their inability to convert abstract language instructions into concrete task goals in the environment and perform long-horizon planning for such complicated goals. Given the observation that humans perform creative tasks with the help of imagination, we propose a class of solutions for creative agents, where the controller is enhanced with an imaginator that generates detailed imaginations of task outcomes conditioned on language instructions. We introduce several approaches to implementing the components of creative agents. We implement the imaginator with either a large language model for textual imagination or a diffusion model for visual imagination. The controller can either be a behavior-cloning policy learned from data or a pre-trained foundation model generating executable codes in the environment. We benchmark creative tasks with the challenging open-world game Minecraft, where the agents are asked to create diverse buildings given free-form language instructions. In addition, we propose novel evaluation metrics for open-ended creative tasks utilizing GPT-4V, which holds many advantages over existing metrics. We perform a detailed experimental analysis of creative agents, showing that creative agents are the first AI agents accomplishing diverse building creation in the survival mode of Minecraft. Our benchmark and models are open-source for future research on creative agents (https://github.com/PKU-RL/Creative-Agents).
翻訳日:2023-12-06 16:39:33 公開日:2023-12-05
# クラス不均衡下でのニューラルネットワークトレーニングの簡素化

Simplifying Neural Network Training Under Class Imbalance ( http://arxiv.org/abs/2312.02517v1 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv and Micah Goldblum and Yucen Lily Li and C. Bayan Bruss and Andrew Gordon Wilson(参考訳) 実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。 クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊損失関数、サンプリング技術、あるいは2段階のトレーニング手順に焦点を当てている。 特に,バッチサイズやデータ拡張,オプティマイザ,ラベルスムーシングといった,標準的なディープラーニングパイプラインの既存のコンポーネントのチューニングを,特別なクラス不均衡を伴わずに実現できることを実証する。 また、クラス不均衡の下でのトレーニングのための重要な処方や考察、不均衡メソッドが成功したり失敗したりする理由の理解も提供する。

Real-world datasets are often highly class-imbalanced, which can adversely impact the performance of deep learning models. The majority of research on training neural networks under class imbalance has focused on specialized loss functions, sampling techniques, or two-stage training procedures. Notably, we demonstrate that simply tuning existing components of standard deep learning pipelines, such as the batch size, data augmentation, optimizer, and label smoothing, can achieve state-of-the-art performance without any such specialized class imbalance methods. We also provide key prescriptions and considerations for training under class imbalance, and an understanding of why imbalance methods succeed or fail.
翻訳日:2023-12-06 16:39:06 公開日:2023-12-05
# ASPEN: 単一GPUを用いた大規模言語モデルの高速LoRAファインチューニング

ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a Single GPU ( http://arxiv.org/abs/2312.02515v1 )

ライセンス: Link先を確認
Zhengmao Ye and Dengchun Li and Jingqi Tian and Tingfeng Lan and Jie Zuo and Lei Duan and Hui Lu and Yexi Jiang and Jian Sha and Ke Zhang and Mingjie Tang(参考訳) トランスフォーマティブベースの大規模言語モデル(llm)は、特に特定のドメインに対して微調整された場合に、さまざまなドメインにまたがる優れた性能を示している。 近年の研究では、Low-Rank Adaptation (LoRA) のようなパラメータ効率の高い手法により、微調整 LLM に必要な資源をエコノマイズすることができることが示唆されている。 LoRAは計算負荷とリソース要求を効果的に削減するが、現在は単一ジョブの微調整のみをサポートしている。 本稿では,微調整LDMのための高スループットフレームワークであるASPENについて述べる。 ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。 ASPENはLLaMAやChatGLMといったトランスフォーマーベースの言語モデルと互換性がある。 実験によると、複数のllama-7bモデルをnvidia a100 80gb gpuでトレーニングする場合、aspenはgpuメモリの53%を節約し、トレーニングスループットを既存の方法に比べて約17%向上させる。 適応スケジューリングアルゴリズムは、ターンアラウンド時間を24%削減し、エンドツーエンドのトレーニング遅延を12%削減し、ジョブを優先順位付けし、メモリ外問題を防止する。

Transformer-based large language models (LLMs) have demonstrated outstanding performance across diverse domains, particularly when fine-turned for specific domains. Recent studies suggest that the resources required for fine-tuning LLMs can be economized through parameter-efficient methods such as Low-Rank Adaptation (LoRA). While LoRA effectively reduces computational burdens and resource demands, it currently supports only a single-job fine-tuning setup. In this paper, we present ASPEN, a high-throughput framework for fine-tuning LLMs. ASPEN efficiently trains multiple jobs on a single GPU using the LoRA method, leveraging shared pre-trained model and adaptive scheduling. ASPEN is compatible with transformer-based language models like LLaMA and ChatGLM, etc. Experiments show that ASPEN saves 53% of GPU memory when training multiple LLaMA-7B models on NVIDIA A100 80GB GPU and boosts training throughput by about 17% compared to existing methods when training with various pre-trained models on different GPUs. The adaptive scheduling algorithm reduces turnaround time by 24%, end-to-end training latency by 12%, prioritizing jobs and preventing out-of-memory issues.
翻訳日:2023-12-06 16:38:51 公開日:2023-12-05
# AV2AV:統一音声音声表現による直接音声音声から音声音声への変換

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation ( http://arxiv.org/abs/2312.02512v1 )

ライセンス: Link先を確認
Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro(参考訳) 本稿では,システム入力と出力がマルチモーダル(つまり音声と視覚)となるAV2AV(Audio-Visual Speech to Audio-Visual Speech Translation)フレームワークを提案する。 av2avの提案により、2つの利点がもたらされる。 1) 仮想会議において, 自己の一次言語を活用し, 個人とリアルな会話を行うことができる。 音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。 この機能は、翻訳された音声と同期した唇の動きを提示することで対話体験を向上させる。 2) 音声翻訳システムのロバスト性を向上させることができる。 音声・視覚音声の相補的な情報を利用することで、音響ノイズがあっても音声言語を効果的に翻訳し、堅牢な性能を示す。 並列AV2AV翻訳データセットが存在しない問題を軽減するため,A2Aの音声のみのデータセットを用いて音声翻訳システムを訓練することを提案する。 これは、翻訳システムの学習に先立って、自己教師付き学習を通じて、統合された音声・視覚音声表現を学習することで実現される。 さらに,生音声と映像を並列に生成できるAV-Rendererを提案する。 ゼロショット話者モデルを用いて設計されており、音源音声・視覚音声の話者を対象音声・視覚音声で維持することができる。 AV2AVの有効性は、多対多言語翻訳設定において広範な実験により評価される。 デモページはhttps://choijeongsoo.github.io/av2avで見ることができる。

This paper proposes a novel direct Audio-Visual Speech to Audio-Visual Speech Translation (AV2AV) framework, where the input and output of the system are multimodal (i.e., audio and visual speech). With the proposed AV2AV, two key advantages can be brought: 1) We can perform real-like conversations with individuals worldwide in a virtual meeting by utilizing our own primary languages. In contrast to Speech-to-Speech Translation (A2A), which solely translates between audio modalities, the proposed AV2AV directly translates between audio-visual speech. This capability enhances the dialogue experience by presenting synchronized lip movements along with the translated speech. 2) We can improve the robustness of the spoken language translation system. By employing the complementary information of audio-visual speech, the system can effectively translate spoken language even in the presence of acoustic noise, showcasing robust performance. To mitigate the problem of the absence of a parallel AV2AV translation dataset, we propose to train our spoken language translation system with the audio-only dataset of A2A. This is done by learning unified audio-visual speech representations through self-supervised learning in advance to train the translation system. Moreover, we propose an AV-Renderer that can generate raw audio and video in parallel. It is designed with zero-shot speaker modeling, thus the speaker in source audio-visual speech can be maintained at the target translated audio-visual speech. The effectiveness of AV2AV is evaluated with extensive experiments in a many-to-many language translation setting. The demo page is available on https://choijeongsoo.github.io/av2av.
翻訳日:2023-12-06 16:38:31 公開日:2023-12-05
# PETの誤動作:コンテキスト統合分析

When PETs misbehave: A Contextual Integrity analysis ( http://arxiv.org/abs/2312.02509v1 )

ライセンス: Link先を確認
Ero Balsa and Yan Shvartzshnaider(参考訳) プライバシー強化技術(PET)は、デジタルサービスの機能を損なうことなくプライバシーを保護する有望な手段として評価されている。 同時に、また、政策立案者、技術者、大衆の間で人気がある秘密性としてのプライバシーの狭義の概念化をコード化しているため、ペットのリスクは、プライバシーを侵害するプラクティスを促進するために共用される。 本稿では,プライバシー技術がプライバシーを損なうためにどのように悪用されるかを説明するために,コンテキスト整合性の理論を利用する。 年齢確認のための匿名認証、違法コンテンツ検出のためのクライアントサイドスキャン、機械学習モデルのトレーニングのための準同型暗号化の3つのペットとシナリオを考察する。 文脈整合性の理論を用いて、これらのPETが符号化するプライバシーの概念を推論し、CIによってPETの限界とその誤用を識別し、推論することが可能であり、最終的にはプライバシー侵害につながる可能性があることを示す。

Privacy enhancing technologies, or PETs, have been hailed as a promising means to protect privacy without compromising on the functionality of digital services. At the same time, and partly because they may encode a narrow conceptualization of privacy as confidentiality that is popular among policymakers, engineers and the public, PETs risk being co-opted to promote privacy-invasive practices. In this paper, we resort to the theory of Contextual Integrity to explain how privacy technologies may be misused to erode privacy. To illustrate, we consider three PETs and scenarios: anonymous credentials for age verification, client-side scanning for illegal content detection, and homomorphic encryption for machine learning model training. Using the theory of Contextual Integrity, we reason about the notion of privacy that these PETs encode, and show that CI enables us to identify and reason about the limitations of PETs and their misuse, and which may ultimately lead to privacy violations.
翻訳日:2023-12-06 16:38:07 公開日:2023-12-05
# save: 構造非依存のビデオ編集による多角化

SAVE: Protagonist Diversification with Structure Agnostic Video Editing ( http://arxiv.org/abs/2312.02503v1 )

ライセンス: Link先を確認
Yeji Song, Wonsik Shin, Junsoo Lee, Jeesoo Kim and Nojun Kwak(参考訳) テキスト・ツー・イメージ(T2I)生成モデルの増加により、テキスト・ツー・ビデオ(T2V)生成も大幅に進歩した。 そのため、オブジェクトの変更やビデオのスタイルの変更といったタスクが可能になった。 しかし、以前の作品は通常、自明で一貫性のある形状でうまく機能し、元のものと大きく異なる体型を持つ難しい標的で容易に崩壊する。 本稿では,従来の画像レベルのパーソナライズ手法を用いて,新たな主人公の選択範囲を制限する既存のビデオ編集手法におけるバイアス問題を特定し,この問題に対処する。 動きのパーソナライズにより、単一の映像から動きを分離し、それに応じて主人公を変更する。 映像と映像の自然な不一致に対処するため,音源映像中の動きを適切に表現するために,膨らんだテキスト埋め込みを用いた動き語を提案する。 また,事前計算された注目マップから効率よく計算した新しい擬似光学フローを導入することにより,動き語を適切な動き関連領域に適応するように調整する。 最後に、この動きを、追加の擬似単語で、ソースビデオの出現から切り離す。 広汎な実験により,本手法の編集能力を実証し,より多種多様なビデオ編集に向けて一歩踏み出した。

Driven by the upsurge progress in text-to-image (T2I) generation models, text-to-video (T2V) generation has experienced a significant advance as well. Accordingly, tasks such as modifying the object or changing the style in a video have been possible. However, previous works usually work well on trivial and consistent shapes, and easily collapse on a difficult target that has a largely different body shape from the original one. In this paper, we spot the bias problem in the existing video editing method that restricts the range of choices for the new protagonist and attempt to address this issue using the conventional image-level personalization method. We adopt motion personalization that isolates the motion from a single source video and then modifies the protagonist accordingly. To deal with the natural discrepancy between image and video, we propose a motion word with an inflated textual embedding to properly represent the motion in a source video. We also regulate the motion word to attend to proper motion-related areas by introducing a novel pseudo optical flow, efficiently computed from the pre-calculated attention maps. Finally, we decouple the motion from the appearance of the source video with an additional pseudo word. Extensive experiments demonstrate the editing capability of our method, taking a step toward more diverse and extensive video editing.
翻訳日:2023-12-06 16:37:49 公開日:2023-12-05
# 超音波分割作業におけるモデルフェアネスの検査

Inspecting Model Fairness in Ultrasound Segmentation Tasks ( http://arxiv.org/abs/2312.02501v1 )

ライセンス: Link先を確認
Zikang Xu, Fenghe Tang, Quan Quan, Jianrui Ding, Chunping Ning, S. Kevin Zhou(参考訳) 機械学習とディープラーニング(DL)の急速な拡大に伴い、研究者たちは、さまざまな医療タスクやアプリケーションにおける診断の課題を軽減するために、学習ベースのアルゴリズムをますます活用している。 診断精度の進歩は注目に値するが、一部の研究者は関連する傾向を特定している。 このバイアスは患者の権利を侵害するだけでなく、人生を変える結果をもたらす可能性がある。 本稿では,2つの超音波データセットを用いたdlセグメンテーションモデルの検討を行い,これらの課題におけるモデル不公平性を評価することを目的とした。 その結果,最先端のDLアルゴリズムでさえ,超音波セグメンテーション作業において不公平な動作を示すことがわかった。 これらの結果は、実世界のシナリオにデプロイする前に注意深くモデルを評価する必要性を強調する重要な警告となる。 このような評価は、倫理的考慮の確保と患者の予後に悪影響を及ぼすリスクの軽減に不可欠である。

With the rapid expansion of machine learning and deep learning (DL), researchers are increasingly employing learning-based algorithms to alleviate diagnostic challenges across diverse medical tasks and applications. While advancements in diagnostic precision are notable, some researchers have identified a concerning trend: their models exhibit biased performance across subgroups characterized by different sensitive attributes. This bias not only infringes upon the rights of patients but also has the potential to lead to life-altering consequences. In this paper, we inspect a series of DL segmentation models using two ultrasound datasets, aiming to assess the presence of model unfairness in these specific tasks. Our findings reveal that even state-of-the-art DL algorithms demonstrate unfair behavior in ultrasound segmentation tasks. These results serve as a crucial warning, underscoring the necessity for careful model evaluation before their deployment in real-world scenarios. Such assessments are imperative to ensure ethical considerations and mitigate the risk of adverse impacts on patient outcomes.
翻訳日:2023-12-06 16:37:26 公開日:2023-12-05
# 相対論的単粒子状態の計算

Calculation of Relativistic Single-Particle States ( http://arxiv.org/abs/2312.02500v1 )

ライセンス: Link先を確認
D. Wingard, B. K\'onya and Z.Papp(参考訳) 実エネルギーと複素エネルギーに対するklein-gordon方程式とdirac方程式をそれぞれ解いて境界状態と共振状態を計算する計算法を提案する。 この方法は非相対論的なものの拡張であり、そのポテンシャルはクーロン・スターム基底で表される。 この基底は連続分数の観点からクーロングリーン作用素の正確な解析的評価を容易にする。 相対論的問題の拡張において、Klein-Gordon 方程式と Dirac 方程式を有効シュリンガー形式にキャストする。 解法は基本的に、角運動量、電荷、エネルギー、ポテンシャルなどの非相対論的量の効率的な相対論的量への解析的連続である。

A computational method is proposed to calculate bound and resonant states by solving the Klein-Gordon and Dirac equations for real and complex energies, respectively. The method is an extension of a non-relativistic one, where the potential is represented in a Coulomb-Sturmian basis. This basis facilitates the exact analytic evaluation of the Coulomb Green's operator in terms of a continued fraction. In the extension to relativistic problems, we cast the Klein-Gordon and Dirac equations into an effective Schr\"odinger form. Then the solution method is basically an analytic continuation of non-relativistic quantities like the angular momentum, charge, energy and potential into the effective relativistic counterparts.
翻訳日:2023-12-06 16:37:11 公開日:2023-12-05
# Prompt2NeRF-PIL:プレトレーニングインプリシタントによる高速負波発生

Prompt2NeRF-PIL: Fast NeRF Generation via Pretrained Implicit Latent ( http://arxiv.org/abs/2312.02568v1 )

ライセンス: Link先を確認
Jianmeng Liu, Yuyao Zhang, Zeyuan Meng, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,下層3dシーンの直接条件付けと高速生成のための簡易的なnerf生成(テキストプロンプトや単一画像プロンプトなど)について検討し,条件制御を伴う完全な3d生成を提供しながら,複雑な中間ステップを解消する。 Prompt2NeRF-PILは、従来の拡散CLIPベースのパイプラインとは異なり、1つのフォワードパスで様々な3Dオブジェクトを生成し、トレーニング済みの暗黙のNeRFパラメータの潜在空間を利用することができる。 さらに, ゼロショットタスクでは, 提案手法で生成したNeRFが意味的情報的初期化として機能し, 既存手法の推論過程を著しく加速することを示した。 具体的には,テキストからNeRFモデルDreamFusionと画像からNeRFモデルZero-1-to-3の3次元再構成速度を3倍から5倍に高速化する。

This paper explores promptable NeRF generation (e.g., text prompt or single image prompt) for direct conditioning and fast generation of NeRF parameters for the underlying 3D scenes, thus undoing complex intermediate steps while providing full 3D generation with conditional control. Unlike previous diffusion-CLIP-based pipelines that involve tedious per-prompt optimizations, Prompt2NeRF-PIL is capable of generating a variety of 3D objects with a single forward pass, leveraging a pre-trained implicit latent space of NeRF parameters. Furthermore, in zero-shot tasks, our experiments demonstrate that the NeRFs produced by our method serve as semantically informative initializations, significantly accelerating the inference process of existing prompt-to-NeRF methods. Specifically, we will show that our approach speeds up the text-to-NeRF model DreamFusion and the 3D reconstruction speed of the image-to-NeRF method Zero-1-to-3 by 3 to 5 times.
翻訳日:2023-12-06 16:31:19 公開日:2023-12-05
# 選択の前に考える:ドメインシフトによる医用画像分析のためのフェデレーション・エビデンシャル・アクティブ・ラーニング

Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts ( http://arxiv.org/abs/2312.02567v1 )

ライセンス: Link先を確認
Jiayi Chen, Benteng Ma, Hengfei Cui, Yong Xia, Kwang-Ting Cheng(参考訳) フェデレートラーニングは、データを集中化せずに複数の分散医療機関でグローバルモデルの協調学習を促進する。 それでも、ローカルクライアントに対するアノテーションの高価なコストは、ローカルデータを効果的に活用する上で障害となる。 この問題を解決するために、フェデレートされたアクティブラーニング手法は、局所的およびグローバルなモデル予測を利用して、比較的少量の情報的ローカルデータをアノテーションとして選択することを提案している。 しかし、既存のメソッドは、主に同じドメインからサンプリングされたすべてのローカルデータに焦点を当てており、異なるクライアント間のドメインシフトを伴う現実的な医療シナリオでは信頼できない。 本稿では,多様なドメインから派生したローカルデータの情報性を評価するための最初の試みとして,ドメインシフト下でのデータ評価を校正するFederated Evidential Active Learning(FEAL)を提案する。 具体的には、局所モデルと大域モデルの両方におけるディリクレ事前分布を導入し、予測を確率単純度上の分布として扱い、ディリクレに基づく証明モデルを用いてアリーテームと認識的不確実性の両方を捉える。 そして, てんかん不確実性を用いて動脈不確実性を校正する。 その後,データの冗長性を低減し,データの多様性を維持するための多様性緩和戦略を策定する。 フェールが最先端アクティブラーニング法よりも優れていること, フェールの効率性を示すために, 広範囲にわたる実験と分析を行った。

Federated learning facilitates the collaborative learning of a global model across multiple distributed medical institutions without centralizing data. Nevertheless, the expensive cost of annotation on local clients remains an obstacle to effectively utilizing local data. To mitigate this issue, federated active learning methods suggest leveraging local and global model predictions to select a relatively small amount of informative local data for annotation. However, existing methods mainly focus on all local data sampled from the same domain, making them unreliable in realistic medical scenarios with domain shifts among different clients. In this paper, we make the first attempt to assess the informativeness of local data derived from diverse domains and propose a novel methodology termed Federated Evidential Active Learning (FEAL) to calibrate the data evaluation under domain shift. Specifically, we introduce a Dirichlet prior distribution in both local and global models to treat the prediction as a distribution over the probability simplex and capture both aleatoric and epistemic uncertainties by using the Dirichlet-based evidential model. Then we employ the epistemic uncertainty to calibrate the aleatoric uncertainty. Afterward, we design a diversity relaxation strategy to reduce data redundancy and maintain data diversity. Extensive experiments and analyses are conducted to show the superiority of FEAL over the state-of-the-art active learning methods and the efficiency of FEAL under the federated active learning framework.
翻訳日:2023-12-06 16:30:58 公開日:2023-12-05
# 迷路ソルビング変圧器の構造的世界表現

Structured World Representations in Maze-Solving Transformers ( http://arxiv.org/abs/2312.02566v1 )

ライセンス: Link先を確認
Michael Igorevich Ivanitskiy, Alex F. Spies, Tilman R\"auker, Guillaume Corlouer, Chris Mathwin, Lucia Quirke, Can Rager, Rusheb Shah, Dan Valentine, Cecilia Diniz Behn, Katsumi Inoue, Samy Wu Fung(参考訳) トランスフォーマーモデルは、実用的な機械学習アプリケーションにおける最近の多くの進歩を支えているが、その内部動作を理解することは研究者を遠ざけ続けている。 これらのモデルのサイズと複雑さを考えると、内部の動作を包括的に表現することは大きな課題である。 この目的のために我々は,迷路を解くという,より難解な設定で小さな変圧器モデルを理解することにした。 本研究では,これらのモデルによって形成される抽象概念に着目し,迷路位相と有効経路の構造的内部表現が一貫した出現を示す。 一つのトークンのみの残留ストリームを線形デコードして、迷路全体を忠実に再構築できることを示し、これを実証する。 また,個々のトークンの埋め込みが空間構造を持つこともわかった。 さらに注意ヘッド($\textit{adjacency heads}$)を識別することでパスフォローの回路を解読する。

Transformer models underpin many recent advances in practical machine learning applications, yet understanding their internal behavior continues to elude researchers. Given the size and complexity of these models, forming a comprehensive picture of their inner workings remains a significant challenge. To this end, we set out to understand small transformer models in a more tractable setting: that of solving mazes. In this work, we focus on the abstractions formed by these models and find evidence for the consistent emergence of structured internal representations of maze topology and valid paths. We demonstrate this by showing that the residual stream of only a single token can be linearly decoded to faithfully reconstruct the entire maze. We also find that the learned embeddings of individual tokens have spatial structure. Furthermore, we take steps towards deciphering the circuity of path-following by identifying attention heads (dubbed $\textit{adjacency heads}$), which are implicated in finding valid subsequent tokens.
翻訳日:2023-12-06 16:30:27 公開日:2023-12-05
# 障害下の反キラルエッジ状態の親和性

Fragility of the antichiral edge states under disorder ( http://arxiv.org/abs/2312.02562v1 )

ライセンス: Link先を確認
Marwa Manna\"i, Eduardo V. Castro and Sonia Haddad(参考訳) キラルエッジ状態はチャーン絶縁体におけるバルクエッジ対応の指紋である。 反キラルエッジ状態として知られる共伝播エッジモードは、時間反転対称性の破れた2次元半金属を記述するいわゆる修正ハルダンモデルで起こると予測されている。 これらの直感的なエッジモードは後方散乱に免疫があり、障害に対して非常に堅牢である。 本稿ではアンダーソン病の存在下での抗キラル端状態の堅牢性について検討する。 異なる局所化パラメータを解析することにより, 一般の信念に反して, これらのエッジモードは障害に対して脆弱であり, 容易に局所化できることを示す。 我々の研究は、反キラルトポロジカルフォトニクスと音響学の急成長する分野における輸送効率を改善するための洞察を提供する。

Chiral edge states are the fingerprint of the bulk-edge correspondence in a Chern insulator. Co-propagating edge modes, known as antichiral edge states, have been predicted to occur in the so-called modified Haldane model describing a two-dimensional semi-metal with broken time reversal symmetry. These counterintuitive edge modes are argued to be immune to backscattering and extremely robust against disorder. Here, we investigate the robustness of the antichiral edge states in the presence of Anderson disorder. By analysing different localization parameters, we show that, contrary to the general belief, these edge modes are fragile against disorder, and can be easily localized. Our work provides insights to improve the transport efficiency in the burgeoning fields of antichiral topological photonics and acoustics.
翻訳日:2023-12-06 16:30:09 公開日:2023-12-05
# DanZero+:強化学習によるGuanDanゲームの支配

DanZero+: Dominating the GuanDan Game through Reinforcement Learning ( http://arxiv.org/abs/2312.02561v1 )

ライセンス: Link先を確認
Youpeng Zhao and Yudong Lu and Jian Zhao and Wengang Zhou and Houqiang Li(参考訳) カードゲームにおける人工知能(AI)の利用は、広範囲にわたるAI研究においてよく研究されている課題である。 近年の進歩により、AIプログラムはMahjong、DouDizhu、Texas Hold'emといった複雑なカードゲームに関する専門知識を誇示している。 本研究では,GuanDanという,非常に複雑で人気のあるカードゲームのためのAIプログラムの開発を目指す。 このゲームは、4人のプレーヤーが長いプロセスを通して競争と協力の両方に関わり、そのレベルをアップグレードし、その拡張状態とアクション空間、長いエピソードの長さ、複雑なルールのためにAIにとって大きな課題を提起する。 強化学習技術,特にDeep Monte Carlo(DMC)と分散トレーニングフレームワークを活用して,DanZeroという名のAIプログラムをこのゲームに導入しました。 ヒューリスティックルールに基づくベースラインAIプログラムに対する評価は、ボットの優れたパフォーマンスを強調している。 さらに,AIの能力をさらに向上するために,政策に基づく強化学習アルゴリズムをGuanDanに適用する。 ポリシーベースのアルゴリズムのパフォーマンスに大きく影響を与える巨大なアクション空間から生じる課題に対処するために、トレーニングプロセスを促進するために事前訓練されたモデルを採用し、達成されたAIプログラムが優れたパフォーマンスを達成することができた。

The utilization of artificial intelligence (AI) in card games has been a well-explored subject within AI research for an extensive period. Recent advancements have propelled AI programs to showcase expertise in intricate card games such as Mahjong, DouDizhu, and Texas Hold'em. In this work, we aim to develop an AI program for an exceptionally complex and popular card game called GuanDan. This game involves four players engaging in both competitive and cooperative play throughout a long process to upgrade their level, posing great challenges for AI due to its expansive state and action space, long episode length, and complex rules. Employing reinforcement learning techniques, specifically Deep Monte Carlo (DMC), and a distributed training framework, we first put forward an AI program named DanZero for this game. Evaluation against baseline AI programs based on heuristic rules highlights the outstanding performance of our bot. Besides, in order to further enhance the AI's capabilities, we apply policy-based reinforcement learning algorithm to GuanDan. To address the challenges arising from the huge action space, which will significantly impact the performance of policy-based algorithms, we adopt the pre-trained model to facilitate the training process and the achieved AI program manages to achieve a superior performance.
翻訳日:2023-12-06 16:29:57 公開日:2023-12-05
# ULMA:Demonstration と Point-wise Human Preferenceによる統一言語モデルアライメント

ULMA: Unified Language Model Alignment with Demonstration and Point-wise Human Preference ( http://arxiv.org/abs/2312.02554v1 )

ライセンス: Link先を確認
Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan Zhang(参考訳) 言語モデルのアライメント(Language model alignment)は、大規模言語モデルのトレーニングにおいて、モデルの出力をユーザの意図に合わせるための最先端のテクニックである。 最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。 RLHFやDPOといった従来の選好学習手法は主にペアワイド選好データに重点を置いている。 しかし、人間のフィードバックが本質的にポイントワイズな現実のシナリオでは、これらの手法は情報損失や失敗に悩まされる。 本稿では,このギャップを埋めるため,まずポイントワイズdpoと呼ばれる選好学習法を開発し,ポイントワイズ選好データを取り扱う。 教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方のための統一的なフレームワークを開発することができ、選好データセットの構築に新たな光を当てることができる。 二項ラベルや連続ラベルを用いたポイントワイズデータセットの広範な実験により,提案手法の性能と効率が示された。 有害性に関する高品質なデモサンプルを備えた新しいデータセットを構築し、公開している。

Language model alignment is a cutting-edge technique in large language model training to align the model output to user's intent, e.g., being helpful and harmless. Recent alignment framework consists of two steps: supervised fine-tuning with demonstration data and preference learning with human preference data. Previous preference learning methods, such as RLHF and DPO, mainly focus on pair-wise preference data. However, in many real-world scenarios where human feedbacks are intrinsically point-wise, these methods will suffer from information loss or even fail. To fill this gap, in this paper, we first develop a preference learning method called point-wise DPO to tackle point-wise preference data. Further revelation on the connection between supervised fine-tuning and point-wise preference learning enables us to develop a unified framework for both human demonstration and point-wise preference data, which sheds new light on the construction of preference dataset. Extensive experiments on point-wise datasets with binary or continuous labels demonstrate the superior performance and efficiency of our proposed methods. A new dataset with high-quality demonstration samples on harmlessness is constructed and made publicly available.
翻訳日:2023-12-06 16:29:35 公開日:2023-12-05
# DemaFormer:時相言語接地のためのエネルギーモデルを用いた減衰指数移動平均変圧器

DemaFormer: Damped Exponential Moving Average Transformer with Energy-Based Modeling for Temporal Language Grounding ( http://arxiv.org/abs/2312.02549v1 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan(参考訳) 時間的言語グラウンディングは、自然言語クエリに意味的に対応するビデオモーメントをローカライズすることを目指している。 近年,ビデオモーメントとテキストクエリの関係を知るための注意機構が採用されている。 しかし, ナイーブな注意はそのような関係を適切に捉えられず, 対象の映像モーメントが残りのものから切り離すのが困難な非効率な分布をもたらす可能性がある。 この問題を解決するために,モーメントクエリ分布を明示的に学習するエネルギーモデルフレームワークを提案する。 さらに,学習可能な減衰係数を持つ指数関数的移動平均を用いてモーメントクエリ入力を効果的にエンコードする,新しいトランスベースアーキテクチャであるdemaformerを提案する。 4つの公開時間言語接地データセットに関する包括的な実験は、最先端のベースラインよりも優れた方法を示している。

Temporal Language Grounding seeks to localize video moments that semantically correspond to a natural language query. Recent advances employ the attention mechanism to learn the relations between video moments and the text query. However, naive attention might not be able to appropriately capture such relations, resulting in ineffective distributions where target video moments are difficult to separate from the remaining ones. To resolve the issue, we propose an energy-based model framework to explicitly learn moment-query distributions. Moreover, we propose DemaFormer, a novel Transformer-based architecture that utilizes exponential moving average with a learnable damping factor to effectively encode moment-query inputs. Comprehensive experiments on four public temporal language grounding datasets showcase the superiority of our methods over the state-of-the-art baselines.
翻訳日:2023-12-06 16:29:11 公開日:2023-12-05
# GeNIe: 拡散によるハードネガティブな画像の生成

GeNIe: Generative Hard Negative Images Through Diffusion ( http://arxiv.org/abs/2312.02548v1 )

ライセンス: Link先を確認
Soroush Abbasi Koohpayegani, Anuj Singh, K L Navaneet, Hadi Jamali-Rad, Hamed Pirsiavash(参考訳) 深層モデルのトレーニングにはデータ拡張が不可欠であり、限られたデータに過剰に適合できない。 一般的なデータ拡張手法は有効であるが、画像生成のための拡散モデルのような生成aiの最近の進歩は、自然画像に似たデータを生成するより洗練された拡張技術を可能にする。 分類器の理想的な決定境界に近い拡張サンプルは,学習過程の指導に特に有効かつ効果的であることが認識されている。 本稿では,テキストプロンプトに条件付き拡散モデルを用いて,コントラストデータポイント(ソースカテゴリの画像とターゲットカテゴリからのテキストプロンプト)をマージし,対象カテゴリの挑戦的なサンプルを生成するGeNIeを紹介する。 最近の画像編集法に触発されて、拡散イテレーションの数とノイズの量を制限する。 これにより、生成されたイメージがソースイメージから低レベルおよびコンテキスト的な特徴を保持し、ターゲットカテゴリと競合する可能性がある。 短時間およびロングテールの分布設定での広範な実験により,新しい拡張手法の有効性が実証された。

Data augmentation is crucial in training deep models, preventing them from overfitting to limited data. Common data augmentation methods are effective, but recent advancements in generative AI, such as diffusion models for image generation, enable more sophisticated augmentation techniques that produce data resembling natural images. We recognize that augmented samples closer to the ideal decision boundary of a classifier are particularly effective and efficient in guiding the learning process. We introduce GeNIe which leverages a diffusion model conditioned on a text prompt to merge contrasting data points (an image from the source category and a text prompt from the target category) to generate challenging samples for the target category. Inspired by recent image editing methods, we limit the number of diffusion iterations and the amount of noise. This ensures that the generated image retains low-level and contextual features from the source image, potentially conflicting with the target category. Our extensive experiments, in few-shot and also long-tail distribution settings, demonstrate the effectiveness of our novel augmentation method, especially benefiting categories with a limited number of examples.
翻訳日:2023-12-06 16:28:56 公開日:2023-12-05
# 学習型マルチオプティオンスキーレンタルにおける最適一貫性-ロバスト性トレードオフについて

On Optimal Consistency-Robustness Trade-Off for Learning-Augmented Multi-Option Ski Rental ( http://arxiv.org/abs/2312.02547v1 )

ライセンス: Link先を確認
Yongho Shin, Changyeol Lee, Hyung-Chan An(参考訳) 学習強化型マルチオプションスキーレンタル問題は、従来のスキーレンタル問題を2つの方法で一般化する: このアルゴリズムは、スキーできる日数を予測し、スキーレンタルオプションには、古典的な2オプション設定とは異なり、さまざまなレンタル期間と価格が提供される。 Zhang, Poon, Xu によるマルチオプションスキーレンタル問題(学習増強なし)の初期研究以降,この問題,特に近年において顕著な進展がみられた。 この問題は、学習強化された古典スキーレンタル問題、一貫性と堅牢性の間の最良のトレードオフを与えるアルゴリズム、そして、学習増強を伴わないマルチオプションスキーレンタル問題、最良の競争力を与える決定論的/ランダム化アルゴリズムの2つの一般化のうちの1つを放棄した時に非常によく理解されている。 しかし、両方の一般化が存在する場合、アルゴリズムと不可能な結果の間には大きなギャップが残っていた。 実のところ、ランダム化アルゴリズムでは、一貫性-ロバスト性トレードオフに非自明な下限は存在しなかった。 本稿では,決定論的アルゴリズムとランダム化アルゴリズムのギャップを橋渡しする。 決定論的アルゴリズムでは、既知の下界と完全に一致した最も有望なアルゴリズムを提案する。 ランダム化アルゴリズムでは, 整合性のトレードオフに対する最初の非自明な下界を示すとともに, 改良されたランダム化アルゴリズムを示す。 我々のアルゴリズムは、一貫性が 1.086 であるとき、e/2 の係数の範囲内のロバスト性に対する低い境界と一致する。

The learning-augmented multi-option ski rental problem generalizes the classical ski rental problem in two ways: the algorithm is provided with a prediction on the number of days we can ski, and the ski rental options now come with a variety of rental periods and prices to choose from, unlike the classical two-option setting. Subsequent to the initial study of the multi-option ski rental problem (without learning augmentation) due to Zhang, Poon, and Xu, significant progress has been made for this problem recently in particular. The problem is very well understood when we relinquish one of the two generalizations -- for the learning-augmented classical ski rental problem, algorithms giving best-possible trade-off between consistency and robustness exist; for the multi-option ski rental problem without learning augmentation, deterministic/randomized algorithms giving the best-possible competitiveness have been found. However, in presence of both generalizations, there remained a huge gap between the algorithmic and impossibility results. In fact, for randomized algorithms, we did not have any nontrivial lower bounds on the consistency-robustness trade-off before. This paper bridges this gap for both deterministic and randomized algorithms. For deterministic algorithms, we present a best-possible algorithm that completely matches the known lower bound. For randomized algorithms, we show the first nontrivial lower bound on the consistency-robustness trade-off, and also present an improved randomized algorithm. Our algorithm matches our lower bound on robustness within a factor of e/2 when the consistency is at most 1.086.
翻訳日:2023-12-06 16:28:37 公開日:2023-12-05
# マシンビジョンセラピー:マルチモーダルな大規模言語モデルでは、文脈内学習による視覚的ロバスト性を高めることができる

Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning ( http://arxiv.org/abs/2312.02546v1 )

ライセンス: Link先を確認
Zhuo Huang, Chang Liu, Yinpeng Dong, Hang Su, Shibao Zheng, Tongliang Liu(参考訳) Contrastive Language-Image Pre-Training (CLIP) のような視覚モデルは、優れた一般化性能を示すが、そのゼロショットのロバスト性は、微調整なしではout-of-Distribution (OOD) のシナリオで制限されている。 一般的なように人間の監督を提供するのではなく、強力な視覚理解能力を持つマルチモーダル大言語モデル(mllm)を活用することができる。 しかし、MLLMはタスクの不整合性により視覚問題に苦しむことが示され、その利用を妨げている。 本稿では,MLLMを効果的に活用して,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。 識別ラベルを微調整することにより、教師なしの方法で学習モデル性能を高めることができる。 非互換性問題を解決するために,視覚タスクとMLLMを連携させる新しいDICL戦略を提案する。 具体的には、あるクラスが他のクラスと混同される確率を推定する遷移行列を推定することにより、最も確率の高いノイズクラスから正しい例と間違った例を含む命令を構築することができる。 このような命令は、ICL能力を持つ任意のMLLMにおいて、視覚モデルの誤った予測を検出し、修正するのに役立つ。 ImageNet、WILDS、DomainBed、その他のOODデータセットに関する広範な実験を通じて、本手法の定量的かつ定性的な効果を慎重に検証する。 私たちのコードはhttps://github.com/tmllab/Machine_Vision_Therapyで利用可能です。

Although vision models such as Contrastive Language-Image Pre-Training (CLIP) show impressive generalization performance, their zero-shot robustness is still limited under Out-of-Distribution (OOD) scenarios without fine-tuning. Instead of undesirably providing human supervision as commonly done, it is possible to take advantage of Multi-modal Large Language Models (MLLMs) that hold powerful visual understanding abilities. However, MLLMs are shown to struggle with vision problems due to the incompatibility of tasks, thus hindering their utilization. In this paper, we propose to effectively leverage MLLMs to conduct Machine Vision Therapy which aims to rectify the noisy predictions from vision models. By fine-tuning with the denoised labels, the learning model performance can be boosted in an unsupervised manner. To solve the incompatibility issue, we propose a novel Denoising In-Context Learning (DICL) strategy to align vision tasks with MLLMs. Concretely, by estimating a transition matrix that captures the probability of one class being confused with another, an instruction containing a correct exemplar and an erroneous one from the most probable noisy class can be constructed. Such an instruction can help any MLLMs with ICL ability to detect and rectify incorrect predictions of vision models. Through extensive experiments on ImageNet, WILDS, DomainBed, and other OOD datasets, we carefully validate the quantitative and qualitative effectiveness of our method. Our code is available at https://github.com/tmllab/Machine_Vision_Therapy.
翻訳日:2023-12-06 16:28:12 公開日:2023-12-05
# リモートセンシングセグメンテーションのためのグラフ情報基盤

Graph Information Bottleneck for Remote Sensing Segmentation ( http://arxiv.org/abs/2312.02545v1 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Tao Meng(参考訳) リモートセンシングセグメンテーションは、環境保護や都市変化検出など、幅広い用途に応用されている。 深層学習に基づくリモートセンシングセグメンテーション(CNNやTransformerなど)の成功にもかかわらず、不規則なオブジェクトをモデル化するのに十分な柔軟性はない。 さらに、既存のグラフコントラスト学習法は、通常、相互情報を最大化して異なるグラフビュー間のノード表現を一貫性を保つ方法を採用しており、それによってモデルがタスク非依存の冗長情報を学習する可能性がある。 上記の問題に対処するために,画像をグラフ構造として扱い,リモートセンシングセグメンテーションのための単純なコントラスト視覚GNN(SC-ViG)アーキテクチャを導入する。 具体的には,ノードマスキングおよびエッジマスキンググラフビューを構築し,最適なグラフ構造表現を得ることによって,ノードとエッジをマスクするかどうかを適応的に学習する。 さらに,タスクに依存しない冗長情報を最小化しつつ,タスク関連情報を最大化するグラフコントラスト学習に情報ボトルネック理論を革新的に導入する。 最後に、UNetの畳み込みモジュールをSC-ViGモジュールに置き換え、リモートセンシング画像のセグメンテーションおよび分類タスクを完成させる。 公開されている実データに対する大規模な実験により、我々の手法は最先端のリモートセンシング画像セグメンテーション法より優れていることが示された。

Remote sensing segmentation has a wide range of applications in environmental protection, and urban change detection, etc. Despite the success of deep learning-based remote sensing segmentation methods (e.g., CNN and Transformer), they are not flexible enough to model irregular objects. In addition, existing graph contrastive learning methods usually adopt the way of maximizing mutual information to keep the node representations consistent between different graph views, which may cause the model to learn task-independent redundant information. To tackle the above problems, this paper treats images as graph structures and introduces a simple contrastive vision GNN (SC-ViG) architecture for remote sensing segmentation. Specifically, we construct a node-masked and edge-masked graph view to obtain an optimal graph structure representation, which can adaptively learn whether to mask nodes and edges. Furthermore, this paper innovatively introduces information bottleneck theory into graph contrastive learning to maximize task-related information while minimizing task-independent redundant information. Finally, we replace the convolutional module in UNet with the SC-ViG module to complete the segmentation and classification tasks of remote sensing images. Extensive experiments on publicly available real datasets demonstrate that our method outperforms state-of-the-art remote sensing image segmentation methods.
翻訳日:2023-12-06 16:27:43 公開日:2023-12-05
# 最適化のためのスピン状態と強制運動の局所性評価

Characterization of Locality in Spin States and Forced Moves for Optimizations ( http://arxiv.org/abs/2312.02544v1 )

ライセンス: Link先を確認
Yoshiki Sato, Makiko Konoshima, Hirotaka Tamura, Jun Ohkubo(参考訳) イジングの定式化は組合せ最適化の問題を解決するために広く使われており、様々な量子または半導体ベースのハードウェアが最近利用可能になった。 組合せ最適化問題において、エネルギーランドスケープにおける局所最小値の存在は、世界最小値を求めるために問題となる。 最適化の目的はボルツマン分布から正確なサンプリングを得ることではなく、したがって詳細なバランス条件を満たす必要はないことに留意する。 この事実に照らして,我々は局所的ミニマから効率的に抜け出すアルゴリズムを開発したが,正確なサンプリングは得られない。 この目的のために、我々は、特定のハードウェアで容易に得ることのできる、現在の状態における局所性を特徴付ける機能を利用する。 さらに,提案アルゴリズムは拒絶フリーのアルゴリズムに基づいているため,計算コストは低い。 本研究では,提案アルゴリズムの詳細を提示した後,提案手法の有効性を示す数値実験の結果を報告する。

Ising formulations are widely utilized to solve combinatorial optimization problems, and a variety of quantum or semiconductor-based hardware has recently been made available. In combinatorial optimization problems, the existence of local minima in energy landscapes is problematic to use to seek the global minimum. We note that the aim of the optimization is not to obtain exact samplings from the Boltzmann distribution, and there is thus no need to satisfy detailed balance conditions. In light of this fact, we develop an algorithm to get out of the local minima efficiently while it does not yield the exact samplings. For this purpose, we utilize a feature that characterizes locality in the current state, which is easy to obtain with a type of specialized hardware. Furthermore, as the proposed algorithm is based on a rejection-free algorithm, the computational cost is low. In this work, after presenting the details of the proposed algorithm, we report the results of numerical experiments that demonstrate the effectiveness of the proposed feature and algorithm.
翻訳日:2023-12-06 16:27:18 公開日:2023-12-05
# 双対n-hidden比較による説明可能な重症度 : 緑内障の1例

Explainable Severity ranking via pairwise n-hidden comparison: a case study of glaucoma ( http://arxiv.org/abs/2312.02541v1 )

ライセンス: Link先を確認
Hong Nguyen, Cuong V. Nguyen, Shrikanth Narayanan, Benjamin Y. Xu, Michael Pazzani(参考訳) 原発性開放隅角緑内障(primary open-angle glaucoma, poag)は、慢性で進行性の視神経疾患であり、後天性視神経線維の喪失と潜在的な失明を引き起こす。 緑内障の段階的な発症により、患者は変化を意識せずに徐々に視力を失う。 気腫の診断と重症度判定には,包括的拡張眼科を施行する必要がある。 本研究では,眼底画像を用いて緑内障の重症度を分類・比較・解釈する枠組みを構築した。 ペアワイズn-hidden比較を用いたシアムに基づく重度ランキングを導入する。 さらに、特定の画像が他の画像よりも厳しいと考えられる理由を説明するための新しいアプローチも用意しています。 以上の結果から,重症度分類モデルは従来の診断精度を上回っており,改善した給与説明が得られていることが示唆された。

Primary open-angle glaucoma (POAG) is a chronic and progressive optic nerve condition that results in an acquired loss of optic nerve fibers and potential blindness. The gradual onset of glaucoma results in patients progressively losing their vision without being consciously aware of the changes. To diagnose POAG and determine its severity, patients must undergo a comprehensive dilated eye examination. In this work, we build a framework to rank, compare, and interpret the severity of glaucoma using fundus images. We introduce a siamese-based severity ranking using pairwise n-hidden comparisons. We additionally have a novel approach to explaining why a specific image is deemed more severe than others. Our findings indicate that the proposed severity ranking model surpasses traditional ones in terms of diagnostic accuracy and delivers improved saliency explanations.
翻訳日:2023-12-06 16:27:03 公開日:2023-12-05
# レーザーネットワークを用いた集団意思決定のための非対称リーダ・ラガードクラスタ同期

Asymmetric leader-laggard cluster synchronization for collective decision-making with laser network ( http://arxiv.org/abs/2312.02537v1 )

ライセンス: Link先を確認
Shun Kotoku, Takatomo Mihana, Andr\'e R\"ohm, Ryoichi Horisaki, and Makoto Naruse(参考訳) フォトニック加速器は近年、情報処理に光の究極の性質を活用して関心を集めている。 レーザネットワークによる集団決定は、光学的相互接続レーザーのカオス的・同期的ダイナミクスを用いて、競合するマルチアームバンディット(CMAB)問題に対処するものであり、そのスケーラビリティと実験的実現性から非常に説得力のあるアプローチである。 定量的安定性解析により,集団決定のためのネットワーク構造について検討した。 さらに,CMAB問題におけるプレイヤーの非対称な選好を実証し,より実用的な応用に拡張した。 本研究では,カオスレーザーとフォトニックデバイスを用いた機械学習の能力と意義について述べる。

Photonic accelerators have recently attracted soaring interest, harnessing the ultimate nature of light for information processing. Collective decision-making with a laser network, employing the chaotic and synchronous dynamics of optically interconnected lasers to address the competitive multi-armed bandit (CMAB) problem, is a highly compelling approach due to its scalability and experimental feasibility. We investigated essential network structures for collective decision-making through quantitative stability analysis. Moreover, we demonstrated the asymmetric preferences of players in the CMAB problem, extending its functionality to more practical applications. Our study highlights the capability and significance of machine learning built upon chaotic lasers and photonic devices.
翻訳日:2023-12-06 16:26:35 公開日:2023-12-05
# 機能活性化と直交型学習によるオープンセットジェスチャー認識に向けて

Towards Open-set Gesture Recognition via Feature Activation Enhancement and Orthogonal Prototype Learning ( http://arxiv.org/abs/2312.02535v1 )

ライセンス: Link先を確認
Chen Liu, Can Han, Chengfeng Zhou, Crystal Cai, Suncheng Xiang, Hualiang Ni, Dahong Qian(参考訳) ジェスチャー認識はヒューマンマシンインタラクション(hmi)の基本的なタスクである。 表面筋電図(sEMG)に基づくジェスチャー認識の進歩は著しいが, クローズドセット内でのみ事前に定義されたジェスチャーの正確な認識はいまだに不十分である。 堅牢なシステムにおいて,不利な動作を効果的に識別し,否定することが重要である。 このオープンセット認識(osr)問題に取り組むために,プロトタイプ学習(pl)に基づく手法が数多く提案されている。 しかし、それらは既知のクラスと未知のクラスの間の固有の区別を完全には探求しない。 本稿では,特徴活性化レベルと投影不整合という2つの特徴を生かしたより効果的なpl法を提案する。 具体的には、FAEM(Feature Activation Enhancement Mechanism)は、既知のクラスと未知クラスの機能アクティベーション値のギャップを広げる。 さらに,複数の視点を構築するために,Orthogonal Prototype Learning (OPL)を導入する。 OPLは2つの投影の区別を最大化するために直交方向からサンプルを投影し、既知のサンプルがクラス内類似性を維持している間、未知のサンプルは異なる既知のクラスのクラスタの近くに投影される。 提案手法は,既定ジェスチャの正確なクローズドセット分類と未知ジェスチャの効果的な拒絶を同時に達成する。 積極的実験は、sEMGに基づくオープンセットジェスチャー認識の有効性と優位性を示す。

Gesture recognition is a foundational task in human-machine interaction (HMI). While there has been significant progress in gesture recognition based on surface electromyography (sEMG), accurate recognition of predefined gestures only within a closed set is still inadequate in practice. It is essential to effectively discern and reject unknown gestures of disinterest in a robust system. Numerous methods based on prototype learning (PL) have been proposed to tackle this open set recognition (OSR) problem. However, they do not fully explore the inherent distinctions between known and unknown classes. In this paper, we propose a more effective PL method leveraging two novel and inherent distinctions, feature activation level and projection inconsistency. Specifically, the Feature Activation Enhancement Mechanism (FAEM) widens the gap in feature activation values between known and unknown classes. Furthermore, we introduce Orthogonal Prototype Learning (OPL) to construct multiple perspectives. OPL acts to project a sample from orthogonal directions to maximize the distinction between its two projections, where unknown samples will be projected near the clusters of different known classes while known samples still maintain intra-class similarity. Our proposed method simultaneously achieves accurate closed-set classification for predefined gestures and effective rejection for unknown gestures. Extensive experiments demonstrate its efficacy and superiority in open-set gesture recognition based on sEMG.
翻訳日:2023-12-06 16:26:16 公開日:2023-12-05
# 逆文脈学習によるプロンプト最適化

Prompt Optimization via Adversarial In-Context Learning ( http://arxiv.org/abs/2312.02614v1 )

ライセンス: Link先を確認
Xuan Long Do, Yiran Zhao, Hannah Brown, Yuxi Xie, James Xu Zhao, Nancy F. Chen, Kenji Kawaguchi, Michael Qizhe Xie, Junxian He(参考訳) 本稿では,1つの LLM をジェネレータとして,もう1つは識別器として,もう1つはプロンプト修飾器として,さらに第3はプロンプト修飾器として,インコンテクスト学習(ICL)のプロンプトを最適化する手法を提案する。 従来の逆数学習と同様に、adv-ICLはジェネレータと判別器の間で2人プレイヤゲームとして実装され、ジェネレータは判別器を騙すのに十分な出力を生成しようとする。 各ラウンドにおいて、タスク命令といくつかのexemplarでプレフィックスされた入力が与えられると、ジェネレータは出力を生成する。 判別器は、生成器の入出力ペアをモデル生成または実データとして分類する。 判別器損失に基づいて、プロンプト修飾器は生成器への編集が可能であり、識別器のプロンプトが提案され、最も良くなる編集が選択される。 本稿では,Adv-ICLにより,11 世代におけるオープンソースモデルとクローズドソースモデルの最適化手法と,要約,算術的推論,機械翻訳,データ-テキスト生成,MMLU およびBig-bench ハードベンチマークなどの分類タスクが改良されたことを示す。 さらに,本手法では事前学習モデルを用いて,モデルパラメータではなくプロンプトのみを更新するので,計算効率が良く,どのLLMやタスクにも容易に拡張でき,低リソース設定でも有効である。

We propose a new method, Adversarial In-Context Learning (adv-ICL), to optimize prompt for in-context learning (ICL) by employing one LLM as a generator, another as a discriminator, and a third as a prompt modifier. As in traditional adversarial learning, adv-ICL is implemented as a two-player game between the generator and discriminator, where the generator tries to generate realistic enough output to fool the discriminator. In each round, given an input prefixed by task instructions and several exemplars, the generator produces an output. The discriminator is then tasked with classifying the generator input-output pair as model-generated or real data. Based on the discriminator loss, the prompt modifier proposes possible edits to the generator and discriminator prompts, and the edits that most improve the adversarial loss are selected. We show that adv-ICL results in significant improvements over state-of-the-art prompt optimization techniques for both open and closed-source models on 11 generation and classification tasks including summarization, arithmetic reasoning, machine translation, data-to-text generation, and the MMLU and big-bench hard benchmarks. In addition, because our method uses pre-trained models and updates only prompts rather than model parameters, it is computationally efficient, easy to extend to any LLM and task, and effective in low-resource settings.
翻訳日:2023-12-06 16:18:24 公開日:2023-12-05
# 群集分析における視覚的・行動的忠実性の統一シミュレーションフレームワーク

A Unified Simulation Framework for Visual and Behavioral Fidelity in Crowd Analysis ( http://arxiv.org/abs/2312.02613v1 )

ライセンス: Link先を確認
Niccol\`o Bisagno, Nicola Garau, Antonio Luigi Stefani, and Nicola Conci(参考訳) シミュレーションは、注釈付きデータを簡単に生成する強力なツールであり、特に学習モデルに大きなトレーニングデータセットを必要とする領域において、非常に望ましい機能である。 機械学習とディープラーニングのソリューションは、非常にデータ不足であることが証明されており、利用可能な現実世界のデータでは、与えられたタスクを効果的にモデル化するには不十分な場合もある。 科学コミュニティの一部の初期の懐疑主義にもかかわらず、多くの応用分野においてシミュレーションの可能性は広く確認されており、レンダリングと仮想化エンジンの点での最近の進歩は複雑なシーンを表現する上でも優れた能力を示している。 これには、気象条件や表面反射などの環境要因や、人間の行動や行動のような人間関連の事象が含まれる。 我々は,unicrowdと呼ばれる人間の群集シミュレータとそれに関連する検証パイプラインを提案する。 本稿では,コンピュータビジョンタスク,特に検出とセグメンテーションに適したアノテートデータや,群衆数,人間のポーズ推定,軌道解析と予測,異常検出などの関連アプリケーションをどのように生成できるかを示す。

Simulation is a powerful tool to easily generate annotated data, and a highly desirable feature, especially in those domains where learning models need large training datasets. Machine learning and deep learning solutions, have proven to be extremely data-hungry and sometimes, the available real-world data are not sufficient to effectively model the given task. Despite the initial skepticism of a portion of the scientific community, the potential of simulation has been largely confirmed in many application areas, and the recent developments in terms of rendering and virtualization engines, have shown a good ability also in representing complex scenes. This includes environmental factors, such as weather conditions and surface reflectance, as well as human-related events, like human actions and behaviors. We present a human crowd simulator, called UniCrowd, and its associated validation pipeline. We show how the simulator can generate annotated data, suitable for computer vision tasks, in particular for detection and segmentation, as well as the related applications, as crowd counting, human pose estimation, trajectory analysis and prediction, and anomaly detection.
翻訳日:2023-12-06 16:17:52 公開日:2023-12-05
# 回帰市場におけるデータ類似性を考慮したプライバシアウェアデータ取得

Privacy-Aware Data Acquisition under Data Similarity in Regression Markets ( http://arxiv.org/abs/2312.02611v1 )

ライセンス: Link先を確認
Shashi Raj Pandey, Pierre Pinson, and Petar Popovski(参考訳) データ市場は、予測、学習、推論などのアプリケーションの分散データ交換を促進する。 これらの市場の設計には、さまざまなプライバシー設定やデータ所有者間のデータ類似性が課題となっている。 関連する研究は、データの類似性が統計情報漏洩によって価格やデータ価値にどのように影響するかを見落としてきた。 本研究では,データの類似性とプライバシの嗜好が市場設計に不可欠なことを実証し,局所的な差分プライバシーを用いたクエリ応答プロトコルを提案する。 当社の回帰データ市場モデルでは,プライバシを意識した所有者と学習者との戦略的相互作用を,要求された価格とプライバシ要因に対するstackelbergゲームとして分析しています。 最後に,データの類似性が市場参加と取引データ価値に与える影響を数値的に評価する。

Data markets facilitate decentralized data exchange for applications such as prediction, learning, or inference. The design of these markets is challenged by varying privacy preferences as well as data similarity among data owners. Related works have often overlooked how data similarity impacts pricing and data value through statistical information leakage. We demonstrate that data similarity and privacy preferences are integral to market design and propose a query-response protocol using local differential privacy for a two-party data acquisition mechanism. In our regression data market model, we analyze strategic interactions between privacy-aware owners and the learner as a Stackelberg game over the asked price and privacy factor. Finally, we numerically evaluate how data similarity affects market participation and traded data value.
翻訳日:2023-12-06 16:17:35 公開日:2023-12-05
# panoptica -- インスタンス単位での3dセマンティクスとインスタンスセグメンテーションマップの評価

Panoptica -- instance-wise evaluation of 3D semantic and instance segmentation maps ( http://arxiv.org/abs/2312.02608v1 )

ライセンス: Link先を確認
Florian Kofler, Hendrik M\"oller, Josef A. Buchner, Ezequiel de la Rosa, Ivan Ezhov, Marcel Rosier, Isra Mekki, Suprosanna Shit, Moritz Negwer, Rami Al-Maskari, Ali Ert\"urk, Shankeeth Vinayahalingam, Fabian Isensee, Sarthak Pati, Daniel Rueckert, Jan S. Kirschke, Stefan K. Ehrlich, Annika Reinke, Bjoern Menze, Benedikt Wiestler, Marie Piraud(参考訳) 本稿では,2次元および3次元のセグメンテーションマップからインスタンス毎のセグメンテーション品質指標を計算するために設計された,汎用性とパフォーマンスを最適化したパッケージであるpanopticaを紹介する。 panopticaは既存のメトリクスの制限に対処し、距離メトリック平均対称表面距離のような他のメトリクスとユニオンベースのpanoptic品質のオリジナルの交差点を補完するモジュラーフレームワークを提供する。 パッケージはオープンソースで、Pythonで実装され、包括的なドキュメントとチュートリアルが付属している。 panopticaは多様なユースケースをカバーするために、3段階のメトリクス計算プロセスを採用している。 様々な実世界のバイオメディカルデータセットにおいて、パンプトペラの有効性が示され、臨床上の課題の正確な表現には、事例的評価が有効である。 全体として、panopticaはセグメンテーション手法の詳細な評価を容易にする貴重なツールだと考えています。

This paper introduces panoptica, a versatile and performance-optimized package designed for computing instance-wise segmentation quality metrics from 2D and 3D segmentation maps. panoptica addresses the limitations of existing metrics and provides a modular framework that complements the original intersection over union-based panoptic quality with other metrics, such as the distance metric Average Symmetric Surface Distance. The package is open-source, implemented in Python, and accompanied by comprehensive documentation and tutorials. panoptica employs a three-step metrics computation process to cover diverse use cases. The efficacy of panoptica is demonstrated on various real-world biomedical datasets, where an instance-wise evaluation is instrumental for an accurate representation of the underlying clinical task. Overall, we envision panoptica as a valuable tool facilitating in-depth evaluation of segmentation methods.
翻訳日:2023-12-06 16:17:24 公開日:2023-12-05
# 勾配減衰と層別蒸留を伴う学習ビデオコーデックの高速化

Accelerating Learnt Video Codecs with Gradient Decay and Layer-wise Distillation ( http://arxiv.org/abs/2312.02605v1 )

ライセンス: Link先を確認
Tianhao Peng, Ge Gao, Heming Sun, Fan Zhang and David Bull(参考訳) 近年、エンドツーエンドの学習ビデオコーデックは、圧縮効率の観点から従来の符号化アルゴリズムと競合する可能性を示している。 しかし、ほとんどの学習ベースのビデオ圧縮モデルは高い計算複雑性とレイテンシ、特にデコーダ側で関連するため、実際のアプリケーションへのデプロイが制限される。 本稿では,勾配減衰と適応層蒸留に基づく新しいモデル非依存プルーニングスキームを提案する。 勾配減衰はスパルシフィケーション中のパラメータ探索を増強し、暴走スパーシティを防止し、標準的なストレートスルー推定よりも優れている。 適応層ワイド蒸留は, 中間特性の歪みに基づいて, 種々の段階におけるスパース訓練を規制する。 この段階的な設計は、最小の計算オーバーヘッドでパラメータを効率的に更新する。 提案手法は,学習ビデオコーデック,FVC,DCVC,DCVC-HEMの3つに応用されている。 その結果,BD-PSNRでは最大65%のMACと2倍のスピードアップ,0.3dB未満のBD-PSNRが得られた。 コードと補足資料のサポートは、https://jasminepp.github.io/lightweightdvc/からダウンロードできる。

In recent years, end-to-end learnt video codecs have demonstrated their potential to compete with conventional coding algorithms in term of compression efficiency. However, most learning-based video compression models are associated with high computational complexity and latency, in particular at the decoder side, which limits their deployment in practical applications. In this paper, we present a novel model-agnostic pruning scheme based on gradient decay and adaptive layer-wise distillation. Gradient decay enhances parameter exploration during sparsification whilst preventing runaway sparsity and is superior to the standard Straight-Through Estimation. The adaptive layer-wise distillation regulates the sparse training in various stages based on the distortion of intermediate features. This stage-wise design efficiently updates parameters with minimal computational overhead. The proposed approach has been applied to three popular end-to-end learnt video codecs, FVC, DCVC, and DCVC-HEM. Results confirm that our method yields up to 65% reduction in MACs and 2x speed-up with less than 0.3dB drop in BD-PSNR. Supporting code and supplementary material can be downloaded from: https://jasminepp.github.io/lightweightdvc/
翻訳日:2023-12-06 16:17:10 公開日:2023-12-05
# 無期限カジュアルオーダーでのスクランブルによる損傷情報の回復

Recovery of damaged information via scrambling in indefinite casual order ( http://arxiv.org/abs/2312.02602v1 )

ライセンス: Link先を確認
Tian-Ren Jin, Tian-Ming Li, Zheng-An Wang, Kai Xu, Yu-Ran Zhang, and Heng Fan(参考訳) スクランブルは局所作用素との局所情報へのアクセスを防ぎ、それゆえ局所摂動による損傷から量子情報を保護することができる。 損傷の種類が分かっている場合、部分的な量子情報は回復できるが、得られた状態が初期状態と最大混合状態との混合であるため、初期目標状態を完全に回復することはできない。 本稿では,無期限のカジュアルオーダーでスクランブルすることで,損傷した量子情報を復元する改良手法を示す。 損傷の種類を記録し、元の状態に対して回復した量子状態の忠実性を向上させることができる。 さらに、スキームを反復することで、初期量子状態を完全に取り出すことができる。 さらに、クラウドベースの量子コンピュータquafu上での方式を実験的に実証した。 本研究は、量子誤り訂正や絡み込み浄化プロトコルなどの他の手法と互換性のある、全量子情報を損傷から保護するための実現可能なスキームを提案する。

Scrambling prevents the access to local information with local operators and therefore can be used to protect quantum information from damage caused by local perturbations. Even though partial quantum information can be recovered if the type of the damage is known, the initial target state cannot be completely recovered, because the obtained state is a mixture of the initial state and a maximally mixed state. Here, we demonstrate an improved scheme to recover damaged quantum information via scrambling in indefinite casual order. We can record the type of damage and improve the fidelity of the recovered quantum state with respect to the original one. Moreover, by iterating the schemes, the initial quantum state can be completely retrieved. In addition, we experimentally demonstrate our schemes on the cloud-based quantum computer, named as Quafu. Our work proposes a feasible scheme to protect whole quantum information from damage, which is also compatible with other techniques such as quantum error corrections and entanglement purification protocols.
翻訳日:2023-12-06 16:16:52 公開日:2023-12-05
# LLaMaロシアの適応に及ぼすトークン化の影響

Impact of Tokenization on LLaMa Russian Adaptation ( http://arxiv.org/abs/2312.02598v1 )

ライセンス: Link先を確認
Mikhail Tikhomirov and Daniil Chernyshev(参考訳) 最新の命令調整型大規模言語モデル(llm)は様々なタスクで素晴らしい結果を示すが、英語以外の入力では性能が低下することが多い。 その理由は、非英語命令の理解を妨げる事前学習データにおける低言語表現による非効率なトークン化であり、ターゲット言語命令チューニングの可能性を制限する証拠がある。 本研究では,LLaMaロシア語適応の文脈における語彙置換の問題に対処する可能性を検討する。 語彙適応の3つの変種を探索し,ロシアのsuper glueベンチマークにおけるsaiga命令チューニングと微調整の性能を検証した。 自動評価の結果、語彙置換はロシア語のモデルの品質を向上させるだけでなく、微調整(35%)と推論(60%)を加速し、メモリ消費を減少させることがわかった。 命令調整モデルの人間による追加評価により、ロシア語適応語彙を持つモデルは、元のSaiga-LLaMaモデルよりも高いユーザ好みの回答を生成することが示された。

Latest instruction-tuned large language models (LLM) show great results on various tasks, however, they often face performance degradation for non-English input. There is evidence that the reason lies in inefficient tokenization caused by low language representation in pre-training data which hinders the comprehension of non-English instructions, limiting the potential of target language instruction-tuning. In this work we investigate the possibility of addressing the issue with vocabulary substitution in the context of LLaMa Russian language adaptation. We explore three variants of vocabulary adaptation and test their performance on Saiga instruction-tuning and fine-tuning on Russian Super Glue benchmark. The results of automatic evaluation show that vocabulary substitution not only improves the model's quality in Russian but also accelerates fine-tuning (35%) and inference (up to 60%) while reducing memory consumption. Additional human evaluation of the instruction-tuned models demonstrates that models with Russian-adapted vocabulary generate answers with higher user preference than the original Saiga-LLaMa model.
翻訳日:2023-12-06 16:16:36 公開日:2023-12-05
# TSVR+:特権情報を用いたツインサポートベクトル回帰

TSVR+: Twin support vector regression with privileged information ( http://arxiv.org/abs/2312.02596v1 )

ライセンス: Link先を確認
Anuradha Kumari, M. Tanveer(参考訳) 機械学習の領域では、データは特権情報(PI)と呼ばれる追加の属性を含むことができる。 PIの主な目的は、モデルのトレーニングを支援し、取得した知識を利用して、目に見えないサンプルの予測を行うことである。 サポートベクトル回帰(SVR)は効果的な回帰モデルであるが、一対の制約を受ける凸二次問題(QP)を解決するために学習速度が低い。 対照的に、ツインサポートベクトル回帰(TSVR)はSVRよりも効率的である。 しかし、TSVRとその変種は通常の機能のみに基づいて訓練されており、訓練に特権的機能を使用しない。 このギャップを埋めるために、特権情報(LUPI)を用いた学習とTSVRの融合を導入し、特権情報(TSVR+)を用いた双子支援ベクトル回帰と呼ばれる新しいアプローチを提案する。 提案したTSVR+の正規化項は、統計学習理論の本質を捉え、構造リスク最小化原理を実装している。 本稿では,SOR法を用いてTSVR+の最適化問題を解くことにより,トレーニング効率を向上する。 我々の知識が広がる限り、lupiの概念を回帰モデルの双変種に統合することは、新しい進歩である。 uci,ストックおよび時系列データを用いて行った数値実験は,提案モデルの優越性を示すものである。

In the realm of machine learning, the data may contain additional attributes, known as privileged information (PI). The main purpose of PI is to assist in the training of the model and then utilize the acquired knowledge to make predictions for unseen samples. Support vector regression (SVR) is an effective regression model, however, it has a low learning speed due to solving a convex quadratic problem (QP) subject to a pair of constraints. In contrast, twin support vector regression (TSVR) is more efficient than SVR as it solves two QPs each subject to one set of constraints. However, TSVR and its variants are trained only on regular features and do not use privileged features for training. To fill this gap, we introduce a fusion of TSVR with learning using privileged information (LUPI) and propose a novel approach called twin support vector regression with privileged information (TSVR+). The regularization terms in the proposed TSVR+ capture the essence of statistical learning theory and implement the structural risk minimization principle. We use the successive overrelaxation (SOR) technique to solve the optimization problem of the proposed TSVR+, which enhances the training efficiency. As far as our knowledge extends, the integration of the LUPI concept into twin variants of regression models is a novel advancement. The numerical experiments conducted on UCI, stock and time series data collectively demonstrate the superiority of the proposed model.
翻訳日:2023-12-06 16:16:19 公開日:2023-12-05
# FRAPP\'E: グループフェアネス規則化のための後処理フレームワーク

FRAPP\'E: A Post-Processing Framework for Group Fairness Regularization ( http://arxiv.org/abs/2312.02592v1 )

ライセンス: Link先を確認
Alexandru \c{T}ifrea, Preethi Lahoti, Ben Packer, Yoni Halpern, Ahmad Beirami and Flavien Prost(参考訳) グループフェアネスに対する後処理緩和技術は、通常、フェアネスを改善するためにベースモデルの決定しきい値を調整する。 後処理はモデルトレーニングパイプラインへのアクセスを必要とせず、ベースモデルアーキテクチャに非依存であり、内部処理と比較して計算コストの削減を提供する。 これらの利点にもかかわらず、既存のメソッドは適用性を制限する他の課題に直面している。 本稿では, ペナル化対象を持つ任意のインプロセッシング手法をポストプロセッシング手順に変換するための一般的な枠組みを提案する。 得られた手法は、前述の処理後アプローチの欠点を克服するために特別に設計されている。 さらに,実世界データに対する理論的および広範囲な実験を通じて,処理後の手法が処理対象のフェアネスエラートレードオフと一致するか,あるいは超えていることを示す。

Post-processing mitigation techniques for group fairness generally adjust the decision threshold of a base model in order to improve fairness. Methods in this family exhibit several advantages that make them appealing in practice: post-processing requires no access to the model training pipeline, is agnostic to the base model architecture, and offers a reduced computation cost compared to in-processing. Despite these benefits, existing methods face other challenges that limit their applicability: they require knowledge of the sensitive attributes at inference time and are oftentimes outperformed by in-processing. In this paper, we propose a general framework to transform any in-processing method with a penalized objective into a post-processing procedure. The resulting method is specifically designed to overcome the aforementioned shortcomings of prior post-processing approaches. Furthermore, we show theoretically and through extensive experiments on real-world data that the resulting post-processing method matches or even surpasses the fairness-error trade-off offered by the in-processing counterpart.
翻訳日:2023-12-06 16:15:54 公開日:2023-12-05
# 多言語トランスフォーマーのアンサンブルを用いたテキスト親密度解析

Text Intimacy Analysis using Ensembles of Multilingual Transformers ( http://arxiv.org/abs/2312.02590v1 )

ライセンス: Link先を確認
Tanmay Chavan and Ved Patwardhan(参考訳) 近年,NLPシステムと人間との直接的相互作用の増加により,テキストの親密性評価の重要性が高まっている。 親密性は自然言語の重要な側面であり、日々のコミュニケーションに大きな影響を与えます。 したがって、親密さのレベルは、より深い洞察と会話のよりリッチなセマンティクスを提供することができます。 本稿では,与えられたテキストの親密度を予測するための semeval shared task 9 について述べる。 データセットは10言語のツイートで構成されており、トレーニングデータセットには6つしか使用できない。 複数の実験を行い、言語固有の単言語モデルと共に多言語モデルのアンサンブルが最良の性能を持つことを示す。 また,翻訳などのデータ拡張手法を評価し,その結果を提示する。 最後に,本研究の結果を徹底的に検討し,この問題に対する注目すべき知見を示す。

Intimacy estimation of a given text has recently gained importance due to the increase in direct interaction of NLP systems with humans. Intimacy is an important aspect of natural language and has a substantial impact on our everyday communication. Thus the level of intimacy can provide us with deeper insights and richer semantics of conversations. In this paper, we present our work on the SemEval shared task 9 on predicting the level of intimacy for the given text. The dataset consists of tweets in ten languages, out of which only six are available in the training dataset. We conduct several experiments and show that an ensemble of multilingual models along with a language-specific monolingual model has the best performance. We also evaluate other data augmentation methods such as translation and present the results. Lastly, we study the results thoroughly and present some noteworthy insights into this problem.
翻訳日:2023-12-06 16:15:38 公開日:2023-12-05
# 一般ベルのシナリオにおける非局所性を持つ下界絡み合い

Lower-bounding entanglement with nonlocality in a general Bell's scenario ( http://arxiv.org/abs/2312.02588v1 )

ライセンス: Link先を確認
Liang-Liang Sun, Xiang Zhou, Zhen-Peng Xu, Sixia Yu(参考訳) 絡み合いとベル非局所性の間の量的関係を理解することは、根本的および実践的両方の関心の長いオープンな問題である。 ここでは,この問題に対する一般的なアプローチを提案する。 エンタングルメント測度は、数学において劇的に異なるが、基本的には関心状態と最も近い分離状態との間の距離である、という観測から始まり、この極小距離と距離ベースのベル非局所性、すなわち、古典的相関の集合に対する関心の相関の間の最小距離とを関連付ける。 このことは絡み合いとベル非局所性の間の定量的な関係を確立し、様々な文脈における絡み合いの境界につながる。 私たちのアプローチは以下のメリットを享受します。 (i)一般に、装置の情報や多くの絡み合い対策を必要とせず、あらゆるベルのシナリオに適用する。 (ii)忠実性は、任意の非局所相関から非自明な絡み合い推定を与える。

Understanding the quantitative relation between entanglement and Bell nonlocality is a longstanding open problem of both fundamental and practical interest. Here we provide a general approach to address this issue. Starting with an observation that entanglement measures, while defined dramatically different in mathematics, are basically the distances between the state of interest and its closest separable state, we relate this minimal distance between states with distance-based Bell nonlocality, namely, the minimal distance between correlation of interest with respect to the set of classical correlations. This establishes the quantitative relation between entanglement and Bell nonlocality, leading to the bounds for entanglement in various contexts. Our approach enjoys the merits of: (i) generality, it applies to any Bell's scenario without requiring the information of devices and to many entanglement measures, (ii) faithfulness, it gives a non-trivial entanglement estimation from any nonlocal correlation.
翻訳日:2023-12-06 16:15:26 公開日:2023-12-05
# 複素射影空間上の新しい距離のクラス

A new class of distances on complex projective spaces ( http://arxiv.org/abs/2312.02583v1 )

ライセンス: Link先を確認
Rafa{\l} Bistro\'n, Micha{\l} Eckstein, Shmuel Friedland, Tomasz Miller and Karol \.Zyczkowski(参考訳) 複素射影空間 $\mathbb{p}(\mathbb{c}^n)$ は、サイズ $n$ の全ての量子純粋状態の空間として解釈できる。 この空間上の距離は、量子物理学の観点から興味深いもので、'アース・ムーバー問題'によって'n$-point probability simplex' で定義される古典的距離から導かれる。 この構成は三角形の不等式を満たす量につながり、これは量子2$-ワッサーシュタイン距離の族に属する複素射影空間上の真の距離をもたらす。

The complex projective space $\mathbb{P}(\mathbb{C}^n)$ can be interpreted as the space of all quantum pure states of size $n$. A distance on this space, interesting from the perspective of quantum physics, can be induced from a classical distance defined on the $n$-point probability simplex by the `earth mover problem'. We show that this construction leads to a quantity satisfying the triangle inequality, which yields a true distance on complex projective space belonging to the family of quantum $2$-Wasserstein distances.
翻訳日:2023-12-06 16:15:09 公開日:2023-12-05
# 変圧器モデルのアンサンブルを用いた共感と距離検出

Empathy and Distress Detection using Ensembles of Transformer Models ( http://arxiv.org/abs/2312.02578v1 )

ライセンス: Link先を確認
Tanmay Chavan, Kshitij Deshpande and Sheetal Sonawane(参考訳) 本稿では,WASSA 2023共感・感情・パーソナリティ共有タスクへのアプローチを提案する。 共感と苦悩は自然の談話で暗黙的に表現される人間の感情である。 共感と苦悩の検出は、会話の理解を助ける自然言語処理において重要な課題である。 提供されたデータセットは、英語におけるいくつかの長文例で構成され、各例は共感と苦悩のための数値スコアに関連付けられている。 このアプローチの一環として,BERTベースのモデルをいくつか実験した。 また,様々なアンサンブル手法を試す。 Pearsonのrスコアは0.346で、共感と悲惨な検出のサブタスクでは3位です。

This paper presents our approach for the WASSA 2023 Empathy, Emotion and Personality Shared Task. Empathy and distress are human feelings that are implicitly expressed in natural discourses. Empathy and distress detection are crucial challenges in Natural Language Processing that can aid our understanding of conversations. The provided dataset consists of several long-text examples in the English language, with each example associated with a numeric score for empathy and distress. We experiment with several BERT-based models as a part of our approach. We also try various ensemble methods. Our final submission has a Pearson's r score of 0.346, placing us third in the empathy and distress detection subtask.
翻訳日:2023-12-06 16:14:59 公開日:2023-12-05
# 360度映像の時空間要約統合システム

An Integrated System for Spatio-Temporal Summarization of 360-degrees Videos ( http://arxiv.org/abs/2312.02576v1 )

ライセンス: Link先を確認
Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris(参考訳) 本研究では,360度ビデオの時空間要約のための統合システムを提案する。 ビデオ要約生成は主に、顕著な出来事とそのシナプスを簡潔な要約に検出することを含む。 この分析は、360度ビデオ(ATSalとSST-Sal)およびビデオ要約(CA-SUM)における精度検出の最先端手法に依存している。 また、記録中の静止または移動カメラの使用に基づいて360度ビデオを分類し、どのサリエンシー検出方法を使用するかを決定する機構と、360度ビデオ内のサリエントイベントを含む従来の2dビデオを作成するための2dビデオ生成コンポーネントが含まれている。 360度ビデオサリエンシ検出(VR-EyeTracking, Sports-360)のための2つのデータセットを用いた定量的評価は,開発した決定機構の正確さと肯定的な影響を示し,その検出に2つの異なる方法を用いることを正当化する。 これらのデータセットからのコンテンツを用いた質的分析は、決定機構の機能に関するさらなる洞察を与え、使用済みの塩分濃度検出法の長所と短所を示し、訓練済みの要約法の従来の手法に対する高度な性能を示す。

In this work, we present an integrated system for spatiotemporal summarization of 360-degrees videos. The video summary production mainly involves the detection of salient events and their synopsis into a concise summary. The analysis relies on state-of-the-art methods for saliency detection in 360-degrees video (ATSal and SST-Sal) and video summarization (CA-SUM). It also contains a mechanism that classifies a 360-degrees video based on the use of static or moving camera during recording and decides which saliency detection method will be used, as well as a 2D video production component that is responsible to create a conventional 2D video containing the salient events in the 360-degrees video. Quantitative evaluations using two datasets for 360-degrees video saliency detection (VR-EyeTracking, Sports-360) show the accuracy and positive impact of the developed decision mechanism, and justify our choice to use two different methods for detecting the salient events. A qualitative analysis using content from these datasets, gives further insights about the functionality of the decision mechanism, shows the pros and cons of each used saliency detection method and demonstrates the advanced performance of the trained summarization method against a more conventional approach.
翻訳日:2023-12-06 16:14:48 公開日:2023-12-05
# UTBoost: 昇降モデリングのためのツリーブースティングベースシステム

UTBoost: A Tree-boosting based System for Uplift Modeling ( http://arxiv.org/abs/2312.02573v1 )

ライセンス: Link先を確認
Junjie Gao, Xiangyu Zheng, DongDong Wang, Zhixiang Huang, Bangqi Zheng, Kai Yang(参考訳) アップリフトモデリング(uplift modeling)とは、マネージャが顧客の上昇を見積もるために使用できる一連の機械学習技術、すなわち、ある顧客成果に対するアクションの純効果を指す。 治療効果が最も大きい顧客のサブセットを特定することで、アップリフトモデルはリソース割り当てを最適化し、全体のリターンを最大化する意思決定者を支援する。 顧客アップリフトを正確に見積もると、各個人に対して2つの排他的な結果の違いを評価する必要があるため、実践的な課題が生じる。 本稿では, 因果効果を逐次学習し, 反事実的性質を克服する, 確立された勾配ブースティング決定木(gbdt)アルゴリズムの2つの革新的適応法を提案する。 両アプローチはそれぞれ,アンサンブル学習法と学習目的の観点から,既存の手法を革新する。 大規模データセットの実験では提案手法の有用性が示され、しばしばベースモデルよりも顕著な改善がもたらされる。 アプリケーションを容易にするために,アップリフトモデリングに特化して設計された,エンドツーエンドのツリーブースティングシステムであるUTBoostを開発した。 パッケージはオープンソースで、実際の産業アプリケーションのニーズを満たすためにトレーニング速度に最適化されている。

Uplift modeling refers to the set of machine learning techniques that a manager may use to estimate customer uplift, that is, the net effect of an action on some customer outcome. By identifying the subset of customers for whom a treatment will have the greatest effect, uplift models assist decision-makers in optimizing resource allocations and maximizing overall returns. Accurately estimating customer uplift poses practical challenges, as it requires assessing the difference between two mutually exclusive outcomes for each individual. In this paper, we propose two innovative adaptations of the well-established Gradient Boosting Decision Trees (GBDT) algorithm, which learn the causal effect in a sequential way and overcome the counter-factual nature. Both approaches innovate existing techniques in terms of ensemble learning method and learning objectives, respectively. Experiments on large-scale datasets demonstrate the usefulness of the proposed methods, which often yielding remarkable improvements over base models. To facilitate the application, we develop the UTBoost, an end-to-end tree boosting system specifically designed for uplift modeling. The package is open source and has been optimized for training speed to meet the needs of real industrial applications.
翻訳日:2023-12-06 16:14:24 公開日:2023-12-05
# スパイキングニューラルネットワークを用いたstdpとホメオスタシスによる空間的特徴の教師あり学習

Supervised learning of spatial features with STDP and homeostasis using Spiking Neural Networks on SpiNNaker ( http://arxiv.org/abs/2312.02659v1 )

ライセンス: Link先を確認
Sergio Davies and Andrew Gait and Andrew Rowley and Alessandro Di Nuovo(参考訳) ANN(Artificial Neural Networks)は、よく知られたバックプロパゲーションアルゴリズムを使って学習する能力によって、広く普及している。 一方、スパイキングニューラルネットワーク(SNN)は、ANNよりも幅広い能力を持っているにもかかわらず、トレーニングフェーズにおいて常に課題を提示してきた。 本稿では,SNNにおける教師あり学習のための新しい手法として,スパイクタイミング依存塑性(STDP)とホメオスタシス(ホメオスタシス)を用いて,空間パターンの同定のためのネットワークのトレーニングを行う。 この方法はSpiNNakerデジタルアーキテクチャを用いてテストされる。 SNNは1つまたは複数のパターンを認識するように訓練され、ネットワークのパフォーマンスを測定するためにパフォーマンスメトリクスが抽出される。 一つの訓練されたパターンの場合、ネットワークは訓練されたパターンを検出するのに100%の精度で理想的な検出器として振る舞うことを示す結果から、いくつかの考察が導かれる。 しかし、1つのネットワーク上で訓練されたパターンの数が増えるにつれて、識別の精度はこれらのパターンの類似性と関連している。 空間パターンを検出するためのSNNの訓練方法は、静的画像のパターン認識や、各ネットワークパケットが空間パターンを表すコンピュータネットワークのトラフィック解析に適用することができる。 ホメオスタティック・ファクターは、パターンが完全に一致するだけでなく、ある程度の類似性を持つパターンをネットワークが検出できることを規定する。

Artificial Neural Networks (ANN) have gained large popularity thanks to their ability to learn using the well-known backpropagation algorithm. On the other hand, Spiking Neural Networks (SNNs), despite having wider abilities than ANNs, have always presented a challenge in the training phase. This paper shows a new method to perform supervised learning on SNNs, using Spike Timing Dependent Plasticity (STDP) and homeostasis, aiming at training the network to identify spatial patterns. The method is tested using the SpiNNaker digital architecture. A SNN is trained to recognise one or multiple patterns and performance metrics are extracted to measure the performance of the network. Some considerations are drawn from the results showing that, in the case of a single trained pattern, the network behaves as the ideal detector, with 100% accuracy in detecting the trained pattern. However, as the number of trained patterns on a single network increases, the accuracy of the identification is linked to the similarities between these patterns. This method of training an SNN to detect spatial patterns may be applied on pattern recognition in static images or traffic analysis in computer networks, where each network packet represents a spatial pattern. It will be stipulated that the homeostatic factor may enable the network to detect patterns with some degree of similarities, rather than only perfectly matching patterns.
翻訳日:2023-12-06 16:07:29 公開日:2023-12-05
# AIモデルは物理モデルよりも天気予報が良いか? storm ciar\'anの定量的評価ケーススタディ

Do AI models produce better weather forecasts than physics-based models? A quantitative evaluation case study of Storm Ciar\'an ( http://arxiv.org/abs/2312.02658v1 )

ライセンス: Link先を確認
Andrew J. Charlton-Perez, Helen F. Dacre, Simon Driscoll, Suzanne L. Gray, Ben Harvey, Natalie J. Harvey, Kieran M. R. Hunt, Robert W. Lee, Ranjini Swaminathan, Remy Vandaele, Ambrogio Volont\'e(参考訳) 近年,機械学習技術を用いて気象予報を行う可能性に大きな関心が寄せられている。 天気予報ツールボックスの一部になるにつれて、現在の機械学習モデルがいかにハイパフォーマンスなイベントをシミュレートできるかを理解する必要がある。 北欧で16人の死者と広範囲の被害をもたらしたヨーロッパの吹雪、ストーム・シアルジャンの予測を、機械学習と数値ウェザー予測モデルによって比較した。 4つの機械学習モデル (FourCastNet, Pangu-Weather, GraphCast, FourCastNet-v2) は, 雲頭の位置, 暖房セクターの形状, 暖機ベルトジェットの位置を含むサイクロンの光学的構造を正確に把握し, 嵐の発生に重要な大規模動力学的要因である上層ジェット出口に対するストームの位置などの予測を行う。 しかし、気象警報を発する上で重要なより詳細な構造を解く能力は、より混ざり合っている。 いずれの機械学習モデルも、嵐に伴う風のピーク振幅を過小評価しており、一部の機械学習モデルだけが暖かいコア分離を解決し、機械学習モデルも鋭い屈曲バックの温かい前面勾配を捉えていない。 本研究は,Storm Ciar\anのような高影響気象事象のケーススタディから得られる,機械学習天気予報の性能と特性について検討した。

There has been huge recent interest in the potential of making operational weather forecasts using machine learning techniques. As they become a part of the weather forecasting toolbox, there is a pressing need to understand how well current machine learning models can simulate high-impactweather events. We compare forecasts of Storm Ciar\'an, a European windstorm that caused sixteen deaths and extensive damage in Northern Europe, made by machine learning and numericalweather prediction models. The four machine learning models considered (FourCastNet, Pangu-Weather, GraphCast and FourCastNet-v2) produce forecasts that accurately capture the synoptic-scale structure of the cyclone including the position of the cloud head, shape of the warm sector and location of warm conveyor belt jet, and the large-scale dynamical drivers important for the rapid storm development such as the position of the storm relative to the upper-level jet exit. However, their ability to resolve the more detailed structures important for issuing weather warnings is more mixed. All of the machine learning models underestimate the peak amplitude of winds associated with the storm, only some machine learning models resolve the warm core seclusion and none of the machine learning models capture the sharp bent-back warm frontal gradient. Our study shows there is a great deal about the performance and properties of machine learning weather forecasts that can be derived from case studies of high-impact weather events such as Storm Ciar\'an.
翻訳日:2023-12-06 16:07:06 公開日:2023-12-05
# エアロゲル検出器のフォーカスに機械学習ができること

What Machine Learning Can Do for Focusing Aerogel Detectors ( http://arxiv.org/abs/2312.02652v1 )

ライセンス: Link先を確認
Foma Shipilov, Alexander Barnyakov, Vladimir Bobrovnikov, Sergey Kononov, Fedor Ratnikov(参考訳) スーパーチャーム・タウ工場での粒子識別は、Focusing Aerogel Ring Imaging CHerenkov detector (FARICH)によって行われる。 検出器位置の特定は適切な冷却を困難にするため、かなりの数の周囲の背景衝撃を捕捉する。 データフローを低減し、粒子速度の分解性を改善するために緩和する必要がある。 本研究では,コンピュータビジョンの機械学習技術に触発された信号ヒットのフィルタリング手法を提案する。

Particle identification at the Super Charm-Tau factory experiment will be provided by a Focusing Aerogel Ring Imaging CHerenkov detector (FARICH). The specifics of detector location make proper cooling difficult, therefore a significant number of ambient background hits are captured. They must be mitigated to reduce the data flow and improve particle velocity resolution. In this work we present several approaches to filtering signal hits, inspired by machine learning techniques from computer vision.
翻訳日:2023-12-06 16:06:36 公開日:2023-12-05
# ロボット倒立振子バランスの連続制御問題に対するq-learningアプローチ

A Q-learning approach to the continuous control problem of robot inverted pendulum balancing ( http://arxiv.org/abs/2312.02649v1 )

ライセンス: Link先を確認
Mohammad Safeea, Pedro Neto(参考訳) 本研究では,ロボット倒立振子バランスの連続制御問題に対する離散的行動空間強化学習法(q-learning)の適用性を評価する。 実際のロボットシステムにおいて、学習プロセスを高速化し、直接学習に関連する技術的困難を克服するために、シミュレーション環境で学習フェーズを行う。 実システムから取得したデータに対する曲線フィッティングによって導かれるシステムダイナミクスの数学的モデルを実装した。 提案手法は,倒立振子のバランスを学習した実世界のロボットに適用できることを示す。 本研究は,連続動作を制御する離散的行動空間アルゴリズムを用いた場合においても,実世界における強化学習アルゴリズムのより効率的な実装を実現するために,シミュレーションにおける物理世界の正確な表現の重要性を補強し,実証する。

This study evaluates the application of a discrete action space reinforcement learning method (Q-learning) to the continuous control problem of robot inverted pendulum balancing. To speed up the learning process and to overcome technical difficulties related to the direct learning on the real robotic system, the learning phase is performed in simulation environment. A mathematical model of the system dynamics is implemented, deduced by curve fitting on data acquired from the real system. The proposed approach demonstrated feasible, featuring its application on a real world robot that learned to balance an inverted pendulum. This study also reinforces and demonstrates the importance of an accurate representation of the physical world in simulation to achieve a more efficient implementation of reinforcement learning algorithms in real world, even when using a discrete action space algorithm to control a continuous action.
翻訳日:2023-12-06 16:06:29 公開日:2023-12-05
# TPA3D:高速テキストから3D生成のためのトライプレーンアテンション

TPA3D: Triplane Attention for Fast Text-to-3D Generation ( http://arxiv.org/abs/2312.02647v1 )

ライセンス: Link先を確認
Hong-En Chen, Bin-Shih Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang(参考訳) 大規模なテキスト3D対応データがないため、最近のテキスト・ツー・3D生成は主に3Dデータの合成に2D拡散モデルを利用する。 拡散法は通常、トレーニングと推論の両方にかなりの最適化時間を必要とするため、高速な3D生成にはGANモデルの使用が望ましい。 本研究では,高速テキスト・ツー・3D生成のための学習モデルであるTPA3D(Triplane Attention for text-guided 3D Generation)を提案する。 トレーニング中の3D形状データとレンダリングされた2D画像のみを用いて,TPA3Dは,対応する3Dメッシュデータを合成するための詳細な視覚的記述を検索するように設計されている。 これは,抽出した文と単語レベルのテキストの特徴に対する注意機構によって達成される。 実験の結果,TPA3Dは微細な記述に整合した高品質な3次元テクスチャ形状を生成できるが,計算効率は目覚ましい。

Due to the lack of large-scale text-3D correspondence data, recent text-to-3D generation works mainly rely on utilizing 2D diffusion models for synthesizing 3D data. Since diffusion-based methods typically require significant optimization time for both training and inference, the use of GAN-based models would still be desirable for fast 3D generation. In this work, we propose Triplane Attention for text-guided 3D generation (TPA3D), an end-to-end trainable GAN-based deep learning model for fast text-to-3D generation. With only 3D shape data and their rendered 2D images observed during training, our TPA3D is designed to retrieve detailed visual descriptions for synthesizing the corresponding 3D mesh data. This is achieved by the proposed attention mechanisms on the extracted sentence and word-level text features. In our experiments, we show that TPA3D generates high-quality 3D textured shapes aligned with fine-grained descriptions, while impressive computation efficiency can be observed.
翻訳日:2023-12-06 16:06:15 公開日:2023-12-05
# SAMSGL:時空間予測のための連続型マルチスケールグラフ学習

SAMSGL: Series-Aligned Multi-Scale Graph Learning for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2312.02646v1 )

ライセンス: Link先を確認
Xiaobei Zou, Luolin Xiong, Yang Tang, Jurgen Kurths(参考訳) 交通予報や天気予報のような各領域の時空間予測は、主に伝播ダイナミクスのモデル化とノード間の高次元相互作用の取得が困難であるため、困難な取り組みである。 時空間予測におけるグラフベースのネットワークによる大きな進歩にもかかわらず、さらなる考慮を必要とする予測性能に密接に関連する2つの重要な要因が残っている。 本稿では,予測性能の向上を目的とした多スケールグラフ学習(samsgl)フレームワークを提案する。 空間的相互作用における時間的遅延に対処するために,非遅延グラフ信号の集約を容易にするために,時間的遅延の影響を緩和し,精度を向上させる一連のグラフ畳み込み層を提案する。 グローバルな時空間相互作用と局所的な時空間相互作用を理解するために,マルチスケールグラフ学習とグラフ完全連結(Graph-FC)ブロックという,2つの重要な要素を含む時空間アーキテクチャを開発した。 マルチスケールグラフ構造学習は、遅延ノード埋め込みと非遅延ノード埋め込みの両方を学習するグローバルグラフ構造と、隣接する要因に影響されるノード変動を学習するローカルグラフ構造を含む。 Graph-FCは、空間情報と時間情報を相乗的に融合して予測精度を高める。 SAMSGLの性能を評価するため,気象・交通予測データセットの実験を行い,その有効性と優位性を示す。

Spatio-temporal forecasting in various domains, like traffic prediction and weather forecasting, is a challenging endeavor, primarily due to the difficulties in modeling propagation dynamics and capturing high-dimensional interactions among nodes. Despite the significant strides made by graph-based networks in spatio-temporal forecasting, there remain two pivotal factors closely related to forecasting performance that need further consideration: time delays in propagation dynamics and multi-scale high-dimensional interactions. In this work, we present a Series-Aligned Multi-Scale Graph Learning (SAMSGL) framework, aiming to enhance forecasting performance. In order to handle time delays in spatial interactions, we propose a series-aligned graph convolution layer to facilitate the aggregation of non-delayed graph signals, thereby mitigating the influence of time delays for the improvement in accuracy. To understand global and local spatio-temporal interactions, we develop a spatio-temporal architecture via multi-scale graph learning, which encompasses two essential components: multi-scale graph structure learning and graph-fully connected (Graph-FC) blocks. The multi-scale graph structure learning includes a global graph structure to learn both delayed and non-delayed node embeddings, as well as a local one to learn node variations influenced by neighboring factors. The Graph-FC blocks synergistically fuse spatial and temporal information to boost prediction accuracy. To evaluate the performance of SAMSGL, we conduct experiments on meteorological and traffic forecasting datasets, which demonstrate its effectiveness and superiority.
翻訳日:2023-12-06 16:05:57 公開日:2023-12-05
# 非ラベル同期ビデオペアを用いた時間的アクションセグメンテーションのためのexocentric-to-egocentric transfer

Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs ( http://arxiv.org/abs/2312.02638v1 )

ライセンス: Link先を確認
Camillo Quattrocchi, Antonino Furnari, Daniele Di Mauro, Mario Valerio Giuffrida, Giovanni Maria Farinella(参考訳) ウェアラブルカメラがビデオデータをキャプチャするエゴセントリックなシナリオに、当初エキソセントリックな(固定された)カメラ用に設計された時間的アクションセグメンテーションシステムを移行する問題を考える。 従来の教師付きアプローチでは、コストと時間を要するモデルに適応するために、新しいエゴセントリックなビデオのコレクションとラベリングが必要となる。 そこで本稿では,既存のラベル付きエキソセントリックビデオと,時間的アクションセグメンテーションアノテーションを収集する必要のない,非ラベル付き,同期型エキソセントリックビデオペアを新たに導入する手法を提案する。 提案手法を知識蒸留に基づくアプローチで実装し, 特徴量とモデル値の両方について検討した。 提案手法を評価するために,アセンブリ101データセットに基づく新しいベンチマークを導入する。 従来の非教師なし領域適応法と時間系列アライメント法に対する提案手法の有効性と有効性を示す。 驚くべきことに、私たちの最良のモデルは、ラベル付きエゴセントリックデータでトレーニングされた教師付きアプローチと同等に動作し、単一のエゴセントリックラベルを見ることなく、アセンブリ101データセットの編集スコアが、エクソセントリックデータのみでトレーニングされたベースラインモデルと比較して、+15.99%(28.59%対12.60%)向上しました。

We consider the problem of transferring a temporal action segmentation system initially designed for exocentric (fixed) cameras to an egocentric scenario, where wearable cameras capture video data. The conventional supervised approach requires the collection and labeling of a new set of egocentric videos to adapt the model, which is costly and time-consuming. Instead, we propose a novel methodology which performs the adaptation leveraging existing labeled exocentric videos and a new set of unlabeled, synchronized exocentric-egocentric video pairs, for which temporal action segmentation annotations do not need to be collected. We implement the proposed methodology with an approach based on knowledge distillation, which we investigate both at the feature and model level. To evaluate our approach, we introduce a new benchmark based on the Assembly101 dataset. Results demonstrate the feasibility and effectiveness of the proposed method against classic unsupervised domain adaptation and temporal sequence alignment approaches. Remarkably, without bells and whistles, our best model performs on par with supervised approaches trained on labeled egocentric data, without ever seeing a single egocentric label, achieving a +15.99% (28.59% vs 12.60%) improvement in the edit score on the Assembly101 dataset compared to a baseline model trained solely on exocentric data.
翻訳日:2023-12-06 16:05:33 公開日:2023-12-05
# ダイヤモンド中の負電荷型グループIV色中心の高効率マイクロ波スピン制御

Efficient Microwave Spin Control of Negatively Charged Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2312.02637v1 )

ライセンス: Link先を確認
Gregor Pieplow, Mohamed Belhassen, Tim Schr\"oder(参考訳) 本研究では, ダイヤモンド中の負電荷型グループIV色中心における電子スピン状態のマイクロ波誘起による操作について, 特にひずみの影響について概説する。 我々の研究の中心は、スピンレベルの縮退を持ち上げるための \textit{dc} 磁場と、2つのスピンレベル間のマイクロ波制御のための \textit{ac} 磁場である磁場のベクトル特性の完全な考察である。 スピン状態制御において, 空間配向, 外部適応ひずみ, および結果として生じる有効性の間の複雑な相互依存性を観察する。 これまでのほとんどの研究において、 \textit{ac} と \textit{dc} の磁場配向は不十分に解決されており、スズや鉛空白色中心のようなより重いグループiv空洞のマイクロ波制御にはひずみが不可欠であると結論付けている。 対照的に、対称軸に直交する \textit{dc} 磁場のアライメントとそれと平行な \textit{ac} 磁場のアライメントは、効率的なスピン操作のために歪を時代遅れにすることができる。 さらに、このフィールド構成がスピンの光初期化、読み出し、ゲート忠実度に与える影響について検討する。

In this work, we provide a comprehensive overview of the microwave-induced manipulation of electronic spin states in negatively charged group-IV color centers in diamond with a particular emphasis on the influence of strain. Central to our investigation is the consideration of the full vectorial attributes of the magnetic fields involved, which are a \textit{dc} field for lifting the degeneracy of the spin levels and an \textit{ac} field for microwave control between two spin levels. We observe an intricate interdependence between their spatial orientations, the externally applied strain, and the resultant efficacy in spin state control. In most work to date the \textit{ac} and \textit{dc} magnetic field orientations have been insufficiently addressed, which has led to the conclusion that strain is indispensable for the effective microwave control of heavier group-IV vacancies, such as tin- and lead-vacancy color centers. In contrast, we find that the alignment of the \textit{dc} magnetic field orthogonal to the symmetry axis and the \textit{ac} field parallel to it can make the application of strain obsolete for effective spin manipulation. Furthermore, we explore the implications of this field configuration on the spin's optical initialization, readout, and gate fidelities.
翻訳日:2023-12-06 16:05:04 公開日:2023-12-05
# open bicycle infrastructure dataはどの程度優れているか? デンマークの全国的なケーススタディ

How Good Is Open Bicycle Infrastructure Data? A Countrywide Case Study of Denmark ( http://arxiv.org/abs/2312.02632v1 )

ライセンス: Link先を確認
Ane Rahbek Vier{\o}, Anastassia Vybornova, Michael Szell(参考訳) サイクリングはデンマークの交通システムの持続可能性シフトの重要な要素である。 サイクリング率を高めるためには、より全国的な自転車インフラ網が必要である。 このようなネットワークの計画には、高品質なインフラデータが必要であるが、自転車のインフラデータの品質は極めて低い。 ここでは、デンマークの専用自転車インフラ上の2つの大きなオープンデータセットであるOpenStreetMap(OSM)とGeoDanmarkを国全体のデータ品質評価で比較し、サイクリング条件のネットワークベース分析に十分なデータかどうかを問う。 いずれのデータセットも十分な品質を持たず、完全なデータセットを得るにはデータセットの折り畳みが必要です。 データ品質の空間的変動を分析した結果,農村部ではデータ完全性の問題に苦しむ傾向が示唆された。 データ完全性のプロキシとしてインフラストラクチャ密度を使用する方法が自転車のインフラデータには適さないこと,それに対応する特徴のマッチングがデータ完全性を評価するために必要であることを実証する。 データ品質評価に基づいて、データの完全性に対する戦略的マッピング、異なるデータソース間の互換性をサポートするための一貫した標準、高品質な自転車ネットワークデータを保証するためのデータトポロジへのフォーカスを推奨する。

Cycling is a key ingredient for a sustainability shift of Denmark's transportation system. To increase cycling rates, a better nationwide network of bicycle infrastructure is required. Planning such a network requires high-quality infrastructure data, however, the quality of bicycle infrastructure data is severely understudied. Here, we compare Denmark's two largest open data sets on dedicated bicycle infrastructure, OpenStreetMap (OSM) and GeoDanmark, in a countrywide data quality assessment, asking whether data is good enough for network-based analysis of cycling conditions. We find that neither of the data sets is of sufficient quality, and that data set conflation is necessary to obtain a complete dataset. Our analysis of the spatial variation of data quality suggests that rural areas are more likely to suffer from problems with data completeness. We demonstrate that the prevalent method of using infrastructure density as a proxy for data completeness is not suitable for bicycle infrastructure data, and that matching of corresponding features thus is necessary to assess data completeness. Based on our data quality assessment we recommend strategic mapping efforts towards data completeness, consistent standards to support comparability between different data sources, and increased focus on data topology to ensure high-quality bicycle network data.
翻訳日:2023-12-06 16:04:43 公開日:2023-12-05
# 拡散雑音の特徴:高精度かつ高速な画像検出

Diffusion Noise Feature: Accurate and Fast Generated Image Detection ( http://arxiv.org/abs/2312.02625v1 )

ライセンス: Link先を確認
Yichi Zhang, Xiaogang Xu(参考訳) 生成モデルは、驚くほどリアルな画像を生成できる高度な段階に達した。 しかし、この顕著な生成能力は、誤った情報や誤解を広めるリスクも生んでいる。 特に、画像生成のための既存の画像検出器は、精度の低下や一般化の制限といった課題に遭遇する。 本稿では,生成画像の検出能力を高めるために,強力な一般化機能を備えた表現を求めることにより,この問題に対処する。 本研究により, 実画像と生成画像は, 事前学習した拡散モデル内の逆拡散過程に従えば, 遅延ガウス表現が異なることが明らかとなった。 この格差を克服することで、生成した画像の微妙なアーティファクトを増幅することができる。 この知見に基づいて,拡散雑音特徴(DNF)と呼ばれる新しい画像表現を導入する。 DNFは、逆拡散過程中に発生する雑音を推定するアンサンブル表現である。 例えば、DNFで訓練されたResNetのような単純な分類器は、以前目に見えないクラスやモデルからでも生成した画像を検出するための高い精度、堅牢性、一般化機能を達成する。 広く認識された標準データセットを用いて実験を行い,最新の検出効果を得た。

Generative models have reached an advanced stage where they can produce remarkably realistic images. However, this remarkable generative capability also introduces the risk of disseminating false or misleading information. Notably, existing image detectors for generated images encounter challenges such as low accuracy and limited generalization. This paper seeks to address this issue by seeking a representation with strong generalization capabilities to enhance the detection of generated images. Our investigation has revealed that real and generated images display distinct latent Gaussian representations when subjected to an inverse diffusion process within a pre-trained diffusion model. Exploiting this disparity, we can amplify subtle artifacts in generated images. Building upon this insight, we introduce a novel image representation known as Diffusion Noise Feature (DNF). DNF is an ensemble representation that estimates the noise generated during the inverse diffusion process. A simple classifier, e.g., ResNet, trained on DNF achieves high accuracy, robustness, and generalization capabilities for detecting generated images, even from previously unseen classes or models. We conducted experiments using a widely recognized and standard dataset, achieving state-of-the-art effects of Detection.
翻訳日:2023-12-06 16:04:21 公開日:2023-12-05
# グラフニューラルネットワークの初期化について

On the Initialization of Graph Neural Networks ( http://arxiv.org/abs/2312.02622v1 )

ライセンス: Link先を確認
Jiahang Li, Yakun Song, Xiang Song, David Paul Wipf(参考訳) グラフニューラルネットワーク(gnns)は、さまざまなアプリケーションでグラフ表現学習にかなりの期待を示してきた。 コア学習プロセスでは、各gnn層内のモデル重み行列の初期化が必要であり、これは典型的にはxavier初期化のような古典的な初期化手法によって達成される。 しかし、これらの手法はもともとフィードフォワードニューラルネットワーク(fnn)と畳み込みニューラルネットワーク(cnns)の層間における隠れた埋め込みと勾配の分散を安定化させ、勾配の消失を回避し、安定した情報フローを維持することを目的としていた。 対照的に、GNNの文脈では、古典的な初期化は入力グラフ構造とメッセージパッシングが分散に与える影響を無視している。 本稿では,GNN層間の前方・後方伝播のばらつきを分析し,GNN初期化のばらつきが活性化関数,隠れ次元,グラフ構造,メッセージパッシングの複合効果から生じることを示す。 これらの影響要因をよりよく説明するために,GNN最適化(Virgo)における可変不安定化のための新しい初期化手法を提案する。 我々は,ノード分類,リンク予測,グラフ分類タスクの初期化において,Virgoが優れたモデル性能とより安定した分散をもたらすことを示すため,15データセットの包括的な実験を行った。 コードはhttps://github.com/LspongebobJH/virgo_icml2023にある。

Graph Neural Networks (GNNs) have displayed considerable promise in graph representation learning across various applications. The core learning process requires the initialization of model weight matrices within each GNN layer, which is typically accomplished via classic initialization methods such as Xavier initialization. However, these methods were originally motivated to stabilize the variance of hidden embeddings and gradients across layers of Feedforward Neural Networks (FNNs) and Convolutional Neural Networks (CNNs) to avoid vanishing gradients and maintain steady information flow. In contrast, within the GNN context classical initializations disregard the impact of the input graph structure and message passing on variance. In this paper, we analyze the variance of forward and backward propagation across GNN layers and show that the variance instability of GNN initializations comes from the combined effect of the activation function, hidden dimension, graph structure and message passing. To better account for these influence factors, we propose a new initialization method for Variance Instability Reduction within GNN Optimization (Virgo), which naturally tends to equate forward and backward variances across successive layers. We conduct comprehensive experiments on 15 datasets to show that Virgo can lead to superior model performance and more stable variance at initialization on node classification, link prediction and graph classification tasks. Codes are in https://github.com/LspongebobJH/virgo_icml2023.
翻訳日:2023-12-06 16:04:04 公開日:2023-12-05
# ブートストラップグラフラテントの再考と簡略化

Rethinking and Simplifying Bootstrapped Graph Latents ( http://arxiv.org/abs/2312.02619v1 )

ライセンス: Link先を確認
Wangbin Sun, Jintang Li, Liang Chen, Bingzhe Wu, Yatao Bian, Zibin Zheng(参考訳) グラフ・コントラッシブ・ラーニング(GCL)はグラフ自己教師学習において代表的パラダイムとして現れており、負のサンプルはモデル崩壊を防ぎ、区別可能な表現を生み出す鍵として一般的に見なされている。 近年の研究では、負のサンプルを持たないgclが最先端のパフォーマンスとスケーラビリティの向上を達成し、bgrl(bootstrapped graph latent)が目立った進歩を遂げている。 しかしながら、BGRLは表現を散布する能力を維持するために複雑なアーキテクチャに依存しており、その成功を可能にするメカニズムは未解明のままである。 本稿では,上記の問題に取り組み,springboardとして活用し,bgrl内の不要なモデルの複雑さを明らかにするために,インスタンスレベルの非相関の視点を導入する。 そこで本研究では,2つの繰り返しの出力を正のペアとして利用し,負のサンプルを除去する簡易かつ効果的なGCLフレームワークであるSGCLを提案する。 SGCLは1つのグラフ拡張と1つのグラフエンコーダしか必要としない。 様々なグラフベンチマークで行った広範囲な実験により、sgclは少ないパラメータ、低い時間と空間コスト、大幅な収束速度で競合性能を達成できることが示されている。

Graph contrastive learning (GCL) has emerged as a representative paradigm in graph self-supervised learning, where negative samples are commonly regarded as the key to preventing model collapse and producing distinguishable representations. Recent studies have shown that GCL without negative samples can achieve state-of-the-art performance as well as scalability improvement, with bootstrapped graph latent (BGRL) as a prominent step forward. However, BGRL relies on a complex architecture to maintain the ability to scatter representations, and the underlying mechanisms enabling the success remain largely unexplored. In this paper, we introduce an instance-level decorrelation perspective to tackle the aforementioned issue and leverage it as a springboard to reveal the potential unnecessary model complexity within BGRL. Based on our findings, we present SGCL, a simple yet effective GCL framework that utilizes the outputs from two consecutive iterations as positive pairs, eliminating the negative samples. SGCL only requires a single graph augmentation and a single graph encoder without additional parameters. Extensive experiments conducted on various graph benchmarks demonstrate that SGCL can achieve competitive performance with fewer parameters, lower time and space costs, and significant convergence speedup.
翻訳日:2023-12-06 16:03:40 公開日:2023-12-05
# dreamo: 単一のカジュアルビデオから3d再構成する

DreaMo: Articulated 3D Reconstruction From A Single Casual Video ( http://arxiv.org/abs/2312.02617v1 )

ライセンス: Link先を確認
Tao Tu, Ming-Feng Li, Chieh Hubert Lin, Yen-Chi Cheng, Min Sun, Ming-Hsuan Yang(参考訳) articulated 3d reconstructionは様々な領域で有用な用途があるが、コストがかかり、ドメインの専門家からの集中的な作業を要求する。 テンプレートフリー学習手法の最近の進歩は単眼ビデオで有望な結果を示している。 それにもかかわらず、これらのアプローチは、入力ビデオにおける対象のすべての視点を包括的にカバーする必要があるため、オンラインソースからカジュアルにキャプチャされたビデオに適用可能である。 本研究では,被写体の視野範囲が不完全である単眼映像とカジュアル映像の3次元形状復元について検討した。 そこで本稿では,複数の調整済み正則化を前もって,難解な低被覆領域を解決しつつ,形状再構成を共同で行うドリーモを提案する。 さらに、学習した神経骨と皮膚重量から人間の解釈可能な骨格を作成するための骨格生成戦略を導入する。 我々は,不完全なビューカバレッジを特徴とする自己収集型インターネットビデオコレクションに関する研究を行っている。 DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。 広範囲な質的定量的研究は各成分の有効性を検証し、既存の手法では不完全な視野範囲のため正確な幾何学を解決できないことを示した。

Articulated 3D reconstruction has valuable applications in various domains, yet it remains costly and demands intensive work from domain experts. Recent advancements in template-free learning methods show promising results with monocular videos. Nevertheless, these approaches necessitate a comprehensive coverage of all viewpoints of the subject in the input video, thus limiting their applicability to casually captured videos from online sources. In this work, we study articulated 3D shape reconstruction from a single and casually captured internet video, where the subject's view coverage is incomplete. We propose DreaMo that jointly performs shape reconstruction while solving the challenging low-coverage regions with view-conditioned diffusion prior and several tailored regularizations. In addition, we introduce a skeleton generation strategy to create human-interpretable skeletons from the learned neural bones and skinning weights. We conduct our study on a self-collected internet video collection characterized by incomplete view coverage. DreaMo shows promising quality in novel-view rendering, detailed articulated shape reconstruction, and skeleton generation. Extensive qualitative and quantitative studies validate the efficacy of each proposed component, and show existing methods are unable to solve correct geometry due to the incomplete view coverage.
翻訳日:2023-12-06 16:03:17 公開日:2023-12-05
# ソーシャルメディア上での共有のための高度に調整されたビデオ要約の作成

Facilitating the Production of Well-tailored Video Summaries for Sharing on Social Media ( http://arxiv.org/abs/2312.02616v1 )

ライセンス: Link先を確認
Evlampios Apostolidis, Konstantinos Apostolidis, Vasileios Mezaris(参考訳) 本稿では,ソーシャルメディア上でのオンライン共有に適した要約作成を支援するウェブツールを提案する。 インタラクティブなユーザインターフェースを通じて、``one-click''ビデオ要約プロセスをサポートする。 ビデオ要約とアスペクト比変換のための統合aiモデルに基づき、ビデオの長さとアスペクト比に関して、ターゲットプラットフォームのニーズに応じて、フルロングビデオの複数の要約の生成を容易にする。

This paper presents a web-based tool that facilitates the production of tailored summaries for online sharing on social media. Through an interactive user interface, it supports a ``one-click'' video summarization process. Based on the integrated AI models for video summarization and aspect ratio transformation, it facilitates the generation of multiple summaries of a full-length video according to the needs of target platforms with regard to the video's length and aspect ratio.
翻訳日:2023-12-06 16:02:56 公開日:2023-12-05
# 投影後悔:拡散モデルによる新奇性検出のための背景バイアスの低減

Projection Regret: Reducing Background Bias for Novelty Detection via Diffusion Models ( http://arxiv.org/abs/2312.02615v1 )

ライセンス: Link先を確認
Sungik Choi, Hankook Lee, Honglak Lee, Moontae Lee(参考訳) 新規性検出は、異常(\textit{i.e.}$ out-of-distribution (OOD))を検知することを目的とした機械学習の基本課題である。 拡散モデルは最近、驚くべき生成結果を伴うデファクト標準生成フレームワークとして登場したため、拡散モデルによる新規検出も注目されている。 近年の手法は, 主にin-distributionサンプルの再構成特性を利用している。 しかし、分布内データと類似の背景情報を共有するoodサンプルの検出に苦しむことが多い。 拡散モデルが類似した背景情報を持つ分布内サンプルに対して任意のサンプルを生成できるという観察に基づいて,非意味情報のバイアスを緩和する効率的な新規性検出法であるemph{Projection Regret (PR)を提案する。 具体的には、PRがテスト画像と拡散ベースの投影との知覚距離を計算して異常を検出する。 背景情報が支配的である場合,知覚距離は意味変化を捉えないことが多いため,再帰的投影と比較することで背景バイアスをキャンセルする。 広範な実験により、prは生成モデルに基づくノベルティ検出手法の先行技術を上回ることが示される。

Novelty detection is a fundamental task of machine learning which aims to detect abnormal ($\textit{i.e.}$ out-of-distribution (OOD)) samples. Since diffusion models have recently emerged as the de facto standard generative framework with surprising generation results, novelty detection via diffusion models has also gained much attention. Recent methods have mainly utilized the reconstruction property of in-distribution samples. However, they often suffer from detecting OOD samples that share similar background information to the in-distribution data. Based on our observation that diffusion models can \emph{project} any sample to an in-distribution sample with similar background information, we propose \emph{Projection Regret (PR)}, an efficient novelty detection method that mitigates the bias of non-semantic information. To be specific, PR computes the perceptual distance between the test image and its diffusion-based projection to detect abnormality. Since the perceptual distance often fails to capture semantic changes when the background information is dominant, we cancel out the background bias by comparing it against recursive projections. Extensive experiments demonstrate that PR outperforms the prior art of generative-model-based novelty detection methods by a significant margin.
翻訳日:2023-12-06 16:02:48 公開日:2023-12-05
# 車両導入と駐車管理の強化:効率性とセキュリティのためのディープラーニングソリューション

Enhancing Vehicle Entrance and Parking Management: Deep Learning Solutions for Efficiency and Security ( http://arxiv.org/abs/2312.02699v1 )

ライセンス: Link先を確認
Muhammad Umer Ramzan, Usman Ali, Syed Haider Abbas Naqvi, Zeeshan Aslam, Tehseen, Husnain Ali, Muhammad Faheem(参考訳) あらゆる組織における自動車の入り口と駐車の自動管理は、記録保持、効率、セキュリティ上の懸念を含む複雑な課題である。 車両を追跡し駐車スペースを見つける手作業の方法は遅く、時間の無駄である。 車両の入口と駐車場の自動管理の問題を解決するため,最先端の深層学習モデルを活用し,どの組織にも車両の入口と駐車のプロセスを自動化した。 セキュリティを確保するために,車両検出,ナンバープレート認証,顔検出および認識モデルを統合し,車両と車両が組織に登録されていることを保証する。 車両検出,ナンバープレート検出,顔検出,認識などの深層学習モデルの訓練を行ったが,YOLOv8nモデルは他のモデルよりも優れていた。 さらに、GoogleのTesseract-OCRエンジンによって、ライセンスプレート認識が促進される。 これらの技術を統合することで、効率的な車両検出、正確な識別、合理化された記録保持、建物内の駐車スペース割り当ての最適化が実現され、利便性、精度、安全性が向上する。 将来の研究の機会は、幅広い実世界のアプリケーションにおけるシステムパフォーマンスの微調整にある。

The auto-management of vehicle entrance and parking in any organization is a complex challenge encompassing record-keeping, efficiency, and security concerns. Manual methods for tracking vehicles and finding parking spaces are slow and a waste of time. To solve the problem of auto management of vehicle entrance and parking, we have utilized state-of-the-art deep learning models and automated the process of vehicle entrance and parking into any organization. To ensure security, our system integrated vehicle detection, license number plate verification, and face detection and recognition models to ensure that the person and vehicle are registered with the organization. We have trained multiple deep-learning models for vehicle detection, license number plate detection, face detection, and recognition, however, the YOLOv8n model outperformed all the other models. Furthermore, License plate recognition is facilitated by Google's Tesseract-OCR Engine. By integrating these technologies, the system offers efficient vehicle detection, precise identification, streamlined record keeping, and optimized parking slot allocation in buildings, thereby enhancing convenience, accuracy, and security. Future research opportunities lie in fine-tuning system performance for a wide range of real-world applications.
翻訳日:2023-12-06 15:56:26 公開日:2023-12-05
# 拡散モデルのトレーニングダイナミクスの解析と改善

Analyzing and Improving the Training Dynamics of Diffusion Models ( http://arxiv.org/abs/2312.02696v1 )

ライセンス: Link先を確認
Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine(参考訳) 拡散モデルは現在、大規模なデータセットへの非並列スケーリングによって、データ駆動画像合成の分野を支配している。 本稿では, ADM拡散モデルアーキテクチャにおいて, 高次構造を変化させることなく, 不均一かつ非効率なトレーニングの要因を特定し, 修正する。 ネットワークのアクティベーションとウエイトの両方において、制御されていないマグニチュードの変化と不均衡を観測することで、ネットワーク層を再設計し、期待値のアクティベーション、重み付け、更新を保ちます。 この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。 我々は、画像Net-512合成における2.41のFIDを1.81に改善し、高速な決定論的サンプリングを行った。 独立なコントリビューションとして,指数移動平均(EMA)パラメータをポストホック,すなわちトレーニング実行終了後に設定する方法を提案する。 これにより、複数のトレーニング実行のコストを伴わずに、emaの長さの正確なチューニングが可能になり、ネットワークアーキテクチャ、トレーニング時間、ガイダンスとの驚くべきインタラクションが明らかになる。

Diffusion models currently dominate the field of data-driven image synthesis with their unparalleled scaling to large datasets. In this paper, we identify and rectify several causes for uneven and ineffective training in the popular ADM diffusion model architecture, without altering its high-level structure. Observing uncontrolled magnitude changes and imbalances in both the network activations and weights over the course of training, we redesign the network layers to preserve activation, weight, and update magnitudes on expectation. We find that systematic application of this philosophy eliminates the observed drifts and imbalances, resulting in considerably better networks at equal computational complexity. Our modifications improve the previous record FID of 2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic sampling. As an independent contribution, we present a method for setting the exponential moving average (EMA) parameters post-hoc, i.e., after completing the training run. This allows precise tuning of EMA length without the cost of performing several training runs, and reveals its surprising interactions with network architecture, training time, and guidance.
翻訳日:2023-12-06 15:56:08 公開日:2023-12-05
# UPOCR: 統一されたPixel-Level OCRインターフェースを目指して

UPOCR: Towards Unified Pixel-Level OCR Interface ( http://arxiv.org/abs/2312.02694v1 )

ライセンス: Link先を確認
Dezhi Peng, Zhenhua Yang, Jiaxin Zhang, Chongyu Liu, Yongxin Shi, Kai Ding, Fengjun Guo, Lianwen Jin(参考訳) 近年、光学文字認識(OCR)分野は、幅広いタスクに対して、多彩な最先端アプローチで発展してきた。 しかし、これらのアプローチは異なるパラダイム、アーキテクチャ、トレーニング戦略でタスク特化設計されており、研究とメンテナンスの複雑さを著しく増加させ、アプリケーションの迅速なデプロイを妨げる。 そこで本研究では,統一PixelレベルのOCRインタフェースの汎用モデルであるUPOCRを提案する。 具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。 学習可能なタスクプロンプトを導入して、エンコーダが抽出した一般的な特徴表現をタスク固有の空間にプッシュし、デコーダにタスク認識を与える。 また、モデルトレーニングは、タスク間の不均一性によらず、生成画像と地中画像の相違を最小限に抑えることを目的としている。 テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。 ベルとホイッスルがなければ,提案手法は統一された単一モデルで3つのタスクの最先端性能を同時に達成できることを示し,一般のOCRモデルの研究に有用な戦略と洞察を提供する。 コードは公開されます。

In recent years, the optical character recognition (OCR) field has been proliferating with plentiful cutting-edge approaches for a wide spectrum of tasks. However, these approaches are task-specifically designed with divergent paradigms, architectures, and training strategies, which significantly increases the complexity of research and maintenance and hinders the fast deployment in applications. To this end, we propose UPOCR, a simple-yet-effective generalist model for Unified Pixel-level OCR interface. Specifically, the UPOCR unifies the paradigm of diverse OCR tasks as image-to-image transformation and the architecture as a vision Transformer (ViT)-based encoder-decoder. Learnable task prompts are introduced to push the general feature representations extracted by the encoder toward task-specific spaces, endowing the decoder with task awareness. Moreover, the model training is uniformly aimed at minimizing the discrepancy between the generated and ground-truth images regardless of the inhomogeneity among tasks. Experiments are conducted on three pixel-level OCR tasks including text removal, text segmentation, and tampered text detection. Without bells and whistles, the experimental results showcase that the proposed method can simultaneously achieve state-of-the-art performance on three tasks with a unified single model, which provides valuable strategies and insights for future research on generalist OCR models. Code will be publicly available.
翻訳日:2023-12-06 15:55:47 公開日:2023-12-05
# DeepPointMap: 統一ニューラルネットワークによるLiDAR SLAMの改善

DeepPointMap: Advancing LiDAR SLAM with Unified Neural Descriptors ( http://arxiv.org/abs/2312.02684v1 )

ライセンス: Link先を確認
Xiaze Zhang, Ziheng Ding, Qi Jing, Yuejie Zhang, Wenchao Ding, Rui Feng(参考訳) 点雲は、同時局在マッピング(SLAM)など、様々な領域において有意なポテンシャルを示している。 しかし、既存のアプローチは、高位置化精度を達成するために高密度の点雲に依存するか、あるいはマップサイズを減らすために一般化された記述子を使用する。 残念ながら、この2つの側面は互いに矛盾しているようだ。 この制限に対処するため,両面において優れた嗜好を実現する統一アーキテクチャであるDeepPointMapを提案する。 ニューラルネットワークを用いて、ポイントクラウドから高度に代表的でスパースなニューラルディスクリプタを抽出し、メモリ効率の高いマップ表現と正確なマルチスケールローカライゼーションタスク(オーソメトリやループ閉鎖など)を可能にする。 さらに、より挑戦的なマルチエージェント協調SLAMに拡張することで、フレームワークの汎用性を示す。 これらのシナリオで得られた有望な結果は、我々のアプローチの有効性と可能性をさらに強調する。

Point clouds have shown significant potential in various domains, including Simultaneous Localization and Mapping (SLAM). However, existing approaches either rely on dense point clouds to achieve high localization accuracy or use generalized descriptors to reduce map size. Unfortunately, these two aspects seem to conflict with each other. To address this limitation, we propose a unified architecture, DeepPointMap, achieving excellent preference on both aspects. We utilize neural network to extract highly representative and sparse neural descriptors from point clouds, enabling memory-efficient map representation and accurate multi-scale localization tasks (e.g., odometry and loop-closure). Moreover, we showcase the versatility of our framework by extending it to more challenging multi-agent collaborative SLAM. The promising results obtained in these scenarios further emphasize the effectiveness and potential of our approach.
翻訳日:2023-12-06 15:55:24 公開日:2023-12-05
# ハングベースサンプリングを用いた一致条件とミスマッチ条件の拡散に基づく音声強調

Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions Using a Heun-Based Sampler ( http://arxiv.org/abs/2312.02683v1 )

ライセンス: Link先を確認
Philippe Gonzalez, Zheng-Hua Tan, Jan {\O}stergaard, Jesper Jensen, Tommy Sonne Alstr{\o}m, Tobias May(参考訳) 拡散モデルは、最近音声強調にうまく適用された新しい種類の生成モデルである。 先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を示している。 しかし、これはトレーニング用の1つのデータベースとテスト用のデータベースで検討され、その結果は特定のデータベースに依存します。 また,画像生成文学の最近の展開は,音声強調のための未検討のままである。 これらは、ノイズスケジュールやリバースサンプリングのような拡散モデルのいくつかの設計側面を含む。 本研究では,複数の音声・雑音・バイノーラル室インパルス応答(brir)データベースを用いて拡散型音声強調モデルの一般化性能を体系的に評価し,不整合音響条件のシミュレーションを行った。 また,これまで音声強調に応用されなかった雑音スケジュールとサンプルを用いて実験を行った。 提案システムは,複数のデータベースをトレーニングに使用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。 また,Hun-based samplerは,音声強調によく用いられるサンプルに比べて,より少ない計算コストで優れた性能を示すことを示す。

Diffusion models are a new class of generative models that have recently been applied to speech enhancement successfully. Previous works have demonstrated their superior performance in mismatched conditions compared to state-of-the art discriminative models. However, this was investigated with a single database for training and another one for testing, which makes the results highly dependent on the particular databases. Moreover, recent developments from the image generation literature remain largely unexplored for speech enhancement. These include several design aspects of diffusion models, such as the noise schedule or the reverse sampler. In this work, we systematically assess the generalization performance of a diffusion-based speech enhancement model by using multiple speech, noise and binaural room impulse response (BRIR) databases to simulate mismatched acoustic conditions. We also experiment with a noise schedule and a sampler that have not been applied to speech enhancement before. We show that the proposed system substantially benefits from using multiple databases for training, and achieves superior performance compared to state-of-the-art discriminative models in both matched and mismatched conditions. We also show that a Heun-based sampler achieves superior performance at a smaller computational cost compared to a sampler commonly used for speech enhancement.
翻訳日:2023-12-06 15:55:07 公開日:2023-12-05
# H-GAP:ジェネリストプランナーによるヒューマノイド制御

H-GAP: Humanoid Control with a Generalist Planner ( http://arxiv.org/abs/2312.02682v1 )

ライセンス: Link先を確認
Zhengyao Jiang, Yingchen Xu, Nolan Wagener, Yicheng Luo, Michael Janner, Edward Grefenstette, Tim Rockt\"aschel, Yuandong Tian(参考訳) ヒューマノイド制御は、人間中心のインフラに統合し、物理駆動のヒューマノイドアニメーションを可能にするための道を提供する重要な研究課題である。 この分野での難題は、高次元の作用空間における最適化の難しさと、ヒューマノイドの2足歩行形態によってもたらされる不安定性に起因している。 しかし、人間のモーションキャプチャーデータと、MoCapActのようなヒューマノイド軌道の派生データセットの広範な収集は、これらの課題に対処する道を開く。 この文脈では、人体運動キャプチャーデータから得られたヒューマノイド軌跡に基づいて訓練された状態行動軌跡生成モデルであるHumanoid Generalist Autoencoding Planner(H-GAP)を、モデル予測制御(MPC)を用いて下流制御タスクを適切に処理することができる。 56自由度ヒューマノイドでは、H-GAPが幅広い運動行動の表現と生成を学ぶことを実証的に示す。 さらに、オンラインインタラクションから学ばなくても、これらの動作を柔軟に転送して、新しい下流制御タスクを計画を通じて解決することができる。 特に、H-GAPは、基底真理力学モデルにアクセス可能な確立されたMPCベースラインを抜いて、個々のタスクのために訓練されたオフラインRLメソッドよりも優れているか、あるいは同等である。 最後に,H-GAPのスケーリング特性に関する実証的研究を行い,データの追加による性能向上の可能性を示す。 コードとビデオはhttps://ycxuyingchen.github.io/hgap/で入手できる。

Humanoid control is an important research challenge offering avenues for integration into human-centric infrastructures and enabling physics-driven humanoid animations. The daunting challenges in this field stem from the difficulty of optimizing in high-dimensional action spaces and the instability introduced by the bipedal morphology of humanoids. However, the extensive collection of human motion-captured data and the derived datasets of humanoid trajectories, such as MoCapAct, paves the way to tackle these challenges. In this context, we present Humanoid Generalist Autoencoding Planner (H-GAP), a state-action trajectory generative model trained on humanoid trajectories derived from human motion-captured data, capable of adeptly handling downstream control tasks with Model Predictive Control (MPC). For 56 degrees of freedom humanoid, we empirically demonstrate that H-GAP learns to represent and generate a wide range of motor behaviours. Further, without any learning from online interactions, it can also flexibly transfer these behaviors to solve novel downstream control tasks via planning. Notably, H-GAP excels established MPC baselines that have access to the ground truth dynamics model, and is superior or comparable to offline RL methods trained for individual tasks. Finally, we do a series of empirical studies on the scaling properties of H-GAP, showing the potential for performance gains via additional data but not computing. Code and videos are available at https://ycxuyingchen.github.io/hgap/.
翻訳日:2023-12-06 15:54:49 公開日:2023-12-05
# コンタクトエネルギーをベースとした直視経験優先化

Contact Energy Based Hindsight Experience Prioritization ( http://arxiv.org/abs/2312.02677v1 )

ライセンス: Link先を確認
Erdi Sayar, Zhenshan Bing, Carlo D'Eramo, Ozgur S. Oguz, Alois Knoll(参考訳) 強化学習(rl)アルゴリズムでは,成功事例の収集に非効率性があるため,スパース報酬を伴うマルチゴールロボット操作タスクは困難である。 近年のHER(Hindsight Experience Replay)のようなアルゴリズムは、失敗軌跡を利用して目標を達成された状態の1つに置き換えることで学習を高速化し、失敗軌跡を学習への貢献として活用する。 しかし、彼女は、学習に最も価値のあるものについて考慮せずに、失敗した軌道を均一に選択する。 本稿では,この課題に対処し,接触によるリッチな情報に基づいてリプレイバッファからサンプルを選択し,ロボットのグリップ内のタッチセンサと物体の変位を活用するための,接触エネルギーに基づく優先順位付け(CEBP)手法を提案する。 当社の優先順位付け方式では,最も多くの情報を提供するコンタクトリッチなエクスペリエンスのサンプリングが推奨されている。 そこで本研究では,ロボットの課題に対して提案手法を評価し,最新手法と比較する。 本手法は,ロボット操作タスクにおいて,これらの手法に匹敵する性能あるいは性能を示す。 最後に,本手法から実物のフランカロボットに訓練されたポリシーを配置し,選択・配置作業を行う。 我々はロボットがその課題をうまく解決できることを観察する。 ビデオとコードは、https://erdiphd.github.io/HER_force.comで公開されている。

Multi-goal robot manipulation tasks with sparse rewards are difficult for reinforcement learning (RL) algorithms due to the inefficiency in collecting successful experiences. Recent algorithms such as Hindsight Experience Replay (HER) expedite learning by taking advantage of failed trajectories and replacing the desired goal with one of the achieved states so that any failed trajectory can be utilized as a contribution to learning. However, HER uniformly chooses failed trajectories, without taking into account which ones might be the most valuable for learning. In this paper, we address this problem and propose a novel approach Contact Energy Based Prioritization~(CEBP) to select the samples from the replay buffer based on rich information due to contact, leveraging the touch sensors in the gripper of the robot and object displacement. Our prioritization scheme favors sampling of contact-rich experiences, which are arguably the ones providing the largest amount of information. We evaluate our proposed approach on various sparse reward robotic tasks and compare them with the state-of-the-art methods. We show that our method surpasses or performs on par with those methods on robot manipulation tasks. Finally, we deploy the trained policy from our method to a real Franka robot for a pick-and-place task. We observe that the robot can solve the task successfully. The videos and code are publicly available at: https://erdiphd.github.io/HER_force
翻訳日:2023-12-06 15:54:20 公開日:2023-12-05
# シミュレーションに基づくモデルのための償却ベイズ決定法

Amortized Bayesian Decision Making for simulation-based models ( http://arxiv.org/abs/2312.02674v1 )

ライセンス: Link先を確認
Mila Gorecki, Jakob H. Macke, Michael Deistler(参考訳) シミュレーションベース推論(sbi)は、幅広い領域における確率的シミュレータの後方分布を推測するための強力な枠組みを提供する。 しかし、多くの設定において、後続の分布はゴールそのものではなく、派生したパラメータ値とその不確実性は、どのアクションをとるかを決定するための基盤として使用される。 残念なことに、SBIによって提供される後続分布は(潜在的に粗い)真の後続分布の近似であるため、結果として得られる決定は準最適である。 ここでは,確率シミュレータ上でベイズ決定を行う方法と,後方への明示的な近似を計算する必要性を回避する方法について述べる。 本手法はシミュレーションデータに基づいてニューラルネットワークを訓練し,データや動作によって期待されるコストを予測できる。 本手法をいくつかのベンチマーク問題に適用し,本手法が真の後方分布に類似したコストをもたらすことを示す。 次に,ベイジアン仮想てんかん患者である医療神経科学における実世界のシミュレータにおいて,最適な動作を推定するためにこの手法を適用し,少ないシミュレーションで低コストな動作を推測できることを実証する。

Simulation-based inference (SBI) provides a powerful framework for inferring posterior distributions of stochastic simulators in a wide range of domains. In many settings, however, the posterior distribution is not the end goal itself -- rather, the derived parameter values and their uncertainties are used as a basis for deciding what actions to take. Unfortunately, because posterior distributions provided by SBI are (potentially crude) approximations of the true posterior, the resulting decisions can be suboptimal. Here, we address the question of how to perform Bayesian decision making on stochastic simulators, and how one can circumvent the need to compute an explicit approximation to the posterior. Our method trains a neural network on simulated data and can predict the expected cost given any data and action, and can, thus, be directly used to infer the action with lowest cost. We apply our method to several benchmark problems and demonstrate that it induces similar cost as the true posterior distribution. We then apply the method to infer optimal actions in a real-world simulator in the medical neurosciences, the Bayesian Virtual Epileptic Patient, and demonstrate that it allows to infer actions associated with low cost after few simulations.
翻訳日:2023-12-06 15:53:56 公開日:2023-12-05
# Egocentric Hand-Object Interaction Detectionに合成データは有用か? HOI-Synth領域適応ベンチマークの検討

Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection? An Investigation and the HOI-Synth Domain Adaptation Benchmark ( http://arxiv.org/abs/2312.02672v1 )

ライセンス: Link先を確認
Rosario Leonardi, Antonino Furnari, Francesco Ragusa, Giovanni Maria Farinella(参考訳) 本研究では,エゴセントリック視覚領域における物体間相互作用検出の促進における合成データの有効性について検討する。 本稿では,ハンドオブジェクトの接触状態,バウンディングボックス,ピクセル単位でのセグメンテーションマスクをラベル付けした,ハンドオブジェクトインタラクションの合成画像を生成するシミュレータを提案する。 総合的な実験と3つのエゴセントリックデータセット(VISOR, EgoHOS, ENIGMA-51)の比較分析により、合成データとドメイン適応技術を用いることで、従来の教師付き手法に匹敵する性能を示しながら、実際のデータの一部にアノテーションを必要とする。 実環境とオブジェクトの3dモデルから生成されたドメイン内合成データでテストすると、ラベル付き実データのみに基づいた標準完全教師付きアプローチに対して、最高のモデルが一貫したパフォーマンス改善を示します。 また,egocentric hand-object interaction detection(hoi-synth)のための新たなドメイン適応ベンチマークも設定し,コミュニティがこの課題に取り組むためのベースライン結果を提供する。 生成されたデータ、コード、シミュレータを以下のリンクでリリースします。

In this study, we investigate the effectiveness of synthetic data in enhancing hand-object interaction detection within the egocentric vision domain. We introduce a simulator able to generate synthetic images of hand-object interactions automatically labeled with hand-object contact states, bounding boxes, and pixel-wise segmentation masks. Through comprehensive experiments and comparative analyses on three egocentric datasets, VISOR, EgoHOS, and ENIGMA-51, we demonstrate that the use of synthetic data and domain adaptation techniques allows for comparable performance to conventional supervised methods while requiring annotations on only a fraction of the real data. When tested with in-domain synthetic data generated from 3D models of real target environments and objects, our best models show consistent performance improvements with respect to standard fully supervised approaches based on labeled real data only. Our study also sets a new benchmark of domain adaptation for egocentric hand-object interaction detection (HOI-Synth) and provides baseline results to encourage the community to engage in this challenging task. We release the generated data, code, and the simulator at the following link: https://iplab.dmi.unict.it/HOI-Synth/.
翻訳日:2023-12-06 15:53:33 公開日:2023-12-05
# 逆スケール空間流によるバロン関数のスパース表現の学習

Learning a Sparse Representation of Barron Functions with the Inverse Scale Space Flow ( http://arxiv.org/abs/2312.02671v1 )

ライセンス: Link先を確認
Tjeerd Jan Heeringa, Tim Roith, Christoph Brune, Martin Burger(参考訳) 本稿では,バロン関数のスパース表現を求める手法を提案する。 具体的には、$L^2$ 関数 $f$ が与えられたとき、逆スケール空間の流れは、その測度 $\mu$ に関連するバロン函数と函数 $f$ の間の損失を最小化するスパース測度 $\mu$ を見つけるために用いられる。 本手法の収束特性は, 理想的な設定と, 測定ノイズおよびサンプリングバイアスの場合に解析される。 理想設定では、目標が$\mathcal{o}(1/t)$の最小化器に時間内に厳密に単調を減少させ、測定ノイズやサンプリングバイアスの場合、乗法や加法定数まで最適となる。 この収束はパラメータ空間の離散化で保存され、より細かい離散化の最小化は全パラメータ空間上の最適値に収束する。

This paper presents a method for finding a sparse representation of Barron functions. Specifically, given an $L^2$ function $f$, the inverse scale space flow is used to find a sparse measure $\mu$ minimising the $L^2$ loss between the Barron function associated to the measure $\mu$ and the function $f$. The convergence properties of this method are analysed in an ideal setting and in the cases of measurement noise and sampling bias. In an ideal setting the objective decreases strictly monotone in time to a minimizer with $\mathcal{O}(1/t)$, and in the case of measurement noise or sampling bias the optimum is achieved up to a multiplicative or additive constant. This convergence is preserved on discretization of the parameter space, and the minimizers on increasingly fine discretizations converge to the optimum on the full parameter space.
翻訳日:2023-12-06 15:53:09 公開日:2023-12-05
# 時間依存的純粋強調におけるキュービット環境絡み合い

Qubit-environment entanglement in time-dependent pure dephasing ( http://arxiv.org/abs/2312.02670v1 )

ライセンス: Link先を確認
Ma{\l}gorzata Strza{\l}ka, Radim Filip, Katarzyna Roszak(参考訳) 本研究は, システム完全非コヒーレンスに繋がる相互作用のために最近開発されたシステム環境絡み合いの定量化手法を, 同じタイプの時間依存ハミルトニアンに簡単に一般化できることを示す。 これには、分離可能性のif-and-only-if基準、および量子ビットシステムに適用可能な絡み合い測度、および環境にアクセスせずにシステム上でのみ行われる操作および測定による絡み合いの検出方法が含まれる。 我々はこれらの手法を用いて、キュービットオシレータシステムのデコヒーレンスの性質を研究する。 量子非ガウス状態を持つボソニック量子技術とその量子センシング・コンピューティングへの応用には量子ビット・オシレータの絡み合いが不可欠である。 支配的なボソニックプラットフォーム、閉じ込められたイオン、電気機械、超伝導回路は、新しい量子センサーと量子誤差補正を達成するためにこのような絡み合いを利用する時間依存ゲートに基づいている。 ハミルトニアンのステップのような時間依存は、時間に依存しないシナリオでは再現できない古典的相関と量子相関の蓄積の間の複雑な相互作用を捉えることができる。

We show that the methods for quantification of system-environment entanglement that were recently developed for interactions that lead to pure decoherence of the system can be straightforwardly generalized to time-dependent Hamiltonians of the same type. This includes the if-and-only-if criteria of separability, as well as the entanglement measure applicable to qubit systems, and methods of detection of entanglement by operations and measurements performed solely on the system without accessing the environment. We use these methods to study the nature of the decoherence of a qubit-oscillator system. Qubit-oscillator entanglement is essential for developing bosonic quantum technology with quantum non-Gaussian states and its applications in quantum sensing and computing. The dominating bosonic platforms, trapped ions, electromechanics, and superconducting circuits, are based on the time-dependent gates that use such entanglement to achieve new quantum sensors and quantum error correction. The step-like time-dependence of the Hamiltonian that is taken into account allows us to capture complex interplay between the build-up of classical and quantum correlations, which could not be replicated in time-independent scenarios.
翻訳日:2023-12-06 15:52:49 公開日:2023-12-05
# 改良された実空間並列化行列-積状態圧縮とユニタリ量子力学シミュレーションへの応用

Improved real-space parallelizable matrix-product state compression and its application to unitary quantum dynamics simulation ( http://arxiv.org/abs/2312.02667v1 )

ライセンス: Link先を確認
Rong-Yang Sun and Tomonori Shirakawa and Seiji Yunoki(参考訳) テンソルネットワーク状態を用いた短期量子デバイスの効率的なシミュレーションに向けて,mps(real-space parallelizable matrix-product state)圧縮法を提案する。 本手法は, 逐次的再正規化手順を必要とせず, 波動関数ノルムの安定性を維持しつつ, システムサイズに関わらず, 一定時間で全ての仮想結合を効率よく圧縮することができる。 さらに,逸脱した正準形式を部分的に復元し,その後のステップでシミュレーションの精度を向上させる並列観測手法を導入する。 さらに,この手法をユニタリ量子力学のシミュレーションに応用し,並列時間発展ブロックデシメーション(ptebd)アルゴリズムを導入する。 我々は、1000量子ビットを超える1次元および2次元量子回路の広範なシミュレーションにpTEBDアルゴリズムを用いる。 得られた数値結果は、pTEBDアルゴリズムが現在の最先端MPSアルゴリズムと同じレベルのシミュレーション精度を達成できることを示したが、多項式的に短い時間で、現代のスーパーコンピュータではほぼ完璧なスケーリング性能を示す。

Towards the efficient simulation of near-term quantum devices using tensor network states, we introduce an improved real-space parallelizable matrix-product state (MPS) compression method. This method enables efficient compression of all virtual bonds in constant time, irrespective of the system size, with controlled accuracy, while it maintains the stability of the wavefunction norm without necessitating sequential renormalization procedures. In addition, we introduce a parallel regauging technique to partially restore the deviated canonical form, thereby improving the accuracy of the simulation in subsequent steps. We further apply this method to simulate unitary quantum dynamics and introduce a parallel time-evolving block-decimation (pTEBD) algorithm. We employ the pTEBD algorithm for extensive simulations of typical one- and two-dimensional quantum circuits, involving over 1000 qubits. The obtained numerical results unequivocally demonstrate that the pTEBD algorithm achieves the same level of simulation precision as the current state-of-the-art MPS algorithm but in polynomially shorter time, exhibiting nearly perfect weak scaling performance on a modern supercomputer.
翻訳日:2023-12-06 15:52:29 公開日:2023-12-05
# RLエージェントを一時的に失明しやすく訓練中

Lights out: training RL agents robust to temporary blindness ( http://arxiv.org/abs/2312.02665v1 )

ライセンス: Link先を確認
N. Ordonez, M. Tromp, P. M. Julbe, and W. B\"ohmer(参考訳) DQNで訓練されたエージェントは、次にどのアクションをとるかを決定するために各タイミングで観察に依存する。 しかし、現実世界のアプリケーションでは、観察が変更されるか、完全に失われる可能性がある。 その例としては、電球が故障したり、部屋の壁紙が変わったりすることがある。 これらの状況は実際の観察を変えるが、基礎となる最適政策は変わらない。 このため、我々はエージェントが再び(認識された)観察を受けるまで行動を続けることを望んでいます。 これを実現するために,観測の隠れた表現と新しいnステップ損失関数を組み合わせたニューラルネットワークアーキテクチャを提案する。 提案手法は,訓練対象よりも長期にわたる位置ベースブラインドネスに耐えられるため,一時的なブラインドネスに対する堅牢性を示す。 私たちの実装にアクセスするには、Nathan、Marije、Pauにメールしてください。

Agents trained with DQN rely on an observation at each timestep to decide what action to take next. However, in real world applications observations can change or be missing entirely. Examples of this could be a light bulb breaking down, or the wallpaper in a certain room changing. While these situations change the actual observation, the underlying optimal policy does not change. Because of this we want our agent to continue taking actions until it receives a (recognized) observation again. To achieve this we introduce a combination of a neural network architecture that uses hidden representations of the observations and a novel n-step loss function. Our implementation is able to withstand location based blindness stretches longer than the ones it was trained on, and therefore shows robustness to temporary blindness. For access to our implementation, please email Nathan, Marije, or Pau.
翻訳日:2023-12-06 15:52:07 公開日:2023-12-05
# FaceStudio:どんな顔でも秒速で撮れる

FaceStudio: Put Your Face Everywhere in Seconds ( http://arxiv.org/abs/2312.02663v1 )

ライセンス: Link先を確認
Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu(参考訳) 本研究では,人物のアイデンティティを維持しつつ,パーソナライズされたスタイリスティックなタッチを付加した画像生成における興味深い課題であるアイデンティティ保存画像合成について検討する。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れているが、大きな欠点がある。 これには、詳細なリソースと微調整の時間の必要性、複数の参照画像の要件が含まれる。 これらの課題を克服するため,本研究では,人間の画像に焦点をあてたアイデンティティ保存合成への新しいアプローチを提案する。 本モデルでは,直接フィードフォワード機構を活用し,集中的な微調整の必要性を回避し,迅速かつ効率的な画像生成を実現する。 私たちのイノベーションの中心は、スタイリッシュな画像、顔画像、テキストによるプロンプトを組み合わせて、画像生成プロセスを導く、ハイブリッドなガイダンスフレームワークです。 このユニークな組み合わせにより、われわれのモデルは、芸術的肖像画やアイデンティティブロード画像など、様々な応用を実現できる。 定性評価と定量的評価の両方を含む実験結果は,既存のベースラインモデルと過去の研究,特に高い忠実度で被験者のアイデンティティを維持できる顕著な効率と能力において,本手法の優位性を示すものである。

This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
翻訳日:2023-12-06 15:51:54 公開日:2023-12-05
# 電力系統におけるデータ駆動異常検出のための自己起動エッジ計算法

A Self-Commissioning Edge Computing Method for Data-Driven Anomaly Detection in Power Electronic Systems ( http://arxiv.org/abs/2312.02661v1 )

ライセンス: Link先を確認
Pere Izquierdo Gomez, Miguel E. Lopez Gajardo, Nenad Mijatovic, Tomislav Dragicevic(参考訳) 電力変換器の信頼性を確保することは非常に重要であり、データ駆動型状態監視技術は、この目的のために重要なツールとして自身を固めている。 しかしながら、制御された実験室環境でうまく機能する手法をフィールドアプリケーションに変換することは、特にラボトレーニングデータの多様性と正確性が限られているため、大きな課題となっている。 フィールドデータの使用を有効にすることで、オンライン機械学習はこの問題を克服するための強力なツールとなり得るが、トレーニングプロセスの安定性と予測可能性を保証するための新たな課題がもたらされる。 本研究は、予測誤差が大きいトレーニングサンプルの保存を優先する自律的アルゴリズムを用いることにより、メモリ使用量を最小限に抑えることにより、これらの欠点を緩和するエッジコンピューティング手法を提案する。 本手法は、可変周波数モータ駆動の熱異常検出スキームの形で、自励状態監視システムの使用事例において、通常動作と異常動作を最小限の事前知識で区別するために自己学習したアルゴリズムを示す。 実験データに基づいて得られた結果は,提案するデータ選択過程を伴わないオンライン学習モデルと比較して,予測精度とトレーニング速度が有意に向上することを示した。

Ensuring the reliability of power electronic converters is a matter of great importance, and data-driven condition monitoring techniques are cementing themselves as an important tool for this purpose. However, translating methods that work well in controlled lab environments to field applications presents significant challenges, notably because of the limited diversity and accuracy of the lab training data. By enabling the use of field data, online machine learning can be a powerful tool to overcome this problem, but it introduces additional challenges in ensuring the stability and predictability of the training processes. This work presents an edge computing method that mitigates these shortcomings with minimal additional memory usage, by employing an autonomous algorithm that prioritizes the storage of training samples with larger prediction errors. The method is demonstrated on the use case of a self-commissioning condition monitoring system, in the form of a thermal anomaly detection scheme for a variable frequency motor drive, where the algorithm self-learned to distinguish normal and anomalous operation with minimal prior knowledge. The obtained results, based on experimental data, show a significant improvement in prediction accuracy and training speed, when compared to equivalent models trained online without the proposed data selection process.
翻訳日:2023-12-06 15:51:30 公開日:2023-12-05
# データ-テキスト生成のための合成一般化

Compositional Generalization for Data-to-Text Generation ( http://arxiv.org/abs/2312.02748v1 )

ライセンス: Link先を確認
Xinnuo Xu, Ivan Titov, Mirella Lapata(参考訳) データからテキストへの生成は、しばしば述語-代用タプルとして表現される構造化データを、一貫性のあるテキスト記述に変換する。 近年の進歩にもかかわらず、システムは前置詞の見当たらない組み合わせに直面するといまだに苦労し、不利な記述(幻覚や脱落など)を生み出している。 私たちはこの問題を構成の一般化と呼び、この特定の問題に対する様々なアプローチのパフォーマンスを評価するベンチマークを作成するように促した。 さらに,前述語をグループにクラスタリングすることで合成一般化する新しいモデルを提案する。 本モデルでは,1つの述語群に依存して文単位でテキストを生成する。 このアプローチは、すべての評価指標においてT5~ベースラインを著しく上回り、特に、入力への忠実性を維持することに焦点を当てた測定基準でT5よりも31%改善した。

Data-to-text generation involves transforming structured data, often represented as predicate-argument tuples, into coherent textual descriptions. Despite recent advances, systems still struggle when confronted with unseen combinations of predicates, producing unfaithful descriptions (e.g. hallucinations or omissions). We refer to this issue as compositional generalisation, and it encouraged us to create a benchmark for assessing the performance of different approaches on this specific problem. Furthermore, we propose a novel model that addresses compositional generalization by clustering predicates into groups. Our model generates text in a sentence-by-sentence manner, relying on one cluster of predicates at a time. This approach significantly outperforms T5~baselines across all evaluation metrics.Notably, it achieved a 31% improvement over T5 in terms of a metric focused on maintaining faithfulness to the input.
翻訳日:2023-12-06 15:44:36 公開日:2023-12-05
# p-進量子力学, ディラック方程式, アインシュタイン因果性違反

p-Adic Quantum Mechanics, the Dirac Equation, and the violation of Einstein causality ( http://arxiv.org/abs/2312.02744v1 )

ライセンス: Link先を確認
W. A. Z\'u\~niga-Galindo(参考訳) 我々は、粒子や反粒子の存在を予測し、標準粒子のように電荷共役する新しいp進ディラック方程式を導入する。 新しい方程式は古い方程式と多くの性質を共有している。 しかしながら、空間の離散的(p進)性質は、新しい方程式の解に実質的な制限を課す。 この方程式は、標準の場合では不可能な局所解を認める。 最後に、p進ディラック方程式によって進化が制御される量子系はアインシュタイン因果関係を満たさないことを示す。

We introduce a new p-adic Dirac equation that predicts the existence of particles and antiparticles and charge conjugation like the standard one. The new equation shares many properties with the old one. However, the space's discrete (p-adic) nature imposes substantial restrictions on the solutions of the new equation. This equation admits localized solutions, which is impossible in the standard case. Finally, we show that a quantum system whose evolution is controlled by the p-adic Dirac equation does not satisfy the Einstein causality.
翻訳日:2023-12-06 15:44:12 公開日:2023-12-05
# ボーアの相補性原理の更新

Updating Bohr's Complementarity Principle ( http://arxiv.org/abs/2312.02743v1 )

ライセンス: Link先を確認
Diego S. S. Chrysosthemos and Marcos L. W. Basso and Jonas Maziero(参考訳) ボーアの補性原理(BCP)は、長い間量子力学(QM)の基本概念であり、与えられた実験的な構成の中で、量子系(量子トン)は、その波状文字を$W$、またはその粒子状文字を$P$と表現できるが、両方同時に表すことはできない。 現代のBCPの解釈は、同じ実験においてこれらの側面の共存を認め、制約$W + P \le 1$を導入している。 特に、$W$または$P$の推定は間接的回帰法に頻繁に依存しており、これはBCP違反の主張につながっている。 対照的に、近年の進歩は、特定の量子状態準備(QSP)条件下でのQMの公理から補性関係を厳格に導き出すことができることを示している。 本稿では、BCPが与えられた実験構成内に普遍的に保持するわけではないが、特定のQSPのレンズを通して調べると、頑健であることを示す。 与えられた QSP $\rho_t$ を特定の時点の $t$ で定式化するために、量子子の波状および粒子状表現は、QM の公理から直接導かれる相補性関係 $W(\rho_t) + P(\rho_t) \le 1$ によって制約される。 }

Bohr's complementarity principle (BCP) has long been a fundamental concept in quantum mechanics (QM), positing that, within a given experimental setup, a quantum system (quanton) can exhibit either its wave-like character, denoted as $W$, or its particle-like character, denoted as $P$, but not both simultaneously. Modern interpretations of BCP acknowledge the coexistence of these aspects in the same experiment while introducing the constraint $W + P \le 1$. Notably, estimations of $W$ or $P$ frequently rely on indirect retrodiction methods, a practice that has led to claims of BCP violations. In a contrasting perspective, recent advancements demonstrate that complementarity relations can be rigorously derived from the axioms of QM under specific quantum state preparation (QSP) conditions. In this article, we unveil an intriguing insight: although BCP may not universally hold within a given experimental configuration, it remains robust when examined through the lens of a particular QSP. To reconcile these observations and eliminate potential paradoxes, we propose an updated formulation of BCP: \textit{For a given QSP $\rho_t$ at a specific instant of time $t$, the wave-like and particle-like manifestations of a quanton are constrained by the complementarity relation $W(\rho_t) + P(\rho_t) \le 1$, which is derived directly from the axioms of QM.}
翻訳日:2023-12-06 15:44:02 公開日:2023-12-05
# lexci:組込みシステムによる強化学習のためのフレームワーク

LExCI: A Framework for Reinforcement Learning with Embedded Systems ( http://arxiv.org/abs/2312.02739v1 )

ライセンス: Link先を確認
Kevin Badalian, Lucas Koch, Tobias Brinkmann, Mario Picerno, Marius Wegener, Sung-Yong Lee, Jakob Andert(参考訳) 人工知能(AI)の進歩は、日常生活の多くの分野で応用されている。 制御工学の文脈では、強化学習(RL)は特に有望なアプローチであり、エージェントが環境と自由に対話して最適な戦略を見つけるという考え方を中心にしている。 RLエージェントのトレーニングとデプロイにおいてプロフェッショナルが直面する課題のひとつは、RLエージェントが専用の組み込みデバイス上で動作しなければならないことだ。 これは既存のツールチェーンに統合したり、リアルタイム制約のような特定のパフォーマンス基準を満たすためかもしれません。 しかし、従来のRLライブラリはそのようなハードウェアと組み合わせて簡単に利用することはできない。 本稿では,このギャップを橋渡しし,オープンソースライブラリrllibを用いて組込みシステム上でエージェントをトレーニングするための無償かつオープンソースツールを提供する,学習と体験のサイクルインタフェースであるlexciというフレームワークを提案する。 操作性は2つの最先端RLアルゴリズムと高速制御プロトタイピングシステムで実証される。

Advances in artificial intelligence (AI) have led to its application in many areas of everyday life. In the context of control engineering, reinforcement learning (RL) represents a particularly promising approach as it is centred around the idea of allowing an agent to freely interact with its environment to find an optimal strategy. One of the challenges professionals face when training and deploying RL agents is that the latter often have to run on dedicated embedded devices. This could be to integrate them into an existing toolchain or to satisfy certain performance criteria like real-time constraints. Conventional RL libraries, however, cannot be easily utilised in conjunction with that kind of hardware. In this paper, we present a framework named LExCI, the Learning and Experiencing Cycle Interface, which bridges this gap and provides end-users with a free and open-source tool for training agents on embedded systems using the open-source library RLlib. Its operability is demonstrated with two state-of-the-art RL-algorithms and a rapid control prototyping system.
翻訳日:2023-12-06 15:43:33 公開日:2023-12-05
# 大規模言語モデルの表現的類似性の測定に向けて

Towards Measuring Representational Similarity of Large Language Models ( http://arxiv.org/abs/2312.02730v1 )

ライセンス: Link先を確認
Max Klabunde, Mehdi Ben Amor, Michael Granitzer, Florian Lemmerich(参考訳) 多数のリリースされた大規模言語モデル(LLM)の類似性を理解するには、モデル選択の簡略化、違法なモデルの再利用の検出、LLMがうまく機能する理由の理解を深めるなど、多くの用途がある。 本研究では 7B パラメータを持つ LLM の集合の表現の類似性を測る。 その結果,いくつかのllmは他と大きく異なることが示唆された。 虚偽の結論を避けるために類似度スコアを慎重に検討する必要があることを示唆する表象的類似度尺度を用いた課題を明らかにする。

Understanding the similarity of the numerous released large language models (LLMs) has many uses, e.g., simplifying model selection, detecting illegal model reuse, and advancing our understanding of what makes LLMs perform well. In this work, we measure the similarity of representations of a set of LLMs with 7B parameters. Our results suggest that some LLMs are substantially different from others. We identify challenges of using representational similarity measures that suggest the need of careful study of similarity scores to avoid false conclusions.
翻訳日:2023-12-06 15:43:17 公開日:2023-12-05
# R3D-SWIN:シングルビュー3D再構成のための移動ウィンドウアテンション

R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction ( http://arxiv.org/abs/2312.02725v1 )

ライセンス: Link先を確認
Chenhuan Li, Meihua Xiao, zehuan li and Mengxi Gao(参考訳) 近年、視覚トランスフォーマーはvoxel 3dリコンストラクションを含む様々なコンピュータビジョンタスクでうまく機能している。 しかし、視覚変換器の窓はマルチスケールではなく、窓の間には接続がなく、ボクセル3D再構成の精度が制限されている。 そこで我々は,windows attention voxel 3d reconstruction networkを提案する。 私たちの知る限りでは、これはvoxel 3dリコンストラクションにシフトウインドウを応用した最初の作品です。 ShapeNetによる実験結果から, 単視点再構成におけるSOTA精度が得られた。

Recently, vision transformers have performed well in various computer vision tasks, including voxel 3D reconstruction. However, the windows of the vision transformer are not multi-scale, and there is no connection between the windows, which limits the accuracy of voxel 3D reconstruction . Therefore, we propose a shifted windows attention voxel 3D reconstruction network. To the best of our knowledge, this is the first work to apply shifted window attention to voxel 3D reconstruction. Experimental results on ShapeNet verify our method achieves SOTA accuracy in single-view reconstruction.
翻訳日:2023-12-06 15:43:07 公開日:2023-12-05
# 複合景観の構造的類似性の推論に向けて

Towards the Inferrence of Structural Similarity of Combinatorial Landscapes ( http://arxiv.org/abs/2312.02720v1 )

ライセンス: Link先を確認
Mingyu Huang, Ke Li(参考訳) 最も一般的な問題解決ヒューリスティックの1つはアナロジーである。 与えられた問題に対して、解決者はフィットネスのランドスケープの戦略的歩行と見なすことができる。 したがって、ある問題に対して解法が有効であれば、フィットネスのランドスケープが互いに構造的類似性を共有する他の事例にも有効であると期待する。 しかし、組合せ最適化のブラックボックスの性質から、現実のシナリオでこのような類似性を推測するのは容易ではない。 このギャップを埋めるために, 局所的オプティマネットワークをフィットネス景観の指標として利用し, グラフデータマイニング手法を用いて質的, 定量的解析を行い, それらの景観に埋め込まれた潜在トポロジカルな構造情報を探索することを提案した。 3つの古典的組合せ最適化問題に対して大規模実験を行うことで,同一クラスの景観構造的類似性の存在を裏付ける具体的な証拠が得られる。 また,異なる問題クラスの景観間の関係についても質問した。

One of the most common problem-solving heuristics is by analogy. For a given problem, a solver can be viewed as a strategic walk on its fitness landscape. Thus if a solver works for one problem instance, we expect it will also be effective for other instances whose fitness landscapes essentially share structural similarities with each other. However, due to the black-box nature of combinatorial optimization, it is far from trivial to infer such similarity in real-world scenarios. To bridge this gap, by using local optima network as a proxy of fitness landscapes, this paper proposed to leverage graph data mining techniques to conduct qualitative and quantitative analyses to explore the latent topological structural information embedded in those landscapes. By conducting large-scale empirical experiments on three classic combinatorial optimization problems, we gain concrete evidence to support the existence of structural similarity between landscapes of the same classes within neighboring dimensions. We also interrogated the relationship between landscapes of different problem classes.
翻訳日:2023-12-06 15:42:58 公開日:2023-12-05
# アプリのユーザインタラクションデータ:ポリシークレームと実装の比較

User Interaction Data in Apps: Comparing Policy Claims to Implementations ( http://arxiv.org/abs/2312.02710v1 )

ライセンス: Link先を確認
Feiyang Tang, Bjarte M. {\O}stvold(参考訳) モバイルアプリの利用が増加するにつれて、スワイプ、ズーム、画面に費やした時間などのアクションを含む広範なユーザーインタラクションデータも生成される。 アプリはしばしば大量のデータを収集し、匿名化を主張するが、これらの措置の適切性に関する懸念が生じる。 多くの場合、いわゆる匿名化データは、プロファイルする可能性があり、場合によっては個々のユーザーを再識別する。 この状況は透明性の欠如によって複雑になり、ユーザの信頼が損なわれる可能性がある。 本研究は,ユーザのインタラクションデータの収集と処理に着目し,プライバシーポリシーと実際のアプリの動作とのギャップを調査した。 さまざまなカテゴリのアプリトップ100を静的解析法を用いて分析し,ポリシークレームと実装データ収集手法の整合性を評価した。 我々の調査結果は、データ収集における透明性の欠如と、それに伴う再識別のリスクを強調し、ユーザのプライバシと信頼に関する懸念を高めている。 本研究は,モバイルアプリ開発のプライバシプラクティスにおいて,明確なコミュニケーションの重要性と透明性の強化を強調する。

As mobile app usage continues to rise, so does the generation of extensive user interaction data, which includes actions such as swiping, zooming, or the time spent on a screen. Apps often collect a large amount of this data and claim to anonymize it, yet concerns arise regarding the adequacy of these measures. In many cases, the so-called anonymized data still has the potential to profile and, in some instances, re-identify individual users. This situation is compounded by a lack of transparency, leading to potential breaches of user trust. Our work investigates the gap between privacy policies and actual app behavior, focusing on the collection and handling of user interaction data. We analyzed the top 100 apps across diverse categories using static analysis methods to evaluate the alignment between policy claims and implemented data collection techniques. Our findings highlight the lack of transparency in data collection and the associated risk of re-identification, raising concerns about user privacy and trust. This study emphasizes the importance of clear communication and enhanced transparency in privacy practices for mobile app development.
翻訳日:2023-12-06 15:42:15 公開日:2023-12-05
# (実行可能) 群同変タスクに対する逆ロバスト性:グラフ、点雲、分子など

(Provable) Adversarial Robustness for Group Equivariant Tasks: Graphs, Point Clouds, Molecules, and More ( http://arxiv.org/abs/2312.02708v1 )

ライセンス: Link先を確認
Jan Schuchardt, Yan Scholten, Stephan G\"unnemann(参考訳) 機械学習モデルは伝統的に、小さなノルムを持つ入力摂動下での予測が(ほぼ)一定である場合、堅牢であるとみなされる。 しかし、分子特性予測や点雲セグメンテーションのような現実世界のタスクは、回転や置換の等式のような本質的に同値である。 このようなタスクでは、大きなノルムを持つ摂動でさえ、必ずしも入力のセマンティックな内容を変えるとは限らない。 さらに、モデルの予測が明示的に変更する必要があるという摂動もある。 タスクの等価性を考慮に入れた正反対ロバスト性(英語版)の健全な概念を初めて提案する。 次に,(1)タスクの等価性に適合するモデルを選択し,(2)従来の対向ロバスト性を証明することによって,証明可能なロバスト性を実現することを示す。 しかし、連続同値性のあるモデルなど、多くのモデルでは認証方法が利用できない。 このギャップは、アーキテクチャに依存しない認証を可能にする同値保存ランダム化平滑化の枠組みを開発することで解決する。 さらに、最初のアーキテクチャ固有のグラフ編集距離証明書、すなわちノード分類のような同型同変タスクに対する音響ロバスト性保証も導出する。 全体として、ロバスト性という健全な概念は、ロバストで幾何学的な機械学習の交点における将来の仕事にとって重要な前提条件である。

A machine learning model is traditionally considered robust if its prediction remains (almost) constant under input perturbations with small norm. However, real-world tasks like molecular property prediction or point cloud segmentation have inherent equivariances, such as rotation or permutation equivariance. In such tasks, even perturbations with large norm do not necessarily change an input's semantic content. Furthermore, there are perturbations for which a model's prediction explicitly needs to change. For the first time, we propose a sound notion of adversarial robustness that accounts for task equivariance. We then demonstrate that provable robustness can be achieved by (1) choosing a model that matches the task's equivariances (2) certifying traditional adversarial robustness. Certification methods are, however, unavailable for many models, such as those with continuous equivariances. We close this gap by developing the framework of equivariance-preserving randomized smoothing, which enables architecture-agnostic certification. We additionally derive the first architecture-specific graph edit distance certificates, i.e. sound robustness guarantees for isomorphism equivariant tasks like node classification. Overall, a sound notion of robustness is an important prerequisite for future work at the intersection of robust and geometric machine learning.
翻訳日:2023-12-06 15:41:57 公開日:2023-12-05
# 大規模知識モデル:展望と課題

Large Knowledge Model: Perspectives and Challenges ( http://arxiv.org/abs/2312.02706v1 )

ライセンス: Link先を確認
Huajun Chen(参考訳) 人類の世界の理解は、基本的に私たちの認識と認知と結びついており、 \emph{human languages} は \emph{world knowledge} の主要なキャリアの1つとなっている。 この例では、ChatGPT のような \emph{Large Language Models} (LLMs) は、広範囲のシーケンスベースの世界知識をニューラルネットワークに事前学習し、パラメトリック空間におけるこの知識の処理と操作を容易にする。 この記事では、'knowledge'のレンズを通して大きなモデルを探索する。 まず,LLMの強化における知識グラフ(KG)などの記号的知識の役割について検討し,知識強化言語モデル,構造化事前学習,知識に富んだプロンプト,構造化されたCoT,知識編集,LLMのセマンティックツール,知識可能なAIエージェントなどの側面について考察する。 次に,LLMをKGビルダーとコントローラとして使用すること,構造化知識事前学習,LLM強化記号推論,認知による知覚の融合など,従来の記号的知識基盤をどのように増幅するかを検討する。 人間の知識の複雑な性質を考えると,我々は,多種多様な知識構造を管理するために特別に設計された 'emph{Large Knowledge Models} (LKM) の作成を提唱する。 この野心的な取り組みは、言語モデルからの知識表現の切り離し、構造化された知識による事前学習の再構築、大規模なコモンセンスモデルの構築など、いくつかの重要な課題を伴う可能性がある。 最終的に LKM の概念を区別する 5-`A' の原理を提案する。

Humankind's understanding of the world is fundamentally linked to our perception and cognition, with \emph{human languages} serving as one of the major carriers of \emph{world knowledge}. In this vein, \emph{Large Language Models} (LLMs) like ChatGPT epitomize the pre-training of extensive, sequence-based world knowledge into neural networks, facilitating the processing and manipulation of this knowledge in a parametric space. This article explores large models through the lens of ``knowledge''. We initially investigate the role of symbolic knowledge such as Knowledge Graphs (KGs) in enhancing LLMs, covering aspects like knowledge-augmented language model, structure-inducing pre-training, knowledgeable prompts, structured CoT, knowledge editing, semantic tools for LLM and knowledgeable AI agents. Subsequently, we examine how LLMs can amplify traditional symbolic knowledge bases, encompassing aspects like using LLM as KG builder and controller, structured knowledge pretraining, LLM-enhanced symbolic reasoning, and the amalgamation of perception with cognition. Considering the intricate nature of human knowledge, we advocate for the creation of \emph{Large Knowledge Models} (LKM), specifically engineered to manage diversified spectrum of knowledge structures. This ambitious undertaking could entail several key challenges, such as disentangling knowledge representation from language models, restructuring pre-training with structured knowledge, and building large commonsense models, among others. We finally propose a five-``A'' principle to distinguish the concept of LKM.
翻訳日:2023-12-06 15:41:36 公開日:2023-12-05
# 統一学習に基づく損失型JPEG再圧縮

Unified learning-based lossy and lossless JPEG recompression ( http://arxiv.org/abs/2312.02705v1 )

ライセンス: Link先を確認
Jianghui Zhang, Yuanyuan Wang, Lina Guo, Jixiang Luo, Tongda Xu, Yan Wang, Zhi Wang, Hongwei Qin(参考訳) JPEGは今でも最も広く使われている画像圧縮アルゴリズムである。 ほとんどの画像圧縮アルゴリズムは、既存のJPEG画像の多くを無視しながら、圧縮されていない元の画像のみを考慮する。 近年、JPEGファイルのサイズをさらに小さくするためにJPEG再圧縮手法が提案されている。 しかし、これらの手法はJPEGロスレス再圧縮のみを考慮し、これはレート歪曲定理の特別な場合にすぎない。 本稿では,学習量子化テーブルとマルコフ階層型変分オートエンコーダから構成される,ロスリーかつロスレスなJPEG再圧縮フレームワークを提案する。 実験により, ビットレートが上界に近い場合, 損失のない圧縮モデルのビットレートを任意に低歪みにすることができることがわかった。 我々の知る限りでは、JPEG画像の損失と損失のない再圧縮のギャップを埋める最初の学習手法である。

JPEG is still the most widely used image compression algorithm. Most image compression algorithms only consider uncompressed original image, while ignoring a large number of already existing JPEG images. Recently, JPEG recompression approaches have been proposed to further reduce the size of JPEG files. However, those methods only consider JPEG lossless recompression, which is just a special case of the rate-distortion theorem. In this paper, we propose a unified lossly and lossless JPEG recompression framework, which consists of learned quantization table and Markovian hierarchical variational autoencoders. Experiments show that our method can achieve arbitrarily low distortion when the bitrate is close to the upper bound, namely the bitrate of the lossless compression model. To the best of our knowledge, this is the first learned method that bridges the gap between lossy and lossless recompression of JPEG images.
翻訳日:2023-12-06 15:41:04 公開日:2023-12-05
# myportrait: モーフィナブルな事前ガイド付きパーソナライズされたポートレートジェネレーション

MyPortrait: Morphable Prior-Guided Personalized Portrait Generation ( http://arxiv.org/abs/2312.02703v1 )

ライセンス: Link先を確認
Bo Ding, Zhenfeng Fan, Shuang Yang, Shihong Xia(参考訳) 現実的な会話の顔を生成することは、コンピュータビジョンの分野で興味深い、長く続いたトピックである。 かなりの進歩があったが、パーソナライズされた詳細で高品質な動的顔を生成することは依然として困難である。 これは主に、パーソナライズされた詳細を表現できない一般モデルと、制御不能なパラメータの一般化問題に起因する。 本研究では,神経ポートレート生成のための単純で汎用的で柔軟なフレームワークmyportraitを提案する。 我々は,パーソナライズド・プリアーを単眼映像に組み込んで,新たな制御可能なパラメータでパーソナライズド・ディテールを生成する3d顔モーファブル空間にモーファブル・プリアーを組み込む。 提案フレームワークは,一人のモノクロ映像が与えられた映像駆動と音声駆動の顔アニメーションの両方をサポートする。 テストデータがトレーニングに送信されるかどうかによって、我々の方法はリアルタイムのオンラインバージョンと高品質のオフラインバージョンを提供する。 各種メトリクスにおける総合的な実験は,最先端手法よりも優れた性能を示す。 コードは公開される予定だ。

Generating realistic talking faces is an interesting and long-standing topic in the field of computer vision. Although significant progress has been made, it is still challenging to generate high-quality dynamic faces with personalized details. This is mainly due to the inability of the general model to represent personalized details and the generalization problem to unseen controllable parameters. In this work, we propose Myportrait, a simple, general, and flexible framework for neural portrait generation. We incorporate personalized prior in a monocular video and morphable prior in 3D face morphable space for generating personalized details under novel controllable parameters. Our proposed framework supports both video-driven and audio-driven face animation given a monocular video of a single person. Distinguished by whether the test data is sent to training or not, our method provides a real-time online version and a high-quality offline version. Comprehensive experiments in various metrics demonstrate the superior performance of our method over the state-of-the-art methods. The code will be publicly available.
翻訳日:2023-12-06 15:40:50 公開日:2023-12-05
# neural sign actors: テキストからの3次元手話生成のための拡散モデル

Neural Sign Actors: A diffusion model for 3D sign language production from text ( http://arxiv.org/abs/2312.02702v1 )

ライセンス: Link先を確認
Vasileios Baltatzis, Rolandos Alexandros Potamias, Evangelos Ververas, Guanxiong Sun, Jiankang Deng, Stefanos Zafeiriou(参考訳) 手話 (SL) は、聴覚の難聴と難聴のコミュニティにおける主要なコミュニケーション手段である。 深層学習の出現は、SL認識と翻訳の多くの手法を助長し、顕著な成果を上げている。 しかし、手話生成(SLP)は、生成した動きが現実的で正確な意味を持つ必要があるため、コンピュータビジョンコミュニティにとって課題となる。 ほとんどのSLP法は2Dデータに頼っているため、必要なレベルのリアリズムを達成できない。 本研究では,4d署名アバターとそのテキスト転写物からなる大規模データセットで学習した拡散に基づくslpモデルを提案する。 提案手法は,SMPL-X体骨格上に定義された新規および解剖学的に誘導されたグラフニューラルネットワークを用いて,非拘束領域の談話から3Dアバターの動的配列を生成することができる。 定量的・定性的な実験により,提案手法が従来のslp法を大幅に上回ることを示した。 この研究は、現実的なニューラルサインアバターへの重要なステップであり、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋めるものだと考えています。 コード、メソッド、生成されたデータは公開される予定だ。

Sign Languages (SL) serve as the predominant mode of communication for the Deaf and Hard of Hearing communities. The advent of deep learning has aided numerous methods in SL recognition and translation, achieving remarkable results. However, Sign Language Production (SLP) poses a challenge for the computer vision community as the motions generated must be realistic and have precise semantic meanings. Most SLP methods rely on 2D data, thus impeding their ability to attain a necessary level of realism. In this work, we propose a diffusion-based SLP model trained on a curated large-scale dataset of 4D signing avatars and their corresponding text transcripts. The proposed method can generate dynamic sequences of 3D avatars from an unconstrained domain of discourse using a diffusion process formed on a novel and anatomically informed graph neural network defined on the SMPL-X body skeleton. Through a series of quantitative and qualitative experiments, we show that the proposed method considerably outperforms previous methods of SLP. We believe that this work presents an important and necessary step towards realistic neural sign avatars, bridging the communication gap between Deaf and hearing communities. The code, method and generated data will be made publicly available.
翻訳日:2023-12-06 15:40:33 公開日:2023-12-05
# 宇宙活動による人間とシーンのインタラクションの再考

Revisit Human-Scene Interaction via Space Occupancy ( http://arxiv.org/abs/2312.02700v1 )

ライセンス: Link先を確認
Xinpeng Liu, Haowen Hou, Yanchao Yang, Yong-Lu Li, Cewu Lu(参考訳) HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。 しかし、大きな障害の1つは、限られたデータスケールである。 同時にキャプチャされた人間と3D環境による高品質なデータはまれであり、データ多様性と複雑さが制限される。 本研究では,シーンとの相互作用は抽象的な物理的視点からシーンの空間占有と本質的に相互作用し,人間と空間の相互作用を統一した新しい視点へと導く。 純粋な動作シーケンスを、目に見えないシーンの占有者と相互作用する人間の記録として扱うことにより、動きのみのデータを大規模な対人・占有者相互作用データベースmob(motion occupancy base)に集約することができる。 したがって、高品質なシーンスキャンによるコスト対動シーンデータセットの必要性を大幅に軽減することができる。 この新たな統合された人間-職業相互作用の視点により、周囲の占有状況から目標状態に到達するための単一のモーションコントローラが提案される。 複雑な占有レイアウトを持つモブでトレーニングされたら、コントローラーは狭いシーンを扱い、複雑さの少ない一般的なシーンにうまく一般化することができる。 トレーニング用のGT 3Dシーンがないため、静的シーンと動的シーンの両方を含む様々なシナリオにおいて、現実的で安定したHSIモーションを生成できる。 私たちのコードとデータはhttps://foruck.github.io/occu-page/で公開されます。

Human-scene Interaction (HSI) generation is a challenging task and crucial for various downstream tasks. However, one of the major obstacles is the limited data scale. High-quality data with simultaneously captured human and 3D environments is rare, resulting in limited data diversity and complexity. In this work, we argue that interaction with a scene is essentially interacting with the space occupancy of the scene from an abstract physical perspective, leading us to a unified novel view of Human-Occupancy Interaction. By treating pure motion sequences as records of humans interacting with invisible scene occupancy, we can aggregate motion-only data into a large-scale paired human-occupancy interaction database: Motion Occupancy Base (MOB). Thus, the need for costly paired motion-scene datasets with high-quality scene scans can be substantially alleviated. With this new unified view of Human-Occupancy interaction, a single motion controller is proposed to reach the target state given the surrounding occupancy. Once trained on MOB with complex occupancy layout, the controller could handle cramped scenes and generalize well to general scenes with limited complexity. With no GT 3D scenes for training, our method can generate realistic and stable HSI motions in diverse scenarios, including both static and dynamic scenes. Our code and data would be made publicly available at https://foruck.github.io/occu-page/.
翻訳日:2023-12-06 15:40:14 公開日:2023-12-05
# Autler-Townes効果における超微細相互作用II:モリス-ショア基底における2光子選択規則の制御

Hyperfine interaction in the Autler-Townes effect II: control of two-photon selection rules in the Morris-Shore basis ( http://arxiv.org/abs/2312.02801v1 )

ライセンス: Link先を確認
Arturs Cinins and Dmitry K. Efimov and Martins Bruvelis and Kaspars Miculis and Teodora Kirova and Nikolai N. Bezuglov and Igor I. Ryabtsev and Marcis Auzinsh and Aigars Ekers(参考訳) アルカリ金属原子のAutler-Townesレーザー励起スペクトルにおける特定の明るいピークの欠如について検討した。 我々の研究は、これらのスペクトルのディップは、超微細(HF)成分中のアディバティックな状態の特定の構造(または ' `laser-dressed'')によって引き起こされることを明らかにした。 服装状態の分析は、2光子励起方式におけるHF励起経路間の構成的および破壊的干渉が利用可能な2光子遷移を制限するいくつかの事例を指摘した。 これにより、全角運動量$F$の従来の2光子選択規則が$\Delta F=0,\pm 1$から$\Delta F\equiv 0$へと減少する。 我々の発見はアルカリ金属原子中のHF$F$=$ns_{1/2}$Rydberg状態の集団を選択的に制御する実用的な方法である。 ナトリウム原子とルビジウム原子との数値シミュレーションを用いて、特別に調整された補助制御レーザー場とのHF相互作用の効果を遮断することにより、HF成分の理想的な選択性からの偏差がNaに対して0.01\%、Rb原子に対して0.001\%以下となることを示した。

We investigated the absence of certain bright peaks in Autler-Townes laser excitation spectra of alkali metal atoms. Our research revealed that these dips in the spectra are caused by a specific architecture of adiabatic (or ``laser-dressed'') states in hyperfine (HF) components. The dressed states' analysis pinpointed several cases where constructive and destructive interference between HF excitation pathways in a two-photon excitation scheme limits the available two-photon transitions. This results in a reduction of the conventional two-photon selection rule for the total angular momentum $F$, from $\Delta F= 0,\pm 1$ to $\Delta F\equiv 0$. Our discovery presents practical methods for selectively controlling the populations of unresolvable HF $F$-components of $ns_{1/2}$ Rydberg states in alkali metal atoms. Using numerical simulations with sodium and rubidium atoms, we demonstrate that by blocking the effects of HF interaction with a specially tuned auxiliary control laser field, the deviations from the ideal selectivity of the HF components population can be lower than $0.01\%$ for Na and $0.001\%$ for Rb atoms.
翻訳日:2023-12-06 15:36:06 公開日:2023-12-05
# LLM活性化における幻覚の検出

Weakly Supervised Detection of Hallucinations in LLM Activations ( http://arxiv.org/abs/2312.02798v1 )

ライセンス: Link先を確認
Miriam Rateike, Celia Cintas, John Wamburu, Tanya Akumu, Skyler Speakman(参考訳) 本稿では,大規模言語モデル(LLM)が内部状態の幻覚などのパターンを符号化するかどうかを監査する手法を提案する。 予備学習モデルからLLMアクティベーションにおける異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。 重要となるのは,a-prioriパターンのタイプを知る必要がないことである。 代わりに、テスト中に異常のない参照データセットに依存する。 さらに,これらのパターンを符号化する重要なノードの同定を可能にし,バイアス緩和のために特定のサブネットワークを微調整するための重要な洞察を提供する。 両方向の予測分布から逸脱する可能性のある異常文に対するLLMアクティベーションを扱うための2つの新しいスキャン手法を提案する。 OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力は限られていた。 重要なことに、私たちのスキャンアプローチは、前もって偽のステートメントに露出することなく、完全に監督された分配外分類器と互換性がある。

We propose an auditing method to identify whether a large language model (LLM) encodes patterns such as hallucinations in its internal states, which may propagate to downstream tasks. We introduce a weakly supervised auditing technique using a subset scanning approach to detect anomalous patterns in LLM activations from pre-trained models. Importantly, our method does not need knowledge of the type of patterns a-priori. Instead, it relies on a reference dataset devoid of anomalies during testing. Further, our approach enables the identification of pivotal nodes responsible for encoding these patterns, which may offer crucial insights for fine-tuning specific sub-networks for bias mitigation. We introduce two new scanning methods to handle LLM activations for anomalous sentences that may deviate from the expected distribution in either direction. Our results confirm prior findings of BERT's limited internal capacity for encoding hallucinations, while OPT appears capable of encoding hallucination information internally. Importantly, our scanning approach, without prior exposure to false statements, performs comparably to a fully supervised out-of-distribution classifier.
翻訳日:2023-12-06 15:35:42 公開日:2023-12-05
# 材料エキスパート・人工知能による材料発見

Materials Expert-Artificial Intelligence for Materials Discovery ( http://arxiv.org/abs/2312.02796v1 )

ライセンス: Link先を確認
Yanjun Liu, Milena Jovanovic, Krishnanand Mallayya, Wesley J. Maddox, Andrew Gordon Wilson, Sebastian Klemenz, Leslie M. Schoop, Eun-Ah Kim(参考訳) 物質データベースの出現は、巨大なデータ空間から創発的物質特性の予測記述子を明らかにする前例のない機会を提供する。 しかし、高スループットab initioデータへの共通依存は、必ずしもそのようなデータの制限を継承する:実験とのミスマッチ。 一方、実験的な決定は、しばしば専門家の直感によって導かれる。 そこで我々は,機械学習を用いて,その操作直感を定量的な記述子に分割する手法を提案する。 我々は,この人間の直感をカプセル化し,具体化するために,"Materials Expert-Artificial Intelligence"(ME-AI)を導入する。 このようなプログラムへの第一歩として,構造情報に基づく専門家識別記述子に触発された特性として,正方形ネット材料のトポロジカルセミメタル(tsm)に着目した。 まず、可能な限り実験データを用いて、879平方ネット素材の12の主特徴を含むデータセットをキュレートする。 次に,特殊カーネルを用いたディリクレに基づくガウス過程回帰を用いて,正方形ネット位相半金属の複合ディスクリプタを明らかにした。 ME-AIは専門家の直観を独立して再現し、拡張した。 特に、新しいディスクリプタは、超原子価が正方形ネット化合物内のtsmを予測する重要な化学的特徴であることを示している。 慎重に定義された問題での私たちの成功は、機械学習支援物質発見に期待できる"マシンボット人間の洞察"アプローチを指し示しています。

The advent of material databases provides an unprecedented opportunity to uncover predictive descriptors for emergent material properties from vast data space. However, common reliance on high-throughput ab initio data necessarily inherits limitations of such data: mismatch with experiments. On the other hand, experimental decisions are often guided by an expert's intuition honed from experiences that are rarely articulated. We propose using machine learning to "bottle" such operational intuition into quantifiable descriptors using expertly curated measurement-based data. We introduce "Materials Expert-Artificial Intelligence" (ME-AI) to encapsulate and articulate this human intuition. As a first step towards such a program, we focus on the topological semimetal (TSM) among square-net materials as the property inspired by the expert-identified descriptor based on structural information: the tolerance factor. We start by curating a dataset encompassing 12 primary features of 879 square-net materials, using experimental data whenever possible. We then use Dirichlet-based Gaussian process regression using a specialized kernel to reveal composite descriptors for square-net topological semimetals. The ME-AI learned descriptors independently reproduce expert intuition and expand upon it. Specifically, new descriptors point to hypervalency as a critical chemical feature predicting TSM within square-net compounds. Our success with a carefully defined problem points to the "machine bottling human insight" approach as promising for machine learning-aided material discovery.
翻訳日:2023-12-06 15:35:24 公開日:2023-12-05
# ZX計算における量子回路の因果流保存最適化

Causal flow preserving optimisation of quantum circuits in the ZX-calculus ( http://arxiv.org/abs/2312.02793v1 )

ライセンス: Link先を確認
Calum Holker(参考訳) リソース使用量を最小化するための量子回路の最適化は、特に量子ボリュームに制限された短期的ハードウェアの文脈において重要である。 本稿では,ZX計算に基づく戦略に基づいて,非クリフォードゲート数と2ビットゲート数を最小化する最適化アルゴリズムを提案する。 回路をZXダイアグラムに変換することで、回路に戻る前に単純化することができる。 私は、単純化は因果フローと呼ばれるグラフ理論的性質を保存すると断言する。 これは、量子ビット線が全体にわたってよく定義され、自明な抽出手順を許容し、その結果の回路に対する個々の変換の影響の計算を可能にするという利点を持つ。 決定戦略の一般的な手順は、既存のヒューリスティックな手法にインスパイアされたものである。 位相テレポーテーションと近隣のアンフュージョンルールの両方が一般化される。 特に、複数の隣人を解離させることは、最適化の大幅な改善につながることが示されている。 ベンチマーク回路で実行すると、アルゴリズムは2量子ビットのゲート数を平均19.6%削減し、以前のベストzxベースの戦略(14.2%)と非zx戦略(18.9%)の両方を上回った。 これは、改善の複数の道の基礎となる。 QFT回路を最適化するための特に効果的な戦略も注目されており、非クリフォードゲートに対して正確に1つの2ビットゲートとなる。

Optimising quantum circuits to minimise resource usage is crucial, particularly in the context of near term hardware which is limited by quantum volume. This paper introduces an optimisation algorithm which aims to minimise non-Clifford gate count and two-qubit gate count by building on ZX-calculus-based strategies. By translating a circuit into a ZX-diagram it can be simplified before being extracted back into a circuit. I assert that simplifications preserve a graph-theoretic property called causal flow. This has the advantage that qubit lines are well defined throughout, permitting a trivial extraction procedure and in turn enabling the calculation of an individual transformation's impact on the resulting circuit. A general procedure for a decision strategy is introduced, inspired by an existing heuristic based method. Both phase teleportation and the neighbour unfusion rule are generalised. In particular, allowing unfusion of multiple neighbours is shown to lead to significant improvements in optimisation. When run on a set of benchmark circuits, the algorithm developed reduces the two-qubit gate count by an average of 19.6%, beating both the previous best ZX-based strategy (14.2%) and non-ZX strategy (18.9%). This lays a foundation for multiple avenues of improvement. A particularly effective strategy for optimising QFT circuits is also noted, resulting in exactly one two-qubit gate per non-Clifford gate.
翻訳日:2023-12-06 15:35:04 公開日:2023-12-05
# 機械学習による湿地メタン排出のe3sm土地モデルパラメータの感度解析

Machine Learning Driven Sensitivity Analysis of E3SM Land Model Parameters for Wetland Methane Emissions ( http://arxiv.org/abs/2312.02786v1 )

ライセンス: Link先を確認
Sandeep Chinta, Xiang Gao, Qing Zhu(参考訳) メタン(ch4)は二酸化炭素に次いで2番目に重要な温室効果ガスであり、観測された気温の16-25%を占める。 湿地は世界のメタン排出の主要な天然資源である。 しかし、生物地球化学モデルによる湿地メタン排出量推定にはかなりの不確実性が含まれている。 この不確かさの主な原因の1つは、メタンの生成、酸化、輸送に影響を与える様々な物理的、生物学的、化学的過程における多くの不確定なモデルパラメータから生じる。 感度分析(SA)はメタン放出の臨界パラメータを特定し、将来の予測におけるバイアスや不確実性を減少させるのに役立つ。 本研究では,エナジー・エクサスケール・アース・システム・モデル (e3sm) ランド・モデル (elm) のメタン・モジュールにおける生物地球化学の臨界過程に関する19のパラメータについてsaを行う。 これらのパラメータが各種のCH4フラックスに与える影響を,多様な植生タイプを持つ14のFLUXNET-CH4地点で検討した。 大域的分散に基づくSAに必要なモデルシミュレーションの多さを考慮し,ELMメタン生物地球化学の複雑な挙動をエミュレートするために機械学習(ML)アルゴリズムを用いる。 MLは計算時間を6CPU時間から0.72ミリ秒に大幅に短縮し、計算コストを削減できる。 その結果,CH4産生と拡散に関連するパラメータは,季節的変動があるにもかかわらず,一般的に最も感度が高いことがわかった。 FLUXNET-CH4観測に対する摂動パラメータセットからのシミュレーションエミッションを比較すると、デフォルトパラメータ値と比較して各サイトにおいてより良い性能が得られることがわかった。 これは、パラメータキャリブレーションとベイズ最適化のような高度な最適化技術を用いて、シミュレーションエミッションをさらに改善するためのスコープを示す。

Methane (CH4) is the second most critical greenhouse gas after carbon dioxide, contributing to 16-25% of the observed atmospheric warming. Wetlands are the primary natural source of methane emissions globally. However, wetland methane emission estimates from biogeochemistry models contain considerable uncertainty. One of the main sources of this uncertainty arises from the numerous uncertain model parameters within various physical, biological, and chemical processes that influence methane production, oxidation, and transport. Sensitivity Analysis (SA) can help identify critical parameters for methane emission and achieve reduced biases and uncertainties in future projections. This study performs SA for 19 selected parameters responsible for critical biogeochemical processes in the methane module of the Energy Exascale Earth System Model (E3SM) land model (ELM). The impact of these parameters on various CH4 fluxes is examined at 14 FLUXNET- CH4 sites with diverse vegetation types. Given the extensive number of model simulations needed for global variance-based SA, we employ a machine learning (ML) algorithm to emulate the complex behavior of ELM methane biogeochemistry. ML enables the computational time to be shortened significantly from 6 CPU hours to 0.72 milliseconds, achieving reduced computational costs. We found that parameters linked to CH4 production and diffusion generally present the highest sensitivities despite apparent seasonal variation. Comparing simulated emissions from perturbed parameter sets against FLUXNET-CH4 observations revealed that better performances can be achieved at each site compared to the default parameter values. This presents a scope for further improving simulated emissions using parameter calibration with advanced optimization techniques like Bayesian optimization.
翻訳日:2023-12-06 15:34:41 公開日:2023-12-05
# グラフ上の大規模言語モデル:包括的調査

Large Language Models on Graphs: A Comprehensive Survey ( http://arxiv.org/abs/2312.02783v1 )

ライセンス: Link先を確認
Bowen Jin, Gang Liu, Chi Han, Meng Jiang, Heng Ji, Jiawei Han(参考訳) ChatGPTやLLaMAのような大規模言語モデル(LLM)は、強力なテキストエンコーディング/復号化能力と新たに発見された創発的能力(推論など)により、自然言語処理の大幅な進歩を生み出している。 llmは主に純粋なテキストを処理するように設計されているが、テキストデータがグラフ形式でリッチな構造情報(例えば、アカデミックネットワークやeコマースネットワーク)に関連付けられる現実のシナリオや、グラフデータがリッチなテキスト情報(例えば、説明付き分子)と組み合わせられるシナリオが数多く存在する。 さらに、llmは純粋なテキストベースの推論能力を示しているが、そのような能力がグラフシナリオ(グラフベースの推論)に一般化できるかどうかは未検討である。 本稿では,グラフ上の大規模言語モデルに関連するシナリオと手法の体系的なレビューを行う。 まず,LLMをグラフに適用する可能性シナリオを,純粋グラフ,テキストリッチグラフ,テキストペアグラフの3つのカテゴリにまとめる。 次に, LLM を予測器として, LLM をエンコーダとして, LLM を Aligner として, グラフ上で LLM を利用するための詳細な手法について議論し, 異なるモデル流派の利点と欠点を比較した。 さらに,そのような手法の実世界の応用について述べ,オープンソースコードとベンチマークデータセットを要約する。 最後に、この急速に成長する分野における今後の研究方向性について述べる。 関連するソースはhttps://github.com/PeterGriffinJin/Awesome-Language-on-Graphsにある。

Large language models (LLMs), such as ChatGPT and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/decoding ability and newly found emergent capability (e.g., reasoning). While LLMs are mainly designed to process pure texts, there are many real-world scenarios where text data are associated with rich structure information in the form of graphs (e.g., academic networks, and e-commerce networks) or scenarios where graph data are paired with rich textual information (e.g., molecules with descriptions). Besides, although LLMs have shown their pure text-based reasoning ability, it is underexplored whether such ability can be generalized to graph scenarios (i.e., graph-based reasoning). In this paper, we provide a systematic review of scenarios and techniques related to large language models on graphs. We first summarize potential scenarios of adopting LLMs on graphs into three categories, namely pure graphs, text-rich graphs, and text-paired graphs. We then discuss detailed techniques for utilizing LLMs on graphs, including LLM as Predictor, LLM as Encoder, and LLM as Aligner, and compare the advantages and disadvantages of different schools of models. Furthermore, we mention the real-world applications of such methods and summarize open-source codes and benchmark datasets. Finally, we conclude with potential future research directions in this fast-growing field. The related source can be found at https://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs.
翻訳日:2023-12-06 15:34:17 公開日:2023-12-05
# pmmtalk:疑似マルチモーダル特徴を用いた音声駆動3次元顔アニメーション

PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo Multi-modal Features ( http://arxiv.org/abs/2312.02781v1 )

ライセンス: Link先を確認
Tianshun Han, Shengnan Gui, Yiqing Huang, Baihui Li, Lijian Liu, Benjia Zhou, Ning Jiang, Quan Lu, Ruicong Zhi, Yanyan Liang, Du Zhang, Jun Wan(参考訳) 音声駆動の3D顔アニメーションは、音響的モダリティのみを利用し、視覚的およびテキスト的手がかりの影響を無視し、精度とコヒーレンスの観点から不満足な結果をもたらす。 我々は、視覚とテキストの手がかりは自明な情報ではないと主張する。 そこで本研究では,疑似マルチモーダル特徴を用いたpmmtalkという新たな枠組みを提案する。 フレームワークにはPMMTalkエンコーダ、クロスモーダルアライメントモジュール、PMMTalkデコーダの3つのモジュールが含まれている。 具体的には, PMMTalkエンコーダは, 音声から視覚情報とテキスト情報を抽出するために, 市販の音声ヘッド生成アーキテクチャと音声認識技術を用いている。 その後、クロスモーダルアライメントモジュールは、時間的および意味的なレベルでオーディオ-画像-テキスト特徴を整列する。 次にPMMTalkデコーダを用いて唇同期顔ブレンドシェープ係数を予測する。 以前の方法とは異なり、pmmtalkは追加のランダム参照顔画像のみを必要とするが、より正確な結果が得られる。 さらに、顔のブレンド形状係数を導入することで、標準的なアニメーション制作ワークフローにシームレスに統合できるため、アーティストに優しい。 最後に,3D音声顔データセットの不足を踏まえ,大規模な3D中国語音声映像アニメーション(3D-CAVFA)データセットを導入する。 大規模な実験とユーザスタディにより、我々のアプローチは芸術の状態を上回ります。 補足ビデオを見ることをお勧めします。

Speech-driven 3D facial animation has improved a lot recently while most related works only utilize acoustic modality and neglect the influence of visual and textual cues, leading to unsatisfactory results in terms of precision and coherence. We argue that visual and textual cues are not trivial information. Therefore, we present a novel framework, namely PMMTalk, using complementary Pseudo Multi-Modal features for improving the accuracy of facial animation. The framework entails three modules: PMMTalk encoder, cross-modal alignment module, and PMMTalk decoder. Specifically, the PMMTalk encoder employs the off-the-shelf talking head generation architecture and speech recognition technology to extract visual and textual information from speech, respectively. Subsequently, the cross-modal alignment module aligns the audio-image-text features at temporal and semantic levels. Then PMMTalk decoder is employed to predict lip-syncing facial blendshape coefficients. Contrary to prior methods, PMMTalk only requires an additional random reference face image but yields more accurate results. Additionally, it is artist-friendly as it seamlessly integrates into standard animation production workflows by introducing facial blendshape coefficients. Finally, given the scarcity of 3D talking face datasets, we introduce a large-scale 3D Chinese Audio-Visual Facial Animation (3D-CAVFA) dataset. Extensive experiments and user studies show that our approach outperforms the state of the art. We recommend watching the supplementary video.
翻訳日:2023-12-06 15:33:48 公開日:2023-12-05
# 言語モデルアクティベーションにおける敵攻撃のスケーリング法則

Scaling Laws for Adversarial Attacks on Language Model Activations ( http://arxiv.org/abs/2312.02780v1 )

ライセンス: Link先を確認
Stanislav Fort(参考訳) 我々は,言語モデルのアクティベーションを標的とした敵対的攻撃のクラスを探索する。 モデルアクティベーションの比較的小さなサブセットである$a$を操作することで、後続のトークンである$t$の相当数の(場合によっては1000まで)正確な予測を制御できることを実証する。 目標トークンの最大数$t_\mathrm{max}$が予測されるスケーリング法則は、攻撃者制御を$t_\mathrm{max} = \kappa a$としてアクティベーションするトークン数$a$に線形に依存する。 出力空間の1ビットを制御するのに必要な入力空間における制御のビット数(攻撃抵抗$\chi$)は、異なる言語モデルに対するモデルサイズの2桁以上の$\approx 16$と$\approx 25$の間で著しく一定である。 トークンに対する攻撃と比較すると、アクティベーションに対する攻撃は予測上はるかに強いが、我々は1ビットの入力がアクティベーションかトークンを介して制御され、同様の量の出力ビットを制御できるという驚くべき規則性を特定する。 これは、攻撃が入力空間と出力空間の間の次元的ミスマッチの結果であるという仮説を支持する。 トークンの代わりに言語モデルのアクティベーションを攻撃しやすいという現実的な意味は、マルチモーダルおよび選択された検索モデルにおいて、トークン化された入力をサイドステッピングして、アクティベーションとして追加のデータソースを直接追加することである。 これにより、新たな幅広い攻撃面が開く。 制御可能なテストベッドとして言語モデルを使用することで,特に出力次元が支配するコンピュータビジョンではアクセスできない入力出力次元を実験することができた。

We explore a class of adversarial attacks targeting the activations of language models. By manipulating a relatively small subset of model activations, $a$, we demonstrate the ability to control the exact prediction of a significant number (in some cases up to 1000) of subsequent tokens $t$. We empirically verify a scaling law where the maximum number of target tokens $t_\mathrm{max}$ predicted depends linearly on the number of tokens $a$ whose activations the attacker controls as $t_\mathrm{max} = \kappa a$. We find that the number of bits of control in the input space needed to control a single bit in the output space (what we call attack resistance $\chi$) is remarkably constant between $\approx 16$ and $\approx 25$ over 2 orders of magnitude of model sizes for different language models. Compared to attacks on tokens, attacks on activations are predictably much stronger, however, we identify a surprising regularity where one bit of input steered either via activations or via tokens is able to exert control over a similar amount of output bits. This gives support for the hypothesis that adversarial attacks are a consequence of dimensionality mismatch between the input and output spaces. A practical implication of the ease of attacking language model activations instead of tokens is for multi-modal and selected retrieval models, where additional data sources are added as activations directly, sidestepping the tokenized input. This opens up a new, broad attack surface. By using language models as a controllable test-bed to study adversarial attacks, we were able to experiment with input-output dimensions that are inaccessible in computer vision, especially where the output dimension dominates.
翻訳日:2023-12-06 15:33:11 公開日:2023-12-05
# 芳香族および他の環分子における陽電子消滅と結合

Positron annihilation and binding in aromatic and other ring molecules ( http://arxiv.org/abs/2312.02779v1 )

ライセンス: Link先を確認
E. Arthur-Baidoo, J. R. Danielson, C. M. Surko, J. P. Cassidy, S. K. Gregg, J. Hofierka, B. Cunningham, C. H. Patterson and D. G. Green(参考訳) トラップ型陽電子ビームを用いた入射陽電子エネルギーの関数として解決された芳香族および複素環分子に対して消滅スペクトルを示す。 振動モードスペクトルの陽電子-分子結合エネルギーとの比較 測定された結合エネルギーと仮想ポジトロニウム形成を含む電子-陽電子相関を適切に考慮した多体理論の予測との間には優れた一致がある。 これらの計算は、境界状態陽電子密度の空間分布を決定する際、永久双極子モーメントと$\pi$結合の競合を解明する。 フェルミ共鳴を含むこれらの分子の消滅におけるこれらの結果とマルチモード特徴の役割について論じる。

Annihilation spectra are presented for aromatic and heterocyclic ring molecules resolved as a function of incident positron energy using a trap-based positron beam. Comparisons with the vibrational mode spectra yield positron-molecule binding energies. Good to excellent agreement is found between the measured binding energies and the predictions of an \textit{ab initio} many-body theory that takes proper account of electron-positron correlations including virtual-positronium formation. The calculations elucidate the competition between permanent dipole moments and $\pi$ bonds in determining the spatial distribution of the bound-state positron density. The implications of these results and the role of multimode features in annihilation in these molecules, including Fermi resonances, are discussed.
翻訳日:2023-12-06 15:32:22 公開日:2023-12-05
# 横電界を持つ反強磁性ヘリックスにおけるスピン依存多重再帰局在:ホッピングダイメライゼーションフリーシナリオ

Spin-dependent multiple reentrant localization in an antriferromagnetic helix with transverse electric field: Hopping dimerization-free scenario ( http://arxiv.org/abs/2312.02778v1 )

ライセンス: Link先を確認
Sudin Ganguly, Kallol Mondal, and Santanu K. Maiti(参考訳) 最近の顕著な現象であるreentrant localization(rl)は、従来の研究で示されるように、スタッガード相関障害とホッピング二量化の相互作用と関連している。 このパラダイムとは対照的に,本研究では,ホッピング二量体化がRLの実現における重要な要因ではないことを示す。 反強磁性秩序を持つヘリカル磁気系を考えると、スピン依存のRLが複数のエネルギー領域で発見される。 この現象は熱力学的限界でも持続する。 aubry-andr\'{e}-harperモデルにおける相関障害は、ヘリカル系に横電場を適用し、伝統的な置換障害の使用を回避して導入される。 強固な結合の枠組みで記述された本研究は、電界、反強磁性秩序、幾何のヘリシティの重要な役割を強調する、rlに関する新しい展望を提供する。

Reentrant localization (RL), a recently prominent phenomenon, traditionally links to the interplay of staggered correlated disorder and hopping dimerization, as indicated by prior research. Contrary to this paradigm, our present study demonstrates that hopping dimerization is not a pivotal factor in realizing RL. Considering a helical magnetic system with antiferromagnetic ordering, we uncover spin-dependent RL at multiple energy regions, in the {\em absence} of hopping dimerization. This phenomenon persists even in the thermodynamic limit. The correlated disorder in the form of Aubry-Andr\'{e}-Harper model is introduced by applying a transverse electric field to the helical system, circumventing the use of traditional substitutional disorder. Described within a tight-binding framework, present work provides a novel outlook on RL, highlighting the crucial role of electric field, antiferromagnetic ordering, and the helicity of the geometry.
翻訳日:2023-12-06 15:32:00 公開日:2023-12-05
# chatgpt-refined descriptionsを用いたきめ細かい人間の動きの生成

Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions ( http://arxiv.org/abs/2312.02772v1 )

ライセンス: Link先を確認
Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun(参考訳) 近年,テキストベースモーション生成において,テキスト記述に準拠した多様で高品質なヒューマンモーションの生成が実現されている。 しかしながら、詳細なテキスト記述に注釈が付されたデータセットがないため、細粒度やスタイリッシュな動きを生成することは依然として困難である。 本稿では,人間の運動生成のための細粒度ヒューマンモーション拡散モデル(fg-mdm)という新しい枠組みを提案する。 具体的には,従来の曖昧なテキストアノテーションを,大言語モデル(GPT-3.5)を用いて,各部位の細粒度記述に解析する。 次に、これらの細かな記述を用いてトランスフォーマーベースの拡散モデルを導出する。 fg−mdmは、トレーニングデータの分布の外でも細粒度及びスタイリゼーション動作を生成することができる。 実験により,FG-MDMが従来の手法よりも優れていることを示す。 我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。

Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, it remains challenging to generate fine-grained or stylized motions due to the lack of datasets annotated with detailed textual descriptions. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for human motion generation. Specifically, we first parse previous vague textual annotation into fine-grained description of different body parts by leveraging a large language model (GPT-3.5). We then use these fine-grained descriptions to guide a transformer-based diffusion model. FG-MDM can generate fine-grained and stylized motions even outside of the distribution of the training data. Our experimental results demonstrate the superiority of FG-MDM over previous methods, especially the strong generalization capability. We will release our fine-grained textual annotations for HumanML3D and KIT.
翻訳日:2023-12-06 15:30:57 公開日:2023-12-05
# 環状道路における非局所交通力学の「Look-Ahead」学習

Learning "Look-Ahead" Nonlocal Traffic Dynamics in a Ring Road ( http://arxiv.org/abs/2312.02770v1 )

ライセンス: Link先を確認
Chenguang Zhao, Huan Yu(参考訳) マクロトラヒックフローモデルは交通制御と管理に広く使われている。 To incorporate drivers' anticipative behaviors and to remove impractical speed discontinuity inherent in the classic Lighthill-Whitham-Richards (LWR) traffic model, nonlocal partial differential equation (PDE) models with ``look-ahead" dynamics have been proposed, which assume that the speed is a function of weighted downstream traffic density. However, it lacks data validation on two important questions: whether there exist nonlocal dynamics, and how the length and weight of the ``look-ahead" window affect the spatial temporal propagation of traffic densities. 本稿では,リングロード実験によるトラヒックトラジェクトリデータを採用し,物理インフォームドニューラルネットワークを設計し,データに最も適合する基本図とルックアヘッドカーネルを学習し,データ差分と非局所モデル差分を組み合わせた損失関数を最小化することにより,データ強化された非局所LWRモデルを再発明する。 その結果, 学習した非局所LWRは, 停止振動, 混雑, 自由交通の3つの異なるシナリオにおいて, より正確な交通波伝搬予測を行うことがわかった。 まず,実際のトラヒックデータを用いて`look-ahead'効果の存在を実証する。 最適非局所核の長さは35mから50m程度であり、5m以内の核重量が非局所効果の大部分を占めることが判明した。 また,機械学習モデルにおける優先物理の選択の重要性も強調した。

The macroscopic traffic flow model is widely used for traffic control and management. To incorporate drivers' anticipative behaviors and to remove impractical speed discontinuity inherent in the classic Lighthill-Whitham-Richards (LWR) traffic model, nonlocal partial differential equation (PDE) models with ``look-ahead" dynamics have been proposed, which assume that the speed is a function of weighted downstream traffic density. However, it lacks data validation on two important questions: whether there exist nonlocal dynamics, and how the length and weight of the ``look-ahead" window affect the spatial temporal propagation of traffic densities. In this paper, we adopt traffic trajectory data from a ring-road experiment and design a physics-informed neural network to learn the fundamental diagram and look-ahead kernel that best fit the data, and reinvent a data-enhanced nonlocal LWR model via minimizing the loss function combining the data discrepancy and the nonlocal model discrepancy. Results show that the learned nonlocal LWR yields a more accurate prediction of traffic wave propagation in three different scenarios: stop-and-go oscillations, congested, and free traffic. We first demonstrate the existence of ``look-ahead" effect with real traffic data. The optimal nonlocal kernel is found out to take a length of around 35 to 50 meters, and the kernel weight within 5 meters accounts for the majority of the nonlocal effect. Our results also underscore the importance of choosing a priori physics in machine learning models.
翻訳日:2023-12-06 15:30:26 公開日:2023-12-05
# 教師なし不均一マッピングのためのマスク付き符号化による皮質異常の学習

Learning Cortical Anomaly through Masked Encoding for Unsupervised Heterogeneity Mapping ( http://arxiv.org/abs/2312.02762v1 )

ライセンス: Link先を確認
Hao-Chun Yang, Ole Andreassen, Lars Tjelta Westlye, Andre F. Marquand, Christian F. Beckmann, Thomas Wolfers(参考訳) 脳の読み出しに基づく異種精神疾患の検出は、症状の複雑さと信頼できるバイオマーカーの欠如のため、依然として困難である。 本稿では、皮質表面の特徴を用いた複雑な脳疾患の教師なし検出を目的とした、新しい自己教師型フレームワークであるCAM(Cortical Anomaly Detection through Masked Image Modeling)を紹介する。 我々はこの枠組みを心理スペクトル上の個人の検出に利用し、その能力を最先端の手法と比較し、SchizoaffectiveのAUC 0.696、Schizophreniformの0.769をラベルなしで達成した。 さらに、非典型的皮質領域の解析には、Pars Triangularisと、統合失調症に関連するいくつかの前頭葉領域が含まれる。 総じて,皮質異常に基づく複雑な脳疾患の異常検出のためのスケーラブルなアプローチを示す。

The detection of heterogeneous mental disorders based on brain readouts remains challenging due to the complexity of symptoms and the absence of reliable biomarkers. This paper introduces CAM (Cortical Anomaly Detection through Masked Image Modeling), a novel self-supervised framework designed for the unsupervised detection of complex brain disorders using cortical surface features. We employ this framework for the detection of individuals on the psychotic spectrum and demonstrate its capabilities compared to state-ofthe-art methods, achieving an AUC of 0.696 for Schizoaffective and 0.769 for Schizophreniform, without the need for any labels. Furthermore, the analysis of atypical cortical regions includes Pars Triangularis and several frontal areas, often implicated in schizophrenia, provide further confidence in our approach. Altogether, we demonstrate a scalable approach for anomaly detection of complex brain disorders based on cortical abnormalities.
翻訳日:2023-12-06 15:30:02 公開日:2023-12-05
# C3: 単一画像またはビデオからの高性能で低複雑さのニューラル圧縮

C3: High-performance and low-complexity neural compression from a single image or video ( http://arxiv.org/abs/2312.02753v1 )

ライセンス: Link先を確認
Hyunjik Kim, Matthias Bauer, Lucas Theis, Jonathan Richard Schwarz, Emilien Dupont(参考訳) ほとんどのニューラル圧縮モデルは、見えないデータに一般化するために、画像やビデオの大きなデータセットで訓練されている。 このような一般化は通常、デコーディングの複雑さが高い大規模で表現力豊かなアーキテクチャを必要とする。 ここでは、強いレート歪み(RD)性能を持つニューラル圧縮法であるC3を紹介する。 結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。 C3はCOOL-CHIC (Ladune et al.)上に構築されており、画像の単純で効果的な改善がいくつかある。 さらに,ビデオにC3を適用する新しい手法を開発した。 CLIC2020イメージベンチマークでは、H.266コーデックのリファレンス実装であるVTMのRD性能と3k MAC/ピクセル以下で一致した。 UVGビデオベンチマークでは、よく確立されたニューラルビデオコーデックである Video Compression Transformer (Mentzer et al.) のRD性能に一致し、デコードには5k MACs/ピクセル以下である。

Most neural compression models are trained on large datasets of images or videos in order to generalize to unseen data. Such generalization typically requires large and expressive architectures with a high decoding complexity. Here we introduce C3, a neural compression method with strong rate-distortion (RD) performance that instead overfits a small model to each image or video separately. The resulting decoding complexity of C3 can be an order of magnitude lower than neural baselines with similar RD performance. C3 builds on COOL-CHIC (Ladune et al.) and makes several simple and effective improvements for images. We further develop new methodology to apply C3 to videos. On the CLIC2020 image benchmark, we match the RD performance of VTM, the reference implementation of the H.266 codec, with less than 3k MACs/pixel for decoding. On the UVG video benchmark, we match the RD performance of the Video Compression Transformer (Mentzer et al.), a well-established neural video codec, with less than 5k MACs/pixel for decoding.
翻訳日:2023-12-06 15:29:36 公開日:2023-12-05
# C-NERF:方向整合差に基づくNRFによるシーン変化の表現

C-NERF: Representing Scene Changes as Directional Consistency Difference-based NeRF ( http://arxiv.org/abs/2312.02751v1 )

ライセンス: Link先を確認
Rui Huang (1), Binbin Jiang (1), Qingyi Zhao (1), William Wang (2), Yuxiang Zhang (1), Qing Guo (3 and 4) ((1) College of Computer Science and Technology, Civil Aviation University of China, China, (2) University of South Carolina, The USA, (3) IHPC, Agency for Science, Technology and Research, Singapore, (4) CFAR, Agency for Science, Technology and Research, Singapore)(参考訳) 本研究では,ニューラルラジアンス場(NeRF)で表されるシーンにおいて,物体の変動に起因する変化を検出することを目的とする。 任意のビューと異なるタイムスタンプでキャプチャされた2セットのシーンイメージが与えられた場合、そのビューのシーン変化を予測することができる。 予備研究を行い, 既存のnerfと2次元変化検出法を用いて, 誤検出や欠落検出を多用することにより, その課題を容易に達成できないことを発見した。 主な理由は、2次元変化検出が空間整列画像対間の画素外観差に基づいており、NeRFのステレオ情報を無視するからである。 この制約に対処するため,C-NERFは,主に3つのモジュールを含む方向整合性差分に基づくNeRFとしてシーン変化を表現する。 まず,変化前後に捕獲した2つのNeRFの空間的アライメントを行う。 そして,方向整合性制約に基づいて変化点を識別する。つまり,実際の変化点はビュー方向をまたいだ同様の変化表現を持つが,フェイクな変化点は持たない。 最後に、構築したNeRFに基づいて変更マップの描画プロセスを設計し、任意に指定されたビュー方向の変化マップを生成する。 有効性を検証するために、異なる変更対象を持つ多様なシナリオをカバーする10のシーンを含む新しいデータセットを構築します。 提案手法は,最先端の2次元変化検出法とNeRF法を有意差で上回っている。

In this work, we aim to detect the changes caused by object variations in a scene represented by the neural radiance fields (NeRFs). Given an arbitrary view and two sets of scene images captured at different timestamps, we can predict the scene changes in that view, which has significant potential applications in scene monitoring and measuring. We conducted preliminary studies and found that such an exciting task cannot be easily achieved by utilizing existing NeRFs and 2D change detection methods with many false or missing detections. The main reason is that the 2D change detection is based on the pixel appearance difference between spatial-aligned image pairs and neglects the stereo information in the NeRF. To address the limitations, we propose the C-NERF to represent scene changes as directional consistency difference-based NeRF, which mainly contains three modules. We first perform the spatial alignment of two NeRFs captured before and after changes. Then, we identify the change points based on the direction-consistent constraint; that is, real change points have similar change representations across view directions, but fake change points do not. Finally, we design the change map rendering process based on the built NeRFs and can generate the change map of an arbitrarily specified view direction. To validate the effectiveness, we build a new dataset containing ten scenes covering diverse scenarios with different changing objects. Our approach surpasses state-of-the-art 2D change detection and NeRF-based methods by a significant margin.
翻訳日:2023-12-06 15:29:16 公開日:2023-12-05
# ヴィジュアルトランスフォーマーは生まれたばかりのビジュアルシステムよりもつらいか?

Are Vision Transformers More Data Hungry Than Newborn Visual Systems? ( http://arxiv.org/abs/2312.02843v1 )

ライセンス: Link先を確認
Lalit Pandey, Samantha M. W. Wood, Justin N. Wood(参考訳) 視覚トランスフォーマー(vits)は多くのコンピュータビジョンベンチマークでトップパフォーマンスモデルであり、オブジェクト認識タスクにおける人間の行動を正確に予測することができる。 しかし、ViTsを生物学的学習のモデルとして使う価値は、ViTsは脳よりも飢えたデータであると考えられており、ViTsは同様のレベルのパフォーマンスに達するためにより多くのトレーニングデータを必要としているため、疑問が持たれている。 この仮定を検証するために、我々はViTと新生ニワトリの学習能力を直接比較し、ViTと新生ニワトリの並列制御飼育実験を行った。 まず,1つの物体を含む視覚環境においてヒナを育て,仮想動物室をゲームエンジンに組み込むことで,それらの環境で利用可能なトレーニングデータをシミュレートした。 仮想空間を移動するエージェントが取得した1人目の画像を記録し、生体視覚システムと同様の時間を利用した自己監督型ViTの訓練に使用した。 ViTが生まれたばかりのニワトリの目を通して訓練されたとき、ViTはニワトリと同じ、不変の物体認識タスクを解決した。 このように、ViTは生まれたばかりの視覚システムよりも、データに飢えていた:どちらも、貧弱な視覚環境における不変のオブジェクト表現を学習した。 ViTsのフレキシブルで汎用的な注意に基づく学習メカニズムは、新生児に利用可能なデータストリームと組み合わせることで、動物のような物体認識の開発を促進するのに十分である。

Vision transformers (ViTs) are top performing models on many computer vision benchmarks and can accurately predict human behavior on object recognition tasks. However, researchers question the value of using ViTs as models of biological learning because ViTs are thought to be more data hungry than brains, with ViTs requiring more training data to reach similar levels of performance. To test this assumption, we directly compared the learning abilities of ViTs and animals, by performing parallel controlled rearing experiments on ViTs and newborn chicks. We first raised chicks in impoverished visual environments containing a single object, then simulated the training data available in those environments by building virtual animal chambers in a video game engine. We recorded the first-person images acquired by agents moving through the virtual chambers and used those images to train self supervised ViTs that leverage time as a teaching signal, akin to biological visual systems. When ViTs were trained through the eyes of newborn chicks, the ViTs solved the same view invariant object recognition tasks as the chicks. Thus, ViTs were not more data hungry than newborn visual systems: both learned view invariant object representations in impoverished visual environments. The flexible and generic attention based learning mechanism in ViTs combined with the embodied data streams available to newborn animals appears sufficient to drive the development of animal-like object recognition.
翻訳日:2023-12-06 15:23:48 公開日:2023-12-05
# パウリ雑音による量子位相推定の不定因数順序

Indefinite causal order for quantum phase estimation with Pauli noise ( http://arxiv.org/abs/2312.02832v1 )

ライセンス: Link先を確認
Francois Chapeau-Blondeau(参考訳) この手紙は、ノイズの存在下での量子位相推定の基準メロジカルタスクに適用される不定因果順序を持つスイッチング量子チャネルの最近のスキームをさらに探究するものである。 特に,非分極化雑音と熱雑音で報告された探査を,クビットにとって重要であり,以前には解決されていないポーリノイズのクラスに拡張する。 標準的な量子位相推定にはアクセスできない非標準機能は、パウリノイズに特有の重要な特性を持つとともに、他の特性は脱分極ノイズや熱雑音と共通している。 その結果、量子ノイズの存在とタイプは、共振現象を想起させるノイズの合成作用とともに、スイッチングチャネルから無期限因果順序の非標準能力を決定するために重要であることが示されている。 この研究は、不定因果順序を持つスイッチング量子チャネルの新規デバイス動作における量子ノイズの役割と特異性をより包括的かつ体系的に特徴づけることに寄与している。

This letter further explores the recent scheme of switched quantum channels with indefinite causal order applied to the reference metrological task of quantum phase estimation in the presence of noise. We especially extend the explorations, previously reported with depolarizing noise and thermal noise, to the class of Pauli noises, important to the qubit and not previously addressed. Nonstandard capabilities, not accessible with standard quantum phase estimation, are exhibited and analyzed, with significant properties that are specific to the Pauli noises, while other properties are found in common with the depolarizing noise or the thermal noise. The results show that the presence and the type of quantum noise are both crucial to the determination of the nonstandard capabilities from the switched channel with indefinite causal order, with a constructive action of noise reminiscent of stochastic resonance phenomena. The study contributes to a more comprehensive and systematic characterization of the roles and specificities of quantum noise in the operation of the novel devices of switched quantum channels with indefinite causal order.
翻訳日:2023-12-06 15:23:21 公開日:2023-12-05
# スペクトログラムに基づく機械学習による地下地震象の鳴き声の検出

Detection of Seismic Infrasonic Elephant Rumbles Using Spectrogram-Based Machine Learning ( http://arxiv.org/abs/2312.02831v1 )

ライセンス: Link先を確認
A. M. J. V. Costa, C. S. Pallikkonda, H. H. R. Hiroshan, G. R. U. Y. Gamlath, S. R. Munasinghe, C. U. S. Edussooriya(参考訳) 本論文は, 近赤外地震信号における象の鳴き声の同定に有効な手法を提案する。 ジオフォンで捕捉された地震信号を増幅・フィルタ・デジタル化する電子回路の設計と実装について述べる。 スリランカのゾウ孤児院のフリーランディングエリアで,地震波によるゾウの鳴き声が収集された。 地震波ランブルは分光器に変換され、スペクトル特徴抽出にいくつかの方法が用いられた。 LasyPredictを使って、異なる方法で抽出した特徴を対応する機械学習アルゴリズムに入力し、自動地震波識別のためのトレーニングを行った。 その結果,mfcc (mel frequency cepstral coefficient) とmfcc (mfcc) はリッジ分類器機械学習アルゴリズムを併用し,地震象のランブル同定に最適な性能を示した。 また, 地震波の同定における高精度化につながるスペクトルを識別する新しい手法を提案する。

This paper presents an effective method of identifying elephant rumbles in infrasonic seismic signals. The design and implementation of electronic circuitry to amplify, filter, and digitize the seismic signals captured through geophones are presented. A collection of seismic infrasonic elephant rumbles was collected at a free-ranging area of an elephant orphanage in Sri Lanka. The seismic rumbles were converted to spectrograms, and several methods were used for spectral feature extraction. Using LasyPredict, the features extracted using different methods were fed into their corresponding machine-learning algorithms to train them for automatic seismic rumble identification. It was found that the Mel frequency cepstral coefficient (MFCC) together with the Ridge classifier machine learning algorithm produced the best performance in identifying seismic elephant rumbles. A novel method for denoising the spectrum that leads to enhanced accuracy in identifying seismic rumbles is also presented.
翻訳日:2023-12-06 15:23:05 公開日:2023-12-05
# MIMONets: 重ね合わせ計算を行う複数入出力ニューラルネットワーク

MIMONets: Multiple-Input-Multiple-Output Neural Networks Exploiting Computation in Superposition ( http://arxiv.org/abs/2312.02829v1 )

ライセンス: Link先を確認
Nicolas Menet (1 and 2), Michael Hersche (1 and 2), Geethan Karunaratne (1), Luca Benini (2), Abu Sebastian (1), Abbas Rahimi (1) ((1) IBM Research - Zurich, (2) ETH Zurich)(参考訳) ディープラーニングの出現により、複雑なタスクを解決するために、徐々に大きなニューラルネットワークが設計された。 これらのキャパシティリッチモデルを利用して,重ね合わせ計算を活用し,推論コストを下げる。 入力当たりの計算負担を軽減するため,複数の入力を同時に処理できるマルチ入力出力ニューラルネットワーク(MIMONets)を提案する。 MIMONetsは、可変バインディング機構で様々なディープニューラルネットワークアーキテクチャを拡張し、固定幅分散表現を介して構成データ構造内の任意の数の入力を表現する。 そのため、MIMONetsは非線形ニューラルトランスフォーメーションを適用してデータ構造を均等に処理し、データ構造内の重畳された入力項目の数にほぼ比例するスピードアップをもたらす。 重ね合わせ処理後、非結合機構は各変換された興味の入力を回復する。 MIMONetsはまた、精度とスループットのダイナミックなトレードオフとして、精度を出力する操作ポイントのセット間の即時的なオンデマンドスイッチを、固定パラメータのセット内で提供する。 我々はMIMONetsの概念をCNNとTransformerアーキテクチャの両方に適用し、MIMOConvとMIMOFormerをそれぞれ実現した。 MIMOConv は CIFAR10 および CIFAR100 上の WideResNet CNN と比較して, [+0.68, -3.18] の精度差で約 2-4 倍のスピードアップを達成した。 同様に、MIMOFormerは、[-1.07, -3.43]% デルタの範囲内で高い平均精度を維持しながら、一度に2-4入力を処理できる。 最後に、mimoformer内の重ね合わせチャネル間の干渉に関する数学的境界を与える。 私たちのコードはhttps://github.com/IBM/multiple-input-multiple-output-netsで利用可能です。

With the advent of deep learning, progressively larger neural networks have been designed to solve complex tasks. We take advantage of these capacity-rich models to lower the cost of inference by exploiting computation in superposition. To reduce the computational burden per input, we propose Multiple-Input-Multiple-Output Neural Networks (MIMONets) capable of handling many inputs at once. MIMONets augment various deep neural network architectures with variable binding mechanisms to represent an arbitrary number of inputs in a compositional data structure via fixed-width distributed representations. Accordingly, MIMONets adapt nonlinear neural transformations to process the data structure holistically, leading to a speedup nearly proportional to the number of superposed input items in the data structure. After processing in superposition, an unbinding mechanism recovers each transformed input of interest. MIMONets also provide a dynamic trade-off between accuracy and throughput by an instantaneous on-demand switching between a set of accuracy-throughput operating points, yet within a single set of fixed parameters. We apply the concept of MIMONets to both CNN and Transformer architectures resulting in MIMOConv and MIMOFormer, respectively. Empirical evaluations show that MIMOConv achieves about 2-4 x speedup at an accuracy delta within [+0.68, -3.18]% compared to WideResNet CNNs on CIFAR10 and CIFAR100. Similarly, MIMOFormer can handle 2-4 inputs at once while maintaining a high average accuracy within a [-1.07, -3.43]% delta on the long range arena benchmark. Finally, we provide mathematical bounds on the interference between superposition channels in MIMOFormer. Our code is available at https://github.com/IBM/multiple-input-multiple-output-nets.
翻訳日:2023-12-06 15:22:51 公開日:2023-12-05
# 確率近似の収束率:非有界分散バイアス雑音とその応用

Convergence Rates for Stochastic Approximation: Biased Noise with Unbounded Variance, and Applications ( http://arxiv.org/abs/2312.02828v1 )

ライセンス: Link先を確認
Rajeeva L. Karandikar and M. Vidyasagar(参考訳) 1951年にRobinsとMonroによって導入された確率近似(SA)アルゴリズムは、$\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$という形の方程式を解く標準的な方法である。 もしある関数 $J(\cdot)$ に対して $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ であれば、SA は $J(\cdot)$ の定常点を見つけるためにも使うことができる。 多くの文献において、誤差項 ${\boldsymbol {xi}}_{t+1}$ は条件付き平均がゼロであり、条件付き分散は$t$の関数として有界であると仮定されている(ただし、必ずしも${\boldsymbol {\theta}}_t$ についてはそうではない)。 また、ほとんどの部分は ``synchronous'' SA に重点を置いており、${\boldsymbol {\theta}}_t$ の $t$, \textit{every} コンポーネントが更新される。 長年にわたり、saは様々な分野に適用されてきたが、そのうちの2つは、convexとnonconvexの最適化と強化学習(rl)である。 これらの応用において、上記の仮定は常に成り立つとは限らない。 ゼロ次法では、誤差は平均値も有界条件分散も持たない。 本稿では,非ゼロ条件平均および/または非有界条件分散による誤差を包含するSA理論を拡張し,非同期SAについても述べる。 さらに,アルゴリズムの収束率の推定値も導出する。 次に,新しい結果を非凸最適化の問題に適用し,最近登場したrl領域であるマルコビアンsaに適用する。 これらの状況においてsaが収束することを証明し, ‘optimal step size sequences’’ を計算して収束率を最大化する。

The Stochastic Approximation (SA) algorithm introduced by Robbins and Monro in 1951 has been a standard method for solving equations of the form $\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$, when only noisy measurements of $\mathbf{f}(\cdot)$ are available. If $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ for some function $J(\cdot)$, then SA can also be used to find a stationary point of $J(\cdot)$. In much of the literature, it is assumed that the error term ${\boldsymbol {xi}}_{t+1}$ has zero conditional mean, and that its conditional variance is bounded as a function of $t$ (though not necessarily with respect to ${\boldsymbol {\theta}}_t$). Also, for the most part, the emphasis has been on ``synchronous'' SA, whereby, at each time $t$, \textit{every} component of ${\boldsymbol {\theta}}_t$ is updated. Over the years, SA has been applied to a variety of areas, out of which two are the focus in this paper: Convex and nonconvex optimization, and Reinforcement Learning (RL). As it turns out, in these applications, the above-mentioned assumptions do not always hold. In zero-order methods, the error neither has zero mean nor bounded conditional variance. In the present paper, we extend SA theory to encompass errors with nonzero conditional mean and/or unbounded conditional variance, and also asynchronous SA. In addition, we derive estimates for the rate of convergence of the algorithm. Then we apply the new results to problems in nonconvex optimization, and to Markovian SA, a recently emerging area in RL. We prove that SA converges in these situations, and compute the ``optimal step size sequences'' to maximize the estimated rate of convergence.
翻訳日:2023-12-06 15:22:21 公開日:2023-12-05
# ドメイン適応型知的障害診断のための校正適応教師

Calibrated Adaptive Teacher for Domain Adaptive Intelligent Fault Diagnosis ( http://arxiv.org/abs/2312.02826v1 )

ライセンス: Link先を確認
Florent Forest, Olga Fink(参考訳) 深層学習に基づくインテリジェント障害診断(IFD)は、効果的で柔軟なソリューションであることが証明されており、広範な研究を惹きつけている。 ディープニューラルネットワークは、さまざまなアプリケーションのための大量のラベル付きデータからリッチな表現を学ぶことができる。 IFDでは、広範囲なドメイン知識を必要とせず、エンドツーエンドで信号から高い分類性能を達成する。 しかし、ディープラーニングモデルは通常、トレーニングされたデータ分散に対してのみうまく機能する。 異なるディストリビューションに適用されると、パフォーマンスが低下する可能性がある。 また、ifdでは、ラベル付きデータが収集されたものと異なる作業条件で資産が運用されることが多い。 教師なしドメイン適応(unsupervised domain adaptation, uda)は、ラベル付きデータがソースドメインで利用可能であり、ラベルなしデータだけがターゲットドメインで利用可能であるシナリオを扱う。 近年の手法は、ターゲットサンプルに対する自信ある擬似ラベルによるトレーニングに依存している。 しかし、疑似ラベルの信頼性に基づく選択は、主に疑似ラベルの品質を制限し、誤りの蓄積につながる過信予測によって、対象ドメインの精度の低い信頼推定によって妨げられる。 本稿では, 自己学習過程を通じて教師ネットワークの予測を校正し, ポストホック校正技術を活用する, 校正適応教師(CAT)と呼ばれる新しいUDA手法を提案する。 我々は,ドメイン適応IFDにおけるCATを評価し,様々な動作条件下での故障診断のためのPaderbornベンチマークで広範な実験を行った。 提案手法は,ほとんどの転送タスクにおける最先端性能を実現する。

Intelligent Fault Diagnosis (IFD) based on deep learning has proven to be an effective and flexible solution, attracting extensive research. Deep neural networks can learn rich representations from vast amounts of representative labeled data for various applications. In IFD, they achieve high classification performance from signals in an end-to-end manner, without requiring extensive domain knowledge. However, deep learning models usually only perform well on the data distribution they have been trained on. When applied to a different distribution, they may experience performance drops. This is also observed in IFD, where assets are often operated in working conditions different from those in which labeled data have been collected. Unsupervised domain adaptation (UDA) deals with the scenario where labeled data are available in a source domain, and only unlabeled data are available in a target domain, where domains may correspond to operating conditions. Recent methods rely on training with confident pseudo-labels for target samples. However, the confidence-based selection of pseudo-labels is hindered by poorly calibrated confidence estimates in the target domain, primarily due to over-confident predictions, which limits the quality of pseudo-labels and leads to error accumulation. In this paper, we propose a novel UDA method called Calibrated Adaptive Teacher (CAT), where we propose to calibrate the predictions of the teacher network throughout the self-training process, leveraging post-hoc calibration techniques. We evaluate CAT on domain-adaptive IFD and perform extensive experiments on the Paderborn benchmark for bearing fault diagnosis under varying operating conditions. Our proposed method achieves state-of-the-art performance on most transfer tasks.
翻訳日:2023-12-06 15:21:39 公開日:2023-12-05
# 分子幾何学相のダイナミクス

Dynamics of the molecular geometric phase ( http://arxiv.org/abs/2312.02823v1 )

ライセンス: Link先を確認
Rocco Martinazzo and Irene Burghardt(参考訳) 正確な動的枠組みにおける分子幾何学的位相の運命は、波動関数の正確な分解と、最近提案されたその力学の量子力学的記述の助けを借りて研究される。 流体力学変数の観点から原子核構成空間の任意の経路に対して瞬時ゲージ不変位相を導入し、状態が断熱的かつ閉であるとき断熱幾何位相に減少することが示されている。 閉路相の時間的進化はマクスウェル・ファラデー誘導法に則り、電気的力の役割を果たす電子動力学から生じる非保守的な力で示される。 我々は、位相の値を変えることが可能な重要な力を特定し、トポロジカルな議論に挑戦する。 それでも、プローブループに沿った局所力学がほぼ断熱的であると、位相の無視的な変化が生じる。 言い換えれば、幾何学的位相効果の断熱的理想化は、ある動的可観測物を効果的に記述するのに相応しい。

The fate of the molecular geometric phase in an exact dynamical framework is investigated with the help of the exact factorization of the wavefunction and a recently proposed quantum hydrodynamical description of its dynamics. An instantaneous, gauge invariant phase is introduced for arbitrary paths in nuclear configuration space in terms of hydrodynamical variables, and shown to reduce to the adiabatic geometric phase when the state is adiabatic and the path is closed. The evolution of the closed-path phase over time is shown to adhere to a Maxwell-Faraday induction law, with non-conservative forces arising from the electron dynamics that play the role of electromotive forces. We identify the pivotal forces that are able to change the value of the phase, thereby challenging any topological argument. Nonetheless, negligible changes in the phase occur when the local dynamics along the probe loop is approximately adiabatic. In other words, the adiabatic idealization of geometric phase effects may remain suitable for effectively describing certain dynamic observables.
翻訳日:2023-12-06 15:21:15 公開日:2023-12-05
# rotatr: 高密度回転物体の検出トランス

RotaTR: Detection Transformer for Dense and Rotated Object ( http://arxiv.org/abs/2312.02821v1 )

ライセンス: Link先を確認
Zhu Yuke, Ruan Yumeng, Yang Lei, Guo Sheng(参考訳) 高密度で回転したシーンで物体を検出するのは難しい作業です。 このトピックに関する最近の研究は主に、より高速なRCNNまたはRetinanetに基づいている。 detrベースの検出器は、水平方向の物体検出や、セグメンテーション、トラッキング、アクション認識などの多くの領域で大きな成功を収めているが、detrベースの検出器は、高密度に回転したターゲットのタスクにあまり依存せず、現代のcnnベースの検出器よりも悪い。 本稿では,性能低下の最も大きな原因は,元々の注目が方向性の目標に正確に焦点を合わせることができないことにある。 そこで本研究では,オブジェクト指向検出へのDETRの拡張として,回転物体検出TRansformer(RotaTR)を提案する。 具体的には,detrの指向目標検出能力を高めるために,回転感度変形可能(rsdeform)注意を設計する。 モデルのための特徴アライメントモジュールと回転感度デコーダを構築するために使用される。 課題指向の4つのベンチマークでRotaTRをテストする。 これは、元のDETRと比較して密度と指向性のある物体を検出できる大きな利点を示している。 また、最先端技術と比較すると、競争結果が得られる。

Detecting the objects in dense and rotated scenes is a challenging task. Recent works on this topic are mostly based on Faster RCNN or Retinanet. As they are highly dependent on the pre-set dense anchors and the NMS operation, the approach is indirect and suboptimal.The end-to-end DETR-based detectors have achieved great success in horizontal object detection and many other areas like segmentation, tracking, action recognition and etc.However, the DETR-based detectors perform poorly on dense rotated target tasks and perform worse than most modern CNN-based detectors. In this paper, we find the most significant reason for the poor performance is that the original attention can not accurately focus on the oriented targets. Accordingly, we propose Rotated object detection TRansformer (RotaTR) as an extension of DETR to oriented detection. Specifically, we design Rotation Sensitive deformable (RSDeform) attention to enhance the DETR's ability to detect oriented targets. It is used to build the feature alignment module and rotation-sensitive decoder for our model. We test RotaTR on four challenging-oriented benchmarks. It shows a great advantage in detecting dense and oriented objects compared to the original DETR. It also achieves competitive results when compared to the state-of-the-art.
翻訳日:2023-12-06 15:20:58 公開日:2023-12-05
# fisher information matrixを用いた多言語翻訳モデルにおける疑似言語ファミリーのクラスタリング

Clustering Pseudo Language Family in Multilingual Translation Models with Fisher Information Matrix ( http://arxiv.org/abs/2312.02820v1 )

ライセンス: Link先を確認
Xinyu Ma and Xuebo Liu and Min Zhang(参考訳) 多言語翻訳研究においては、言語家族の理解と利用が最重要である。 それでも、先祖の家系のみに基づくクラスタリング言語は、モデルのトレーニングフェーズで使用されるデータセットのバリエーションによって、最適以下の結果が得られる。 この課題を軽減するために,多言語翻訳モデルの特徴を基盤として,魚情報行列(FIM)をクラスタ言語ファミリーに活用する革新的な手法を提案する。 モデルパラメータに類似した影響を持つ言語対は、かなりの言語的一致を示し、結束的にグループ化されるべきである。 この概念は擬似言語ファミリーの定義につながった。 我々は、これらの擬似言語ファミリーの創始と応用について、深く議論する。 経験的評価により、これらの擬似言語ファミリを使うことは、不慣れな言語ペアに多言語翻訳モデルを適用することで、従来の言語ファミリよりもパフォーマンスが向上することが明らかになった。 提案手法は言語類似度測定を必要とするシナリオにも拡張できる。 ソースコードと関連するスクリプトはhttps://github.com/ecoli-hit/PseudoFamilyでアクセスできる。

In multilingual translation research, the comprehension and utilization of language families are of paramount importance. Nevertheless, clustering languages based solely on their ancestral families can yield suboptimal results due to variations in the datasets employed during the model's training phase. To mitigate this challenge, we introduce an innovative method that leverages the fisher information matrix (FIM) to cluster language families, anchored on the multilingual translation model's characteristics. We hypothesize that language pairs with similar effects on model parameters exhibit a considerable degree of linguistic congruence and should thus be grouped cohesively. This concept has led us to define pseudo language families. We provide an in-depth discussion regarding the inception and application of these pseudo language families. Empirical evaluations reveal that employing these pseudo language families enhances performance over conventional language families in adapting a multilingual translation model to unfamiliar language pairs. The proposed methodology may also be extended to scenarios requiring language similarity measurements. The source code and associated scripts can be accessed at https://github.com/ecoli-hit/PseudoFamily.
翻訳日:2023-12-06 15:20:37 公開日:2023-12-05
# 確率的気象予報のための決定論的誘導拡散モデル

Deterministic Guidance Diffusion Model for Probabilistic Weather Forecasting ( http://arxiv.org/abs/2312.02819v1 )

ライセンス: Link先を確認
Donggeun Yoon, Minseok Seo, Doyi Kim, Yeji Choi, Donghyeon Cho(参考訳) 天気予報には精度だけでなく、確率予測を行う能力も必要である。 しかし、決定論的気象予報法は確率的予測をサポートしないが、逆に確率的モデルは精度が低い傾向がある。 本稿では,これらの課題に対処するために,確率的気象予測のための \textbf{\textit{d}}eterministic \textbf{\textit{g}}uidance \textbf{\textit{d}}iffusion \textbf{\textit{m}}odel (dgdm) を導入する。 前方プロセスでは、決定論的モデルと確率的モデルの両方がエンドツーエンドで訓練される。 逆のプロセスでは、天気予報は決定論的モデルから予測結果を活用し、確率的モデルの中間出発点として用いる。 このような確率論的モデルと決定論的モデルを融合させることで、DGDMは正確な予測を提供すると同時に確率論的予測を提供することができる。 DGDMを評価するために、グローバルな天気予報データセット(WeatherBench)と一般的なビデオフレーム予測ベンチマーク(Moving MNIST)で評価する。 また,太平洋北西風雨(PNW)-台風気象衛星データセットを導入,評価し,高解像度地域予測におけるDGDMの有効性を検証する。 実験の結果,dgdmはグローバルな予測だけでなく,地域予測においても最先端の結果を得ることができた。 コードは以下の通り。 \url{https://github.com/DongGeun-Yoon/DGDM}。

Weather forecasting requires not only accuracy but also the ability to perform probabilistic prediction. However, deterministic weather forecasting methods do not support probabilistic predictions, and conversely, probabilistic models tend to be less accurate. To address these challenges, in this paper, we introduce the \textbf{\textit{D}}eterministic \textbf{\textit{G}}uidance \textbf{\textit{D}}iffusion \textbf{\textit{M}}odel (DGDM) for probabilistic weather forecasting, integrating benefits of both deterministic and probabilistic approaches. During the forward process, both the deterministic and probabilistic models are trained end-to-end. In the reverse process, weather forecasting leverages the predicted result from the deterministic model, using as an intermediate starting point for the probabilistic model. By fusing deterministic models with probabilistic models in this manner, DGDM is capable of providing accurate forecasts while also offering probabilistic predictions. To evaluate DGDM, we assess it on the global weather forecasting dataset (WeatherBench) and the common video frame prediction benchmark (Moving MNIST). We also introduce and evaluate the Pacific Northwest Windstorm (PNW)-Typhoon weather satellite dataset to verify the effectiveness of DGDM in high-resolution regional forecasting. As a result of our experiments, DGDM achieves state-of-the-art results not only in global forecasting but also in regional forecasting. The code is available at: \url{https://github.com/DongGeun-Yoon/DGDM}.
翻訳日:2023-12-06 15:20:21 公開日:2023-12-05
# 時間依存ハミルトニアンの量子シミュレーションと非自明な常微分方程式および偏微分方程式への応用

Quantum simulation for time-dependent Hamiltonians -- with applications to non-autonomous ordinary and partial differential equations ( http://arxiv.org/abs/2312.02817v1 )

ライセンス: Link先を確認
Yu Cao, Shi Jin and Nana Liu(参考訳) 非自律力学系は古典力学と量子力学の両方において非常に幅広い興味深い応用に現れるが、後者の場合は時間依存のハミルトニアンを持つ。 しかし、これらのシステムの量子シミュレーションは、ダイソン級数、時間順序付けの考慮、離散的な時間ステップの要求、あるいは複数の測定とポスト選択を必要とする複雑な手順にしばしば注目する必要がある。 これらの手順は一般に時間に依存しないハミルトンの量子シミュレーションよりもはるかに複雑である。 ここでは、任意の非自律的ユニタリ力学系を自律的ユニタリ系、すなわち時間非依存のハミルトン系を持つ量子系を1つの高次元で連続的に保ちながら、別の形式化を提案する。 これにより、時間依存ハミルトニアンによるシミュレーションは、時間依存ハミルトニアンよりも困難ではなく、時間的に連続的に進化するアナログ量子系の観点からもフレーム化することができる。 時間依存型ハミルトニアンのための新しい量子プロトコルは、資源効率のよい方法で、測定なしで、連続変数、量子ビット、ハイブリッドシステムでも実現可能であることを示す。 シュロディンジェライゼーションと呼ばれる手法と組み合わせることで、この拡張法は任意の線形ODEとPDEの量子シミュレーション、非線形ODEとある種の非線形PDEに時間依存係数で適用することができる。

Non-autonomous dynamical systems appear in a very wide range of interesting applications, both in classical and quantum dynamics, where in the latter case it corresponds to having a time-dependent Hamiltonian. However, the quantum simulation of these systems often needs to appeal to rather complicated procedures involving the Dyson series, considerations of time-ordering, requirement of time steps to be discrete and/or requiring multiple measurements and postselection. These procedures are generally much more complicated than the quantum simulation of time-independent Hamiltonians. Here we propose an alternative formalism that turns any non-autonomous unitary dynamical system into an autonomous unitary system, i.e., quantum system with a time-independent Hamiltonian, in one higher dimension, while keeping time continuous. This makes the simulation with time-dependent Hamiltonians not much more difficult than that of time-independent Hamiltonians, and can also be framed in terms of an analogue quantum system evolving continuously in time. We show how our new quantum protocol for time-dependent Hamiltonians can be performed in a resource-efficient way and without measurements, and can be made possible on either continuous-variable, qubit or hybrid systems. Combined with a technique called Schrodingerisation, this dilation technique can be applied to the quantum simulation of any linear ODEs and PDEs, and nonlinear ODEs and certain nonlinear PDEs, with time-dependent coefficients.
翻訳日:2023-12-06 15:19:54 公開日:2023-12-05
# M_3$における一般化チェイ写像の最適性

Optimality of generalized Choi maps in $M_3$ ( http://arxiv.org/abs/2312.02814v1 )

ライセンス: Link先を確認
Giovanni Scala, Anindita Bera, Gniewomir Sarbicki, Dariusz Chru\'sci\'nski(参考訳) 最近、Bella et al. arXiv:2212.03807 で提案された複素行列 3 の代数における線型正写像の族がさらに解析される。 これは、seminal choi nondecomposable extremal mapを$m_3$で一般化する。 一般化されたchoi写像が最適である場合、すなわち正の正の写像と完全正の写像の和として表現することはできない。 この性質は極端よりも弱いが、量子絡みの検出において重要な役割を果たすことが判明した。

A family of linear positive maps in the algebra of $3 \times 3$ complex matrices proposed recently in Bera et al. arXiv:2212.03807 is further analyzed. It provides a generalization of a seminal Choi nondecomposable extremal map in $M_3$. We investigate when generalized Choi maps are optimal, i.e. cannot be represented as a sum of positive and completely positive maps. This property is weaker than extremality, however, it turns out that it plays a key role in detecting quantum entanglement.
翻訳日:2023-12-06 15:19:24 公開日:2023-12-05
# BIVDiff: ブリッジ画像とビデオ拡散モデルによる汎用ビデオ合成のための学習自由フレームワーク

BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models ( http://arxiv.org/abs/2312.02813v1 )

ライセンス: Link先を確認
Fengyuan Shi, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang(参考訳) 拡散モデルはテキスト駆動画像とビデオ生成において大きな進歩を遂げている。 現在、テキスト・ツー・イメージの基礎モデルは、制御可能な画像生成や画像編集といった様々なダウンストリーム画像合成タスクに広く適用されており、ダウンストリームビデオ合成タスクはいくつかの理由から研究されていない。 まず、ビデオ生成の基礎モデルのトレーニングには、巨大なメモリと計算オーバーヘッドが必要です。 ビデオファウンデーションモデルでも、下流のビデオ合成タスクには追加のコストのかかるトレーニングが必要である。 第二に、画像拡散モデルをトレーニングフリーにビデオに拡張する作品もあるが、時間的一貫性は維持できない。 最後に、これらの適応法は1つのタスク用に特別に設計されており、異なる下流のビデオ合成タスクに一般化できない。 そこで,本稿では,特定の画像拡散モデルと一般的なテキスト・ビデオ基礎拡散モデルとを橋渡しすることにより,bivdiffと呼ばれる学習フリーな汎用映像合成フレームワークを提案する。 具体的には,まずフレーム毎の映像生成に画像拡散モデル(controlnet,instruct pix2pixなど)を使用し,生成した映像に対して混合反転を行い,最後に反転した潜時をテンポラリ平滑化のためにビデオ拡散モデルに入力する。 画像モデルとビデオモデルを分離することで、様々な目的のために柔軟な画像モデル選択が可能になる。 bivdiffの有効性と汎用性を検証するために,制御可能なビデオ生成ビデオ編集,ビデオインペインティング,アウトパインティングなど,幅広い映像生成タスクを行う。 プロジェクトのページはhttps://bivdiff.github.ioで閲覧できます。

Diffusion models have made tremendous progress in text-driven image and video generation. Now text-to-image foundation models are widely applied to various downstream image synthesis tasks, such as controllable image generation and image editing, while downstream video synthesis tasks are less explored for several reasons. First, it requires huge memory and compute overhead to train a video generation foundation model. Even with video foundation models, additional costly training is still required for downstream video synthesis tasks. Second, although some works extend image diffusion models into videos in a training-free manner, temporal consistency cannot be well kept. Finally, these adaption methods are specifically designed for one task and fail to generalize to different downstream video synthesis tasks. To mitigate these issues, we propose a training-free general-purpose video synthesis framework, coined as BIVDiff, via bridging specific image diffusion models and general text-to-video foundation diffusion models. Specifically, we first use an image diffusion model (like ControlNet, Instruct Pix2Pix) for frame-wise video generation, then perform Mixed Inversion on the generated video, and finally input the inverted latents into the video diffusion model for temporal smoothing. Decoupling image and video models enables flexible image model selection for different purposes, which endows the framework with strong task generalization and high efficiency. To validate the effectiveness and general use of BIVDiff, we perform a wide range of video generation tasks, including controllable video generation video editing, video inpainting and outpainting. Our project page is available at https://bivdiff.github.io.
翻訳日:2023-12-06 15:19:16 公開日:2023-12-05
# 局所リアプノフ条件を用いたスコアアウェア政策のグラディエント手法と性能保証:製品型確率ネットワークと待ち行列システムへの応用

Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems ( http://arxiv.org/abs/2312.02804v1 )

ライセンス: Link先を確認
C\'eline Comte, Matthieu Jonckheere, Jaron Sanders and Albert Senen-Cerda(参考訳) 確率的ネットワークとキューシステムはしばしば、多くの強化学習(RL)アルゴリズムの収束を妨げる非凸目的関数と同様に、大きな状態と行動空間を持つマルコフ決定プロセス(MDP)につながる。 政策段階的な手法は、大きな状態と行動空間を持つMDPでよく機能するが、勾配推定器の高分散のため、しばしば緩やかな収束を経験する。 本稿では,基礎となるMDPの構造を活用すれば,これらの困難を回避できることを示す。 まず,スコアアウェア勾配推定器 (SAGE) と呼ばれる勾配推定器を新たに導入する。 政策パラメータによってパラメータ化された指数関数族に属するMPPの定常分布の場合,SAGEでは,アクタークリティカルのような古典的政策段階的な手法とは対照的に,値関数推定に頼ることなく政策勾配を推定できる。 その適用性を示すために,定常分布が積形式を持つ確率ネットワークと待ち行列システムにおいて生じる2つの一般的な制御問題,特に指数関数族について検討する。 第2のコントリビューションとして、適切な仮定の下では、SAGEベースの政策段階的手法に基づく政策は、非凸目的関数や多重最大化関数であっても、最適ポリシーに十分に接近する確率が大きいことを示す。 我々の重要な仮定は、局所的に最大化子の周りには、目的関数のヘッシアンの非退化特性があり、リアプノフ関数が存在するということである。 最後に,SAGEに基づくポリシー勾配法とアクタ批判アルゴリズムの数値比較を行う。 その結果,sageに基づく手法は,従来のアクタ・クリティック法よりも優れた性能を示すため,より早く最適に近い方針を見出すことができた。

Stochastic networks and queueing systems often lead to Markov decision processes (MDPs) with large state and action spaces as well as nonconvex objective functions, which hinders the convergence of many reinforcement learning (RL) algorithms. Policy-gradient methods perform well on MDPs with large state and action spaces, but they sometimes experience slow convergence due to the high variance of the gradient estimator. In this paper, we show that some of these difficulties can be circumvented by exploiting the structure of the underlying MDP. We first introduce a new family of gradient estimators called score-aware gradient estimators (SAGEs). When the stationary distribution of the MDP belongs to an exponential family parametrized by the policy parameters, SAGEs allow us to estimate the policy gradient without relying on value-function estimation, contrary to classical policy-gradient methods like actor-critic. To demonstrate their applicability, we examine two common control problems arising in stochastic networks and queueing systems whose stationary distributions have a product-form, a special case of exponential families. As a second contribution, we show that, under appropriate assumptions, the policy under a SAGE-based policy-gradient method has a large probability of converging to an optimal policy, provided that it starts sufficiently close to it, even with a nonconvex objective function and multiple maximizers. Our key assumptions are that, locally around a maximizer, a nondegeneracy property of the Hessian of the objective function holds and a Lyapunov function exists. Finally, we conduct a numerical comparison between a SAGE-based policy-gradient method and an actor-critic algorithm. The results demonstrate that the SAGE-based method finds close-to-optimal policies more rapidly, highlighting its superior performance over the traditional actor-critic method.
翻訳日:2023-12-06 15:18:45 公開日:2023-12-05
# 英語とアラビア語におけるQur'anic IR改善のためのドメイン適応とデータ拡張の活用

Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic IR in English and Arabic ( http://arxiv.org/abs/2312.02803v1 )

ライセンス: Link先を確認
Vera Pavlova(参考訳) 本研究では,アラビア語と英語におけるQur'anic Information Search(IR)の問題にアプローチする。 ニューラルIRにおける最新の最先端の手法を用いて、この課題にもっと効率的に取り組むために何が役立つかを研究する。 トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。 そこで我々は,大量の汎用ドメインデータのトレーニングを開始し,その後,ドメイン内のデータのトレーニングを継続する。 ドメイン内のデータ不足に対処するため、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を用い、英語とアラビア語の両方でクルアニックIRの最先端を設定した。 英語におけるirタスクのためのイスラムコーパスとドメイン固有モデルがないことは、このリソースの欠如に対処し、イスラムコーパスコンパイルとドメイン固有言語モデル(lm)事前学習の予備ステップを取る動機となり、ドメイン固有lmを共有バックボーンとして使用する検索モデルのパフォーマンス向上に寄与した。 アラビア語における複数の言語モデル(LM)について検討し、クルアニックIRタスクを効率的に扱う言語を選択した。 英語からアラビア語へ成功した実験に加えて,検索モデルの学習に使用される一般ドメインデータセットの不足を償却するために,アラビア語における検索タスクに関する追加実験を行った。 Qur'anic IRタスクを英語とアラビア語を組み合わせて処理することで、比較を強化し、モデルや言語間で貴重な洞察を共有することができます。

In this work, we approach the problem of Qur'anic information retrieval (IR) in Arabic and English. Using the latest state-of-the-art methods in neural IR, we research what helps to tackle this task more efficiently. Training retrieval models requires a lot of data, which is difficult to obtain for training in-domain. Therefore, we commence with training on a large amount of general domain data and then continue training on in-domain data. To handle the lack of in-domain data, we employed a data augmentation technique, which considerably improved results in MRR@10 and NDCG@5 metrics, setting the state-of-the-art in Qur'anic IR for both English and Arabic. The absence of an Islamic corpus and domain-specific model for IR task in English motivated us to address this lack of resources and take preliminary steps of the Islamic corpus compilation and domain-specific language model (LM) pre-training, which helped to improve the performance of the retrieval models that use the domain-specific LM as the shared backbone. We examined several language models (LMs) in Arabic to select one that efficiently deals with the Qur'anic IR task. Besides transferring successful experiments from English to Arabic, we conducted additional experiments with retrieval task in Arabic to amortize the scarcity of general domain datasets used to train the retrieval models. Handling Qur'anic IR task combining English and Arabic allowed us to enhance the comparison and share valuable insights across models and languages.
翻訳日:2023-12-06 15:18:05 公開日:2023-12-05
# より実践的なグループアクティビティ検出に向けて:新しいベンチマークとモデル

Towards More Practical Group Activity Detection: A New Benchmark and Model ( http://arxiv.org/abs/2312.02878v1 )

ライセンス: Link先を確認
Dongkeun Kim, Youngkil Song, Minsu Cho, Suha Kwak(参考訳) グループ活動検出(英: group activity detection、gad)は、各グループのメンバを識別し、同時にグループのアクティビティをビデオで分類するタスクである。 GADは近年研究されているが、実用的なGADシナリオに対処する能力に制限があるため、データセットと方法論の両方の改善の余地は依然としてたくさんある。 これらの問題を解決するために、我々はまずCaf\'eと呼ばれる新しいデータセットを提示する。 既存のデータセットとは異なり、Caf\'eは主にGAD用に構築されており、より実用的な評価シナリオとメトリクスを提供し、大規模でリッチなアノテーションを提供する。 データセットとともに、未知数のグループと潜伏したグループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。 Caf\'eを含む3つのデータセットでモデルを評価したところ、精度と推論速度の両面で従来の作業よりも優れていた。 当社のデータセットとコードベースはどちらも、GADに関する将来の研究を促進するために公開されます。

Group activity detection (GAD) is the task of identifying members of each group and classifying the activity of the group at the same time in a video. While GAD has been studied recently, there is still much room for improvement in both dataset and methodology due to their limited capability to address practical GAD scenarios. To resolve these issues, we first present a new dataset, dubbed Caf\'e. Unlike existing datasets, Caf\'e is constructed primarily for GAD and presents more practical evaluation scenarios and metrics, as well as being large-scale and providing rich annotations. Along with the dataset, we propose a new GAD model that deals with an unknown number of groups and latent group members efficiently and effectively. We evaluated our model on three datasets including Caf\'e, where it outperformed previous work in terms of both accuracy and inference speed. Both our dataset and code base will be open to the public to promote future research on GAD.
翻訳日:2023-12-06 15:11:56 公開日:2023-12-05
# 効率的なポイントクラウド登録のための動的ネットワーク

A Dynamic Network for Efficient Point Cloud Registration ( http://arxiv.org/abs/2312.02877v1 )

ライセンス: Link先を確認
Yang Ai, Xi Yang(参考訳) ポイントクラウド登録タスクでは、大きな計算リソースを消費し、登録精度に悪影響を及ぼすような重複しないポイントから大きな課題が発生する。 本稿では,コンピュータビジョンタスクにおけるネットワーク効率向上のために広く利用されている動的アプローチを,ポイントクラウド登録タスクに導入する。 我々は、複数のポイントクラウドデータに反復的な登録プロセスを用いて、一致するポイントクラスタの領域を特定する。 具体的には,大まかなグローバル登録を行うための深いグローバルサンプリングから始める。 その後、提案する改良ノード提案モジュールを用いて、登録領域をさらに狭め、局所的な登録を行う。 さらに,空間整合性に基づく分類器を用いて,各登録段階の結果を評価する。 モデルは十分な信頼度に達すると終了し、不要な計算を避ける。 拡張実験により,室内データセット(3DMatch)では41%以上,屋外データセット(KITTI)では33%以上の速度向上を実現し,競争力のある登録リコール要件を維持した。

For the point cloud registration task, a significant challenge arises from non-overlapping points that consume extensive computational resources while negatively affecting registration accuracy. In this paper, we introduce a dynamic approach, widely utilized to improve network efficiency in computer vision tasks, to the point cloud registration task. We employ an iterative registration process on point cloud data multiple times to identify regions where matching points cluster, ultimately enabling us to remove noisy points. Specifically, we begin with deep global sampling to perform coarse global registration. Subsequently, we employ the proposed refined node proposal module to further narrow down the registration region and perform local registration. Furthermore, we utilize a spatial consistency-based classifier to evaluate the results of each registration stage. The model terminates once it reaches sufficient confidence, avoiding unnecessary computations. Extended experiments demonstrate that our model significantly reduces time consumption compared to other methods with similar results, achieving a speed improvement of over 41% on indoor dataset (3DMatch) and 33% on outdoor datasets (KITTI) while maintaining competitive registration recall requirements.
翻訳日:2023-12-06 15:11:42 公開日:2023-12-05
# 大規模言語モデルを用いた化学プロセスフローシートの自動補正に向けて

Toward autocorrection of chemical process flowsheets using large language models ( http://arxiv.org/abs/2312.02873v1 )

ライセンス: Link先を確認
Lukas Schulze Balhorn and Marc Caballero and Artur M. Schweidtmann(参考訳) プロセス工学領域ではプロセスフロー図(pfds)とプロセス・アンド・インスツルメンテーション図(p&ids)を用いてプロセスフローと機器構成を表現する。 しかし、p&idsとpfdsは、後にflowsheetsと呼ばれ、安全上の障害、非効率な操作、不要な費用の原因となるエラーを含むことができる。 フローシートの修正と検証は面倒で手作業のプロセスです。 本稿では,フローシートの誤りを自動的に識別し,ユーザへの修正,すなわちフローシートの自動修正を提案する新しい生成型ai手法を提案する。 人間の言語を文法的に自動補正するLarge Language Models (LLMs) のブレークスルーに触発され,フローシートの自動補正のためのLLMについて検討した。 モデルへの入力は潜在的に誤ったフローシートであり、モデルの出力は修正されたフローシートの提案である。 教師付きで合成データセット上で自動修正モデルをトレーニングします。 このモデルは、合成生成フローシートの独立したテストデータセット上で、top-1の精度80%とtop-5の精度84%を達成する。 その結果,モデルが合成フローシートの自動修正を学習できることが示唆された。 フローシートの自動修正が化学技術者にとって有用なツールになることを想定している。

The process engineering domain widely uses Process Flow Diagrams (PFDs) and Process and Instrumentation Diagrams (P&IDs) to represent process flows and equipment configurations. However, the P&IDs and PFDs, hereafter called flowsheets, can contain errors causing safety hazards, inefficient operation, and unnecessary expenses. Correcting and verifying flowsheets is a tedious, manual process. We propose a novel generative AI methodology for automatically identifying errors in flowsheets and suggesting corrections to the user, i.e., autocorrecting flowsheets. Inspired by the breakthrough of Large Language Models (LLMs) for grammatical autocorrection of human language, we investigate LLMs for the autocorrection of flowsheets. The input to the model is a potentially erroneous flowsheet and the output of the model are suggestions for a corrected flowsheet. We train our autocorrection model on a synthetic dataset in a supervised manner. The model achieves a top-1 accuracy of 80% and a top-5 accuracy of 84% on an independent test dataset of synthetically generated flowsheets. The results suggest that the model can learn to autocorrect the synthetic flowsheets. We envision that flowsheet autocorrection will become a useful tool for chemical engineers.
翻訳日:2023-12-06 15:11:22 公開日:2023-12-05
# 説明可能かつ解釈可能な歩行者交叉予測への試み

Experimental Insights Towards Explainable and Interpretable Pedestrian Crossing Prediction ( http://arxiv.org/abs/2312.02872v1 )

ライセンス: Link先を確認
Angie Nataly Melo, Carlota Salinas and Miguel Angel Sotelo(参考訳) 自動運転の文脈では、歩行者の横断予測は道路の安全性を改善する重要な要素である。 現在、これらの予測の焦点は信頼できる結果を達成することにとどまらず、これらの予測の説明可能性と解釈可能性にシフトしている。 本研究では,深層学習とファジィ論理を組み合わせた新しいニューロシンボリックアプローチを提案する。 我々は,説明可能な特徴のセットを利用し,歩行者が横断するかどうかを予測するファジィ推論システムを用いた説明可能な予測器(expedcross)を開発した。 提案手法をPIEとJAADの両方のデータセットで評価した。 その結果,歩行者横断予測課題における説明可能性と解釈可能性について実験的に考察した。 さらに、テスト結果は、データセットの選択、特徴の選択、説明可能性のプロセスに関する一連のガイドラインと勧告を与えます。

In the context of autonomous driving, pedestrian crossing prediction is a key component for improving road safety. Presently, the focus of these predictions extends beyond achieving trustworthy results; it is shifting towards the explainability and interpretability of these predictions. This research introduces a novel neuro-symbolic approach that combines deep learning and fuzzy logic for an explainable and interpretable pedestrian crossing prediction. We have developed an explainable predictor (ExPedCross), which utilizes a set of explainable features and employs a fuzzy inference system to predict whether the pedestrian will cross or not. Our approach was evaluated on both the PIE and JAAD datasets. The results offer experimental insights into achieving explainability and interpretability in the pedestrian crossing prediction task. Furthermore, the testing results yield a set of guidelines and recommendations regarding the process of dataset selection, feature selection, and explainability.
翻訳日:2023-12-06 15:11:03 公開日:2023-12-05
# イオン輸送の物理インフォームド深層学習のための注意型神経微分方程式

Attention-enhanced neural differential equations for physics-informed deep learning of ion transport ( http://arxiv.org/abs/2312.02871v1 )

ライセンス: Link先を確認
Danyal Rehman and John H. Lienhard(参考訳) 種々輸送モデルは典型的には、偏微分方程式(PDE)と障害のある輸送理論の関係を結合して、複雑なナノ多孔体系を通した電気移動、対流、拡散輸送を定量化するが、これらの定式化はしばしば支配力学の実質的な単純化であり、PDEベースのモデルの一般化性能は劣る。 物理科学における深層学習法への関心が高まる中、ナノポーラス膜を横断するイオン輸送を特徴付ける機械学習ベースの手法を開発した。 提案フレームワークは、従来のPDE法と比較して一般化性能を向上させるために、電気中立性に基づく帰納バイアスを組み込んだ注意強化型神経微分方程式を中心にしている。 また,多種多様な混合組成における物理的に測定可能なイオン対関係の照明における注意機構の役割について検討した。 さらに,PDEモデルからのシミュレーションデータに対する事前学習の重要性と,ハードとソフトの帰納バイアスによる性能上のメリットについても検討した。 この結果から,物理インフォームド・ディープ・ラーニング・ソリューションは従来のPDEよりも優れており,多種多様な応用にまたがる複雑な輸送現象をモデル化する上で有望な方法であることがわかった。

Species transport models typically combine partial differential equations (PDEs) with relations from hindered transport theory to quantify electromigrative, convective, and diffusive transport through complex nanoporous systems; however, these formulations are frequently substantial simplifications of the governing dynamics, leading to the poor generalization performance of PDE-based models. Given the growing interest in deep learning methods for the physical sciences, we develop a machine learning-based approach to characterize ion transport across nanoporous membranes. Our proposed framework centers around attention-enhanced neural differential equations that incorporate electroneutrality-based inductive biases to improve generalization performance relative to conventional PDE-based methods. In addition, we study the role of the attention mechanism in illuminating physically-meaningful ion-pairing relationships across diverse mixture compositions. Further, we investigate the importance of pre-training on simulated data from PDE-based models, as well as the performance benefits from hard vs. soft inductive biases. Our results indicate that physics-informed deep learning solutions can outperform their classical PDE-based counterparts and provide promising avenues for modelling complex transport phenomena across diverse applications.
翻訳日:2023-12-06 15:10:49 公開日:2023-12-05
# a tabula recta は xxi 世紀にセキュリティを提供するか?

Can a Tabula Recta provide security in the XXI century? ( http://arxiv.org/abs/2312.02869v1 )

ライセンス: Link先を確認
Francisco Ruiz(参考訳) ユーザグループでアクセス可能なコンピュータの完全な妥協のありそうもないシナリオでは、従来のtabula rectaによる人間の計算可能な紙とペンシルの暗号手法を使おうという誘惑があり、これは文字で直接追加と減算を行うのに役立ちます。 しかし、これらの古典的なアルゴリズムや、同じシンプルなツールを使った新しいアルゴリズムは、コンピュータ支援の暗号解読に対抗できるのだろうか? 本稿では,人間計算可能なアルゴリズムが,この状況においていかに十分なセキュリティを確保できるかを論じ,コンピュータによる統計的分析から結論を導いた。 共有テキストソースからエントロピーを集中するアルゴリズム、非バイナリ空間の演算に基づいて暗号をストリームするアルゴリズム、チャレンジテキストからパスワードを生成するために使われるハッシュライクなアルゴリズムの3種類が議論されている。

In the not so unlikely scenario of total compromise of computers accessible to a group of users, they might be tempted to resort to human-computable paper-and-pencil cryptographic methods aided by a classic Tabula Recta, which helps to perform addition and subtraction directly with letters. But do these classic algorithms, or some new ones using the same simple tools, have any chance against computer-aided cryptanalysis? In this paper I discuss how some human-computable algorithms can indeed afford sufficient security in this situation, drawing conclusions from computer-based statistical analysis. Three kinds of algorithms are discussed: those that concentrate entropy from shared text sources, stream ciphers based on arithmetic of non-binary spaces, and hash-like algorithms that may be used to generate a password from a challenge text.
翻訳日:2023-12-06 15:10:25 公開日:2023-12-05
# 特徴生成と融合による半監督型健康指標モニタリング

Semi-Supervised Health Index Monitoring with Feature Generation and Fusion ( http://arxiv.org/abs/2312.02867v1 )

ライセンス: Link先を確認
Ga\"etan Frusque, Ismail Nejjar, Majid Nabavi, Olga Fink(参考訳) 健康指数(HI)は、システムの健全性を評価し、異常検出などのタスクを支援し、高い安全性と信頼性を要求するシステムにとって有用な寿命を予測するために重要である。 密着性監視は、スプレーコーティングなどの応用により、低コストで高精度を達成するために重要である。 HIラベルを現実世界のアプリケーションに保持することは、しばしばコストを抑え、継続的な正確な健康測定を必要とする。 したがって、機械摩耗の可能性を示唆する可能性のある実行時障害データセットを活用する方が便利であり、HI構築に半教師付きツールを適用する必要がある。 本研究では,Deep Semi-supervised Anomaly Detection (DeepSAD) 法をHI構築に適用する。 我々は、DeepSAD埋め込みを条件指標として、解釈可能性の問題とシステム固有の要因に対する感度に対処する。 次に,条件指標を豊かにするために多様性損失を導入する。 我々は、等方性制約を持つ交互投影アルゴリズムを用いて、DeepSAD埋め込みを正規化HIに変換する。 PHME 2010ミリングデータセットの検証では、基底真理HIsを用いた評価ベンチマークが有意義なHIs推定を示す。 次に, 高周波を用いた溶射皮膜の摩耗状態のモニタリングに本手法を適用した。 我々の貢献により、よりアクセシブルで信頼性の高いHI推定が可能となる。

The Health Index (HI) is crucial for evaluating system health, aiding tasks like anomaly detection and predicting remaining useful life for systems demanding high safety and reliability. Tight monitoring is crucial for achieving high precision at a lower cost, with applications such as spray coating. Obtaining HI labels in real-world applications is often cost-prohibitive, requiring continuous, precise health measurements. Therefore, it is more convenient to leverage run-to failure datasets that may provide potential indications of machine wear condition, making it necessary to apply semi-supervised tools for HI construction. In this study, we adapt the Deep Semi-supervised Anomaly Detection (DeepSAD) method for HI construction. We use the DeepSAD embedding as a condition indicators to address interpretability challenges and sensitivity to system-specific factors. Then, we introduce a diversity loss to enrich condition indicators. We employ an alternating projection algorithm with isotonic constraints to transform the DeepSAD embedding into a normalized HI with an increasing trend. Validation on the PHME 2010 milling dataset, a recognized benchmark with ground truth HIs demonstrates meaningful HIs estimations. Our methodology is then applied to monitor wear states of thermal spray coatings using high-frequency voltage. Our contributions create opportunities for more accessible and reliable HI estimation, particularly in cases where obtaining ground truth HI labels is unfeasible.
翻訳日:2023-12-06 15:10:09 公開日:2023-12-05
# 利用可能なmlデプロイメントからの教訓と風力タービンモニタリングへの応用

Lessons from Usable ML Deployments and Application to Wind Turbine Monitoring ( http://arxiv.org/abs/2312.02859v1 )

ライセンス: Link先を確認
Alexandra Zytek, Wei-En Wang, Sofia Koukoura, and Kalyan Veeramachaneni(参考訳) 実世界のドメインに使用可能なML(説明とその他の拡張情報を含む、説明可能なML以上のもの)をデプロイした過去経験を通じて、私たちは3つの重要な教訓を学びました。 まず、多くの組織は、‘ブリッジ’と呼ばれる人を雇用し始めています。それは、ml開発者とドメインエキスパートの間のギャップを埋めるためです。 第二に、ブリッジとのコラボレーション中に使用可能なMLインターフェースを簡単にイテレーションできる構成可能なシステムが重要である。 最後に、使用可能なMLの実際の影響を定量化するために、継続的、デプロイ中の評価が必要である。 本稿では,これらを再生可能エネルギー分野における重要な課題である風力タービンモニタリングの課題に適用する。 タービンエンジニアとデータアナリストは、ブレーキパッド故障の潜在的なケースを防ぐためにタービンの対人調査を行うかどうかを判断しなければならない。 この課題への我々の教訓の適用を通じて、再生可能エネルギー領域におけるMLの現実世界への影響を実証したいと考えている。

Through past experiences deploying what we call usable ML (one step beyond explainable ML, including both explanations and other augmenting information) to real-world domains, we have learned three key lessons. First, many organizations are beginning to hire people who we call ``bridges'' because they bridge the gap between ML developers and domain experts, and these people fill a valuable role in developing usable ML applications. Second, a configurable system that enables easily iterating on usable ML interfaces during collaborations with bridges is key. Finally, there is a need for continuous, in-deployment evaluations to quantify the real-world impact of usable ML. Throughout this paper, we apply these lessons to the task of wind turbine monitoring, an essential task in the renewable energy domain. Turbine engineers and data analysts must decide whether to perform costly in-person investigations on turbines to prevent potential cases of brakepad failure, and well-tuned usable ML interfaces can aid with this decision-making process. Through the applications of our lessons to this task, we hope to demonstrate the potential real-world impact of usable ML in the renewable energy domain.
翻訳日:2023-12-06 15:09:47 公開日:2023-12-05
# 気候モデルデータの因果表現に向けて

Towards Causal Representations of Climate Model Data ( http://arxiv.org/abs/2312.02858v1 )

ライセンス: Link先を確認
Julien Boussard, Chandni Nagda, Julia Kaltenborn, Charlotte Emilie Elektra Lange, Philippe Brouillard, Yaniv Gurwicz, Peer Nowack, David Rolnick(参考訳) 地球システムモデル(esms)のような気候モデルは、ssp(projected shared socio economic pathways)の温室効果ガス排出シナリオに基づいて将来の気候変動をシミュレーションするために不可欠である。 esmは洗練され、価値が増すが、既存のシミュレーションデータに基づいてトレーニングされた機械学習ベースのエミュレータは、追加の気候シナリオをより早く、計算効率が良い。 しかし、それらはしばしば一般化性と解釈性に欠ける。 この研究は、因果表現学習の可能性、具体的には、気候モデルエミュレーションの効率の良い \textit{and} 解釈をレンダリングできる \emph{Causal Discovery with Single-parent Decoding} (CDSD) 法を掘り下げている。 複数の気候データセット上でCDSDを評価し,排出,温度,降水量に着目した。 以上の結果から,CDSDをより解釈可能で堅牢な気候モデルエミュレーションへのステップストーンとして使用するという課題,限界,約束が明らかになった。

Climate models, such as Earth system models (ESMs), are crucial for simulating future climate change based on projected Shared Socioeconomic Pathways (SSP) greenhouse gas emissions scenarios. While ESMs are sophisticated and invaluable, machine learning-based emulators trained on existing simulation data can project additional climate scenarios much faster and are computationally efficient. However, they often lack generalizability and interpretability. This work delves into the potential of causal representation learning, specifically the \emph{Causal Discovery with Single-parent Decoding} (CDSD) method, which could render climate model emulation efficient \textit{and} interpretable. We evaluate CDSD on multiple climate datasets, focusing on emissions, temperature, and precipitation. Our findings shed light on the challenges, limitations, and promise of using CDSD as a stepping stone towards more interpretable and robust climate model emulation.
翻訳日:2023-12-06 15:09:18 公開日:2023-12-05
# 局在電子照射による広帯域材料における量子エミッタ作製の比較研究

Comparative study of quantum emitter fabrication in wide bandgap materials using localized electron irradiation ( http://arxiv.org/abs/2312.02856v1 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Mohammad N. Mishuk, Mouli Hazra, Clotilde Pillot, Tjorben Matthes, Tanveer A. Shaik, Asli Cakan, Volker Deckert, Sujin Suwanna, Tobias Vog(参考訳) 量子光源は、様々な量子技術応用のための重要な基礎コンポーネントである。 量子テクノロジーの急速な発展により、量子エミッターをホストできる材料に対する需要が高まっている。 そのような物質の1つのプラットフォームは、六方晶窒化ホウ素(hBN)の蛍光欠陥であり、バンドギャップ内で深いサブレベルを誘導する。 この問題は、他の層状ワイドバンドギャップ (2D) 材料が同様の単一光子放出欠陥をもたらすかどうかである。 本稿では, 量子エミッタを担体として知られている, 剥離した多層ミカフレーク中の量子エミッタをhBNおよび他の広帯域3D結晶(炭化ケイ素, 窒化ガリウム)で作製し, 比較する。 我々は,標準走査型電子顕微鏡を用いた局所電子照射の一次製造技術を用いている。 実験を補完するために, 密度汎関数理論シミュレーションを用いて固有欠陥の原子構造と光物理特性の研究を行った。 我々の製造技術は高い収率と高い単一光子純度を持つhBN量子エミッタを生成することができるが、研究中の他の固体結晶のエミッタを作製することはできない。 これにより、電荷状態操作によってすでに存在する欠陥の活性化に依存する可能性があるエミッタ生成メカニズムの結論を導き出すことができる。 したがって、hBNエミッタの同定とその生成過程の重要なステップを提供する。

Quantum light sources are crucial foundational components for various quantum technology applications. With the rapid development of quantum technology, there has been a growing demand for materials that are capable of hosting quantum emitters. One such material platform are fluorescent defects in hexagonal boron nitride (hBN) inducing deep sub-levels within the band gap. The question arises if other layered wide bandgap (2D) materials offer similar single photon emitting defects. Here, we investigate and compare the fabrication of quantum emitters in exfoliated multi-layer mica flakes with hBN and other wide bandgap 3D crystals (silicon carbide and gallium nitride) which are known to host quantum emitters. We use our primary fabrication technique of localized electron irradiation using a standard scanning electron microscope. To complement our experimental work, we employ density functional theory simulations to study the atomic structures of intrinsic defects and their photophysical properties. While our fabrication technique can create hBN quantum emitters with a high yield and high single photon purity, it is unable to fabricate emitters in the other solid-state crystals under investigation. This allows us to draw conclusions on the emitter fabrication mechanism, which could be relying on the activation of already present defects by charge state manipulation. We therefore provide an important step toward the identification of hBN emitters and their formation process.
翻訳日:2023-12-06 15:08:58 公開日:2023-12-05
# メモリ障害予測のための誤りビットの探索--深部相関研究

Exploring Error Bits for Memory Failure Prediction: An In-Depth Correlative Study ( http://arxiv.org/abs/2312.02855v1 )

ライセンス: Link先を確認
Qiao Yu, Wengui Zhang, Jorge Cardoso and Odej Kao(参考訳) 大規模なデータセンタでは、メモリ障害はサーバクラッシュの一般的な原因であり、修正不能エラー(ues)はデュアルインラインメモリモジュール(dimm)障害の主要な指標である。 既存のアプローチでは、エラービットによる情報を完全に考慮せずに、修正可能なエラー(ces)を用いたuesの予測に重点を置いている。 しかし、誤りビットパターンは、修正不能エラー(UE)の発生と強い相関を持つ。 本稿では,CEとUEの相関関係に関する総合的研究を行い,特に時空間誤りビット情報の重要性を強調した。 解析の結果,時空間誤差ビットとue発生との間に強い相関が認められた。 実世界のデータセットを用いた評価により,本手法は最先端のアルゴリズムと比較してF1スコアの予測性能を15%向上することを示した。 提案手法は,UEによる仮想マシンの中断回数を約59%削減する。

In large-scale datacenters, memory failure is a common cause of server crashes, with uncorrectable errors (UEs) being a major indicator of Dual Inline Memory Module (DIMM) defects. Existing approaches primarily focus on predicting UEs using correctable errors (CEs), without fully considering the information provided by error bits. However, error bit patterns have a strong correlation with the occurrence of uncorrectable errors (UEs). In this paper, we present a comprehensive study on the correlation between CEs and UEs, specifically emphasizing the importance of spatio-temporal error bit information. Our analysis reveals a strong correlation between spatio-temporal error bits and UE occurrence. Through evaluations using real-world datasets, we demonstrate that our approach significantly improves prediction performance by 15% in F1-score compared to the state-of-the-art algorithms. Overall, our approach effectively reduces the number of virtual machine interruptions caused by UEs by approximately 59%.
翻訳日:2023-12-06 15:08:37 公開日:2023-12-05
# 雑音量子回路に対する局所精製密度演算子

Locally purified density operators for noisy quantum circuits ( http://arxiv.org/abs/2312.02854v1 )

ライセンス: Link先を確認
Yuchen Guo, Shuo Yang(参考訳) オープン量子システムのシミュレーションは、新しい量子現象を探索し、ノイズの多い量子回路を評価するために重要である。 本稿では,雑音量子回路から発生する混合量子状態が局所純化密度演算子(LPDO)によって効率的に表現できるかどうかを考察する。 N$ qubits の LPDO から、仮想および内部結合を管理する統一的な方法を提供する、大きさ2\times N$ の凸対状態への写像を導入する。 本手法は, 最大深さ$d=40$の雑音量子回路を, 忠実度と絡み合いエントロピーを精度測定として, 数値計算により検証する。 量子エンタングルメントを発生させる雑音の弱い量子領域と、最大に混合状態となる強い雑音を持つ古典領域の2つの異なる領域をシミュレーションにより明らかにした。 LPDO表現は両方の領域でうまく機能するが、量子古典遷移点において大きな課題に直面している。 本研究は、オープン量子システムにおける効率的な混合状態表現の理解を深め、ノイズ量子回路の絡み合い構造に関する洞察を提供する。

Simulating open quantum systems is crucial for exploring novel quantum phenomena and assessing noisy quantum circuits. In this Letter, we study the problem of whether mixed quantum states generated from noisy quantum circuits can be efficiently represented by locally purified density operators (LPDOs). We introduce a mapping from LPDOs of $N$ qubits to projected entangled-pair states of size $2\times N$, which offers a unified method for managing virtual and inner bonds. We numerically validate this framework by simulating noisy random quantum circuits with up to depth $d=40$, using fidelity and entanglement entropy as accuracy measures. Our simulations reveal two distinct regions: a quantum region with weak noise that generates quantum entanglement and a classical region with strong noise that leads to a maximally mixed state. LPDO representation works well in both regions, but faces a significant challenge at the quantum-classical transition point. This work advances our understanding of efficient mixed-state representation in open quantum systems, and provides insights into the entanglement structure of noisy quantum circuits.
翻訳日:2023-12-06 15:08:24 公開日:2023-12-05
# エキスパート誘導型ベイズ最適化によるノウンシステムのHuman-in-the-loop実験設計

Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental Design of Known Systems ( http://arxiv.org/abs/2312.02852v1 )

ライセンス: Link先を確認
Tom Savage, Ehecatl Antonio del Rio Chanona(参考訳) ドメインの専門家は、ベイズ最適化のような完全に自動化された意思決定プロセスで見過ごされる貴重な物理的洞察を持っていることが多い。 本稿では,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインエキスパートが最適実験の選択に影響を及ぼすことを可能にする。 提案手法は,人間は連続的な選択よりも個別の選択が得意であるという仮説を活用し,専門家が初期の決定に重要な影響を与えることを可能にする。 各イテレーションにおいて、拡張多目的最適化問題を複数の代替解にわたって解決し、それらの効用関数値の和とそれらの共分散行列の行列式の両方を最大化する。 パレートフロントの膝端で解を取ることで、高いユーティリティ値を持ち、合理的に区別される各イテレーションで代替解のセットを返し、専門家が評価のために1つを選択する。 非形式な実践者であっても、我々のアルゴリズムは標準的なベイズ最適化の後悔を回復する。

Domain experts often possess valuable physical insights that are overlooked in fully automated decision-making processes such as Bayesian optimisation. In this article we apply high-throughput (batch) Bayesian optimisation alongside anthropological decision theory to enable domain experts to influence the selection of optimal experiments. Our methodology exploits the hypothesis that humans are better at making discrete choices than continuous ones and enables experts to influence critical early decisions. At each iteration we solve an augmented multi-objective optimisation problem across a number of alternate solutions, maximising both the sum of their utility function values and the determinant of their covariance matrix, equivalent to their total variability. By taking the solution at the knee point of the Pareto front, we return a set of alternate solutions at each iteration that have both high utility values and are reasonably distinct, from which the expert selects one for evaluation. We demonstrate that even in the case of an uninformed practitioner, our algorithm recovers the regret of standard Bayesian optimisation.
翻訳日:2023-12-06 15:08:05 公開日:2023-12-05
# 高次元シーケンシングデータ解析のためのカーネルベースニューラルネットワークテスト

A Kernel-Based Neural Network Test for High-dimensional Sequencing Data Analysis ( http://arxiv.org/abs/2312.02850v1 )

ライセンス: Link先を確認
Tingting Hou, Chang Jiang and Qing Lu(参考訳) 人工知能(AI)技術の最近の発展、特にディープニューラルネットワーク(DNN)技術の進歩は、多くの分野に革命をもたらした。 現代のAI技術においてDNNは中心的な役割を担っているが、高次元のシーケンシングデータ(例えばオーバーフィッティング)がもたらす課題のために、データ解析のシーケンシングにはほとんど使われていない。 さらに、ニューラルネットワークの複雑さと未知の制限分布のため、遺伝的関連解析のためのニューラルネットワークの関連テストの構築は依然として大きな課題である。 これらの課題に対処し,高次元シークエンシングデータ解析におけるai利用の重要なギャップを埋めるため,シークエンシングデータの複雑な関連解析のための新しいカーネルベースニューラルネットワーク(knn)テストを提案する。 このフレームワークは、高次元遺伝データの全体的な効果をランダムにモデル化し、カーネルベースのニューラルネットワーク構造を用いて複雑な遺伝子型とフェノタイプの関係をモデル化する。 knnに基づき、非線型および非付加効果(例えば相互作用効果)を考慮して、高次元遺伝データの疾患表現型との結合性を評価するウォルド型テストが導入された。 シミュレーションにより,提案手法はシークエンスカーネルアソシエーションテスト (SKAT) と比較して,特に非線形および相互作用効果の存在下で高い性能を示した。 最後に,アルツハイマー病ニューロイメージングイニシアチブ(adni)研究から得られた全ゲノムシークエンシング(wgs)データセットに適用し,海馬容積変化に関連する新規遺伝子を時間とともに調査した。

The recent development of artificial intelligence (AI) technology, especially the advance of deep neural network (DNN) technology, has revolutionized many fields. While DNN plays a central role in modern AI technology, it has been rarely used in sequencing data analysis due to challenges brought by high-dimensional sequencing data (e.g., overfitting). Moreover, due to the complexity of neural networks and their unknown limiting distributions, building association tests on neural networks for genetic association analysis remains a great challenge. To address these challenges and fill the important gap of using AI in high-dimensional sequencing data analysis, we introduce a new kernel-based neural network (KNN) test for complex association analysis of sequencing data. The test is built on our previously developed KNN framework, which uses random effects to model the overall effects of high-dimensional genetic data and adopts kernel-based neural network structures to model complex genotype-phenotype relationships. Based on KNN, a Wald-type test is then introduced to evaluate the joint association of high-dimensional genetic data with a disease phenotype of interest, considering non-linear and non-additive effects (e.g., interaction effects). Through simulations, we demonstrated that our proposed method attained higher power compared to the sequence kernel association test (SKAT), especially in the presence of non-linear and interaction effects. Finally, we apply the methods to the whole genome sequencing (WGS) dataset from the Alzheimer's Disease Neuroimaging Initiative (ADNI) study, investigating new genes associated with the hippocampal volume change over time.
翻訳日:2023-12-06 15:07:49 公開日:2023-12-05
# ワッサースタイン空間における多面体最適化による平均場変分推論のアルゴリズム

Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space ( http://arxiv.org/abs/2312.02849v1 )

ライセンス: Link先を確認
Yiheng Jiang, Sinho Chewi, Aram-Alexandre Pooladian(参考訳) ワッサーシュタイン空間上の有限次元多面体部分集合の理論を開発し、一階法による函数の最適化を行う。 我々の主な応用は平均場変動推論の問題であり、これは分布 $\pi$ over $\mathbb{R}^d$ を積測度 $\pi^\star$ で近似しようとするものである。 例えば、$\pi$ がlog-concave かつ log-smooth である場合、(1)$\pi^\star$ が \emph{polyhedral} set $\mathcal{p}_\diamond$ 上の kl 分岐の最小値 $\pi^\star_\diamond$ に近いことを証明する近似レート、(2)$\text{kl}(\cdot\|\pi)$ over $\mathcal{p}_\diamond$ の最小化アルゴリズム、および$\kappa$ が$\pi$ の条件値である場合$o(\sqrt \kappa \log(\kappa d/\varepsilon^2)$ を提供する。

We develop a theory of finite-dimensional polyhedral subsets over the Wasserstein space and optimization of functionals over them via first-order methods. Our main application is to the problem of mean-field variational inference, which seeks to approximate a distribution $\pi$ over $\mathbb{R}^d$ by a product measure $\pi^\star$. When $\pi$ is strongly log-concave and log-smooth, we provide (1) approximation rates certifying that $\pi^\star$ is close to the minimizer $\pi^\star_\diamond$ of the KL divergence over a \emph{polyhedral} set $\mathcal{P}_\diamond$, and (2) an algorithm for minimizing $\text{KL}(\cdot\|\pi)$ over $\mathcal{P}_\diamond$ with accelerated complexity $O(\sqrt \kappa \log(\kappa d/\varepsilon^2))$, where $\kappa$ is the condition number of $\pi$.
翻訳日:2023-12-06 15:07:17 公開日:2023-12-05
# Split & Merge: スパーストレーニングによるビジュアルアダプタの可能性の解放

Split & Merge: Unlocking the Potential of Visual Adapters via Sparse Training ( http://arxiv.org/abs/2312.02923v1 )

ライセンス: Link先を確認
Qizhe Zhang, Bocheng Zou, Ruichuan An, Jiaming Liu, Shanghang Zhang(参考訳) 事前学習された基礎モデルの規模が急速に拡大するにつれて、パラメータ効率の良い微調整技術が注目され、アダプタチューニングが最も広く使われている。 効率は良いものの、アダプタチューニングは依然として完全な微調整を満たさず、パラメータの増加のコストでパフォーマンスが向上する。 最近の取り組みでは、元のアダプタを刈り取ることでこの問題に対処しているが、特定のデータセット上でのトレーニング不安定性と準最適パフォーマンスも導入している。 そこで本研究では,アダプタの各パラメータのポテンシャルを完全に解き放つための新しいアダプタチューニング手法として,スパースアダプタ (mosa) の混合を提案する。 まず、標準アダプタを複数の非重複モジュールに分割し、その後、スパーストレーニング用のモジュールを確率的に活性化し、最後にそれらをマージして、チューニング後に完全なアダプタを形成する。 このようにして、MoSAは計算やストレージのオーバーヘッドを余分に必要とせずに、標準アダプタよりも大幅にパフォーマンスが向上する。 さらに,限られたトレーニングデータを活用するための階層的スパース戦略を提案する。 一連の27の視覚的タスクに関する大規模な実験は、MoSAが他のAdapter Tuningメソッドと他のベースラインを著しく上回っていることを示している。 さらに、低リソースおよびマルチタスク設定の2つの困難なシナリオにおいて、MoSAは満足な結果を得て、設計の有効性をさらに実証する。 私たちのコードはリリースされます。

With the rapid growth in the scale of pre-trained foundation models, parameter-efficient fine-tuning techniques have gained significant attention, among which Adapter Tuning is the most widely used. Despite achieving efficiency, Adapter Tuning still underperforms full fine-tuning, and the performance improves at the cost of an increase in parameters. Recent efforts address this issue by pruning the original adapters, but it also introduces training instability and suboptimal performance on certain datasets. Motivated by this, we propose Mixture of Sparse Adapters, or MoSA, as a novel Adapter Tuning method to fully unleash the potential of each parameter in the adapter. We first split the standard adapter into multiple non-overlapping modules, then stochastically activate modules for sparse training, and finally merge them to form a complete adapter after tuning. In this way, MoSA can achieve significantly better performance than standard adapters without any additional computational or storage overhead. Furthermore, we propose a hierarchical sparse strategy to better leverage limited training data. Extensive experiments on a series of 27 visual tasks demonstrate that MoSA consistently outperforms other Adapter Tuning methods as well as other baselines by a significant margin. Furthermore, in two challenging scenarios with low-resource and multi-task settings, MoSA achieves satisfactory results, further demonstrating the effectiveness of our design. Our code will be released.
翻訳日:2023-12-06 14:59:30 公開日:2023-12-05
# オブジェクトの外観とコンテキストによるきめ細かい制御可能な映像生成

Fine-grained Controllable Video Generation via Object Appearance and Context ( http://arxiv.org/abs/2312.02919v1 )

ライセンス: Link先を確認
Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun Zhu, Ming-Hsuan Yang(参考訳) テキスト対ビデオ生成は有望な結果を示している。 しかし、自然言語のみを入力とすることで、モデルの出力を正確に制御するための詳細な情報の提供が困難になることが多い。 本研究では,詳細な制御を実現するためのきめ細かい制御可能なビデオ生成(FACTOR)を提案する。 特に、FACTORは、テキストプロンプトとともに、オブジェクトの外観とコンテキスト、その位置とカテゴリを制御することを目的としている。 詳細な制御を実現するために,既存のテキスト・ビデオモデルに協調的に制御信号を注入する統合フレームワークを提案する。 本モデルはジョイントエンコーダと適応クロスアテンション層からなる。 エンコーダと挿入層を最適化することにより、テキストプロンプトときめ細かい制御の両方に対応するビデオを生成するようにモデルを適応させる。 エッジマップのような密集した制御信号に依存する既存の方法と比較して,より直感的でユーザフレンドリーなインターフェースを提供し,オブジェクトレベルのきめ細かい制御を可能にした。 本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。 標準ベンチマークデータセットとユーザが提供する入力に関する広範囲な実験により、本モデルが競合ベースラインよりも70%の制御性指標を得られることを確認した。

Text-to-video generation has shown promising results. However, by taking only natural languages as input, users often face difficulties in providing detailed information to precisely control the model's output. In this work, we propose fine-grained controllable video generation (FACTOR) to achieve detailed control. Specifically, FACTOR aims to control objects' appearances and context, including their location and category, in conjunction with the text prompt. To achieve detailed control, we propose a unified framework to jointly inject control signals into the existing text-to-video model. Our model consists of a joint encoder and adaptive cross-attention layers. By optimizing the encoder and the inserted layer, we adapt the model to generate videos that are aligned with both text prompts and fine-grained control. Compared to existing methods relying on dense control signals such as edge maps, we provide a more intuitive and user-friendly interface to allow object-level fine-grained control. Our method achieves controllability of object appearances without finetuning, which reduces the per-subject optimization efforts for the users. Extensive experiments on standard benchmark datasets and user-provided inputs validate that our model obtains a 70% improvement in controllability metrics over competitive baselines.
翻訳日:2023-12-06 14:59:07 公開日:2023-12-05
# マルチモーダル・プロンプト知覚器:オールインワン画像復元のための適応性、一般化性、忠実性

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration ( http://arxiv.org/abs/2312.02918v1 )

ライセンス: Link先を確認
Yuang Ai, Huaibo Huang, Xiaoqiang Zhou, Jiexiang Wang, Ran He(参考訳) 大幅な進歩にもかかわらず、オールインワン画像復元(IR)は複雑な現実世界の劣化に対処する上で永続的な課題を抱える。 本稿では, 適応性, 一般化性, 忠実性を向上するために, 安定拡散(SD)に先立つ新しいマルチモーダル・プロンプト学習手法であるMPerceiverを紹介する。 具体的には,2種類のsdプロンプトをマスタするデュアルブランチモジュールを開発した。 どちらのプロンプトもCLIP画像エンコーダの劣化予測によって動的に調整され、様々な未知の劣化に対する適応応答が可能である。 さらに、プラグインディテールリファインメントモジュールは、直接エンコーダからデコーダへの情報変換による復元精度を向上させる。 提案手法を評価するため,MPerceiver は all-in-one IR の 9 つのタスクを訓練し,ほとんどのタスクにおいて最先端のタスク固有手法より優れる。 マルチタスクの事前トレーニング後、mperceiverは低レベルのビジョンで一般化された表現を達成し、目に見えないタスクで注目すべきゼロショットと少数ショットの能力を発揮する。 16のirタスクと26のベンチマークに関する広範な実験は、適応性、一般化性、忠実性の観点から、mperceiverの優位性を強調する。

Despite substantial progress, all-in-one image restoration (IR) grapples with persistent challenges in handling intricate real-world degradations. This paper introduces MPerceiver: a novel multimodal prompt learning approach that harnesses Stable Diffusion (SD) priors to enhance adaptiveness, generalizability and fidelity for all-in-one image restoration. Specifically, we develop a dual-branch module to master two types of SD prompts: textual for holistic representation and visual for multiscale detail representation. Both prompts are dynamically adjusted by degradation predictions from the CLIP image encoder, enabling adaptive responses to diverse unknown degradations. Moreover, a plug-in detail refinement module improves restoration fidelity via direct encoder-to-decoder information transformation. To assess our method, MPerceiver is trained on 9 tasks for all-in-one IR and outperforms state-of-the-art task-specific methods across most tasks. Post multitask pre-training, MPerceiver attains a generalized representation in low-level vision, exhibiting remarkable zero-shot and few-shot capabilities in unseen tasks. Extensive experiments on 16 IR tasks and 26 benchmarks underscore the superiority of MPerceiver in terms of adaptiveness, generalizability and fidelity.
翻訳日:2023-12-06 14:58:46 公開日:2023-12-05
# MIND:マルチタスクインクリメンタルネットワーク蒸留

MIND: Multi-Task Incremental Network Distillation ( http://arxiv.org/abs/2312.02916v1 )

ライセンス: Link先を確認
Jacopo Bonato, Francesco Pelosin, Luigi Sabetta, Alessandro Nicolosi(参考訳) ダイナミックなデータストリームを生成する普及的なデバイスの増加は、学習システムがデータの分散シフトに継続的に適応する必要性を浮き彫りにした。 この課題に対処するため、研究コミュニティは、データを再生することなく、クラス増分学習の追求を求めるなど、様々な方法論を策定した。 本研究では,リプレイフリーソリューションの性能を著しく向上させ,広く研究されているデータセット上で最先端の結果を得るためのパラメータ分離手法であるmindを提案する。 提案手法では,各サブネットワークの蓄積した知識を増大させるMINDの効率を大幅に向上する2つの代替蒸留法と,サブネットワーク内のタスク間でのBachNorm層の最適化を提案する。 総じて、マインドはリハーサルフリーなクラスインクリメンタル学習(cifar-100/10ではおよそ+6%、tinyimagenet/10では+10%)の最先端の方法よりも優れています。 +40%の精度を示した。 さらに,それぞれの貢献を補足して,そのパフォーマンス向上への影響を実証した。 本研究は,資源制約環境におけるクラス増分学習とドメイン増分学習がもたらす課題に対処する可能性を示すMINDの優れた性能を示すものである。

The recent surge in pervasive devices generating dynamic data streams has underscored the necessity for learning systems to adapt to data distributional shifts continually. To tackle this challenge, the research community has put forth a spectrum of methodologies, including the demanding pursuit of class-incremental learning without replay data. In this study, we present MIND, a parameter isolation method that aims to significantly enhance the performance of replay-free solutions and achieve state-of-the-art results on several widely studied datasets. Our approach introduces two main contributions: two alternative distillation procedures that significantly improve the efficiency of MIND increasing the accumulated knowledge of each sub-network, and the optimization of the BachNorm layers across tasks inside the sub-networks. Overall, MIND outperforms all the state-of-the-art methods for rehearsal-free Class-Incremental learning (with an increment in classification accuracy of approx. +6% on CIFAR-100/10 and +10% on TinyImageNet/10) reaching up to approx. +40% accuracy in Domain-Incremental scenarios. Moreover, we ablated each contribution to demonstrate its impact on performance improvement. Our results showcase the superior performance of MIND indicating its potential for addressing the challenges posed by Class-incremental and Domain-Incremental learning in resource-constrained environments.
翻訳日:2023-12-06 14:58:22 公開日:2023-12-05
# Masked Pre-TrainingとCollaborative Self-Trainingによる教師なしビデオドメイン適応

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training ( http://arxiv.org/abs/2312.02914v1 )

ライセンス: Link先を確認
Arun Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa(参考訳) 本研究では,ビデオ行動認識における教師なし領域適応(UDA)の問題に取り組む。 我々のアプローチはUNITEと呼ばれ、画像教師モデルを用いてビデオ学生モデルを対象領域に適応させる。 UNITEは、教師が指導するマスク付き蒸留目標を用いて、まず自己指導型事前学習を用いて、ターゲットドメインビデオにおける差別的特徴学習を促進する。 次に,ビデオ学生モデルと画像教師モデルを用いて,マスキング対象データに対して自己学習を行い,ラベル付き対象ビデオに対する疑似ラベル生成を行う。 我々の自己学習プロセスは、ドメイン間の強い転送性能を達成するために、両方のモデルの強みをうまく活用する。 我々は,複数のビデオ領域適応ベンチマークに対するアプローチを評価し,これまでに報告した結果に対して有意な改善を観察する。

In this work, we tackle the problem of unsupervised domain adaptation (UDA) for video action recognition. Our approach, which we call UNITE, uses an image teacher model to adapt a video student model to the target domain. UNITE first employs self-supervised pre-training to promote discriminative feature learning on target domain videos using a teacher-guided masked distillation objective. We then perform self-training on masked target data, using the video student model and image teacher model together to generate improved pseudolabels for unlabeled target videos. Our self-training process successfully leverages the strengths of both models to achieve strong transfer performance across domains. We evaluate our approach on multiple video domain adaptation benchmarks and observe significant improvements upon previously reported results.
翻訳日:2023-12-06 14:57:56 公開日:2023-12-05
# LLMを語る:ゼロショットLLM-LLMインタラクションによる人間対人間会話QAのシミュレーション

Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions ( http://arxiv.org/abs/2312.02913v1 )

ライセンス: Link先を確認
Zahra Abbasiantaeb and Yifei Yuan and Evangelos Kanoulas and Mohammad Aliannejadi(参考訳) 対話型質問応答システム(cqa)は,ユーザとの対話による情報検索を効果的に行う対話型検索システムの構築を目的としている。 人間の会話を再現するために、既存の研究は人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。 その効果にもかかわらず、人間のアノテーションは時間がかかり、一貫性がなく、拡張性がないため、課題が存在する。 この問題に対処し,CQAシミュレーションにおける大規模言語モデル(LLM)の適用性を検討するため,教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LSMを用いたシミュレーションフレームワークを提案する。 我々のフレームワークは、特定のトピックで対話する2つのLLMを含み、最初のLLMは学生として働き、与えられた検索トピックを探索するために質問を生成する。 第2のLSMは、質問に答えて教師の役割を担い、与えられたトピックに関するテキストを含む追加情報を備える。 我々は,GPT-4モデルのゼロショットにより,生徒と教師の両方を実装した。 CQA相互作用のシミュレーションにおけるLLMの有効性を評価し,LLMと人間による会話の相違を理解するために,様々な視点からシミュレーションデータを評価する。 まず,自動評価と人的評価の両面から,教師のパフォーマンスを評価する。 次に,LLMが生成した質問と人間が生成した質問の相違を分析し,評価する。 さらに,両データセットの読解モデルをベンチマークし,LLMの性能を徹底的に検討する。 その結果,LLMはより正確で完全である傾向の長い回答を生成することがわかった。 学生のLLMはより多様な質問を生成し、あるトピックのより多くの側面をカバーする。

Conversational question-answering (CQA) systems aim to create interactive search systems that effectively retrieve information by interacting with users. To replicate human-to-human conversations, existing work uses human annotators to play the roles of the questioner (student) and the answerer (teacher). Despite its effectiveness, challenges exist as human annotation is time-consuming, inconsistent, and not scalable. To address this issue and investigate the applicability of large language models (LLMs) in CQA simulation, we propose a simulation framework that employs zero-shot learner LLMs for simulating teacher-student interactions. Our framework involves two LLMs interacting on a specific topic, with the first LLM acting as a student, generating questions to explore a given search topic. The second LLM plays the role of a teacher by answering questions and is equipped with additional information, including a text on the given topic. We implement both the student and teacher by zero-shot prompting the GPT-4 model. To assess the effectiveness of LLMs in simulating CQA interactions and understand the disparities between LLM- and human-generated conversations, we evaluate the simulated data from various perspectives. We begin by evaluating the teacher's performance through both automatic and human assessment. Next, we evaluate the performance of the student, analyzing and comparing the disparities between questions generated by the LLM and those generated by humans. Furthermore, we conduct extensive analyses to thoroughly examine the LLM performance by benchmarking state-of-the-art reading comprehension models on both datasets. Our results reveal that the teacher LLM generates lengthier answers that tend to be more accurate and complete. The student LLM generates more diverse questions, covering more aspects of a given topic.
翻訳日:2023-12-06 14:57:43 公開日:2023-12-05
# sar画像分類器に対する現実的散乱器に基づく逆攻撃

Realistic Scatterer Based Adversarial Attacks on SAR Image Classifiers ( http://arxiv.org/abs/2312.02912v1 )

ライセンス: Link先を確認
Tian Ye, Rajgopal Kannan, Viktor Prasanna, Carl Busart, Lance Kaplan(参考訳) 敵対的攻撃は、SAR(Synthetic Aperture Radar)タスクのための機械学習に基づく分類器の脆弱性を強調している。 対向攻撃は、分類器を誤用して誤った予測を行うように、地上目標のSAR画像を摂動する。 しかし、既存の攻撃技術の多くは、現実世界のSAR画像に対する攻撃の実行可能性を見越しながら、任意のSAR画像の操作に依存している。 例えば、sarイメージを乱してsar atrを騙すために、追加の偽のオブジェクトを地上のターゲットの周りに散乱器として配置するなどである。 本稿では,散乱器を用いた物理的対向攻撃であるOn-Target Scatterer Attack (OTSA)を提案する。 物理的実行の実現性を確保するため,散乱器の位置決めに制約を課す。 具体的には,散乱器を影領域や背景ではなく,ターゲットにのみ配置するように制限する。 そこで我々は,ガウスカーネルに基づく位置決めスコアを導入し,OTSA攻撃に対する最適化問題を定式化する。 最適化問題を解くために勾配上昇法を用いて、OTSAは散乱器の位置、形状、大きさ、振幅を記述するパラメータのベクトルを生成し、SAR画像分類器を誤解させるような攻撃の物理的実行を導く。 実験の結果,従来の手法に比べて位置決め制約下での攻撃成功率が有意に高いことがわかった。

Adversarial attacks have highlighted the vulnerability of classifiers based on machine learning for Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) tasks. An adversarial attack perturbs SAR images of on-ground targets such that the classifiers are misled into making incorrect predictions. However, many existing attacking techniques rely on arbitrary manipulation of SAR images while overlooking the feasibility of executing the attacks on real-world SAR imagery. Instead, adversarial attacks should be able to be implemented by physical actions, for example, placing additional false objects as scatterers around the on-ground target to perturb the SAR image and fool the SAR ATR. In this paper, we propose the On-Target Scatterer Attack (OTSA), a scatterer-based physical adversarial attack. To ensure the feasibility of its physical execution, we enforce a constraint on the positioning of the scatterers. Specifically, we restrict the scatterers to be placed only on the target instead of in the shadow regions or the background. To achieve this, we introduce a positioning score based on Gaussian kernels and formulate an optimization problem for our OTSA attack. Using a gradient ascent method to solve the optimization problem, the OTSA can generate a vector of parameters describing the positions, shapes, sizes and amplitudes of the scatterers to guide the physical execution of the attack that will mislead SAR image classifiers. The experimental results show that our attack obtains significantly higher success rates under the positioning constraint compared with the existing method.
翻訳日:2023-12-06 14:57:14 公開日:2023-12-05
# 基礎モデル表現で特定されるレアギャラクシークラス

Rare Galaxy Classes Identified In Foundation Model Representations ( http://arxiv.org/abs/2312.02910v1 )

ライセンス: Link先を確認
Mike Walmsley, Anna M.M. Scaife(参考訳) 我々は、事前訓練されたモデルの学習された表現内の構造を探索することで、希少で視覚的な銀河集団を特定する。 これらの表現は、事前学習ラベルを予測するのに必要なもの以上のパターンの出現によって銀河を配置することを示している。 我々は、特定の局所パターンを分離するクラスタリングアプローチを設計し、希少で科学的に興味深い形態を持つ銀河群を明らかにする。

We identify rare and visually distinctive galaxy populations by searching for structure within the learned representations of pretrained models. We show that these representations arrange galaxies by appearance in patterns beyond those needed to predict the pretraining labels. We design a clustering approach to isolate specific local patterns, revealing groups of galaxies with rare and scientifically-interesting morphologies.
翻訳日:2023-12-06 14:56:50 公開日:2023-12-05
# スパイラルアームとバーの深層学習セグメンテーション

Deep Learning Segmentation of Spiral Arms and Bars ( http://arxiv.org/abs/2312.02908v1 )

ライセンス: Link先を確認
Mike Walmsley, Ashley Spindler(参考訳) 銀河系スパイラルアームとバーをセグメント化するための最初の深層学習モデルを提案する。 専門家による盲目評価では、現在の自動化手法(99%の評価)と当初のボランティアラベル(79%評価)の両方よりも、予測されたスパイラルアームマスクが好まれる。 専門家は、スパイラルアームマスクを評価の89%で「ほぼ良い」から「完璧」に評価した。 予測されたバーマスクに由来するバーの長さは、専用のクラウドソーシングプロジェクトとよく一致しています。 マスクのピクセル単位での精度は、これまでは不可能でしたが、スパイラルアームとバーの進化に関する新たな研究の土台となるでしょう。

We present the first deep learning model for segmenting galactic spiral arms and bars. In a blinded assessment by expert astronomers, our predicted spiral arm masks are preferred over both current automated methods (99% of evaluations) and our original volunteer labels (79% of evaluations). Experts rated our spiral arm masks as `mostly good' to `perfect' in 89% of evaluations. Bar lengths trivially derived from our predicted bar masks are in excellent agreement with a dedicated crowdsourcing project. The pixelwise precision of our masks, previously impossible at scale, will underpin new research into how spiral arms and bars evolve.
翻訳日:2023-12-06 14:56:43 公開日:2023-12-05
# 低温下におけるダイヤモンド中の窒素空洞中心の共鳴と非共鳴スピン読み出し

Resonant versus non-resonant spin readout of a nitrogen-vacancy center in diamond under cryogenic conditions ( http://arxiv.org/abs/2312.02907v1 )

ライセンス: Link先を確認
Richard Monge, Tom Delord, Gerg\H{o} Thiering, \'Ad\'am Gali, and Carlos A. Meriles(参考訳) この10年は、ダイヤモンドの窒素空白(nv)センターというパラダイムの例のように、メトロロジーの用途にカラーセンターを使用することで爆発的な成長を遂げてきた。 ここでは,低温状態に着目し,スピン選択型狭帯域レーザー励起がNV読み出しに及ぼす影響について検討する。 具体的には,非共鳴(緑色)照明の場合と比較して4倍以上の感度向上を示すが,これは主に読み出しコントラストの増大と光子数の統合によるものである。 また、共鳴励起下での核スピン緩和を利用して14Nホストを分極し、スピン磁気学に有益であることを示す。 これらの結果から, 凝縮物質系, 特に超伝導, 磁性, トポロジカル相を低温で選択的に検出する研究へのNVセンシングの適用の機会が開かれた。

The last decade has seen an explosive growth in the use of color centers for metrology applications, the paradigm example arguably being the nitrogen-vacancy (NV) center in diamond. Here, we focus on the regime of cryogenic temperatures and examine the impact of spin-selective, narrow-band laser excitation on NV readout. Specifically, we demonstrate a more than four-fold improvement in sensitivity compared to that possible with non-resonant (green) illumination, largely due to a boost in readout contrast and integrated photon count. We also leverage nuclear spin relaxation under resonant excitation to polarize the 14N host, which we then prove beneficial for spin magnetometry. These results open opportunities in the application of NV sensing to the investigation of condensed matter systems, particularly those exhibiting superconducting, magnetic, or topological phases selectively present at low temperatures.
翻訳日:2023-12-06 14:56:33 公開日:2023-12-05
# headgas: 3d gaussian splattingによるリアルタイムアニメーション可能な頭部アバター

HeadGaS: Real-Time Animatable Head Avatars via 3D Gaussian Splatting ( http://arxiv.org/abs/2312.02902v1 )

ライセンス: Link先を確認
Helisa Dhamo, Yinyu Nie, Arthur Moreau, Jifei Song, Richard Shaw, Yiren Zhou, Eduardo P\'erez-Pellitero(参考訳) 3Dヘッドアニメーションは、ここ数年で大きな品質改善とランタイム改善を経験しており、特に差別化可能なレンダリングとニューラルラディアンスフィールドの進歩によって強化されている。 リアルタイムレンダリングは、現実世界のアプリケーションにとって非常に望ましい目標です。 本稿では,3次元頭部再構成とアニメーションに3次元ガウスプレート(3DGS)を用いた最初のモデルであるHeadGaSを提案する。 本稿では,パラメトリックヘッドモデルから低次元パラメータを線形にブレンドし,表現依存の最終色と不透明度値を得ることのできる3dgsからの明示表現を学習可能な潜時特徴のベースに拡張するハイブリッドモデルを提案する。 我々は,HeadGaSがリアルタイムのフレームレートを実現し,ベースラインを最大2dB超し,レンダリング速度をx10倍に向上させることを示した。

3D head animation has seen major quality and runtime improvements over the last few years, particularly empowered by the advances in differentiable rendering and neural radiance fields. Real-time rendering is a highly desirable goal for real-world applications. We propose HeadGaS, the first model to use 3D Gaussian Splats (3DGS) for 3D head reconstruction and animation. In this paper we introduce a hybrid model that extends the explicit representation from 3DGS with a base of learnable latent features, which can be linearly blended with low-dimensional parameters from parametric head models to obtain expression-dependent final color and opacity values. We demonstrate that HeadGaS delivers state-of-the-art results in real-time inference frame rates, which surpasses baselines by up to ~2dB, while accelerating rendering speed by over x10.
翻訳日:2023-12-06 14:56:19 公開日:2023-12-05
# テキストストリームマイニング設定におけるコンセプトドリフト適応:包括的レビュー

Concept Drift Adaptation in Text Stream Mining Settings: A Comprehensive Review ( http://arxiv.org/abs/2312.02901v1 )

ライセンス: Link先を確認
Cristiano Mesquita Garcia and Ramon Simoes Abilio and Alessandro Lameiras Koerich and Alceu de Souza Britto Jr. and Jean Paul Barddal(参考訳) インターネットの普及と普及により、人々はレビュー、ソーシャルメディア投稿、ニュース記事など、様々な方法でテキストデータを制作し、普及させてきた。 その結果、多くの研究者が、特にソーシャルメディア投稿がソーシャルセンサーとして機能し、人々の意見や興味などを示すため、テキストデータのパターンの発見に取り組んでいる。 しかしながら、自然言語処理に関するほとんどのタスクは、従来の機械学習メソッドと静的データセットを使用して処理される。 この設定は、現実と一致しない古いデータセットや、時間とともにパフォーマンスが低下する古いモデルなど、いくつかの問題を引き起こす可能性がある。 概念のドリフトは、データ分散とパターンの変化に対応するこれらの問題を強調する別の側面である。 テキストストリームのシナリオでは、高速やデータが順次やってくるといった特性のために、さらに難しい。 さらに、この種のシナリオのモデルは、テキストを限られた時間保存して低メモリ消費することでストリームから学習しながら、前述の制約に従わなければならない。 本研究では,テキストストリームシナリオにおける概念ドリフト適応に関する体系的文献レビューを行った。 適切に定義された基準を考慮し,テキストドリフトカテゴリ,テキストドリフト検出のタイプ,モデル更新機構,宛先ストリームマイニングタスク,テキスト表現の種類,テキスト表現更新機構など,40の論文を選択した。 さらに,ドリフトの可視化とシミュレーションについて検討し,選択した論文で使用した実世界のデータセットをリストアップした。 そこで本研究では,テキストストリームマイニングにおけるドリフト適応の概念を概観的にレビューする。

Due to the advent and increase in the popularity of the Internet, people have been producing and disseminating textual data in several ways, such as reviews, social media posts, and news articles. As a result, numerous researchers have been working on discovering patterns in textual data, especially because social media posts function as social sensors, indicating peoples' opinions, interests, etc. However, most tasks regarding natural language processing are addressed using traditional machine learning methods and static datasets. This setting can lead to several problems, such as an outdated dataset, which may not correspond to reality, and an outdated model, which has its performance degrading over time. Concept drift is another aspect that emphasizes these issues, which corresponds to data distribution and pattern changes. In a text stream scenario, it is even more challenging due to its characteristics, such as the high speed and data arriving sequentially. In addition, models for this type of scenario must adhere to the constraints mentioned above while learning from the stream by storing texts for a limited time and consuming low memory. In this study, we performed a systematic literature review regarding concept drift adaptation in text stream scenarios. Considering well-defined criteria, we selected 40 papers to unravel aspects such as text drift categories, types of text drift detection, model update mechanism, the addressed stream mining tasks, types of text representations, and text representation update mechanism. In addition, we discussed drift visualization and simulation and listed real-world datasets used in the selected papers. Therefore, this paper comprehensively reviews the concept drift adaptation in text stream mining scenarios.
翻訳日:2023-12-06 14:56:02 公開日:2023-12-05
# 仮想サイバーボール課題の具体化に対するナイーブ参加者と経験豊富な社会科学研究者の視点

Perspectives from Naive Participants and Experienced Social Science Researchers on Addressing Embodiment in a Virtual Cyberball Task ( http://arxiv.org/abs/2312.02897v1 )

ライセンス: Link先を確認
Tao Long, Swati Pandita, Andrea Stevenson Won(参考訳) 本稿では,アバターのカスタマイズとユーザからのフィードバックを含む没入型仮想サイバーボールタスクの設計について述べる。 私たちはまずアバターのカスタマイズテンプレートのプロトタイプを作成し、Unity3Dゲームエンジンに組み込まれたCyberballのプロトタイプに追加しました。 次に,サイバーボールに関する知識を持たない5名のナイーブ参加者と,サイバーボールパラダイムを用いた豊富な経験を持つ10名の経験者を対象に,詳細なユーザテストとフィードバックセッションを実施した。 直感的利用のためのデザイン、独創性、現実的体験、ミニマリズムに対するデザイン、という2つのグループの異なる視点を報告する。 参加者の反応は、システム設計の問題がアバターをカスタマイズする際のネガティブな経験にどのように貢献するか、あるいは永続するかに光を当てた。 彼らはまた、バーチャルリアリティーの設計プロセスにおける複数の利害関係者のフィードバックを考慮する価値を示し、将来のサイバーボールのプロトタイプや社会科学研究のためのインタラクティブシステムの設計においてより包括的な視点を示す。

We describe the design of an immersive virtual Cyberball task that included avatar customization, and user feedback on this design. We first created a prototype of an avatar customization template and added it to a Cyberball prototype built in the Unity3D game engine. Then, we conducted in-depth user testing and feedback sessions with 15 Cyberball stakeholders: five naive participants with no prior knowledge of Cyberball and ten experienced researchers with extensive experience using the Cyberball paradigm. We report the divergent perspectives of the two groups on the following design insights; designing for intuitive use, inclusivity, and realistic experiences versus minimalism. Participant responses shed light on how system design problems may contribute to or perpetuate negative experiences when customizing avatars. They also demonstrate the value of considering multiple stakeholders' feedback in the design process for virtual reality, presenting a more comprehensive view in designing future Cyberball prototypes and interactive systems for social science research.
翻訳日:2023-12-06 14:55:38 公開日:2023-12-05
# BenchLMM: 大規模マルチモーダルモデルのクロススタイル視覚能力のベンチマーク

BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal Models ( http://arxiv.org/abs/2312.02896v1 )

ライセンス: Link先を確認
Rizhao Cai, Zirui Song, Dayan Guan, Zhenhao Chen, Xing Luo, Chenyu Yi, Alex Kot(参考訳) GPT-4VやLLaVAのような大型マルチモーダルモデル(LMM)は、一般的な画像スタイルによる視覚的推論において顕著な能力を示している。 しかし、その多様なスタイルシフトに対する強固さは、実用的用途に欠かせないものであり、ほとんど未調査のままである。 本稿では,芸術的なイメージスタイル,イメージセンサスタイル,アプリケーションスタイルの3つのスタイルに対して,LMMの堅牢性を評価するベンチマークであるBenchLMMを提案する。 BenchLMMを用いて、最先端のLMMを包括的に評価し、次のように明らかにする。 1 LMMは、通常、他のスタイルで作業する際に性能劣化を被る。 2) LMMは,共通のスタイルで他のモデルよりも優れており,その優れた性能を他のスタイルで保証しない。 3) LMM の推論能力は LMM に対して,LMM の改善のための多目的かつ訓練不要な手法を提案することによって向上することができる。 4)知的LMMは,形式的変化に直面した際の誤りの原因を解釈することが期待される。 ベンチマークと分析により、よりインテリジェントで汎用的なLMMの開発に新たな光が当てられることを期待しています。

Large Multimodal Models (LMMs) such as GPT-4V and LLaVA have shown remarkable capabilities in visual reasoning with common image styles. However, their robustness against diverse style shifts, crucial for practical applications, remains largely unexplored. In this paper, we propose a new benchmark, BenchLMM, to assess the robustness of LMMs against three different styles: artistic image style, imaging sensor style, and application style, where each style has five sub-styles. Utilizing BenchLMM, we comprehensively evaluate state-of-the-art LMMs and reveal: 1) LMMs generally suffer performance degradation when working with other styles; 2) An LMM performs better than another model in common style does not guarantee its superior performance in other styles; 3) LMMs' reasoning capability can be enhanced by prompting LMMs to predict the style first, based on which we propose a versatile and training-free method for improving LMMs; 4) An intelligent LMM is expected to interpret the causes of its errors when facing stylistic variations. We hope that our benchmark and analysis can shed new light on developing more intelligent and versatile LMMs.
翻訳日:2023-12-06 14:55:17 公開日:2023-12-05
# 単一電荷ダイナミクスの量子スピンプローブ

Quantum spin probe of single charge dynamics ( http://arxiv.org/abs/2312.02894v1 )

ライセンス: Link先を確認
Jonathan C. Marcks, Mykyta Onizhuk, Yu-Xin Wang, Yizhi Zhu, Yu Jin, Benjamin S. Soloway, Masaya Fukami, Nazar Delegan, F. Joseph Heremans, Aashish A. Clerk, Giulia Galli, David D. Awschalom(参考訳) 半導体の電子欠陥は多くの新興量子技術の基盤となっている。 固体プラットフォームにおける欠陥スピンと電荷のダイナミクスを理解することはこれらの構成要素を開発する上で重要であるが、高感度リードアウト技術がないため、多くの欠陥センターは単一粒子レベルでのアクセスが困難である。 光学的に不活性なスピン欠陥を探索する方法は、原子スケールで半導体物理学を明らかにし、新しい量子系の研究を進める。 欠陥中心の電荷状態とスピン状態の間に本質的な相関を利用して欠陥電荷集団と定常スピン集団のダイナミクスを測定し、近傍の光学活性量子ビットと単相レベルで読み出しを行う。 ダイヤモンド中の単一暗い欠陥のイオン化と電荷緩和を直接測定するが、従来のコヒーレンスに基づく量子センシングではアクセスできない。 これらのスピン共鳴に基づく手法は、関連する物質の他の固体欠陥系に一般化する。

Electronic defects in semiconductors form the basis for many emerging quantum technologies. Understanding defect spin and charge dynamics in solid state platforms is crucial to developing these building blocks, but many defect centers are difficult to access at the single-particle level due to the lack of sensitive readout techniques. A method for probing optically inactive spin defects would reveal semiconductor physics at the atomic scale and advance the study of new quantum systems. We exploit the intrinsic correlation between the charge and spin states of defect centers to measure defect charge populations and dynamics through the steady-state spin population, read-out at the single-defect level with a nearby optically active qubit. We directly measure ionization and charge relaxation of single dark defects in diamond, effects we do not have access to with traditional coherence-based quantum sensing. These spin resonance-based methods generalize to other solid state defect systems in relevant materials.
翻訳日:2023-12-06 14:55:01 公開日:2023-12-05
# mvhumannet:マルチビューの毎日のドレッシングの大規模データセット

MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures ( http://arxiv.org/abs/2312.02963v1 )

ライセンス: Link先を確認
Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui and Xiaoguang Han(参考訳) この時代には、大規模な言語モデルとテキストから画像へのモデルの成功は、大規模データセットの推進力に起因する可能性がある。 しかし、3Dビジョンの領域では、ObjaverseやMVImgNetのような大規模な合成および現実的なオブジェクトデータに基づいて訓練されたモデルで顕著な進歩が見られたが、大規模な人間のデータセットが欠如していることもあって、人間中心のタスクの領域では同様の進歩は見られていない。 大規模な高品質な3Dデータを取得する上で大きな課題があるため、既存の3Dキャプチャーのデータセットは中規模のままである。 このギャップを埋めるため、MVHumanNetは4,500人の人物の多視点行動シーケンスからなるデータセットである。 我々の研究の主な焦点は、多視点のヒューマンキャプチャシステムを用いて、多様なアイデンティティと日常的な衣服を特徴とする、スケーラブルなデータ収集を容易にする人的データ収集である。 私たちのデータセットには、人間のマスク、カメラパラメータ、2dおよび3dキーポイント、smpl/smplxパラメータ、対応するテキスト記述を含む、9000の日用服、6万のモーションシーケンスと6500万のフレームが含まれています。 2次元および3次元の視覚課題におけるmvhumannetの可能性を探るため,視覚に一貫性のある行動認識,人間のnerf再構成,テキスト駆動型映像生成,および2次元視無拘束人間画像および3次元アバター生成に関するパイロット研究を行った。 広範な実験によってmvhumannetが提供するスケールによって、パフォーマンス改善と効果的なアプリケーションが実現されている。 現在の最大規模の3dヒューマンデータセットとして、アノテーション付きmvhumannetデータのリリースは、大規模な3d人間中心タスクの領域におけるさらなるイノベーションを促進することを願っている。

In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while remarkable progress has been made with models trained on large-scale synthetic and real-captured object data like Objaverse and MVImgNet, a similar level of progress has not been observed in the domain of human-centric tasks partially due to the lack of a large-scale human dataset. Existing datasets of high-fidelity 3D human capture continue to be mid-sized due to the significant challenges in acquiring large-scale high-quality 3D human data. To bridge this gap, we present MVHumanNet, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using a multi-view human capture system, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot studies on view-consistent action recognition, human NeRF reconstruction, text-driven view-unconstrained human image generation, as well as 2D view-unconstrained human image and 3D avatar generation. Extensive experiments demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet data with annotations will foster further innovations in the domain of 3D human-centric tasks at scale.
翻訳日:2023-12-06 14:49:17 公開日:2023-12-05
# マヨラナ境界状態の検証可能なシグネチャとしての表面誘起奇スピン三重項超伝導

Surface induced odd-frequency spin-triplet superconductivity as a veritable signature of Majorana bound states ( http://arxiv.org/abs/2312.02961v1 )

ライセンス: Link先を確認
Subhajit Pal, Colin Benjamin(参考訳) 我々は、表面誘起奇数周波数(odd-$\nu$)スピントリップ超伝導対は、ジョセフソン・ノダル$p$-wave超伝導体(p_{x}$)-スピンフッパー(SF)-nodal$p$-wave超伝導体(p_{x}$)接合におけるマヨナ境界状態(MBS)の検証可能なシグネチャと予測できる。 注目すべきは、$p_{x}$-SF-$p_{x}$ Josephson 接合において、3つの異なる位相が出現する: MBS を特徴とする位相位相、MBS を含まない位相位相、および MBS を含まない自明な位相位相である。 MBSが現れると、表面奇数-$\nu$スピントリップレットペアリングはトポロジカルな状態にのみ誘導される。 対照的に、表面誘起の偶数周波数 (even-$\nu$) スピン・トリップレット対はMBSの有無にかかわらず有限である。 本研究は, 誘導表面の奇数なスピン三重項超伝導の観察を通じて, 自明な位相とmbsの位相的位相が欠如している位相相を区別するための潜在的な手段を提供する。

We predict surface-induced odd-frequency (odd-$\nu$) spin-triplet superconducting pairing can be a veritable signature of Majorana bound states (MBS) in a Josephson nodal $p$-wave superconductor ($p_{x}$)-spin flipper (SF)-nodal $p$-wave superconductor ($p_{x}$) junction. Remarkably, in a $p_{x}$-SF-$p_{x}$ Josephson junction, three distinct phases emerge: the topological phase featuring MBS, the topological phase without MBS, and the trivial phase devoid of MBS. When MBS appear, surface odd-$\nu$ spin-triplet pairing is induced only in the topological regime. In contrast, surface-induced even-frequency (even-$\nu$) spin-triplet pairing is finite regardless of the existence of MBS. Our study offers a potential means for distinguishing the topological phase featuring MBS from both the trivial phase as well as the topological phase devoid of MBS, primarily through the observation of induced surface odd-$\nu$ spin triplet superconductivity.
翻訳日:2023-12-06 14:48:42 公開日:2023-12-05
# 医療aiモデルにおけるアルゴリズムバイアスの検出

Detecting algorithmic bias in medical AI-models ( http://arxiv.org/abs/2312.02959v1 )

ライセンス: Link先を確認
Jeffrey Smith, Andre Holder, Rishikesan Kamaleswaran, Yao Xie(参考訳) 機械学習と人工知能に基づく医療意思決定支援システムの普及に伴い、これらのシステムが公平かつ公平な方法で患者結果を提供するようにすることが重要である。 本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。 本手法は,医学・AIモデル,特に敗血症予測の文脈における潜在的なバイアスを,分類・回帰木(CART)アルゴリズムを用いて効率的に同定する。 本手法は,一連の合成データ実験を行い,制御された設定におけるバイアス領域を正確に推定する能力を示す。 この概念の有効性は、ジョージア州アトランタにあるグレイディ記念病院の電子医療記録を用いてさらに検証される。 これらのテストは、AIベースの医療決定における公平性と公平性を保証する重要な手段として機能する、臨床環境における我々の戦略の実践的実装を実証する。

With the growing prevalence of machine learning and artificial intelligence-based medical decision support systems, it is equally important to ensure that these systems provide patient outcomes in a fair and equitable fashion. This paper presents an innovative framework for detecting areas of algorithmic bias in medical-AI decision support systems. Our approach efficiently identifies potential biases in medical-AI models, specifically in the context of sepsis prediction, by employing the Classification and Regression Trees (CART) algorithm. We verify our methodology by conducting a series of synthetic data experiments, showcasing its ability to estimate areas of bias in controlled settings precisely. The effectiveness of the concept is further validated by experiments using electronic medical records from Grady Memorial Hospital in Atlanta, Georgia. These tests demonstrate the practical implementation of our strategy in a clinical environment, where it can function as a vital instrument for guaranteeing fairness and equity in AI-based medical decisions.
翻訳日:2023-12-06 14:48:18 公開日:2023-12-05
# 全員の分類 : 公平な認識のための地理非依存モデルの構築

Classification for everyone : Building geography agnostic models for fairer recognition ( http://arxiv.org/abs/2312.02957v1 )

ライセンス: Link先を確認
Akshat Jindal, Shreya Singh, Soham Gadgil(参考訳) 本稿では,美術画像分類モデルの現状に現われる地理的バイアスを軽減するために,異なる手法を解析する。 最初にこのバイアスを2つのデータセット – The Dollar Street DatasetとImageNet – に,位置情報を備えたイメージを使用して定量的に提示する。 そして,このバイアスを軽減するために異なる手法を提案する。 最後に,画像の地理的位置に対するロバスト性を高めるための様々な手法の有効性について検討した。

In this paper, we analyze different methods to mitigate inherent geographical biases present in state of the art image classification models. We first quantitatively present this bias in two datasets - The Dollar Street Dataset and ImageNet, using images with location information. We then present different methods which can be employed to reduce this bias. Finally, we analyze the effectiveness of the different techniques on making these models more robust to geographical locations of the images.
翻訳日:2023-12-06 14:48:04 公開日:2023-12-05
# Choroidalyzer:光コヒーレンストモグラフィーにおけるコロイド解析のためのオープンソースのエンドツーエンドパイプライン

Choroidalyzer: An open-source, end-to-end pipeline for choroidal analysis in optical coherence tomography ( http://arxiv.org/abs/2312.02956v1 )

ライセンス: Link先を確認
Justin Engelmann, Jamie Burke, Charlene Hamid, Megan Reid-Schachter, Dan Pugh, Neeraj Dhaun, Diana Moukaddem, Lyle Gray, Niall Strang, Paul McGraw, Amos Storkey, Paul J. Steptoe, Stuart King, Tom MacGillivray, Miguel O. Bernabeu, Ian J.C. MacCormick(参考訳) 目的:コロイド領域,血管,胎児を分断し,脈絡膜厚,面積,血管指標を抽出するオープンソースのエンドツーエンドパイプラインであるChoroidalyzerを開発すること。 方法: 5,600 OCT B-Scans (233例, 全身性疾患コホート6例, デバイスタイプ3例, メーカ2例) を用いた。 そこで我々は,不正確なセグメンテーションを手動で修正し,手動で手動で位置をアノテートした。 u-net 深層学習モデルを用いて,fovea 中心領域における脈絡膜厚,面積,血管指標の算出を行った。 内部および外部テストセットにおけるセグメンテーション合意(AUC,Dice)とコロイドメトリクス合意(Pearson,Spearman,平均絶対誤差(MAE))を分析した。 外部テスト画像の小さなサブセット上でchoroidalyzerを2つの手動グレーダと比較し,エラーの事例を検討した。 結果: Choroidalyzer は標準のラップトップで画像当たり0.299秒を要し、優れた領域(Dice: internal 0.9789, external 0.9749)、非常に優れた血管分割性能(Dice: internal 0.8817, external 0.8703)、優れた焦点位置予測(MAE: internal 3.9 pixels, external 3.4 pixels)を達成した。 厚み, 面積, 血管指標では, ピアソン相関は0.9754, 0.9815, 0.8285 (内部) / 0.9831, 0.9779, 0.7948 (外部) であった。 Choroidalyzerのグレーダーとの合意は、すべての指標のグレーダー間合意に匹敵するものだった。 結論: Choroidalyzerはオープンソースのエンドツーエンドパイプラインで、脈絡膜を正確に分断し、厚さ、面積、血管インデックスを確実に抽出する。 特に脈絡血管のセグメンテーションは困難で主観的な作業であり、Choroidalyzerのような完全自動の手法は客観性と標準化をもたらす。

Purpose: To develop Choroidalyzer, an open-source, end-to-end pipeline for segmenting the choroid region, vessels, and fovea, and deriving choroidal thickness, area, and vascular index. Methods: We used 5,600 OCT B-scans (233 subjects, 6 systemic disease cohorts, 3 device types, 2 manufacturers). To generate region and vessel ground-truths, we used state-of-the-art automatic methods following manual correction of inaccurate segmentations, with foveal positions manually annotated. We trained a U-Net deep-learning model to detect the region, vessels, and fovea to calculate choroid thickness, area, and vascular index in a fovea-centred region of interest. We analysed segmentation agreement (AUC, Dice) and choroid metrics agreement (Pearson, Spearman, mean absolute error (MAE)) in internal and external test sets. We compared Choroidalyzer to two manual graders on a small subset of external test images and examined cases of high error. Results: Choroidalyzer took 0.299 seconds per image on a standard laptop and achieved excellent region (Dice: internal 0.9789, external 0.9749), very good vessel segmentation performance (Dice: internal 0.8817, external 0.8703) and excellent fovea location prediction (MAE: internal 3.9 pixels, external 3.4 pixels). For thickness, area, and vascular index, Pearson correlations were 0.9754, 0.9815, and 0.8285 (internal) / 0.9831, 0.9779, 0.7948 (external), respectively (all p<0.0001). Choroidalyzer's agreement with graders was comparable to the inter-grader agreement across all metrics. Conclusions: Choroidalyzer is an open-source, end-to-end pipeline that accurately segments the choroid and reliably extracts thickness, area, and vascular index. Especially choroidal vessel segmentation is a difficult and subjective task, and fully-automatic methods like Choroidalyzer could provide objectivity and standardisation.
翻訳日:2023-12-06 14:47:55 公開日:2023-12-05
# LLaVA-Grounding:大規模マルチモーダルモデルを用いた接地型ビジュアルチャット

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models ( http://arxiv.org/abs/2312.02949v1 )

ライセンス: Link先を確認
Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang(参考訳) 近年の大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚チャットにおける基盤機能の重要性がますます認識されている。 lmmが接地をサポートするための最近の取り組みにもかかわらず、接地とチャットの能力は通常別々であり、接地を求めるとチャットのパフォーマンスは劇的に低下する。 問題は、gvc(grounded visual chat)用のデータセットがないことだ。 既存のグラウンドデータセットは短いキャプションのみを含む。 この問題に対処するため、私たちは、接地とチャット機能の組み合わせを可能にするgvcデータを作成しました。 GVCの性能をよりよく評価するために、Grounding-Benchというベンチマークを導入しました。 さらに,セグメンテーションモデルと言語モデルとの接続により,GVCと様々な視覚的プロンプトをサポートするモデル設計を提案する。 実験の結果,本モデルはグラウンド・ベンチにおける他のLMMよりも優れていた。 さらに,我々のモデルは,RefCOCO/+/gやFlickr30K Entitiesといった古典的なグラウンドベンチマーク上での競合性能を実現している。 私たちのコードはhttps://github.com/UX-Decoder/LLaVA-Groundingでリリースされます。

With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
翻訳日:2023-12-06 14:47:09 公開日:2023-12-05
# 騒音下における次元低減ハイパーパラメータの校正

Calibrating dimension reduction hyperparameters in the presence of noise ( http://arxiv.org/abs/2312.02946v1 )

ライセンス: Link先を確認
Justin Lin and Julia Fukuyama(参考訳) 次元削減ツールの目的は、高次元データの低次元表現を構築することである。 これらのツールは、ノイズ低減、可視化、計算コストの削減など、様々な理由で使用されている。 しかし、他のモデリング問題でよく議論されている基本的な問題があるが、次元減少の文献ではほとんど完全に無視されている。 信号とノイズの組み合わせとしてデータを解釈する場合、先行研究は、データ全体、すなわち信号とノイズの両方をキャプチャする能力について、次元の縮小テクニックを判断する。 他のモデリング問題の文脈では、オーバーフィッティングと戦うために特徴選択、クロスバリデーション、正規化といった手法が用いられるが、次元縮小を行う際にはそのような予防措置は取らない。 本稿では,ノイズの存在下での次元減少問題をモデル化し,t-SNE と UMAP を適用した場合,近隣住民の役割の複雑度と多様さを探索する枠組みを提案する。 また、ノイズの存在下での難易度や隣人の数を調整するためのワークフローも提示する。

The goal of dimension reduction tools is to construct a low-dimensional representation of high-dimensional data. These tools are employed for a variety of reasons such as noise reduction, visualization, and to lower computational costs. However, there is a fundamental issue that is highly discussed in other modeling problems, but almost entirely ignored in the dimension reduction literature: overfitting. If we interpret data as a combination of signal and noise, prior works judge dimension reduction techniques on their ability to capture the entirety of the data, i.e. both the signal and the noise. In the context of other modeling problems, techniques such as feature-selection, cross-validation, and regularization are employed to combat overfitting, but no such precautions are taken when performing dimension reduction. In this paper, we present a framework that models dimension reduction problems in the presence of noise and use this framework to explore the role perplexity and number of neighbors play in overfitting data when applying t-SNE and UMAP. We also present a workflow others may use to calibrate perplexity or number of neighbors in the presence of noise.
翻訳日:2023-12-06 14:46:51 公開日:2023-12-05
# 高速CT解剖学的局在法

Fast CT anatomic localization algorithm ( http://arxiv.org/abs/2312.02941v1 )

ライセンス: Link先を確認
Amit Oved(参考訳) CTスキャンにおける各スライスの位置を自動的に決定することは、視覚検査と自動解析のための関心領域の高速検索を可能にする基本的かつ強力な機能である。 スライスレベルで機能する従来のローカライズアプローチとは異なり、スライスのほんの一部だけを直接ローカライズし、スライスインデックスをそれらのスライスに基づいて推定軸解剖学的位置にマッピングする線形モデルに適合させる。 このモデルはスキャンの全てのスライスに軸方向の位置を割り当てるために使われる。 このアプローチは計算効率が良く、1スキャンあたり1秒未満の典型的な処理時間(サイズに関係なく)、正確で、典型的な中央値の局所化誤差は1cmであり、異なるノイズ源、イメージングプロトコル、金属誘起アーティファクト、解剖学的変形などに対して堅牢である。 このアプローチのもうひとつの重要な要素は、マッピングの信頼性スコアの導入です。 このスコアは、異常スキャンの稀なケースにおいて、信頼できない局所化結果の拒絶を可能にするフェールセーフメカニズムとして機能する。 本アルゴリズムは, 局所化精度の観点から, 新たな技術結果を設定する。 また、発行された全ての処理時間に対して、処理時間の2桁の減少も提供する。 様々なスキャン解像度、スキャンプロトコル、患者向き、強力なアーティファクト、様々な変形と異常に不変であるように設計された。 さらに、私たちのアルゴリズムは、頭から足まで体全体を支え、特定の解剖学的領域に限定されない、私たちの知る限りでは初めてのものです。 このアルゴリズムは数千のスキャンでテストされ、多くのアプリケーションの前処理段階として非常に信頼性が高く有用なことが証明された。

Automatically determining the position of every slice in a CT scan is a basic yet powerful capability allowing fast retrieval of region of interest for visual inspection and automated analysis. Unlike conventional localization approaches which work at the slice level, we directly localize only a fraction of the slices and and then fit a linear model which maps slice index to its estimated axial anatomical position based on those slices. The model is then used to assign axial position to every slices of the scan. This approach proves to be both computationally efficient, with a typical processing time of less than a second per scan (regardless of its size), accurate, with a typical median localization error of 1 cm, and robust to different noise sources, imaging protocols, metal induced artifacts, anatomical deformations etc. Another key element of our approach is the introduction of a mapping confidence score. This score acts as a fail safe mechanism which allows a rejection of unreliable localization results in rare cases of anomalous scans. Our algorithm sets new State Of The Art results in terms of localization accuracy. It also offers a decrease of two orders of magnitude in processing time with respect to all published processing times. It was designed to be invariant to various scan resolutions, scan protocols, patient orientations, strong artifacts and various deformations and abnormalities. Additionally, our algorithm is the first one to the best of our knowledge which supports the entire body from head to feet and is not confined to specific anatomical region. This algorithm was tested on thousands of scans and proves to be very reliable and useful as a preprocessing stage for many applications.
翻訳日:2023-12-06 14:46:33 公開日:2023-12-05
# 一般化デュアルユニタリ回路における量子情報拡散

Quantum information spreading in generalised dual-unitary circuits ( http://arxiv.org/abs/2312.02940v1 )

ライセンス: Link先を確認
Alessandro Foligno, Pavel Kos and Bruno Bertini(参考訳) 本研究では,デュアルユニタリクラスを一般化した最近導入されたブリックワーク量子回路群における量子情報の拡散について検討する。 これらの回路は時間的にユニタリであり、空間力学は制限された部分空間でのみユニタリである。 まず, 局所演算子は, 二重単位回路のように光速で拡散し, 蝶の速度は回路の幾何学的に許容される最大値を取ることを示す。 すると、エンタングルメントの広がりは相反する初期状態の族(実際には双対ユニタリ回路の相同な族の拡張)に対しても正確に特徴づけられることが証明され、漸近的エンタングルメントの傾きはr\'enyi指数に再び独立であることが証明される。 しかし、注目すべきは、絡み合い速度が1より総じて小さいことである。 これらの特性を用いて、回路内の絡み合い膜に対する閉形式表現を求める。

We study the spreading of quantum information in a recently introduced family of brickwork quantum circuits that generalises the dual-unitary class. These circuits are unitary in time, while their spatial dynamics is unitary only in a restricted subspace. First, we show that local operators spread at the speed of light as in dual-unitary circuits, i.e., the butterfly velocity takes the maximal value allowed by the geometry of the circuit. Then, we prove that the entanglement spreading can still be characterised exactly for a family of compatible initial states (in fact, for an extension of the compatible family of dual-unitary circuits) and that the asymptotic entanglement slope is again independent on the R\'enyi index. Remarkably, however, we find that the entanglement velocity is generically smaller than one. We use these properties to find a closed-form expression for the entanglement membrane in these circuits.
翻訳日:2023-12-06 14:46:04 公開日:2023-12-05
# drag-a-video:ポイントベースインタラクションによる非剛性ビデオ編集

Drag-A-Video: Non-rigid Video Editing with Point-based Interaction ( http://arxiv.org/abs/2312.02936v1 )

ライセンス: Link先を確認
Yao Teng, Enze Xie, Yue Wu, Haoyu Han, Zhenguo Li and Xihui Liu(参考訳) ビデオ編集は、空間次元と時間次元の両方でビデオを操作する必要がある難しい作業である。 既存のビデオ編集方法は、主にビデオ内のオブジェクトの外観やスタイルを変更することに焦点を当て、その構造は変わらない。 しかしながら、ユーザが対話的に最初のフレーム上の任意のインスタンスのポイントを 'drag'' して、常に変形した他のフレームでターゲットポイントに正確に到達できるような方法が存在しない。 本稿では,Drag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散方式を提案する。 本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。 そして,入力を点集合に変換し,これらの集合をフレーム間で伝播させる。 映像の内容を正確に修正するために,映像の特徴をアップデートし,遅延オフセットを導入し,複数のデノライゼーション時間ステップでこの更新を実現するために,新たな映像レベルの動作監督を行う。 本稿では,ハンドル点集合内の点の動きを調整するための時間一貫性のある点追跡モジュールを提案する。 本手法の有効性と柔軟性を各種ビデオで実証する。 私たちの仕事のWebサイトはこちらで入手できる。

Video editing is a challenging task that requires manipulating videos on both the spatial and temporal dimensions. Existing methods for video editing mainly focus on changing the appearance or style of the objects in the video, while keeping their structures unchanged. However, there is no existing method that allows users to interactively ``drag'' any points of instances on the first frame to precisely reach the target points with other frames consistently deformed. In this paper, we propose a new diffusion-based method for interactive point-based video manipulation, called Drag-A-Video. Our method allows users to click pairs of handle points and target points as well as masks on the first frame of an input video. Then, our method transforms the inputs into point sets and propagates these sets across frames. To precisely modify the contents of the video, we employ a new video-level motion supervision to update the features of the video and introduce the latent offsets to achieve this update at multiple denoising timesteps. We propose a temporal-consistent point tracking module to coordinate the movement of the points in the handle point sets. We demonstrate the effectiveness and flexibility of our method on various videos. The website of our work is available here: https://drag-a-video.github.io/.
翻訳日:2023-12-06 14:45:47 公開日:2023-12-05
# WoVoGen: 制御可能なマルチカメラ駆動シーン生成のための世界ボリューム対応拡散

WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation ( http://arxiv.org/abs/2312.02934v1 )

ライセンス: Link先を確認
Jiachen Lu, Ze Huang, Jiahui Zhang, Zeyu Yang, Li Zhang(参考訳) マルチカメラストリートビュービデオの生成は、広範囲で多様なデータに対する緊急の要求に対処するため、自動運転データセットの増大に不可欠である。 多様性の限界と照明条件の取り扱いの難しさから、従来のレンダリングベースの手法は拡散ベースの手法に取って代わられつつある。 しかし、拡散法における重要な課題は、生成したセンサデータが世界内一貫性とセンサ間コヒーレンスの両方を維持することである。 これらの課題に対処するため,新たな世界ボリュームを組み合わせ,WoVoGen(World Volume-aware Multi-camera Driving Scene Generator)を提案する。 このシステムは4dワールドボリュームをビデオ生成の基礎要素として利用するよう特別に設計されている。 私たちのモデルは2つの異なるフェーズで動作します。 (i)車両制御系列に基づく将来の4次元時間世界容積を想定すること、及び (ii)この4dテンポラルワールドボリュームとセンサ相互接続性から得られたマルチカメラビデオの生成。 4dワールドボリュームの導入により、wovogenは車両制御入力に応じて高品質なストリートビュービデオを生成するだけでなく、シーン編集作業も容易になる。

Generating multi-camera street-view videos is critical for augmenting autonomous driving datasets, addressing the urgent demand for extensive and varied data. Due to the limitations in diversity and challenges in handling lighting conditions, traditional rendering-based methods are increasingly being supplanted by diffusion-based methods. However, a significant challenge in diffusion-based methods is ensuring that the generated sensor data preserve both intra-world consistency and inter-sensor coherence. To address these challenges, we combine an additional explicit world volume and propose the World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system is specifically designed to leverage 4D world volume as a foundational element for video generation. Our model operates in two distinct phases: (i) envisioning the future 4D temporal world volume based on vehicle control sequences, and (ii) generating multi-camera videos, informed by this envisioned 4D temporal world volume and sensor interconnectivity. The incorporation of the 4D world volume empowers WoVoGen not only to generate high-quality street-view videos in response to vehicle control inputs but also to facilitate scene editing tasks.
翻訳日:2023-12-06 14:45:26 公開日:2023-12-05
# WhisBERT: 1億ワードのマルチモーダルテキストオーディオ言語モデリング

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words ( http://arxiv.org/abs/2312.02931v1 )

ライセンス: Link先を確認
Lukas Wolf, Klemen Kotar, Greta Tuckute, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt(参考訳) 入力の複数のモダリティのトレーニングは、言語モデルの能力を高めることができる。 ここでは,このような訓練制度が,これらのシステムの品質と効率を向上できるかどうかを問う。 FLAVA \citep{singh_flava_2022}のテキストイメージアプローチに触発されたWhisbertを紹介する。 babylm \citep{warstadt2023papers} のガイドラインに従って、ウィスバートに1億語と対応する音声からなるデータセットを、人々の発話データセットである \citep{galvez_peoples_2021} から事前学習させます。 マルチモダリティの影響を評価するために,テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較する。 我々は、Whisbertがマルチモーダルマスクモデルでうまく機能し、ほとんどのベンチマークタスクにおいてBabylmベースラインを上回りながら、その複雑な目的を最適化し、テキストのみのWhisbertベースラインを上回ります。

Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA \citep{singh_flava_2022}. In accordance with Babylm \citep{warstadt2023papers} guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset \citep{galvez_peoples_2021}. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
翻訳日:2023-12-06 14:45:05 公開日:2023-12-05
# クエンチ量子ガス中の電荷のフルカウント統計

Full Counting Statistics of Charge in Quenched Quantum Gases ( http://arxiv.org/abs/2312.02929v1 )

ライセンス: Link先を確認
David X. Horvath and Colin Rylands(参考訳) 対称性によって制約されない限り、量子系における観測可能な値の測定は、全計数統計にエンコードされた値の分布を返す。 この分布の平均値は系の特定の性質を決定するのに重要であるが、全分布は普遍的な挙動を示すこともできる。 本稿では,平衡から遠く離れている1次元相互作用ボースおよびフェルミ気体における粒子数の全計数統計について検討する。 特に、ボース・アインシュタイン凝縮初期状態からクエンチされたリーブ・リンガーとガウディン・ヤンモデルの時間発展を考察し、サブシステム内の粒子数の全カウント統計を計算する。 初期状態および長時間における電荷のスケールした積は単純に関連しており、特に後者はモデルパラメータとは独立であることを示す。 準粒子図を用いて、累積のフルタイム進化を求め、それらの終点が固定されているにもかかわらず、有限時間ダイナミクスはモデルパラメータに強く依存する。 続いて、スケールド累積生成関数を構築し、これを用いて、異なる非自明かつ非ガウス的揺らぎと大きな偏差を示すことが示される長時間の制限電荷確率分布を決定する。

Unless constrained by symmetry, measurement of an observable in a quantum system returns a distribution of values which are encoded in the full counting statistics. While the mean value of this distribution is important for determining certain properties of a system, the full distribution can also exhibit universal behavior. In this paper we study the full counting statistics of particle number in one dimensional interacting Bose and Fermi gases which have been quenched far from equilibrium. In particular we consider the time evolution of the Lieb-Liniger and Gaudin-Yang models quenched from a Bose-Einstein condensate initial state and calculate the full counting statistics of the particle number within a subsystem. We show that the scaled cumulants of the charge in the initial state and at long times are simply related and in particular the latter are independent of the model parameters. Using the quasi-particle picture we obtain the full time evolution of the cumulants and find that although their endpoints are fixed, the finite time dynamics depends strongly on the model parameters. We go on to construct the scaled cumulant generating functions and from this determine the limiting charge probability distributions at long time which are shown to exhibit distinct non-trivial and non-Gaussian fluctuations and large deviations.
翻訳日:2023-12-06 14:44:43 公開日:2023-12-05
# LivePhoto:テキスト誘導モーションコントロールによるリアルイメージアニメーション

LivePhoto: Real Image Animation with Text-guided Motion Control ( http://arxiv.org/abs/2312.02928v1 )

ライセンス: Link先を確認
Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao(参考訳) 近年のテキスト・ビデオ生成の進歩にもかかわらず、既存の研究は通常、合成ビデオにおける空間的内容だけでなく時間的動きもテキストの制御下にあるという問題を見逃している。 このような課題に対して,本研究はLivePhotoという,ユーザが興味を抱く画像をテキスト記述でアニメーションできる実用的なシステムを提案する。 まず,画像生成装置(安定拡散)が画像をさらに入力として取り出すのに役立つ強固なベースラインを確立する。 次に,改良されたジェネレータに時間モデリングのためのモーションモジュールを装備し,テキストと動作のリンクを改善するための注意深く設計されたトレーニングパイプラインを提案する。 特に,(1)テキストが大まかな動き(例えば,移動速度によらず)しか記述できないこと,(2)テキストが内容と動作記述の両方を含む可能性があることを考慮すると,動き強度推定モジュールとテキスト重み付けモジュールを導入して,テキスト間マッピングの曖昧さを低減する。 実験的な証拠は、我々のアプローチが動きに関連するテキストの指示を、アクション、カメラの動き、さらには薄い空気(例えば、空のガラスに水を注ぐなど)から新しいコンテンツを合成するビデオにうまくデコードできることを示している。 興味深いことに、提案したインテンシティ学習機構により、ビデオのカスタマイズのためのテキスト以外に、ユーザに対して追加の制御信号(つまり、モーションインテンシティ)を提供する。

Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.
翻訳日:2023-12-06 14:44:23 公開日:2023-12-05
# マスレスディラック場理論における2つの不連続区間の計算可能交叉負性度の対称性分解

Symmetry resolution of the computable cross-norm negativity of two disjoint intervals in the massless Dirac field theory ( http://arxiv.org/abs/2312.02926v1 )

ライセンス: Link先を確認
Andrea Bruno, Filiberto Ares, Sara Murciano, Pasquale Calabrese(参考訳) 量子場理論の混合状態における絡み合いは、最近導入されたネガティビティを用いて、クロス計算可能なノルムあるいは再定義(ccnr)の基準を用いて記述できる。 質量を持たないディラックフェルミオン場理論の基底状態における2つの不連続区間の対称性分解について検討し、隣接区間の場合の以前の結果を拡張する。 レプリカのトリックを適用することで、この問題は沸騰し、再帰行列の荷電モーメントを計算する。 2つの不連続区間に対して、それらは非収縮性荷電ループを持つトーラス上の理論の分配関数に対応することを示す。 このことは、複製トリックによって生成されるリーマン面がより高い属を持つ部分転移に基づく負性よりも大きな優位性を与える。 この結果から, 対称解法CCNR負性度の解析式を導出し, レプリカ限界の実施が可能となった。 さらに、これらの表現は、還元密度行列の演算子の絡み合いや反射エントロピーのような他の関連する量の対称性分解も提供する。

We investigate how entanglement in the mixed state of a quantum field theory can be described using the cross-computable norm or realignment (CCNR) criterion, employing a recently introduced negativity. We study its symmetry resolution for two disjoint intervals in the ground state of the massless Dirac fermion field theory, extending previous results for the case of adjacent intervals. By applying the replica trick, this problem boils down to compute the charged moments of the realignment matrix. We show that, for two disjoint intervals, they correspond to the partition function of the theory on a torus with a non-contractible charged loop. This confers a great advantage compared to the negativity based on the partial transposition, for which the Riemann surfaces generated by the replica trick have higher genus. This result empowers us to carry out the replica limit, yielding analytic expressions for the symmetry-resolved CCNR negativity. Furthermore, these expressions provide also the symmetry decomposition of other related quantities such as the operator entanglement of the reduced density matrix or the reflected entropy.
翻訳日:2023-12-06 14:43:56 公開日:2023-12-05
# 銅酸化物中の高温超伝導のフェシュバッハ仮説

Feshbach hypothesis of high-Tc superconductivity in cuprates ( http://arxiv.org/abs/2312.02982v1 )

ライセンス: Link先を確認
Lukas Homeier and Hannah Lange and Eugene Demler and Annabelle Bohrdt and Fabian Grusdt(参考訳) 境界状態の出現に伴う共鳴相互作用は、近藤物理学、BEC-BCSクロスオーバーから、超低温原子または2D半導体におけるフェシュバッハ共鳴におけるチューナブル相互作用まで、現代の多体物理学の基盤の1つである。 ここではフェルミ・ハバード型モデルにおける強いペアリングの起源に関するフェシュバッハの視点を示す。 ドープモット絶縁体における電荷キャリア間の相互作用を理論的に解析し、近共振2チャンネル散乱問題からモデル化し、カップレートの確立した現象論と整合して強いペアリングを支援する$d_{x^2-y^2}$チャネルにおけるフェシュバッハ型相互作用の強い証拠を見つける。 ホールドープカップレートの実験的および数値的な結果から、これらの系にバイポーラロン特性を持つ2つのホールの光、長寿命、低エネルギー励起状態の存在を予想することができ、これにより、BEC-BCSクロスオーバーシナリオのように、強いアトラクションを含む高温超伝導の理論の顕微鏡的基礎を提供することができる。 この理論を直接テストにするために、一致角分解光電子分光(carpes)、対トンネル測定、あるいはポンププローブ実験を推奨する。 我々が提案する創発的フェッシュバッハ共鳴は、最近提唱された二層ニッケル酸塩における他のドープ反強磁性モット絶縁体における超伝導を阻害し、量子磁性に根ざした強結合対リング機構としての可能性を強調している。

Resonant interactions associated with the emergence of a bound state constitute one of the cornerstones of modern many-body physics, ranging from Kondo physics, BEC-BCS crossover, to tunable interactions at Feshbach resonances in ultracold atoms or 2D semiconductors. Here we present a Feshbach perspective on the origin of strong pairing in Fermi-Hubbard type models. We perform a theoretical analysis of interactions between charge carriers in doped Mott insulators, modeled by a near-resonant two-channel scattering problem, and find strong evidence for Feshbach-type interactions in the $d_{x^2-y^2}$ channel that can support strong pairing, consistent with the established phenomenology of cuprates. Existing experimental and numerical results on hole-doped cuprates lead us to conjecture the existence of a light, long-lived, low-energy excited state of two holes with bipolaron character in these systems, which enables near-resonant interactions and can thus provide a microscopic foundation for theories of high-temperature superconductivity involving strong attraction, as assumed e.g. in BEC-BCS crossover scenarios. To put our theory to a direct test we suggest to use coincidence angle-resolved photoemission spectroscopy (cARPES), pair-tunneling measurements or less direct pump-probe experiments. The emergent Feshbach resonance we propose could also underlie superconductivity in other doped antiferromagnetic Mott insulators, as recently proposed for bilayer nickelates, highlighting its potential as a unifying strong-coupling pairing mechanism rooted in quantum magnetism.
翻訳日:2023-12-06 14:37:34 公開日:2023-12-05
# Reconfusion:Diffusion Priorsを用いた3次元再構成

ReconFusion: 3D Reconstruction with Diffusion Priors ( http://arxiv.org/abs/2312.02981v1 )

ライセンス: Link先を確認
Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski(参考訳) ニューラルレージアンスフィールド(NeRF)のような3次元再構成手法は、複雑なシーンのフォトリアリスティックなノベルビューのレンダリングに優れている。 しかし、高品質なNeRFを回復するには、通常、数十から数百の入力画像が必要であるため、時間を要する。 本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。 提案手法は,NeRFベースの3次元再構成パイプラインを,入力画像の集合で捉えた画像以上の新しいカメラポーズで規則化する合成および多視点データセットに基づいて訓練された,新規なビュー合成に先立つ拡散を利用する。 本手法は, 観測領域の外観を保ちつつ, 未拘束領域における現実的な形状とテクスチャを合成する。 我々は,前向きおよび360度シーンを含む様々な実世界のデータセットにまたがる広範な評価を行い,これまでのnrfリコンストラクションアプローチよりも大幅に性能が向上したことを示す。

3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.
翻訳日:2023-12-06 14:37:03 公開日:2023-12-05
# GPT4Point: ポイント言語理解と生成のための統一フレームワーク

GPT4Point: A Unified Framework for Point-Language Understanding and Generation ( http://arxiv.org/abs/2312.02980v1 )

ライセンス: Link先を確認
Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao(参考訳) マルチモーダル・大規模言語モデル(mllm)は2次元画像理解と画像生成に優れているが、3次元世界に対する理解は著しく不足しており、3次元言語理解と生成の進歩を制限している。 GPT4Pointは,MLLMフレームワーク内での3次元オブジェクトの理解と生成に特化して設計された,革新的な起点言語マルチモーダルモデルである。 GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。 さらに、GPT4Pointは、制御可能な3D生成のための高度な機能を備えており、幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果を得ることができる。 3次元オブジェクト・テキスト・ペアの拡大ニーズに対応するために,ポイント言語データセットアノテーションエンジンであるPraamid-XLを開発した。 GPT4Pointのトレーニングに不可欠なObjaverse-XLデータセットから,さまざまなテキストの粒度レベルを持つ100万件以上の大規模データベースを構築する。 3dポイント言語理解能力を評価するための包括的なベンチマークが提案されている。 広範な評価において、GPT4Pointは理解と生成において優れた性能を示した。

Multimodal Large Language Models (MLLMs) have excelled in 2D image-text comprehension and image generation, but their understanding of the 3D world is notably deficient, limiting progress in 3D language understanding and generation. To solve this problem, we introduce GPT4Point, an innovative groundbreaking point-language multimodal model designed specifically for unified 3D object understanding and generation within the MLLM framework. GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point is equipped with advanced capabilities for controllable 3D generation, it can get high-quality results through a low-quality point-text feature maintaining the geometric shapes and colors. To support the expansive needs of 3D object-text pairs, we develop Pyramid-XL, a point-language dataset annotation engine. It constructs a large-scale database over 1M objects of varied text granularity levels from the Objaverse-XL dataset, essential for training GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D point-language understanding capabilities. In extensive evaluations, GPT4Point has demonstrated superior performance in understanding and generation.
翻訳日:2023-12-06 14:36:48 公開日:2023-12-05
# 量子コンピュータにおけるフロッケキラル量子ウォーク

Floquet Chiral Quantum Walk in Quantum Computer ( http://arxiv.org/abs/2312.02979v1 )

ライセンス: Link先を確認
Chan Bin Bark and Youngseok Kim and Moon Jip Park(参考訳) 量子ホール効果におけるカイラルエッジ状態は、キラリティーを持つ準粒子のパラダイム的例である。 時空次元においても、ニールセン-二宮の定理は物理的孤立状態のカイラル状態を厳密に禁ずる。 この定理の例外は、非局所性、非ハーミティティーの存在、あるいは高次元のバルクの境界にシステムを埋め込むことによってのみ生じる。 本研究では,ibm量子コンピュータプラットフォームを用いて,非局所性によって実現されるフロッケカイラル量子ウォークを実現する。 ユニタリ時間発展作用素は無限に長距離なカップリングを持つ有効フロケットハミルトニアンによって記述される。 カイラルウェーブパケットはアンダーソン局在のような従来の波動現象の共通した特徴を欠いていることがわかった。 局在性の欠如は、外部の摂動に対する強固さによって確認される。 しかし、現在の量子デバイスの本質的な量子誤差は、カイラル波パケットが最終的に長時間の限界に分散する有限寿命をもたらす。 それでも,従来の非カイラルモデルと比較し,カイラル波の安定性を観察した。

Chiral edge states in quantum Hall effect are the paradigmatic example of the quasi-particle with chirality. In even space-time dimensions, the Nielsen-Ninomiya theorem strictly forbids the chiral states in physical isolation. The exceptions to this theorem only occur in the presence of non-locality, non-Hermiticity, or by embedding the system at the boundary of the higher-dimensional bulk. In this work, using the IBM quantum computer platform, we realize the floquet chiral quantum walk enabled by non-locality. The unitary time evolution operator is described by the effective floquet Hamiltonian with infinitely long-ranged coupling. We find that the chiral wave packets lack the common features of the conventional wave phenomena such as Anderson localization. The absence of localization is witnessed by the robustness against the external perturbations. However, the intrinsic quantum errors of the current quantum device give rise to the finite lifetime where the chiral wave packet eventually disperses in the long-time limit. Nevertheless, we observe the stability of the chiral wave by comparing it with the conventional non-chiral model.
翻訳日:2023-12-06 14:36:27 公開日:2023-12-05
# ドープ反強磁性モット絶縁体における中間子の散乱理論:マルチチャネル視点とフェシュバッハ共鳴

Scattering theory of mesons in doped antiferromagnetic Mott insulators: Multichannel perspective and Feshbach resonance ( http://arxiv.org/abs/2312.02978v1 )

ライセンス: Link先を確認
Lukas Homeier and Pit Bermes and Fabian Grusdt(参考訳) 強い相関を持つ電子中の電荷キャリアのペアリング機構のモデル化は、微視的理論から始まり、凝縮マター物理学の中心的な課題である。 ここで重要な課題は、反強磁性(afm)mott絶縁体に穴をあける際に比較的高温で超伝導が発生する原因を理解することである。 近年, 強結合と低ドーピングでは, 磁気ポーラロンと双極子対という, 基本的な1ホールと2ホールの中間子型成分が, 電荷キャリア間の相互作用をほぼ共振するフェシュバッハ共鳴を発生させる可能性が示唆されている。 そこで,提案手法を用いて,t$-$t'$-$j$モデルにおいて,開放および閉中間子散乱チャネルを記述することにより,提案シナリオの詳細な計算を行う。 双極性対からなる閉チャネルを統合すると、オープンチャネル磁気ポーラロン間の魅力的な相互作用が$d_{x^2-y^2}$となる。 導出相互作用の閉形式は共鳴対の相互作用を解析し、我々のモデルでホール(電子)ドーピングの強化された(抑制された)アトラクションを見つける。 私たちが導入したフォーマリズムは、例えばBEC-BCSクロスオーバーの文脈で、フェシュバッハシナリオがもたらす影響を分析するためのフレームワークを提供し、ドープ反強磁性体において提案されたフェシュバッハペアリング機構の定量的側面をテストするための基盤を確立する。

Modeling the underlying pairing mechanism of charge carriers in strongly correlated electrons, starting from a microscopic theory, is among the central challenges of condensed-matter physics. Hereby, the key task is to understand what causes the appearance of superconductivity at comparatively high temperatures upon hole doping an antiferromagnetic (AFM) Mott insulator. Recently, it has been proposed that at strong coupling and low doping, the fundamental one- and two-hole meson-type constituents -- magnetic polarons and bipolaronic pairs -- likely realize an emergent Feshbach resonance producing near-resonant $d_{x^2-y^2}$ interactions between charge carriers. Here, we provide detailed calculations of the proposed scenario by describing the open and closed meson scattering channels in the $t$-$t'$-$J$ model using a truncated basis method. After integrating out the closed channel constituted by bipolaronic pairs, we find $d_{x^2-y^2}$ attractive interactions between open channel magnetic polarons. The closed form of the derived interactions allows us analyze the resonant pairing interactions and we find enhanced (suppressed) attraction for hole (electron) doping in our model. The formalism we introduce provides a framework to analyze the implications of a possible Feshbach scenario, e.g. in the context of BEC-BCS crossover, and establishes a foundation to test quantitative aspects of the proposed Feshbach pairing mechanisms in doped antiferromagnets.
翻訳日:2023-12-06 14:36:09 公開日:2023-12-05
# 古典''Schr\"オーディンガー方程式の非古典力学の探索

Exploring the nonclassical dynamics of the "classical'' Schr\"odinger equation ( http://arxiv.org/abs/2312.02977v1 )

ライセンス: Link先を確認
David Navia, \'Angel S. Sanz(参考訳) Schr\\odinger方程式における非線形性の導入は、文学において外部環境や平均場の作用を記述する効果的な方法として検討されてきた。 Here, in particular, we explore the nonlinear effects induced by subtracting a term proportional to Bohm's quantum potential to the usual (linear) Schr\"odinger equation, which generates the so-called "classical" Schr\"odinger equation. Although a simple nonlinear transformation allows us to recover the well-known classical Hamilton-Jacobi equation, by combining a series of analytical results (in the limiting cases) and simulations (whenever the analytical treatment is unaffordable), we find an analytical explanation to why the dynamics in the nonlinear "classical" regime is still strongly nonclassical. これは、対応する波動関数に付随するボヘミア軌道と、得られるべき古典軌道との1対1の比較を確立することでさらに明らかである。 これらの観測から、量子力学の真に特徴的な特徴であるコヒーレンスの痕跡を取り除くために、完全に古典的な状態への移行が余分な条件を必要とすることは明らかである。 この挙動は、自由伝播局所化粒子の分散、調和発振器、ヤングの2スリット実験の単純化版という3つのパラダイムケースで研究されている。

The introduction of nonlinearities in the Schr\"odinger equation has been considered in the literature as an effective manner to describe the action of external environments or mean fields. Here, in particular, we explore the nonlinear effects induced by subtracting a term proportional to Bohm's quantum potential to the usual (linear) Schr\"odinger equation, which generates the so-called "classical" Schr\"odinger equation. Although a simple nonlinear transformation allows us to recover the well-known classical Hamilton-Jacobi equation, by combining a series of analytical results (in the limiting cases) and simulations (whenever the analytical treatment is unaffordable), we find an analytical explanation to why the dynamics in the nonlinear "classical" regime is still strongly nonclassical. This is even more evident by establishing a one-to-one comparison between the Bohmian trajectories associated with the corresponding wave function and the classical trajectories that one should obtain. Based on these observations, it is clear that the transition to a fully classical regime requires extra conditions in order to remove any trace of coherence, which is the truly distinctive trait of quantum mechanics. This behavior is investigated in three paradigmatic cases, namely, the dispersion of a free propagating localized particle, the harmonic oscillator, and a simplified version of Young's two-slit experiment.
翻訳日:2023-12-06 14:35:35 公開日:2023-12-05
# 実世界における効果的なナビゲーションと操作を可能にするシミュレーションにおける最短経路の省略

Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World ( http://arxiv.org/abs/2312.02976v1 )

ライセンス: Link先を確認
Kiana Ehsani, Tanmay Gupta, Rose Hendrix, Jordi Salvador, Luca Weihs, Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti, Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi(参考訳) 濃密な報酬と模倣学習(il)を伴う強化学習(rl)は、現代実施エージェントの訓練に最も広く用いられている手法である。 RLは大規模な報酬形成と補助的損失を必要としており、長い水平作業では遅すぎるし効果がないことが多い。 人間の監督によるilは有効であるが、人間の軌道を大規模に収集することは極めて高価である。 本研究では,シミュレーションにおける最短パスプランナーの模倣により,言語指導を与えられたエージェントが,RGBセンサ(深度マップやGPS座標を含まない)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うことができることを示す。 この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、大規模な画像拡張と組み合わせた強力なビジュアルエンコーダ、およびトレーニングデータの劇的なスケールと多様性によって実現されています。 当社のモデル,データ,トレーニングコード,新たに提案された10タスクベンチマークスイートであるCHORESがオープンソース化される予定です。

Reinforcement learning (RL) with dense rewards and imitation learning (IL) with human-generated trajectories are the most widely used approaches for training modern embodied agents. RL requires extensive reward shaping and auxiliary losses and is often too slow and ineffective for long-horizon tasks. While IL with human supervision is effective, collecting human trajectories at scale is extremely expensive. In this work, we show that imitating shortest-path planners in simulation produces agents that, given a language instruction, can proficiently navigate, explore, and manipulate objects in both simulation and in the real world using only RGB sensors (no depth map or GPS coordinates). This surprising result is enabled by our end-to-end, transformer-based, SPOC architecture, powerful visual encoders paired with extensive image augmentation, and the dramatic scale and diversity of our training data: millions of frames of shortest-path-expert trajectories collected inside approximately 200,000 procedurally generated houses containing 40,000 unique 3D assets. Our models, data, training code, and newly proposed 10-task benchmarking suite CHORES will be open-sourced.
翻訳日:2023-12-06 14:35:16 公開日:2023-12-05
# 偶発的機能把握

Dexterous Functional Grasping ( http://arxiv.org/abs/2312.02975v1 )

ライセンス: Link先を確認
Ananye Agarwal, Shagun Uppal, Kenneth Shaw, Deepak Pathak(参考訳) 巧妙な操作には大きな進歩があったが、そのほとんどは、実世界では限られたユーティリティである、手動のリオリエンテーションのようなベンチマークタスクに限られている。 2本指の指よりも器用な手の利点は、道具やその他の物体(細いものを含む)を拾い上げてしっかりつかんで力を加える能力である。 しかし、このタスクは機能的余裕の複雑な理解と正確な低レベル制御の両方を必要とする。 以前の作業は、人間のデータから余裕を得るが、このアプローチは低レベルの制御にはスケールしない。 同様に、シミュレーショントレーニングは、ロボットに現実世界の意味を理解できない。 本稿では,両世界の最善を組み合わせることで,野生の物体の機能把握を実現することを目的とする。 モジュラーアプローチを使います。 まず、異なるオブジェクトの対応する領域をマッチングし、SIMで訓練された低レベルポリシーを実行し、それを把握する。 本稿では,少数の人間データを用いてrlの探索空間を削減し,より安定かつ物理的にリアルな動作に導くための固有グラスプスの新たな応用を提案する。 固有グラスの動作空間は、シミュレーションでベースラインを上回り、リアルにハードコードされた把持を上回り、訓練された人間のテレオペレーターと一致または上回る。 results visualizations and video at https://dexfunc.github.io/

While there have been significant strides in dexterous manipulation, most of it is limited to benchmark tasks like in-hand reorientation which are of limited utility in the real world. The main benefit of dexterous hands over two-fingered ones is their ability to pickup tools and other objects (including thin ones) and grasp them firmly to apply force. However, this task requires both a complex understanding of functional affordances as well as precise low-level control. While prior work obtains affordances from human data this approach doesn't scale to low-level control. Similarly, simulation training cannot give the robot an understanding of real-world semantics. In this paper, we aim to combine the best of both worlds to accomplish functional grasping for in-the-wild objects. We use a modular approach. First, affordances are obtained by matching corresponding regions of different objects and then a low-level policy trained in sim is run to grasp it. We propose a novel application of eigengrasps to reduce the search space of RL using a small amount of human data and find that it leads to more stable and physically realistic motion. We find that eigengrasp action space beats baselines in simulation and outperforms hardcoded grasping in real and matches or outperforms a trained human teleoperator. Results visualizations and videos at https://dexfunc.github.io/
翻訳日:2023-12-06 14:34:52 公開日:2023-12-05
# 自然言語を用いた画像集合の差分記述

Describing Differences in Image Sets with Natural Language ( http://arxiv.org/abs/2312.02974v1 )

ライセンス: Link先を確認
Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy(参考訳) 2つの画像のセットがどう違うのか? モデル行動を理解し、データセットを解析するためには、セットレベルの差異を識別することが不可欠だが、何千ものイメージを手動で精査するのは現実的ではない。 この発見プロセスを支援するために、我々は2つの$\textbf{sets}$の画像間の差分を自動的に記述するタスクについて検討する。 このタスクはイメージセット $D_A$ と $D_B$ を取り込み、$D_A$ よりも $D_B$ の方がしばしば真である記述を出力する。 まずイメージセットから候補差分記述を提案する2段階のアプローチを概説し、その2つのセットをどの程度よく区別できるかを確認して候補を再度ランク付けする。 VisDiffはまずイメージをキャプションし、言語モデルに候補記述を提案し、次にCLIPを使ってこれらの記述を再ランクする。 VisDiffBenchは、187組のイメージセットと地上の真理差を記述したデータセットである。 データセットの比較(例: ImageNet vs. ImageNetV2)、分類モデルの比較(例:zero-shot CLIP vs. supervised ResNet)、モデル失敗モードの要約(例: ResNet)、生成モデルの違いの特徴づけ(例: StableDiffusionV1とV2)、イメージを記憶可能なものにする方法の発見など、さまざまな領域に適用する。 VisDiffを使用することで、データセットやモデルにこれまで知られていなかった、興味深い違いを見つけ出すことができました。

How do two sets of images differ? Discerning set-level differences is crucial for understanding model behaviors and analyzing datasets, yet manually sifting through thousands of images is impractical. To aid in this discovery process, we explore the task of automatically describing the differences between two $\textbf{sets}$ of images, which we term Set Difference Captioning. This task takes in image sets $D_A$ and $D_B$, and outputs a description that is more often true on $D_A$ than $D_B$. We outline a two-stage approach that first proposes candidate difference descriptions from image sets and then re-ranks the candidates by checking how well they can differentiate the two sets. We introduce VisDiff, which first captions the images and prompts a language model to propose candidate descriptions, then re-ranks these descriptions using CLIP. To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image sets with ground truth difference descriptions. We apply VisDiff to various domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing model failure modes (supervised ResNet), characterizing differences between generative models (e.g., StableDiffusionV1 and V2), and discovering what makes images memorable. Using VisDiff, we are able to find interesting and previously unknown differences in datasets and models, demonstrating its utility in revealing nuanced insights.
翻訳日:2023-12-06 14:34:31 公開日:2023-12-05
# GauHuman: 単眼の人間のビデオからガウスの切り抜き

GauHuman: Articulated Gaussian Splatting from Monocular Human Videos ( http://arxiv.org/abs/2312.02973v1 )

ライセンス: Link先を確認
Shoukang Hu and Ziwei Liu(参考訳) 高速トレーニング(1~2分)とリアルタイムレンダリング(最大189FPS)の両方のためのガウススプラッティングを備えた3次元人体モデルであるGauHumanを,既存のNeRFベースの暗黙表現モデリングフレームワークと比較した。 具体的には、ガウフマンはガウススティングを標準空間にエンコードし、3Dガウスを標準空間から線形ブレンドスキン(LBS)でポーズ空間に変換し、有効ポーズとLBSリファインメントモジュールを、無視可能な計算コストで3D人間の詳細を学習するように設計する。 さらに, gauhuman の高速最適化を実現するために, kl 発散誘導による分割・閉包を行いながら, 3d人間による初期化とprune 3d gaussian の高速化を図る。 zju_mocapとmonocapデータセットの広範な実験により、gauhumanは高速トレーニングとリアルタイムレンダリング速度で最先端のパフォーマンスを定量的かつ質的に達成できることが示されている。 特に、レンダリング品質を犠牲にすることなく、gauhumanは13k 3d gaussianで3d人間パフォーマーを高速にモデル化することができる。

We present, GauHuman, a 3D human model with Gaussian Splatting for both fast training (1 ~ 2 minutes) and real-time rendering (up to 189 FPS), compared with existing NeRF-based implicit representation modelling frameworks demanding hours of training and seconds of rendering per frame. Specifically, GauHuman encodes Gaussian Splatting in the canonical space and transforms 3D Gaussians from canonical space to posed space with linear blend skinning (LBS), in which effective pose and LBS refinement modules are designed to learn fine details of 3D humans under negligible computational cost. Moreover, to enable fast optimization of GauHuman, we initialize and prune 3D Gaussians with 3D human prior, while splitting/cloning via KL divergence guidance, along with a novel merge operation for further speeding up. Extensive experiments on ZJU_Mocap and MonoCap datasets demonstrate that GauHuman achieves state-of-the-art performance quantitatively and qualitatively with fast training and real-time rendering speed. Notably, without sacrificing rendering quality, GauHuman can fast model the 3D human performer with ~13k 3D Gaussians.
翻訳日:2023-12-06 14:33:55 公開日:2023-12-05
# ローコラム読み出し付き単光子検出器アレイにおける多重光子衝突の解消

Resolving Multiphoton Coincidences in Single-Photon Detector Arrays with Row-Column Readouts ( http://arxiv.org/abs/2312.02971v1 )

ライセンス: Link先を確認
Shashwath Bharadwaj, Ruangrawee Kitichotkul, Akshay Agarwal, Vivek Goyal(参考訳) 本研究では,行列読み出しによる単一光子検出器アレイにおける最大4光子一致を解決する手法を提案する。不明瞭な測定を用いて各画素における検出確率を推定することにより,各画素のピーク信号対ノイズ比が従来の3dbから4dbに増加するように,候補画素間の曖昧なマルチ光子数を再分配する。 また,本手法では,これらのアレイを従来手法と比較して高い入射光子フラックスで動作させることができることを示す。 この手法の自然シーンイメージングへの応用はモンテカルロ実験を用いて実証された。

In this work, we propose a method to resolve up to 4-photon coincidences in single-photon detector arrays with row--column readouts.By utilizing unambiguous measurements to estimate probabilities of detection at each pixel, we redistribute the ambiguous multiphoton counts among candidate pixel locations such that the peak signal-to-noise-ratio of the reconstruction is increased between 3 and 4 dB compared to conventional methods at optimal operating conditions. We also show that our method allows the operation of these arrays at higher incident photon fluxes as compared to previous methods. The application of this technique to imaging natural scenes is demonstrated using Monte Carlo experiments.
翻訳日:2023-12-06 14:33:27 公開日:2023-12-05
# alchemist:拡散モデルによる材料特性のパラメトリック制御

Alchemist: Parametric Control of Material Properties with Diffusion Models ( http://arxiv.org/abs/2312.02970v1 )

ライセンス: Link先を確認
Prafull Sharma, Varun Jampani, Yuanzhen Li, Xuhui Jia, Dmitry Lagun, Fredo Durand, William T. Freeman, Mark Matthews(参考訳) 本研究では,粗さ,金属,アルベド,透過性などの物体の物質特性を実画像で制御する手法を提案する。 提案手法は,スカラー値と命令を用いて低レベルな材料特性を変化させることにより,フォトリアリズムで知られたテキスト・ツー・イメージ・モデルの生成先行に乗じる。 物質特性を制御したデータセットの欠如に対処し,物理材料を用いたオブジェクト中心合成データセットを作成した。 この合成データセットに事前訓練したテキスト・ツー・イメージモデルを微調整することで、他の属性をすべて保存しながら現実世界の画像の素材特性を編集できる。 我々は,NeRFの材料化へのモデルの適用の可能性を示す。

We propose a method to control material attributes of objects like roughness, metallic, albedo, and transparency in real images. Our method capitalizes on the generative prior of text-to-image models known for photorealism, employing a scalar value and instructions to alter low-level material properties. Addressing the lack of datasets with controlled material attributes, we generated an object-centric synthetic dataset with physically-based materials. Fine-tuning a modified pre-trained text-to-image model on this synthetic dataset enables us to edit material properties in real-world images while preserving all other attributes. We show the potential application of our model to material edited NeRFs.
翻訳日:2023-12-06 14:33:12 公開日:2023-12-05
# Rank-without-GPT:オープンソースの大規模言語モデル上でのGPTに依存しないリスワイズリランカの構築

Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models ( http://arxiv.org/abs/2312.02969v1 )

ライセンス: Link先を確認
Xinyu Zhang, Sebastian Hofst\"atter, Patrick Lewis, Raphael Tang, Jimmy Lin(参考訳) 大規模言語モデル(llm)に基づいたlistwise rerankerはゼロショットの最先端である。 しかし、この方向の現在の研究はすべてGPTモデルに依存しており、科学的再現性の単一障害点となっている。 さらに、現在の研究結果はGPTモデルのみに留まるが、一般にはLLMではないという懸念も持ち上がっている。 この作業では、この前提条件を解除し、gptに依存しない効果的なlistwiseリランクカーを初めて構築します。 提案手法は,gpt-3.5に基づくlistwise rerankerを13%上回り,gpt-4で構築したrerankerの97%の有効性を実現した。 また, 既存の学習データセットは, ポイントワイズランキングのために構築されているが, リストワイズランキング作成には不十分であることを示した。 代わりに、高品質なリストワイズランキングデータが必要かつ重要であり、人間によるリストワイズデータリソースの構築に関するさらなる作業を要求する。

Listwise rerankers based on large language models (LLM) are the zero-shot state-of-the-art. However, current works in this direction all depend on the GPT models, making it a single point of failure in scientific reproducibility. Moreover, it raises the concern that the current research findings only hold for GPT models but not LLM in general. In this work, we lift this pre-condition and build for the first time effective listwise rerankers without any form of dependency on GPT. Our passage retrieval experiments show that our best list se reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves 97% effectiveness of the ones built on GPT-4. Our results also show that the existing training datasets, which were expressly constructed for pointwise ranking, are insufficient for building such listwise rerankers. Instead, high-quality listwise ranking data is required and crucial, calling for further work on building human-annotated listwise data resources.
翻訳日:2023-12-06 14:32:58 公開日:2023-12-05
# AmbiGen: 事前訓練拡散モデルからアンビグラムを生成する

AmbiGen: Generating Ambigrams from Pre-trained Diffusion Model ( http://arxiv.org/abs/2312.02967v1 )

ライセンス: Link先を確認
Boheng Zhao, Rana Hanocka, Raymond A. Yeh(参考訳) アンビグラム(英: Ambigram)は、視線方向によって異なる意味を持つ書体デザインである。 アンビグラムを作成することは熟練アーティストにとっても難しい課題であり、同時に2つの異なる視点の下で意味を維持する必要がある。 そこで本研究では,大規模視覚・言語拡散モデルであるdeepfloyd ifを蒸留してアンビグラムを生成し,文字のアウトラインを2つの視野方向において適度に最適化する手法を提案する。 実験により,本手法が既存のアンビグラム生成法より優れていることを示す。 英語で最も一般的な500語に対して,単語の精度が11.6%以上向上し,編集距離が41.9%以上削減された。

Ambigrams are calligraphic designs that have different meanings depending on the viewing orientation. Creating ambigrams is a challenging task even for skilled artists, as it requires maintaining the meaning under two different viewpoints at the same time. In this work, we propose to generate ambigrams by distilling a large-scale vision and language diffusion model, namely DeepFloyd IF, to optimize the letters' outline for legibility in the two viewing orientations. Empirically, we demonstrate that our approach outperforms existing ambigram generation methods. On the 500 most common words in English, our method achieves more than an 11.6% increase in word accuracy and at least a 41.9% reduction in edit distance.
翻訳日:2023-12-06 14:32:40 公開日:2023-12-05
# 拡散SS3D:半教師付き3次元物体検出のための拡散モデル

Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection ( http://arxiv.org/abs/2312.02966v1 )

ライセンス: Link先を確認
Cheng-Ju Ho, Chen-Hsuan Tai, Yen-Yu Lin, Ming-Hsuan Yang, Yi-Hsuan Tsai(参考訳) 半教師付きオブジェクト検出は,大規模3次元バウンディングボックスアノテーション取得の限界を効率的に解決するため,3次元シーン理解に不可欠である。 既存の手法は、通常、未ラベルの点雲を利用するために擬似ラベル付き教師学生フレームワークを使用する。 しかし、多様な3d空間で信頼できる擬似ラベルを作ることは依然として困難である。 本研究では,半教師付き3次元物体検出のための拡散モデルによる擬似ラベルの品質向上のための新しい視点である diffusion-ss3d を提案する。 具体的には、劣化した3Dオブジェクトサイズとクラスラベルの分布を生成するノイズを含み、拡散モデルをデノナイズプロセスとして利用して境界ボックス出力を得る。 さらに,拡散モデルを教師/学生のフレームワークに統合することにより,擬似ラベル生成の改善や半教師付き学習プロセス全体の改善を図ることができる。 我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。 また, 拡散モデル設計が半教師あり学習の性能に与える影響を理解するために, 広範な分析を行った。

Semi-supervised object detection is crucial for 3D scene understanding, efficiently addressing the limitation of acquiring large-scale 3D bounding box annotations. Existing methods typically employ a teacher-student framework with pseudo-labeling to leverage unlabeled point clouds. However, producing reliable pseudo-labels in a diverse 3D space still remains challenging. In this work, we propose Diffusion-SS3D, a new perspective of enhancing the quality of pseudo-labels via the diffusion model for semi-supervised 3D object detection. Specifically, we include noises to produce corrupted 3D object size and class label distributions, and then utilize the diffusion model as a denoising process to obtain bounding box outputs. Moreover, we integrate the diffusion model into the teacher-student framework, so that the denoised bounding boxes can be used to improve pseudo-label generation, as well as the entire semi-supervised learning process. We conduct experiments on the ScanNet and SUN RGB-D benchmark datasets to demonstrate that our approach achieves state-of-the-art performance against existing methods. We also present extensive analysis to understand how our diffusion model design affects performance in semi-supervised learning.
翻訳日:2023-12-06 14:32:28 公開日:2023-12-05
# 自己進化型神経放射場

Self-Evolving Neural Radiance Fields ( http://arxiv.org/abs/2312.01003v2 )

ライセンス: Link先を確認
Jaewoo Jung, Jisang Han, Jiwon Kang, Seongchan Kim, Min-Seop Kwak, Seungryong Kim(参考訳) 近年,ニューラル・ラジアンス・フィールド(NeRF)は新規な視線合成と3次元再構成において顕著な性能を示した。 しかし、高品質な画像を必要とするため、現実のシナリオでは適用性が制限される。 この制限を克服するために、近年の研究では、少ない視点でのみnerfを訓練することに焦点を当てている。 タスクの制約の少ない性質のため、追加の正規化のみを用いることで、モデルが過度に適合してスパースな視点に収まらないことが観察された。 本稿では,これらの問題に対処するための自己学習フレームワークをNeRFに適用した,SE-NeRF(Self-Evolving Neural Radiance Fields)と呼ばれる新しいフレームワークを提案する。 数発のNeRFを教師学生用フレームワークに編成し,教師が生成した追加の擬似ラベルを学習することで,ネットワークを指導し,より堅牢なシーン表現を学習する。 新たな信頼性推定法により得られた信頼性・信頼性の低い光線に対して, 異なる蒸留方式を用いて線レベルの擬似ラベルを蒸留することにより, 3次元シーンのより正確でロバストな形状をNeRFで学べる。 既存のモデルに自己学習フレームワークを適用することで、レンダリング画像の品質が向上し、複数の設定で最先端のパフォーマンスが得られることを示す。

Recently, neural radiance field (NeRF) has shown remarkable performance in novel view synthesis and 3D reconstruction. However, it still requires abundant high-quality images, limiting its applicability in real-world scenarios. To overcome this limitation, recent works have focused on training NeRF only with sparse viewpoints by giving additional regularizations, often called few-shot NeRF. We observe that due to the under-constrained nature of the task, solely using additional regularization is not enough to prevent the model from overfitting to sparse viewpoints. In this paper, we propose a novel framework, dubbed Self-Evolving Neural Radiance Fields (SE-NeRF), that applies a self-training framework to NeRF to address these problems. We formulate few-shot NeRF into a teacher-student framework to guide the network to learn a more robust representation of the scene by training the student with additional pseudo labels generated from the teacher. By distilling ray-level pseudo labels using distinct distillation schemes for reliable and unreliable rays obtained with our novel reliability estimation method, we enable NeRF to learn a more accurate and robust geometry of the 3D scene. We show and evaluate that applying our self-training framework to existing models improves the quality of the rendered images and achieves state-of-the-art performance in multiple settings.
翻訳日:2023-12-06 12:49:24 公開日:2023-12-05
# 人間のフィードバックから学ぶnash

Nash Learning from Human Feedback ( http://arxiv.org/abs/2312.00886v2 )

ライセンス: Link先を確認
R\'emi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Zhaohan Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mesnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる主要なパラダイムとして現れている。 典型的には、RLHFは人間のフィードバックから報酬モデルを学ぶ最初のステップであり、しばしば事前訓練されたLLMによって生成されるテキスト世代間の好みとして表現される。 その後、LLMのポリシーは強化学習アルゴリズムにより報酬モデルを最大限に最適化することで微調整される。 しかし、現在の報酬モデルの本質的な制限は、人間の嗜好の豊かさとサンプリング分布への依存を完全に表現できないことである。 本研究では,対人フィードバックを用いたllmの微調整のための代替パイプラインを提案する。 提案手法は,提案する2つの入力に条件付けされた嗜好モデルの初期学習を伴い,その後に,競合する政策よりも好まれる応答を一貫して生成するポリシーを追求し,この選好モデルのナッシュ均衡を定義する。 このアプローチをnash learning from human feedback(nlhf)と呼んでいる。 表形式のポリシー表現の文脈において,ミラー降下の原理に基づく新しいアルゴリズム解nash-mdを提案する。 このアルゴリズムは一連のポリシーを生成し、最後の繰り返しは正規化されたナッシュ平衡に収束する。 さらに,ポリシーのパラメトリック表現を探索し,ディープラーニングアーキテクチャに勾配降下アルゴリズムを導入する。 提案手法の有効性を示すために,テキスト要約タスクにおけるLLMの微調整を含む実験結果を提案する。 我々はNLHFが、LLMと人間の嗜好を整合させる分野を前進させる可能性を秘め、嗜好学習と政策最適化のための魅力的な道を提供すると考えている。

Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
翻訳日:2023-12-06 12:48:58 公開日:2023-12-05
# 全てを接地する:視覚言語トランスフォーマーにおける新しい局所化特性

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers ( http://arxiv.org/abs/2312.00878v2 )

ライセンス: Link先を確認
Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne(参考訳) 視覚言語基礎モデルは、画像検索、分類、キャプションなど、様々なゼロショット設定で顕著な性能を示している。 しかし今のところ、これらのモデルは、画像中の参照表現とオブジェクトのゼロショットのローカライズに関しては遅れているようだ。 結果として、それらはこのタスクのために微調整される必要があります。 本稿では、事前学習された視覚言語(VL)モデルが、微調整なしでゼロショットオープン語彙オブジェクトの局所化を可能にすることを示す。 これらの機能を活用するために,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エミッション・モジュール(GEM)を提案する。 自己注意の概念はクラスタリングに対応し,同一対象から発生するトークン群が言語空間との整合を維持しながら類似することを示す。 グループ形成をさらにガイドするために、データセットとバックボーンをまたいでモデルを最終的に一般化する一連の正規化を提案する。 セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。 GEMは、他のトレーニング不要なオープン語彙ローカライズ手法よりも優れているだけでなく、最近提案されたOpenImagesV7大規模セグメンテーションベンチマークの最先端結果も達成している。

Vision-language foundation models have shown remarkable performance in various zero-shot settings such as image retrieval, classification, or captioning. But so far, those models seem to fall behind when it comes to zero-shot localization of referential expressions and objects in images. As a result, they need to be fine-tuned for this task. In this paper, we show that pretrained vision-language (VL) models allow for zero-shot open-vocabulary object localization without any fine-tuning. To leverage those capabilities, we propose a Grounding Everything Module (GEM) that generalizes the idea of value-value attention introduced by CLIPSurgery to a self-self attention path. We show that the concept of self-self attention corresponds to clustering, thus enforcing groups of tokens arising from the same object to be similar while preserving the alignment with the language space. To further guide the group formation, we propose a set of regularizations that allows the model to finally generalize across datasets and backbones. We evaluate the proposed GEM framework on various benchmark tasks and datasets for semantic segmentation. It shows that GEM not only outperforms other training-free open-vocabulary localization methods, but also achieves state-of-the-art results on the recently proposed OpenImagesV7 large-scale segmentation benchmark.
翻訳日:2023-12-06 12:48:30 公開日:2023-12-05
# PipeOptim: 最適化器依存重量予測による有効1F1Bスケジュールの保証

PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent Weight Prediction ( http://arxiv.org/abs/2312.00839v2 )

ライセンス: Link先を確認
Lei Guan, Dongsheng Li, Jiye Liang, Wenjian Wang, Xicheng Lu(参考訳) 1F1B"(1つの前方、1つの後方)スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドが少なく、常に高いスループットを提供する。 しかし、"1f1b"スケジュールは、gpu間で異なるミニバッチをクロストレーニングするため、必然的に重みの矛盾と重りの停滞に繋がる。 本稿では,これら2つの問題に同時に対処するため,非同期パイプライン学習のための最適化器依存の重み予測戦略(PipeOptim)を提案する。 我々の提案の重要な洞察は、各ミニバッチが前方通過を計算するために一貫性と安定度のない重みを使用するように、前方通過に重み予測戦略を採用することである。 具体的には,ニューラルネットワークモデルのトレーニング時に使用するオプティマイザの更新ルールに基づいて,まず重み予測スキームを構築した。 その後、「1F1B」パイプライン訓練を通して、各ミニバッチは前方通過よりも先に重量予測を行い、その後予測重量を用いて前方通過を行うように強制される。 その結果 パイプオプティマイムは 1)"1F1B"スケジュールの利点を継承し、非常に高いスループットを生成します。 2) 使用するオプティマイザの種類に関わらず,効果的なパラメータ学習を実現する。 提案手法の有効性を検証するため,画像分類,感情分析,機械翻訳を含む3つの機械学習タスクにまたがる8種類のディープラーニングモデルを用いて実験を行った。 実験の結果,パイプオプティマイムはgpipe,pipedream,pipedream-2bw,spectruminなどの一般的なパイプラインアプローチよりも優れていた。 PipeOptimのコードはhttps://github.com/guanleics/PipeOptimでアクセスできる。

Asynchronous pipeline model parallelism with a "1F1B" (one forward, one backward) schedule generates little bubble overhead and always provides quite a high throughput. However, the "1F1B" schedule inevitably leads to weight inconsistency and weight staleness issues due to the cross-training of different mini-batches across GPUs. To simultaneously address these two problems, in this paper, we propose an optimizer-dependent weight prediction strategy (a.k.a PipeOptim) for asynchronous pipeline training. The key insight of our proposal is that we employ a weight prediction strategy in the forward pass to ensure that each mini-batch uses consistent and staleness-free weights to compute the forward pass. To be concrete, we first construct the weight prediction scheme based on the update rule of the used optimizer when training the deep neural network models. Then throughout the "1F1B" pipelined training, each mini-batch is mandated to execute weight prediction ahead of the forward pass, subsequently employing the predicted weights to perform the forward pass. As a result, PipeOptim 1) inherits the advantage of the "1F1B" schedule and generates pretty high throughput, and 2) can ensure effective parameter learning regardless of the type of the used optimizer. To verify the effectiveness of our proposal, we conducted extensive experimental evaluations using eight different deep-learning models spanning three machine-learning tasks including image classification, sentiment analysis, and machine translation. The experiment results demonstrate that PipeOptim outperforms the popular pipelined approaches including GPipe, PipeDream, PipeDream-2BW, and SpecTrain. The code of PipeOptim can be accessible at https://github.com/guanleics/PipeOptim.
翻訳日:2023-12-06 12:48:07 公開日:2023-12-05
# 分布整合蒸留によるワンステップ拡散

One-step Diffusion with Distribution Matching Distillation ( http://arxiv.org/abs/2311.18828v3 )

ライセンス: Link先を確認
Tianwei Yin, Micha\"el Gharbi, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, Taesung Park(参考訳) 拡散モデルは高品質な画像を生成するが、数十の前方通過を必要とする。 本稿では,拡散モデルを画像品質に最小限の影響を与えるワンステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。 我々は,2つのスコア関数,1つのターゲット分布,および1つのステップ生成器によって生成される合成分布の差として勾配を表現可能な近似KL分散を最小化することにより,拡散モデルと分布レベルで一致したワンステップ画像生成装置を強制する。 スコア関数は、各分布で個別に訓練された2つの拡散モデルとしてパラメータ化される。 多段拡散出力の大規模構造に適合する簡単な回帰損失を組み合わせることで,imagenet 64x64では2.62 fid,ゼロショットcoco-30kでは11.49 fidとなり,安定拡散に匹敵するほど高速である。 FP16推論を用いて,最新のハードウェア上で20FPSで画像を生成する。

Diffusion models generate high-quality images but require dozens of forward passes. We introduce Distribution Matching Distillation (DMD), a procedure to transform a diffusion model into a one-step image generator with minimal impact on image quality. We enforce the one-step image generator match the diffusion model at distribution level, by minimizing an approximate KL divergence whose gradient can be expressed as the difference between 2 score functions, one of the target distribution and the other of the synthetic distribution being produced by our one-step generator. The score functions are parameterized as two diffusion models trained separately on each distribution. Combined with a simple regression loss matching the large-scale structure of the multi-step diffusion outputs, our method outperforms all published few-step diffusion approaches, reaching 2.62 FID on ImageNet 64x64 and 11.49 FID on zero-shot COCO-30k, comparable to Stable Diffusion but orders of magnitude faster. Utilizing FP16 inference, our model generates images at 20 FPS on modern hardware.
翻訳日:2023-12-06 12:47:40 公開日:2023-12-05
# alignbench: 大規模言語モデルの中国アライメントのベンチマーク

AlignBench: Benchmarking Chinese Alignment of Large Language Models ( http://arxiv.org/abs/2311.18743v3 )

ライセンス: Link先を確認
Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang(参考訳) アライメントは、命令調整された大規模言語モデル(LLM)がアシスタントになるための重要なステップとなっている。 しかし、中国におけるLLMのアライメントの効果的な評価は依然として著しく欠落しており、アライメントに適した実シナリオ、オープンエンド、挑戦的、自動評価が求められている。 このギャップを埋めるために、中国語でLLMのアライメントを評価するための総合的な多次元ベンチマークであるAlignBenchを紹介する。 提案するベンチマークでは,マルチ次元LCM-as-JudgeとChain-of-Thoughtを併用し,評価として説明と最終評価を生成し,信頼性と解釈性を確保する。 さらに,GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を行った。 LLMの中国アライメントの評価を容易にするために、AlignBenchをCristiqueLLMで評価するための公開APIを提供する。 すべての評価コード、データ、LCM世代は \url{https://github.com/THUDM/AlignBench} で利用可能である。

Alignment has become a critical step for instruction-tuned Large Language Models (LLMs) to become helpful assistants. However, effective evaluation of alignment for emerging Chinese LLMs is still significantly lacking, calling for real-scenario grounded, open-ended, challenging and automatic evaluations tailored for alignment. To fill in this gap, we introduce AlignBench, a comprehensive multi-dimensional benchmark for evaluating LLMs' alignment in Chinese. Equipped with a human-in-the-loop data curation pipeline, our benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge with Chain-of-Thought to generate explanations and final ratings as evaluations, ensuring high reliability and interpretability. Furthermore, we report AlignBench evaluated by CritiqueLLM, a dedicated Chinese evaluator LLM that recovers 95% of GPT-4's evaluation ability. We will provide public APIs for evaluating AlignBench with CritiqueLLM to facilitate the evaluation of LLMs' Chinese alignment. All evaluation codes, data, and LLM generations are available at \url{https://github.com/THUDM/AlignBench}.
翻訳日:2023-12-06 12:47:19 公開日:2023-12-05
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v4 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2023-12-06 12:46:56 公開日:2023-12-05
# ホームライトステージでパーソナライズされたビデオのリライティング

Personalized Video Relighting With an At-Home Light Stage ( http://arxiv.org/abs/2311.08843v3 )

ライセンス: Link先を確認
Jun Myeong Choi, Max Christman, Roni Sengupta(参考訳) 本稿では,任意のポーズ,表情,照明条件下で,高品質かつ時間的に一貫したリライト映像をリアルタイムに生成する,パーソナライズドビデオライティングアルゴリズムを開発した。 既存のリライトアルゴリズムは一般に一般に入手可能な合成データに依存しているため、リライト結果が乏しいか、取得が難しいライトステージデータに依存している。 モニタでyoutubeビデオを視聴しているユーザのビデオを撮れば、どんな状況でも高品質のライトアップができるパーソナライズされたアルゴリズムを訓練できる。 私たちの重要な貢献は、固有の外観特徴(顔の幾何学と反射)を光源の照明から効果的に分離し、ターゲットの照明と組み合わせて、信頼された画像を生成する、新しい神経リライティングアーキテクチャです。 このニューラルネットワークアーキテクチャは、時間的に安定したビデオリライトにつながる固有の外観特徴の平滑化を可能にする。 質的かつ定量的な評価から,我々のアーキテクチャは,カジュアルにキャプチャされたlsyd(light stage at your desk)とolat(light-captured 'one light at a time')データセットの両方において,最先端のアプローチによるポートレート画像のリライト品質と時間的一貫性を改善していることが示された。

In this paper, we develop a personalized video relighting algorithm that produces high-quality and temporally consistent relit videos under any pose, expression, and lighting condition in real-time. Existing relighting algorithms typically rely either on publicly available synthetic data, which yields poor relighting results, or instead on light stage data which is difficult to obtain. We show that by just capturing video of a user watching YouTube videos on a monitor we can train a personalized algorithm capable of performing high-quality relighting under any condition. Our key contribution is a novel neural relighting architecture that effectively separates the intrinsic appearance features - the geometry and reflectance of the face - from the source lighting and then combines them with the target lighting to generate a relit image. This neural network architecture enables smoothing of intrinsic appearance features leading to temporally stable video relighting. Both qualitative and quantitative evaluations show that our architecture improves portrait image relighting quality and temporal consistency over state-of-the-art approaches on both casually captured `Light Stage at Your Desk' (LSYD) and light-stage-captured `One Light At a Time' (OLAT) datasets.
翻訳日:2023-12-06 12:46:24 公開日:2023-12-05
# 3次元医用画像の解釈可能な2次元視覚モデル

Interpretable 2D Vision Models for 3D Medical Images ( http://arxiv.org/abs/2307.06614v3 )

ライセンス: Link先を確認
Alexander Ziller, Ayhan Can Erdur, Marwa Trigui, Alp G\"uvenir, Tamara T. Mueller, Philip M\"uller, Friederike Jungmann, Johannes Brandt, Jan Peeken, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) 第一に、計算資源の需要は著しく高く、第二に、事前トレーニングのための大規模なデータセットの可用性は、しばしば制限され、トレーニングの成功を妨げる。 本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。 提案手法では,各スライスに重要度を割り当てることを学ぶためにアテンションプールを用いて,各2dスライスの重み付け平均値を得る。 これらの重みは、各スライスの貢献度を直接定量化し、モデル予測を検査可能にする。 我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。 さらに,私たちのアプローチが組み込まれている解釈可能性と,最先端のレトロスペクティブ解釈アプローチであるhirescamを比較した。

Training Artificial Intelligence (AI) models on 3D images presents unique challenges compared to the 2D case: Firstly, the demand for computational resources is significantly higher, and secondly, the availability of large datasets for pre-training is often limited, impeding training success. This study proposes a simple approach of adapting 2D networks with an intermediate feature representation for processing 3D images. Our method employs attention pooling to learn to assign each slice an importance weight and, by that, obtain a weighted average of all 2D slices. These weights directly quantify the contribution of each slice to the contribution and thus make the model prediction inspectable. We show on all 3D MedMNIST datasets as benchmark and two real-world datasets consisting of several hundred high-resolution CT or MRI scans that our approach performs on par with existing methods. Furthermore, we compare the in-built interpretability of our approach to HiResCam, a state-of-the-art retrospective interpretability approach.
翻訳日:2023-12-06 12:46:00 公開日:2023-12-05
# rs5m: リモートセンシング視覚言語基礎モデルのための大規模視覚言語データセット

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model ( http://arxiv.org/abs/2306.11300v4 )

ライセンス: Link先を確認
Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin(参考訳) 画像テキストペアリングデータを用いた事前学習型視覚言語モデル (VLM) は、様々な下流タスクにおいて顕著な結果をもたらす前例のない画像テキスト関連性を実証している。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 本稿では、DVLM(Domain Pre-trained Vision-Language Model)とGVLM(General Vision-Language Model)のギャップを埋める新しいフレームワークを提案する。 さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。 データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。 これらは、最初の大規模RS画像テキストペアデータセットである。 さらに,クリップモデルを微調整し,rs5mのパラメータ効率の良い微調整法をいくつか試してdvlmを実装した。 実験の結果,提案するデータセットは様々なタスクに非常に有効であり,モデルgeorsclipは,ゼロショット分類 (zsc) におけるベースラインあるいは前回の最先端モデルにより,3\%\sim20\%$,リモートセンシングにおける3\%\sim6\$,意味的ローカライゼーション (selo) タスクにおいて4\%\sim5\%$向上することがわかった。 データセットとモデルがリリースされた。 \url{https://github.com/om-ai-lab/RS5M}。

Pre-trained Vision-Language Models (VLMs) utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain pre-trained Vision-Language Model (DVLM), bridging the gap between the General Vision-Language Model (GVLM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we fine-tuned the CLIP model and tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DVLM. Experimental results show that our proposed dataset is highly effective for various tasks, and our model GeoRSCLIP improves upon the baseline or previous state-of-the-art model by $3\%\sim20\%$ in Zero-shot Classification (ZSC), $3\%\sim6\%$ in Remote Sensing Cross-Modal Text-Image Retrieval (RSCTIR) and $4\%\sim5\%$ in Semantic Localization (SeLo) tasks. Dataset and models have been released in: \url{https://github.com/om-ai-lab/RS5M}.
翻訳日:2023-12-06 12:45:44 公開日:2023-12-05
# HRCTCov19 -- 新型コロナウイルスの診断と鑑別のための高分解能胸部CT画像データセット

HRCTCov19 -- A High-Resolution Chest CT Scan Image Dataset for COVID-19 Diagnosis and Differentiation ( http://arxiv.org/abs/2205.03408v3 )

ライセンス: Link先を確認
Iraj Abedi, Mahsa Vali, Bentolhoda Otroshi, Maryam Zamanian, Hamidreza Bolhasani(参考訳) 導入:COVID-19パンデミックの間、CT(Computerd tomography)は新型コロナウイルス患者を診断するための一般的な方法であった。 HRCT(High-Resolution Computed Tomography)は、画像分解能を改善するために高度な手法を用いるCTの一種である。 一般にアクセス可能な新型コロナウイルスのCT画像データセットは、プライバシー上の懸念のため、非常に難しいため、CT画像に基づいたAIによる新型コロナウイルスの診断アルゴリズムの研究と開発を妨げている。 HRCTCov19は、GGO(Gold Glass Opacity)、Crazy Paving(クレイジー・パビング)、Air Space Consolidation(スペース・コンソリデーション)といった新型コロナウイルスの症例だけでなく、陰性な新型コロナウイルスの症例のCT画像も含む、新しい高解像度胸部CTスキャンデータセットである。 HRCTCov19データセットには、スライスレベルと患者レベルのラベルが含まれており、特に人工知能アルゴリズム、機械学習、ディープラーニング手法を用いた診断と分化のための新型コロナウイルス研究を支援する可能性がある。 このデータセットは、http://databiox.comでWebからアクセス可能で、GGO、クレイジーパビング、Air Space Consolidation、Negativeという4つのラベルを持つ395人の患者の181,106個の胸部HRCTイメージを含んでいる。 キーワード:COVID-19、CTスキャン、CT、胸部画像、データセット、医療画像

Introduction: During the COVID-19 pandemic, computed tomography (CT) was a popular method for diagnosing COVID-19 patients. HRCT (High-Resolution Computed Tomography) is a form of computed tomography that uses advanced methods to improve image resolution. Publicly accessible COVID-19 CT image datasets are very difficult to come by due to privacy concerns, which impedes the study and development of AI-powered COVID-19 diagnostic algorithms based on CT images. Data description: To address this problem, we have introduced HRCTCov19, a new COVID-19 high-resolution chest CT scan image dataset that includes not only COVID-19 cases of Ground Glass Opacity (GGO), Crazy Paving, and Air Space Consolidation but also CT images of cases with negative COVID-19. The HRCTCov19 dataset, which includes slice-level, and patient-level labels, has the potential to aid COVID-19 research, especially for diagnosis and differentiation using artificial intelligence algorithms, machine learning, and deep learning methods. This dataset is accessible through the web at: http://databiox.com and includes 181,106 chest HRCT images from 395 patients with four labels: GGO, Crazy Paving, Air Space Consolidation, and Negative. Keywords: COVID-19, CT scan, Computed Tomography, Chest Image, Dataset, Medical Imaging
翻訳日:2023-12-06 12:45:02 公開日:2023-12-05
# 有利蒸留技術を用いた双フィールド量子鍵分布の性能向上

Improving the performance of twin-field quantum key distribution with advantage distillation technology ( http://arxiv.org/abs/2202.10059v6 )

ライセンス: Link先を確認
Hong-Wei Li, Rui-Qiang Wang, Chun-Mei Zhang and Qing-Yu Cai(参考訳) 本研究では,集合攻撃下での実用的双フィールド量子鍵分散システムの性能向上に有利な蒸留法を適用した。 前田・佐々木・小橋(Nature Communication 10, 3140 (2019))による以前の分析結果と比較すると, 解析法により得られた最大伝送距離は420kmから470kmに増加する。 損失非依存的不整合誤差を12%に増やすことで、従来の解析手法では速度-距離境界を克服できない。 しかし,本解析法では,誤差が16%の場合,速度距離境界を克服できる。 さらに,不整合誤差が50%に近い場合でも,ツインフィールド量子鍵分布が正のセキュア鍵を生成することを証明し,実用的なツインフィールド量子鍵分布システムの性能を著しく向上させることができる。

In this work, we apply the advantage distillation method to improve the performance of a practical twin-field quantum key distribution system under collective attack. Compared with the previous analysis result given by Maeda, Sasaki and Koashi [Nature Communication 10, 3140 (2019)], the maximal transmission distance obtained by our analysis method will be increased from 420 km to 470 km. By increasing the loss-independent misalignment error to 12%, the previous analysis method can not overcome the rate-distance bound. However, our analysis method can still overcome the rate-distance bound when the misalignment error is 16%. More surprisingly, we prove that twin-field quantum key distribution can generate positive secure key even if the misalignment error is close to 50%, thus our analysis method can significantly improve the performance of a practical twin-field quantum key distribution system.
翻訳日:2023-12-06 12:44:37 公開日:2023-12-05
# LLM評価器の競合レベル問題

Competition-Level Problems are Effective LLM Evaluators ( http://arxiv.org/abs/2312.02143v2 )

ライセンス: Link先を確認
Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)は印象的な推論能力を示しているが、これらの能力と潜在的なデータ汚染問題に関して議論が続いている。 本稿では,LLMの推論能力,特に専門的かつ独特な,深い理解と堅牢な推論能力を必要とするCodeforcesにおける近年の競合レベルのプログラミング問題を解くことを目的とした。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4のゼロショット性能を総合的に評価する。 驚くべきことに、gpt-4の悲惨な性能は、2021年9月以降、データ汚染の可能性を示唆するあらゆる困難と種類の問題と、未発見の複雑な推論問題を解決するための既存のllmの課題を一貫して越えるほどに低下している。 私たちはさらに、微調整、チェーン・オブ・マインド(chain-of-thought)のプロンプト、問題記述の単純化といった様々なアプローチを探求します。 我々は,LLMの真の推論能力を評価する上で,この優れたデータソースの重要性を強調し,より強力な推論能力と将来的な一般化によるLCMの開発を促進する。

Large language models (LLMs) have demonstrated impressive reasoning capabilities, yet there is ongoing debate about these abilities and the potential data contamination problem recently. This paper aims to evaluate the reasoning capacities of LLMs, specifically in solving recent competition-level programming problems in Codeforces, which are expert-crafted and unique, requiring deep understanding and robust reasoning skills. We first provide a comprehensive evaluation of GPT-4's peiceived zero-shot performance on this task, considering various aspects such as problems' release time, difficulties, and types of errors encountered. Surprisingly, the peiceived performance of GPT-4 has experienced a cliff like decline in problems after September 2021 consistently across all the difficulties and types of problems, which shows the potential data contamination, as well as the challenges for any existing LLM to solve unseen complex reasoning problems. We further explore various approaches such as fine-tuning, Chain-of-Thought prompting and problem description simplification, unfortunately none of them is able to consistently mitigate the challenges. Through our work, we emphasis the importance of this excellent data source for assessing the genuine reasoning capabilities of LLMs, and foster the development of LLMs with stronger reasoning abilities and better generalization in the future.
翻訳日:2023-12-06 12:39:37 公開日:2023-12-05
# TriDeNT: 病理組織学における予備知識蒸留のための3つの深層ネットワークトレーニング

TriDeNT: Triple Deep Network Training for Privileged Knowledge Distillation in Histopathology ( http://arxiv.org/abs/2312.02111v2 )

ライセンス: Link先を確認
Lucas Farndale, Robert Insall, Ke Yuan(参考訳) 計算病理モデルは推論に利用できないデータを活用することは滅多にない。 これは、ほとんどのモデルは、追加の免疫組織化学的(IHC)染色や空間転写学のような非常に情報性の高いデータから学べないことを意味する。 提案するTriDeNTは,推論中に利用できない特権データを利用した,パフォーマンス向上のための自己教師型手法である。 本手法は,免疫組織化学,空間転写学,専門的核アノテーションなど多種多様な対データに対して有効性を示す。 あらゆる設定において、TriDeNTはダウンストリームタスクにおける他の最先端メソッドよりも優れており、最大101%の改善が観察されている。 さらに,これらのモデルから得られた特徴の質的,定量的な測定と,それらがベースラインとどのように異なるかを示す。 TriDeNTは、トレーニング中に少ないデータや高価なデータから知識を排除し、ルーチン入力のためのはるかに優れたモデルを作成する新しい方法を提供する。

Computational pathology models rarely utilise data that will not be available for inference. This means most models cannot learn from highly informative data such as additional immunohistochemical (IHC) stains and spatial transcriptomics. We present TriDeNT, a novel self-supervised method for utilising privileged data that is not available during inference to improve performance. We demonstrate the efficacy of this method for a range of different paired data including immunohistochemistry, spatial transcriptomics and expert nuclei annotations. In all settings, TriDeNT outperforms other state-of-the-art methods in downstream tasks, with observed improvements of up to 101%. Furthermore, we provide qualitative and quantitative measurements of the features learned by these models and how they differ from baselines. TriDeNT offers a novel method to distil knowledge from scarce or costly data during training, to create significantly better models for routine inputs.
翻訳日:2023-12-06 12:39:12 公開日:2023-12-05
# videowap:インタラクティブなセマンティックポイント対応でビデオ主題をスワップする

VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence ( http://arxiv.org/abs/2312.02087v2 )

ライセンス: Link先を確認
Yuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao, Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang(参考訳) 現在の拡散に基づくビデオ編集は、時間的一貫性と動きのアライメントを確保するために、様々な密接な対応を利用する構造保存編集に重点を置いている。 しかし、これらのアプローチは、ターゲット編集が形状変化を伴う場合、しばしば効果がない。 形状変化を伴う映像編集を行うために,本研究では,映像の主主題を個別の同一性と潜在的に異なる形状の対象対象に置き換えることを目的とした,カスタマイズされた映像主題交換について検討する。 従来の高密度対応手法とは対照的に,本研究では,対象の運動軌跡を整列し形状を変更するために,少数の意味点しか必要としないという観察から着想を得た,意味点対応を利用した VideoSwap フレームワークを導入する。 また,様々な意味点対応に対応するために,様々なユーザ・ポイント間インタラクション(例えば,ポイントの削除,ドラッグポイント)を導入する。 広範囲な実験により、実世界の様々なビデオで最先端のビデオテーマスワップ結果が実証された。

Current diffusion-based video editing primarily focuses on structure-preserved editing by utilizing various dense correspondences to ensure temporal consistency and motion alignment. However, these approaches are often ineffective when the target edit involves a shape change. To embark on video editing with shape change, we explore customized video subject swapping in this work, where we aim to replace the main subject in a source video with a target subject having a distinct identity and potentially different shape. In contrast to previous methods that rely on dense correspondences, we introduce the VideoSwap framework that exploits semantic point correspondences, inspired by our observation that only a small number of semantic points are necessary to align the subject's motion trajectory and modify its shape. We also introduce various user-point interactions (\eg, removing points and dragging points) to address various semantic point correspondence. Extensive experiments demonstrate state-of-the-art video subject swapping results across a variety of real-world videos.
翻訳日:2023-12-06 12:38:57 公開日:2023-12-05
# 2次元傾斜双極子ボソンの密度波型超固体

Density-wave-type supersolid of two-dimensional tilted dipolar bosons ( http://arxiv.org/abs/2312.01716v2 )

ライセンス: Link先を確認
A.N. Aleksandrova, I.L. Kurbakov, A.K. Fedorov, Yu.E. Lozovik(参考訳) 傾斜した双極子粒子の希薄気体の密度波型超固体相を二次元(2次元)形状で予測する。 この多体相は、ボース=アインシュタイン凝縮とゼロ温度での超流動と共存するストライプパターンの形成と弾性によって現れる。 傾斜角の増大に伴い、系の2次元特性にもかかわらずガス-超固体遷移のタイプが第1次から第2次へと変化する一方、異方性と多体安定化相互作用は重要な役割を果たす。 本手法は自由エネルギー汎関数に対するシミュレートアニーリング法を用いた位相図の数値解析に基づいている。 予測された超固体効果は、ヘテロ構造の励起子から光ポテンシャルの低温原子や極性分子まで様々な実験装置で実現できる。

We predict a stable density-waves-type supersolid phase of a dilute gas of tilted dipolar bosons in a two-dimensional (2D) geometry. This many-body phase is manifested by the formation of the stripe pattern and elasticity coexisting together with the Bose-Einstein condensation and superfluidity at zero temperature. With the increasing the tilting angle the type of the gas-supersolid transition changes from the first order to the second one despite the 2D character of the system, whereas the anisotropy and many-body stabilizing interactions play crucial role. Our approach is based on the numerical analysis of the phase diagram using the simulated annealing method for a free-energy functional. The predicted supersolid effect can be realized in a variety of experimental setups ranging from excitons in heterostructures to cold atoms and polar molecules in optical potentials.
翻訳日:2023-12-06 12:38:39 公開日:2023-12-05
# Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール

Hulk: A Universal Knowledge Translator for Human-Centric Tasks ( http://arxiv.org/abs/2312.01697v2 )

ライセンス: Link先を確認
Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang(参考訳) 人間中心の知覚タスク、例えば、人間のメッシュ回復、歩行者検出、骨格に基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業的応用を持つ。 近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。 多くの人間中心の基礎モデルが成功したが、その多くは2dビジョンタスクでのみ優れているか、現実のシナリオで実用的な配置のために広範囲な微調整を必要とする。 これらの制限は、様々な下流のタスクや状況におけるユーザビリティを著しく制限する。 これらの課題に対処するために,Hulkは,タスク固有の微調整を伴わずに,主要なタスクのほとんどに同時に対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルである。 これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。 2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。 この一様表現により、ハルクは人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクの知識を統合することができる。 提案手法の有効性を検証するため,人間中心の8つのタスクにまたがる11のベンチマークの総合的な実験を行った。 実験結果は従来の方法を大きく上回り,提案手法の優越性を示した。 コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。

Human-centric perception tasks, e.g., human mesh recovery, pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, most of them only excel in 2D vision tasks or require extensive fine-tuning for practical deployment in real-world scenarios. These limitations severely restrict their usability across various downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing most of the mainstream tasks simultaneously without task-specific finetuning, covering 2D vision, 3D vision, skeleton-based, and vision-language tasks. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, e.g., languages, and the other for continuous representations, e.g., location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. To validate the effectiveness of our proposed method, we conduct comprehensive experiments on 11 benchmarks across 8 human-centric tasks. Experimental results surpass previous methods substantially, demonstrating the superiority of our proposed method. The code will be available on https://github.com/OpenGVLab/HumanBench.
翻訳日:2023-12-06 12:38:26 公開日:2023-12-05
# Jellyfish: データ前処理のための大規模言語モデル

Jellyfish: A Large Language Model for Data Preprocessing ( http://arxiv.org/abs/2312.01678v2 )

ライセンス: Link先を確認
Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada(参考訳) 本稿では,オープンソースのLCMであるJellyfishを,DPのためのユニバーサルタスクソルバとして紹介する。 Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインプット、スキーママッチング、エンティティマッチングなど、典型的なDPタスクのデータセットをトレーニングし、他のタスクに一般化機能を提供する。 驚くべきことに、jellyfishは130億のパラメータで、ローカル、シングル、低価格のgpu上で動作でき、データのセキュリティを確保し、さらなるチューニングを可能にする。 自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。 事前知識に大きく依存する既存の多くのメソッドとは異なり、Jellyfishはチューニングプロセス中にドメイン知識を取得し、推論中に任意の知識注入を統合する。 Jellyfishの特徴的な特徴はインタプリタであり、出力決定を解明する。 Jellyfishを構築するために、我々は一連の事前調整およびDPチューニング技術を開発した。 jellyfishには、生データをモデルプロンプトに自動的に変換するインスタンスシリアライザと、タスクやデータセット固有の知識を任意に導入してdpパフォーマンスを向上させるナレッジインジェクタが備えられている。 実データを用いたjellyfishの評価は,最先端の手法と比較してその競合性,未認識のタスクに対する強い一般化性を示している。 JellyfishのパフォーマンスはGPTシリーズモデルに匹敵し、インタプリタはGPT-3.5に比べて推論能力が向上した。 また,jellyfishの構築における技術の有効性についても評価を行った。 私たちのモデルはHugging Faceで利用可能です。

In this paper, we present Jellyfish, an open-source LLM as a universal task solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned with the datasets of several typical DP tasks including error detection, data imputation, schema matching, and entity matching, and delivers generalizability to other tasks. Remarkably, Jellyfish can operate on a local, single, and low-priced GPU with its 13 billion parameters, ensuring data security and enabling further tuning. Its proficiency in understanding natural language allows users to manually craft instructions for DP tasks. Unlike many existing methods that heavily rely on prior knowledge, Jellyfish acquires domain knowledge during its tuning process and integrates optional knowledge injection during inference. A distinctive feature of Jellyfish is its interpreter, which elucidates its output decisions. To construct Jellyfish, we develop a series of pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance serializer, which automatically translates raw data into model prompts, and a knowledge injector, which optionally introduces task- and dataset-specific knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range of real datasets, shows its competitiveness compared to state-of-the-art methods and its strong generalizability to unseen tasks. Jellyfish's performance rivals that of GPT series models, and its interpreter offers enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our evaluation highlights the effectiveness of the techniques employed in constructing Jellyfish. Our model is available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish .
翻訳日:2023-12-06 12:37:59 公開日:2023-12-05
# ロバストなDINO特徴によるマルチタスク画像復元

Multi-task Image Restoration Guided By Robust DINO Features ( http://arxiv.org/abs/2312.01677v2 )

ライセンス: Link先を確認
Xin Lin, Chao Ren, Kelvin C.K. Chan, Lu Qi, Jinshan Pan, Ming-Hsuan Yang(参考訳) マルチタスクイメージの復元は、その本質的な汎用性と効率性がシングルタスクに比べて大きな関心を集めている。 潜在的な可能性にもかかわらず、パフォーマンスの低下はタスク数の増加とともに観察され、主に各修復タスクの異なる性質によって引き起こされる。 この課題に対処するため,DINOv2 から抽出したロバストな特徴を利用した新しいマルチタスク画像復元手法である \mbox{\textbf{DINO-IR}} を導入する。 実験結果から,dinov2の浅い特徴は低レベルな画像特性をとらえるが,深い特徴は劣化に敏感なロバストな意味表現を保証し,高周波輪郭の細部を保存できることを示した。 これらの機能を基に,多層セマンティクス融合モジュール,dino-restore adaption and fusionモジュール,dino知覚コントラスト損失といった特殊コンポーネントを考案し,dinov2機能を復元パラダイムに統合する。 上記のコンポーネントを装備したdino-irは,既存のマルチタスク画像復元アプローチに対して大きなマージンで有利に動作し,マルチタスク画像復元のためのロバスト機能強化の必要性を示す。

Multi-task image restoration has gained significant interest due to its inherent versatility and efficiency compared to its single-task counterpart. Despite its potential, performance degradation is observed with an increase in the number of tasks, primarily attributed to the distinct nature of each restoration task. Addressing this challenge, we introduce \mbox{\textbf{DINO-IR}}, a novel multi-task image restoration approach leveraging robust features extracted from DINOv2. Our empirical analysis shows that while shallow features of DINOv2 capture rich low-level image characteristics, the deep features ensure a robust semantic representation insensitive to degradations while preserving high-frequency contour details. Building on these features, we devise specialized components, including multi-layer semantic fusion module, DINO-Restore adaption and fusion module, and DINO perception contrastive loss, to integrate DINOv2 features into the restoration paradigm. Equipped with the aforementioned components, our DINO-IR performs favorably against existing multi-task image restoration approaches in various tasks by a large margin, indicating the superiority and necessity of reinforcing the robust features for multi-task image restoration.
翻訳日:2023-12-06 12:37:31 公開日:2023-12-05
# 画像検索の現代的技術 : 視覚言語モデルによる反復的ユーザインテント拡張

The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model ( http://arxiv.org/abs/2312.01656v2 )

ライセンス: Link先を確認
Yilin Ye, Qian Zhu, Shishi Xiao, Kang Zhang, Wei Zeng(参考訳) 画像検索は、デジタル画像の広大なギャラリーを探索するための必須かつユーザフレンドリーな方法である。 しかし、既存の画像検索手法はタグマッチングや画像類似性といった近接測定に大きく依存しており、良好な結果を得るために正確なユーザ入力を必要とする。 ユーザの検索意図を正確に理解できる現代画像検索エンジンの需要の高まりに対応するために,革新的なユーザ意図拡張フレームワークを導入する。 本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。 2段階からなる。 1) 大きな言語モデルを持つ言語解析モジュールを組み込んだ解析ステージは、テキスト入力の理解を深めるとともに、画像内の詳細な視覚要素を迅速に識別するインタラクティブセグメンテーションモジュールを統合したビジュアル解析モジュールである。 2) 複雑な検索シナリオにおいて,複数のユーザ検索意図を統一された論理式に組み合わせた論理合成ステージ。 さらに、インテント拡張フレームワークにより、ユーザは検索結果との柔軟な文脈的相互作用を実行でき、より詳細な検索インテントを反復的に指定または調整することができる。 nft(non-fungible token)検索のための画像検索システムとして実装し,ユーザビリティと新しい特性を評価するためのユーザ調査を行った。 その結果,提案フレームワークはユーザの画像検索体験を大幅に改善することがわかった。 特に、パースとコンテキスト化されたインタラクションは、ユーザーが検索意図をより正確に表現し、より楽しい反復的な検索体験に役立ちます。

Image search is an essential and user-friendly method to explore vast galleries of digital images. However, existing image search methods heavily rely on proximity measurements like tag matching or image similarity, requiring precise user inputs for satisfactory results. To meet the growing demand for a contemporary image search engine that enables accurate comprehension of users' search intentions, we introduce an innovative user intent expansion framework. Our framework leverages visual-language models to parse and compose multi-modal user inputs to provide more accurate and satisfying results. It comprises two-stage processes: 1) a parsing stage that incorporates a language parsing module with large language models to enhance the comprehension of textual inputs, along with a visual parsing module that integrates an interactive segmentation module to swiftly identify detailed visual elements within images; and 2) a logic composition stage that combines multiple user search intents into a unified logic expression for more sophisticated operations in complex searching scenarios. Moreover, the intent expansion framework enables users to perform flexible contextualized interactions with the search results to further specify or adjust their detailed search intents iteratively. We implemented the framework into an image search system for NFT (non-fungible token) search and conducted a user study to evaluate its usability and novel properties. The results indicate that the proposed framework significantly improves users' image search experience. Particularly the parsing and contextualized interactions prove useful in allowing users to express their search intents more accurately and engage in a more enjoyable iterative search experience.
翻訳日:2023-12-06 12:36:49 公開日:2023-12-05
# 深層学習による溶接品質制御の強化:ヘアピン溶接における溶接深さと間隙体積の予測

Deep Learning-Driven Enhancement of Welding Quality Control: Predicting Welding Depth and Pore Volume in Hairpin Welding ( http://arxiv.org/abs/2312.01606v2 )

ライセンス: Link先を確認
Amena Darwish, Stefan Ericson, Rohollah Ghasemi, Tobias Andersson, Dan L\"onn, Andreas Andersson Lassila, Kent Salomonsson(参考訳) 本研究は, 溶接工程における品質保証を向上するために, 溶接深度と平均孔容積の2つの臨界溶接性能特性(KPC)の予測を可能にする頑健な深層学習モデルを提案する。 提案手法では, レーザ溶接キー入力特性 (KIC) の包括的範囲を利用して, 溶接梁ジオメトリー, 溶接供給速度, 溶接梁ジオメトリーの経路繰り返し, およびヘアピン溶接実験から得られた全経路に対する明るい光溶接率について検討した。 2つのディープラーニングネットワークには、複数の隠れた層と線形活性化機能があり、溶接KPCやKICに固有の複雑な非線形接続を捕捉するディープニューラルネットワークの機能を示す。 深層学習ネットワークを小さな数値実験ヘアピン溶接データセットに適用すると,平均細孔体積は0.0641,溶接深度は0.1079となる平均絶対誤差(MAE)値が得られるという有望な結果が得られた。 また,妥当性検証により,提案手法の信頼性が実証される。 このことは、溶接結果の制御において大きな利点を約束し、欠陥分類の監視にのみ依存する現在の傾向を越えている。

To advance quality assurance in the welding process, this study presents a robust deep learning model that enables the prediction of two critical welds Key Performance Characteristics (KPCs): welding depth and average pore volume. In the proposed approach, a comprehensive range of laser welding Key Input Characteristics (KICs) is utilized, including welding beam geometries, welding feed rates, path repetitions for weld beam geometries, and bright light weld ratios for all paths, all of which were obtained from hairpin welding experiments. Two deep learning networks are employed with multiple hidden dense layers and linear activation functions to showcase the capabilities of deep neural networks in capturing the intricate nonlinear connections inherent within welding KPCs and KICs. Applying deep learning networks to the small numerical experimental hairpin welding dataset has shown promising results, achieving Mean Absolute Error (MAE) values as low as 0.1079 for predicting welding depth and 0.0641 for average pore volume. Additionally, the validity verification demonstrates the reliability of the proposed method. This, in turn, promises significant advantages in controlling welding outcomes, moving beyond the current trend of relying merely on monitoring for defect classification.
翻訳日:2023-12-06 12:36:22 公開日:2023-12-05
# T3D:ビジョンランゲージによる3次元医用画像理解を目指して

T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training ( http://arxiv.org/abs/2312.01529v2 )

ライセンス: Link先を確認
Che Liu, Cheng Ouyang, Yinda Chen, Cesar C\'esar Quilodr\'an-Casas, Lei Ma, Jie Fu, Yike Guo, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 下流分析のための3次元医用画像のエキスパートアノテーションは資源集約的であり、臨床応用における課題を提起する。 visual self-supervised learning (vssl) は、視覚の不変性を学ぶのに有効であるが、医学からドメイン知識を取り入れることを無視している。 医用知識を視覚表現学習に取り入れるため,視覚言語事前学習(VLP)は2次元画像に有望な結果を示した。 しかし、GPUハードウェアの制約と、ハードウェアの制約に対する直感的な解決策であるダウンサンプリングによる重要な詳細の損失により、既存のVLPアプローチが高解像度の3D医療画像に適用されると、一般的には非現実的になる。 上記の制限に対処するため,高解像度の3D医療画像用に設計された最初のVLPフレームワークであるT3Dを紹介する。 T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (\lowerromannumeral{1}) テキストインフォームド・コントラスト学習; (\lowerromannumeral{2}) テキストインフォームド・イメージ復元。 これらの課題は、高解像度の3次元医用画像から3次元視覚表現を学習し、詳細な解剖学的テキストによるダウンサンプルボリュームの強制アライメントを通じて情報を歪めることなく、放射線医学レポートから臨床知識を統合することに焦点を当てている。 T3Dでは、臓器や腫瘍の分節化といったタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れています。 これは3次元医用画像解析のための表現学習におけるt3dの可能性を示す。 すべてのデータとコードは、受け入れ次第利用できる。

Expert annotation of 3D medical image for downstream analysis is resource-intensive, posing challenges in clinical applications. Visual self-supervised learning (vSSL), though effective for learning visual invariance, neglects the incorporation of domain knowledge from medicine. To incorporate medical knowledge into visual representation learning, vision-language pre-training (VLP) has shown promising results in 2D image. However, existing VLP approaches become generally impractical when applied to high-resolution 3D medical images due to GPU hardware constraints and the potential loss of critical details caused by downsampling, which is the intuitive solution to hardware constraints. To address the above limitations, we introduce T3D, the first VLP framework designed for high-resolution 3D medical images. T3D incorporates two text-informed pretext tasks: (\lowerromannumeral{1}) text-informed contrastive learning; (\lowerromannumeral{2}) text-informed image restoration. These tasks focus on learning 3D visual representations from high-resolution 3D medical images and integrating clinical knowledge from radiology reports, without distorting information through forced alignment of downsampled volumes with detailed anatomical text. Trained on a newly curated large-scale dataset of 3D medical images and radiology reports, T3D significantly outperforms current vSSL methods in tasks like organ and tumor segmentation, as well as disease classification. This underlines T3D's potential in representation learning for 3D medical image analysis. All data and code will be available upon acceptance.
翻訳日:2023-12-06 12:35:57 公開日:2023-12-05
# 多目的MCMCのさらなる量子スピードアップ

More Quantum Speedups for Multiproposal MCMC ( http://arxiv.org/abs/2312.01402v2 )

ライセンス: Link先を確認
Chin-Yi Lin, Kuo-Chin Chen, Philippe Lemey, Marc A. Suchard, Andrew J. Holbrook, Min-Hsiu Hsieh(参考訳) マルチプロポサルマルコフ連鎖モンテカルロ(MCMC)アルゴリズムは、目標分布をより効率的にサンプリングするために、各イテレーションで複数の提案から選択する。 最近の研究は、そのような多目的MCMCアルゴリズムの2次量子スピードアップの可能性を示している。 P$の提案を用いると、この量子並列MCMC QPMCMCアルゴリズムは各ステップでの目標評価に$\mathcal{O}(\sqrt{P})$のみを必要とする。 ここでは,QPMCMC2という高速な量子多元性MCMC戦略を提案する。これは,$\mathcal{O}(1)$ターゲット評価と$\mathcal{O}(\log P)$クォービットのみを必要とする。 前者とは異なり、QPMCMC2 Markov kernel (1) は詳細なバランスを維持しており、(2) は大規模なグラフィカルモデルに対して完全に明示的である。 細菌進化ネットワーク上に構築された新規Ising型モデルにQPMCMC2を適用し,248種のサルモネラ菌に対するベイズ祖先形質再構成の大幅な高速化を図った。

Multiproposal Markov chain Monte Carlo (MCMC) algorithms choose from multiple proposals at each iteration in order to sample from challenging target distributions more efficiently. Recent work demonstrates the possibility of quadratic quantum speedups for one such multiproposal MCMC algorithm. Using $P$ proposals, this quantum parallel MCMC QPMCMC algorithm requires only $\mathcal{O}(\sqrt{P})$ target evaluations at each step. Here, we present a fast new quantum multiproposal MCMC strategy, QPMCMC2, that only requires $\mathcal{O}(1)$ target evaluations and $\mathcal{O}(\log P)$ qubits. Unlike its slower predecessor, the QPMCMC2 Markov kernel (1) maintains detailed balance exactly and (2) is fully explicit for a large class of graphical models. We demonstrate this flexibility by applying QPMCMC2 to novel Ising-type models built on bacterial evolutionary networks and obtain significant speedups for Bayesian ancestral trait reconstruction for 248 observed salmonella bacteria.
翻訳日:2023-12-06 12:35:32 公開日:2023-12-05
# 2つの絡み合った光子の波動特性と粒子特性の分離

Separating the wave and particle attributes of two entangled photons ( http://arxiv.org/abs/2312.01316v2 )

ライセンス: Link先を確認
Yusuf Turek and Yi-Fang Ren(参考訳) 経路状態の事前選択と後選択を適切に選択することにより、2つの絡み合った光子の波動と粒子特性を空間的に分離する実現可能なスキームを提唱した。 2光子状態の量子チェシャー猫現象を実装したこの手法は、2つの絡み合った光子の波動および粒子特性の観測がボーアの相補性原理に常に従うことを保証している。

We put forward a feasible scheme to spatially separate the wave and particle properties of two entangled photons by properly choosing the pre- and post-selection of path states. Our scheme, which implements the quantum Cheshire cat phenomenon for two-photon states, also guarantees that the observation of wave and particle properties of the two entangled photons always obey the Bohr's complementarity principle.
翻訳日:2023-12-06 12:35:10 公開日:2023-12-05
# 超音波画像における運動インフォームド針分割

Motion Informed Needle Segmentation in Ultrasound Images ( http://arxiv.org/abs/2312.01239v2 )

ライセンス: Link先を確認
Raghavv Goel, Cecilia Morales, Manpreet Singh, Artur Dubrawski, John Galeotti, Howie Choset(参考訳) 超音波画像における移動針のセグメンテーションは, 人工物, ノイズ, 針閉塞の存在により困難である。 このタスクは、データ可用性が制限された場合にさらに要求される。 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションで成功しているが、針の動きを考慮せずに正確に針を分割することは困難である。 本稿では,従来のカルマンフィルタ(kf)技術とデータ駆動学習を組み合わせた針分割法を提案する。 我々の方法には2つの重要な貢献がある。 まず、よく使われるエンコーダ-デコーダスタイルアーキテクチャにシームレスに統合する互換性のあるフレームワークを提案する。 第2に,新しい畳み込みニューラルネットワーク(CNN)をベースとしたKFインスパイアブロックを用いた最新の針分割モデルと比較して,画素ワイド針先端誤差の15倍,長さ誤差の8倍の低減を実現した。 第3に, 針のセグメンテーションを改善するために, 非線形針運動を組み込んだ学習可能なフィルタを最初に実装した。

Segmenting a moving needle in ultrasound images is challenging due to the presence of artifacts, noise, and needle occlusion. This task becomes even more demanding in scenarios where data availability is limited. Convolutional Neural Networks (CNNs) have been successful in many computer vision applications, but struggle to accurately segment needles without considering their motion. In this paper, we present a novel approach for needle segmentation that combines classical Kalman Filter (KF) techniques with data-driven learning, incorporating both needle features and needle motion. Our method offers two key contributions. First, we propose a compatible framework that seamlessly integrates into commonly used encoder-decoder style architectures. Second, we demonstrate superior performance compared to recent state-of-the-art needle segmentation models using our novel convolutional neural network (CNN) based KF-inspired block, achieving a 15\% reduction in pixel-wise needle tip error and an 8\% reduction in length error. Third, to our knowledge we are the first to implement a learnable filter to incorporate non-linear needle motion for improving needle segmentation.
翻訳日:2023-12-06 12:35:01 公開日:2023-12-05
# 画像分類作業における視覚変換器の総合的研究

A Comprehensive Study of Vision Transformers in Image Classification Tasks ( http://arxiv.org/abs/2312.01232v2 )

ライセンス: Link先を確認
Mahmoud Khalil, Ahmad Khalil and Alioune Ngom(参考訳) 画像分類はコンピュータビジョンの分野における基本的な課題であり、しばしばコンピュータビジョンの進歩のベンチマークとして機能する。 近年,ディープラーニングの出現により画像分類が著しく進歩している。 しかし、詳細な視覚情報モデリング、高い計算コスト、モデルの並列性、データセット間の一貫性のない評価プロトコルといった課題がまだ残っている。 本稿では,画像分類のための視覚トランスフォーマーに関する既存論文の包括的調査を行う。 まず,モデルの設計に影響を及ぼす人気画像分類データセットを紹介する。 次に視覚トランスフォーマーを時系列的に提示し,注意機構を視覚タスクに適用する初期の試みから,視覚トランスフォーマーの採用に至るまで,画像内の複雑なパターンや長距離依存性の把握に成功していることを示す。 最後に,オープンな問題について議論し,新たな研究アイデアを促進するための画像分類の機会について考察した。

Image Classification is a fundamental task in the field of computer vision that frequently serves as a benchmark for gauging advancements in Computer Vision. Over the past few years, significant progress has been made in image classification due to the emergence of deep learning. However, challenges still exist, such as modeling fine-grained visual information, high computation costs, the parallelism of the model, and inconsistent evaluation protocols across datasets. In this paper, we conduct a comprehensive survey of existing papers on Vision Transformers for image classification. We first introduce the popular image classification datasets that influenced the design of models. Then, we present Vision Transformers models in chronological order, starting with early attempts at adapting attention mechanism to vision tasks followed by the adoption of vision transformers, as they have demonstrated success in capturing intricate patterns and long-range dependencies within images. Finally, we discuss open problems and shed light on opportunities for image classification to facilitate new research ideas.
翻訳日:2023-12-06 12:34:38 公開日:2023-12-05
# 連続的強化学習における離散表現の活用

Harnessing Discrete Representations For Continual Reinforcement Learning ( http://arxiv.org/abs/2312.01203v2 )

ライセンス: Link先を確認
Edan Meyer, Adam White, Marlos C. Machado(参考訳) 強化学習(Reinforcement Learning, RL)エージェントは、環境からの観察のみを用いて決定を行い、その結果、これらの観察の表現に大きく依存する。 最近のブレークスルーでは、しばしば離散表現と呼ばれるベクトルベースの分類表現が用いられているが、そのような選択の重要性を明確に評価する研究はほとんどない。 本研究では,強化学習の文脈において,観察をカテゴリー値のベクトルとして表現する利点を徹底的に実証的に検討する。 我々は、世界モデル学習、モデルフリーrl、最終的には継続的なrl問題の評価を行い、その利点は問題設定のニーズに最も合致する。 従来の連続表現と比較すると、世界モデルはより少ない容量で世界のより正確なモデリングを行い、離散表現で訓練されたエージェントはより少ないデータでより良いポリシーを学ぶ。 連続RLの文脈では、これらの利点はより高速な適応剤へと変換される。 さらに,本分析の結果から,潜在ベクトルに含まれる情報や,離散表現自体の符号化により,観測性能が向上する可能性が示唆された。

Reinforcement learning (RL) agents make decisions using nothing but observations from the environment, and consequently, heavily rely on the representations of those observations. Though some recent breakthroughs have used vector-based categorical representations of observations, often referred to as discrete representations, there is little work explicitly assessing the significance of such a choice. In this work, we provide a thorough empirical investigation of the advantages of representing observations as vectors of categorical values within the context of reinforcement learning. We perform evaluations on world-model learning, model-free RL, and ultimately continual RL problems, where the benefits best align with the needs of the problem setting. We find that, when compared to traditional continuous representations, world models learned over discrete representations accurately model more of the world with less capacity, and that agents trained with discrete representations learn better policies with less data. In the context of continual RL, these benefits translate into faster adapting agents. Additionally, our analysis suggests that the observed performance improvements can be attributed to the information contained within the latent vectors and potentially the encoding of the discrete representation itself.
翻訳日:2023-12-06 12:34:23 公開日:2023-12-05