このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240421となっている論文です。

PDF登録状況(公開日: 20240421)

TitleAuthorsAbstract論文公表日・翻訳日
# ブロックチェーンを使用したパブリッククラウドにおけるデータ共有の緩和

Mitigating Data Sharing in Public Cloud using Blockchain ( http://arxiv.org/abs/2404.16872v1 )

ライセンス: Link先を確認
Pratik Patil, Prerna Tulsiani, Dr. Sunil Mane, (参考訳) パブリック・クラウド・コンピューティングは、ビジネスの運営方法に変化をもたらしたため、現代のITインフラの基本的な部分となっている。 しかし、クラウドセキュリティの懸念は、データ保護、共有、アクセス制御に関連する新たなリスクと課題をもたらす。 ブロックチェーンとクラウドのシナジスティックな統合は、大きな可能性を秘めている。 ブロックチェーンの分散台帳は、中央集権的な権威への依存を減らすため、透明性、不変性、効率性を保証する。 これを受けて、当社のフレームワークは、データ権利、データ共有、データバリデーションといった重要な側面を備えた、クラウド内のセキュアなデータエコシステムを提案しています。 また、このアプローチはデータマイグレーションの必要性をなくすことで、相互運用性とスケーラビリティを向上させることを目指している。 これにより、既存のパブリッククラウドベースのシステムが、信頼性の強化とクラウドデータの非再検討を容易にブロックチェーンをデプロイできるようになる。

Public Cloud Computing has become a fundamental part of modern IT infrastructure as its adoption has transformed the way businesses operate. However, cloud security concerns introduce new risks and challenges related to data protection, sharing, and access control. A synergistic integration of blockchain with the cloud holds immense potential. Blockchain's distributed ledger ensures transparency, immutability, and efficiency as it reduces the reliance on centralized authorities. Motivated by this, our framework proposes a secure data ecosystem in the cloud with the key aspects being Data Rights, Data Sharing, and Data Validation. Also, this approach aims to increase its interoperability and scalability by eliminating the need for data migration. This will ensure that existing public cloud-based systems can easily deploy blockchain enhancing trustworthiness and non-repudiation of cloud data.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-21
# AdvPrompter: LLMの高速適応型逆転プロンプト

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs ( http://arxiv.org/abs/2404.16873v1 )

ライセンス: Link先を確認
Anselm Paulus, Arman Zharmagambetov, Chuan Guo, Brandon Amos, Yuandong Tian, (参考訳) 近年のLarge Language Models (LLM) は目覚ましい成功を収めているが、不適切なコンテンツや有害なコンテンツの生成につながる特定のジェイルブレイク攻撃に対して脆弱である。 手動のレッドチームでは、例えば特定の命令に接尾辞を付加することで、このようなジェイルブレイクを引き起こす敵のプロンプトを見つける必要がある。 一方、自動逆数プロンプト生成は、しばしば意味論的に無意味な攻撃をもたらし、難易度に基づくフィルタで容易に検出でき、TargetLLMからの勾配情報を必要としたり、トークン空間上の時間を要する離散的な最適化プロセスのためにうまくスケールしなかったりすることができる。 本稿では,AdvPrompter という別の LLM を用いた新たな手法を提案する。 我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。 このプロセスは,(1)AdvPrompterの予測を最適化して高品質な対向接尾辞を生成すること,および(2)AdvPrompterの対向接尾辞を用いた低ランク細調整を交互に行う。 訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。 人気のあるオープンソースTargetLLMの実験結果は、AdvBenchデータセット上で最先端の結果を示し、クローズドソースのブラックボックスLDM APIに転送する。 さらに,AdvPrompterが生成した合成データセットの微調整により,高いMMLUスコアを維持しながらジェイルブレーキング攻撃に対してLLMをより堅牢にすることができることを示した。

While recently Large Language Models (LLMs) have achieved remarkable successes, they are vulnerable to certain jailbreaking attacks that lead to generation of inappropriate or harmful content. Manual red-teaming requires finding adversarial prompts that cause such jailbreaking, e.g. by appending a suffix to a given instruction, which is inefficient and time-consuming. On the other hand, automatic adversarial prompt generation often leads to semantically meaningless attacks that can easily be detected by perplexity-based filters, may require gradient information from the TargetLLM, or do not scale well due to time-consuming discrete optimization processes over the token space. In this paper, we present a novel method that uses another LLM, called the AdvPrompter, to generate human-readable adversarial prompts in seconds, $\sim800\times$ faster than existing optimization-based approaches. We train the AdvPrompter using a novel algorithm that does not require access to the gradients of the TargetLLM. This process alternates between two steps: (1) generating high-quality target adversarial suffixes by optimizing the AdvPrompter predictions, and (2) low-rank fine-tuning of the AdvPrompter with the generated adversarial suffixes. The trained AdvPrompter generates suffixes that veil the input instruction without changing its meaning, such that the TargetLLM is lured to give a harmful response. Experimental results on popular open source TargetLLMs show state-of-the-art results on the AdvBench dataset, that also transfer to closed-source black-box LLM APIs. Further, we demonstrate that by fine-tuning on a synthetic dataset generated by AdvPrompter, LLMs can be made more robust against jailbreaking attacks while maintaining performance, i.e. high MMLU scores.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-21
# 量子材料と応用の探求 : 概観

Exploring Quantum Materials & Applications: A Review ( http://arxiv.org/abs/2404.17594v1 )

ライセンス: Link先を確認
Rajat Kumar Goyal, (参考訳) 現在の凝縮物質研究は、先進的な材料とその特徴に焦点を当てている。 量子材料(QMs)への関心は、新しい現象と近代科学技術における革新的新技術のプラットフォームとしての可能性のために、減少することなく増加を続けている。 この記事では、QMのユニークな性質によって促進される多様なデバイスやアプリケーションの探索を強調する。 量子コンピューティング、メトロジー、センシング、エネルギー、通信といった分野を包含するこのレビューは、彼らの変革的なポテンシャルを強調している。 QMでは、出現する現象は量子閉じ込め、強い電子相関、トポロジ、対称性によって支配され、これらの物質は分離され、それ自体は例外的である。 本稿では,それらの特性,異なるタイプのQM,様々な学際的応用,既存技術との統合について述べる。 本研究は,様々な発見と進展の簡潔な概要を提供し,複数の領域におけるQMの展望を示す。

Current condensed matter research is centered on advanced materials and their distinctive features. The interest in Quantum materials (QMs) continues to increase without any decrease due to their novel phenomenon and potential as platforms for revolutionary new technologies in modern science and technology. This article emphasizes the exploration of diverse devices and applications facilitated by the unique properties of QMs. Encompassing fields like quantum computing, metrology, sensing, energy, and communication, the review highlights their transformative potential. In QMs, the emerging phenomena are governed by quantum confinement, strong electronic correlations, topology, and symmetry, which makes these materials apart, making them exceptional in their own regard. This paper emphasizes their unique properties, different types of QMs, various interdisciplinary applications, and integration with existing technologies. This study provides a concise overview of diverse discoveries and advancements, presenting a prospective outlook on QMs in multiple domains.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-21
# Layout2Rendering:AI支援のグリーンスペースデザイン

Layout2Rendering: AI-aided Greenspace design ( http://arxiv.org/abs/2404.16067v1 )

ライセンス: Link先を確認
Ran Chen, Zeke Lian, Yueheng He, Xiao Ling, Fuyu Yang, Xueqi Yao, Xingjian Yi, Jing Zhao, (参考訳) 従来の人間生活環境景観デザインでは,デザイン要素の空間的関係を直感的に提示する上で,三次元モデルの構築が不可欠である。 ビューティフルで現実的なランドスケープ空間を迅速かつ効果的に生成することは、デザイナが直面する重要な課題である。 生成設計は関連分野に広く適用されているが、主に指標パラメータの制限により3次元モデルを生成する。 しかし、ランドスケープデザインの要素は複雑であり、ユニークな要件を持っているため、インジケータ制限の観点からデザインを作成することは困難である。 これらの課題に対処するために,深層学習技術に基づく公園空間生成設計システムを提案する。 本システムは,ランドスケープ要素のトポロジ的関係に基づいて設計計画を生成し,プラン要素情報をベクトル化し,Grasshopperを用いて3次元モデルを生成する。 実験結果から,(1)AI支援技術を用いて,設計者の視点に即した空間緑空間スキームを迅速に生成し,(2)セマンティック情報に基づいて3次元のランドスケープデザイン要素をベクトル化し,三次元化した。(3)本研究で構築した解析・可視化モジュールは,生成した3次元モデルに基づいてランドスケープ解析を行い,ノード効果図を作成できる。

In traditional human living environment landscape design, the establishment of three-dimensional models is an essential step for designers to intuitively present the spatial relationships of design elements, as well as a foundation for conducting landscape analysis on the site. Rapidly and effectively generating beautiful and realistic landscape spaces is a significant challenge faced by designers. Although generative design has been widely applied in related fields, they mostly generate three-dimensional models through the restriction of indicator parameters. However, the elements of landscape design are complex and have unique requirements, making it difficult to generate designs from the perspective of indicator limitations. To address these issues, this study proposes a park space generative design system based on deep learning technology. This system generates design plans based on the topological relationships of landscape elements, then vectorizes the plan element information, and uses Grasshopper to generate three-dimensional models while synchronously fine-tuning parameters, rapidly completing the entire process from basic site conditions to model effect analysis. Experimental results show that: (1) the system, with the aid of AI-assisted technology, can rapidly generate space green space schemes that meet the designer's perspective based on site conditions; (2) this study has vectorized and three-dimensionalized various types of landscape design elements based on semantic information; (3) the analysis and visualization module constructed in this study can perform landscape analysis on the generated three-dimensional models and produce node effect diagrams, allowing users to modify the design in real time based on the effects, thus enhancing the system's interactivity.
翻訳日:2024-04-26 18:22:04 公開日:2024-04-21
# インセプションモデルと両側摂動モデルを用いたロバスト脳波に基づく感情認識

Robust EEG-based Emotion Recognition Using an Inception and Two-sided Perturbation Model ( http://arxiv.org/abs/2404.15373v1 )

ライセンス: Link先を確認
Shadi Sartipi, Mujdat Cetin, (参考訳) 脳波信号を用いた自動感情認識が注目されている。 ディープラーニングアプローチは強いパフォーマンスを示すが、環境騒音や敵攻撃など、様々な摂動に対する脆弱性に悩まされることが多い。 本稿では,脳-コンピュータインタフェースにおける感情認識を高めるために,インセプション特徴発生器と両面摂動(INC-TSP)アプローチを提案する。 INC-TSPは、脳波データ分析のためのインセプションモジュールを統合し、入力摂動に対する防御メカニズムとして双方向摂動(TSP)を使用している。 TSPは、モデルの重みと入力に最悪のケース摂動を導入し、敵攻撃に対するモデルの弾力性を強化する。 提案手法は,入力不確実性の存在下での正確な感情認識を維持するという課題に対処する。 被験者に依存しない3クラス感情認識シナリオにおいて,INC-TSPの有効性を実証した。

Automated emotion recognition using electroencephalogram (EEG) signals has gained substantial attention. Although deep learning approaches exhibit strong performance, they often suffer from vulnerabilities to various perturbations, like environmental noise and adversarial attacks. In this paper, we propose an Inception feature generator and two-sided perturbation (INC-TSP) approach to enhance emotion recognition in brain-computer interfaces. INC-TSP integrates the Inception module for EEG data analysis and employs two-sided perturbation (TSP) as a defensive mechanism against input perturbations. TSP introduces worst-case perturbations to the model's weights and inputs, reinforcing the model's elasticity against adversarial attacks. The proposed approach addresses the challenge of maintaining accurate emotion recognition in the presence of input uncertainties. We validate INC-TSP in a subject-independent three-class emotion recognition scenario, demonstrating robust performance.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-21
# 機械学習に基づく無線位置決めにおける複雑さ低減のための最小記述特徴選択

Minimum Description Feature Selection for Complexity Reduction in Machine Learning-based Wireless Positioning ( http://arxiv.org/abs/2404.15374v1 )

ライセンス: Link先を確認
Myeung Suk Oh, Anindya Bijoy Das, Taejoon Kim, David J. Love, Christopher G. Brinton, (参考訳) 近年,無線位置決め(WP)の難問に対するディープラーニング手法が提案されている。 これらのWPアルゴリズムは複雑なチャネル環境に対して優れた一貫した性能を達成したが、高次元特徴の処理による計算複雑性はモバイルアプリケーションでは禁止される。 本研究では、最小記述機能を利用して、深層学習に基づくWPの複雑さを大幅に低減する新しい位置決めニューラルネットワーク(P-NN)を設計する。 P-NNの特徴選択戦略は、WPを行うために必要な情報を伝えるために、最大電力測定とその時間的位置に基づいている。 スパース画像と測定行列の2種類の入力をインテリジェントに処理することで,P-NNの学習能力を向上させる。 具体的には、ネットワークのトレーニング能力を強化するために、自己注意層を実装します。 また,信号ビン選択に関する情報理論的尺度で定量化された情報ゲインと分類能力を最適化し,特徴空間サイズを適応させる手法を開発した。 計算結果から,P-NNは全電力遅延プロファイル(PDP)を利用する深層学習ベースラインに対して,性能・複雑性トレードオフにおいて大きな優位性を発揮することが示された。 特に,P-NNは最小記述量で不要な計測値が破棄されるため,低SNRの性能が大幅に向上することがわかった。

Recently, deep learning approaches have provided solutions to difficult problems in wireless positioning (WP). Although these WP algorithms have attained excellent and consistent performance against complex channel environments, the computational complexity coming from processing high-dimensional features can be prohibitive for mobile applications. In this work, we design a novel positioning neural network (P-NN) that utilizes the minimum description features to substantially reduce the complexity of deep learning-based WP. P-NN's feature selection strategy is based on maximum power measurements and their temporal locations to convey information needed to conduct WP. We improve P-NN's learning ability by intelligently processing two different types of inputs: sparse image and measurement matrices. Specifically, we implement a self-attention layer to reinforce the training ability of our network. We also develop a technique to adapt feature space size, optimizing over the expected information gain and the classification capability quantified with information-theoretic measures on signal bin selection. Numerical results show that P-NN achieves a significant advantage in performance-complexity tradeoff over deep learning baselines that leverage the full power delay profile (PDP). In particular, we find that P-NN achieves a large improvement in performance for low SNR, as unnecessary measurements are discarded in our minimum description features.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-21
# 測定フリップと反射操作に基づく多人数半量子秘密共有プロトコル

Multi-party Semi-quantum Secret Sharing Protocol based on Measure-flip and Reflect Operations ( http://arxiv.org/abs/2109.01380v3 )

ライセンス: Link先を確認
Li Jian Chong-Qiang Ye, (参考訳) 半量子秘密共有(SQSS)プロトコルは、量子セキュアなマルチパーティ計算の基本的なフレームワークとして機能し、すべてのユーザが複雑な量子デバイスを所有する必要はないという利点を提供する。 しかし、SQSSプロトコルの現在の状況は、主にシナリオを二分し、事実上の複数パーティの秘密共有要件には不十分である。 本稿では,多粒子GHZ状態に基づく新しいSQSSプロトコルを提案する。 このプロトコルでは、量子ユーザは、所定の秘密情報を制限された量子能力を持つ複数の古典的ユーザへ配布し、正しい秘密情報を再構築するために、すべての古典的ユーザ間の協調作業を必要とする。 測定フリップと反射操作を利用することで、送信された多粒子GHZ状態はすべてキーに寄与し、送信された粒子の利用を改善することができる。 セキュリティ分析は、プロトコルが一般的な外部および内部の脅威に対するレジリエンスを示していることを示している。 さらに、IBM Qiskitを用いて、プロトコルの精度と実現可能性を検証するために量子回路シミュレーションを行う。 同様の研究と比較すると、提案プロトコルはプロトコルのスケーラビリティ、量子ビット効率、共有メッセージタイプにおいて利点がある。

Semi-quantum secret sharing (SQSS) protocols serve as fundamental frameworks in quantum secure multi-party computations, offering the advantage of not requiring all users to possess intricate quantum devices. However, the current landscape of SQSS protocols predominantly caters to bipartite scenarios, rendering them inadequate for practical multi-party secret sharing requirements. Addressing this gap, this paper proposes a novel SQSS protocol based on multi-particle GHZ states. In this protocol, the quantum user distributes predetermined secret information to multiple classical users with limited quantum capabilities, necessitating collaborative efforts among all classical users to reconstruct the correct secret information. By utilizing measure-flip and reflect operations, the transmitted multi-particle GHZ states can all contribute keys, thereby improving the utilization of transmitted particles. Security analysis shows that the protocol's resilience against prevalent external and internal threats. Additionally, employing IBM Qiskit, we conduct quantum circuit simulations to validate the protocol's accuracy and feasibility. Compared with similar studies, the proposed protocol has advantages in terms of protocol scalability, qubit efficiency, and shared message types.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-21
# EPI-SQL: エラー防止命令によるテキストからSQLへの変換の強化

EPI-SQL: Enhancing Text-to-SQL Translation with Error-Prevention Instructions ( http://arxiv.org/abs/2404.14453v1 )

ライセンス: Link先を確認
Xiping Liu, Zhao Tan, (参考訳) 自然言語クエリのSQLクエリへの変換は、Text-to-SQLとして知られているが、重要な課題である。 本稿では,Large Language Models(LLMs)を利用した新しい手法フレームワークであるEPI-SQLを紹介し,テキスト・トゥ・SQLタスクの性能を向上させる。 EPI-SQLは4段階のプロセスで動作する。 最初は、LPMが失敗しがちなSpiderデータセットからインスタンスを収集する。 これらのインスタンスは、一般的なエラー防止命令(EPI)を生成するために使用される。 その後、LLMは現在のタスクの特定のコンテキストに合わせてコンテキスト化されたEPIを作成する。 最後に、これらのコンテキスト固有のEPIは、SQL生成に使用されるプロンプトに組み込まれる。 EPI-SQLはタスク固有のガイダンスを提供することで、手元にあるタスクの潜在的なエラーを回避することができる。 特に、この手法はゼロショットアプローチであるにもかかわらず、先進的な数ショット手法のパフォーマンスに匹敵する。 スパイダーベンチマークを用いた実証的な評価では、EPI-SQLは85.1\%の実行精度を達成し、LLMによる正確なSQLクエリ生成の有効性を裏付けている。 この結果から,NLPタスクにおけるLCMの性能向上を目的とした,タスク固有およびコンテキスト化されたルールによる指示の強化という,今後の研究への有望な方向性が示唆された。

The conversion of natural language queries into SQL queries, known as Text-to-SQL, is a critical yet challenging task. This paper introduces EPI-SQL, a novel methodological framework leveraging Large Language Models (LLMs) to enhance the performance of Text-to-SQL tasks. EPI-SQL operates through a four-step process. Initially, the method involves gathering instances from the Spider dataset on which LLMs are prone to failure. These instances are then utilized to generate general error-prevention instructions (EPIs). Subsequently, LLMs craft contextualized EPIs tailored to the specific context of the current task. Finally, these context-specific EPIs are incorporated into the prompt used for SQL generation. EPI-SQL is distinguished in that it provides task-specific guidance, enabling the model to circumvent potential errors for the task at hand. Notably, the methodology rivals the performance of advanced few-shot methods despite being a zero-shot approach. An empirical assessment using the Spider benchmark reveals that EPI-SQL achieves an execution accuracy of 85.1\%, underscoring its effectiveness in generating accurate SQL queries through LLMs. The findings indicate a promising direction for future research, i.e. enhancing instructions with task-specific and contextualized rules, for boosting LLMs' performance in NLP tasks.
翻訳日:2024-04-24 18:17:13 公開日:2024-04-21
# 乳がん自己硬化規則のAI応答への埋め込みによるChatGPTプロンプトの説明可能性の強化

Reinforcement of Explainability of ChatGPT Prompts by Embedding Breast Cancer Self-Screening Rules into AI Responses ( http://arxiv.org/abs/2404.14454v1 )

ライセンス: Link先を確認
Yousef Khan, Ahmed Abdeen Hamed, (参考訳) 本研究は, 乳癌の国際的課題に対して, ChatGPT 3.5ターボモデルと乳がんリスク評価の複雑さに着目し, 生成AIの融合について検討する。 この研究は、ChatGPTの推論能力を評価し、ルールを処理する可能性を強調し、レコメンデーションをスクリーニングするための説明を提供することを目的としている。 この研究は、ChatGPTの自然言語推論における独特の習熟度を示すことによって、インテリジェントマシンと臨床医の間の技術ギャップを埋めようとしている。 この方法論では、ChatGPTの推奨事項の詳細な説明を強制するために、教師付きプロンプトエンジニアリングアプローチを採用している。 アルゴリズムによって生成された合成ユースケースは、符号化されたルールのテストグラウンドとして機能し、モデルの処理能力を評価する。 発見は、ChatGPTの、エキスパートシステムシェルに匹敵する処理ルールにおける有望な能力を強調し、自然言語推論に焦点を当てている。 本研究は、乳がんリスク評価のためのユーザフレンドリーなインターフェースの実現と結果の解明におけるその可能性を示す、強化説明可能性の概念を紹介する。

Addressing the global challenge of breast cancer, this research explores the fusion of generative AI, focusing on ChatGPT 3.5 turbo model, and the intricacies of breast cancer risk assessment. The research aims to evaluate ChatGPT's reasoning capabilities, emphasizing its potential to process rules and provide explanations for screening recommendations. The study seeks to bridge the technology gap between intelligent machines and clinicians by demonstrating ChatGPT's unique proficiency in natural language reasoning. The methodology employs a supervised prompt-engineering approach to enforce detailed explanations for ChatGPT's recommendations. Synthetic use cases, generated algorithmically, serve as the testing ground for the encoded rules, evaluating the model's processing prowess. Findings highlight ChatGPT's promising capacity in processing rules comparable to Expert System Shells, with a focus on natural language reasoning. The research introduces the concept of reinforcement explainability, showcasing its potential in elucidating outcomes and facilitating user-friendly interfaces for breast cancer risk assessment.
翻訳日:2024-04-24 18:17:13 公開日:2024-04-21
# 希少事象に対するニューロシンボリックな説明装置 : 予測的メンテナンスを事例として

A Neuro-Symbolic Explainer for Rare Events: A Case Study on Predictive Maintenance ( http://arxiv.org/abs/2404.14455v1 )

ライセンス: Link先を確認
João Gama, Rita P. Ribeiro, Saulo Mastelini, Narjes Davarid, Bruno Veloso, (参考訳) 予測保守アプリケーションはますます複雑になり、多くのコンポーネント間の相互作用がある。 ブラックボックスモデルは、予測精度のため、ディープラーニング技術に基づく一般的なアプローチである。 本稿では,オンラインルール学習アルゴリズムを用いてブラックボックスモデルが故障を予測した時期を説明するニューラルシンボリックアーキテクチャを提案する。 提案システムは,異常検出と異常説明という2つの問題を並列に解く。 最初の問題として、教師なしの最先端オートエンコーダを用いる。 2つ目の問題として、入力特徴からオートエンコーダ再構成誤差へのマッピングを学習するルール学習システムを訓練する。 どちらのシステムもオンラインと並列に動作する。 オートエンコーダは、しきい値を超える復元誤差のある例のアラームを通知する。 信号アラームの原因は、センサデータの非線形結合の結果、人間が理解することが難しいためである。 その例をトリガーするルールは、入力特徴とオートエンコーダ再構成エラーの関係を記述している。 このルールは、アラームにどのセンサーが寄与しているかを示し、障害に関わるコンポーネントの識別を可能にすることによって、障害信号を説明する。 このシステムは、ブラックボックスモデルに対するグローバルな説明と、ブラックボックスモデルが失敗を予測する理由に関するローカルな説明を提示することができる。 提案システムをMetro do Portoの実例で評価し,そのメリットを解説した説明を提供する。

Predictive Maintenance applications are increasingly complex, with interactions between many components. Black box models are popular approaches based on deep learning techniques due to their predictive accuracy. This paper proposes a neural-symbolic architecture that uses an online rule-learning algorithm to explain when the black box model predicts failures. The proposed system solves two problems in parallel: anomaly detection and explanation of the anomaly. For the first problem, we use an unsupervised state of the art autoencoder. For the second problem, we train a rule learning system that learns a mapping from the input features to the autoencoder reconstruction error. Both systems run online and in parallel. The autoencoder signals an alarm for the examples with a reconstruction error that exceeds a threshold. The causes of the signal alarm are hard for humans to understand because they result from a non linear combination of sensor data. The rule that triggers that example describes the relationship between the input features and the autoencoder reconstruction error. The rule explains the failure signal by indicating which sensors contribute to the alarm and allowing the identification of the component involved in the failure. The system can present global explanations for the black box model and local explanations for why the black box model predicts a failure. We evaluate the proposed system in a real-world case study of Metro do Porto and provide explanations that illustrate its benefits.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-21
# マルチファイダリティ・サロゲートモデル:新しいデータフュージョン

Multifidelity Surrogate Models: A New Data Fusion Perspective ( http://arxiv.org/abs/2404.14456v1 )

ライセンス: Link先を確認
Daniel N Wilke, (参考訳) 多要素サロゲートモデリングは、異なるソースからの様々な精度とコストのデータを組み合わせる。 戦略的には、高速な評価、計算資源の節約、詳細な精細化のための高忠実度モデルに低忠実度モデルを使用する。 これは不確実性に対処し、計算的に過度に単純化または過度に集約された単一忠実度モデルの限界を超えることによって、意思決定を改善する。 高速近似のための高忠実度データと頻繁な低忠実度データとのブレンディングにより、様々な領域の設計最適化が容易になる。 補間、回帰、改良されたサンプリング、エラー推定、可変忠実度、データ融合技術の進歩にもかかわらず、忠実度レベルの選択と効率的なデータ融合法の開発には課題が続いている。 本研究は, 勾配のみを用いて回帰面を構成する勾配のみのサロゲートを構築することで, 多重忠実サロゲートモデルを構築するための新しい融合手法を提案する。 結果は、核融合アプローチの有効性を分離し、説明する基礎的な例問題で示され、主要な概念を難解にする複雑な例は不要である。

Multifidelity surrogate modelling combines data of varying accuracy and cost from different sources. It strategically uses low-fidelity models for rapid evaluations, saving computational resources, and high-fidelity models for detailed refinement. It improves decision-making by addressing uncertainties and surpassing the limits of single-fidelity models, which either oversimplify or are computationally intensive. Blending high-fidelity data for detailed responses with frequent low-fidelity data for quick approximations facilitates design optimisation in various domains. Despite progress in interpolation, regression, enhanced sampling, error estimation, variable fidelity, and data fusion techniques, challenges persist in selecting fidelity levels and developing efficient data fusion methods. This study proposes a new fusion approach to construct multi-fidelity surrogate models by constructing gradient-only surrogates that use only gradients to construct regression surfaces. Results are demonstrated on foundational example problems that isolate and illustrate the fusion approach's efficacy, avoiding the need for complex examples that obfuscate the main concept.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-21
# 熱拡散を利用したグラフカラー化

Graph Coloring Using Heat Diffusion ( http://arxiv.org/abs/2404.14457v1 )

ライセンス: Link先を確認
Vivek Chaudhary, (参考訳) グラフカラー化は、スケジューリング、リソース割り当て、回路設計など、産業や科学における様々な応用における問題である。 本研究の目的は,熱拡散と呼ばれる新しい勾配に基づく反復解法フレームワークが,グラフ着色問題を解くことができるかどうかを確かめることである。 本稿では,熱拡散フレームワークを用いたグラフカラー化問題の解法を提案する。 一般的な手法と比較し,グラフカラー化問題に対する熱拡散法の競争力を確立する。

Graph coloring is a problem with varied applications in industry and science such as scheduling, resource allocation, and circuit design. The purpose of this paper is to establish if a new gradient based iterative solver framework known as heat diffusion can solve the graph coloring problem. We propose a solution to the graph coloring problem using the heat diffusion framework. We compare the solutions against popular methods and establish the competitiveness of heat diffusion method for the graph coloring problem.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-21
# Web開発におけるLLM: 脆弱性と制限を明らかにするLLM生成PHPコードの評価

LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations ( http://arxiv.org/abs/2404.14459v1 )

ライセンス: Link先を確認
Rebeka Tóth, Tamas Bisztray, László Erdodi, (参考訳) 本研究では,大規模言語モデルによって生成されたWebアプリケーションコードのセキュリティについて,2500の動的PHP Webサイトからなるデータセットを解析し,包括的な検証を行う。 これらのAI生成サイトは、DockerコンテナにスタンドアロンのWebサイトとしてデプロイされた後、セキュリティ上の脆弱性のためにスキャンされる。 ウェブサイトの評価は、Burp Suiteのアクティブスキャナー、静的解析、手動チェックを組み込んだハイブリッド手法を用いて行われた。 調査では、ファイルアップロード、SQLインジェクション、ストアドXSS、リフレクションXSSの特定と分析についてゼロです。 このアプローチは、AIが生成するPHPコードの潜在的なセキュリティ欠陥を浮き彫りにするだけでなく、そのようなコードを現実のシナリオにデプロイする際の信頼性とセキュリティに関する重要な視点を提供する。 GPT-4で生成されたプログラムの27%がPHPコードの脆弱性を検証しており、この数は静的スキャンと手動による検証に基づいている。 これはソフトウェアの安全性とセキュリティに重大なリスクをもたらす。 研究コミュニティにコントリビュートし、さらなる分析を促進するため、サンプル毎に検出された脆弱性を列挙した記録とともに、ソースコードを公開しました。 この研究は、AI生成コードのセキュリティ面に光を当てるだけでなく、厳格なテストとソフトウェア開発のためのそのような技術の評価の必要性を浮き彫りにしている。

This research carries out a comprehensive examination of web application code security, when generated by Large Language Models through analyzing a dataset comprising 2,500 small dynamic PHP websites. These AI-generated sites are scanned for security vulnerabilities after being deployed as standalone websites in Docker containers. The evaluation of the websites was conducted using a hybrid methodology, incorporating the Burp Suite active scanner, static analysis, and manual checks. Our investigation zeroes in on identifying and analyzing File Upload, SQL Injection, Stored XSS, and Reflected XSS. This approach not only underscores the potential security flaws within AI-generated PHP code but also provides a critical perspective on the reliability and security implications of deploying such code in real-world scenarios. Our evaluation confirms that 27% of the programs generated by GPT-4 verifiably contains vulnerabilities in the PHP code, where this number -- based on static scanning and manual verification -- is potentially much higher. This poses a substantial risks to software safety and security. In an effort to contribute to the research community and foster further analysis, we have made the source codes publicly available, alongside a record enumerating the detected vulnerabilities for each sample. This study not only sheds light on the security aspects of AI-generated code but also underscores the critical need for rigorous testing and evaluation of such technologies for software development.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-21
# 位相閾値を用いた因果関係の推定

Inference of Causal Networks using a Topological Threshold ( http://arxiv.org/abs/2404.14460v1 )

ライセンス: Link先を確認
Filipe Barroso, Diogo Gomes, Gareth J. Baxter, (参考訳) 本稿では,データから因果関係ネットワークを推定するために,因果関係しきい値を自動的に決定する制約に基づくアルゴリズムを提案する。 私たちはこれらのトポロジカルしきい値(topological thresholds)と呼ぶ。 しきい値を決定するための2つの方法を提案する。第1はネットワークに切断されたノードを残さないエッジの集合を求め、第2はデータに因果的に大きな接続されたコンポーネントを求める。 これらの手法を離散合成データと実データの両方でテストし、その結果をPCアルゴリズムで得られた結果と比較した。 このアルゴリズムは一般にPCアルゴリズムよりも高速で精度が高いことを示す。 しきい値を決定するアルゴリズムは因果関係の尺度を選択する必要がある。 我々はPCアルゴリズムでよく用いられるフィッシャー相関法を検証し(例えば \cite{kalisch2005})、さらにNet Influenceと呼ばれる因果関係の離散的で非対称な尺度を提案し、離散データから因果関係を推定する際に非常に良い結果を与えた。 この計量は、しきい値を適用する過程でエッジの方向を推定することができ、因果DAGの推論を高速化する。

We propose a constraint-based algorithm, which automatically determines causal relevance thresholds, to infer causal networks from data. We call these topological thresholds. We present two methods for determining the threshold: the first seeks a set of edges that leaves no disconnected nodes in the network; the second seeks a causal large connected component in the data. We tested these methods both for discrete synthetic and real data, and compared the results with those obtained for the PC algorithm, which we took as the benchmark. We show that this novel algorithm is generally faster and more accurate than the PC algorithm. The algorithm for determining the thresholds requires choosing a measure of causality. We tested our methods for Fisher Correlations, commonly used in PC algorithm (for instance in \cite{kalisch2005}), and further proposed a discrete and asymmetric measure of causality, that we called Net Influence, which provided very good results when inferring causal networks from discrete data. This metric allows for inferring directionality of the edges in the process of applying the thresholds, speeding up the inference of causal DAGs.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-21
# ファンデーションモデルによる横流検査結果の解釈

Interpreting COVID Lateral Flow Tests' Results with Foundation Models ( http://arxiv.org/abs/2404.14990v1 )

ライセンス: Link先を確認
Stuti Pandey, Josh Myers-Dean, Jarek Reynolds, Danna Gurari, (参考訳) 横流試験(LFT)は、コビッド、妊娠、HIV、マラリアなどの健康状態の迅速かつ低コストな検査を可能にする。 LFTの結果の自動化された読者は、視覚障害者が自分の健康について独立して学び、LFTテスト毎に1枚の写真だけを使用することで大規模なモニタリング(例えば、Covidのようなパンデミック)のためのデータ入力を加速するなど、多くの利益を得ることができる。 そこで本研究では,現代の基盤視覚言語モデル(VLM)の,このようなテストの解釈能力について検討する。 この分析を可能にするために、まず、各LFTテストとそのネストしたテスト結果ウィンドウの階層的なセグメンテーションを持つ新しいラベル付きデータセットを作成する。 このデータセットを LFT-Grounding と呼ぶ。 次に、これらの画像を分析するため、ゼロショット設定で8つの最新のVLMをベンチマークする。 現状のVLMでは,LFT検査のタイプを正しく識別できず,検査結果の解釈,LFT検査のネストした結果ウィンドウの特定,部分的難読化時のLFT検査の認識が困難であることがよく示されている。 自動LFT読み込みに向けたコミュニティ全体の進歩を促進するため、私たちはデータセットをhttps://iamstuti.github.io/lft_grounding_foundation_models/で公開しています。

Lateral flow tests (LFTs) enable rapid, low-cost testing for health conditions including Covid, pregnancy, HIV, and malaria. Automated readers of LFT results can yield many benefits including empowering blind people to independently learn about their health and accelerating data entry for large-scale monitoring (e.g., for pandemics such as Covid) by using only a single photograph per LFT test. Accordingly, we explore the abilities of modern foundation vision language models (VLMs) in interpreting such tests. To enable this analysis, we first create a new labeled dataset with hierarchical segmentations of each LFT test and its nested test result window. We call this dataset LFT-Grounding. Next, we benchmark eight modern VLMs in zero-shot settings for analyzing these images. We demonstrate that current VLMs frequently fail to correctly identify the type of LFT test, interpret the test results, locate the nested result window of the LFT tests, and recognize LFT tests when they partially obfuscated. To facilitate community-wide progress towards automated LFT reading, we publicly release our dataset at https://iamstuti.github.io/lft_grounding_foundation_models/.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-21
# ソクラテスプランナー: 身体的指導後の調査に基づくゼロショットプランニング

Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following ( http://arxiv.org/abs/2404.15190v1 )

ライセンス: Link先を確認
Suyeon Shin, Sujin jeon, Junghyun Kim, Gi-Cheon Kang, Byoung-Tak Zhang, (参考訳) EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。 EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。 この目的のために,学習データを必要としないゼロショット計画手法であるソクラティック・プランナーを導入する。 ソクラティック・プランナーはまず命令を自己問合せと回答を通じてタスクのサブ構造情報に分解し、それをハイレベルなプラン、すなわち一連のサブゴールに翻訳する。 サブゴールは逐次実行され、視覚的フィードバックによって動的に計画を調整する視覚的な再計画機構が組み込まれている。 また,より包括的な評価のために,高レベルプランの評価基準であるRelaxedHLPを導入する。 実験はソクラティック・プランナーの有効性を実証し、ALFREDベンチマークにおいてゼロショットと少数ショットのタスク計画の両方で競合性能を達成し、特に高次元の推論を必要とするタスクにおいて優れていることを示した。 さらに,環境視覚情報を取り入れることで,計画の精密な調整が達成された。

Embodied Instruction Following (EIF) is the task of executing natural language instructions by navigating and interacting with objects in 3D environments. One of the primary challenges in EIF is compositional task planning, which is often addressed with supervised or in-context learning with labeled data. To this end, we introduce the Socratic Planner, the first zero-shot planning method that infers without the need for any training data. Socratic Planner first decomposes the instructions into substructural information of the task through self-questioning and answering, translating it into a high-level plan, i.e., a sequence of subgoals. Subgoals are executed sequentially, with our visually grounded re-planning mechanism adjusting plans dynamically through a dense visual feedback. We also introduce an evaluation metric of high-level plans, RelaxedHLP, for a more comprehensive evaluation. Experiments demonstrate the effectiveness of the Socratic Planner, achieving competitive performance on both zero-shot and few-shot task planning in the ALFRED benchmark, particularly excelling in tasks requiring higher-dimensional inference. Additionally, a precise adjustments in the plan were achieved by incorporating environmental visual information.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-21
# ランダム化実験におけるジェネリック機械学習による不均一処理効果の統計的推測

Statistical Inference for Heterogeneous Treatment Effects Discovered by Generic Machine Learning in Randomized Experiments ( http://arxiv.org/abs/2203.14511v3 )

ライセンス: Link先を確認
Kosuke Imai, Michael Lingzhi Li, (参考訳) 研究者たちは、ランダム化実験における因果不均一性を調べるために、機械学習(ML)アルゴリズムに目を向けている。 その約束にもかかわらず、MLアルゴリズムは、多くの共変量と小さなサンプルサイズを持つ実用的な設定の下で、不均一な処理効果を正確に確認できないかもしれない。 さらに、推定の不確実性の定量化は依然として課題である。 汎用MLアルゴリズムにより検出された不均一な処理効果の統計的推測に対する一般的なアプローチを開発する。 本研究では,Neymanの繰り返しサンプリングフレームワークを,MLアルゴリズムを用いて条件平均処理効果を推定し,推定した効果の大きさに基づいてサンプルを複数のグループに分割する,共通の設定に適用する。 各グループの平均治療効果を推定し,有効信頼区間を構築する方法について述べる。 さらに, グループ間における治療効果均質性の非パラメトリック試験と, グループ内平均治療効果のランク整合性について検討した。 本手法の有効性は,処理代入のランダム化と単位のランダムサンプリングにのみ依存するため,MLアルゴリズムの特性に依存しない。 最後に,データのランダム分割によって引き起こされる付加的不確実性を考慮し,提案手法をクロスフィッティング手法に一般化する。

Researchers are increasingly turning to machine learning (ML) algorithms to investigate causal heterogeneity in randomized experiments. Despite their promise, ML algorithms may fail to accurately ascertain heterogeneous treatment effects under practical settings with many covariates and small sample size. In addition, the quantification of estimation uncertainty remains a challenge. We develop a general approach to statistical inference for heterogeneous treatment effects discovered by a generic ML algorithm. We apply the Neyman's repeated sampling framework to a common setting, in which researchers use an ML algorithm to estimate the conditional average treatment effect and then divide the sample into several groups based on the magnitude of the estimated effects. We show how to estimate the average treatment effect within each of these groups, and construct a valid confidence interval. In addition, we develop nonparametric tests of treatment effect homogeneity across groups, and rank-consistency of within-group average treatment effects. The validity of our methodology does not rely on the properties of ML algorithms because it is solely based on the randomization of treatment assignment and random sampling of units. Finally, we generalize our methodology to the cross-fitting procedure by accounting for the additional uncertainty induced by the random splitting of data.
翻訳日:2024-04-24 01:49:47 公開日:2024-04-21
# リアルな衣服交換歩行認識のためのプログレッシブな特徴学習

Progressive Feature Learning for Realistic Cloth-Changing Gait Recognition ( http://arxiv.org/abs/2207.11720v2 )

ライセンス: Link先を確認
Xuqian Ren, Saihui Hou, Chunshui Cao, Xu Liu, Yongzhen Huang, (参考訳) 歩行認識は犯罪防止や社会保障に役立ち、人の身元を知るために遠距離で行うことができる。 しかし、既存のデータセットや手法は、実際には最も困難な布の交換問題に十分対応できない。 具体的には、実際の歩行モデルは通常、シーケンスのビューと各人の布の状態にいくつかの制約がある、自動的にラベル付けされたデータに基づいて訓練される。 具体的には、クロス・ビュー・サブ・データセットは布を交換することなく通常の歩行条件しか持たず、クロス・クロス・サブ・データセットは布を交換するシーケンスを持ち、フロントビューのみである。 その結果,布の加工精度は実用的要件を満たすことができないことがわかった。 本研究では,現実的な衣服交換歩行認識(RCC-GR)として問題を定式化し,上記の設定をシミュレートするために,CASIA-BN-RCCとOUMVLP-RCCの2つのベンチマークを構築した。 さらに,RCC-GRの性能向上のために,既製のバックボーンで適用可能なプログレッシブ・フィーチャーラーニング(Progressive Feature Learning)という新しいフレームワークを提案する。 具体的には,プログレッシブマッピングとプログレッシブ不確実性を設計し,クロスビュー特徴を抽出し,クロスクロース特徴をベースとして抽出する。 このように、クロスビューサブデータセットの特徴は、最初に特徴空間を支配し、クロスクロスサブデータセットの悪影響による不均一な分布を緩和することができる。 評価実験の結果,特に布質変化条件下では,認識性能を効果的に向上できることがわかった。

Gait recognition is instrumental in crime prevention and social security, for it can be conducted at a long distance to figure out the identity of persons. However, existing datasets and methods cannot satisfactorily deal with the most challenging cloth-changing problem in practice. Specifically, the practical gait models are usually trained on automatically labeled data, in which the sequences' views and cloth conditions of each person have some restrictions. To be concrete, the cross-view sub-dataset only has normal walking condition without cloth-changing, while the cross-cloth sub-dataset has cloth-changing sequences but only in front views. As a result, the cloth-changing accuracy cannot meet practical requirements. In this work, we formulate the problem as Realistic Cloth-Changing Gait Recognition (abbreviated as RCC-GR) and we construct two benchmarks: CASIA-BN-RCC and OUMVLP-RCC, to simulate the above setting. Furthermore, we propose a new framework called Progressive Feature Learning that can be applied with off-the-shelf backbones to improve their performance in RCC-GR. Specifically, in our framework, we design Progressive Mapping and Progressive Uncertainty to extract cross-view features and then extract cross-cloth features on the basis. In this way, the feature from the cross-view sub-dataset can first dominate the feature space and relieve the uneven distribution caused by the adverse effect from the cross-cloth sub-dataset. The experiments on our benchmarks show that our framework can effectively improve recognition performance, especially in the cloth-changing conditions.
翻訳日:2024-04-24 01:41:46 公開日:2024-04-21
# ニューラルネットワークの解釈は普遍的対向摂動の影響を受けやすい

Interpretation of Neural Networks is Susceptible to Universal Adversarial Perturbations ( http://arxiv.org/abs/2212.03095v2 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Farzan Farnia, (参考訳) 勾配に基づくサリエンシマップを用いたニューラルネットワーク分類器の解釈は、ディープラーニングの文献で広く研究されている。 既存のアルゴリズムは、標準画像認識データセットへの適用において満足な性能を実現しているが、最近の研究は、各入力サンプルに対して逆向きに設計されたノルム境界摂動に対する広く使われている勾配に基づく解釈スキームの脆弱性を実証している。 しかし、このような逆転摂動は、一般に入力サンプルの知識を用いて設計され、従って、未知または常に変化するデータポイントへの準最適適用を行う。 本稿では,標準画像データセットに対するUniversal Perturbation for Interpretation (UPI)の存在を示す。 このようなUPIを設計するために、ニューラルネットワークの勾配に基づく解釈を異なるサンプルで効果的に変更できる主成分分析(PCA)ベースのアプローチと同様に、勾配に基づく最適化手法を提案する。 提案手法は,標準的な画像データセットに応用されたいくつかの数値的な結果を提供することにより,提案手法をサポートする。

Interpreting neural network classifiers using gradient-based saliency maps has been extensively studied in the deep learning literature. While the existing algorithms manage to achieve satisfactory performance in application to standard image recognition datasets, recent works demonstrate the vulnerability of widely-used gradient-based interpretation schemes to norm-bounded perturbations adversarially designed for every individual input sample. However, such adversarial perturbations are commonly designed using the knowledge of an input sample, and hence perform sub-optimally in application to an unknown or constantly changing data point. In this paper, we show the existence of a Universal Perturbation for Interpretation (UPI) for standard image datasets, which can alter a gradient-based feature map of neural networks over a significant fraction of test samples. To design such a UPI, we propose a gradient-based optimization method as well as a principal component analysis (PCA)-based approach to compute a UPI which can effectively alter a neural network's gradient-based interpretation on different samples. We support the proposed UPI approaches by presenting several numerical results of their successful applications to standard image datasets.
翻訳日:2024-04-24 01:41:46 公開日:2024-04-21
# ニュースタイトルにおける超党派の計算的評価

Computational Assessment of Hyperpartisanship in News Titles ( http://arxiv.org/abs/2301.06270v2 )

ライセンス: Link先を確認
Hanjia Lyu, Jinsheng Pan, Zichen Wang, Jiebo Luo, (参考訳) まず、私たちは、2014年から現在までの3つのメディアバイアスグループ(左、中央、右)の9つの代表的なメディア組織によって投稿された2,200のラベル付きおよび1.8万のマシンラベル付きタイトルで、超党派ニュースタイトル検出のための新しいデータセットを開発するために、人間のガイド付き機械学習フレームワークを採用しました。 微調整変換器に基づく言語モデルでは、全体的な精度は0.84、F1スコアは0.78となる。 次に,ニュースタイトルにおけるパーティショナリズムの程度と動態を定量化する計算分析を行う。 いくつかの側面は期待通りだが,本研究は3つのメディアグループ間の新たな相違やニュアンスな相違を明らかにした。 全体的に右派メディアは比例して超党派的なタイトルを使う傾向にある。 2016年の大統領選挙前後、すべてのメディア偏見グループで超党派のタイトルの割合が増加し、左派メディアは最も顕著な相対的な増加を見せた。 我々は、ロジスティック回帰モデルとシェープリー値を用いて、ニュースタイトルにおける過党主義を示唆する外国問題、政治システム、社会問題を含む3つの主要なトピックを識別する。 トピック分布の分析により,社会問題への注目が徐々に高まっていくことが判明した。 さらに、各トピックのタイトルに辞書ベースの言語分析ツールを適用し、3つの異なるパターンを明らかにすることで、3つのメディアグループのいずれかのペア間の言語距離を定量化する。

We first adopt a human-guided machine learning framework to develop a new dataset for hyperpartisan news title detection with 2,200 manually labeled and 1.8 million machine-labeled titles that were posted from 2014 to the present by nine representative media organizations across three media bias groups - Left, Central, and Right in an active learning manner. A fine-tuned transformer-based language model achieves an overall accuracy of 0.84 and an F1 score of 0.78 on an external validation set. Next, we conduct a computational analysis to quantify the extent and dynamics of partisanship in news titles. While some aspects are as expected, our study reveals new or nuanced differences between the three media groups. We find that overall the Right media tends to use proportionally more hyperpartisan titles. Roughly around the 2016 Presidential Election, the proportions of hyperpartisan titles increased across all media bias groups, with the Left media exhibiting the most significant relative increase. We identify three major topics including foreign issues, political systems, and societal issues that are suggestive of hyperpartisanship in news titles using logistic regression models and the Shapley values. Through an analysis of the topic distribution, we find that societal issues gradually gain more attention from all media groups. We further apply a lexicon-based language analysis tool to the titles of each topic and quantify the linguistic distance between any pairs of the three media groups, uncovering three distinct patterns.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# RNN Seq2seqモデルによるトランスダクションとアライメントの学習

Learning Transductions and Alignments with RNN Seq2seq Models ( http://arxiv.org/abs/2303.06841v4 )

ライセンス: Link先を確認
Zhengxiang Wang, (参考訳) 本稿では,Recurrent-Neural-Network sequence to sequence (RNN seq2seq) モデルの4つのトランスダクションタスク(アイデンティティ,リバーサル,総複製,二次コピー)を学習する能力について検討する。 これらのトランスダクションは伝統的に有限状態トランスデューサの下でよく研究されており、複雑さの増大に起因する。 RNN seq2seqモデルは、基礎となる関数を学習するのではなく、トレーニングデータや配信データに適合するマッピングを近似することができる。 注意は学習をより効率的で堅牢にするが、分布外一般化の限界を克服するものではない。 我々は,RNN seq2seqモデルの4つのタスクを,文字列トランスダクションの代わりに形式言語の複雑性階層で理解することのできる,新しい複雑性階層を構築した。 RNNの変種も結果に重要な役割を果たしている。 特に,単純な RNN seq2seq モデルでは入力長をカウントできないことを示す。

The paper studies the capabilities of Recurrent-Neural-Network sequence to sequence (RNN seq2seq) models in learning four transduction tasks: identity, reversal, total reduplication, and quadratic copying. These transductions are traditionally well studied under finite state transducers and attributed with increasing complexity. We find that RNN seq2seq models are only able to approximate a mapping that fits the training or in-distribution data, instead of learning the underlying functions. Although attention makes learning more efficient and robust, it does not overcome the out-of-distribution generalization limitation. We establish a novel complexity hierarchy for learning the four tasks for attention-less RNN seq2seq models, which may be understood in terms of the complexity hierarchy of formal languages, instead of string transductions. RNN variants also play a role in the results. In particular, we show that Simple RNN seq2seq models cannot count the input length.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# エンタングルメント支援量子リードミューラーテンソル製品コード

Entanglement-assisted Quantum Reed-Muller Tensor Product Codes ( http://arxiv.org/abs/2303.08294v3 )

ライセンス: Link先を確認
Priya J. Nadkarni, Praveen Jayakumar, Arpit Behera, Shayan Srinivasa Garani, (参考訳) 本稿では,古典的RM符号からの標準エンタングルメント支援(EA)量子ビットリード・ミュラー符号とテンソル積の変種について述べる。 また,CSS 構造を用いて得られた EA RM 符号は,符号速度がゼロで負の触媒速度を持つことを示した。 さらに、テンソル積コード(TPC)構造を用いて、これらの古典的RM符号から構築されたEA符号が、正の符号速度を有し、正の触媒速度を持つEA RM TPCのサブクラスを提供し、量子通信に有用な、この種類のコードに対して、超付加性の符号化アナログを確立することを示す。 また、この分析を一般化して、古典的符号からEA TPCの条件を求め、対応するEA CSS符号がゼロである場合に正の触媒反応率を持つようにした。

We present the construction of standard entanglement-assisted (EA) qubit Reed-Muller (RM) codes and their tensor product variants from classical RM codes. We show that the EA RM codes obtained using the CSS construction have zero coding rate and negative catalytic rate. We further show that EA codes constructed from these same classical RM codes using the tensor product code (TPC) construction have positive coding rate and provide a subclass of EA RM TPCs that have positive catalytic rate, thus establishing the coding analog of superadditivity for this family of codes, useful towards quantum communications. We also generalize this analysis to obtain conditions for EA TPCs from classical codes to have positive catalytic rate when their corresponding EA CSS codes have zero rate.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# 選択的融合を用いた教師なし歩行認識

Unsupervised Gait Recognition with Selective Fusion ( http://arxiv.org/abs/2303.10772v2 )

ライセンス: Link先を確認
Xuqian Ren, Shaopeng Yang, Saihui Hou, Chunshui Cao, Xu Liu, Yongzhen Huang, (参考訳) 従来の歩行認識手法は主にラベル付きデータセットに基づいて訓練され、苦しいラベル付け作業が必要になる。 しかし、微調整のない新しいデータセットで事前トレーニングされたモデルを使用することで、パフォーマンスが大幅に低下する可能性がある。 そこで本稿では、未ラベルのデータセットに基づいて事前学習した歩行認識モデルを微調整できるようにするために、新しいタスクであるUnsupervised Gait Recognition (UGR)を提案する。 クラスタレベルのコントラスト学習でUGRを解決するための,新しいクラスタベースベースラインを導入する。 しかし、さらにこのタスクが直面する課題を見つけます。 第一に、異なる服装の同一人物の列は、顕著な外観の変化のために別々に集まる傾向がある。 第二に、0{\deg} と 180{\deg} のビューから取られたシーケンスは歩行姿勢を欠き、他のビューから取られたシーケンスとクラスタリングしない。 これらの課題に対処するため,SCF (Selective Cluster Fusion) とSSF (Selective Sample Fusion) を含むSelective Fusion法を提案する。 SCFでは、クラスタレベルのメモリバンクをマルチクラスタ更新戦略で更新することで、異なる服を着た同一人のクラスタをマージします。 そして、SSFでは、前/後ろの視点から取られたシーケンスとカリキュラムの学習を徐々にマージします。 広汎な実験により,異なるコート条件と前後視条件で歩行する際のランク1精度を向上させる方法の有効性が示された。

Previous gait recognition methods primarily trained on labeled datasets, which require painful labeling effort. However, using a pre-trained model on a new dataset without fine-tuning can lead to significant performance degradation. So to make the pre-trained gait recognition model able to be fine-tuned on unlabeled datasets, we propose a new task: Unsupervised Gait Recognition (UGR). We introduce a new cluster-based baseline to solve UGR with cluster-level contrastive learning. But we further find more challenges this task meets. First, sequences of the same person in different clothes tend to cluster separately due to the significant appearance changes. Second, sequences taken from 0{\deg} and 180{\deg} views lack walking postures and do not cluster with sequences taken from other views. To address these challenges, we propose a Selective Fusion method, which includes Selective Cluster Fusion (SCF) and Selective Sample Fusion (SSF). With SCF, we merge matched clusters of the same person wearing different clothes by updating the cluster-level memory bank with a multi-cluster update strategy. And in SSF, we merge sequences taken from front/back views gradually with curriculum learning. Extensive experiments show the effectiveness of our method in improving the rank-1 accuracy in walking with different coats condition and front/back views conditions.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# CRISP:原始インフォームドサブゴの予測を誘導するカリキュラム

CRISP: Curriculum inducing Primitive Informed Subgoal Prediction ( http://arxiv.org/abs/2304.03535v4 )

ライセンス: Link先を確認
Utsav Singh, Vinay P. Namboodiri, (参考訳) 階層的強化学習(HRL)は、時間的抽象を用いて複雑な長い地平線問題を解く有望な手法である。 しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。 本稿では、強化学習と模倣学習を用いて、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを効果的に生成する新しいHRLアルゴリズムであるCRISPを提案する。 CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行い、新しいプリミティブインフォメーションパーシング(PIP)アプローチを使用して、非定常性を緩和する。 私たちのアプローチでは、少数の専門家によるデモンストレーションにしかアクセスできないので、ほとんどのロボット制御タスクに適しています。 複雑なロボット迷路ナビゲーションとロボット操作タスクの実験的評価は、階層的なカリキュラム学習の導入がサンプル効率を大幅に改善し、時間的に拡張されたタスクを解決するための効率的な目標条件付きポリシーをもたらすことを示した。 さらに,複雑な操作タスクにおける実世界のロボット実験を行い,CRISPが実世界のシナリオにおける印象的な一般化を実証した。

Hierarchical reinforcement learning (HRL) is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we present CRISP, a novel HRL algorithm that effectively generates a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. CRISP uses the lower level primitive to periodically perform data relabeling on a handful of expert demonstrations, using a novel primitive informed parsing (PIP) approach, thereby mitigating non-stationarity. Since our approach only assumes access to a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation tasks demonstrate that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. Additionally, we perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP demonstrates impressive generalization in real world scenarios.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# インフレーション量子ゲートによる高速擬似ランダム量子状態発生器

Fast pseudorandom quantum state generators via inflationary quantum gates ( http://arxiv.org/abs/2304.09885v3 )

ライセンス: Link先を確認
Claudio Chamon, Eduardo R. Mucciolo, Andrei E. Ruckenstein, Zhi-Cheng Yang, (参考訳) 擬似乱数量子状態に到達する機構をHaar乱数と計算的に区別できず,nが量子四重項数である浅い対数nの量子回路を用いて提案する。 我々は、$\log n$ depth 2-qubit-gate-based generic random quantum circuits that are given a lower bound on the speed of information scrambling, cannot generate computerly pseudorandom quantum state。 この結論は、このような浅い回路を通して進化し続ける短いパウリ弦の静止確率における多項式($n$)テールの存在と結びついている。 しかし、我々は、静止確率テールを排除でき、擬似ランダム量子状態は、 'inflationary' 量子(IQ)ゲートの特別な普遍族から作られた浅い$\log n$の深さ回路で達成できることを示した。 IQゲートは2キュービットゲートで実装することはできないが、$U(d^2)$と$d\ge 3$と$d$ Primeの2キュービットゲートのサブセットとして、あるいは特別な3キュービットゲートとして実現可能であることを証明した。

We propose a mechanism for reaching pseudorandom quantum states, computationally indistinguishable from Haar random, with shallow log-n depth quantum circuits, where n is the number of qudits. We argue that $\log n$ depth 2-qubit-gate-based generic random quantum circuits that are claimed to provide a lower bound on the speed of information scrambling, cannot produce computationally pseudorandom quantum states. This conclusion is connected with the presence of polynomial (in $n$) tails in the stay probability of short Pauli strings that survive evolution through such shallow circuits. We show, however, that stay-probability-tails can be eliminated and pseudorandom quantum states can be accomplished with shallow $\log n$ depth circuits built from a special universal family of `inflationary' quantum (IQ) gates. We prove that IQ-gates cannot be implemented with 2-qubit gates, but can be realized either as a subset of 2-qudit-gates in $U(d^2)$ with $d\ge 3$ and $d$ prime, or as special 3-qubit gates.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# グラフニューラルネットワークの分離:1つではなく複数の単純なGNNを同時に訓練する

Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One ( http://arxiv.org/abs/2304.10126v2 )

ライセンス: Link先を確認
Hongyuan Zhang, Yanan Zhu, Xuelong Li, (参考訳) グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。 これは主に、層の増加に伴うノード依存性の指数的な成長によって引き起こされる。 確率的最適化アルゴリズムの適用を極端に制限し、GNNのトレーニングには通常時間がかかります。 この問題に対処するために,従来のフォワードトレーニング(FT)と後方トレーニング(BT)で構成された,より効率的なトレーニングを行うための,複数の単純なモジュールとして多層GNNを分離することを提案する。 提案フレームワークでは,各モジュールを,その単純さによるグラフ情報の歪みを伴わずに,確率的アルゴリズムによりFT内で効率的に訓練することができる。 FTの一方的な情報配信を回避し,より深い部分で浅いモジュールを十分に訓練するために,前モジュールが後者のモジュールを知覚する後方トレーニング機構を開発する。 後方トレーニングでは、逆情報配信が分離されたモジュールと前方情報配信に導入される。 疎結合と欲求学習が表現能力にどのように影響するかを検討するために,線形加群が生成する誤差がほとんどの場合,教師なしタスクに蓄積されないことを理論的に証明する。 理論的および実験的な結果から,提案手法は妥当な性能で高い効率性を示す。

Graph neural networks (GNN) suffer from severe inefficiency. It is mainly caused by the exponential growth of node dependency with the increase of layers. It extremely limits the application of stochastic optimization algorithms so that the training of GNN is usually time-consuming. To address this problem, we propose to decouple a multi-layer GNN as multiple simple modules for more efficient training, which is comprised of classical forward training (FT)and designed backward training (BT). Under the proposed framework, each module can be trained efficiently in FT by stochastic algorithms without distortion of graph information owing to its simplicity. To avoid the only unidirectional information delivery of FT and sufficiently train shallow modules with the deeper ones, we develop a backward training mechanism that makes the former modules perceive the latter modules. The backward training introduces the reversed information delivery into the decoupled modules as well as the forward information delivery. To investigate how the decoupling and greedy training affect the representational capacity, we theoretically prove that the error produced by linear modules will not accumulate on unsupervised tasks in most cases. The theoretical and experimental results show that the proposed framework is highly efficient with reasonable performance.
翻訳日:2024-04-24 01:32:01 公開日:2024-04-21
# RePU活性化を用いた微分可能なニューラルネットワーク -スコア推定と等方性回帰への応用-

Differentiable Neural Networks with RePU Activation: with Applications to Score Estimation and Isotonic Regression ( http://arxiv.org/abs/2305.00608v3 )

ライセンス: Link先を確認
Guohao Shen, Yuling Jiao, Yuanyuan Lin, Jian Huang, (参考訳) 整流パワーユニット(RePU)関数によって活性化される微分可能なニューラルネットワークの特性について検討する。 本稿では,RePU ニューラルネットワークの部分微分を RePU 混合活性化ネットワークで表現し,RePU ネットワークの関数クラスの複雑性の上限を導出することを示す。 本稿では,RePU活性化深層ニューラルネットワークを用いて,C^s$スムーズ関数とその導関数を同時に近似するための誤差境界を確立する。 さらに、データに近似した低次元サポートがある場合の近似誤差境界を改善し、RePUネットワークが次元性の呪いを軽減できることを示す。 結果の有用性を説明するために,RePUネットワークを用いた深部スコアマッチング推定器 (DSME) とペナル化深部ソトニック回帰 (PDIR) を提案する。 DSME と PDIR の非漸近的過剰リスク境界は、対象関数が滑らかな関数のクラスに属するという仮定の下で成立する。 また,単調性仮定が満たされていない場合でも,PDIRは最小収束率を達成でき,かつ,ペナルティパラメータの消滅と整合性を有することを示す。 さらに、データ分布が近似した低次元多様体上でサポートされている場合、DSMEとPDIRは次元の呪いを軽減することができることを示す。

We study the properties of differentiable neural networks activated by rectified power unit (RePU) functions. We show that the partial derivatives of RePU neural networks can be represented by RePUs mixed-activated networks and derive upper bounds for the complexity of the function class of derivatives of RePUs networks. We establish error bounds for simultaneously approximating $C^s$ smooth functions and their derivatives using RePU-activated deep neural networks. Furthermore, we derive improved approximation error bounds when data has an approximate low-dimensional support, demonstrating the ability of RePU networks to mitigate the curse of dimensionality. To illustrate the usefulness of our results, we consider a deep score matching estimator (DSME) and propose a penalized deep isotonic regression (PDIR) using RePU networks. We establish non-asymptotic excess risk bounds for DSME and PDIR under the assumption that the target functions belong to a class of $C^s$ smooth functions. We also show that PDIR achieves the minimax optimal convergence rate and has a robustness property in the sense it is consistent with vanishing penalty parameters even when the monotonicity assumption is not satisfied. Furthermore, if the data distribution is supported on an approximate low-dimensional manifold, we show that DSME and PDIR can mitigate the curse of dimensionality.
翻訳日:2024-04-24 01:22:09 公開日:2024-04-21
# n-best再分類による正確な知識蒸留

Accurate Knowledge Distillation with n-best Reranking ( http://arxiv.org/abs/2305.12057v3 )

ライセンス: Link先を確認
Hendra Setiawan, (参考訳) 我々は,n-bestリグレードを活用して,n-best仮説から学生モデルのトレーニングデータのための擬似ラベルを抽出し,様々な帰納的バイアス,目的関数,アーキテクチャなど,いくつかの公開可能な大規模言語モデルを含む多種多様なモデルの集合を利用して,高品質な仮説をラベルとして選択する,シーケンス・レベル知識蒸留(Kim and Rush, 2016)を強化する。 提案手法の有効性は、WMT'21ドイツ語と中国語の翻訳タスクの実験を通して検証される。 その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。 実際、我々の最良の学生モデルは、470億のパラメータを持つ(Tran et al , 2021)大規模な翻訳モデルに匹敵する精度を達成します。

We propose utilizing n-best reranking to enhance Sequence-Level Knowledge Distillation (Kim and Rush, 2016) where we extract pseudo-labels for student model's training data from top n-best hypotheses and leverage a diverse set of models with different inductive biases, objective functions or architectures, including some publicly-available large language models, to pick the highest-quality hypotheses as labels. The effectiveness of our proposal is validated through experiments on the WMT'21 German-English and Chinese-English translation tasks. Our results demonstrate that utilizing pseudo-labels generated by our n-best reranker leads to a significantly more accurate student model. In fact, our best student model achieves comparable accuracy to a large translation model from (Tran et al., 2021) with 4.7 billion parameters, while having two orders of magnitude fewer parameters.
翻訳日:2024-04-24 01:22:08 公開日:2024-04-21
# 確率的ニューラルコンピューティングを目指して

Toward stochastic neural computing ( http://arxiv.org/abs/2305.13982v2 )

ライセンス: Link先を確認
Yang Qi, Zhichao Zhu, Yiming Wei, Lu Cao, Zhigang Wang, Jie Zhang, Wenlian Lu, Jianfeng Feng, (参考訳) 皮質ニューロンの非常に不規則なスパイク活動と行動の変動は、脳が基本的に確率論的に動作できることを示唆している。 脳がどのように実装し、確率計算を学習するかを模倣することは、人間のように考えることができるマシンインテリジェンスを開発するための鍵となるかもしれない。 本研究では、非線形結合スパイキングニューロンの集団を通してノイズ入力のストリームを変換し、処理する確率的ニューラルコンピューティング(SNC)の理論を提案する。 相関型ニューラル・バリアビリティの伝播を考慮し,スパイキング・ニューラル・ネットワーク(SNN)に埋め込まれたモーメントの第一原理から導いた。 これにより、レートベースのニューラルネットワークを2階に自然に一般化する、モーメントニューラルネットワーク(MNN)と呼ばれる新しいタイプのディープラーニングモデルが生まれる。 MNNは神経活動の定常統計を忠実に捉えているので、自由パラメータゼロでSNNを訓練するための強力なプロキシとして機能する。 タスク駆動方式で平均発火率とノイズ相関を共同操作することにより,予測の不確実性を最小化しながら推論タスクを学習し,推論速度を向上する。 さらに,本手法をIntelのLoihiニューロモルフィックハードウェアに適用した。 提案されたSNC理論は、不確実性を計算できるマシンインテリジェンスを開発するための新たな機会を開拓し、非伝統的なコンピューティングアーキテクチャを設計する可能性がある。

The highly irregular spiking activity of cortical neurons and behavioral variability suggest that the brain could operate in a fundamentally probabilistic way. Mimicking how the brain implements and learns probabilistic computation could be a key to developing machine intelligence that can think more like humans. In this work, we propose a theory of stochastic neural computing (SNC) in which streams of noisy inputs are transformed and processed through populations of nonlinearly coupled spiking neurons. To account for the propagation of correlated neural variability, we derive from first principles a moment embedding for spiking neural network (SNN). This leads to a new class of deep learning model called the moment neural network (MNN) which naturally generalizes rate-based neural networks to second order. As the MNN faithfully captures the stationary statistics of spiking neural activity, it can serve as a powerful proxy for training SNN with zero free parameters. Through joint manipulation of mean firing rate and noise correlations in a task-driven way, the model is able to learn inference tasks while simultaneously minimizing prediction uncertainty, resulting in enhanced inference speed. We further demonstrate the application of our method to Intel's Loihi neuromorphic hardware. The proposed theory of SNC may open up new opportunities for developing machine intelligence capable of computing uncertainty and for designing unconventional computing architectures.
翻訳日:2024-04-24 01:22:08 公開日:2024-04-21
# ブロックチェーンガバナンスを理解する - DeFiスマートコントラクトを修正するための分散投票の分析

Understanding Blockchain Governance: Analyzing Decentralized Voting to Amend DeFi Smart Contracts ( http://arxiv.org/abs/2305.17655v3 )

ライセンス: Link先を確認
Johnnatan Messias, Vabuk Pahari, Balakrishnan Chandrasekaran, Krishna P. Gummadi, Patrick Loiseau, (参考訳) スマートコントラクトは、暗黙的にお互いを信頼できないブロックチェーンの参加者間の契約契約である。 それらはブロックチェーン上で実行されるソフトウェアプログラムであり、バグを修正したり、新しいユースケースに対処するためには、時々変更する必要があります。 ガバナンスプロトコルは、中央集権的な権限なしに、これらのスマートコントラクトを修正または変更する手段を定義します。 スマートコントラクトのすべてのユーザに意思決定の権限を分配する。 本稿では,2つの広く使用されているガバナンスプロトコルであるCompoundとUniswapをケーススタディとして,分散ガバナンスの実践をレビューし,特徴付ける。 10人の有権者がそれぞれ57.86%と44.72%を保有している。 プロトコルを変更するか修正する提案は、平均して、コンプレックスプロトコル内でかなりの数の投票(すなわち89.39%)を受け取っているが、50%以上の票を得るためには3人未満の有権者が必要である。 我々は,複合提案の投票は小額のトークン保有者にとって不公平にコストがかかることを示し,これらの利用者をさらに疎結合にできる連立案を見出した。

Smart contracts are contractual agreements between participants of a blockchain, who cannot implicitly trust one another. They are software programs that run on top of a blockchain, and we may need to change them from time to time (e.g., to fix bugs or address new use cases). Governance protocols define the means for amending or changing these smart contracts without any centralized authority. They distribute the decision-making power to every user of the smart contract: Users vote on accepting or rejecting every change. In this work, we review and characterize decentralized governance in practice, using Compound and Uniswap -- two widely used governance protocols -- as a case study. We reveal a high concentration of voting power in both Compound and Uniswap: 10 voters hold together 57.86% and 44.72% of the voting power, respectively. Although proposals to change or amend the protocol receive, on average, a substantial number of votes (i.e., 89.39%) in favor within the Compound protocol, they require fewer than three voters to obtain 50% or more votes. We show that voting on Compound proposals can be unfairly expensive for small token holders, and we discover voting coalitions that can further marginalize these users.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-21
# AWQ: LLM圧縮・高速化のためのアクティベーション対応ウェイト量子化

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration ( http://arxiv.org/abs/2306.00978v3 )

ライセンス: Link先を確認
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, (参考訳) 大規模言語モデル(LLM)は、自然言語処理からロボット工学や自律運転におけるより複雑なドメイン固有タスクまで、多くのアプリケーションの能力を根本的に変えてきた。 さらに,近年,デバイス上でのLCMの重要性が著しく高まっている。 エッジデバイス上でのLDMの実行は、レイテンシの低減とユーザエクスペリエンスの向上を約束するだけでなく、データ処理がローカルに発生するため、ユーザのプライバシの必要性の増大とも一致している。 しかし、現代のLLMの天文学的モデルサイズとエッジデバイスの制約は、主にメモリサイズと帯域幅の点で、大きな展開課題を引き起こしている。 本稿では,LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチである,Activation-Aware Weight Quantization (AWQ)を提案する。 我々の手法は、重量が等しく重要でないという観測に基づいており、正の重量の1%しか保護していないため、量子化誤差を大幅に低減できる。 そこで我々は,重みではなく活性化を観察することによって,塩分量を保護する最適なチャネルごとのスケーリングを提案する。 AWQはバックプロパゲーションや再構成に依存しないので、キャリブレーションセットに過度に適合することなく、異なる領域やモダリティに対するLLMの一般化能力を十分に維持することができる。 AWQは、様々な言語モデリングやドメイン固有のベンチマーク(コーディングと数学)において、既存の作業よりも優れています。 より優れた一般化により、命令調整されたLMに対して優れた量子化性能を達成し、初めてマルチモーダルなLMを実現する。 AWQと並行して、私たちは、デスクトップとモバイルの両方のGPU上でHuggingface FP16実装よりも3倍以上のスピードアップを提供する、デバイス上でのLLM/VLMに適した、効率的で柔軟な推論フレームワークであるTinyChatを実装しています。 また、モバイルGPU上の70B Llama-2モデルのデプロイを民主化している。

Large language models (LLMs) have fundamentally transformed the capabilities of numerous applications, from natural language processing to more intricate domain-specific tasks in robotics and autonomous driving. Moreover, the importance of on-device LLMs has grown significantly in the recent years. Running LLMs on edge devices not only promises reduced latency and improved user experience but also aligns with the increasing need for user privacy, as data processing can occur locally. However, the astronomical model sizes of modern LLMs and constraints of the edge devices, primarily in terms of memory size and bandwidth, pose significant deployment challenges. In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error. We then propose to search for the optimal per-channel scaling that protects the salient weights by observing the activation, not weights. AWQ does not rely on any backpropagation or reconstruction, so it can well preserve LLMs' generalization ability on different domains and modalities, without overfitting to the calibration set. AWQ outperforms existing work on various language modeling and domain-specific benchmarks (coding and math). Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. Alongside AWQ, we implement TinyChat, an efficient and flexible inference framework tailored for on-device LLM/VLMs, offering more than 3x speedup over the Huggingface FP16 implementation on both desktop and mobile GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile GPUs.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-21
# 動的不確実性を考慮した大規模データ・プルーニング

Large-scale Dataset Pruning with Dynamic Uncertainty ( http://arxiv.org/abs/2306.05175v2 )

ライセンス: Link先を確認
Muyang He, Shuo Yang, Tiejun Huang, Bo Zhao, (参考訳) 画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集し、それに基づいてより大きなモデルをトレーニングすることによって進歩している。 その結果、計算コストの増大は達成不可能になりつつある。 本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。 本稿では,予測の不確かさとトレーニング力学の両方を探索し,簡便で効果的なデータセット解析手法を提案する。 本研究では,大規模なデータセットであるImageNet-1KとImageNet-21Kと,Swin TransformerとConvNeXtの高度なモデルを用いて,トレーニングプロセス全体における予測の変動を測定することで,データセットのプルーニングについて検討する。 その結果,本手法は画像Net-1Kと画像Net-21Kの両方で25%のロスレスプルーニング比を達成できることがわかった。 コードはhttps://github.com/BAAI-DCAI/Dataset-Pruning.comで公開されている。

The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable. In this paper, we investigate how to prune the large-scale datasets, and thus produce an informative subset for training sophisticated deep models with negligible performance drop. We propose a simple yet effective dataset pruning method by exploring both the prediction uncertainty and training dynamics. We study dataset pruning by measuring the variation of predictions during the whole training process on large-scale datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin Transformer and ConvNeXt. Extensive experimental results indicate that our method outperforms the state of the art and achieves 25% lossless pruning ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are available at https://github.com/BAAI-DCAI/Dataset-Pruning.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-21
# PEAR: 階層的強化学習を促進するための原始的適応的リラベリング

PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.06394v5 )

ライセンス: Link先を確認
Utsav Singh, Vinay P. Namboodiri, (参考訳) 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。 しかし、階層的エージェントは本質的に非定常性のために訓練が難しい。 提案手法は,まず数種類の専門家による適応的レバーベリングを行い,効率的なサブゴナル・インスペクションを生成するための2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案し,その後,強化学習(RL)と模倣学習(IL)を用いてHRLエージェントを協調的に最適化する。 我々は$に対する理論的解析を行う (i)$ アプローチのサブ最適性にバインドし、$ (ii)RLとILを用いた共同最適化のための汎用的なプラグアンドプレイフレームワークを導出する。 PEARは、少数の専門家によるデモンストレーションしか利用せず、タスク構造上の最小限の仮定も考慮しているため、典型的な外部RLアルゴリズムと容易に統合して実用的なHRLアプローチを作成することができる。 課題のある環境について広範な実験を行い、PEARが長期的意思決定を必要とする複雑なタスクにおいて、様々な階層的、非階層的ベースラインを上回り得ることを示す。 また、さまざまな設計選択の重要性を徹底的に分析するための改善も行います。 最後に、複雑なタスクにおける実世界のロボット実験を行い、PEARがベースラインを一貫して上回っていることを示す。

Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train due to inherent non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where we first perform adaptive relabeling on a few expert demonstrations to generate efficient subgoal supervision, and then jointly optimize HRL agents by employing reinforcement learning (RL) and imitation learning (IL). We perform theoretical analysis to $(i)$ bound the sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play framework for joint optimization using RL and IL. Since PEAR utilizes only a handful of expert demonstrations and considers minimal limiting assumptions on the task structure, it can be easily integrated with typical off-policy RL algorithms to produce a practical HRL approach. We perform extensive experiments on challenging environments and show that PEAR is able to outperform various hierarchical and non-hierarchical baselines on complex tasks that require long term decision making. We also perform ablations to thoroughly analyse the importance of our various design choices. Finally, we perform real world robotic experiments on complex tasks and demonstrate that PEAR consistently outperforms the baselines.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-21
# Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする

Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v2 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang, (参考訳) 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生み出している。 人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。 しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。 大規模言語モデル(LLM)が意味理解と推論において有望な能力を誇示していることを考えると,LLMの展開は,人間に親しみやすい方法で表示・相互作用しながら,大量のデータを自律的に管理・処理することができることを主張する。 この信念に基づいて,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。 経験豊富な専門家のように,Data-Copilotは,生データを視覚化結果に自動変換することで,ユーザの意図に最もマッチする。 具体的には、Data-Copilotはデータ管理、処理、予測、視覚化のための汎用インターフェース(ツール)を自律的に設計する。 リアルタイム応答では、ユーザの要求に対してステップバイステップで対応するインターフェースを呼び出すことで、簡潔なワークフローを自動的に展開する。 インターフェースの設計とデプロイメントのプロセスは、Data-Copilot自身で完全に制御され、人間の助けがない。 さらに、さまざまなドメイン(ストック、ファンド、企業、経済学、ライブニュース)の豊富なデータをリンクするData-Copilotデモを作成し、信頼性の高いAIアシスタントとして、さまざまな要求に正確に対応します。

Various industries such as finance, meteorology, and energy generate vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering that large language models (LLMs) have showcased promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while displaying and interacting in a human-friendly manner. Based on this belief, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting like an experienced expert, Data-Copilot autonomously transforms raw data into visualization results that best match the user's intent. Specifically, Data-Copilot autonomously designs versatile interfaces (tools) for data management, processing, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces step by step for the user's request. The interface design and deployment processes are fully controlled by Data-Copilot itself, without human assistance. Besides, we create a Data-Copilot demo that links abundant data from different domains (stock, fund, company, economics, and live news) and accurately respond to diverse requests, serving as a reliable AI assistant.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-21
# 非退行学習は退行を伴う回帰に一貫性がある場合

When No-Rejection Learning is Consistent for Regression with Rejection ( http://arxiv.org/abs/2307.02932v4 )

ライセンス: Link先を確認
Xiaocheng Li, Shang Liu, Chunlin Sun, Hanzhao Wang, (参考訳) 拒絶による学習は、予測タスクにおける人間とAIの相互作用を研究するための原型モデルである。 サンプルインスタンスが到着すると、まずモデルがリジェクターを使用してAI予測器を受理し、使用するかを判断し、予測するか、サンプルを人間に延期する。 そのようなモデルを学ぶと、元の損失関数の構造が変化し、しばしば望ましくない非凸性や矛盾の問題が発生する。 拒絶問題のある分類では、いくつかの研究が予測子と拒絶子の合同学習において一貫したサロゲート損失を生じさせるが、回帰問題に対する研究は少ない。 本稿では,レグレッションをレグレッション(RwR)問題を用いて検討し,すべてのデータを用いて予測器を学習するノンリジェクション学習戦略について検討する。 まず、弱い実現可能性条件の下で、このような戦略の整合性を確立する。 そして、弱い実現可能性のない場合、過大なリスクは、予測誤差と校正誤差の2つの部分の和に上限づけられることが示される。 最後に,このような学習戦略の利点を実証的証拠で示す。

Learning with rejection has been a prototypical model for studying the human-AI interaction on prediction tasks. Upon the arrival of a sample instance, the model first uses a rejector to decide whether to accept and use the AI predictor to make a prediction or reject and defer the sample to humans. Learning such a model changes the structure of the original loss function and often results in undesirable non-convexity and inconsistency issues. For the classification with rejection problem, several works develop consistent surrogate losses for the joint learning of the predictor and the rejector, while there have been fewer works for the regression counterpart. This paper studies the regression with rejection (RwR) problem and investigates a no-rejection learning strategy that uses all the data to learn the predictor. We first establish the consistency for such a strategy under the weak realizability condition. Then for the case without the weak realizability, we show that the excessive risk can also be upper bounded with the sum of two parts: prediction error and calibration error. Lastly, we demonstrate the advantage of such a proposed learning strategy with empirical evidence.
翻訳日:2024-04-24 01:02:16 公開日:2024-04-21
# FakeTracer: トレーニングの痕跡を埋め込んだフェイススワップディープフェイク

FakeTracer: Catching Face-swap DeepFakes via Implanting Traces in Training ( http://arxiv.org/abs/2307.14593v2 )

ライセンス: Link先を確認
Pu Sun, Honggang Qi, Yuezun Li, Siwei Lyu, (参考訳) Face-swap DeepFakeは、AIベースの顔偽造技術で、表現や方向などの一貫した顔属性を保持しながら、ビデオ中の元の顔をターゲットアイデンティティの生成された顔に置き換えることができる。 顔のプライバシーが高いため、この手法の誤用は深刻な社会的懸念を生じさせ、最近DeepFakesに対する防衛に多大な注意を払っている。 本稿では,FakeTracerと呼ばれる新しいプロアクティブ防御手法について述べる。 顔合成のDeepFakeと比較すると、顔スワップのDeepFakeは、アイデンティティの変更を伴うため、より複雑であり、エンコーディング・デコードプロセスの対象となり、教師なしで訓練され、トレースをトレーニングフェーズに埋め込むのが困難になる。 フェイススワップのDeepFakeに対して効果的に防御するために、トレーニング顔に追加される2種類のトレース、持続可能なトレース(STrace)と消去可能なトレース(ETrace)を設計する。 トレーニング中、これらの操作された顔は、フェイススワップのDeepFakeモデルの学習に影響を与えるため、持続可能なトレースのみを含む顔を生成することができる。 これら2つの痕跡から,本手法はディープフェイクを同定して効果的に露出することができる。 広範囲にわたる実験は,顔洗面のDeepFakeに対する防御法の有効性を裏付けるものである。

Face-swap DeepFake is an emerging AI-based face forgery technique that can replace the original face in a video with a generated face of the target identity while retaining consistent facial attributes such as expression and orientation. Due to the high privacy of faces, the misuse of this technique can raise severe social concerns, drawing tremendous attention to defend against DeepFakes recently. In this paper, we describe a new proactive defense method called FakeTracer to expose face-swap DeepFakes via implanting traces in training. Compared to general face-synthesis DeepFake, the face-swap DeepFake is more complex as it involves identity change, is subjected to the encoding-decoding process, and is trained unsupervised, increasing the difficulty of implanting traces into the training phase. To effectively defend against face-swap DeepFake, we design two types of traces, sustainable trace (STrace) and erasable trace (ETrace), to be added to training faces. During the training, these manipulated faces affect the learning of the face-swap DeepFake model, enabling it to generate faces that only contain sustainable traces. In light of these two traces, our method can effectively expose DeepFakes by identifying them. Extensive experiments corroborate the efficacy of our method on defending against face-swap DeepFake.
翻訳日:2024-04-24 01:02:16 公開日:2024-04-21
# ディープニューラルネットワークを用いた分類とロジスティック損失

Classification with Deep Neural Networks and Logistic Loss ( http://arxiv.org/abs/2307.16792v2 )

ライセンス: Link先を確認
Zihan Zhang, Lei Shi, Ding-Xuan Zhou, (参考訳) 深いニューラルネットワーク(DNN)は、ロジスティック損失(すなわちクロスエントロピー損失)で訓練され、様々なバイナリ分類タスクにおいて顕著な進歩を遂げた。 しかし、DNNによる二項分類とロジスティック損失の一般化分析は依然として少ない。 ロジスティック損失に対する対象関数の非有界性は、満足な一般化境界を導出する主な障害である。 本稿では,新規でエレガントなオラクル型不等式を確立することにより,対象関数の有界性制限に対処し,ロジスティック損失を学習したReLU DNN分類器の急激な収束率を導出することで,このギャップを埋めることを目的とする。 特に、最適収束率(対数因子まで)は条件付きクラス確率$\eta$のデータで H より古い滑らかさを必要とするだけである。 さらに、$\eta$を、各成分関数が最大値関数またはH\older滑らか関数のいずれかであるいくつかのベクトル値関数の合成に要求する構成的仮定を、少数の入力変数にのみ依存する。 この仮定の下では、データの入力次元に依存しない最適収束率(対数係数まで)を導出する。 この結果は、DNN分類器が実用的な高次元分類問題でうまく機能する理由を説明する。 新規なオラクル型不等式に加えて,ReLU DNNs による自然対数関数のゼロ近傍(非有界)近似にも強い誤差がある。 さらに、対応するミニマックス下限を証明することにより、速度の最適性に対する我々の主張を正当化する。 これらの結果はすべて文献に新しいものであり、DNNによる分類に関する理論的理解を深めるでしょう。

Deep neural networks (DNNs) trained with the logistic loss (i.e., the cross entropy loss) have made impressive advancements in various binary classification tasks. However, generalization analysis for binary classification with DNNs and logistic loss remains scarce. The unboundedness of the target function for the logistic loss is the main obstacle to deriving satisfactory generalization bounds. In this paper, we aim to fill this gap by establishing a novel and elegant oracle-type inequality, which enables us to deal with the boundedness restriction of the target function, and using it to derive sharp convergence rates for fully connected ReLU DNN classifiers trained with logistic loss. In particular, we obtain optimal convergence rates (up to log factors) only requiring the H\"older smoothness of the conditional class probability $\eta$ of data. Moreover, we consider a compositional assumption that requires $\eta$ to be the composition of several vector-valued functions of which each component function is either a maximum value function or a H\"older smooth function only depending on a small number of its input variables. Under this assumption, we derive optimal convergence rates (up to log factors) which are independent of the input dimension of data. This result explains why DNN classifiers can perform well in practical high-dimensional classification problems. Besides the novel oracle-type inequality, the sharp convergence rates given in our paper also owe to a tight error bound for approximating the natural logarithm function near zero (where it is unbounded) by ReLU DNNs. In addition, we justify our claims for the optimality of rates by proving corresponding minimax lower bounds. All these results are new in the literature and will deepen our theoretical understanding of classification with DNNs.
翻訳日:2024-04-24 01:02:16 公開日:2024-04-21
# 容量化車両ルーティング問題に対する実現可能性保存型量子近似解法

A Feasibility-Preserved Quantum Approximate Solver for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2308.08785v3 )

ライセンス: Link先を確認
Ningyi Xie, Xinwei Lee, Dongsheng Cai, Yoshiyuki Saito, Nobuyoshi Asai, Hoong Chuin Lau, (参考訳) CVRP(Capacitated Vehicle Routing Problem)は、輸送や物流など様々な分野で発生するNP最適化問題である。 CVRPは、各車両の輸送能力の制限を受けながら、車両群が顧客に商品を届ける最も効率的な計画を決定することを目的として、車両ルーティング問題(VRP)から拡張されている。 顧客数が増えると、可能なソリューションの数が急増するので、最適なソリューションを見つけることは依然として大きな課題です。 近年,量子古典ハイブリッドアルゴリズムである量子近似最適化アルゴリズム (QAOA) は,古典的ヒューリスティックよりも特定の組合せ最適化問題において高い性能を示した。 しかし、その能力は、CVRPを含む制約付き最適化問題の解決において顕著に低下する。 この制限は主に、与えられた問題をペナルティを含まないバイナリ最適化問題として符号化する典型的なアプローチから生じる。 この場合、QAOAは全ての制約を満たすサンプリングソリューションの課題に直面します。 そこで本研究では,CVRPの車載容量制約を回避できる最短経路を最小化する目的関数として,CVRPの新しいバイナリエンコーディングを提案する。 探索空間は、制約保存混合操作によりさらに制限される。 本稿では,QAOAの変種であるQuantum Alternating Operator Ansatz (AOA) の枠組みの下で提案する符号化の有効性について検討し,その実例を用いて検討する。 従来のQAOA手法と比較して,提案手法は実現可能性を保持するだけでなく,最適解を測定する確率を大幅に向上させる。

The Capacitated Vehicle Routing Problem (CVRP) is an NP-optimization problem (NPO) that arises in various fields including transportation and logistics. The CVRP extends from the Vehicle Routing Problem (VRP), aiming to determine the most efficient plan for a fleet of vehicles to deliver goods to a set of customers, subject to the limited carrying capacity of each vehicle. As the number of possible solutions skyrockets when the number of customers increases, finding the optimal solution remains a significant challenge. Recently, the Quantum Approximate Optimization Algorithm (QAOA), a quantum-classical hybrid algorithm, has exhibited enhanced performance in certain combinatorial optimization problems compared to classical heuristics. However, its ability diminishes notably in solving constrained optimization problems including the CVRP. This limitation primarily arises from the typical approach of encoding the given problems as penalty-inclusive binary optimization problems. In this case, the QAOA faces challenges in sampling solutions satisfying all constraints. Addressing this, our work presents a new binary encoding for the CVRP, with an alternative objective function of minimizing the shortest path that bypasses the vehicle capacity constraint of the CVRP. The search space is further restricted by the constraint-preserving mixing operation. We examine and discuss the effectiveness of the proposed encoding under the framework of the variant of the QAOA, Quantum Alternating Operator Ansatz (AOA), through its application to several illustrative examples. Compared to the typical QAOA approach, the proposed method not only preserves the feasibility but also achieves a significant enhancement in the probability of measuring optimal solutions.
翻訳日:2024-04-24 00:52:28 公開日:2024-04-21
# GraphReason: グラフベースの検証アプローチによる大規模言語モデルの推論機能向上

GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach ( http://arxiv.org/abs/2308.09267v4 )

ライセンス: Link先を確認
Lang Cao, (参考訳) 大きな言語モデル(LLM)は、特に数学の単語問題のような複雑な推論タスクにおいて、特別に設計されたプロンプトによってガイドされるときに、印象的な推論能力を示す。 これらのモデルは典型的にはチェーン・オブ・ソート(英語版)アプローチを用いてタスクを解決し、推論能力を高めるだけでなく、問題解決プロセスに関する貴重な洞察を提供する。 しかし, LLMの推論能力を高める余地は依然として大きい。 一部の研究では、LLM出力検証器の統合は、追加のモデルトレーニングを必要とせず、推論精度を向上させることが示唆されている。 本稿では,これらの研究に追従し,LLMの推論能力をさらに増強するグラフベースの新しい手法を提案する。 LLMによって生成される推論タスクに対する複数の解は、異なる推論経路からの中間ステップ間の論理的接続により、推論グラフとして表現できると仮定する。 そこで本稿では,LLM が生成する解を解析し,検証する Reasoning Graph Verifier (GraphReason) を提案する。 実験結果から, LLMの推論能力の向上だけでなく, これらのモデルの推論性能の向上の観点からも, 既存の検証手法よりも優れていることがわかった。

Large Language Models (LLMs) have showcased impressive reasoning capabilities, particularly when guided by specifically designed prompts in complex reasoning tasks such as math word problems. These models typically solve tasks using a chain-of-thought approach, which not only bolsters their reasoning abilities but also provides valuable insights into their problem-solving process. However, there is still significant room for enhancing the reasoning abilities of LLMs. Some studies suggest that the integration of an LLM output verifier can boost reasoning accuracy without necessitating additional model training. In this paper, we follow these studies and introduce a novel graph-based method to further augment the reasoning capabilities of LLMs. We posit that multiple solutions to a reasoning task, generated by an LLM, can be represented as a reasoning graph due to the logical connections between intermediate steps from different reasoning paths. Therefore, we propose the Reasoning Graph Verifier (GraphReason) to analyze and verify the solutions generated by LLMs. By evaluating these graphs, models can yield more accurate and reliable results.Our experimental results show that our graph-based verification method not only significantly enhances the reasoning abilities of LLMs but also outperforms existing verifier methods in terms of improving these models' reasoning performance.
翻訳日:2024-04-24 00:52:28 公開日:2024-04-21
# モナラ音声強調のためのスパイキング構造状態空間モデル

Spiking Structured State Space Model for Monaural Speech Enhancement ( http://arxiv.org/abs/2309.03641v2 )

ライセンス: Link先を確認
Yu Du, Xu Liu, Yansong Chua, (参考訳) 音声強調は、ノイズの多い信号からクリーンな音声を抽出しようとする。 従来のディープラーニング手法は、2つの課題に直面している。 これらの問題に対処するために、スパイキング構造化状態空間モデル(Spiking-S4)を紹介する。 このアプローチは、スパイキングニューラルネットワーク(SNN)のエネルギー効率と構造化状態空間モデル(S4)の長距離シーケンスモデリング能力を融合し、魅力的なソリューションを提供する。 DNSチャレンジとVoiceBank+Demand Datasetsの評価によると、Spike-S4は既存のArtificial Neural Network(ANN)メソッドと競合するが、パラメータの削減と浮動小数点演算(FLOP)によって証明された計算リソースが少ない。

Speech enhancement seeks to extract clean speech from noisy signals. Traditional deep learning methods face two challenges: efficiently using information in long speech sequences and high computational costs. To address these, we introduce the Spiking Structured State Space Model (Spiking-S4). This approach merges the energy efficiency of Spiking Neural Networks (SNN) with the long-range sequence modeling capabilities of Structured State Space Models (S4), offering a compelling solution. Evaluation on the DNS Challenge and VoiceBank+Demand Datasets confirms that Spiking-S4 rivals existing Artificial Neural Network (ANN) methods but with fewer computational resources, as evidenced by reduced parameters and Floating Point Operations (FLOPs).
翻訳日:2024-04-24 00:52:28 公開日:2024-04-21
# ViTScore Metricを用いた画像のセマンティックコミュニケーションの評価法

How to Evaluate Semantic Communications for Images with ViTScore Metric? ( http://arxiv.org/abs/2309.04891v2 )

ライセンス: Link先を確認
Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan, Jingqiao Fu, Junjie Chen, (参考訳) セマンティック通信 (SC) は, 通信における正確なビット伝送から効果的なセマンティック情報交換へと, 次世代通信を触媒する新たなパラダイムシフトとして期待されている。 しかし、SCのイメージセマンティックな類似性を評価するには、以前の画像のメトリクスと広く使われているメトリクスは適用できない。 2つの画像間の類似度を測定する古典的な指標は、通常PSNRやMS-SSIMのようなピクセルレベルや構造レベルに依存している。 LPIPS のような CV コミュニティの深層学習手法をベースとした改善されたメトリクスをストレートフォワードで使用することは,SC では不可能である。 NLPコミュニティのBERTScoreにインスパイアされたこの問題に対処するため、視覚変換スコア(ViTScore)と呼ばれる画像意味的類似性を評価するための新しい指標を提案する。 理論的には、ViTScoreには対称性、有界性、正規化の3つの重要な性質がある。 ViTScoreの性能を評価するために、ViTScoreと3つの典型的なメトリクス(PSNR、MS-SSIM、LPIPS)を4種類の実験で比較した。 (i)下流CVタスクの画像キャプション評価によるBERTScoreとの相関 (ii)古典的画像通信における評価 三 画像意味コミュニケーションシステムにおける評価、及び (4)セマンティックアタックを用いた画像意味コミュニケーションシステムにおける評価 実験結果から,ViTScoreは画像の意味的類似性を評価する上で,堅牢で効率的であることが示された。 特に、ViTScoreは、GAN(Generative Adversarial Networks)による画像逆転のようなセマンティックアタックによる画像意味の変化を評価する際に、他の3つの典型的な指標よりも優れています。 これは、ViTScoreがSCシナリオにデプロイする際の効果的なパフォーマンス指標であることを示している。

Semantic communications (SC) have been expected to be a new paradigm shifting to catalyze the next generation communication, whose main concerns shift from accurate bit transmission to effective semantic information exchange in communications. However, the previous and widely-used metrics for images are not applicable to evaluate the image semantic similarity in SC. Classical metrics to measure the similarity between two images usually rely on the pixel level or the structural level, such as the PSNR and the MS-SSIM. Straightforwardly using some tailored metrics based on deep-learning methods in CV community, such as the LPIPS, is infeasible for SC. To tackle this, inspired by BERTScore in NLP community, we propose a novel metric for evaluating image semantic similarity, named Vision Transformer Score (ViTScore). We prove theoretically that ViTScore has 3 important properties, including symmetry, boundedness, and normalization, which make ViTScore convenient and intuitive for image measurement. To evaluate the performance of ViTScore, we compare ViTScore with 3 typical metrics (PSNR, MS-SSIM, and LPIPS) through 4 classes of experiments: (i) correlation with BERTScore through evaluation of image caption downstream CV task, (ii) evaluation in classical image communications, (iii) evaluation in image semantic communication systems, and (iv) evaluation in image semantic communication systems with semantic attack. Experimental results demonstrate that ViTScore is robust and efficient in evaluating the semantic similarity of images. Particularly, ViTScore outperforms the other 3 typical metrics in evaluating the image semantic changes by semantic attack, such as image inverse with Generative Adversarial Networks (GANs). This indicates that ViTScore is an effective performance metric when deployed in SC scenarios.
翻訳日:2024-04-24 00:52:28 公開日:2024-04-21
# 回路の複雑さと機能--熱力学の視点から

Circuit complexity and functionality: a thermodynamic perspective ( http://arxiv.org/abs/2309.05731v2 )

ライセンス: Link先を確認
Claudio Chamon, Andrei E. Ruckenstein, Eduardo R. Mucciolo, Ran Canetti, (参考訳) 特定のブール計算を実装するのに必要な最小回路サイズとして定義される回路複雑性は、コンピュータ科学の基本的な概念である。 回路の複雑さを決定することは、難しい計算問題である [1] であると考えられている。 近年、ブラックホールの文脈では、回路の複雑さが物理的性質へと促進され、AdS `eternal'' ブラックホールの両側を繋ぐアインシュタイン・ローゼン橋 (``wormhole'') の時間発展に複雑性の増大が反映されている。 ここでは、与えられた関数の回路に対する複雑性と熱力学の別の関係を探求し、物理に着想を得たアプローチを実際の計算問題に関連付ける。 特に、我々の熱力学フレームワークは、回路の隣り合う部分の再帰的な混合による熱化として、任意の長さのプログラムの難読化(暗号における重要な問題)について、新たな視点を提供する。 この再帰過程は平均複雑性を平衡させ、回路のエントロピーが飽和し、回路全体の機能を保存する。 私たちが予想する回路空間におけるエルゴード性に関する熱力学の議論は、断片化による非連結エルゴードセクターに限られる。 フラグメンテーションの概念は、回路難読化の問題に重要な意味を持ち、これは、局所移動によって接続できない同じ大きさと機能を持つ回路が存在することを意味する。 さらに、複雑性クラスNPとcoNPが一致しない限り、断片化は避けられないと論じる。

Circuit complexity, defined as the minimum circuit size required for implementing a particular Boolean computation, is a foundational concept in computer science. Determining circuit complexity is believed to be a hard computational problem [1]. Recently, in the context of black holes, circuit complexity has been promoted to a physical property, wherein the growth of complexity is reflected in the time evolution of the Einstein-Rosen bridge (``wormhole'') connecting the two sides of an AdS ``eternal'' black hole [2]. Here we explore another link between complexity and thermodynamics for circuits of given functionality, making the physics-inspired approach relevant to real computational problems, for which functionality is the key element of interest. In particular, our thermodynamic framework provides a new perspective on the obfuscation of programs of arbitrary length -- an important problem in cryptography -- as thermalization through recursive mixing of neighboring sections of a circuit, which can be viewed as the mixing of two containers with ``gases of gates''. This recursive process equilibrates the average complexity and leads to the saturation of the circuit entropy, while preserving functionality of the overall circuit. The thermodynamic arguments hinge on ergodicity in the space of circuits which we conjecture is limited to disconnected ergodic sectors due to fragmentation. The notion of fragmentation has important implications for the problem of circuit obfuscation as it implies that there are circuits with same size and functionality that cannot be connected via local moves. Furthermore, we argue that fragmentation is unavoidable unless the complexity classes NP and coNP coincide, a statement that implies the collapse of the polynomial hierarchy of computational complexity theory to its first level.
翻訳日:2024-04-24 00:52:28 公開日:2024-04-21
# 生成データ拡張のための統一フレームワーク: 総合的な調査

A Unified Framework for Generative Data Augmentation: A Comprehensive Survey ( http://arxiv.org/abs/2310.00277v2 )

ライセンス: Link先を確認
Yunhao Chen, Zihui Yan, Yunjie Zhu, (参考訳) GDA(Generative Data Augmentation)は、機械学習アプリケーションにおけるデータの不足を軽減するための有望なテクニックとして登場した。 この論文は、GDAランドスケープの総合的な調査と統合されたフレームワークを提示している。 まず、GDAの概要を説明し、そのモチベーション、分類、および合成データ生成との大きな違いについて論じる。 そして、GDAの重要な側面である生成モデルの選択、それらを活用する技術、データ選択方法、検証アプローチ、多様なアプリケーションについて体系的に分析する。 提案する統一フレームワークは,GDAの広範な文献を分類し,普遍的なベンチマークの欠如などのギャップを明らかにする。 この論文は、有効なデータ選択、GDAにおける大規模モデルの応用の理論開発、GDAのベンチマークの確立など、有望な研究方向性を要約している。 この論文は、構造的基盤を築き、より密着的な発達を育み、生成的データ増強の重要な領域の進展を加速することを目的としている。

Generative data augmentation (GDA) has emerged as a promising technique to alleviate data scarcity in machine learning applications. This thesis presents a comprehensive survey and unified framework of the GDA landscape. We first provide an overview of GDA, discussing its motivation, taxonomy, and key distinctions from synthetic data generation. We then systematically analyze the critical aspects of GDA - selection of generative models, techniques to utilize them, data selection methodologies, validation approaches, and diverse applications. Our proposed unified framework categorizes the extensive GDA literature, revealing gaps such as the lack of universal benchmarks. The thesis summarises promising research directions, including , effective data selection, theoretical development for large-scale models' application in GDA and establishing a benchmark for GDA. By laying a structured foundation, this thesis aims to nurture more cohesive development and accelerate progress in the vital arena of generative data augmentation.
翻訳日:2024-04-24 00:42:43 公開日:2024-04-21
# ペナル化推定器の有限アンサンブルに対する補正一般化クロスバリデーション

Corrected generalized cross-validation for finite ensembles of penalized estimators ( http://arxiv.org/abs/2310.01374v2 )

ライセンス: Link先を確認
Pierre C. Bellec, Jin-Hong Du, Takuya Koriyama, Pratik Patil, Kai Tan, (参考訳) Generalized Cross-Vidation (GCV) は、二乗トレーニングエラーに対して、スカラーな自由度調整(乗法的な意味で)を用いる、二乗アウトオブサンプル予測リスクを推定するために広く用いられている手法である。 本稿では,最小二乗推定器の任意のアンサンブルの予測リスクを推定するためのGCVの整合性について検討する。 GCV は 1 以上の大きさの有限アンサンブルに対して不整合であることを示す。 この欠点を修復するために,各アンサンブルコンポーネントからの自由度調整されたトレーニングエラーに基づいて,追加のスカラー補正(加法的意味)を含む補正を同定する。 提案した推定器(CGCV)は, GCVの計算上の優位性を維持し, サンプル分割, モデル再構成, バッグ外リスク推定を必要としない。 この推定器は、アンサンブルのリスク分解のより詳細な検査と、この分解におけるコンポーネントに対する2つの中間リスク推定器から導かれる。 本稿では,Gauss的特徴と線形応答モデルの下での凸ペナル化推定器のアンサンブルに対するCGCVと2つの中間リスク推定器の非漸近解析を行った。 さらに、尾根回帰の特別な場合において、CGCVのモデルフリー一様整合性を確立するランダム行列理論を用いて、解析を一般的な特徴と応答分布にまで拡張する。

Generalized cross-validation (GCV) is a widely-used method for estimating the squared out-of-sample prediction risk that employs a scalar degrees of freedom adjustment (in a multiplicative sense) to the squared training error. In this paper, we examine the consistency of GCV for estimating the prediction risk of arbitrary ensembles of penalized least-squares estimators. We show that GCV is inconsistent for any finite ensemble of size greater than one. Towards repairing this shortcoming, we identify a correction that involves an additional scalar correction (in an additive sense) based on degrees of freedom adjusted training errors from each ensemble component. The proposed estimator (termed CGCV) maintains the computational advantages of GCV and requires neither sample splitting, model refitting, or out-of-bag risk estimation. The estimator stems from a finer inspection of the ensemble risk decomposition and two intermediate risk estimators for the components in this decomposition. We provide a non-asymptotic analysis of the CGCV and the two intermediate risk estimators for ensembles of convex penalized estimators under Gaussian features and a linear response model. Furthermore, in the special case of ridge regression, we extend the analysis to general feature and response distributions using random matrix theory, which establishes model-free uniform consistency of CGCV.
翻訳日:2024-04-24 00:42:43 公開日:2024-04-21
# 一般的な動物イミテータ - バーサティルモーションを優先したアジャイルロコモーション

Generalized Animal Imitator: Agile Locomotion with Versatile Motion Prior ( http://arxiv.org/abs/2310.01408v2 )

ライセンス: Link先を確認
Ruihan Yang, Zhuoqun Chen, Jianhan Ma, Chongyi Zheng, Yiyu Chen, Quan Nguyen, Xiaolong Wang, (参考訳) 動物の俊敏性、特にランニング、ターン、ジャンプ、バックフリップといった複雑な活動は、ロボットシステム設計の模範である。 ロボットが複数のロボットの動きを同時に学習するために、どうやってトレーニングできるのか? ロボットはどのようにして、スムーズな移行でこれらのタスクを実行できるのか? 広範アプリケーションにこれらのスキルを統合するには? 本稿では,高度ロボットアプリケーションに適した多様なアジャイルロコモーションタスクを組み込んだ強化学習フレームワークであるVersatile Instructable Motion Prior (VIM)を紹介する。 本フレームワークは,動物の動作や手作業による動作を模倣することにより,多様なアジャイルの低レベルスキルを学習することを可能にする。 我々の機能報酬は、ロボットが様々なスキルを身につける能力を導くものであり、我々のスティライズ報酬は、ロボットの動きが基準運動と一致することを保証する。 シミュレーション環境と実環境の両方にまたがるVIMフレームワークの評価を行った。 私たちの知る限りでは、これはロボットが現実世界で1つの学習ベースのコントローラを使用して、多様なアジャイルのロコモーションスキルを同時に学習できる最初の仕事です。 詳細と支援メディアは、プロジェクトのサイト(https://rchalyang.github.io/VIM)で確認できます。

The agility of animals, particularly in complex activities such as running, turning, jumping, and backflipping, stands as an exemplar for robotic system design. Transferring this suite of behaviors to legged robotic systems introduces essential inquiries: How can a robot be trained to learn multiple locomotion behaviors simultaneously? How can the robot execute these tasks with a smooth transition? How to integrate these skills for wide-range applications? This paper introduces the Versatile Instructable Motion prior (VIM) - a Reinforcement Learning framework designed to incorporate a range of agile locomotion tasks suitable for advanced robotic applications. Our framework enables legged robots to learn diverse agile low-level skills by imitating animal motions and manually designed motions. Our Functionality reward guides the robot's ability to adopt varied skills, and our Stylization reward ensures that robot motions align with reference motions. Our evaluations of the VIM framework span both simulation environments and real-world deployment. To the best of our knowledge, this is the first work that allows a robot to concurrently learn diverse agile locomotion skills using a single learning-based controller in the real world. Further details and supportive media can be found at our project site: https://rchalyang.github.io/VIM
翻訳日:2024-04-24 00:42:43 公開日:2024-04-21
# 話す前に考える: ポーズトークンで言語モデルを訓練する

Think before you speak: Training Language Models With Pause Tokens ( http://arxiv.org/abs/2310.02226v3 )

ライセンス: Link先を確認
Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan, (参考訳) 言語モデルは、即座に一連のトークンを生成して応答を生成する:$(K+1)^{th}$トークンは、前回のトークンごとに1つのベクトルである層ごとに$K$隠れベクトルを操作する結果である。 代わりに、$(K+1)^{th}$トークンを出力する前に、モデルに$K+10$隠れベクトルを操作させるとしたらどうでしょう? 我々は、入力プレフィックスに付加される(学習可能な)$\textit{pause}$トークンを使って、言語モデル上でトレーニングと推論を行うことで、このアイデアを運用する。 次に、最後の一時停止トークンが見つかるまでモデルの出力を抽出するのを遅らせて、モデルが応答にコミットする前に余分な計算を処理できるようにします。 我々は,C4の因果前訓練を伴う1Bおよび130Mパラメータのデコーダのみのモデルと,推論,質問応答,一般的な理解,事実リコールを含む下流タスクに対して,$\textit{pause-training}$を経験的に評価した。 我々の主な発見は、モデルが事前訓練され、遅延とともに微調整されたときに、推論時間遅延が上昇するということである。 1Bモデルでは、9つのタスクのうち8つで、最も顕著に、SQuADのQAタスクで18\%$ EMスコアが、CommonSenseQAで8\%、GSM8kの推論タスクで1\%$精度が上昇している。 我々の研究は、遅れた次世代予測を広く適用可能な新しいパラダイムにするための概念的および実践的な研究課題を提起する。

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
翻訳日:2024-04-24 00:42:43 公開日:2024-04-21
# EViT:バイフォア・セルフアテンションを備えたイーグル・ビジョン・トランス

EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention ( http://arxiv.org/abs/2310.06629v3 )

ライセンス: Link先を確認
Yulong Shi, Mingwei Sun, Yongshuai Wang, Jiahao Ma, Zengqiang Chen, (参考訳) 深層学習技術の進歩により、視覚変換器は様々なコンピュータビジョンタスクにおいて競争力を発揮している。 残念ながら、視覚変換器は高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。 これらの問題を緩和するために,ワシ眼の生理的構造と視覚的特性に触発された新しいBFSA(Bi-Fovea Self-Attention)を提案する。 このBFSAは、イーグルビジョンの浅部と深部をシミュレートするために使用され、ネットワークはターゲットの特徴表現を粗いものから細かいものへと学習する。 さらに,BFSA に基づく Bionic Eagle Vision (BEV) ブロックを設計する。 畳み込みの利点を組み合わせて、生物学的視覚野が情報を階層的に並列に処理する仕組みを模倣する新しいBi-Fovea Feedforward Network (BFFN)を導入する。 さらに、BEVブロックを積み重ねることで、Eagle Vision Transformers (EViTs) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリを開発する。 実験の結果,EViTは画像分類,オブジェクト検出,セマンティックセグメンテーションなど,様々なコンピュータビジョンタスクにおいて高い競争性能を示すことがわかった。 特に性能と計算効率の面では、EViTは他と比較して大きな優位性を示している。 コードはhttps://github.com/nkusyl/EViTで入手できる。

Thanks to the advancement of deep learning technology, vision transformers has demonstrated competitive performance in various computer vision tasks. Unfortunately, vision transformers still faces some challenges such as high computational complexity and absence of desirable inductive bias. To alleviate these issues, we propose a novel Bi-Fovea Self-Attention (BFSA) inspired by the physiological structure and visual properties of eagle eyes. This BFSA is used to simulate the shallow and deep fovea of eagle vision, prompting the network to learn the feature representation of targets from coarse to fine. Additionally, we design a Bionic Eagle Vision (BEV) block based on BFSA. It combines the advantages of convolution and introduces a novel Bi-Fovea Feedforward Network (BFFN) to mimic the working way of biological visual cortex processes information in hierarchically and parallel. Furthermore, we develop a unified and efficient pyramid backbone network family called Eagle Vision Transformers (EViTs) by stacking BEV blocks. Experimental results show that EViTs exhibit highly competitive performance in various computer vision tasks such as image classification, object detection and semantic segmentation. Especially in terms of performance and computational efficiency, EViTs show significant advantages compared with other counterparts. Code is available at https://github.com/nkusyl/EViT
翻訳日:2024-04-24 00:32:58 公開日:2024-04-21
# UCM-Net:MLPとCNNを用いた皮膚病変分割のための軽量かつ効率的な解法

UCM-Net: A Lightweight and Efficient Solution for Skin Lesion Segmentation using MLP and CNN ( http://arxiv.org/abs/2310.09457v3 )

ライセンス: Link先を確認
Chunyu Yuan, Dongfang Zhao, Sos S. Agaian, (参考訳) 皮膚がんは公衆衛生上の重要な課題であり、効率的な診断ツールを必要とする。 本稿では,MLP(Multi-Layer Perceptrons)とCNN(Convolutional Neural Networks)を組み合わせた新しい皮膚病変セグメンテーションモデルであるUCM-Netを紹介する。 この軽量で効率的なアーキテクチャは、従来のUNet設計から逸脱し、計算要求を劇的に減らし、モバイル健康アプリケーションに最適である。 PH2、ISIC 2017、ISIC 2018データセットに基づいて評価され、UCM-Netは50KB未満のパラメータで堅牢なパフォーマンスを示し、GLOP(Giga Operations Per Second)は0.05以下である。 さらに、その最小メモリ要件はCPU環境における1.19MBである。 これは皮膚病変のセグメンテーションの効率性の潜在的なベンチマークであり、資源制約された設定での展開に適している。 UCM-Net のソースコードは https://github.com/chunyuyuan/UCM-Net である。

Skin cancer poses a significant public health challenge, necessitating efficient diagnostic tools. We introduce UCM-Net, a novel skin lesion segmentation model combining Multi-Layer Perceptrons (MLP) and Convolutional Neural Networks (CNN). This lightweight, efficient architecture, deviating from traditional UNet designs, dramatically reduces computational demands, making it ideal for mobile health applications. Evaluated on PH2, ISIC 2017, and ISIC 2018 datasets, UCM-Net demonstrates robust performance with fewer than 50KB parameters and requires less than 0.05 Giga Operations Per Second (GLOPs). Moreover, its minimal memory requirement is just 1.19MB in CPU environment positions. It is a potential benchmark for efficiency in skin lesion segmentation, suitable for deployment in resource-constrained settings. In order to facilitate accessibility and further research in the field, the UCM-Net source code is https://github.com/chunyuyuan/UCM-Net.
翻訳日:2024-04-24 00:32:58 公開日:2024-04-21
# 量子微分方程式を用いた動的モード分解の量子アルゴリズム

A Quantum Algorithm for Dynamic Mode Decomposition Integrated with a Quantum Differential Equation Solver ( http://arxiv.org/abs/2310.17783v3 )

ライセンス: Link先を確認
Yuta Mizuno, Tamiki Komatsuzaki, (参考訳) 本稿では,量子微分方程式解法によりシミュレーションされた時系列データを解析する量子アルゴリズムを提案する。 提案アルゴリズムは流体力学や疫学などの様々な分野で使用される動的モード分解アルゴリズムの量子バージョンである。 我々の量子アルゴリズムは、対応する線形力学系を解析することにより、行列固有値と固有ベクトルを計算できる。 我々のアルゴリズムは幅広い行列、特に複雑な固有値を扱う。 我々の量子アルゴリズムの複雑さは、$N$次元システムに対して$O(\operatorname{poly}\log N)$である。 これは既知の古典的アルゴリズムに対する指数的なスピードアップであり、少なくともO(N)$複雑性を持つ。 そこで,我々の量子アルゴリズムは,高次元力学系解析と大規模行列固有値分解を実現し,古典的計算機で計算可能であることを期待している。

We present a quantum algorithm that analyzes time series data simulated by a quantum differential equation solver. The proposed algorithm is a quantum version of the dynamic mode decomposition algorithm used in diverse fields such as fluid dynamics and epidemiology. Our quantum algorithm can also compute matrix eigenvalues and eigenvectors by analyzing the corresponding linear dynamical system. Our algorithm handles a broad range of matrices, in particular those with complex eigenvalues. The complexity of our quantum algorithm is $O(\operatorname{poly}\log N)$ for an $N$-dimensional system. This is an exponential speedup over known classical algorithms with at least $O(N)$ complexity. Thus, our quantum algorithm is expected to enable high-dimensional dynamical systems analysis and large matrix eigenvalue decomposition, intractable for classical computers.
翻訳日:2024-04-24 00:32:57 公開日:2024-04-21
# ランダム直交投影画像モデリングによる事前学習

Pre-training with Random Orthogonal Projection Image Modeling ( http://arxiv.org/abs/2310.18737v2 )

ライセンス: Link先を確認
Maryam Haghighat, Peyman Moghadam, Shaheer Mohamed, Piotr Koniusz, (参考訳) Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。 MIMは画像入力にランダムな作物を適用し、エンコーダで処理し、デコーダでマスクされた入力を復元する。 MIMから得られた中間特徴表現は下流タスクの微調整に適している。 本稿では,MIMのような二元マスキングの代わりに,ランダムな直交射影に基づく画像モデリングフレームワークを提案する。 提案したRandom Orthogonal Projection Image Modeling (ROPIM) は、ノイズ分散の保証された条件下での空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。 ROPIMはプロジェクションにランダムなサブスペースを使用し、マスキングのステップを実現するため、サブスペースの簡易補完はアンマスキング時に使用でき、削除された情報の回復を促進することができる。 本稿では,ランダムな直交射影を用いた場合,作物のマスキングよりも優れた性能が得られることを示す。 いくつかの人気のあるベンチマークで最先端の結果を示す。

Masked Image Modeling (MIM) is a powerful self-supervised strategy for visual pre-training without the use of labels. MIM applies random crops to input images, processes them with an encoder, and then recovers the masked inputs with a decoder, which encourages the network to capture and learn structural information about objects and scenes. The intermediate feature representations obtained from MIM are suitable for fine-tuning on downstream tasks. In this paper, we propose an Image Modeling framework based on random orthogonal projection instead of binary masking as in MIM. Our proposed Random Orthogonal Projection Image Modeling (ROPIM) reduces spatially-wise token information under guaranteed bound on the noise variance and can be considered as masking entire spatial image area under locally varying masking degrees. Since ROPIM uses a random subspace for the projection that realizes the masking step, the readily available complement of the subspace can be used during unmasking to promote recovery of removed information. In this paper, we show that using random orthogonal projection leads to superior performance compared to crop-based masking. We demonstrate state-of-the-art results on several popular benchmarks.
翻訳日:2024-04-24 00:32:57 公開日:2024-04-21
# COPAL-ID: インドネシアの言語と地域文化とニュアンス

COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances ( http://arxiv.org/abs/2311.01012v3 )

ライセンス: Link先を確認
Haryo Akbarianto Wibowo, Erland Hilman Fuadi, Made Nindyatama Nityasya, Radityo Eko Prasojo, Alham Fikri Aji, (参考訳) インドネシアの公用語共通感覚推論データセットであるCOPAL-IDを提案する。 以前のインドネシアのCOPAデータセット(XCOPA-ID)とは異なり、COPAL-IDはインドネシアの地域的・文化的ニュアンスを取り入れており、インドネシアの文化圏における日々の因果関係のより自然な描写を提供する。 XCOPA-IDは、翻訳されたXCOPA-IDとは異なり、スクラッチからネイティブに書かれており、難解なフレーズを含まない。 さらに,インドネシア標準語とジャカルタ語の両方でCOPAL-IDを提示する。 COPAL-IDは、既存のオープンソースでクローズドな多言語言語モデルにとって大きな課題となる。 汎用多言語モデルでは, COPAL-IDでは66.91%の精度で精度が向上することが示唆された。 東南アジア固有のモデルは73.88%の精度で若干性能が向上している。 しかし、この数字はいまだにほぼ完璧な人間のパフォーマンスに欠けています。 このことは、これらの言語モデルは、インドネシアの地元のニュアンスを理解する上で、いまだに遅れを取っていることを示している。

We present COPAL-ID, a novel, public Indonesian language common sense reasoning dataset. Unlike the previous Indonesian COPA dataset (XCOPA-ID), COPAL-ID incorporates Indonesian local and cultural nuances, and therefore, provides a more natural portrayal of day-to-day causal reasoning within the Indonesian cultural sphere. Professionally written by natives from scratch, COPAL-ID is more fluent and free from awkward phrases, unlike the translated XCOPA-ID. In addition, we present COPAL-ID in both standard Indonesian and in Jakartan Indonesian-a dialect commonly used in daily conversation. COPAL-ID poses a greater challenge for existing open-sourced and closed state-of-the-art multilingual language models, yet is trivially easy for humans. Our findings suggest that general multilingual models struggle to perform well, achieving 66.91% accuracy on COPAL-ID. South-East Asian-specific models achieve slightly better performance of 73.88% accuracy. Yet, this number still falls short of near-perfect human performance. This shows that these language models are still way behind in comprehending the local nuances of Indonesian.
翻訳日:2024-04-24 00:23:13 公開日:2024-04-21
# AI研究の人間参加者:実践における倫理と透明性

Human participants in AI research: Ethics and transparency in practice ( http://arxiv.org/abs/2311.01254v2 )

ライセンス: Link先を確認
Kevin R. McKee, (参考訳) 近年、人工知能(AI)と機械学習(ML)の進歩、特に会話、人間互換、協調AIの分野において、人間の参加者を巻き込んだ研究が重要になっている。 例えば、最近のAAAIおよびNeurIPSカンファレンスにおける出版物の約12%と6%は、それぞれオリジナルの人間のデータの収集を示している。 しかし、AIとMLの研究者たちは、人間の参加者による倫理的で透明な研究プラクティスのガイドラインを欠いている。 これら4つのAAAIおよびNeurIPS論文のうち1つ以下では、倫理的レビュー、インフォームド・コンセントの収集、あるいは参加者報酬の詳細が提供されている。 本稿では,AI研究とその関連分野の規範的類似点と相違点を探求することにより,このギャップを埋めることを目的とする。 心理学、人間とコンピュータの相互作用、その他の隣接する分野は歴史的な教訓と有益な洞察を提供するが、AI研究はいくつかの特定の懸念を提起している。 これらの懸念に対処するために,AIとML研究の参加者による倫理的・透明な実践に関する一連のガイドラインを概説する。 これらのガイドラインは pp. 4$\unicode{x2013}$7 のセクション 4 で見ることができる。

In recent years, research involving human participants has been critical to advances in artificial intelligence (AI) and machine learning (ML), particularly in the areas of conversational, human-compatible, and cooperative AI. For example, around 12% and 6% of publications at recent AAAI and NeurIPS conferences indicate the collection of original human data, respectively. Yet AI and ML researchers lack guidelines for ethical, transparent research practices with human participants. Fewer than one out of every four of these AAAI and NeurIPS papers provide details of ethical review, the collection of informed consent, or participant compensation. This paper aims to bridge this gap by exploring normative similarities and differences between AI research and related fields that involve human participants. Though psychology, human-computer interaction, and other adjacent fields offer historic lessons and helpful insights, AI research raises several specific concerns$\unicode{x2014}$namely, participatory design, crowdsourced dataset development, and an expansive role of corporations$\unicode{x2014}$that necessitate a contextual ethics framework. To address these concerns, this paper outlines a set of guidelines for ethical and transparent practice with human participants in AI and ML research. These guidelines can be found in Section 4 on pp. 4$\unicode{x2013}$7.
翻訳日:2024-04-24 00:23:13 公開日:2024-04-21
# 直流OPFのグラフニューラルネットワークを用いた電力グリッドの運転リスク定量化

Operational risk quantification of power grids using graph neural network surrogates of the DC OPF ( http://arxiv.org/abs/2311.03661v2 )

ライセンス: Link先を確認
Yadong Zhang, Pranav M Karve, Sankaran Mahadevan, (参考訳) 電力グリッド動作におけるモンテカルロ(MC)サンプリングに基づくリスク定量化のための直流OPFサロゲートモデリングフレームワークを開発した。 MCシミュレーションは、計算的に禁止されている確率格子変数(電力需要と再生可能生成)のサンプルに対応する多数のDC OPF問題を解決する必要がある。 計算的に安価なOPFのサロゲートは、高速MCシミュレーションの魅力的な代替手段となる。 特にグラフ構造化データに適した直流OPFのグラフニューラルネットワーク(GNN)サロゲートを用いる。 従来開発されたDC OPFサロゲートモデルは、リスク定量化ではなく、正確な運用上の意思決定に重点を置いていた。 ここでは、直流OPFサロゲート評価のリスク定量化特有の側面が主な焦点である。 この目的のために,提案したGNNサロゲートを,現実的な関節確率分布を用いて評価し,そのリスク推定精度の定量化と一般化可能性について検討した。 代理モデルの性能評価には4つの合成格子(Case118, Case300, Case1354pegase, Case2848rte)を用いる。 GNNサロゲートは(バスレベル、ブランチレベル、システムレベルの)グリッド状態を予測するのに十分正確であり、電力グリッドの高速かつ正確な運用リスク定量化を可能にする。 本稿では,GNNをベースとしたサロゲートを用いた実世界の電力グリッドの高速信頼性とリスク定量化のためのツールを開発する。

A DC OPF surrogate modeling framework is developed for Monte Carlo (MC) sampling-based risk quantification in power grid operation. MC simulation necessitates solving a large number of DC OPF problems corresponding to the samples of stochastic grid variables (power demand and renewable generation), which is computationally prohibitive. Computationally inexpensive surrogates of OPF provide an attractive alternative for expedited MC simulation. Graph neural network (GNN) surrogates of DC OPF, which are especially suitable to graph-structured data, are employed in this work. Previously developed DC OPF surrogate models have focused on accurate operational decision-making and not on risk quantification. Here, risk quantification-specific aspects of DC OPF surrogate evaluation is the main focus. To this end, the proposed GNN surrogates are evaluated using realistic joint probability distributions, quantification of their risk estimation accuracy, and investigation of their generalizability. Four synthetic grids (Case118, Case300, Case1354pegase, and Case2848rte) are used for surrogate model performance evaluation. It is shown that the GNN surrogates are sufficiently accurate for predicting the (bus-level, branch-level and system-level) grid state and enable fast as well as accurate operational risk quantification for power grids. The article thus develops tools for fast reliability and risk quantification in real-world power grids using GNN-based surrogates.
翻訳日:2024-04-24 00:23:13 公開日:2024-04-21
# 遅延クラス境界下での離散的非パラメトリック因果発見

Discrete Nonparametric Causal Discovery Under Latent Class Confounding ( http://arxiv.org/abs/2311.07454v3 )

ライセンス: Link先を確認
Bijan Mazaheri, Spencer Gordon, Yuval Rabani, Leonard Schulman, (参考訳) 非巡回因果構造は、因果を示す矢印を持つ有向非巡回グラフ(DAG)を用いて記述することができる。 これらの構造をデータから学習するタスクは '`causal discovery'' として知られている。 異種集団や環境の変化は、時として異種データを引き起こすことがある。 この不均一性は、複数の `sources'' との混合モデルとみなすことができ、それぞれが観察された変数に対してそれぞれ独自のシグネチャを実行する。 この観点では、ソースは観測されたすべての変数に対して、遅延した共通の原因である。 因果発見のためのいくつかの方法は、特別な場合において観測されていない共起を回避できるが、グローバルな共同設立者(潜伏階級など)を扱う唯一の既知の方法はパラメトリックな仮定である。 これらの仮定は、特に離散変数に対して制限的である。 離散オブザーバブルに焦点をあてることで、基礎となるDAGのサイズと空間性に対して潜在クラス数が小さい限り、グローバルに構築された因果構造がパラメトリックな仮定なしでも識別可能であることを示す。

An acyclic causal structure can be described using a directed acyclic graph (DAG) with arrows indicating causation. The task of learning these structures from data is known as ``causal discovery''. Diverse populations or changing environments can sometimes give rise to heterogeneous data. This heterogeneity can be thought of as a mixture model with multiple ``sources'', each exerting their own distinct signature on the observed variables. From this perspective, the source is a latent common cause for every observed variable. While some methods for causal discovery are able to work around unobserved confounding in special cases, the only known ways to deal with a global confounder (such as a latent class) involve parametric assumptions. These assumptions are restrictive, especially for discrete variables. By focusing on discrete observables, we demonstrate that globally confounded causal structures can still be identifiable without parametric assumptions, so long as the number of latent classes remains small relative to the size and sparsity of the underlying DAG.
翻訳日:2024-04-24 00:23:13 公開日:2024-04-21
# 拡散モデルを保存するPACプライバシ

PAC Privacy Preserving Diffusion Models ( http://arxiv.org/abs/2312.01201v4 )

ライセンス: Link先を確認
Qipan Xu, Youlong Ding, Xinxi Zhang, Jie Gao, Hao Wang, (参考訳) データプライバシー保護は、研究者の間で注目を集めている。 拡散モデル(DM)、特に厳密な差分プライバシーは、高いプライバシーと視覚的品質の両方で画像を生成する可能性がある。 しかしながら、特定のデータ属性の民営化において堅牢な保護を確保すること、現在のモデルがしばしば不足する領域などの課題が発生する。 これらの課題に対処するため,PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。 我々は、Langevinサンプリングプロセスにプライベート分類器ガイダンスを統合することにより、プライバシー保護を強化する。 さらに、モデルのプライバシを測定する際のギャップを認識し、プライバシレベルを測定するための新しい指標を開発した。 PACバウンドに対するガウス行列計算によって評価された本モデルでは,ベンチマークテストにより,既存の主要なプライベート生成モデルに比べて,プライバシ保護性能が優れていた。

Data privacy protection is garnering increased attention among researchers. Diffusion models (DMs), particularly with strict differential privacy, can potentially produce images with both high privacy and visual quality. However, challenges arise such as in ensuring robust protection in privatizing specific data attributes, areas where current models often fall short. To address these challenges, we introduce the PAC Privacy Preserving Diffusion Model, a model leverages diffusion principles and ensure Probably Approximately Correct (PAC) privacy. We enhance privacy protection by integrating a private classifier guidance into the Langevin Sampling Process. Additionally, recognizing the gap in measuring the privacy of models, we have developed a novel metric to gauge privacy levels. Our model, assessed with this new metric and supported by Gaussian matrix computations for the PAC bound, has shown superior performance in privacy protection over existing leading private generative models according to benchmark tests.
翻訳日:2024-04-24 00:13:26 公開日:2024-04-21
# 箱の外を考えてみましょう:創造的なHummor生成を伴う大規模言語モデルにおけるLeap-of-Thoughtの探索

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation ( http://arxiv.org/abs/2312.02439v3 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou, (参考訳) Chain-of-Thought (CoT)は、大きな言語モデル(LLM)をステップバイステップで推論し、その論理的推論能力を動機付ける。 論理的なタスクには効果的ですが、CoTは創造的な問題解決には向いていません。 本稿では,LLMにおけるLeap-of-Thought(LoT)能力について考察する。 この目的のために, 参加者に優れた創造性と強い連想的思考を持たせ, 与えられた画像, テキスト, あるいはその両方に予期せぬ, ユーモラスに反応させることで, かつ, LoT 研究に適したゲームである Oogiri ゲーム上で LLM について検討する。 次に,Oogiri ゲームにおける LLM の LoT 能力を調べるために,Oogiri ゲームからの 1130,000 以上のサンプルを含むマルチモーダルかつ多言語な Oogiri-GO データセットを構築し,Oogiri ゲームにおける既存の LLM の LoT 能力や失敗を観察する。 そこで我々は,LLMのLoT能力を改善するために,クリエイティブなLeap-of-Thought(CLoT)パラダイムを導入する。 CLoTは、まず、Oogiri-GOデータセットをLoT指向のインストラクションチューニングデータに定式化し、特定のLoTユーモアの生成と識別能力を達成するために、事前訓練されたLLMを訓練する。 そして、CLoTは爆発的な自己リファインメントを設計し、LLMは、一見無関係な概念間の並列を探索することで、より創造的なLoTデータを生成することを奨励し、自己リファインメントのために自分自身を訓練するために高品質なデータを選択する。 CLoTは、Oogiriゲームにおけるユーモア生成に優れるだけでなく、クラウド推測ゲームやダイバージェントアソシエーションタスクなど、さまざまなタスクにおける創造能力を高める。 これらの知見は、ドメイン横断の革新的なアプリケーションに対して、LLMの創造能力を改善するための経路を提供し、私たちの理解を促進します。 データセット、コード、モデルはオンラインでリリースされる。 https://zhongshsh.github.io/CLoT/。

Chain-of-Thought (CoT) guides large language models (LLMs) to reason step-by-step, and can motivate their logical reasoning ability. While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements. In this paper, we explore the Leap-of-Thought (LoT) abilities within LLMs -- a non-sequential, creative paradigm involving strong associations and knowledge leaps. To this end, we study LLMs on the popular Oogiri game which needs participants to have good creativity and strong associative thinking for responding unexpectedly and humorously to the given image, text, or both, and thus is suitable for LoT study. Then to investigate LLMs' LoT ability in the Oogiri game, we first build a multimodal and multilingual Oogiri-GO dataset which contains over 130,000 samples from the Oogiri game, and observe the insufficient LoT ability or failures of most existing LLMs on the Oogiri game. Accordingly, we introduce a creative Leap-of-Thought (CLoT) paradigm to improve LLM's LoT ability. CLoT first formulates the Oogiri-GO dataset into LoT-oriented instruction tuning data to train pretrained LLM for achieving certain LoT humor generation and discrimination abilities. Then CLoT designs an explorative self-refinement that encourages the LLM to generate more creative LoT data via exploring parallels between seemingly unrelated concepts and selects high-quality data to train itself for self-refinement. CLoT not only excels in humor generation in the Oogiri game but also boosts creative abilities in various tasks like cloud guessing game and divergent association task. These findings advance our understanding and offer a pathway to improve LLMs' creative capacities for innovative applications across domains. The dataset, code, and models will be released online. https://zhongshsh.github.io/CLoT/.
翻訳日:2024-04-24 00:13:26 公開日:2024-04-21
# PI3D:擬似画像拡散を用いた効率的なテキスト・ツー・3D生成

PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion ( http://arxiv.org/abs/2312.09069v2 )

ライセンス: Link先を確認
Ying-Tian Liu, Yuan-Chen Guo, Guan Luo, Heyi Sun, Wei Yin, Song-Hai Zhang, (参考訳) 大規模テキストイメージデータセットで訓練された拡散モデルは、任意のテキストプロンプトから高品質な画像を生成する強力な能力を示している。 しかし、3D拡散モデルの生成品質と一般化能力は、高品質で大規模な3Dデータセットの不足によって妨げられている。 本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。 中心となるアイデアは、Pseudo RGBイメージのセットとして3D形状を表現することによって、2Dドメインと3Dドメインを接続することである。 テキストと画像の拡散モデルを微調整し、少数のテキスト3Dペアを用いて擬似画像を生成する。 意外なことに、複雑なテキスト記述から有意義で一貫した3D形状をすでに生成できることがわかりました。 さらに, 得られた形状を, 低予算で高品質な生成を実現するために, スコア蒸留サンプリングを用いた軽量反復精錬の出発点として捉えた。 PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。

Diffusion models trained on large-scale text-image datasets have demonstrated a strong capability of controllable high-quality image generation from arbitrary text prompts. However, the generation quality and generalization ability of 3D diffusion models is hindered by the scarcity of high-quality and large-scale 3D datasets. In this paper, we present PI3D, a framework that fully leverages the pre-trained text-to-image diffusion models' ability to generate high-quality 3D shapes from text prompts in minutes. The core idea is to connect the 2D and 3D domains by representing a 3D shape as a set of Pseudo RGB Images. We fine-tune an existing text-to-image diffusion model to produce such pseudo-images using a small number of text-3D pairs. Surprisingly, we find that it can already generate meaningful and consistent 3D shapes given complex text descriptions. We further take the generated shapes as the starting point for a lightweight iterative refinement using score distillation sampling to achieve high-quality generation under a low budget. PI3D generates a single 3D shape from text in only 3 minutes and the quality is validated to outperform existing 3D generative models by a large margin.
翻訳日:2024-04-24 00:03:25 公開日:2024-04-21
# 対話型ロボットプログラミングのための大規模言語モデルのドメイン特異的微調整

Domain-Specific Fine-Tuning of Large Language Models for Interactive Robot Programming ( http://arxiv.org/abs/2312.13905v2 )

ライセンス: Link先を確認
Benjamin Alt, Urs Keßner, Aleksandar Taranovic, Darko Katic, Andreas Hermann, Rainer Jäkel, Gerhard Neumann, (参考訳) 産業用ロボットは幅広い産業に適用されているが、ロボットプログラミングはプログラミングの専門家に限られている。 先進的な産業用ロボットアプリケーションのプログラミングのための自然言語ベースアシスタントを提案し,データと計算量に制限のある基礎モデルのドメイン固有の微調整戦略について検討する。

Industrial robots are applied in a widening range of industries, but robot programming mostly remains a task limited to programming experts. We propose a natural language-based assistant for programming of advanced, industrial robotic applications and investigate strategies for domain-specific fine-tuning of foundation models with limited data and compute.
翻訳日:2024-04-24 00:03:25 公開日:2024-04-21
# シミュレーションに基づく推論によるパルサー集団の分離合成

Isolated pulsar population synthesis with simulation-based inference ( http://arxiv.org/abs/2312.14848v2 )

ライセンス: Link先を確認
Vanessa Graber, Michele Ronchi, Celsa Pardo-Araujo, Nanda Rea, (参考訳) 我々は、パルサー集団合成とシミュレーションベース推論(SBI)を組み合わせて、孤立した銀河電波パルサーの磁気回転特性を制限した。 まず、中性子星誕生特性とその動的・磁気回転進化をモデル化する枠組みを開発する。 具体的には、対数正規分布から初期磁場強度の$B$とスピン周期の$P$をサンプリングし、電力法則で遅延磁場崩壊を捉える。 各ログ正規化は平均$\mu_{\log B}, \mu_{\log P}$, そして標準偏差$\sigma_{\log B}, \sigma_{\log P}$で表され、一方電力法則は指数$a_{\rm late}$で表される。 その後、恒星の電波放射と観測バイアスをモデル化し、3つの電波サーベイで検出を模倣し、5つの磁気回転入力パラメータを変化させることで、合成$P$-$\dot{P}$ダイアグラムの大規模なデータベースを生成する。 次に、神経後部推定に焦点を当てたSBIアプローチに従い、パラメータの後部分布を推定するために深部ニューラルネットワークを訓練する。 シミュレーションデータを用いてこれらのニューラルネットワーク密度推定器の検証に成功した後、観測されたパルサー集団の後方分布を推定するために、ネットワークのアンサンブルを用いた。 我々は、対数正規分布に対して$\mu_{\log B} = 13.10^{+0.08}_{-0.10}$、$\sigma_{\log B} = 0.45^{+0.05}_{-0.05}$、$\mu_{\log P} = -1.00^{+0.26}_{-0.21}$、$\sigma_{\log P} = 0.38^{+0.33}_{-0.18}$、$a_{\rm late} = -1.80^{+0.65}_{-0.61}$、9.5\%$信頼区間における電力法について$を得る。 これまでの研究と対比し、推定された$a_{\rm late}$値の不確かさを強調します。 本手法は, 複雑な個体群合成フレームワークの統計的頑健な推測に向けた重要なステップであり, 今後の銀河パルサーのマルチ波長解析の基礎となる。

We combine pulsar population synthesis with simulation-based inference (SBI) to constrain the magneto-rotational properties of isolated Galactic radio pulsars. We first develop a framework to model neutron-star birth properties and their dynamical and magneto-rotational evolution. We specifically sample initial magnetic-field strengths, $B$, and spin periods, $P$, from log-normal distributions and capture the late-time magnetic-field decay with a power law. Each log-normal is described by a mean, $\mu_{\log B}, \mu_{\log P}$, and standard deviation, $\sigma_{\log B}, \sigma_{\log P}$, while the power law is characterized by the index, $a_{\rm late}$. We subsequently model the stars' radio emission and observational biases to mimic detections with three radio surveys, and produce a large database of synthetic $P$-$\dot{P}$ diagrams by varying our five magneto-rotational input parameters. We then follow an SBI approach that focuses on neural posterior estimation and train deep neural networks to infer the parameters' posterior distributions. After successfully validating these individual neural density estimators on simulated data, we use an ensemble of networks to infer the posterior distributions for the observed pulsar population. We obtain $\mu_{\log B} = 13.10^{+0.08}_{-0.10}$, $\sigma_{\log B} = 0.45^{+0.05}_{-0.05}$ and $\mu_{\log P} = -1.00^{+0.26}_{-0.21}$, $\sigma_{\log P} = 0.38^{+0.33}_{-0.18}$ for the log-normal distributions, and $a_{\rm late} = -1.80^{+0.65}_{-0.61}$ for the power law at $95\%$ credible interval. We contrast our results with previous studies and highlight uncertainties of the inferred $a_{\rm late}$ value. Our approach represents a crucial step towards robust statistical inference for complex population-synthesis frameworks and forms the basis for future multi-wavelength analyses of Galactic pulsars.
翻訳日:2024-04-24 00:03:25 公開日:2024-04-21
# RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して

RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM ( http://arxiv.org/abs/2401.03907v3 )

ライセンス: Link先を確認
Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang, (参考訳) マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。 しかし、クリーンなベンチマークデータセット上での最先端(SOTA)パフォーマンスを達成する一方で、現実の環境の複雑さと厳しい条件を見落としてしまう傾向がある。 一方、視覚基礎モデル(VFM)の出現に伴い、自律運転におけるマルチモーダル3次元物体検出の堅牢性と一般化を改善するための機会と課題が提示される。 そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。 まず、SAM-ADと呼ばれる自律走行シナリオにオリジナルのSAMを適用する。 SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。 我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。 最後に、自己注意機構を用いて、融合した特徴を適応的に重み付けし、余剰雑音を抑えながら情報的特徴を高める。 まとめると、我々のRoboFusionは、VFMの一般化とロバスト性を利用してノイズを徐々に低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。 その結果、我々のRoboFusionは、KITTI-CとnuScenes-Cベンチマークで示されているように、ノイズの多いシナリオで最先端のパフォーマンスを実現している。 コードはhttps://github.com/adept-thu/RoboFusion.comで入手できる。

Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD). However, while achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. Meanwhile, with the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in autonomous driving. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for autonomous driving scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. Lastly, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, our RoboFusion gradually reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, our RoboFusion achieves state-of-the-art performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks. Code is available at https://github.com/adept-thu/RoboFusion.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-21
# 対人訓練の再考

Revisiting Adversarial Training at Scale ( http://arxiv.org/abs/2401.04727v2 )

ライセンス: Link先を確認
Zeyu Wang, Xianhang Li, Hongru Zhu, Cihang Xie, (参考訳) 機械学習コミュニティは、前例のない規模の‘境界モデル’によって、トレーニングパイプラインの大幅な変更を目撃している。 しかし、逆行訓練の分野は遅れており、主にResNet-50のような小さなモデルサイズと、CIFAR-10のような小型で低解像度のデータセットを中心にしている。 この変換ギャップを埋めるため,本稿では,対人訓練による現代的再検討を行い,大規模に適用した場合の潜在的なメリットについて検討する。 さらに,巨大モデルとWebスケールデータによる対戦型トレーニングを,安価な計算コストで実現するための,効率的かつ効果的なトレーニング戦略を導入する。 新たに導入されたフレームワークをAdvXLと表現する。 実証的な結果から、AdvXLはAutoAttack on ImageNet-1Kの下で、新しい最先端のロバストな精度記録を確立している。 例えば、DataComp-1Bデータセットをトレーニングすることで、当社のAdvXLは、バニラViT-gモデルに、それぞれ11.4%、14.2%、12.9%のマージンで、$l_{\infty}$-、$l_{2}$-、$l_{1}$-robustの前のレコードを大幅に上回る権限を与えています。 この成果はAdvXLを先駆的なアプローチとして提案し、より大規模なロバストな視覚表現の効率的な訓練のための新しい軌道をグラフ化している。 私たちのコードはhttps://github.com/UCSC-VLAA/AdvXL.comで利用可能です。

The machine learning community has witnessed a drastic change in the training pipeline, pivoted by those ''foundation models'' with unprecedented scales. However, the field of adversarial training is lagging behind, predominantly centered around small model sizes like ResNet-50, and tiny and low-resolution datasets like CIFAR-10. To bridge this transformation gap, this paper provides a modern re-examination with adversarial training, investigating its potential benefits when applied at scale. Additionally, we introduce an efficient and effective training strategy to enable adversarial training with giant models and web-scale data at an affordable computing cost. We denote this newly introduced framework as AdvXL. Empirical results demonstrate that AdvXL establishes new state-of-the-art robust accuracy records under AutoAttack on ImageNet-1K. For example, by training on DataComp-1B dataset, our AdvXL empowers a vanilla ViT-g model to substantially surpass the previous records of $l_{\infty}$-, $l_{2}$-, and $l_{1}$-robust accuracy by margins of 11.4%, 14.2% and 12.9%, respectively. This achievement posits AdvXL as a pioneering approach, charting a new trajectory for the efficient training of robust visual representations at significantly larger scales. Our code is available at https://github.com/UCSC-VLAA/AdvXL.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-21
# 次元性を考慮した外乱検出:理論的および実験的解析

Dimensionality-Aware Outlier Detection: Theoretical and Experimental Analysis ( http://arxiv.org/abs/2401.05453v2 )

ライセンス: Link先を確認
Alastair Anderberg, James Bailey, Ricardo J. G. B. Campello, Michael E. Houle, Henrique O. Marques, Miloš Radovanović, Arthur Zimek, (参考訳) 本稿では,データセット内の内在次元の局所的変動をフルに考慮した非パラメトリックな外乱検出手法を提案する。 局所固有次元(LID)の理論を用いて,我々の「次元認識」外乱検出法であるDAOを,問合せ点を含む漸近的局所予測密度比をランダムに描画する推定器として導出した。 DAOの次元認識挙動は、理論的に正当な方法でLID値の局所推定を利用するためである。 800以上の合成および実データセットに対する総合的な実験により、DAOは、LoF(Local Outlier Factor)、簡易LOF(Simplified LOF)、kNN(kNN)の3つの人気かつ重要なベンチマークアウトリエ検出手法を著しく上回っていることを示す。

We present a nonparametric method for outlier detection that takes full account of local variations in intrinsic dimensionality within the dataset. Using the theory of Local Intrinsic Dimensionality (LID), our 'dimensionality-aware' outlier detection method, DAO, is derived as an estimator of an asymptotic local expected density ratio involving the query point and a close neighbor drawn at random. The dimensionality-aware behavior of DAO is due to its use of local estimation of LID values in a theoretically-justified way. Through comprehensive experimentation on more than 800 synthetic and real datasets, we show that DAO significantly outperforms three popular and important benchmark outlier detection methods: Local Outlier Factor (LOF), Simplified LOF, and kNN.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-21
# ブリッジング状態と歴史表現:自己予測的RLを理解する

Bridging State and History Representations: Understanding Self-Predictive RL ( http://arxiv.org/abs/2401.08898v3 )

ライセンス: Link先を確認
Tianwei Ni, Benjamin Eysenbach, Erfan Seyedsalehi, Michel Ma, Clement Gehring, Aditya Mahajan, Pierre-Luc Bacon, (参考訳) 表現は、マルコフ決定プロセス(MDP)と部分的に観察可能なマルコフ決定プロセス(POMDP)の両方のための、すべての深層強化学習(RL)手法の中核にある。 効果的な表現を構成するものを理解するために,多くの表現学習手法や理論フレームワークが開発されている。 しかし,これらの方法と共有特性の関係はいまだ不明である。 本稿では、状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くが、実際、自己予測的抽象化の共通概念に基づいていることを示す。 さらに、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的知見を提供する。 これらの発見は、状態と歴史の自己予測表現を学習するための最小限のアルゴリズムをもたらす。 我々は,我々の理論を,標準のMDP,イントラクタ付きMDP,スパース報酬付きPMDPに適用することで検証する。 これらの知見は, RL実践者のための予備的ガイドラインのセットにまとめられる。

Representations are at the core of all deep reinforcement learning (RL) methods for both Markov decision processes (MDPs) and partially observable Markov decision processes (POMDPs). Many representation learning methods and theoretical frameworks have been developed to understand what constitutes an effective representation. However, the relationships between these methods and the shared properties among them remain unclear. In this paper, we show that many of these seemingly distinct methods and frameworks for state and history abstractions are, in fact, based on a common idea of self-predictive abstraction. Furthermore, we provide theoretical insights into the widely adopted objectives and optimization, such as the stop-gradient technique, in learning self-predictive representations. These findings together yield a minimalist algorithm to learn self-predictive representations for states and histories. We validate our theories by applying our algorithm to standard MDPs, MDPs with distractors, and POMDPs with sparse rewards. These findings culminate in a set of preliminary guidelines for RL practitioners.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-21
# UniM-OV3D:細粒度特徴表現を用いた一様オープンボキャブラリ3次元シーン理解

UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation ( http://arxiv.org/abs/2401.11395v3 )

ライセンス: Link先を確認
Qingdong He, Jinlong Peng, Zhengkai Jiang, Kai Wu, Xiaozhong Ji, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Mingang Chen, Yunsheng Wu, (参考訳) 3次元オープンボキャブラリシーン理解は,基本ラベル空間を超えて,任意の新奇なカテゴリを認識することを目的としている。 しかし、既存の研究は3D領域で利用可能なすべてのモーダル情報を十分に活用するだけでなく、各モーダルの特徴を表現するのに十分な粒度を欠いている。 本稿では,マルチモーダルな3次元オープン・ボキャブラリ・シーン理解ネットワークUniM-OV3Dを提案する。 ポイントクラウドのグローバルな特徴とローカルな特徴をよりよく統合するために、包括的なきめ細かい特徴表現を学習する階層的なポイントクラウド特徴抽出モジュールを設計する。 さらに,キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。 ScanNet, ScanNet200, S3IDS, nuScenes などの屋内および屋外のベンチマークにおいて, 最先端の性能を実現するオープン語彙セマンティックとインスタンスセマンティクスにおける本手法の有効性と優位性を示す。 コードはhttps://github.com/hithqd/UniM-OV3Dで入手できる。

3D open-vocabulary scene understanding aims to recognize arbitrary novel categories beyond the base label space. However, existing works not only fail to fully utilize all the available modal information in the 3D domain but also lack sufficient granularity in representing the features of each modality. In this paper, we propose a unified multimodal 3D open-vocabulary scene understanding network, namely UniM-OV3D, which aligns point clouds with image, language and depth. To better integrate global and local features of the point clouds, we design a hierarchical point cloud feature extraction module that learns comprehensive fine-grained feature representations. Further, to facilitate the learning of coarse-to-fine point-semantic representations from captions, we propose the utilization of hierarchical 3D caption pairs, capitalizing on geometric constraints across various viewpoints of 3D scenes. Extensive experimental results demonstrate the effectiveness and superiority of our method in open-vocabulary semantic and instance segmentation, which achieves state-of-the-art performance on both indoor and outdoor benchmarks such as ScanNet, ScanNet200, S3IDS and nuScenes. Code is available at https://github.com/hithqd/UniM-OV3D.
翻訳日:2024-04-23 23:43:55 公開日:2024-04-21
# CorpusLM:知識集約型タスクのためのコーパス上の統一言語モデルを目指して

CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks ( http://arxiv.org/abs/2402.01176v2 )

ライセンス: Link先を確認
Xiaoxi Li, Zhicheng Dou, Yujia Zhou, Fangchao Liu, (参考訳) 大規模言語モデル(LLM)は様々な分野において注目されているが、特に知識集約型(KI)タスクでは幻覚の傾向が強い。 これを解決するために、検索強化世代(RAG)が、事実の精度を高めるための一般的なソリューションとして登場した。 しかし、従来の検索モジュールは大きなドキュメントインデックスに頼り、生成タスクを切断することが多い。 生成検索(GR)の出現により、言語モデルはドキュメント識別子(DocID)を直接生成し、検索タスクにおいて優れたパフォーマンスを提供する。 しかし、GRと下流タスクの潜在的な関係は未解明のままである。 本稿では,外部コーパスを利用した統合型言語モデルである \textbf{CorpusLM} を提案する。 本研究では,有効な検索・生成の促進とKIタスクのエンド・ツー・エンドの有効性の向上を図るためのメカニズムを設計する。(1) ランキング指向のDocIDリスト生成戦略を開発し,検索品質を向上させるために,DocIDランキングから直接学習することでGRを洗練する。 2) 効率的なRAGを支援する継続的DocID-References-Answer生成戦略を設計する。 (3) 制御不能なDocID理解タスクを用いて,DocIDのセマンティクスと下流タスクとの関連性を理解する。 T5とLlama2の2種類のバックボーンモデルを用いて、広く使われているKILTベンチマークに対するアプローチを評価した。 実験の結果,検索タスクと下流タスクの両方において,モデルの性能が優れていることが示された。

Large language models (LLMs) have gained significant attention in various fields but prone to hallucination, especially in knowledge-intensive (KI) tasks. To address this, retrieval-augmented generation (RAG) has emerged as a popular solution to enhance factual accuracy. However, traditional retrieval modules often rely on large document index and disconnect with generative tasks. With the advent of generative retrieval (GR), language models can retrieve by directly generating document identifiers (DocIDs), offering superior performance in retrieval tasks. However, the potential relationship between GR and downstream tasks remains unexplored. In this paper, we propose \textbf{CorpusLM}, a unified language model that leverages external corpus to tackle various knowledge-intensive tasks by integrating generative retrieval, closed-book generation, and RAG through a unified greedy decoding process. We design the following mechanisms to facilitate effective retrieval and generation, and improve the end-to-end effectiveness of KI tasks: (1) We develop a ranking-oriented DocID list generation strategy, which refines GR by directly learning from a DocID ranking list, to improve retrieval quality. (2) We design a continuous DocIDs-References-Answer generation strategy, which facilitates effective and efficient RAG. (3) We employ well-designed unsupervised DocID understanding tasks, to comprehend DocID semantics and their relevance to downstream tasks. We evaluate our approach on the widely used KILT benchmark with two variants of backbone models, i.e., T5 and Llama2. Experimental results demonstrate the superior performance of our models in both retrieval and downstream tasks.
翻訳日:2024-04-23 23:43:55 公開日:2024-04-21
# OmniMedVQA:医療用LVLMのための大規模総合評価ベンチマーク

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM ( http://arxiv.org/abs/2402.09181v2 )

ライセンス: Link先を確認
Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao, Ping Luo, (参考訳) LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。 しかし、医学領域におけるその可能性はほとんど解明されていない。 重要な課題は、様々なモダリティと解剖学的領域にまたがる多様な医療画像の不足から生じ、これは現実世界の医療応用に必須である。 この問題を解決するために,本論文では,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。 このベンチマークは、12の異なるモードを含む73の異なる医学データセットから収集され、20以上の解剖学的領域をカバーする。 重要な点として、このベンチマークのすべての画像は、医療現場の要件に適合し、LVLMを評価するための適合性を確保する、真の医療シナリオから引き出されたものである。 大規模な実験により,既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることが判明した。 さらに、医療専門のLVLMは、これらの一般ドメインモデルよりも性能が劣り、バイオメディカル分野においてより汎用的で堅牢なLVLMを要求される。 評価結果は、実際の医用画像の理解におけるLVLMの現在の限界だけでなく、データセットの重要性も浮き彫りにしている。 データセットのコードはhttps://github.com/OpenGVLab/Multi-Modality-Arena.comで公開しています。

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in various multimodal tasks. However, their potential in the medical domain remains largely unexplored. A significant challenge arises from the scarcity of diverse medical images spanning various modalities and anatomical regions, which is essential in real-world medical applications. To solve this problem, in this paper, we introduce OmniMedVQA, a novel comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark is collected from 73 different medical datasets, including 12 different modalities and covering more than 20 distinct anatomical regions. Importantly, all images in this benchmark are sourced from authentic medical scenarios, ensuring alignment with the requirements of the medical field and suitability for evaluating LVLMs. Through our extensive experiments, we have found that existing LVLMs struggle to address these medical VQA problems effectively. Moreover, what surprises us is that medical-specialized LVLMs even exhibit inferior performance to those general-domain models, calling for a more versatile and robust LVLM in the biomedical field. The evaluation results not only reveal the current limitations of LVLM in understanding real medical images but also highlight our dataset's significance. Our code with dataset are available at https://github.com/OpenGVLab/Multi-Modality-Arena.
翻訳日:2024-04-23 23:34:03 公開日:2024-04-21
# イベントレベルの知識編集

Event-level Knowledge Editing ( http://arxiv.org/abs/2402.13093v2 )

ライセンス: Link先を確認
Hao Peng, Xiaozhi Wang, Chunyang Li, Kaisheng Zeng, Jiangshan Duo, Yixin Cao, Lei Hou, Juanzi Li, (参考訳) 知識編集は、大きな言語モデル(LLM)の知識を更新することを目的としており、それらが時代遅れになるのを防ぐ。 既存の作業は、実知識三重項のレベルでLLMを編集する。 しかし、現実世界の自然知識の更新は、現実のトリプルの直接的変化ではなく、新しい出来事の発生によるものである。 本稿では,イベントレベルの知識編集という新しいタスクセットを提案する。これは,新しいイベントを直接LLMに編集し,(1)効率の従来の三重項レベルの編集よりも改善する。 単一のイベント編集は、複数の関連する知識三重項の更新につながる。 (2)完全性。 事実知識の更新以外にも、イベントレベルの編集では、イベントの影響を考慮し、将来のトレンドに関するLLMの知識を更新する必要がある。 我々は,1,515件のイベント編集,6,449件の事実知識に関する質問,および10,150件の今後の傾向に関する質問からなる,高品質なイベントレベル編集ベンチマークELKENを構築した。 本ベンチマークでは,様々な知識編集手法とLLMの性能を系統的に評価する。 ELKENは既存の知識編集アプローチに重大な課題をもたらす。 私たちのコードとデータセットは、さらなる研究を促進するために公開されています。

Knowledge editing aims at updating knowledge of large language models (LLMs) to prevent them from becoming outdated. Existing work edits LLMs at the level of factual knowledge triplets. However, natural knowledge updates in the real world come from the occurrences of new events rather than direct changes in factual triplets. In this paper, we propose a new task setting: event-level knowledge editing, which directly edits new events into LLMs and improves over conventional triplet-level editing on (1) Efficiency. A single event edit leads to updates in multiple entailed knowledge triplets. (2) Completeness. Beyond updating factual knowledge, event-level editing also requires considering the event influences and updating LLMs' knowledge about future trends. We construct a high-quality event-level editing benchmark ELKEN, consisting of 1,515 event edits, 6,449 questions about factual knowledge, and 10,150 questions about future tendencies. We systematically evaluate the performance of various knowledge editing methods and LLMs on this benchmark. We find that ELKEN poses significant challenges to existing knowledge editing approaches. Our codes and dataset are publicly released to facilitate further research.
翻訳日:2024-04-23 23:34:03 公開日:2024-04-21
# StructLM:構造化知識接地のためのジェネリストモデルの構築に向けて

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ( http://arxiv.org/abs/2402.16671v4 )

ライセンス: Link先を確認
Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen, (参考訳) テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。 プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。 以上の結果から,LLMが構造化データ処理能力に欠如していることが明らかとなった。例えば,最先端(SoTA)モデルよりも平均35%遅れたChatGPTラグについて検討した。 LLMにおける構造化知識基盤(Structured Knowledge Grounding, SKG)機能を強化するため、我々は1100万例からなる総合的な指導チューニングデータセットを開発した。 このデータセットを利用することで、7Bから34BパラメータのCode-LLaMAアーキテクチャに基づいて、StructLMと呼ばれる一連のモデルをトレーニングします。 我々のStructLMシリーズは、評価された18のデータセットのうち14のタスク固有モデルを超え、7つのSKGタスクに新しいSoTAの成果を確立する。 さらに、StructLMは6つの新しいSKGタスクに対して強力な一般化を示し、TableLlamaを平均35\%、Flan-UL2 20Bを平均10\%で上回る。 予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。 これは、構造化された知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates strong generalization across 6 novel held-out SKG tasks, outperforming TableLlama by an average of 35\% and Flan-UL2 20B by an average of 10\%. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
翻訳日:2024-04-23 23:24:19 公開日:2024-04-21
# ベティ数推定法

Alternative Method for Estimating Betti Numbers ( http://arxiv.org/abs/2403.04686v2 )

ライセンス: Link先を確認
Nhat A. Nghiem, (参考訳) トポロジカルデータ分析(TDA)は、トポロジから高度なツールを用いて大規模データを分析する、急速に成長する分野である。 トポロジカルデータ解析における中心的な問題は、下層の単純複素数のいわゆるベッチ数の推定である。 この問題の難しさはNPハードとして確立されているが、以前の研究では量子スピードアップが魅力的であった。 本稿では、量子アルゴリズム、特に量子特異値変換の最近の進歩に基づき、与えられた単体錯体のベッチ数と正規化ベッチ数を推定する代替手法を提案する。 我々の手法は、ベッチ数を見つける最もよく知られた古典的方法よりも高速であり、興味深いことに、補グラフのベッチ数を見つけることもできる。 最もよく知られた量子アルゴリズムと比較して、我々の手法は一般的により低い深さの回路を必要とする。 正規化されたベティ数については,高密度な単純化の場合,最もよく知られた量子法の実行時間と一致する可能性がある。

Topological data analysis (TDA) is a fast-growing field that utilizes advanced tools from topology to analyze large-scale data. A central problem in topological data analysis is estimating the so-called Betti numbers of the underlying simplicial complex. While the difficulty of this problem has been established as NP-hard, previous works have showcased appealing quantum speedup. In this article, we provide an alternative method for estimating Betti numbers and normalized Betti numbers of given simplicial complex, based on some recent advances in quantum algorithm, specifically, quantum singular value transformation. Our method can be faster than the best-known classical method for finding Betti numbers, and interestingly, it can also find the Betti numbers of the complement graph to our original one. Comparing to the best known quantum algorithm, our method generally requires lower depth circuit, in trade-off for longer running time. Regarding normalized Betti numbers, our method could match the running time of best-known quantum method in the case of dense simplices.
翻訳日:2024-04-23 23:24:19 公開日:2024-04-21
# 胃内視鏡の低コスト技術評価のためのモーションガイドデュアルカメラトラッカー

Motion-Guided Dual-Camera Tracker for Low-Cost Skill Evaluation of Gastric Endoscopy ( http://arxiv.org/abs/2403.05146v2 )

ライセンス: Link先を確認
Yuelin Zhang, Wanquan Yan, Kim Yan, Chun Ping Lam, Yufu Qiu, Pengyu Zheng, Raymond Shing-Yan Tang, Shing Shin Cheng, (参考訳) 客観的な教育的フィードバックを持つ胃シミュレータは内視鏡訓練に有用であることが証明されている。 しかしながら、フィードバックを持つ既存の電子シミュレータは、そのコストが高いため一般的には採用されない。 本研究は, 内視鏡技術評価のための機械シミュレータにおいて, 信頼性の高い内視鏡先端位置フィードバックを低コストで提供するために, 動作誘導型デュアルカメラトラッカーを提案するものである。 デュアルカメラトラッキングの整合性を保ちながら内視鏡先端の顕著な外観変化に対処するため,デュアルカメラトラッキングに動的過渡的相互テンプレートを導入するために,クロスカメラ相互テンプレート戦略(CMT)を提案する。 内視鏡先端からの光源による大きな閉塞や歪みによる乱れを軽減するため、マンバをベースとした動き誘導予測ヘッド(MMH)を視覚的トラッキングによる歴史的動きを集約する。 これは、オブジェクト追跡のためのMambaの最初の応用である。 提案したトラッカーは, 機械シミュレータ内での内視鏡観察において, 低コストのカメラペアが取得したデータセットに基づいて評価した。 トラッカーは、デュアルカメラ上で頑健で一貫したトラッキングでSOTA性能を達成する。 さらに下流評価により,提案したトラッカーによって決定される3次元先端位置が,信頼性の高い技術分化を実現することが証明された。 コードとデータセットはhttps://github.com/PieceZhang/MotionDCTrackで公開されている。

Gastric simulators with objective educational feedback have been proven useful for endoscopy training. Existing electronic simulators with feedback are however not commonly adopted due to their high cost. In this work, a motion-guided dual-camera tracker is proposed to provide reliable endoscope tip position feedback at a low cost inside a mechanical simulator for endoscopy skill evaluation, tackling several unique challenges. To address the issue of significant appearance variation of the endoscope tip while keeping dual-camera tracking consistency, the cross-camera mutual template strategy (CMT) is proposed to introduce dynamic transient mutual templates to dual-camera tracking. To alleviate disturbance from large occlusion and distortion by the light source from the endoscope tip, the Mamba-based motion-guided prediction head (MMH) is presented to aggregate historical motion with visual tracking. It is the first application of Mamba for object tracking. The proposed tracker was evaluated on datasets captured by low-cost camera pairs during endoscopy procedures performed inside the mechanical simulator. The tracker achieves SOTA performance with robust and consistent tracking on dual cameras. Further downstream evaluation proves that the 3D tip position determined by the proposed tracker enables reliable skill differentiation. The code and dataset are available at https://github.com/PieceZhang/MotionDCTrack
翻訳日:2024-04-23 23:24:19 公開日:2024-04-21
# VidProM: テキストとビデオの拡散モデルのための数百万スケールのリアルプロンプトギャラリーデータセット

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models ( http://arxiv.org/abs/2403.06098v2 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Yi Yang, (参考訳) Soraの登場は、テキストからビデオへの拡散モデルの新しい時代であり、ビデオ生成と潜在的な応用に大きな進歩をもたらした。 しかし、他のテキスト・ビデオ拡散モデルと同様に、Soraはプロンプトに非常に依存しており、テキスト・ビデオ・プロンプトの研究を特徴とするデータセットは公開されていない。 本稿では,実ユーザからの167万のユニークなテキスト・ビデオ・プロンプトからなる,最初の大規模データセットであるVidProMを紹介する。 さらに、このデータセットには、関連するデータとともに、4つの最先端拡散モデルによって生成された669万のビデオが含まれている。 まず、この大規模データセットのキュレーションについて論じます。 その後、VidProMが、画像生成のための大規模なプロンプトガリーデータセットであるDiffusionDBとどのように異なるかを示すことによって、テキスト・ビデオ生成用に特別に設計された新しいプロンプトデータセットの必要性を強調した。 私たちの広範囲で多様なデータセットは、多くのエキサイティングな新しい研究領域も開きます。 例えば、拡散モデルのためのテキスト・ツー・ビデオ・プロンプト・エンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討し、より良く、より効率的に、より安全なモデルを開発することを提案する。 このプロジェクトは、CC-BY-NC 4.0ライセンスの下でhttps://vidprom.github.ioで公開されている。

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, along with other text-to-video diffusion models, is highly reliant on prompts, and there is no publicly available dataset that features a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 Million unique text-to-Video Prompts from real users. Additionally, this dataset includes 6.69 million videos generated by four state-of-the-art diffusion models, alongside some related data. We initially discuss the curation of this large-scale dataset, a process that is both time-consuming and costly. Subsequently, we underscore the need for a new prompt dataset specifically designed for text-to-video generation by illustrating how VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Our extensive and diverse dataset also opens up many exciting new research areas. For instance, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models to develop better, more efficient, and safer models. The project (including the collected dataset VidProM and related code) is publicly available at https://vidprom.github.io under the CC-BY-NC 4.0 License.
翻訳日:2024-04-23 23:14:33 公開日:2024-04-21
# WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力

WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? ( http://arxiv.org/abs/2403.07718v2 )

ライセンス: Link先を確認
Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji, Manuel Del Verme, Tom Marty, Léo Boisvert, Megh Thakkar, Quentin Cappart, David Vazquez, Nicolas Chapados, Alexandre Lacoste, (参考訳) 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。 この目的のために,広く使用されているServiceNowプラットフォームに基づいた29タスクのリモートホスト型ベンチマークであるWorkArenaを提案する。 また,このようなエージェントの設計と評価のための環境であるBrowserGymを紹介する。 私たちの経験的評価は、現在のエージェントがWorkArenaを約束している一方で、完全なタスク自動化を達成するための大きなギャップがまだ残っていることを示している。 特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差が明らかとなり,今後の研究・開発における重要な領域が浮かび上がっている。

We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents' ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 29 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field.
翻訳日:2024-04-23 23:14:33 公開日:2024-04-21
# ブロックチェーンセキュリティのための大規模言語モデル - 体系的な文献レビュー

Large Language Models for Blockchain Security: A Systematic Literature Review ( http://arxiv.org/abs/2403.14280v3 )

ライセンス: Link先を確認
Zheyuan He, Zihao Li, Sen Yang, (参考訳) 大規模言語モデル(LLM)は、ブロックチェーンセキュリティ(BS)を含むさまざまなドメインにおいて、強力なツールとして登場した。 いくつかの最近の研究は、BSに適用されたLLMを探索している。 しかしながら、アプリケーションの全範囲、影響、LLMのブロックチェーンセキュリティに対する潜在的な制約に関する理解には、まだギャップがあります。 このギャップを埋めるために、LLM4BSに関する文献レビューを行う。 LLMのブロックチェーンセキュリティへの適用に関する最初のレビューとして、我々の研究は、既存の研究を包括的に分析し、LLMがブロックチェーンシステムのセキュリティ向上にどのように貢献するかを明らかにすることを目的としている。 学術研究の徹底的な調査を通じて、LLMをブロックチェーンセキュリティのさまざまな側面に統合する方法について検討する。 スマートコントラクト監査、アイデンティティ検証、異常検出、脆弱性のある修復など、LLMがブロックチェーンセキュリティを強化するメカニズムについて検討する。 さらに、スケーラビリティ、プライバシの懸念、敵攻撃といった要因を考慮して、LLMをブロックチェーンセキュリティに活用する際の課題と制限を批判的に評価する。 私たちのレビューでは、この収束に固有の可能性や潜在的なリスクについて光を当て、研究者、実践家、政策立案者にも貴重な洞察を与えています。

Large Language Models (LLMs) have emerged as powerful tools in various domains involving blockchain security (BS). Several recent studies are exploring LLMs applied to BS. However, there remains a gap in our understanding regarding the full scope of applications, impacts, and potential constraints of LLMs on blockchain security. To fill this gap, we conduct a literature review on LLM4BS. As the first review of LLM's application on blockchain security, our study aims to comprehensively analyze existing research and elucidate how LLMs contribute to enhancing the security of blockchain systems. Through a thorough examination of scholarly works, we delve into the integration of LLMs into various aspects of blockchain security. We explore the mechanisms through which LLMs can bolster blockchain security, including their applications in smart contract auditing, identity verification, anomaly detection, vulnerable repair, and so on. Furthermore, we critically assess the challenges and limitations associated with leveraging LLMs for blockchain security, considering factors such as scalability, privacy concerns, and adversarial attacks. Our review sheds light on the opportunities and potential risks inherent in this convergence, providing valuable insights for researchers, practitioners, and policymakers alike.
翻訳日:2024-04-23 23:04:49 公開日:2024-04-21
# Recourse for Reclamation: Chatting with Generative Language Model

Recourse for reclamation: Chatting with generative language models ( http://arxiv.org/abs/2403.14467v2 )

ライセンス: Link先を確認
Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac, (参考訳) 研究者や開発者は、顧客サービス、情報検索、コンテンツ生成などの設定において、中程度の生成言語モデル出力に対する毒性のスコアリングにますます依存している。 しかし、毒性のスコアリングは、関連する情報をアクセス不能、固化、あるいは「バリューロック」文化規範にし、特に辺境的な人々にとって、言語再生のプロセスを妨げる可能性がある。 本研究では, 生成言語モデルに対するアルゴリズム的リコースの概念を拡張し, 有害度フィルタリングのしきい値を動的に設定することで, 利用者が求める予測を達成するための新しいメカニズムを提供する。 これにより、ユーザは、ベースラインシステムとのインタラクションに対して、増大するエージェンシーを行使する。 提案手法の可能性を実証したパイロット研究 (n = 30$) では, モデル出力の固定閾値毒性フィルタと比較して, 使用性の向上が示唆された。 今後の研究は、毒性スコアリング、モデル制御性、ユーザエージェンシー、言語再生プロセスの共通点を探り、特に、生成言語モデルと対話する際に多くのコミュニティが直面するバイアスについて検討する必要がある。

Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study ($n = 30$) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
翻訳日:2024-04-23 23:04:49 公開日:2024-04-21
# 逆逆強化学習の再考:政策模倣と移動可能なリワード回復の角度から

Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery ( http://arxiv.org/abs/2403.14593v2 )

ライセンス: Link先を確認
Yangchun Zhang, Yirui Zhou, (参考訳) 逆逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判にしばしば直面する。 本稿では,AIRLを再考し,これらの批判に答える。 批判 1 は不適切な政策模倣にある。 ポリシー更新(複数項目の要求)中に,ソフトアクタクリティカル(SAC)を組み込んだ組込みアルゴリズムが,ポリシー模倣の効率を著しく向上させることを示す。 批判2は、SAC統合にもかかわらず、転送可能なリワードリカバリにおける限定的なパフォーマンスにある。 SACは実際、政策模倣の大幅な改善を示すが、移行可能な報酬回復の欠点を生じさせる。 本研究では,SACアルゴリズム自体がAIRLトレーニングプロセス中に報酬関数を包括的に切り離すことが可能でないことを証明し,良好な伝達効果を示すためのハイブリッドフレームワーク PPO-AIRL + SAC を提案する。 批判3は、潜在的平衡の観点からの不満足な証明にある。 代数理論の観点から再解析する。

Adversarial inverse reinforcement learning (AIRL) stands as a cornerstone approach in imitation learning, yet it frequently faces criticisms from prior studies. In this paper, we rethink AIRL and respond to these criticisms. Criticism 1 lies in Inadequate Policy Imitation. We show that substituting the built-in algorithm with soft actor-critic (SAC) during policy updating (requires multi-iterations) significantly enhances the efficiency of policy imitation. Criticism 2 lies in Limited Performance in Transferable Reward Recovery Despite SAC Integration. While we find that SAC indeed exhibits a significant improvement in policy imitation, it introduces drawbacks to transferable reward recovery. We prove that the SAC algorithm itself is not feasible to disentangle the reward function comprehensively during the AIRL training process, and propose a hybrid framework, PPO-AIRL + SAC, for a satisfactory transfer effect. Criticism 3 lies in Unsatisfactory Proof from the Perspective of Potential Equilibrium. We reanalyze it from an algebraic theory perspective.
翻訳日:2024-04-23 23:04:49 公開日:2024-04-21
# CPSの結合要求駆動テスト:シミュレーションから現実へ

Coupled Requirements-driven Testing of CPS: From Simulation To Reality ( http://arxiv.org/abs/2403.16287v2 )

ライセンス: Link先を確認
Ankit Agrawal, Philipp Zech, Michael Vierhauser, (参考訳) ソフトウェアとハードウェア関連のCPS(Cyber-Physical Systems)の障害は、物理的なインフラや人間に深刻な被害をもたらす可能性がある。 その結果、システムの安全性を確保するためには、システム要件の検証と検証の一環として、広範なシミュレーションとフィールドテストを行う必要がある。 しかしながら、特に小型無人航空システム(sUAS)の領域では、現在のシミュレーションとフィールドテストの実践はアドホックであり、完全な構造化されたテストプロセスが欠如している。 さらに、総合的なシミュレーションやフィールドテストの設計を知らせる標準的なプロセスや方法論も数多く存在する。 このテストプロセスのギャップは、以下のsUASアプリケーションのデプロイにつながります。 (a) ツールサポートの欠如により、環境要因等の現実世界の複雑さを適切に捉えないシミュレーション環境での試験 (b)要件とシミュレーションテストの関係を定義するプロセスが存在しないため、シミュレーションテスト中にシステム要件を検証するための包括的なシナリオに従わなかったこと。 (c) シミュレーション試験成果物と安全解析成果物とのトレーサビリティの欠如から, 標準安全分析プロセスを通じて解析を行なわないこと。 これらの問題に対処するため、我々はCPSを検証するための初期フレームワークを開発し、特にsUASとロボットアプリケーションに焦点を当てた。 我々は、sUASドメインの例にそれを適用することで、フレームワークの適合性を実証する。 予備結果は,我々のフレームワークの適用性を確認した。 我々は、現在の提案とともに、次の研究目標を概説する研究ロードマップをまとめて締めくくります。

Failures in safety-critical Cyber-Physical Systems (CPS), both software and hardware-related, can lead to severe incidents impacting physical infrastructure or even harming humans. As a result, extensive simulations and field tests need to be conducted, as part of the verification and validation of system requirements, to ensure system safety. However, current simulation and field testing practices, particularly in the domain of small Unmanned Aerial Systems (sUAS), are ad-hoc and lack a thorough, structured testing process. Furthermore, there is a dearth of standard processes and methodologies to inform the design of comprehensive simulation and field tests. This gap in the testing process leads to the deployment of sUAS applications that are: (a) tested in simulation environments which do not adequately capture the real-world complexity, such as environmental factors, due to a lack of tool support; (b) not subjected to a comprehensive range of scenarios during simulation testing to validate the system requirements, due to the absence of a process defining the relationship between requirements and simulation tests; and (c) not analyzed through standard safety analysis processes, because of missing traceability between simulation testing artifacts and safety analysis artifacts. To address these issues, we have developed an initial framework for validating CPS, specifically focusing on sUAS and robotic applications. We demonstrate the suitability of our framework by applying it to an example from the sUAS domain. Our preliminary results confirm the applicability of our framework. We conclude with a research roadmap to outline our next research goals along with our current proposal.
翻訳日:2024-04-23 23:04:49 公開日:2024-04-21
# 効率的なマルチタスク地球観測モデルのためのニューラル埋め込み圧縮

Neural Embedding Compression For Efficient Multi-Task Earth Observation Modelling ( http://arxiv.org/abs/2403.17886v4 )

ライセンス: Link先を確認
Carlos Gomes, Thomas Brunschwiler, (参考訳) 地球観測(EO)における大規模データのリポジトリが成長するにつれて、モデルトレーニングと推論のための転送と保存コストが増大し、重要なリソースが消費される。 本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。 我々は、ニューラルネットワークによる基礎モデル(FM)を適用し、圧縮率と埋め込みユーティリティのトレードオフをナビゲートしながらマルチタスクの埋め込みを生成する。 FMパラメータのごく一部(10%)を短いトレーニング期間(事前トレーニングのイテレーションの1%)に更新します。 シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。 従来の圧縮を生データに適用した場合と比較すると、NECも同様の精度で75%から90%のデータを削減できる。 99.7%の圧縮でも、シーン分類タスクでパフォーマンスは5%低下した。 全体として、NECはマルチタスクEOモデリングのためのデータ効率は高いがパフォーマンスのアプローチである。

As repositories of large scale data in earth observation (EO) have grown, so have transfer and storage costs for model training and inference, expending significant resources. We introduce Neural Embedding Compression (NEC), based on the transfer of compressed embeddings to data consumers instead of raw data. We adapt foundation models (FM) through learned neural compression to generate multi-task embeddings while navigating the tradeoff between compression rate and embedding utility. We update only a small fraction of the FM parameters (10%) for a short training period (1% of the iterations of pre-training). We evaluate NEC on two EO tasks: scene classification and semantic segmentation. Compared with applying traditional compression to the raw data, NEC achieves similar accuracy with a 75% to 90% reduction in data. Even at 99.7% compression, performance drops by only 5% on the scene classification task. Overall, NEC is a data-efficient yet performant approach for multi-task EO modelling.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-21
# エピデミックモデリングにおけるグラフニューラルネットワークの展望

A Review of Graph Neural Networks in Epidemic Modeling ( http://arxiv.org/abs/2403.19852v3 )

ライセンス: Link先を確認
Zewen Liu, Guancheng Wan, B. Aditya Prakash, Max S. Y. Lau, Wei Jin, (参考訳) 新型コロナウイルスのパンデミックが始まって以来、疫学モデルの研究への関心が高まっている。 伝統的な力学モデルは、伝染病の伝染機構を数学的に記述する。 しかし、それらはしばしば、過度に単純化された仮定や固定された仮定の制限に悩まされ、これは複雑な関係情報の取得において、準最適予測力と非効率を引き起こす可能性がある。 結果として、グラフニューラルネットワーク(GNN)は、疫病研究において徐々に人気のあるツールとなっている。 本稿では,感染症対策におけるGNNの総合的な見直しと今後の方向性を明らかにすることを目的とする。 この目的を達成するために,疫学の課題と方法論の両方に階層的な分類を導入し,その領域内での展開の軌跡を提供する。 疫病対策においては、通常、疫病領域で雇用されているものと類似した分類を確立させる。 方法論としては,既存の研究をニューラルモデルとハイブリッドモデルに分類する。 次に,本手法の総合的,体系的な検討を行い,課題と技術的詳細の両方を包含する。 さらに,多様な視点から既存手法の限界について考察し,今後の研究方向性を体系的に提案する。 この調査は文学のギャップを埋め、この将来性のある分野の進展を促進することを目的としており、関連する論文の一覧はhttps://github.com/Emory-Melody/awesome-epidemic-modelingpapersにある。 我々は,GNNと疫学のコミュニティ間の相乗効果を促進し,その総合的な進歩に寄与することを期待している。

Since the onset of the COVID-19 pandemic, there has been a growing interest in studying epidemiological models. Traditional mechanistic models mathematically describe the transmission mechanisms of infectious diseases. However, they often suffer from limitations of oversimplified or fixed assumptions, which could cause sub-optimal predictive power and inefficiency in capturing complex relation information. Consequently, Graph Neural Networks (GNNs) have emerged as a progressively popular tool in epidemic research. In this paper, we endeavor to furnish a comprehensive review of GNNs in epidemic tasks and highlight potential future directions. To accomplish this objective, we introduce hierarchical taxonomies for both epidemic tasks and methodologies, offering a trajectory of development within this domain. For epidemic tasks, we establish a taxonomy akin to those typically employed within the epidemic domain. For methodology, we categorize existing work into Neural Models and Hybrid Models. Following this, we perform an exhaustive and systematic examination of the methodologies, encompassing both the tasks and their technical details. Furthermore, we discuss the limitations of existing methods from diverse perspectives and systematically propose future research directions. This survey aims to bridge literature gaps and promote the progression of this promising field, with a list of relevant papers at https://github.com/Emory-Melody/awesome-epidemic-modelingpapers. We hope that it will facilitate synergies between the communities of GNNs and epidemiology, and contribute to their collective progress.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-21
# メタラーニングを用いたマルチタスク磁気共鳴画像再構成

Multi-task Magnetic Resonance Imaging Reconstruction using Meta-learning ( http://arxiv.org/abs/2403.19966v2 )

ライセンス: Link先を確認
Wanyu Bian, Albert Jang, Fang Liu, (参考訳) 単一タスク深層学習法を用いて、異なる画像シーケンスで取得したMRIデータを再構成することは本質的に困難である。 訓練されたディープラーニングモデルは一般的に一般化性に欠けており、異なるタイプのコントラストを持つ画像データセット間の相違は、準最適学習性能をもたらす。 本稿では,複数のMR画像データセットから画像特徴を効率的に学習するメタラーニング手法を提案する。 提案アルゴリズムは,画像コントラストの異なる画像シーケンスを用いて取得したMR画像を同時に再構成するマルチタスク学習を行う。 実験の結果,複数のMRIデータセットから得られた高度にアンサンプされたk空間データを同時に再構成するメタラーニング再構成法が,従来開発されていた他の説得力のある再構築法よりも優れていることが示された。

Using single-task deep learning methods to reconstruct Magnetic Resonance Imaging (MRI) data acquired with different imaging sequences is inherently challenging. The trained deep learning model typically lacks generalizability, and the dissimilarity among image datasets with different types of contrast leads to suboptimal learning performance. This paper proposes a meta-learning approach to efficiently learn image features from multiple MR image datasets. Our algorithm can perform multi-task learning to simultaneously reconstruct MR images acquired using different imaging sequences with different image contrasts. The experiment results demonstrate the ability of our new meta-learning reconstruction method to successfully reconstruct highly-undersampled k-space data from multiple MRI datasets simultaneously, outperforming other compelling reconstruction methods previously developed for single-task learning.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-21
# プロトタイプに基づく乳がん予測モデルの解析と課題

Prototype-based Interpretable Breast Cancer Prediction Models: Analysis and Challenges ( http://arxiv.org/abs/2403.20260v2 )

ライセンス: Link先を確認
Shreyasi Pathak, Jörg Schlötterer, Jeroen Veltman, Jeroen Geerdink, Maurice van Keulen, Christin Seifert, (参考訳) 深層学習モデルは医学的応用において高いパフォーマンスを達成しているが、そのブラックボックスの性質から臨床実践への導入は妨げられている。 プロトタイプベースのモデルのような自己説明可能なモデルは、設計によって解釈できるため、特に有益である。 しかし、学習したプロトタイプが低品質であれば、プロトタイプベースのモデルはブラックボックスと同じくらいよい。 高品質のプロトタイプを持つことは、真に解釈可能なモデルの前提条件である。 本研究では,ドメイン知識に基づいてプロトタイプの品質を定量的に評価する,コヒーレンス評価フレームワーク(PEF-C)を提案する。 乳がん予測におけるPEF-Cの有用性について,マンモグラフィーを用いて検討した。 マンモグラフィーを用いた乳がん予測のプロトタイプベースモデルに関する既存の研究は,ブラックボックスモデルと比較してプロトタイプベースモデルの分類性能の向上に重点を置いており,逸話的証拠を通じてプロトタイプの品質評価を行っている。 PEF-Cを用いたマンモグラフィーの試作機の品質評価を初めて行った。 具体的には、乳がん予測のためのマンモグラフィー画像にProtoPNet、BRAIxProtoPNet++、PIP-Netの3つの最先端プロトタイプベースモデルを適用し、これらのモデルw.r.tを評価する。 一 分類性能、及び 二 公開データセットの試作機の品質 その結果,プロトタイプモデルとブラックボックスモデルとの分類性能は比較可能であり,ROIの検出において高いスコアが得られた。 しかし、プロトタイプの品質はまだ不十分であり、さまざまなプロトタイプの妥当性、純度、学習の面で改善することができる。 我々はXAIコミュニティに、プロトタイプの品質を体系的に評価して、高い利害関係の決定における真のユーザビリティを確認し、そのようなモデルをさらに改善するよう呼びかけます。

Deep learning models have achieved high performance in medical applications, however, their adoption in clinical practice is hindered due to their black-box nature. Self-explainable models, like prototype-based models, can be especially beneficial as they are interpretable by design. However, if the learnt prototypes are of low quality then the prototype-based models are as good as black-box. Having high quality prototypes is a pre-requisite for a truly interpretable model. In this work, we propose a prototype evaluation framework for coherence (PEF-C) for quantitatively evaluating the quality of the prototypes based on domain knowledge. We show the use of PEF-C in the context of breast cancer prediction using mammography. Existing works on prototype-based models on breast cancer prediction using mammography have focused on improving the classification performance of prototype-based models compared to black-box models and have evaluated prototype quality through anecdotal evidence. We are the first to go beyond anecdotal evidence and evaluate the quality of the mammography prototypes systematically using our PEF-C. Specifically, we apply three state-of-the-art prototype-based models, ProtoPNet, BRAIxProtoPNet++ and PIP-Net on mammography images for breast cancer prediction and evaluate these models w.r.t. i) classification performance, and ii) quality of the prototypes, on three public datasets. Our results show that prototype-based models are competitive with black-box models in terms of classification performance, and achieve a higher score in detecting ROIs. However, the quality of the prototypes are not yet sufficient and can be improved in aspects of relevance, purity and learning a variety of prototypes. We call the XAI community to systematically evaluate the quality of the prototypes to check their true usability in high stake decisions and improve such models further.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-21
# 機械学習のロバスト性:プライマー

Machine Learning Robustness: A Primer ( http://arxiv.org/abs/2404.00897v2 )

ライセンス: Link先を確認
Houssem Ben Braiek, Foutse Khomh, (参考訳) この章では、機械学習(ML)における堅牢性の基礎概念と、人工知能(AI)システムにおける信頼性を確立する上で重要な役割について論じる。 この議論はロバストネスの詳細な定義から始まり、MLモデルが様々な環境条件と予期せぬ環境条件で安定した性能を維持する能力であることを示している。 MLの堅牢性は、一般化可能性との相補性、信頼に値するAIの要件としてのの地位、敵対的対非敵対的側面、定量的メトリクス、再現性や説明可能性などの指標など、いくつかのレンズを通して分離されている。 この章では、データバイアスやモデル複雑性、未特定のMLパイプラインの落とし穴など、堅牢性を阻害する要因について詳しく説明している。 デジタルと物理の両方の領域を包含する敵攻撃を含む、幅広い視点からロバストネス評価のための重要な技術を調査している。 非敵のデータシフトと、ディープラーニング(DL)ソフトウェアテスト方法論のニュアンスをカバーしている。 議論は、デバイアスや拡張といったデータ中心のアプローチから始まる、堅牢性を促進するための改善戦略を探求する。 さらに、トランスファーラーニング、逆行訓練、ランダム化平滑化など、モデル中心の様々な手法が検討されている。 最後に、アンサンブル技術、プルーニング、モデル修復など、予測不可能なモデルに対してより弾力性を持たせるためのコスト効率の良い戦略として、ポストトレーニング手法について議論する。 この章は、既存のアプローチによるMLの堅牢性を推定し、達成する上で、進行中の課題と制限を強調します。 それは、信頼できるAIシステムのための前提条件として、この決定的な概念に関する将来の研究のための洞察と指針を提供する。

This chapter explores the foundational concept of robustness in Machine Learning (ML) and its integral role in establishing trustworthiness in Artificial Intelligence (AI) systems. The discussion begins with a detailed definition of robustness, portraying it as the ability of ML models to maintain stable performance across varied and unexpected environmental conditions. ML robustness is dissected through several lenses: its complementarity with generalizability; its status as a requirement for trustworthy AI; its adversarial vs non-adversarial aspects; its quantitative metrics; and its indicators such as reproducibility and explainability. The chapter delves into the factors that impede robustness, such as data bias, model complexity, and the pitfalls of underspecified ML pipelines. It surveys key techniques for robustness assessment from a broad perspective, including adversarial attacks, encompassing both digital and physical realms. It covers non-adversarial data shifts and nuances of Deep Learning (DL) software testing methodologies. The discussion progresses to explore amelioration strategies for bolstering robustness, starting with data-centric approaches like debiasing and augmentation. Further examination includes a variety of model-centric methods such as transfer learning, adversarial training, and randomized smoothing. Lastly, post-training methods are discussed, including ensemble techniques, pruning, and model repairs, emerging as cost-effective strategies to make models more resilient against the unpredictable. This chapter underscores the ongoing challenges and limitations in estimating and achieving ML robustness by existing approaches. It offers insights and directions for future research on this crucial concept, as a prerequisite for trustworthy AI systems.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-21
# 大規模言語モデルを用いた応答性・信頼性の高い交通流予測に向けて

Towards Responsible and Reliable Traffic Flow Prediction with Large Language Models ( http://arxiv.org/abs/2404.02937v4 )

ライセンス: Link先を確認
Xusen Guo, Qiming Zhang, Junyue Jiang, Mingxing Peng, Hao, Yang, Meixin Zhu, (参考訳) 交通予報はインテリジェント交通システムにとって不可欠である。 トラフィックデータの潜在パターンをキャプチャする深層学習の力のおかげで、大きな進歩を遂げた。 しかし、最近のディープラーニングアーキテクチャでは複雑なモデル設計が必要であり、入力データから予測結果へのマッピングの直感的な理解が欠如している。 トラフィック予測モデルにおける精度と責任の両立は、トラフィックデータの複雑さとディープラーニングモデル固有の不透明さのため、依然として課題である。 これらの課題に対処するために,大規模言語モデル(R2T-LLM)を用いた応答性・信頼性の高い交通流予測モデルを提案する。 マルチモーダルなトラフィックデータを自然言語記述に転送することで、R2T-LLMは複雑な時空間パターンと外部要因を包括的トラフィックデータからキャプチャする。 LLMフレームワークは、時空間トラフィックフローデータと整合する言語ベースの命令を用いて微調整される。 経験的に、R2T-LLMは、ディープラーニングのベースラインと比較して、競争の正確さを示しながら、予測の直感的で信頼性の高い説明を提供する。 本稿では,都市予測タスクにおけるR2T-LLMの可能性を示す条件付き将来流予測の時空間依存性と入力依存性について論じる。 本稿では,交通予測モデルの発展に寄与し,今後LLMの交通分野への応用を探求する基盤となる。 我々の知る限りでは、LLMを交通流の経時的かつ信頼性の高い予測に利用した最初の研究である。

Traffic forecasting is crucial for intelligent transportation systems. It has experienced significant advancements thanks to the power of deep learning in capturing latent patterns of traffic data. However, recent deep-learning architectures require intricate model designs and lack an intuitive understanding of the mapping from input data to predicted results. Achieving both accuracy and responsibility in traffic prediction models remains a challenge due to the complexity of traffic data and the inherent opacity of deep learning models. To tackle these challenges, we propose a Responsible and Reliable Traffic flow forecasting model with Large Language Models (R2T-LLM), which leverages large language models (LLMs) to generate responsible traffic predictions. By transferring multi-modal traffic data into natural language descriptions, R2T-LLM captures complex spatial-temporal patterns and external factors from comprehensive traffic data. The LLM framework is fine-tuned using language-based instructions to align with spatial-temporal traffic flow data. Empirically, R2T-LLM shows competitive accuracy compared with deep learning baselines, while providing an intuitive and reliable explanation for predictions. We discuss the spatial-temporal and input dependencies for conditional future flow forecasting, showcasing R2T-LLM's potential for diverse city prediction tasks. This paper contributes to advancing accountable traffic prediction models and lays a foundation for future exploration of LLM applications in transportation. To the best of our knowledge, this is the first study to use LLM for accountable and reliable prediction of traffic flows.
翻訳日:2024-04-23 22:45:14 公開日:2024-04-21
# 野生におけるOSS異常パッケージ解析

OSS Malicious Package Analysis in the Wild ( http://arxiv.org/abs/2404.04991v2 )

ライセンス: Link先を確認
Xiaoyan Zhou, Ying Zhang, Wenjia Niu, Jiqiang Liu, Haining Wang, Qiang Li, (参考訳) オープンソースのソフトウェア(OSS)エコシステムはさまざまなセキュリティ上の脅威とリスクに悩まされており、悪意のあるパッケージはソフトウェアサプライチェーン(SSC)攻撃において中心的な役割を果たす。 マルウェア研究は30年以上の歴史があるが、OSSマルウェアにはあまり注目されていない。 既存の研究には、高品質なデータセットの欠如、マルウェアの多様性、攻撃キャンペーンコンテキストの3つの制限がある。 本稿では,散在するオンラインソースから23,425の悪意あるパッケージのデータセットを作成した。 次に,OSSマルウェアコーパスを表現し,悪意のあるパッケージ分析を行う知識グラフを提案する。 本研究の主目的は,(1)複数のオンラインソースから悪意あるパッケージを収集することが重要であること,(2)SSC攻撃キャンペーンの重大量にもかかわらず,多くの悪意あるパッケージが類似しており,未知・高度な攻撃行動がまだ発生または検出されていないこと,(3)OSS悪意のあるパッケージは, {changing->release->detection->removal} と表記され,パッケージ(異名)をわずかに変更することが広範囲にわたる攻撃方法であること,(4) 悪意のあるパッケージは,どのように,誰がリリースしたかという文脈を欠いていることが多いが,セキュリティ報告は対応するSSC攻撃キャンペーンに関する情報を開示する。

The open-source software (OSS) ecosystem suffers from various security threats and risks, and malicious packages play a central role in software supply chain (SSC) attacks. Although malware research has a history of over thirty years, less attention has been paid to OSS malware. Its existing research has three limitations: a lack of high-quality datasets, malware diversity, and attack campaign context. In this paper, we first build and curate the largest dataset of 23,425 malicious packages from scattered online sources. We then propose a knowledge graph to represent the OSS malware corpus and conduct malicious package analysis in the wild. Our main findings include (1) it is essential to collect malicious packages from various online sources because there is little data overlap between different sources; (2) despite the sheer volume of SSC attack campaigns, many malicious packages are similar, and unknown/sophisticated attack behaviors have yet to emerge or be detected; (3) OSS malicious package has its distinct life cycle, denoted as {changing->release->detection->removal}, and slightly changing the package (different name) is a widespread attack manner; (4) while malicious packages often lack context about how and who released them, security reports disclose the information about corresponding SSC attack campaigns.
翻訳日:2024-04-23 22:45:14 公開日:2024-04-21
# ITA-ECBS: 目標割り当てと経路フィンディングの併用問題に対する境界下最適化アルゴリズム

ITA-ECBS: A Bounded-Suboptimal Algorithm for the Combined Target-Assignment and Path-Finding Problem ( http://arxiv.org/abs/2404.05223v2 )

ライセンス: Link先を確認
Yimin Tang, Sven Koenig, Jiaoyang Li, (参考訳) マルチエージェントパス探索(MAPF, Multi-Agent Path Finding)とは、複数のロボットの衝突のない経路を見つけることであり、多くのアプリケーションにおいて重要な役割を果たす。 時には、各エージェントにターゲットを割り当てることも課題となる。 MAPFの変種であるTAPF(Combined Target-Assignment and Path-Finding)問題では、エージェントにターゲットを同時に割り当て、エージェントに衝突のないパスを計画する必要がある。 CBM、CBS-TA、ITA-CBSを含むいくつかのアルゴリズムは、TAPF問題を最適に解決し、ITA-CBSはフロータイムを最小化する主要なアルゴリズムである。 しかし、既存の有界-準最適化アルゴリズム ECBS-TA は ITA-CBS ではなく CBS-TA から派生している。 そのため、CBS-TAと同じ問題に直面している。複数の制約木を探索したり、次のベストターゲットを見つけるのに多くの時間を費やすなどだ。 ITA-ECBS は ITA-CBS の最初の有界-準最適変種である。 ITA-CBSをその有界-準最適変種に変換することは、異なる制約ツリーノードが異なるターゲットをエージェントに割り当てることができるため、困難である。 ITA-ECBSは、焦点探索を用いて効率を向上し、新しい下界行列に基づいて目標割り当てを決定する。 54,033例中87.42%でCBS-TAより高速に動作している。

Multi-Agent Path Finding (MAPF), i.e., finding collision-free paths for multiple robots, plays a critical role in many applications. Sometimes, assigning a target to each agent also presents a challenge. The Combined Target-Assignment and Path-Finding (TAPF) problem, a variant of MAPF, requires one to simultaneously assign targets to agents and plan collision-free paths for agents. Several algorithms, including CBM, CBS-TA, and ITA-CBS, optimally solve the TAPF problem, with ITA-CBS being the leading algorithm for minimizing flowtime. However, the only existing bounded-suboptimal algorithm ECBS-TA is derived from CBS-TA rather than ITA-CBS. So, it faces the same issues as CBS-TA, such as searching through multiple constraint trees and spending too much time on finding the next-best target assignment. We introduce ITA-ECBS, the first bounded-suboptimal variant of ITA-CBS. Transforming ITA-CBS to its bounded-suboptimal variant is challenging because different constraint tree nodes can have different assignments of targets to agents. ITA-ECBS uses focal search to achieve efficiency and determines target assignments based on a new lower bound matrix. We show that it runs faster than ECBS-TA in 87.42% of 54,033 test cases.
翻訳日:2024-04-23 22:45:14 公開日:2024-04-21
# 大規模言語モデルによるコンピュータ可読コンテンツの生成

Guiding Large Language Models to Generate Computer-Parsable Content ( http://arxiv.org/abs/2404.05499v3 )

ライセンス: Link先を確認
Jiaye Wang, (参考訳) 本研究では,特定の規則に忠実な構造化コンテンツを生成する際に,微調整なしでLLM(Large Language Models)をガイドする方法を提案する。 文脈自由文法(CFG)を用いてコルーチンに基づくコンテンツ生成制約を利用することにより、LLMはデコード中に指示され、形式言語に準拠する出力を生成する。 これにより、ターゲットデータ構造、型、命令を生成する際の安定性と一貫性が向上し、アプリケーション開発の複雑さが軽減される。 GPT-2 と Gemma の誤差率は、それぞれ 36 と 282 のトークンよりも長い DSL に対して 95% 以上である。 本稿では、コルーチンベースのDSL生成フレームワークであるYieldLangを紹介し、JSONやMermaidフローチャート生成など、さまざまなタスクでLLMで評価する。 LLMはJSONを効果的に生成するために、サンプルの16.5%しか必要としない。 これにより、コンピュータプログラムにおけるLLM生成コンテンツのユーザビリティが向上する。

We propose a method to guide Large Language Models (LLMs) in generating structured content adhering to specific conventions without fine-tuning. By utilizing coroutine-based content generation constraints through a pre-agreed context-free grammar (CFG), LLMs are directed during decoding to produce formal language compliant outputs. This enhances stability and consistency in generating target data structures, types, or instructions, reducing application development complexities. Experimentally, error rates of GPT-2 and Gemma exceed 95% for DSLs longer than 36 and 282 tokens, respectively. We introduce YieldLang, a coroutine-based DSL generation framework, and evaluate it with LLMs on various tasks including JSON and Mermaid flowchart generation. Compared to benchmarks, our approach improves accuracy by 1.09 to 11.6 times, with LLMs requiring only about 16.5% of the samples to generate JSON effectively. This enhances usability of LLM-generated content for computer programs.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-21
# AgentsCoDriver: 生涯学習によるコラボレーション駆動を活用した大規模言語モデル

AgentsCoDriver: Large Language Model Empowered Collaborative Driving with Lifelong Learning ( http://arxiv.org/abs/2404.06345v2 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Zihan Fang, Yiqin Deng, Xianhao Chen, Yuguang Fang, (参考訳) 近年、コネクテッド・自動運転は急速に発展している。 しかし、主にデータ駆動型アプローチに基づく現在の自律運転システムは、解釈可能性、一般化、継続的な学習能力の欠如を示す。 さらに、単一車両の自動運転システムには、他の車両との協調や交渉の能力が欠如しており、これは自動運転システムの安全性と効率性に不可欠である。 これらの問題に対処するために,我々は大規模言語モデル(LLM)を活用して新しいフレームワークであるAgentsCoDriverを開発し,複数の車両が協調運転を行えるようにした。 AgentsCoDriverは、観測モジュール、推論エンジン、認知メモリモジュール、強化反射モジュール、通信モジュールの5つのモジュールで構成されている。 環境と継続的に対話することで、知識、教訓、経験を蓄積し、生涯の学習を可能にする。 また,通信モジュールを活用することで,複雑な交通環境下で情報交換を行い,交渉や協調を実現することができる。 大規模な実験を行い、AgensCoDriverの優位性を示す。

Connected and autonomous driving is developing rapidly in recent years. However, current autonomous driving systems, which are primarily based on data-driven approaches, exhibit deficiencies in interpretability, generalization, and continuing learning capabilities. In addition, the single-vehicle autonomous driving systems lack of the ability of collaboration and negotiation with other vehicles, which is crucial for the safety and efficiency of autonomous driving systems. In order to address these issues, we leverage large language models (LLMs) to develop a novel framework, AgentsCoDriver, to enable multiple vehicles to conduct collaborative driving. AgentsCoDriver consists of five modules: observation module, reasoning engine, cognitive memory module, reinforcement reflection module, and communication module. It can accumulate knowledge, lessons, and experiences over time by continuously interacting with the environment, thereby making itself capable of lifelong learning. In addition, by leveraging the communication module, different agents can exchange information and realize negotiation and collaboration in complex traffic environments. Extensive experiments are conducted and show the superiority of AgentsCoDriver.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-21
# 考古学的航空写真と深層学習を用いたナミビアの10年にわたる環境変化の分析

Analyzing Decades-Long Environmental Changes in Namibia Using Archival Aerial Photography and Deep Learning ( http://arxiv.org/abs/2404.08544v2 )

ライセンス: Link先を確認
Girmaw Abebe Tadesse, Caleb Robinson, Gilles Quentin Hacheme, Akram Zaytar, Rahul Dodhia, Tsering Wangyal Shawa, Juan M. Lavista Ferres, Emmanuel H. Kreike, (参考訳) 本研究では,ナミビアの歴史的航空写真における物体検出について検討し,長期的環境変化を同定する。 具体的には、1943年から1972年にかけて、ナミビアのオシカンゴ周辺の水穴、オムティ、ビッグツリーなどの主要天体を、亜等級のグレースケールの空中画像を用いて識別することを目的としている。 本研究では,スパース・ハンドラベルの深部セマンティック・セマンティック・セグメンテーション・モデルを用いて,歴史的空中画像を分析するワークフローを提案する。 そこで本研究では, クラス重み付け, 擬似ラベル付け, 経験的p値フィルタリングなどの手法を用いて, 実データ中のオブジェクトの歪んだ表現とスパース表現のバランスをとる。 結果は、1943年と1972年の3つの画像に対して、平均$F_1=0.661$と$F_1=0.755$という異なるトレーニング戦略の利点を示している。 また,戦後の大規模経済・農業・人口・環境変化の地域的影響を反映して,1943年から1972年にかけてはオムティ住宅の平均規模が減少する一方で,水穴や大木の平均規模が増加したことも確認した。 この研究は、ナミビア(およびアフリカ)以外の長期的な環境変化を理解する上で、歴史的な航空写真が未完成の可能性があることも強調している。 過去に十分な衛星技術がなかったため、考古学的航空写真は数十年にわたる環境変化を解明するための優れた代替手段となる。

This study explores object detection in historical aerial photographs of Namibia to identify long-term environmental changes. Specifically, we aim to identify key objects -- Waterholes, Omuti homesteads, and Big trees -- around Oshikango in Namibia using sub-meter gray-scale aerial imagery from 1943 and 1972. In this work, we propose a workflow for analyzing historical aerial imagery using a deep semantic segmentation model on sparse hand-labels. To this end, we employ a number of strategies including class-weighting, pseudo-labeling and empirical p-value-based filtering to balance skewed and sparse representations of objects in the ground truth data. Results demonstrate the benefits of these different training strategies resulting in an average $F_1=0.661$ and $F_1=0.755$ over the three objects of interest for the 1943 and 1972 imagery, respectively. We also identified that the average size of Waterhole and Big trees increased while the average size of Omuti homesteads decreased between 1943 and 1972 reflecting some of the local effects of the massive post-Second World War economic, agricultural, demographic, and environmental changes. This work also highlights the untapped potential of historical aerial photographs in understanding long-term environmental changes beyond Namibia (and Africa). With the lack of adequate satellite technology in the past, archival aerial photography offers a great alternative to uncover decades-long environmental changes.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-21
# LLMにおけるデータ選択と微調整が経済・政治リズムに与える影響の分析

Analyzing the Impact of Data Selection and Fine-Tuning on Economic and Political Biases in LLMs ( http://arxiv.org/abs/2404.08699v2 )

ライセンス: Link先を確認
Ahmed Agiza, Mohamed Mostagir, Sherief Reda, (参考訳) 言語モデルが意思決定とコミュニケーションにますます統合される時代において、大規模言語モデル(LLM)内のバイアスを理解することは、特にこれらのモデルが経済と政治の領域に適用される場合に必須となる。 本研究では,LLMにおける微調整とデータ選択が経済的・政治的バイアスに与える影響について検討する。 我々は, LLM を特定のイデオロギーに偏り付ける手法について検討し, 多様なデータセットに対する広範なトレーニングから生じるバイアスを念頭において検討する。 我々のアプローチは、より小さなモデルにフォーカスするか、リソース集約的な事前訓練を行う以前の取り組みと異なり、パラメータ効率の良いファインチューニング(PEFT)技術を採用している。 これらの技術は、パラメータの小さなサブセットを変更することで、目標イデオロギーとLLMのアライメントを可能にする。 我々は,データセットの選択,アノテーション,命令チューニングの体系的手法を導入し,定量評価と定性評価の両面からその有効性を評価する。 我々の研究は、特定のバイアスをLLMに埋め込む可能性を分析し、AIの倫理的応用に関する対話に寄与し、社会的価値に合わせてAIをデプロイすることの重要性を強調します。

In an era where language models are increasingly integrated into decision-making and communication, understanding the biases within Large Language Models (LLMs) becomes imperative, especially when these models are applied in the economic and political domains. This work investigates the impact of fine-tuning and data selection on economic and political biases in LLM. We explore the methodological aspects of biasing LLMs towards specific ideologies, mindful of the biases that arise from their extensive training on diverse datasets. Our approach, distinct from earlier efforts that either focus on smaller models or entail resource-intensive pre-training, employs Parameter-Efficient Fine-Tuning (PEFT) techniques. These techniques allow for the alignment of LLMs with targeted ideologies by modifying a small subset of parameters. We introduce a systematic method for dataset selection, annotation, and instruction tuning, and we assess its effectiveness through both quantitative and qualitative evaluations. Our work analyzes the potential of embedding specific biases into LLMs and contributes to the dialogue on the ethical application of AI, highlighting the importance of deploying AI in a manner that aligns with societal values.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-21
# 大規模言語モデルは人間と同じくらい説得力があるが、どのように?LLM論の認知的努力と道徳的感情言語について

Large Language Models are as persuasive as humans, but how? About the cognitive effort and moral-emotional language of LLM arguments ( http://arxiv.org/abs/2404.09329v2 )

ライセンス: Link先を確認
Carlos Carrasco-Farre, (参考訳) 大型言語モデル(LLM)はすでに人間と同じくらい説得力がある。 しかし、そのやり方についてはほとんど分かっていない。 本稿では, LLMの説得戦略について, 人為的議論と比較し検討する。 実験における1,251人の参加者のデータセットを用いて、認知的努力(語彙的・文法的複雑さ)と道徳的感情言語(感情的・道徳的分析)を用いて、LLM生成・人為的議論の説得戦略を分析した。 研究によると、LLMは高い認知力を必要とする議論を生み出し、人間よりも複雑な文法構造と語彙構造を示す。 加えて、LLMは道徳言語に深く関わり、ポジティブとネガティブの両方の道徳的基盤を人間よりも頻繁に利用している。 前回の研究では、LLMとヒトの感情内容に有意な差は見られなかった。 これらの知見はAIと説得についての談話に寄与し、デジタル説得のためのコミュニケーション戦略を通じて情報整合性を高め、弱体化させるLLMの2つの可能性を強調している。

Large Language Models (LLMs) are already as persuasive as humans. However, we know very little about how they do it. This paper investigates the persuasion strategies of LLMs, comparing them with human-generated arguments. Using a dataset of 1,251 participants in an experiment, we analyze the persuasion strategies of LLM-generated and human-generated arguments using measures of cognitive effort (lexical and grammatical complexity) and moral-emotional language (sentiment and moral analysis). The study reveals that LLMs produce arguments that require higher cognitive effort, exhibiting more complex grammatical and lexical structures than human counterparts. Additionally, LLMs demonstrate a significant propensity to engage more deeply with moral language, utilizing both positive and negative moral foundations more frequently than humans. In contrast with previous research, no significant difference was found in the emotional content produced by LLMs and humans. These findings contribute to the discourse on AI and persuasion, highlighting the dual potential of LLMs to both enhance and undermine informational integrity through communication strategies for digital persuasion.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-21
# 変分量子シミュレーション : ウォームスタートを理解するためのケーススタディ

Variational quantum simulation: a case study for understanding warm starts ( http://arxiv.org/abs/2404.10044v2 )

ライセンス: Link先を確認
Ricard Puig-i-Valls, Marc Drudis, Supanut Thanasilp, Zoë Holmes, (参考訳) システムサイズで指数関数的に消失する損失勾配を特徴とするバレンプラトー現象は、変分量子アルゴリズムのスケーリングに挑戦する。 ここでは、温暖化開始の可能性を探求し、損失分散がより大きいことを期待して、解に近く初期化する。 量子実時間および想像時間進化のための短い深度回路を学習するための反復的変分法に着目して、ウォームスタートの可能性と限界を解明するためのケーススタディを行う。 まず、反復変分アルゴリズムは、各時点における初期化の周囲の小さな領域において、相当な(システムサイズで最悪の多項式的に消滅する)勾配を示すことを証明することから始める。 これらの領域の凸性保証が確立され、多項式サイズの時間ステップのトレーニング可能性が示唆される。 しかし,本研究では,トレーニング可能性の保証により,地域外における良好な最小限のシフトが保証されるシナリオを強調した。 我々の分析では、このようなミニマが不毛の高原の風景を横断する最適化を必要とするのか、あるいは、高原から離れた谷にかなりの勾配があるような勾配流が存在するのかという疑問が浮き彫りになっている。

The barren plateau phenomenon, characterized by loss gradients that vanish exponentially with system size, poses a challenge to scaling variational quantum algorithms. Here we explore the potential of warm starts, whereby one initializes closer to a solution in the hope of enjoying larger loss variances. Focusing on an iterative variational method for learning shorter-depth circuits for quantum real and imaginary time evolution we conduct a case study to elucidate the potential and limitations of warm starts. We start by proving that the iterative variational algorithm will exhibit substantial (at worst vanishing polynomially in system size) gradients in a small region around the initializations at each time-step. Convexity guarantees for these regions are then established, suggesting trainability for polynomial size time-steps. However, our study highlights scenarios where a good minimum shifts outside the region with trainability guarantees. Our analysis leaves open the question whether such minima jumps necessitate optimization across barren plateau landscapes or whether there exist gradient flows, i.e., fertile valleys away from the plateau with substantial gradients, that allow for training.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-21
# EyeFormer: Transformer-Guided Reinforcement Learningによるパーソナライズされたスキャンパスの予測

EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning ( http://arxiv.org/abs/2404.10163v2 )

ライセンス: Link先を確認
Yue Jiang, Zixin Guo, Hamed Rezazadegan Tavakoli, Luis A. Leiva, Antti Oulasvirta, (参考訳) 視覚的視点から見ると、現代のグラフィカルユーザインタフェース(GUI)は、テキスト、画像、ボタンやメニューなどのインタラクティブなオブジェクトの複雑なグラフィックに富んだ2次元空間配置で構成されている。 既存のモデルは、'on average''に注意を惹きつける可能性のある領域やオブジェクトを正確に予測できるが、今のところ、個人に対してスキャンパスを予測できるスキャンパスモデルは存在しない。 このギャップを埋めるため、EyeFormerを導入し、Transformerアーキテクチャをポリシーネットワークとして活用し、視線位置を制御する深層強化学習アルゴリズムを誘導する。 我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。 固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。 さらに、モデルによって駆動されるGUIレイアウト最適化のアプリケーションを実演する。 私たちのソフトウェアとモデルは公開されます。

From a visual perception perspective, modern graphical user interfaces (GUIs) comprise a complex graphics-rich two-dimensional visuospatial arrangement of text, images, and interactive objects such as buttons and menus. While existing models can accurately predict regions and objects that are likely to attract attention ``on average'', so far there is no scanpath model capable of predicting scanpaths for an individual. To close this gap, we introduce EyeFormer, which leverages a Transformer architecture as a policy network to guide a deep reinforcement learning algorithm that controls gaze locations. Our model has the unique capability of producing personalized predictions when given a few user scanpath samples. It can predict full scanpath information, including fixation positions and duration, across individuals and various stimulus types. Additionally, we demonstrate applications in GUI layout optimization driven by our model. Our software and models will be publicly available.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-21
# ガウス混合モデルと最適輸送を用いたより軽く、より良く、より高速なマルチソースドメイン適応

Lighter, Better, Faster Multi-Source Domain Adaptation with Gaussian Mixture Models and Optimal Transport ( http://arxiv.org/abs/2404.10261v2 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngolè Mboula, Antoine Souloumiac, (参考訳) 本稿では,複数の異種ラベル付きソース確率測度を,異なるラベル付きターゲット測度に適応させるトランスファー学習の課題であるMulti-Source Domain Adaptation(MSDA)に取り組む。 最適輸送(OT)とガウス混合モデル(GMM)に基づくMSDAのための新しいフレームワークを提案する。 私たちのフレームワークには2つの大きな利点があります。 第一に、GMM間のOTは線形プログラミングによって効率的に解ける。 第2に、GMMのコンポーネントが既存のクラスに関連付けることができるため、教師付き学習、特に分類のための便利なモデルを提供する。 GMM-OT問題に基づいて,GMMのバリセンタを計算する新しい手法を提案する。 このアルゴリズムに基づいて,GMM-WBTとGMM-DaDiLの2つの新しい戦略を提案する。 画像分類と故障診断の4つのベンチマークで提案手法を実証的に評価し,より高速かつ少ないパラメータを伴いながら,先行技術よりも改善したことを示す。

In this paper, we tackle Multi-Source Domain Adaptation (MSDA), a task in transfer learning where one adapts multiple heterogeneous, labeled source probability measures towards a different, unlabeled target measure. We propose a novel framework for MSDA, based on Optimal Transport (OT) and Gaussian Mixture Models (GMMs). Our framework has two key advantages. First, OT between GMMs can be solved efficiently via linear programming. Second, it provides a convenient model for supervised learning, especially classification, as components in the GMM can be associated with existing classes. Based on the GMM-OT problem, we propose a novel technique for calculating barycenters of GMMs. Based on this novel algorithm, we propose two new strategies for MSDA: GMM-WBT and GMM-DaDiL. We empirically evaluate our proposed methods on four benchmarks in image classification and fault diagnosis, showing that we improve over the prior art while being faster and involving fewer parameters.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-21
# LLMアライメントにおけるDPOはPPOに優越しているか? : 総合的研究

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study ( http://arxiv.org/abs/2404.10719v2 )

ライセンス: Link先を確認
Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。 既存のRLHF法は、報酬ベースまたは報酬フリーと大まかに分類できる。 ChatGPTやClaudeといった新しいアプリケーションは、報酬モデルを学び、PPO(Proximal Policy Optimization)のようなアクター批判アルゴリズムを適用する報酬ベースの手法を利用している。 しかしながら、学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。 DPOは本当にPPOより優れているか? なぜPPOはこれらのベンチマークでパフォーマンスが悪いのか? 本稿では,まずDPOのアルゴリズム特性に関する理論的および実証的研究を行い,DPOが基本的限界を持つことを示す。 さらに、PPOを網羅的に検討し、微調整LDMにおけるPPOの優れた性能の鍵となる要因を明らかにする。 最後に、DPOとPPOを対話からコード生成まで、RLHFテストベッドの集合でベンチマークする。 実験の結果、PPOはあらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争で最先端の結果を得ることができた。

Reinforcement Learning from Human Feedback (RLHF) is currently the most widely used method to align large language models (LLMs) with human preferences. Existing RLHF methods can be roughly categorized as either reward-based or reward-free. Novel applications such as ChatGPT and Claude leverage reward-based methods that first learn a reward model and apply actor-critic algorithms, such as Proximal Policy Optimization (PPO). However, in academic benchmarks, state-of-the-art results are often achieved via reward-free methods, such as Direct Preference Optimization (DPO). Is DPO truly superior to PPO? Why does PPO perform poorly on these benchmarks? In this paper, we first conduct both theoretical and empirical studies on the algorithmic properties of DPO and show that DPO may have fundamental limitations. Moreover, we also comprehensively examine PPO and reveal the key factors for the best performances of PPO in fine-tuning LLMs. Finally, we benchmark DPO and PPO across a collection of RLHF testbeds, ranging from dialogue to code generation. Experiment results demonstrate that PPO is able to surpass other alignment methods in all cases and achieve state-of-the-art results in challenging code competitions.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-21
# 等変ラテント拡散モデルの進行蒸留による分子コンフォーム生成の高速化

Accelerating the Generation of Molecular Conformations with Progressive Distillation of Equivariant Latent Diffusion Models ( http://arxiv.org/abs/2404.13491v1 )

ライセンス: Link先を確認
Romain Lacombe, Neal Vaidya, (参考訳) 拡散モデルの高速サンプリング手法の最近の進歩は、画像モダリティの生成を加速する有意義な可能性を示している。 最近導入されたGeoLDM同変潜在拡散モデル(Xu et al , 2023)に基づいて, これらの手法を三次元分子配座に適用する。 分子配座構造安定性を指標として,速度利得と品質損失のトレードオフを評価する。 等変ラテントプログレッシブ蒸留(Equivariant Latent Progressive Distillation)は, 幾何等分散を保ち, 潜時拡散モデルから生成を加速する高速サンプリングアルゴリズムである。 分子安定性の低下を抑えながらサンプリング速度を7.5倍に向上させる実験を行った。 これらの結果から, この加速サンプリング法は, 計算生化学, 薬物発見, 生命科学への応用において, サイリコ分子配座の高スループット化の可能性が示唆された。

Recent advances in fast sampling methods for diffusion models have demonstrated significant potential to accelerate generation on image modalities. We apply these methods to 3-dimensional molecular conformations by building on the recently introduced GeoLDM equivariant latent diffusion model (Xu et al., 2023). We evaluate trade-offs between speed gains and quality loss, as measured by molecular conformation structural stability. We introduce Equivariant Latent Progressive Distillation, a fast sampling algorithm that preserves geometric equivariance and accelerates generation from latent diffusion models. Our experiments demonstrate up to 7.5x gains in sampling speed with limited degradation in molecular stability. These results suggest this accelerated sampling method has strong potential for high-throughput in silico molecular conformations screening in computational biochemistry, drug discovery, and life sciences applications.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 認証感情マッピング:実ニュースにおける表情のベンチマーク

Authentic Emotion Mapping: Benchmarking Facial Expressions in Real News ( http://arxiv.org/abs/2404.13493v1 )

ライセンス: Link先を確認
Qixuan Zhang, Zhifeng Wang, Yang Liu, Zhenyue Qin, Kaihao Zhang, Sabrina Caldwell, Tom Gedeon, (参考訳) 本稿では,現実的なニュースビデオから抽出した顔のランドマークを用いた感情認識のための新しいベンチマークを提案する。 従来のRGB画像に依存した手法は資源集約的な手法であるのに対し、FLER(Facial Landmark Emotion Recognition)によるアプローチはシンプルで効果的な代替手段である。 グラフニューラルネットワーク(GNN)を用いて顔のランドマークの幾何学的・空間的関係を解析することにより,感情認識の理解と精度を高める。 本稿では、感情認識のためのディープラーニング技術の進歩と課題について論じ、特にグラフニューラルネットワーク(GNN)とトランスフォーマーに注目した。 実験の結果、我々のデータセットの可能性をベンチマークとして示し、今後の感情認識技術研究の方向性を定めている。 コードとモデルは以下のとおりである。

In this paper, we present a novel benchmark for Emotion Recognition using facial landmarks extracted from realistic news videos. Traditional methods relying on RGB images are resource-intensive, whereas our approach with Facial Landmark Emotion Recognition (FLER) offers a simplified yet effective alternative. By leveraging Graph Neural Networks (GNNs) to analyze the geometric and spatial relationships of facial landmarks, our method enhances the understanding and accuracy of emotion recognition. We discuss the advancements and challenges in deep learning techniques for emotion recognition, particularly focusing on Graph Neural Networks (GNNs) and Transformers. Our experimental results demonstrate the viability and potential of our dataset as a benchmark, setting a new direction for future research in emotion recognition technologies. The codes and models are at: https://github.com/wangzhifengharrison/benchmark_real_news
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# ODE-DPS:部分微分方程式の逆問題に対するODE-based Diffusion Posterior Smpling

ODE-DPS: ODE-based Diffusion Posterior Sampling for Inverse Problems in Partial Differential Equation ( http://arxiv.org/abs/2404.13496v1 )

ライセンス: Link先を確認
Enze Jiang, Jishen Peng, Zheng Ma, Xiong-Bin Yan, (参考訳) 近年,偏微分方程式の逆問題(PDE)の解法として,深層学習のための数学の発達が見られた。 しかし、ほとんどのディープラーニングベースのインバージョン法は、逆問題条件の修正のためにペア化されたデータを必要とするか、再トレーニングするニューラルネットワークを必要とする。 この課題を克服するために,本論文では,PDEから生じる逆問題を解決するために,スコアベース生成拡散モデルを用いて,新しい教師なし逆変換手法を提案する。 提案手法はベイズ逆確率微分方程式の解法により得られる条件生成過程として, 後続分布の解法を取り扱う。 さらに、インバージョン結果の精度を高めるために、ODEベースの拡散後サンプリングインバージョンアルゴリズムを提案する。 このアルゴリズムは、同じフォッカー・プランク方程式を満たす二つの異なる前方生成過程の限界確率密度関数に由来する。 各種PDEに関する一連の実験を通して,提案手法の有効性とロバスト性を示す。

In recent years we have witnessed a growth in mathematics for deep learning, which has been used to solve inverse problems of partial differential equations (PDEs). However, most deep learning-based inversion methods either require paired data or necessitate retraining neural networks for modifications in the conditions of the inverse problem, significantly reducing the efficiency of inversion and limiting its applicability. To overcome this challenge, in this paper, leveraging the score-based generative diffusion model, we introduce a novel unsupervised inversion methodology tailored for solving inverse problems arising from PDEs. Our approach operates within the Bayesian inversion framework, treating the task of solving the posterior distribution as a conditional generation process achieved through solving a reverse-time stochastic differential equation. Furthermore, to enhance the accuracy of inversion results, we propose an ODE-based Diffusion Posterior Sampling inversion algorithm. The algorithm stems from the marginal probability density functions of two distinct forward generation processes that satisfy the same Fokker-Planck equation. Through a series of experiments involving various PDEs, we showcase the efficiency and robustness of our proposed method.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 条件付きGANを用いた一般化回帰

Generalized Regression with Conditional GANs ( http://arxiv.org/abs/2404.13500v1 )

ライセンス: Link先を確認
Deddy Jobson, Eddy Hudson, (参考訳) 回帰は通常、予測関数をデータに適合させることを目標とする曲線適合プロセスとして扱われる。 条件付き生成逆数ネットワークの助けを借りて、この年齢の古い問題を異なる方法で解くことを提案し、トレーニングデータセットにおける特徴ラベル対と、対応する入力と組み合わせて出力が区別できない予測関数を学習することを目的とする。 回帰に対するこのアプローチは、私たちが適合するデータの分布に対する仮定を減らし、表現能力が向上することを示す。 我々は、統計学における一般化線形モデルとの並列性を描き、我々の提案がニューラルネットワークへの拡張としてどのように役立つかを示す。 複数の合成および公開可能な実世界のデータセットで実験を行い、特に実世界の重み付き回帰データセットにおいて、この新しい手法の標準回帰に対する優位性を実証する。 作業をより再現可能にするために、ソースコードをリリースします。 リポジトリへのリンク:https://anonymous.4open.science/r/regressGAN-7B71/

Regression is typically treated as a curve-fitting process where the goal is to fit a prediction function to data. With the help of conditional generative adversarial networks, we propose to solve this age-old problem in a different way; we aim to learn a prediction function whose outputs, when paired with the corresponding inputs, are indistinguishable from feature-label pairs in the training dataset. We show that this approach to regression makes fewer assumptions on the distribution of the data we are fitting to and, therefore, has better representation capabilities. We draw parallels with generalized linear models in statistics and show how our proposal serves as an extension of them to neural networks. We demonstrate the superiority of this new approach to standard regression with experiments on multiple synthetic and publicly available real-world datasets, finding encouraging results, especially with real-world heavy-tailed regression datasets. To make our work more reproducible, we release our source code. Link to repository: https://anonymous.4open.science/r/regressGAN-7B71/
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 大規模言語モデルに基づくエージェントの記憶機構に関する調査

A Survey on the Memory Mechanism of Large Language Model based Agents ( http://arxiv.org/abs/2404.13501v1 )

ライセンス: Link先を確認
Zeyu Zhang, Xiaohe Bo, Chen Ma, Rui Li, Xu Chen, Quanyu Dai, Jieming Zhu, Zhenhua Dong, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。 従来のLLMと比較して、LLMベースのエージェントは、長期的な複雑なエージェント環境相互作用を必要とする現実の問題を解決するための基礎となる自己進化能力に特化している。 エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。 これまでの研究では、多くの有望な記憶機構が提案されてきたが、それらは異なる論文に散在しており、これらの研究を総合的な視点から要約し比較する体系的なレビューが欠如しており、将来の研究を刺激するための共通かつ効果的なデザインパターンを抽象化しなかった。 本稿では,このギャップを埋めるために,LLMエージェントの記憶機構に関する包括的調査を提案する。 具体的には、まず LLM ベースのエージェントのメモリの ''What is' と 'hy do we need' について議論する。 そこで我々は,メモリモジュールの設計と評価に関する過去の研究を体系的にレビューした。 さらに,メモリモジュールが重要な役割を果たすエージェントアプリケーションも多数紹介する。 最終的に、既存の作業の限界を分析し、重要な今後の方向性を示す。 この分野での最新の進歩に追従するため、我々は \url{https://github.com/nuster1128/LLM_Agent_Memory_Survey} にリポジトリを作成します。

Large language model (LLM) based agents have recently attracted much attention from the research and industry communities. Compared with original LLMs, LLM-based agents are featured in their self-evolving capability, which is the basis for solving real-world problems that need long-term and complex agent-environment interactions. The key component to support agent-environment interactions is the memory of the agents. While previous studies have proposed many promising memory mechanisms, they are scattered in different papers, and there lacks a systematical review to summarize and compare these works from a holistic perspective, failing to abstract common and effective designing patterns for inspiring future studies. To bridge this gap, in this paper, we propose a comprehensive survey on the memory mechanism of LLM-based agents. In specific, we first discuss ''what is'' and ''why do we need'' the memory in LLM-based agents. Then, we systematically review previous studies on how to design and evaluate the memory module. In addition, we also present many agent applications, where the memory module plays an important role. At last, we analyze the limitations of existing work and show important future directions. To keep up with the latest advances in this field, we create a repository at \url{https://github.com/nuster1128/LLM_Agent_Memory_Survey}.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# すべての支払バウンドタスクに対するスワップレグレットの最小化予測

Predict to Minimize Swap Regret for All Payoff-Bounded Tasks ( http://arxiv.org/abs/2404.13503v1 )

ライセンス: Link先を確認
Lunjia Hu, Yifan Wu, (参考訳) 一連の予測がキャリブレーションされるのは、下流のすべての決定タスクに対してスワップ後悔を誘発しない場合に限られる。 本稿では,バイナリイベントの予測の最大スワップレグレット(MSR)について検討する。 これまで、MSRを最小化するための最良のオンライン予測アルゴリズムは、MSRの上限であるK1校正誤差を一定要素まで最小化することで得られる。 しかし、最近の研究 (Qiao and Valiant, 2021) は、Tラウンドにおける任意のランダム化アルゴリズムによって生じる最悪のケース予測K1キャリブレーション誤差に対して${\Omega}(T^{0.528})$低いバウンドを与え、MSRのより良いレートを達成するための障壁を提示している。 MSRのいくつかの緩和はこの障壁を克服すると考えられており、外部の後悔(Kleinberg et al , 2023)と、下流のタスクの作用数(Noarov et al , 2023; Roth and Shi, 2024)に多項式的に依存する後悔の限界を通じてである。 我々は、この障壁を緩和することなく超過することができることを示す:我々は、$O(TlogT)$期待のMSRを保証する効率的なランダム化予測アルゴリズムを提供する。 また、MSRを決定論的キャリブレーション誤差指標とみなし、キャリブレーションの経済的有用性についても検討し、既存の指標との関係について検討する。

A sequence of predictions is calibrated if and only if it induces no swap regret to all down-stream decision tasks. We study the Maximum Swap Regret (MSR) of predictions for binary events: the swap regret maximized over all downstream tasks with bounded payoffs. Previously, the best online prediction algorithm for minimizing MSR is obtained by minimizing the K1 calibration error, which upper bounds MSR up to a constant factor. However, recent work (Qiao and Valiant, 2021) gives an ${\Omega}(T^{0.528})$ lower bound for the worst-case expected K1 calibration error incurred by any randomized algorithm in T rounds, presenting a barrier to achieving better rates for MSR. Several relaxations of MSR have been considered to overcome this barrier, via external regret (Kleinberg et al., 2023) and regret bounds depending polynomially on the number of actions in downstream tasks (Noarov et al., 2023; Roth and Shi, 2024). We show that the barrier can be surpassed without any relaxations: we give an efficient randomized prediction algorithm that guarantees $O(TlogT)$ expected MSR. We also discuss the economic utility of calibration by viewing MSR as a decision-theoretic calibration error metric and study its relationship to existing metrics.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# IMO: 事前学習モデルを用いたアウト・オブ・ディストリビューションテキスト分類のためのGreedy Layer-Wise Sparse Representation Learning

IMO: Greedy Layer-Wise Sparse Representation Learning for Out-of-Distribution Text Classification with Pre-trained Models ( http://arxiv.org/abs/2404.13504v1 )

ライセンス: Link先を確認
Tao Feng, Lizhen Qu, Zhuang Li, Haolan Zhan, Yuncheng Hua, Gholamreza Haffari, (参考訳) 機械学習モデルは驚くべき進歩を遂げていますが、目に見えないドメインの例に適用する際はまだ苦労しています。 本研究は,モデルが1つのソースドメイン上でトレーニングされ,トレーニング中に見つからない複数のターゲットドメイン上でテストされる領域一般化の特定の問題に焦点を当てる。 Invariant features Masks for Out-of-Distribution text classification, to achieve OOD generalization by learning invariant features。 トレーニング中、IMOはスパースマスク層を学習し、残りのフィーチャが不変である予測の無関係な特徴を取り除く。 さらに、IMOにはトークンレベルでの注意モジュールがあり、予測に有用なトークンに重点を置いている。 総合的な実験により、IMOは様々な評価指標や設定において、強いベースラインを著しく上回っていることが示された。

Machine learning models have made incredible progress, but they still struggle when applied to examples from unseen domains. This study focuses on a specific problem of domain generalization, where a model is trained on one source domain and tested on multiple target domains that are unseen during training. We propose IMO: Invariant features Masks for Out-of-Distribution text classification, to achieve OOD generalization by learning invariant features. During training, IMO would learn sparse mask layers to remove irrelevant features for prediction, where the remaining features keep invariant. Additionally, IMO has an attention module at the token level to focus on tokens that are useful for prediction. Our comprehensive experiments show that IMO substantially outperforms strong baselines in terms of various evaluation metrics and settings.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 静的な動的:自己監督型ビデオオブジェクトセグメンテーションのためのハイブリッド視覚対応

Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation ( http://arxiv.org/abs/2404.13505v1 )

ライセンス: Link先を確認
Gensheng Pei, Yazhou Yao, Jianbo Jiao, Wenguan Wang, Liqiang Nie, Jinhui Tang, (参考訳) 従来のビデオオブジェクトセグメンテーション(VOS)手法は、完全に教師付き学習を行うには、大量のピクセルレベルの注釈付きビデオデータを必要とする。 本稿では, HVC, a \textbf{h}ybrid static-dynamic \textbf{v}isual \textbf{c}or correspondingence framework for self-supervised VOSを提案する。 HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。 提案手法では,最小限の完全畳み込みアーキテクチャを用いて,画像クロッピングビューにおける静的動的視覚対応をキャプチャする。 この目的を達成するために,静的な特徴類似性の視覚的表現を学習するための,統一的な自己教師型アプローチを提案する。 まず,一貫した静的特徴表現の形成を導くために,収穫されたビュー間の事前座標情報を利用して静的対応を確立する。 その後,2つのビュー間の前方/後方の擬似力学信号を捉えるための簡潔な畳み込み層を考案し,動的表現の手がかりとして機能する。 最後に,関節の静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。 当社のアプローチでは,静的画像データを使用したトレーニングセッションをひとつだけ必要としており,メモリ使用量($16GB)とトレーニング時間($2h)を大幅に削減する。 さらに、HVCは、いくつかのセルフ教師付きVOSベンチマークと追加のビデオラベル伝搬タスクで最先端のパフォーマンスを達成する。

Conventional video object segmentation (VOS) methods usually necessitate a substantial volume of pixel-level annotated video data for fully supervised learning. In this paper, we present HVC, a \textbf{h}ybrid static-dynamic \textbf{v}isual \textbf{c}orrespondence framework for self-supervised VOS. HVC extracts pseudo-dynamic signals from static images, enabling an efficient and scalable VOS model. Our approach utilizes a minimalist fully-convolutional architecture to capture static-dynamic visual correspondence in image-cropped views. To achieve this objective, we present a unified self-supervised approach to learn visual representations of static-dynamic feature similarity. Firstly, we establish static correspondence by utilizing a priori coordinate information between cropped views to guide the formation of consistent static feature representations. Subsequently, we devise a concise convolutional layer to capture the forward / backward pseudo-dynamic signals between two views, serving as cues for dynamic representations. Finally, we propose a hybrid visual correspondence loss to learn joint static and dynamic consistency representations. Our approach, without bells and whistles, necessitates only one training session using static image data, significantly reducing memory consumption ($\sim$16GB) and training time ($\sim$\textbf{2h}). Moreover, HVC achieves state-of-the-art performance in several self-supervised VOS benchmarks and additional video label propagation tasks.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# パラメータ効率の良い微調整:アプリケーション全体にわたる包括的解析

Parameter Efficient Fine Tuning: A Comprehensive Analysis Across Applications ( http://arxiv.org/abs/2404.13506v1 )

ライセンス: Link先を確認
Charith Chandra Sai Balne, Sreyoshi Bhaduri, Tamoghna Roy, Vinija Jain, Aman Chadha, (参考訳) ディープラーニングの台頭は、コンピュータビジョン、自然言語処理、医療画像などの分野において、主に特定のタスクに対する事前訓練されたモデルの適応を通じて顕著な進歩を遂げている。 すべてのパラメータの調整を含む従来の微調整手法は、高い計算量とメモリ要求のために課題に直面している。 これによりパラメータ効率と性能のバランスをとるためにパラメータを選択的に更新するPEFT技術が開発された。 本稿では,PEFTのアプローチについて検討し,テキスト生成,医用画像,タンパク質モデリング,音声合成など,さまざまな分野の応用に焦点を当てたさまざまな戦略を詳細に比較する。 計算負荷の低減,トレーニングの高速化,メモリ使用量の削減などにおけるPEFT手法の有効性を評価することにより,ディープラーニングをよりアクセシブルかつ適応的にし,より広範な応用を促進し,モデル最適化の革新を促進することに貢献した。 究極的には、PEFTの進化する景観に対する洞察に寄与し、従来の微調整アプローチの限界を克服する研究者や実践者を導くことを目的としている。

The rise of deep learning has marked significant progress in fields such as computer vision, natural language processing, and medical imaging, primarily through the adaptation of pre-trained models for specific tasks. Traditional fine-tuning methods, involving adjustments to all parameters, face challenges due to high computational and memory demands. This has led to the development of Parameter Efficient Fine-Tuning (PEFT) techniques, which selectively update parameters to balance computational efficiency with performance. This review examines PEFT approaches, offering a detailed comparison of various strategies highlighting applications across different domains, including text generation, medical imaging, protein modeling, and speech synthesis. By assessing the effectiveness of PEFT methods in reducing computational load, speeding up training, and lowering memory usage, this paper contributes to making deep learning more accessible and adaptable, facilitating its wider application and encouraging innovation in model optimization. Ultimately, the paper aims to contribute towards insights into PEFT's evolving landscape, guiding researchers and practitioners in overcoming the limitations of conventional fine-tuning approaches.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# MFHCA:多空間融合と階層的協調注意による音声感情認識の強化

MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention ( http://arxiv.org/abs/2404.13509v1 )

ライセンス: Link先を確認
Xinxin Jiao, Liejun Wang, Yinfeng Yu, (参考訳) 音声による感情認識は、人間とコンピュータの相互作用において重要であるが、音声から感情的な手がかりを抽出し、使用することは課題を提起する。 本稿では,マルチ空間融合と階層的協調注意を用いた音声認識手法であるMFHCAを紹介する。 我々はMF(Multi-Spatial Fusion Module)を用いて感情関連スペクトログラム領域を効率よく同定し、ハイレベル音響情報にヒューバート特徴を統合する。 また,HCA(Hierarchical Cooperative Attention Module)を組み,様々な聴覚レベルから特徴をマージする。 提案手法をIEMOCAPデータセット上で評価し,重み付き精度と非重み付き精度をそれぞれ2.6\%,1.87\%改善した。 大規模実験により提案手法の有効性が示された。

Speech emotion recognition is crucial in human-computer interaction, but extracting and using emotional cues from audio poses challenges. This paper introduces MFHCA, a novel method for Speech Emotion Recognition using Multi-Spatial Fusion and Hierarchical Cooperative Attention on spectrograms and raw audio. We employ the Multi-Spatial Fusion module (MF) to efficiently identify emotion-related spectrogram regions and integrate Hubert features for higher-level acoustic information. Our approach also includes a Hierarchical Cooperative Attention module (HCA) to merge features from various auditory levels. We evaluate our method on the IEMOCAP dataset and achieve 2.6\% and 1.87\% improvements on the weighted accuracy and unweighted accuracy, respectively. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# FedTrans: モデル変換による不均一なクライアントに対する効果的なフェデレーション学習

FedTrans: Efficient Federated Learning Over Heterogeneous Clients via Model Transformation ( http://arxiv.org/abs/2404.13515v1 )

ライセンス: Link先を確認
Yuxuan Zhu, Jiachen Liu, Mosharaf Chowdhury, Fan Lai, (参考訳) Federated Learning(FL)は、マシンラーニング(ML)モデルを、潜在的に数百万のエッジクライアントデバイスにわたってトレーニングすることを目的としている。 しかし、FLクライアントのモデルのトレーニングとカスタマイズは、クライアントデータの不均一性、デバイス機能、および大規模なクライアントの規模のために、非常に難しいことで知られています。 最先端のFLソリューションは、グローバルに訓練されたモデルをパーソナライズしたり、複数のモデルを同時に訓練する。 本稿では,FedTransについて紹介する。FedTransは,大規模クライアントに対して,高精度でハードウェア互換のモデルを自動生成し,訓練するマルチモデルFLトレーニングフレームワークである。 FedTransは、基本的なグローバルモデルから始まり、トレーニング中のモデルアーキテクチャの精度ボトルネックを特定し、それからモデル変換を使用して、不均一なクライアントのための新しいモデルを即座に導き出す。 トレーニングコストを最小化するために、マルチモデルの更新でソフトアグリゲーションを実行しながら、個々のクライアントにモデルを不正に割り当てる。 現実的な設定を用いた評価では、FedTransは、最先端ソリューションよりもトレーニングコストを1.6倍から20倍に削減しながら、個々のクライアントモデルの精度を14%から72%向上させています。

Federated learning (FL) aims to train machine learning (ML) models across potentially millions of edge client devices. Yet, training and customizing models for FL clients is notoriously challenging due to the heterogeneity of client data, device capabilities, and the massive scale of clients, making individualized model exploration prohibitively expensive. State-of-the-art FL solutions personalize a globally trained model or concurrently train multiple models, but they often incur suboptimal model accuracy and huge training costs. In this paper, we introduce FedTrans, a multi-model FL training framework that automatically produces and trains high-accuracy, hardware-compatible models for individual clients at scale. FedTrans begins with a basic global model, identifies accuracy bottlenecks in model architectures during training, and then employs model transformation to derive new models for heterogeneous clients on the fly. It judiciously assigns models to individual clients while performing soft aggregation on multi-model updates to minimize total training costs. Our evaluations using realistic settings show that FedTrans improves individual client model accuracy by 14% - 72% while slashing training costs by 1.6X - 20X over state-of-the-art solutions.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 信頼性のあるモデル透かし:侵入を妥協せずに盗難に対処する

Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion ( http://arxiv.org/abs/2404.13518v1 )

ライセンス: Link先を確認
Hongyu Zhu, Sichu Liang, Wentao Hu, Fangqi Li, Ju Jia, Shilin Wang, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームが台頭するにつれ、ディープラーニングモデルの知的特性の保護が最重要視されている。 様々な保護策の中で、無許可のモデル分布を防止するための柔軟で効果的な戦略として、トリガーセットの透かしが出現している。 しかし,本論文では,現在のトリガーセットウォーターマーキングのパラダイムに固有の欠陥を指摘した。 回避敵は,メインタスク分布から逸脱したウォーターマークサンプルを記憶するモデルにより生成したショートカットを容易に利用でき,敵の設定における一般化を著しく損なう。 これに対応するために、拡散モデルを活用して、制約のない逆例をトリガーセットとして合成する。 モデルを学習して正確な認識を行うことにより、ユニークな透かしの振る舞いは、エラー記憶よりも知識注入によって促進され、悪用可能なショートカットを避けることができる。 さらに, 除去攻撃に対する現在のトリガーセット・ウォーターマーキングの抵抗は, 埋没時の決定境界を著しく損なうこと, 有害な影響を伴って非除去性を損なうことに大きく依存していることが判明した。 保護されたモデルの知識伝達特性を最適化することにより,積極的な決定境界摂動を伴わずにサロゲートの抽出に透かしの挙動を伝達する。 CIFAR-10/100 と Imagenette のデータセットを用いた実験結果から,本手法の有効性が示された。

With the rise of Machine Learning as a Service (MLaaS) platforms,safeguarding the intellectual property of deep learning models is becoming paramount. Among various protective measures, trigger set watermarking has emerged as a flexible and effective strategy for preventing unauthorized model distribution. However, this paper identifies an inherent flaw in the current paradigm of trigger set watermarking: evasion adversaries can readily exploit the shortcuts created by models memorizing watermark samples that deviate from the main task distribution, significantly impairing their generalization in adversarial settings. To counteract this, we leverage diffusion models to synthesize unrestricted adversarial examples as trigger sets. By learning the model to accurately recognize them, unique watermark behaviors are promoted through knowledge injection rather than error memorization, thus avoiding exploitable shortcuts. Furthermore, we uncover that the resistance of current trigger set watermarking against removal attacks primarily relies on significantly damaging the decision boundaries during embedding, intertwining unremovability with adverse impacts. By optimizing the knowledge transfer properties of protected models, our approach conveys watermark behaviors to extraction surrogates without aggressively decision boundary perturbation. Experimental results on CIFAR-10/100 and Imagenette datasets demonstrate the effectiveness of our method, showing not only improved robustness against evasion adversaries but also superior resistance to watermark removal attacks compared to state-of-the-art solutions.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# Graph4GUI: グラフィカルユーザインタフェースを表現するグラフニューラルネットワーク

Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces ( http://arxiv.org/abs/2404.13521v1 )

ライセンス: Link先を確認
Yue Jiang, Changkong Zhou, Vikas Garg, Antti Oulasvirta, (参考訳) 現在のGUIは、テキスト、グラフィック、ボタンやメニューなどのインタラクティブな要素を多種多様な配置で表現しているが、GUIの表現は維持されていない。 彼らは要素間の意味的関係と空間的関係の両方をカプセル化しない。 機械学習によるGUIの可能性をより効率的に把握するために、Graph4GUIはグラフニューラルネットワークを利用して、個々の要素のプロパティとそれらのセマンティック視覚空間的制約をレイアウトでキャプチャする。 学習された表現は、その効果を複数のタスクで示し、特に、部分的に完成したGUIで残されている未配置要素の位置を予測する挑戦的なGUIオートコンプリートタスクで設計を生成する。 新しいモデルの提案は、基準法よりもアライメントと視覚的魅力を示し、嗜好に対して高い主観的評価を受けた。 さらに,自動補完プラグインとしてモデルを利用する場合,設計者が認識する実用的メリットと効率性について述べる。

Present-day graphical user interfaces (GUIs) exhibit diverse arrangements of text, graphics, and interactive elements such as buttons and menus, but representations of GUIs have not kept up. They do not encapsulate both semantic and visuo-spatial relationships among elements. To seize machine learning's potential for GUIs more efficiently, Graph4GUI exploits graph neural networks to capture individual elements' properties and their semantic-visuo-spatial constraints in a layout. The learned representation demonstrated its effectiveness in multiple tasks, especially generating designs in a challenging GUI autocompletion task, which involved predicting the positions of remaining unplaced elements in a partially completed GUI. The new model's suggestions showed alignment and visual appeal superior to the baseline method and received higher subjective ratings for preference. Furthermore, we demonstrate the practical benefits and efficiency advantages designers perceive when utilizing our model as an autocompletion plug-in.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# シェープ値に基づくモデル記述の誤り解析--インフォーマティブ・パースペクティブ

Error Analysis of Shapley Value-Based Model Explanations: An Informative Perspective ( http://arxiv.org/abs/2404.13522v1 )

ライセンス: Link先を確認
Ningsheng Zhao, Jia Yuan Yu, Krzysztof Dzieciolowski, Trang Bui, (参考訳) シェープ値属性は、モデルの出力に対する各機能の貢献を定量化する、説明可能なAI(XAI)メソッドとして、ますます人気が高まっている。 しかし、近年の研究では、Shapley値属性を実装する既存の方法にいくつか欠点があることが示されている。 これらの欠点により、結果のShapley値の属性はバイアスあるいは信頼できない説明を与え、特徴とモデル出力の間の真の本質的な関係を正しく捉えることができない。 さらに、機能とモデル出力の真の基盤となる依存関係が通常不明であるため、これらの説明エラーを評価することは困難である。 本稿では,説明誤差を観察バイアスと構造バイアスの2つの成分に分解することで,シェープ値属性の説明誤差を理論的に解析する。 また、これらの2つのバイアスの根本原因を明らかにし、それらの間にトレードオフがあることを示します。 この誤り解析の枠組みに基づいて,過度な表現的・過度な表現的説明という2つの新しい概念を考案する。 既存のShapley値の帰属法における過剰なインフォーマル性と過大なインフォーマル性について理論的に分析する。 特に、広く展開されている仮定に基づくShapley値の属性について、分布仮定による分布のドリフトにより、容易に不定形であることが確認できる。 また,そのような誤差の原因となる分布のドリフトを定量化するための測定ツールを提案する。

Shapley value attribution is an increasingly popular explainable AI (XAI) method, which quantifies the contribution of each feature to the model's output. However, recent work has shown that most existing methods to implement Shapley value attributions have some drawbacks. Due to these drawbacks, the resulting Shapley value attributions may provide biased or unreliable explanations, which fail to correctly capture the true intrinsic relationships between features and model outputs. Moreover, it is difficult to evaluate these explanation errors because the true underlying dependencies between features and model outputs are typically unknown. In this paper, we theoretically analyze the explanation errors of Shapley value attributions by decomposing the explanation error into two components: observation bias and structural bias. We also clarify the underlying causes of these two biases and demonstrate that there is a trade-off between them. Based on this error analysis framework, we develop two novel concepts: over-informative and under-informative explanations. We theoretically analyze the potential over-informativeness and under-informativeness of existing Shapley value attribution methods. Particularly for the widely deployed assumption-based Shapley value attributions, we affirm that they can easily be under-informative due to the distribution drift caused by distributional assumptions. We also propose a measurement tool to quantify the distribution drift that causes such errors.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# 多体系におけるブロックコヒーレンスと多部絡み合いの相互変換

Interconversion between block coherence and multipartite entanglement in many-body systems ( http://arxiv.org/abs/2404.13526v1 )

ライセンス: Link先を確認
Yu-Hui Wang, Li-Hang Ren, Ming-Liang Hu, Yan-Kui Bai, (参考訳) コヒーレンスは本質的に射影測定に関係している。 固定射影測度が高階射影子を含むとき、コヒーレンス資源は直交部分空間の重ね合わせに由来するブロックコヒーレンスと呼ばれる。 ここでは,ブロック・インコヒーレント演算の枠組みの下で,ブロック・コヒーレンスとマルチパーティ・エンタングルメントの相互変換の定量的な関係を確立する。 変換されたマルチパーティの絡み合いは、単一パーティシステムの初期ブロックコヒーレンスによって上限づけられていることがわかった。 さらに、生成したマルチパーティ・エンタングルメントをサブシステムに転送し、局所的なブロック・インコヒーレント操作と古典的な通信により、初期シングルパーティシステムのコヒーレンスをブロックするように復元する。 さらに、粗粒の量子演算のみを補助サブシステムにアクセスできる場合、損失のないリソースの相互変換がまだ実現可能であることを示す。 この結果は、様々な量子資源を循環的に利用するための汎用的なアプローチを提供する。

Coherence is intrinsically related to projective measurement. When the fixed projective measurement involves higher-rank projectors, the coherence resource is referred to as block coherence, which comes from the superposition of orthogonal subspaces. Here, we establish a set of quantitative relations for the interconversion between block coherence and multipartite entanglement under the framework of the block-incoherent operations. It is found that the converted multipartite entanglement is upper bounded by the initial block coherence of single-party system. Moreover, the generated multipartite entanglement can be transferred to its subsystems and restored to block coherence of the initial single-party system by means of local block-incoherent operations and classical communication. In addition, when only the coarse-grained quantum operations are accessible for the ancillary subsystems, we further demonstrate that a lossless resource interconversion is still realizable. Our results provide a versatile approach to utilize different quantum resources in a cyclic fashion.
翻訳日:2024-04-23 18:40:56 公開日:2024-04-21
# SmartMem: モバイル上での効率的なDNN実行のためのレイアウト変換の排除と適応

SmartMem: Layout Transformation Elimination and Adaptation for Efficient DNN Execution on Mobile ( http://arxiv.org/abs/2404.13528v1 )

ライセンス: Link先を確認
Wei Niu, Md Musfiqur Rahman Sanim, Zhihao Shu, Jiexiong Guan, Xipeng Shen, Miao Yin, Gagan Agrawal, Bin Ren, (参考訳) この作業は、Deep Neural Networks、特にChatGPTのような基盤となるアプリケーションのトランスフォーマーアーキテクチャの最近の発展と、モバイルデバイスで推論を実行する必要性によって動機付けられている。 計算効率のよいSwin型アーキテクチャと,トランスフォーマに基づく大規模モデル(例えば,安定拡散とLCM)に着目し,計算演算子間のレイアウト変換が,これらのアプリケーションにおいて顕著な速度低下を引き起こすことを観察した。 本稿では,ほとんどのレイアウト変換を包括的に排除するフレームワークであるSmartMemについて,レイアウトと操作の実装を慎重に選択することで,複数の演算子が同じテンソルレイアウトを使用できるという考えを述べる。 提案手法は,演算子を4つの群に分類し,演算子間の生産者・消費者の縁の組み合わせを考慮したものである。 このようなレイアウトを探索するための一連の手法を開発した。 私たちの研究のもうひとつのコンポーネントは、モバイルデバイスで一般的に見られる2.5次元メモリのための効率的なメモリレイアウトを開発することです。 実験の結果,SmartMemはCNNやTransformerなどのローカルおよびグローバルな関心事,LLMといった18種類のニューラルネットワークを含む,モバイルデバイス上での5つの最先端DNN実行フレームワークよりも優れていた。 特にDNNFusionと比較して、SmartMemは平均速度2.8$\times$を達成し、平均速度6.9$\times$と7.9$\times$でTVMとMNNを上回っている。

This work is motivated by recent developments in Deep Neural Networks, particularly the Transformer architectures underlying applications such as ChatGPT, and the need for performing inference on mobile devices. Focusing on emerging transformers (specifically the ones with computationally efficient Swin-like architectures) and large models (e.g., Stable Diffusion and LLMs) based on transformers, we observe that layout transformations between the computational operators cause a significant slowdown in these applications. This paper presents SmartMem, a comprehensive framework for eliminating most layout transformations, with the idea that multiple operators can use the same tensor layout through careful choice of layout and implementation of operations. Our approach is based on classifying the operators into four groups, and considering combinations of producer-consumer edges between the operators. We develop a set of methods for searching such layouts. Another component of our work is developing efficient memory layouts for 2.5 dimensional memory commonly seen in mobile devices. Our experimental results show that SmartMem outperforms 5 state-of-the-art DNN execution frameworks on mobile devices across 18 varied neural networks, including CNNs, Transformers with both local and global attention, as well as LLMs. In particular, compared to DNNFusion, SmartMem achieves an average speedup of 2.8$\times$, and outperforms TVM and MNN with speedups of 6.9$\times$ and 7.9$\times$, respectively, on average.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# ビデオのアライメントとスピーカーのアライメント

Listen Then See: Video Alignment with Speaker Attention ( http://arxiv.org/abs/2404.13530v1 )

ライセンス: Link先を確認
Aviral Agrawal, Carlos Mateo Samudio Lezcano, Iqui Balam Heredia-Marin, Prabhdeep Singh Sethi, (参考訳) ビデオベースの質問回答(ビデオQA)は難しい課題であり、SIQA(Socially Intelligent Question Answering)に対処する際にさらに複雑になる。 SIQAは、文脈理解、時間的推論、マルチモーダル情報の統合を必要とするが、同時に、人間の振る舞いの処理も必要である。 さらに、関連する複雑さは、他のものよりも第一のモダリティ(テキスト)が支配されることによって悪化する。 したがって、タスクの二次モダリティが一次モダリティと直交するのを助ける必要がある。 本研究では,SIQA 用 Social IQ 2.0 データセット上で,最先端結果 (82.06 % の精度) を実現するクロスモーダルアライメントとその後の表現融合手法を提案する。 提案手法は,音声モダリティを言語モダリティのブリッジとして用いることで,映像モダリティの活用能力の向上を示す。 これにより、言語オーバーフィットの問題と、既存の技術に遭遇したビデオモダリティの回避により、性能が向上する。 私たちのコードとモデルはhttps://github.com/sts-vlcc/sts-vlccで公開されています。

Video-based Question Answering (Video QA) is a challenging task and becomes even more intricate when addressing Socially Intelligent Question Answering (SIQA). SIQA requires context understanding, temporal reasoning, and the integration of multimodal information, but in addition, it requires processing nuanced human behavior. Furthermore, the complexities involved are exacerbated by the dominance of the primary modality (text) over the others. Thus, there is a need to help the task's secondary modalities to work in tandem with the primary modality. In this work, we introduce a cross-modal alignment and subsequent representation fusion approach that achieves state-of-the-art results (82.06\% accuracy) on the Social IQ 2.0 dataset for SIQA. Our approach exhibits an improved ability to leverage the video modality by using the audio modality as a bridge with the language modality. This leads to enhanced performance by reducing the prevalent issue of language overfitting and resultant video modality bypassing encountered by current existing techniques. Our code and models are publicly available at https://github.com/sts-vlcc/sts-vlcc
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 動画フレーム補間のための動き認識潜時拡散モデル

Motion-aware Latent Diffusion Models for Video Frame Interpolation ( http://arxiv.org/abs/2404.13534v1 )

ライセンス: Link先を確認
Zhilin Huang, Yijie Yu, Ling Yang, Chujun Qin, Bing Zheng, Xiawu Zheng, Zikun Zhou, Yaowei Wang, Wenming Yang, (参考訳) AIGCの進歩に伴い、ビデオフレーム補間(VFI)は既存のビデオ生成フレームワークにおいて重要な要素となり、幅広い研究の関心を集めている。 VFIタスクでは、隣接するフレーム間の動き推定が、動きのあいまいさを避ける上で重要な役割を果たす。 しかし、既存のVFI手法は連続するフレーム間の動き情報を正確に予測するのに常に苦労しており、この不正確な推定は曖昧で視覚的に不整合なフレームに繋がる。 本稿では,VFIタスクに特化して設計された新しい拡散フレームワークである動き認識潜在拡散モデル(MADiff)を提案する。 拡散サンプリング手順を通じて予測される目標補間フレームと条件付き隣接フレーム間の動作先を組み込むことで、MADiffは中間結果を徐々に洗練し、視覚的に滑らかでリアルな結果の両方を生成する。 特に複雑な動きを伴う動的テクスチャを含む難解なシナリオにおいて,提案手法が既存手法よりも優れた性能を発揮することを示す。

With the advancement of AIGC, video frame interpolation (VFI) has become a crucial component in existing video generation frameworks, attracting widespread research interest. For the VFI task, the motion estimation between neighboring frames plays a crucial role in avoiding motion ambiguity. However, existing VFI methods always struggle to accurately predict the motion information between consecutive frames, and this imprecise estimation leads to blurred and visually incoherent interpolated frames. In this paper, we propose a novel diffusion framework, motion-aware latent diffusion models (MADiff), which is specifically designed for the VFI task. By incorporating motion priors between the conditional neighboring frames with the target interpolated frame predicted throughout the diffusion sampling procedure, MADiff progressively refines the intermediate outcomes, culminating in generating both visually smooth and realistic results. Extensive experiments conducted on benchmark datasets demonstrate that our method achieves state-of-the-art performance significantly outperforming existing approaches, especially under challenging scenarios involving dynamic textures with complex motion.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# DesTest: ブロックチェーンOracleのデータ正確性を改善するための分散テストアーキテクチャ

DesTest: A Decentralised Testing Architecture for Improving Data Accuracy of Blockchain Oracle ( http://arxiv.org/abs/2404.13535v1 )

ライセンス: Link先を確認
Xueying Zeng, Youquan Xian, Chunpei Li, Zhengdong Hu, Peng Liu, (参考訳) ブロックチェーン技術は、チェーン上の複数の参加者間のセキュアで信頼性の高いデータフローを保証する。 ブロックチェーンシステムがオフチェーンデータにアクセスできないという問題を解決するために、Oracleが導入される。 しかし、既存の研究は主にデータの一貫性と整合性に焦点が当てられているが、オラクルノードが外部から攻撃されたり、利己的なモチベーションのために偽のデータを提供したりするという問題を無視しているため、未解決のデータ精度の問題が発生する。 本稿では,データ精度の向上を目的とした分散テストアーキテクチャ(DesTest)を提案する。 動的匿名化質問検証委員会を導入することにより、ノードの監視と検証を強化するために、ブロックチェーンオラクルランダムシークレットテストメカニズムが最初に提案されている。 これに基づいて、評価スコアに基づいてノードを評価することによって、誠実な作業性能をインセンティブ化するための総合的な評価インセンティブ機構を設計する。 シミュレーションの結果,得られたデータの離散エントロピー値と実値の61.4%削減に成功した。

Blockchain technology ensures secure and trustworthy data flow between multiple participants on the chain, but interoperability of on-chain and off-chain data has always been a difficult problem that needs to be solved. To solve the problem that blockchain systems cannot access off-chain data, oracle is introduced. however, existing research mainly focuses on the consistency and integrity of data, but ignores the problem that oracle nodes may be externally attacked or provide false data for selfish motives, resulting in the unresolved problem of data accuracy. In this paper, we introduce a new decentralized testing architecture (DesTest) that aims to improve data accuracy. A blockchain oracle random secret testing mechanism is first proposed to enhance the monitoring and verification of nodes by introducing a dynamic anonymized question-verification committee. Based on this, a comprehensive evaluation incentive mechanism is designed to incentivize honest work performance by evaluating nodes based on their reputation scores. The simulation results show that we successfully reduced the discrete entropy value of the acquired data and the real value of the data by 61.4%.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 高周波分解によるブラケット画像の復元と改善

Bracketing Image Restoration and Enhancement with High-Low Frequency Decomposition ( http://arxiv.org/abs/2404.13537v1 )

ライセンス: Link先を確認
Genggeng Chen, Kexin Dai, Kangzhen Yang, Tao Hu, Xiangyu Chen, Yongqing Yang, Wei Dong, Peng Wu, Yanning Zhang, Qingsen Yan, (参考訳) 現実のシナリオでは、一連の画像劣化のため、高品質で透明なコンテンツ写真を得るのは難しい。 高品質な画像の合成には大きな進歩があったが、以前の画像復元と改善の方法は、しばしば異なる劣化の特性を見落としていた。 彼らは、様々な種類の劣化に対処するために、同じ構造を適用した。 高周波数情報が異なる劣化に適用できるという考えから着想を得て,高周波数分解に基づくブラケット画像復元・改善手法HLNetを導入する。 具体的には,共有重み加群と非共有重み加群という,特徴抽出に2つの加群を用いる。 共有重みモジュールでは、SCConvを用いて、異なる劣化から共通特徴を抽出する。 非共有重みモジュールでは、高速周波数分解ブロック(HLFDB)を導入し、低周波情報を処理し、異なる劣化により効果的に対処できるようにする。 本手法は他のネットワークと比較して,劣化特性を考慮し,高品質な画像復元を実現する。

In real-world scenarios, due to a series of image degradations, obtaining high-quality, clear content photos is challenging. While significant progress has been made in synthesizing high-quality images, previous methods for image restoration and enhancement often overlooked the characteristics of different degradations. They applied the same structure to address various types of degradation, resulting in less-than-ideal restoration outcomes. Inspired by the notion that high/low frequency information is applicable to different degradations, we introduce HLNet, a Bracketing Image Restoration and Enhancement method based on high-low frequency decomposition. Specifically, we employ two modules for feature extraction: shared weight modules and non-shared weight modules. In the shared weight modules, we use SCConv to extract common features from different degradations. In the non-shared weight modules, we introduce the High-Low Frequency Decomposition Block (HLFDB), which employs different methods to handle high-low frequency information, enabling the model to address different degradations more effectively. Compared to other networks, our method takes into account the characteristics of different degradations, thus achieving higher-quality image restoration.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# ステレオカメラを用いた一般化可能なノベルビュー合成

Generalizable Novel-View Synthesis using a Stereo Camera ( http://arxiv.org/abs/2404.13541v1 )

ライセンス: Link先を確認
Haechan Lee, Wonjoon Jin, Seung-Hwan Baek, Sunghyun Cho, (参考訳) 本稿では,多視点ステレオカメラ画像を対象とした,最初の一般化可能なビュー合成手法を提案する。 近年のステレオマッチングは正確な幾何予測を証明しているため、高品質な幾何再構成のための新しいビュー合成にステレオマッチングを導入する。 そこで本研究では,ステレオマッチングをNeRFに基づく一般化可能なビュー合成手法に統合する,StereoNeRFと呼ばれる新しいフレームワークを提案する。 StereoNeRFは3つのキーコンポーネントを備えており、立体特徴抽出器、深度誘導平面浮上、立体深度損失という、新しい視点合成におけるステレオマッチングを効果的に活用している。 さらに,ステレオカメラ画像の最初のマルチビューデータセットであるStereoNVSデータセットを提案する。 実験により、StereoNeRFは、一般化可能なビュー合成において、従来のアプローチを超越していることが示された。

In this paper, we propose the first generalizable view synthesis approach that specifically targets multi-view stereo-camera images. Since recent stereo matching has demonstrated accurate geometry prediction, we introduce stereo matching into novel-view synthesis for high-quality geometry reconstruction. To this end, this paper proposes a novel framework, dubbed StereoNeRF, which integrates stereo matching into a NeRF-based generalizable view synthesis approach. StereoNeRF is equipped with three key components to effectively exploit stereo matching in novel-view synthesis: a stereo feature extractor, a depth-guided plane-sweeping, and a stereo depth loss. Moreover, we propose the StereoNVS dataset, the first multi-view dataset of stereo-camera images, encompassing a wide variety of both real and synthetic scenes. Our experimental results demonstrate that StereoNeRF surpasses previous approaches in generalizable view synthesis.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 量子後TLSのパフォーマンス向上 - TLS 1.3におけるML-KEMの高速化と評価

Delving into Post-Quantum TLS Performance: Faster ML-KEM in TLS 1.3 Implementation and Assessment ( http://arxiv.org/abs/2404.13544v1 )

ライセンス: Link先を確認
Jieyu Zheng, Haoliang Zhu, Yifan Dong, Zhenyu Song, Zhenhao Zhang, Yafang Yang, Yunlei Zhao, (参考訳) TLSはネットワーク上のセキュアなデータ伝送に広く利用されている。 しかし、量子コンピュータの出現により、従来の公開鍵暗号に基づくTLSのセキュリティは脅威にさらされている。 量子脅威に対抗するためには、量子後アルゴリズムをTLSに統合することが不可欠である。 PQ-TLSのほとんどの研究は統合と評価に重点を置いているが、PQC実装の最適化によるPQ-TLSの性能向上に対処する研究はほとんどない。 TLSプロトコルでは、ハンドシェイク性能が重要であり、後量子TLS(PQ-TLS)では、後量子鍵カプセル化機構(KEM)の性能がハンドシェイク性能に直接影響を及ぼす。 本研究では,量子後KEMがPQ-TLS性能に与える影響について検討する。 最新のIntelのAdvanced Vector Extensions命令セットAVX-512を用いてML-KEMの性能を改善する方法について検討する。 ML-KEM内の多項式乗算、モジュラーリダクション、その他の計算集約的なモジュールを並列化するために考案された技法のスペクトルを詳述する。 最適化されたML-KEM実装は,最新のAVX2実装と比較して最大1.64倍の高速化を実現している。 さらに,TLSプロトコルにシームレスに統合可能なML-KEMのバッチ鍵生成手法を提案する。 バッチ方式では、鍵生成手順を3.5倍から4.9倍に高速化する。 ML-KEMの最適化されたAVX-512実装をTLS 1.3に統合し、PQモードとハイブリッドモードの両方でハンドシェイク性能を評価する。 その結果,ML-KEM実装の高速化により,両方のモードで1秒あたりのTLS 1.3ハンドシェイク数が増加することがわかった。 さらに,Eurocrypt22とAsiacrypt23で議論されたIND-1-CCA KEMの構成について再検討した。 さらに、ML-KEMに基づいて実装し、優れたパフォーマンスの1つをベンチマークでTLS 1.3に統合する。

TLS is extensively utilized for secure data transmission over networks. However, with the advent of quantum computers, the security of TLS based on traditional public-key cryptography is under threat. To counter quantum threats, it is imperative to integrate post-quantum algorithms into TLS. Most PQ-TLS research focuses on integration and evaluation, but few studies address the improvement of PQ-TLS performance by optimizing PQC implementation. For the TLS protocol, handshake performance is crucial, and for post-quantum TLS (PQ-TLS) the performance of post-quantum key encapsulation mechanisms (KEMs) directly impacts handshake performance. In this work, we explore the impact of post-quantum KEMs on PQ-TLS performance. We explore how to improve ML-KEM performance using the latest Intel's Advanced Vector Extensions instruction set AVX-512. We detail a spectrum of techniques devised to parallelize polynomial multiplication, modular reduction, and other computationally intensive modules within ML-KEM. Our optimized ML-KEM implementation achieves up to 1.64x speedup compared to the latest AVX2 implementation. Furthermore, we introduce a novel batch key generation method for ML-KEM that can seamlessly integrate into the TLS protocols. The batch method accelerates the key generation procedure by 3.5x to 4.9x. We integrate the optimized AVX-512 implementation of ML-KEM into TLS 1.3, and assess handshake performance under both PQ-only and hybrid modes. The assessment demonstrates that our faster ML-KEM implementation results in a higher number of TLS 1.3 handshakes per second under both modes. Additionally, we revisit two IND-1-CCA KEM constructions discussed in Eurocrypt22 and Asiacrypt23. Besides, we implement them based on ML-KEM and integrate the one of better performance into TLS 1.3 with benchmarks.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 2つの遠隔地における単一光子の同時作用

Simultaneous action of a single photon at two remote places ( http://arxiv.org/abs/2404.13545v1 )

ライセンス: Link先を確認
Lida Zhang, (参考訳) アインシュタインの思考実験により、ピンホールの後に回折された1つの量子粒子が、原則として、半球の画像スクリーン上の2つまたは複数の場所で作用を発生させる可能性があるという結論が得られた。 これは、2つの空間的に離れた空洞からなるカスケード量子系において、それぞれ超強結合状態において量子ビットに結合すると考えられている。 2つのキャビティに単一光子パルスが入射すると2つのキュービットが同時に励起され、その分離が光子パルスの空間的長さに匹敵する場合であっても2つの検出事象が生じることが示される。 我々の結果は、量子力学の新たな側面を基本的なレベルで発見するだけでなく、強い結合状態では不可能な散逸チャネルによるリモート絡みの発生のような実践的な応用ももたらしている。

Motivated by Einstein's thought experiment that a single quantum particle diffracted after a pinhole could in principle produce an action in two or several places on a hemispherical imaging screen, here we explore theoretically the possibility to simultaneously detect the action of a single photon at two remote places. This is considered in a cascade quantum system composed of two spatially distant cavities each coupled to a qubit in the ultrastrong coupling regime. We show that a single-photon pulse incident on the two cavities can simultaneously excite the two remote qubits and lead to two subsequent detection events even when the separation between them is comparable to the spatial length of the photon pulse. Our results not only uncover new facets of quantum mechanics at a fundamental level but also have practical applications, such as the generation of remote entanglement through a dissipative channel which is otherwise unattainable in the strong-coupling regime.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# E-QGen:教育講義要約型質問生成システム

E-QGen: Educational Lecture Abstract-based Question Generation System ( http://arxiv.org/abs/2404.13547v1 )

ライセンス: Link先を確認
Mao-Siang Chen, An-Zi Yen, (参考訳) 学術講義と関連する質問・回答セッションにおける教育者の準備過程を最適化するために,講義抽象的な質問生成システムであるE-QGenを提案する。 講義の要約として、E-QGenは潜在的な学生の質問を生成する。 本システムにより提案される質問は,教師が事前に回答を準備する上で促進するだけでなく,必要に応じて追加のリソースを供給できることが期待されている。

To optimize the preparation process for educators in academic lectures and associated question-and-answer sessions, this paper presents E-QGen, a lecture abstract-based question generation system. Given a lecture abstract, E-QGen generates potential student inquiries. The questions suggested by our system are expected to not only facilitate teachers in preparing answers in advance but also enable them to supply additional resources when necessary.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# Pointsoup: 大規模クラウドシーンのための高性能かつ極低デコードレイテンシ学習幾何コーデック

Pointsoup: High-Performance and Extremely Low-Decoding-Latency Learned Geometry Codec for Large-Scale Point Cloud Scenes ( http://arxiv.org/abs/2404.13550v1 )

ライセンス: Link先を確認
Kang You, Kai Liu, Li Yu, Pan Gao, Dandan Ding, (参考訳) 点雲幾何圧縮においてかなりの進歩が達成されているにもかかわらず、大規模なシーンを粗い表面で効果的に圧縮することは依然として課題である。 もうひとつの重要な課題は、現実のアプリケーションにおいて重要な要件である、デコードレイテンシの削減だ。 本稿では,高速かつ極低復号レイテンシを同時に実現した学習に基づく効率的な幾何コーデックであるPointsoupを提案する。 従来のTrisoupコーデックに触発されて、局所曲面を特徴付ける点モデルに基づく戦略が考案された。 具体的には、注意に基づくエンコーダを介して、局所的な窓から皮膚の特徴を埋め込んで、拡張された窓を、並列に量子化された特徴の分布を推定するために、クロススケールの先行として導入する。 復号中、機能は高速に洗練され、続いて折り畳みベースの点生成器がかなり高速で点座標を再構築した。 実験の結果、Pointsoupは、比較的ローエンドなプラットフォーム(例えば、RTX 2080Ti)上のG-PCCv23 Trisoupデコーダよりも90$\sim$160$\times$よりはるかに低いデコード複雑性を持つ複数のベンチマークで、最先端のパフォーマンスを達成することが示された。 さらに、単一のニューラルモデル(2.9MB)で可変レート制御を提供する。

Despite considerable progress being achieved in point cloud geometry compression, there still remains a challenge in effectively compressing large-scale scenes with sparse surfaces. Another key challenge lies in reducing decoding latency, a crucial requirement in real-world application. In this paper, we propose Pointsoup, an efficient learning-based geometry codec that attains high-performance and extremely low-decoding-latency simultaneously. Inspired by conventional Trisoup codec, a point model-based strategy is devised to characterize local surfaces. Specifically, skin features are embedded from local windows via an attention-based encoder, and dilated windows are introduced as cross-scale priors to infer the distribution of quantized features in parallel. During decoding, features undergo fast refinement, followed by a folding-based point generator that reconstructs point coordinates with fairly fast speed. Experiments show that Pointsoup achieves state-of-the-art performance on multiple benchmarks with significantly lower decoding complexity, i.e., up to 90$\sim$160$\times$ faster than the G-PCCv23 Trisoup decoder on a comparatively low-end platform (e.g., one RTX 2080Ti). Furthermore, it offers variable-rate control with a single neural model (2.9MB), which is attractive for industrial practitioners.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 深層学習技術を用いた携帯電話画像に基づくペルシャ米の検出と分類

Cell Phone Image-Based Persian Rice Detection and Classification Using Deep Learning Techniques ( http://arxiv.org/abs/2404.13555v1 )

ライセンス: Link先を確認
Mahmood Saeedi kelishami, Amin Saeidi Kelishami, Sajjad Saeedi Kelishami, (参考訳) 本研究では,画像に基づく深層学習技術を用いて,様々なペルシャ米の分類に革新的アプローチを導入し,食品分類における日常技術の適用を強調した。 ペルシャ米の多様性と食学的意義を認識し, コンボリューショナルニューラルネットワーク(CNN)の機能を活用し, 特に, 異なる品種の正確な識別にResNetモデルを微調整し, 粗大画像中の米粒の精密分画にU-Netアーキテクチャを適用した。 この二重方法論の枠組みは、個別の粒度分類と包括的分析の両方を可能にし、米質評価の2つの重要な側面に対処する。 消費者グレードの携帯電話で撮影された画像を利用すると、個人がこの技術を生かして食料品の買い物や食事の調理を助けるという現実的なシナリオが反映される。 専門家の照明や設備を使わずに、自然条件下で撮影された様々な米種からなるデータセットは、難しいが実用的な分類問題である。 本研究は,食品分類における非専門的イメージの活用と,ResNetやU-Netといった深層学習モデルが日常の物体やテクスチャのニュアンスに適応する可能性を示すものである。 本研究は,日常生活におけるイメージベース深層学習の適用性,特に食品選択における消費者エクスペリエンスと知識の向上に関する知見を提供することによって,この分野に寄与する。 さらに、この手法を他の食品カテゴリーや実用に適用し、高度な計算手法と日常的なタスクのギャップを埋める上で、アクセス可能な技術の役割を強調するための道を開いた。

This study introduces an innovative approach to classifying various types of Persian rice using image-based deep learning techniques, highlighting the practical application of everyday technology in food categorization. Recognizing the diversity of Persian rice and its culinary significance, we leveraged the capabilities of convolutional neural networks (CNNs), specifically by fine-tuning a ResNet model for accurate identification of different rice varieties and employing a U-Net architecture for precise segmentation of rice grains in bulk images. This dual-methodology framework allows for both individual grain classification and comprehensive analysis of bulk rice samples, addressing two crucial aspects of rice quality assessment. Utilizing images captured with consumer-grade cell phones reflects a realistic scenario in which individuals can leverage this technology for assistance with grocery shopping and meal preparation. The dataset, comprising various rice types photographed under natural conditions without professional lighting or equipment, presents a challenging yet practical classification problem. Our findings demonstrate the feasibility of using non-professional images for food classification and the potential of deep learning models, like ResNet and U-Net, to adapt to the nuances of everyday objects and textures. This study contributes to the field by providing insights into the applicability of image-based deep learning in daily life, specifically for enhancing consumer experiences and knowledge in food selection. Furthermore, it opens avenues for extending this approach to other food categories and practical applications, emphasizing the role of accessible technology in bridging the gap between sophisticated computational methods and everyday tasks.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# ChatRetriever: 汎用およびロバストな会話難読検索のための大規模言語モデルへの適応

ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval ( http://arxiv.org/abs/2404.13556v1 )

ライセンス: Link先を確認
Kelong Mao, Chenlong Deng, Haonan Chen, Fengran Mo, Zheng Liu, Tetsuya Sakai, Zhicheng Dou, (参考訳) 会話検索には複雑なマルチターンコンテキストからのユーザの意図を正確に解釈する必要がある。 本稿では,高密度検索のための複雑な会話セッションを頑健に表現するために,大規模言語モデルの強力な一般化能力を継承するChatRetrieverを提案する。 そこで本研究では,高品位な対話型指導調律データに基づくマスク付き指導調律による複雑なセッション理解を高めつつ,LLMをコントラスト学習による検索に適用する,シンプルで効果的な2元学習手法を提案する。 5つの対話型検索ベンチマークの大規模な実験により、ChatRetrieverは既存の対話型高密度検索よりも大幅に優れており、LLMベースの書き換えアプローチと同等の最先端性能を実現している。 さらにChatRetrieverは、多様な会話コンテキストを扱う上で、優れた堅牢性を示している。 本研究は,対話型検索セッションのような複雑な入力による検索にLLMを適用する可能性を強調し,この研究の方向性を推し進めるための効果的なアプローチを提案する。

Conversational search requires accurate interpretation of user intent from complex multi-turn contexts. This paper presents ChatRetriever, which inherits the strong generalization capability of large language models to robustly represent complex conversational sessions for dense retrieval. To achieve this, we propose a simple and effective dual-learning approach that adapts LLM for retrieval via contrastive learning while enhancing the complex session understanding through masked instruction tuning on high-quality conversational instruction tuning data. Extensive experiments on five conversational search benchmarks demonstrate that ChatRetriever substantially outperforms existing conversational dense retrievers, achieving state-of-the-art performance on par with LLM-based rewriting approaches. Furthermore, ChatRetriever exhibits superior robustness in handling diverse conversational contexts. Our work highlights the potential of adapting LLMs for retrieval with complex inputs like conversational search sessions and proposes an effective approach to advance this research direction.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# クオリフフリー推論のためのプレコンディショニングニューラル後部推定法

Preconditioned Neural Posterior Estimation for Likelihood-free Inference ( http://arxiv.org/abs/2404.13557v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Ryan P. Kelly, David J. Warne, Christopher Drovandi, (参考訳) シミュレーションベース推論 (SBI) 法は, 確率関数が抽出可能な場合の後方分布の推定を可能にするが, モデルシミュレーションは実現可能である。 SBIに対する一般的な神経アプローチは、神経後部推定器(NPE)とそのシーケンシャルバージョン(SNPE)である。 これらの手法はベイズ近似計算(ABC)のような統計的SBI手法よりも優れている。 しかし,本論文では,NPE法が低次元問題においても高精度であることは保証されていない。 このような設定では、後部は事前の予測空間上で正確に訓練することはできず、逐次拡張でさえ準最適のままである。 そこで本研究では,ABCの短い動作でパラメータ空間の領域を効果的に排除し,シミュレーションとデータ間の大きな差を生じさせ,後部エミュレータをより正確に訓練できるようにする,プレコンディション付きNPEとそのシーケンシャルバージョン(PSNPE)を提案する。 本稿では,このニューラルネットワークと統計的SBI法の融合が,実腫瘍成長データに適用された複雑なエージェントベースモデルを含む動機づけ例を含む,様々な例で性能を向上することを示す総合的な実証的証拠を示す。

Simulation based inference (SBI) methods enable the estimation of posterior distributions when the likelihood function is intractable, but where model simulation is feasible. Popular neural approaches to SBI are the neural posterior estimator (NPE) and its sequential version (SNPE). These methods can outperform statistical SBI approaches such as approximate Bayesian computation (ABC), particularly for relatively small numbers of model simulations. However, we show in this paper that the NPE methods are not guaranteed to be highly accurate, even on problems with low dimension. In such settings the posterior cannot be accurately trained over the prior predictive space, and even the sequential extension remains sub-optimal. To overcome this, we propose preconditioned NPE (PNPE) and its sequential version (PSNPE), which uses a short run of ABC to effectively eliminate regions of parameter space that produce large discrepancy between simulations and data and allow the posterior emulator to be more accurately trained. We present comprehensive empirical evidence that this melding of neural and statistical SBI methods improves performance over a range of examples, including a motivating example involving a complex agent-based model applied to real tumour growth data.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# LASER: 効率的なテキスト・コンディショニング・イメージ・トゥ・アニメーションのためのチューニング不要なLCM駆動アテンション制御

LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation ( http://arxiv.org/abs/2404.13558v1 )

ライセンス: Link先を確認
Haoyu Zheng, Wenqiao Zhang, Yaoke Wang, Hao Zhou, Jiang Liu, Juncheng Li, Zheqi Lv, Siliang Tang, Yueting Zhuang, (参考訳) テキスト・ツー・イメージ・モデルの革命的進歩は、テキスト条件付き画像編集などの高度なコンテンツ作成のための新しい次元を解放し、テキストガイダンスに基づいて、非常に複雑な視覚概念を伝達する多様な画像の編集を可能にした。 有望であるにもかかわらず、既存の手法ではテクスチャや非剛体的な視覚操作に重点を置いており、スムーズなテキストコンディショニング画像モーフィングの微粒なアニメーションの作成に苦労している。 本稿では,LLM計画,プロンプト・アウェア編集,StablEアニメーションジェネレーション(LASER)の進歩的なプロセスによってカプセル化された,チューニング不要なLCM駆動型アテンション制御フレームワークを提案する。 LASERは、大きめの言語モデル(LLM)を使用して、粗い記述を詳細なプロンプトに洗練し、後続の画像生成のための事前訓練されたテキスト・ツー・イメージモデルを導く。 モデルの空間的特徴と自己認識機構を操作してアニメーションの完全性を維持し、テキストプロンプトから直接シームレスなモーフィングを可能にし、追加の微調整やアノテーションを不要にする。 空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。 本稿では、1つのテキスト入力から高品質なアニメーションを作成するために、LLMとテキスト・ツー・イメージ・モデルを統合する新しいフレームワークを提案する。 また,RAERの有効性と有効性を検証するためのテキストコンディショニング・イメージ・トゥ・アニメーションベンチマークを提案する。 大規模な実験により、LASERはアニメーション生成において印象的で一貫性があり、効率のよい結果をもたらすことが示され、高度なデジタルコンテンツ作成のための強力なツールとして位置づけられている。

Revolutionary advancements in text-to-image models have unlocked new dimensions for sophisticated content creation, e.g., text-conditioned image editing, allowing us to edit the diverse images that convey highly complex visual concepts according to the textual guidance. Despite being promising, existing methods focus on texture- or non-rigid-based visual manipulation, which struggles to produce the fine-grained animation of smooth text-conditioned image morphing without fine-tuning, i.e., due to their highly unstructured latent space. In this paper, we introduce a tuning-free LLM-driven attention control framework, encapsulated by the progressive process of LLM planning, prompt-Aware editing, StablE animation geneRation, abbreviated as LASER. LASER employs a large language model (LLM) to refine coarse descriptions into detailed prompts, guiding pre-trained text-to-image models for subsequent image generation. We manipulate the model's spatial features and self-attention mechanisms to maintain animation integrity and enable seamless morphing directly from text prompts, eliminating the need for additional fine-tuning or annotations. Our meticulous control over spatial features and self-attention ensures structural consistency in the images. This paper presents a novel framework integrating LLMs with text-to-image models to create high-quality animations from a single text input. We also propose a Text-conditioned Image-to-Animation Benchmark to validate the effectiveness and efficacy of LASER. Extensive experiments demonstrate that LASER produces impressive, consistent, and efficient results in animation generation, positioning it as a powerful tool for advanced digital content creation.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 量子学習制御による3dB限界を超える機械的四次スキューズ

Mechanical quadrature squeezing beyond the 3dB limit via quantum learning control ( http://arxiv.org/abs/2404.13563v1 )

ライセンス: Link先を確認
Yu-Hong Liu, Jie-Qiao Liao, (参考訳) メカニカル・クアチュア・スクイーズ状態の調製は、基本量子力学の解明や現代の量子テクノニクスの活用に広く応用されているため、キャビティ・オプティメニクスにおいて重要な意味を持つ。 本稿では, 量子学習制御法を用いて, 最適キャビティフィールド駆動パルスを求めることにより, 典型的なキャビティ・オプティメカカル・システムにおいて, 機械的四次スキューズを生成するための信頼性の高い手法を提案する。 熱雑音を受ける機械共振器の3dB定常状態限界を超える強い4次スクイーズを, 100個の熱フォノンで実現した。 さらに、機械的スクイーズを1つの機械的発振期間内に超高速に作成することができる。 また、生成したメカニカルスクイーズに付随する最適パルス駆動値を求め、メカニカルスクイーズ生成のメカニズムを解析した。 この研究は、量子光学と量子情報科学における最適量子制御の次の応用を動機付けている。

The preparation of mechanical quadrature-squeezed states holds significant importance in cavity optomechanics because the squeezed states have extensive applications in elucidating fundamental quantum mechanics and exploiting modern quantum technonogy. Here, we propose a reliable scheme for generating mechanical quadrature squeezing in a typical cavity optomechanical system via seeking for optimal cavity-field driving pulses using a quantum-learning-control method. We realize strong quadrature squeezing exceeded the 3 dB steady-state limit in the mechanical resonator subjected to thermal noise with one hundred thermal phonons. Furthermore, the mechanical squeezing can be ultrafastly created within one mechanical oscillation period. We also obtain the optimal pulsed drivings associated with the created mechanical squeezings and analyze the mechanism for mechanical squeezing generation. This work will motivate succeeding applications of optimal quantum control in quantum optics and quantum information science.
翻訳日:2024-04-23 18:31:12 公開日:2024-04-21
# 歯科用フッ化物診断のためのランダムマスキング比を有する仮設潜伏変圧器

Masked Latent Transformer with the Random Masking Ratio to Advance the Diagnosis of Dental Fluorosis ( http://arxiv.org/abs/2404.13564v1 )

ライセンス: Link先を確認
Yun Wu, Hao Xu, Maohua Gu, Zhongchuan Jiang, Jun Xu, Youliang Tian, (参考訳) 歯科用フッ化物は長期のフッ化物過剰摂取によって引き起こされる慢性疾患であり、歯のエナメル質の出現に変化をもたらす。 早期の非侵襲的内在性フルオロシスの診断の基礎として重要である。 しかし, 歯科医でさえ, 歯像に基づいて, 歯のフッ素症とその重症度を正確に識別できない可能性がある。 現在, 歯科用フッ化物の診断に深層学習を適用する研究のギャップが残っている。 そこで我々は,この分野での深層学習研究の基礎となる,最初のオープンソース歯科用フッ化物画像データセット(DFID)を構築した。 歯科用フルオロシスの診断を進めるために,ランダムマスキング比 (MLTrMR) を用いたマスク付き潜伏変圧器(英語版)と呼ばれる先駆的な深層学習モデルを提案する。 MLTrMRはVision Transformerをベースとしたマスク潜時モデリング手法を導入し, 歯科用フッ化物病変の特徴の文脈学習を強化する。 MLTrMRは、潜伏埋め込み器、エンコーダ、デコーダで構成され、潜伏埋め込み器を用いて原画像から潜伏トークンを抽出する一方、潜伏変換器(LT)ブロックからなる復号器と復号器は、それぞれマスキングされていないトークンの処理とマスク付きトークンの予測に使用される。 視覚変換器における誘導バイアスの欠如を緩和するために、LTブロックは潜伏トークンを導入し、潜伏病変の特徴の学習能力を高める。 さらに,モデルのパラメータ更新方向を制約する補助損失関数を設計する。 MLTrMRの精度は80.19%、F1は75.79%、DFIDは81.28%である。

Dental fluorosis is a chronic disease caused by long-term overconsumption of fluoride, which leads to changes in the appearance of tooth enamel. It is an important basis for early non-invasive diagnosis of endemic fluorosis. However, even dental professionals may not be able to accurately distinguish dental fluorosis and its severity based on tooth images. Currently, there is still a gap in research on applying deep learning to diagnosing dental fluorosis. Therefore, we construct the first open-source dental fluorosis image dataset (DFID), laying the foundation for deep learning research in this field. To advance the diagnosis of dental fluorosis, we propose a pioneering deep learning model called masked latent transformer with the random masking ratio (MLTrMR). MLTrMR introduces a mask latent modeling scheme based on Vision Transformer to enhance contextual learning of dental fluorosis lesion characteristics. Consisting of a latent embedder, encoder, and decoder, MLTrMR employs the latent embedder to extract latent tokens from the original image, whereas the encoder and decoder comprising the latent transformer (LT) block are used to process unmasked tokens and predict masked tokens, respectively. To mitigate the lack of inductive bias in Vision Transformer, which may result in performance degradation, the LT block introduces latent tokens to enhance the learning capacity of latent lesion features. Furthermore, we design an auxiliary loss function to constrain the parameter update direction of the model. MLTrMR achieves 80.19% accuracy, 75.79% F1, and 81.28% quadratic weighted kappa on DFID, making it state-of-the-art (SOTA).
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 視覚的質問応答における様々な方法の探索

Exploring Diverse Methods in Visual Question Answering ( http://arxiv.org/abs/2404.13565v1 )

ライセンス: Link先を確認
Panfeng Li, Qikai Yang, Xieming Geng, Wenjing Zhou, Zhicheng Ding, Yi Nian, (参考訳) 本研究では,GAN(Generative Adversarial Networks),オートエンコーダ,アテンション機構を用いた視覚質問応答(VQA)の改善手法について検討する。 バランスの取れたVQAデータセットを利用して、3つの異なる戦略を調査する。 第一に、GANベースのアプローチは、イメージと質問入力に条件付き回答の埋め込みを生成することを目的としており、より複雑なタスクに苦労する可能性を示している。 第二に、オートエンコーダに基づく技術は、質問や画像の最適な埋め込みを学習することに集中し、複雑な質問に対するより良い能力のために、GANと同等の結果を得る。 最後に、マルチモーダルコンパクトバイリニアプーリング(MCB)、アドレス言語先行とアテンションモデリングを組み込んだアテンションメカニズムが、複雑性とパフォーマンスのトレードオフとともに実現されている。 本研究は、VQAにおける課題と機会を浮き彫りにして、代替的なGANの定式化や注意機構など、今後の研究の道筋を提案する。

This study explores innovative methods for improving Visual Question Answering (VQA) using Generative Adversarial Networks (GANs), autoencoders, and attention mechanisms. Leveraging a balanced VQA dataset, we investigate three distinct strategies. Firstly, GAN-based approaches aim to generate answer embeddings conditioned on image and question inputs, showing potential but struggling with more complex tasks. Secondly, autoencoder-based techniques focus on learning optimal embeddings for questions and images, achieving comparable results with GAN due to better ability on complex questions. Lastly, attention mechanisms, incorporating Multimodal Compact Bilinear pooling (MCB), address language priors and attention modeling, albeit with a complexity-performance trade-off. This study underscores the challenges and opportunities in VQA and suggests avenues for future research, including alternative GAN formulations and attentional mechanisms.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 隠れニューロン活性化解析におけるラベルデータの価値と記号法について

On the Value of Labeled Data and Symbolic Methods for Hidden Neuron Activation Analysis ( http://arxiv.org/abs/2404.13567v1 )

ライセンス: Link先を確認
Abhilekha Dalal, Rushrukh Rayan, Adrita Barua, Eugene Y. Vasserman, Md Kamruzzaman Sarker, Pascal Hitzler, (参考訳) 正確な解釈は、ディープラーニングシステムがインプットに関連性があることを内部的に検出し、それ以外のディープラーニングシステムのブラックボックスの性質を模倣する、という疑問に答えるのに役立つ。 最先端技術は、隠されたノードの活性化が、場合によっては人間にとって意味のある方法で解釈可能であることを示しているが、隠されたニューロンの活性化の解釈を仮説化し検証できる体系的な自動化手法が過小評価されている。 これは特に、背景知識から説明を引き出すことができるアプローチと、本質的に説明可能な(記号的な)方法に基づくアプローチの両方に当てはまる。 本稿では,モデルに依存しないポストホックな説明可能なAI手法を提案する。 提案手法は,約200万のクラスを背景知識としてウィキペディア由来の概念階層を用いて,OWL推論に基づく概念帰納法を用いて説明生成を行う。 さらに,市販のマルチモーダル・ベースの説明可能な手法についても検討・比較する。 提案手法は,畳み込みニューラルネットワークの高密度層における個々のニューロンへの説明として,意味のあるクラス表現を自動で付加できることが示唆された。 隠れ層における統計的解析と概念アクティベーションの程度による評価により,本手法は先行研究と比較して定量的および定性的な両面において競合的なエッジを提供することを示した。

A major challenge in Explainable AI is in correctly interpreting activations of hidden neurons: accurate interpretations would help answer the question of what a deep learning system internally detects as relevant in the input, demystifying the otherwise black-box nature of deep learning systems. The state of the art indicates that hidden node activations can, in some cases, be interpretable in a way that makes sense to humans, but systematic automated methods that would be able to hypothesize and verify interpretations of hidden neuron activations are underexplored. This is particularly the case for approaches that can both draw explanations from substantial background knowledge, and that are based on inherently explainable (symbolic) methods. In this paper, we introduce a novel model-agnostic post-hoc Explainable AI method demonstrating that it provides meaningful interpretations. Our approach is based on using a Wikipedia-derived concept hierarchy with approximately 2 million classes as background knowledge, and utilizes OWL-reasoning-based Concept Induction for explanation generation. Additionally, we explore and compare the capabilities of off-the-shelf pre-trained multimodal-based explainable methods. Our results indicate that our approach can automatically attach meaningful class expressions as explanations to individual neurons in the dense layer of a Convolutional Neural Network. Evaluation through statistical analysis and degree of concept activation in the hidden layer show that our method provides a competitive edge in both quantitative and qualitative aspects compared to prior work.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 大規模言語モデル(LLM)を用いたグラフの試験時間トレーニング

Test-Time Training on Graphs with Large Language Models (LLMs) ( http://arxiv.org/abs/2404.13571v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Yiqi Wang, Xihong Yang, Siwei Wang, Yu Feng, Yu Shi, Ruicaho Ren, En Zhu, Xinwang Liu, (参考訳) グラフニューラルネットワークはマルチメディアの様々な分野で大きな成功を収めている。 しかし、トレーニングとテストデータ間の分散シフトは、GNNの有効性に疑問を投げかけている。 この課題を軽減するため、テストタイムトレーニング(TTT)が有望なアプローチとして提案されている。 従来のTT手法では、メインタスクのためにテストから情報を取得するために教師なしのトレーニング戦略を必要とする。 テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。 本稿では,LLMによるアノテーションの下で,注意深く選択されたノードセット上でテスト時間適応を行う新しいテスト時間訓練パイプラインLLMTTTを設計する。 具体的には、LLMTTTは、ノードの多様性と代表性だけでなく、事前訓練されたモデルからの予測信号も考慮したハイブリッドなアクティブノード選択戦略を導入する。 LLMからアノテーションが与えられた2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルをカスタマイズするように設計されている。 理論解析により,提案手法の有効性が保証され,LLMTTT が既存の Out-of-Distribution (OOD) 一般化法と比較して大幅な性能向上を達成できることが実証された。

Graph Neural Networks have demonstrated great success in various fields of multimedia. However, the distribution shift between the training and test data challenges the effectiveness of GNNs. To mitigate this challenge, Test-Time Training (TTT) has been proposed as a promising approach. Traditional TTT methods require a demanding unsupervised training strategy to capture the information from test to benefit the main task. Inspired by the great annotation ability of Large Language Models (LLMs) on Text-Attributed Graphs (TAGs), we propose to enhance the test-time training on graphs with LLMs as annotators. In this paper, we design a novel Test-Time Training pipeline, LLMTTT, which conducts the test-time adaptation under the annotations by LLMs on a carefully-selected node set. Specifically, LLMTTT introduces a hybrid active node selection strategy that considers not only node diversity and representativeness, but also prediction signals from the pre-trained model. Given annotations from LLMs, a two-stage training strategy is designed to tailor the test-time model with the limited and noisy labels. A theoretical analysis ensures the validity of our method and extensive experiments demonstrate that the proposed LLMTTT can achieve a significant performance improvement compared to existing Out-of-Distribution (OOD) generalization methods.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# AIGCビデオ品質の探索:ビジュアルハーモニー、ビデオテキスト一貫性、ドメイン分散ギャップに焦点を当てる

Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap ( http://arxiv.org/abs/2404.13573v1 )

ライセンス: Link先を確認
Bowen Qu, Xiaoyu Liang, Shangkun Sun, Wei Gao, (参考訳) テキスト・トゥ・ビデオ・人工知能生成コンテンツ(AIGC)の最近の進歩は目覚ましい。 従来のビデオと比較すると、AIGCビデオの評価には、常識に反する視覚的不整合、コンテンツとテキストのプロンプトの相違、様々な生成モデル間の分配ギャップなど、さまざまな課題がある。 本研究では,これらの課題をターゲットとして,AIGC映像品質の評価を視覚調和,ビデオテキストの整合性,ドメイン分散ギャップの3次元に分類する。 各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。 さらに,本研究では,異なるテキスト・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルに有意な変化が認められた。 ソース生成モデルを予測することで、AIGCビデオの機能をより差別的になり、品質評価のパフォーマンスが向上する。 NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Videoの3位で,その有効性を示した。

The recent advancements in Text-to-Video Artificial Intelligence Generated Content (AIGC) have been remarkable. Compared with traditional videos, the assessment of AIGC videos encounters various challenges: visual inconsistency that defy common sense, discrepancies between content and the textual prompt, and distribution gap between various generative models, etc. Target at these challenges, in this work, we categorize the assessment of AIGC video quality into three dimensions: visual harmony, video-text consistency, and domain distribution gap. For each dimension, we design specific modules to provide a comprehensive quality assessment of AIGC videos. Furthermore, our research identifies significant variations in visual quality, fluidity, and style among videos generated by different text-to-video models. Predicting the source generative model can make the AIGC video features more discriminative, which enhances the quality assessment performance. The proposed method was used in the third-place winner of the NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Video, demonstrating its effectiveness.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# FedMPQ: マルチコード製品量子化によるセキュアでコミュニケーション効率の良いフェデレーションラーニング

FedMPQ: Secure and Communication-Efficient Federated Learning with Multi-codebook Product Quantization ( http://arxiv.org/abs/2404.13575v1 )

ライセンス: Link先を確認
Xu Yang, Jiapeng Zhang, Qifeng Zhang, Zhuo Tang, (参考訳) フェデレートラーニング、特にクロスデバイスシナリオでは、悪意のあるアグリゲータによる推論攻撃を効果的に防御するため、セキュアアグリゲーションが最近人気を集めている。 しかし、セキュアアグリゲーションは通信のオーバーヘッドを増大させ、特に帯域幅が極端に限られている無線ネットワーク環境では特に困難であるグローバルモデルの収束を阻害する可能性がある。 したがって,セキュアアグリゲーションを前提とした効率的な通信圧縮を実現することは,非常に困難で価値のある問題である。 本稿では,複数共有コードブックの量子化に基づくフェデレーション学習のための新しいアップリンク通信圧縮手法であるFedMPQを提案する。 セキュアアグリゲーションは、信頼できる実行環境(TEE)または信頼できるサードパーティ(TTP)を介して達成される。 従来の研究とは対照的に,本手法では,データが独立で同一に分散されていない(非IID)場合や,十分な公開データが不足している場合において,ロバスト性が向上する。 LEAFデータセットを用いて行った実験は,提案手法がベースラインの最終精度の99%を達成し,アップリンク通信を90~95%削減することを示した。

In federated learning, particularly in cross-device scenarios, secure aggregation has recently gained popularity as it effectively defends against inference attacks by malicious aggregators. However, secure aggregation often requires additional communication overhead and can impede the convergence rate of the global model, which is particularly challenging in wireless network environments with extremely limited bandwidth. Therefore, achieving efficient communication compression under the premise of secure aggregation presents a highly challenging and valuable problem. In this work, we propose a novel uplink communication compression method for federated learning, named FedMPQ, which is based on multi shared codebook product quantization.Specifically, we utilize updates from the previous round to generate sufficiently robust codebooks. Secure aggregation is then achieved through trusted execution environments (TEE) or a trusted third party (TTP).In contrast to previous works, our approach exhibits greater robustness in scenarios where data is not independently and identically distributed (non-IID) and there is a lack of sufficient public data. The experiments conducted on the LEAF dataset demonstrate that our proposed method achieves 99% of the baseline's final accuracy, while reducing uplink communications by 90-95%
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# I2CANSAY:非経験的オンラインタスクフリー連続学習のためのクラス間分析とクラス内意義分析

I2CANSAY:Inter-Class Analogical Augmentation and Intra-Class Significance Analysis for Non-Exemplar Online Task-Free Continual Learning ( http://arxiv.org/abs/2404.13576v1 )

ライセンス: Link先を確認
Songlin Dong, Yingjie Chen, Yuhang He, Yuhan Jin, Alex C. Kot, Yihong Gong, (参考訳) オンラインタスクフリー連続学習(OTFCL)は、タスク境界の段階的なシフトを強調し、オンラインモードで学習する、継続学習のより困難なバリエーションである。 既存のメソッドは、忘れるのを防ぐために古いサンプルで構成されたメモリバッファに依存している。 しかし、メモリバッファの使用は、プライバシの懸念を引き起こすだけでなく、新しいサンプルの効率的な学習を妨げる。 この問題に対処するために,メモリバッファへの依存をなくし,ワンショットサンプルから新しいデータの知識を効率的に学習するI2CANSAYという新しいフレームワークを提案する。 具体的には、我々のフレームワークは2つの主要なモジュールから構成される。 第一に、ICAN(Inter-class Analogical Augmentation)モジュールは、異なる新しいクラスの特徴分布のクラス間アナログに基づいて、古いクラスの様々な擬似機能を生成し、メモリバッファの代用として機能する。 第2に、クラス内重要分析(ISAY)モジュールは、分布標準偏差により各クラスに対する属性の重要度を分析し、線形分類器の補正バイアスとして重要度ベクトルを生成し、新しいサンプルから学習する能力を高める。 我々は,CoRe50,CIFAR-10,CIFAR-100,CUB-200の4つの画像分類データセットを用いて実験を行った。

Online task-free continual learning (OTFCL) is a more challenging variant of continual learning which emphasizes the gradual shift of task boundaries and learns in an online mode. Existing methods rely on a memory buffer composed of old samples to prevent forgetting. However,the use of memory buffers not only raises privacy concerns but also hinders the efficient learning of new samples. To address this problem, we propose a novel framework called I2CANSAY that gets rid of the dependence on memory buffers and efficiently learns the knowledge of new data from one-shot samples. Concretely, our framework comprises two main modules. Firstly, the Inter-Class Analogical Augmentation (ICAN) module generates diverse pseudo-features for old classes based on the inter-class analogy of feature distributions for different new classes, serving as a substitute for the memory buffer. Secondly, the Intra-Class Significance Analysis (ISAY) module analyzes the significance of attributes for each class via its distribution standard deviation, and generates the importance vector as a correction bias for the linear classifier, thereby enhancing the capability of learning from new samples. We run our experiments on four popular image classification datasets: CoRe50, CIFAR-10, CIFAR-100, and CUB-200, our approach outperforms the prior state-of-the-art by a large margin.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# LTOS:適応的クロスアテンション融合によるレイアウト制御可能なテキストオブジェクト合成

LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions ( http://arxiv.org/abs/2404.13579v1 )

ライセンス: Link先を確認
Xiaoran Zhao, Tianhao Wu, Yu Lai, Zhiliang Tian, Zhen Huang, Yahui Liu, Zejiang He, Dongsheng Li, (参考訳) 制御可能なテキスト・ツー・イメージ生成は、特定の条件で画像中の視覚テキストやオブジェクトを合成し、絵文字やポスター生成に頻繁に適用される。 ビジュアルテキストレンダリングとレイアウト・ツー・イメージ生成タスクは、制御可能なテキスト・ツー・イメージ生成で人気がある。 しかしながら、これらのタスクは一般的に単一のモダリティ生成やレンダリングに重点を置いており、それぞれのタスク用に設計されているアプローチの間には、まだ橋渡しのギャップが残っている。 本稿では,テキストレンダリングとレイアウト・ツー・イメージ生成タスクをひとつのタスクに統合する。レイアウト制御可能なテキストオブジェクト合成(LTOS)タスク。 LTOSタスクに適合するデータセットは簡単には利用できないため、レイアウト対応のテキストオブジェクト合成データセットを構築し、ビジュアルテキストとオブジェクト情報を精巧に整列したラベルを含む。 本稿では,レイアウト制御可能なテキストオブジェクト適応融合(TOF)フレームワークを提案する。 テキストを合成するビジュアルテキストレンダリングモジュールを構築し、オブジェクトを生成するためにオブジェクトレイアウト制御モジュールを使用し、2つのモジュールを統合してテキストコンテンツと画像内のオブジェクトを調和して生成・統合する。 画像テキスト統合を改善するために,画像生成者が重要なテキスト情報により参加するのに役立つ自己適応型クロスアテンション融合モジュールを提案する。 このような融合モジュール内では、自己適応的学習可能因子を用いて、画像生成における相互注意出力の影響を柔軟に制御する。 実験結果から,本手法はLTOS,テキストレンダリング,レイアウト・トゥ・イメージタスクの最先端性に優れ,高調なビジュアルテキストレンダリングとオブジェクト生成を実現していることがわかった。

Controllable text-to-image generation synthesizes visual text and objects in images with certain conditions, which are frequently applied to emoji and poster generation. Visual text rendering and layout-to-image generation tasks have been popular in controllable text-to-image generation. However, each of these tasks typically focuses on single modality generation or rendering, leaving yet-to-be-bridged gaps between the approaches correspondingly designed for each of the tasks. In this paper, we combine text rendering and layout-to-image generation tasks into a single task: layout-controllable text-object synthesis (LTOS) task, aiming at synthesizing images with object and visual text based on predefined object layout and text contents. As compliant datasets are not readily available for our LTOS task, we construct a layout-aware text-object synthesis dataset, containing elaborate well-aligned labels of visual text and object information. Based on the dataset, we propose a layout-controllable text-object adaptive fusion (TOF) framework, which generates images with clear, legible visual text and plausible objects. We construct a visual-text rendering module to synthesize text and employ an object-layout control module to generate objects while integrating the two modules to harmoniously generate and integrate text content and objects in images. To better the image-text integration, we propose a self-adaptive cross-attention fusion module that helps the image generation to attend more to important text information. Within such a fusion module, we use a self-adaptive learnable factor to learn to flexibly control the influence of cross-attention outputs on image generation. Experimental results show that our method outperforms the state-of-the-art in LTOS, text rendering, and layout-to-image tasks, enabling harmonious visual text rendering and object generation.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 自己整合性、相対論および多粒子系

Self-consistency, relativism and many-particle system ( http://arxiv.org/abs/2404.13580v1 )

ライセンス: Link先を確認
E. E. Perepelkin, B. I. Sadovnikov, N. G. Inozemtseva, P. V. Afonin, (参考訳) 自己整合性、相対論および多粒子系の概念の相互関係は、確率保存則の第一原理に基づく古典物理学と量子物理学の統一的な考察の枠組みの中で考慮される。 確率保存法則は、ヴラソフ方程式連鎖の下にある。 第1のヴラソフ方程式、シュリンガー方程式、ハミルトン・ヤコビ方程式、電磁場における荷電粒子の運動方程式、マクスウェル方程式、パウリ方程式、ディラック方程式が構成される。 この論文は、位相空間における準密度確率の時間独立関数を持つ量子系は、電磁波を放出できないことを数学的厳密さで示している。 マイクロレベルでは、量子オブジェクトは点オブジェクトではなく、むしろ {\guillemotleft}extended{\guillemotright}オブジェクトと見なすことができる。 そして、連続体力学の流体力学的記述はそのような対象に適用できる。 量子力学および古典モデル系の多くの正確な解が検討され、量子力学の表現に関する新たな洞察が示された。

The interrelation between the concepts of self-consistency, relativism and many-particle systems is considered within the framework of a unified consideration of classical and quantum physics based on the first principle of the probability conservation law. The probability conservation law underlies the Vlasov equation chain. From the first Vlasov equation, the Schr\"odinger equation, the Hamilton-Jacobi equation, the equation of motion of a charged particle in an electromagnetic field, the Maxwell equations, the Pauli equation and the Dirac equation are constructed. The paper shows with mathematical rigor that quantum systems with a time independent function of quasi-density probability in phase space are not capable to emit electromagnetic radiation. It is shown that at the micro-level a quantum object may be considered rather as an {\guillemotleft}extended{\guillemotright} object than a point one. And the hydrodynamic description of continuum mechanics is applicable for such an object. A number of exact solutions of quantum and classical model systems is considered, demonstrating a new insight at the quantum mechanics representation.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 変圧器とコントラスト学習による任意形変換の再考

Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning ( http://arxiv.org/abs/2404.13584v1 )

ライセンス: Link先を確認
Zhanjie Zhang, Jiakai Sun, Guangyuan Li, Lei Zhao, Quanwei Zhang, Zehua Lan, Haolin Yin, Wei Xing, Huaizhong Lin, Zhiwen Zuo, (参考訳) 任意スタイルの転送は研究に広く関心を持ち、多くの実用的応用を誇っている。 コンテンツ属性にディープスタイル属性を組み込むためにクロスアテンションを利用する既存手法や、コンテンツ特徴を調整するために適応正規化を使用する既存の手法は、高品質なスタイリング画像の生成に失敗する。 本稿では,スタイリング画像の品質向上のための革新的手法を提案する。 まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。 さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)手法を開発し,結果として得られるスタイリング画像の品質を向上させる。 また,VGGネットワークが分類特徴の抽出に適しており,スタイル特徴のキャプチャに適していることを認識し,スタイル特徴のキャプチャにパーセプションエンコーダ(PE)を導入している。 大規模な実験により,提案手法は高品質なスタイリング画像を生成するとともに,既存の最先端の手法と比較して,アーティファクトを効果的に防止できることを示した。

Arbitrary style transfer holds widespread attention in research and boasts numerous practical applications. The existing methods, which either employ cross-attention to incorporate deep style attributes into content attributes or use adaptive normalization to adjust content features, fail to generate high-quality stylized images. In this paper, we introduce an innovative technique to improve the quality of stylized images. Firstly, we propose Style Consistency Instance Normalization (SCIN), a method to refine the alignment between content and style features. In addition, we have developed an Instance-based Contrastive Learning (ICL) approach designed to understand the relationships among various styles, thereby enhancing the quality of the resulting stylized images. Recognizing that VGG networks are more adept at extracting classification features and need to be better suited for capturing style features, we have also introduced the Perception Encoder (PE) to capture style features. Extensive experiments demonstrate that our proposed method generates high-quality stylized images and effectively prevents artifacts compared with the existing state-of-the-art methods.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# シュロディンガー化によるフォッカー・プランク方程式の量子シミュレーション

Quantum simulation of the Fokker-Planck equation via Schrodingerization ( http://arxiv.org/abs/2404.13585v1 )

ライセンス: Link先を確認
Shi Jin, Nana Liu, Yue Yu, (参考訳) 本稿では,Fokker-Planck方程式を解くための量子シミュレーション手法について述べる。 従来の半離散化法は、基礎となるハミルトン力学の保存に失敗することが多く、特に境界条件を組み込んだ場合、ハミルトン構造を変更することもある。 我々は、シュロディンガー化法(Schrodingerization method)を用いて、非エルミート力学を持つ任意の線型偏微分方程式をシュロディンガー型方程式系に変換する。 この応用をフォッカー・プランク方程式の2つの異なる形式で検討する。 保存形態について、半離散化に基づくシュロディンガー化は特に非周期境界条件を扱う際に好ましいことを示す。 さらに、係数行列や微分作用素の実部において正の固有値を持つ不安定系に対するシュロディンガー化法を解析する。 本分析により,シュロディンガー化の直接的利用は安定化法と同じ効果を有することが明らかとなった。 熱方程式の形式として,時間分割法に基づく量子シミュレーション手法を提案する。 シュロディンガー化法における演算子分割と元の問題への直接適用の関係を考察し、シュロディンガー化法が各ステップにおける時間分割解を正確に再現する方法について述べる。 さらに、シフト演算子を用いた熱方程式形式の有限差分離散化について検討する。 フーリエ基底を用いてシフト演算子を対角化し、周波数空間の効率的なシミュレーションを可能にする。 対角ユニタリ作用素の実装に関する追加のガイダンスを提供することで、ベル基底とフーリエ基底における対角化の比較分析を行い、前者は後者よりも一般に高い効率を示すことを示す。

This paper studies a quantum simulation technique for solving the Fokker-Planck equation. Traditional semi-discretization methods often fail to preserve the underlying Hamiltonian dynamics and may even modify the Hamiltonian structure, particularly when incorporating boundary conditions. We address this challenge by employing the Schrodingerization method-it converts any linear partial and ordinary differential equation with non-Hermitian dynamics into systems of Schrodinger-type equations. We explore the application in two distinct forms of the Fokker-Planck equation. For the conservation form, we show that the semi-discretization-based Schrodingerization is preferable, especially when dealing with non-periodic boundary conditions. Additionally, we analyze the Schrodingerization approach for unstable systems that possess positive eigenvalues in the real part of the coefficient matrix or differential operator. Our analysis reveals that the direct use of Schrodingerization has the same effect as a stabilization procedure. For the heat equation form, we propose a quantum simulation procedure based on the time-splitting technique. We discuss the relationship between operator splitting in the Schrodingerization method and its application directly to the original problem, illustrating how the Schrodingerization method accurately reproduces the time-splitting solutions at each step. Furthermore, we explore finite difference discretizations of the heat equation form using shift operators. Utilizing Fourier bases, we diagonalize the shift operators, enabling efficient simulation in the frequency space. Providing additional guidance on implementing the diagonal unitary operators, we conduct a comparative analysis between diagonalizations in the Bell and the Fourier bases, and show that the former generally exhibits greater efficiency than the latter.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# Null Space Calibrationによる機械学習

Machine Unlearning via Null Space Calibration ( http://arxiv.org/abs/2404.13588v1 )

ライセンス: Link先を確認
Huiqiang Chen, Tianqing Zhu, Xin Yu, Wanlei Zhou, (参考訳) マシンアンラーニングは、削除要求を受けたとき、モデルを特定のデータインスタンスを忘れることを目的としている。 現在の研究は、モデルからデータの影響を排除し、残りのデータへの影響を無視する効率的なアンラーニングに重点を置いている。 その結果、既存のアンラーニングアルゴリズムは、‘textit{over-unlearning}’として知られるアンラーニング後にモデルのパフォーマンスを低下させる。 本稿では, 過度に学習することなく, ターゲットサンプルを正確に学習できるUNSCを用いて, マシン・アンダーライン{U}nラーニングを導入することにより, この問題に対処する。 逆に、アンラーニング中の決定空間を校正することにより、UNSCは残りのサンプルに対するモデルの性能を大幅に向上させることができる。 特に,本手法では,未学習の過程を,未学習のサンプルを戦略的に擬似ラベル付けすることで,残りのサンプルに合わせた特定のヌル空間に収束させることに重点を置いている。 いくつかの確立されたベースラインとの比較分析により,我々のアプローチの優位性が確認された。 コードは、この \href{https://github.com/HQC-ML/Machine-Unlearning-via-Null-Space-Calibration}{URL} でリリースされる。

Machine unlearning aims to enable models to forget specific data instances when receiving deletion requests. Current research centres on efficient unlearning to erase the influence of data from the model and neglects the subsequent impacts on the remaining data. Consequently, existing unlearning algorithms degrade the model's performance after unlearning, known as \textit{over-unlearning}. This paper addresses this critical yet under-explored issue by introducing machine \underline{U}nlearning via \underline{N}ull \underline{S}pace \underline{C}alibration (UNSC), which can accurately unlearn target samples without over-unlearning. On the contrary, by calibrating the decision space during unlearning, UNSC can significantly improve the model's performance on the remaining samples. In particular, our approach hinges on confining the unlearning process to a specified null space tailored to the remaining samples, which is augmented by strategically pseudo-labeling the unlearning samples. Comparative analyses against several established baselines affirm the superiority of our approach. Code is released at this \href{https://github.com/HQC-ML/Machine-Unlearning-via-Null-Space-Calibration}{URL}.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# MARVEL:視覚的評価と学習による多次元抽象化と推論

MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning ( http://arxiv.org/abs/2404.13591v1 )

ライセンス: Link先を確認
Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara, (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、多くの一般的な視覚推論ベンチマークにおいて大きな進歩を示しているが、それらが抽象的な視覚推論能力を持っているかどうかは未解決のままである。 スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は、特定のタスク構成(例えば、行列)において入力形状(例えば、桁)を制御する高レベルパターン(例えば、繰り返し制約)を見つける必要がある。 しかし、既存のAVRベンチマークでは、パターンの限られたセット(付加、結合)、入力形状(矩形、正方形)、タスク構成(3×3行列)しか考慮されていない。 MLLMの推論能力を総合的に評価するため、MARVELは6つのコア知識パターン、幾何学的および抽象的形状、および5つの異なるタスク構成からなる770個のパズルからなる多次元AVRベンチマークである。 モデル精度が知覚と推論の基盤となっているかどうかを調べるため、MARVELは階層的評価フレームワークにおいて、一般的なAVR質問と知覚質問を補完する。 我々は9つの代表MLLMをゼロショットおよび少数ショット設定でMARVEL上で包括的実験を行う。 実験の結果、AVR質問では、すべてのモデルがほぼランダムなパフォーマンスを示しており、すべてのパターンやタスク構成にまたがる人間と比較して、大きなパフォーマンスギャップ(40%)があることがわかった。 知覚的疑問のさらなる分析により、MLLMは視覚的特徴(ほぼランダムなパフォーマンス)を理解するのに苦労し、パズルのパネル(45%)を数えることさえ困難であり、抽象的推論の能力を妨げていることが明らかになった。 コードとデータセット全体をリリースします。

While multi-modal large language models (MLLMs) have shown significant progress on many popular visual reasoning benchmarks, whether they possess abstract visual reasoning abilities remains an open question. Similar to the Sudoku puzzles, abstract visual reasoning (AVR) problems require finding high-level patterns (e.g., repetition constraints) that control the input shapes (e.g., digits) in a specific task configuration (e.g., matrix). However, existing AVR benchmarks only considered a limited set of patterns (addition, conjunction), input shapes (rectangle, square), and task configurations (3 by 3 matrices). To evaluate MLLMs' reasoning abilities comprehensively, we introduce MARVEL, a multidimensional AVR benchmark with 770 puzzles composed of six core knowledge patterns, geometric and abstract shapes, and five different task configurations. To inspect whether the model accuracy is grounded in perception and reasoning, MARVEL complements the general AVR question with perception questions in a hierarchical evaluation framework. We conduct comprehensive experiments on MARVEL with nine representative MLLMs in zero-shot and few-shot settings. Our experiments reveal that all models show near-random performance on the AVR question, with significant performance gaps (40%) compared to humans across all patterns and task configurations. Further analysis of perception questions reveals that MLLMs struggle to comprehend the visual features (near-random performance) and even count the panels in the puzzle ( <45%), hindering their ability for abstract reasoning. We release our entire code and dataset.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 宇宙で失う:視覚と言語リサンプラーにおけるきめ細かい空間的理解

Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers ( http://arxiv.org/abs/2404.13594v1 )

ライセンス: Link先を確認
Georgios Pantazopoulos, Alessandro Suglia, Oliver Lemon, Arash Eshghi, (参考訳) 凍結した大言語モデル(LLM)とビジュアルエンコーダを組み合わせる効果的な方法は、テキストプロンプトとともにLLMに提供される'視覚プロンプト'を生成するリサンプラーモジュールを含む。 このアプローチは、画像キャプションや視覚的質問応答など、多くの粗いタスクにおいて印象的なパフォーマンスを実現しているが、空間的理解を必要とするよりきめ細かなタスクは、十分に検討されていない。 本稿では,リサンプラーが生成する視覚的プロンプトが空間情報をエンコードする範囲を測定するために,textit{diagnostic classifiers} を用いる。 以上の結果から,分類器の訓練中に凍結状態が保たれた場合,この情報は再サンプリング器の出力にはほとんど欠落していることが明らかとなった。 しかし,リサンプラーと分類器が共同で訓練されると,性能が著しく向上することがわかった。 これは、リサンプラーによって達成される圧縮は、原則として所要の空間情報を符号化できることを示しているが、この能力を促進するためには、事前訓練段階でより多くのオブジェクト指向の目的が必要であることを示している。

An effective method for combining frozen large language models (LLM) and visual encoders involves a resampler module that creates a `visual prompt' which is provided to the LLM, along with the textual prompt. While this approach has enabled impressive performance across many coarse-grained tasks like image captioning and visual question answering, more fine-grained tasks that require spatial understanding have not been thoroughly examined. In this paper, we use \textit{diagnostic classifiers} to measure the extent to which the visual prompt produced by the resampler encodes spatial information. Our results show that this information is largely absent from the resampler output when kept frozen during training of the classifiers. However, when the resampler and classifier are trained jointly, we observe a significant performance boost. This shows that the compression achieved by the resamplers can in principle encode the requisite spatial information, but that more object-aware objectives are needed at the pretraining stage to facilitate this capability
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# 「良い言葉は自分自身の言葉である」:大言語モデルは修道女を理解できるか?

"A good pun is its own reword": Can Large Language Models Understand Puns? ( http://arxiv.org/abs/2404.13599v1 )

ライセンス: Link先を確認
Zhijun Xu, Siyu Yuan, Lingjie Chen, Deqing Yang, (参考訳) 修道女は、言語学のユーモアを包括的に分析する上で、その構造と明確な定義から、学術研究において重要な役割を担っている。 しかし、大きな言語モデル(LLM)における句の理解は、創造的な文章やユーモアの創造においての使用を制限する、徹底的に検討されていない。 本稿では,句認識,説明,生成という3つの一般的な課題を活用し,句理解におけるLLMの能力を体系的に評価する。 先行研究から自動評価指標を採用することに加えて,LLMの文脈内学習パラダイムに適合する新しい評価手法と評価指標を導入する。 これらの新しい指標は、従来の指標よりも人間の認知とより緊密に一致し、句を理解するLLMの能力をより厳密に評価する。 以上の結果から,LLMがパント理解に直面する主な課題は,「怠慢なパント生成」パターンであることが明らかとなった。

Puns play a vital role in academic research due to their distinct structure and clear definition, which aid in the comprehensive analysis of linguistic humor. However, the understanding of puns in large language models (LLMs) has not been thoroughly examined, limiting their use in creative writing and humor creation. In this paper, we leverage three popular tasks, i.e., pun recognition, explanation and generation to systematically evaluate the capabilities of LLMs in pun understanding. In addition to adopting the automated evaluation metrics from prior research, we introduce new evaluation methods and metrics that are better suited to the in-context learning paradigm of LLMs. These new metrics offer a more rigorous assessment of an LLM's ability to understand puns and align more closely with human cognition than previous metrics. Our findings reveal the "lazy pun generation" pattern and identify the primary challenges LLMs encounter in understanding puns.
翻訳日:2024-04-23 18:21:27 公開日:2024-04-21
# CKGConv: 継続的カーネルによる一般的なグラフの畳み込み

CKGConv: General Graph Convolution with Continuous Kernels ( http://arxiv.org/abs/2404.13604v1 )

ライセンス: Link先を確認
Liheng Ma, Soumyasundar Pal, Yitian Zhang, Jiaming Zhou, Yingxue Zhang, Mark Coates, (参考訳) 既存のグラフ畳み込みの定義は、空間的あるいはスペクトル的な観点からも、柔軟性がなく、統一されていない。 グラフ領域における一般畳み込み作用素の定義は、標準座標の欠如、不規則構造の存在、およびグラフ対称性の性質により困難である。 本研究では,グラフ位置符号化による擬似座標の連続関数としてカーネルをパラメータ化することで,新しいグラフ畳み込みフレームワークを提案する。 このContinuous Kernel Graph Convolution(CKGConv)と名付けます。 理論的には、CKGConvは柔軟で表現力がある。 CKGConvは多くの既存のグラフ畳み込みを包含し、非同型グラフの区別の観点からグラフ変換器と同じ表現性を示す。 経験的に、CKGConvベースのネットワークは、既存のグラフ畳み込みネットワークより優れており、様々なグラフデータセットで最高のグラフ変換器と互換性があることを示す。

The existing definitions of graph convolution, either from spatial or spectral perspectives, are inflexible and not unified. Defining a general convolution operator in the graph domain is challenging due to the lack of canonical coordinates, the presence of irregular structures, and the properties of graph symmetries. In this work, we propose a novel graph convolution framework by parameterizing the kernels as continuous functions of pseudo-coordinates derived via graph positional encoding. We name this Continuous Kernel Graph Convolution (CKGConv). Theoretically, we demonstrate that CKGConv is flexible and expressive. CKGConv encompasses many existing graph convolutions, and exhibits the same expressiveness as graph transformers in terms of distinguishing non-isomorphic graphs. Empirically, we show that CKGConv-based Networks outperform existing graph convolutional networks and perform comparably to the best graph transformers across a variety of graph datasets.
翻訳日:2024-04-23 18:11:43 公開日:2024-04-21
# Turb-Seg-Res: 大気圧を伴うダイナミックビデオのためのセグメンション・セグ・ストア・パイプライン

Turb-Seg-Res: A Segment-then-Restore Pipeline for Dynamic Videos with Atmospheric Turbulence ( http://arxiv.org/abs/2404.13605v1 )

ライセンス: Link先を確認
Ripon Kumar Saha, Dehao Qin, Nianyi Li, Jinwei Ye, Suren Jayasuriya, (参考訳) 大気の乱流による画像劣化、特に動的環境における処理は、長距離撮像システムにとって依然として課題である。 既存の技法は、主に静かなシーンや小さな動きを持つシーンのために設計されている。 本稿では,乱流環境における動的シーンの映像を復元するための,最初のセグメント列復元パイプラインを提案する。 教師なしモーションセグメンテーション法による平均光学的流れを利用して、復元前の動的および静的なシーン成分を分離する。 カメラの揺らぎ補正とセグメンテーションの後, 高速データセット増強のための新しいノイズベースプロシージャ乱流発生器を訓練した変圧器モデルと, 乱流強度の統計を利用した前景/背景強調を導入する。 既存の復元手法と比較し,幾何学的歪みのほとんどを復元し,映像のシャープネスを高める。 私たちは、乱流からビデオ復元の分野を前進させるために、コード、シミュレータ、データを公開しています。

Tackling image degradation due to atmospheric turbulence, particularly in dynamic environment, remains a challenge for long-range imaging systems. Existing techniques have been primarily designed for static scenes or scenes with small motion. This paper presents the first segment-then-restore pipeline for restoring the videos of dynamic scenes in turbulent environment. We leverage mean optical flow with an unsupervised motion segmentation method to separate dynamic and static scene components prior to restoration. After camera shake compensation and segmentation, we introduce foreground/background enhancement leveraging the statistics of turbulence strength and a transformer model trained on a novel noise-based procedural turbulence generator for fast dataset augmentation. Benchmarked against existing restoration methods, our approach restores most of the geometric distortion and enhances sharpness for videos. We make our code, simulator, and data publicly available to advance the field of video restoration from turbulence: riponcs.github.io/TurbSegRes
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# 直観論的量子論理的視点:自然修正理論への新しいアプローチ

Intuitionistic Quantum Logic Perspective: A New Approach to Natural Revision Theory ( http://arxiv.org/abs/2404.13608v1 )

ライセンス: Link先を確認
Heng Zhou, Yongjun Wang, Baoshan Wang, Jian Yan, Xiaoyang Wang, (参考訳) Alchourron, Gardenfors, Makinsonによって提案された古典的信念修正の枠組みには、8つの仮定に基づく理論の改訂が含まれる。 本稿では, 量子力学に基づくリビジョン理論, いわゆる自然リビジョン理論について検討する。 量子システムでは、文脈性を含む静的直観論的推論と、射影測定によって達成される動的推論の2つの推論モードがある。 ドーリングとコーケによって提案された2つの直観論的量子論理の利点をそれぞれ組み合わせる。 本研究の目的は、直観論的量子論理に対する真理値の割り当てを提供することであり、量子力学の特性と整合するだけでなく、真理値の推論も可能である。 本稿では,本手法に基づく自然修正理論について考察する。 量子システムにおける2つの推論モードに対応する2種類のリビジョン演算子(オブジェクトレベルリビジョンと演算子レベルリビジョン)を導入し、これら2つの演算子の違いを強調した。 古典的リビジョンとは異なり、直観論的量子論理における帰結関係の改訂を検討する。 自然修正理論の枠組みの中では、どちらの種類の修正演算子も結果関係の推論系に協調して働くことを示した。 修正プロセスの結果は、相互に織り合わされた演算子を適用する順序に影響される。

The classical belief revision framework proposed by Alchourron, Gardenfors, and Makinson involves the revision of a theory based on eight postulates. This paper focuses on exploring the revision theory based on quantum mechanics, known as the natural revision theory. In quantum systems, there are two reasoning modes: static intuitionistic reasoning, which incorporates contextuality, and dynamic reasoning, which is achieved through projection measurement. We combine the advantages of the two intuitionistic quantum logics proposed by Doering and Coecke respectively. We aim to provide a truth-value assignment for intuitionistic quantum logic that not only aligns with the characteristics of quantum mechanics but also allows for truth-value reasoning. We investigate the natural revision theory based on this approach. We introduce two types of revision operators corresponding to the two reasoning modes in quantum systems: object-level revision and operator-level revision, and we highlight the distinctions between these two operators. Unlike classical revision, we consider the revision of consequence relations in intuitionistic quantum logic. We demonstrate that, within the framework of the natural revision theory, both types of revision operators work together on the reasoning system of consequence relations. The outcomes of revision process are influenced by the order in which the interweaved operators are applied.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# 時間的大域的テキスト知識に基づくビデオ文の理解

Video sentence grounding with temporally global textual knowledge ( http://arxiv.org/abs/2404.13611v1 )

ライセンス: Link先を確認
Cai Chen, Runzhong Zhang, Jianjun Gao, Kejun Wu, Kim-Hui Yap, Yi Wang, (参考訳) 時間的な文の接地には、自然言語クエリによるビデオモーメントの検索が含まれる。 既存の多くの研究は、与えられたビデオと時間的局所化クエリを直接組み込んで、異なるモダリティ間の固有のドメインギャップを見渡している。 本稿では,同じビデオクエリ対から得られた広範にグローバルなテキスト知識を含む擬似クエリ機能を用いて,ドメインギャップのブリッジ化を強化し,マルチモーダル特徴間の類似度を高める。 具体的には,PIN(Pseudo-query Intermediary Network)を提案する。 その後、学習可能なプロンプトを用いて擬似クエリの知識をカプセル化し、それらをテキストエンコーダとマルチモーダル融合モジュールに伝播させ、視覚と言語間の特徴的アライメントをさらに強化し、時間的グラウンドリングを改善する。 Charades-STAおよびActivityNet-Captionsデータセットで実施された大規模な実験により,本手法の有効性が示された。

Temporal sentence grounding involves the retrieval of a video moment with a natural language query. Many existing works directly incorporate the given video and temporally localized query for temporal grounding, overlooking the inherent domain gap between different modalities. In this paper, we utilize pseudo-query features containing extensive temporally global textual knowledge sourced from the same video-query pair, to enhance the bridging of domain gaps and attain a heightened level of similarity between multi-modal features. Specifically, we propose a Pseudo-query Intermediary Network (PIN) to achieve an improved alignment of visual and comprehensive pseudo-query features within the feature space through contrastive learning. Subsequently, we utilize learnable prompts to encapsulate the knowledge of pseudo-queries, propagating them into the textual encoder and multi-modal fusion module, further enhancing the feature alignment between visual and language for better temporal grounding. Extensive experiments conducted on the Charades-STA and ActivityNet-Captions datasets demonstrate the effectiveness of our method.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# ブランチは取らない - オンライン会話におけるブランチ予測

The Branch Not Taken: Predicting Branching in Online Conversations ( http://arxiv.org/abs/2404.13613v1 )

ライセンス: Link先を確認
Shai Meital, Lior Rokach, Roman Vainshtein, Nir Grinberg, (参考訳) 多人数の議論は、連鎖構造ではなく木構造に展開する傾向がある。 分岐は、オンラインプラットフォームの非同期性から、会話の一部を解き放つためのインターロケータによる意識的な決定に至るまで、さまざまな理由で起こりうる。要約やスレッドのゆがみといった多くの下流タスクにおいて、分岐の予測と理解は重要であり、ユーザがオンラインの議論にもっと意味のある方法で参加するように促すオンライン空間の開発に役立つ。この記事では、分岐予測の新しいタスクを定義し、分岐予測のための深層ニューラルネットワークモデルであるGLOBS(Global Branching Score)を提案する。 GLOBSはRedditの3つの大きなディスカッションフォーラムで評価されており、競争の激しいベースラインよりも大幅に改善され、転送性も向上している。 構造的,時間的,言語的特徴がGLOBSの成功に寄与し,分岐がより多くの会話参加者と結びついており,会話ツリーの早期に発生する傾向があることを確認した。 我々はGLOBSと全てのベースラインモデルの実装を公開し、再現性を確保し、この重要な課題についてさらなる研究を促進する。

Multi-participant discussions tend to unfold in a tree structure rather than a chain structure. Branching may occur for multiple reasons -- from the asynchronous nature of online platforms to a conscious decision by an interlocutor to disengage with part of the conversation. Predicting branching and understanding the reasons for creating new branches is important for many downstream tasks such as summarization and thread disentanglement and may help develop online spaces that encourage users to engage in online discussions in more meaningful ways. In this work, we define the novel task of branch prediction and propose GLOBS (Global Branching Score) -- a deep neural network model for predicting branching. GLOBS is evaluated on three large discussion forums from Reddit, achieving significant improvements over an array of competitive baselines and demonstrating better transferability. We affirm that structural, temporal, and linguistic features contribute to GLOBS success and find that branching is associated with a greater number of conversation participants and tends to occur in earlier levels of the conversation tree. We publicly release GLOBS and our implementation of all baseline models to allow reproducibility and promote further research on this important task.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# 点雲を用いたシーンフローの攻撃

Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v1 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。 しかし、これらの手法のロバスト性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。 驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。 この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。 実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。 この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。 シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。

Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. Robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants show a higher vulnerability for the optical flow networks.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# NegotiationToM: ストレステストマシン理論のベンチマーク

NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding ( http://arxiv.org/abs/2404.13627v1 )

ライセンス: Link先を確認
Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, Yangqiu Song, (参考訳) 大言語モデル(LLM)は、心の理論(ToM)能力の潜在的な出現に関して、大きな関心や議論を引き起こしている。 現在、マインド評価の理論は、実世界の人間のインタラクションシナリオにおけるマシンToM能力の評価が欠如しているショートカットや刺激的な相関に傾向のあるマシン生成データやゲーム設定を使用したテストモデルに焦点を当てている。 これは、新しい実世界のシナリオベンチマークの開発を迫られている。 我々は,多次元精神状態(欲求,信念,意図など)を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。 我々のベンチマークはBDIエージェントモデリング理論に基づいており、大規模な言語モデルを評価するために必要な経験実験を行っている。 以上の結果から,NegotiationToMは,チェーン・オブ・シント法(CoT法)を用いても,人間よりもはるかに性能が低いため,最先端のLDMでは困難であることが示唆された。

Large Language Models (LLMs) have sparked substantial interest and debate concerning their potential emergence of Theory of Mind (ToM) ability. Theory of mind evaluations currently focuses on testing models using machine-generated data or game settings prone to shortcuts and spurious correlations, which lacks evaluation of machine ToM ability in real-world human interaction scenarios. This poses a pressing demand to develop new real-world scenario benchmarks. We introduce NegotiationToM, a new benchmark designed to stress-test machine ToM in real-world negotiation surrounding covered multi-dimensional mental states (i.e., desires, beliefs, and intentions). Our benchmark builds upon the Belief-Desire-Intention (BDI) agent modeling theory and conducts the necessary empirical experiments to evaluate large language models. Our findings demonstrate that NegotiationToM is challenging for state-of-the-art LLMs, as they consistently perform significantly worse than humans, even when employing the chain-of-thought (CoT) method.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# LoRAエキスパートの混在

Mixture of LoRA Experts ( http://arxiv.org/abs/2404.13628v1 )

ライセンス: Link先を確認
Xun Wu, Shaohan Huang, Furu Wei, (参考訳) LoRAは、様々な下流タスクに対応するために、大規模な訓練済みモデルの微調整に広く受け入れられ、顕著な効果と効率性を示し、最も一般的な微調整技法の1つとしての地位を固めている。 LoRAのプラグイン・アンド・プレイプラグインのモジュラー性のため、研究者は複数のLoRAのアマルガメーションを掘り下げて、さまざまな下流タスクにモデルを拡張した。 それでも、LoRA融合のための既存のアプローチは、固有の課題と相反する。 直接算術マージは、元の事前訓練されたモデルの生成能力を失ったり、LoRAの別個の同一性を失ったりし、結果として準最適結果をもたらす。 一方、参照チューニングに基づく融合では、複数のLoRAを効果的に組み合わせるために必要な柔軟性に関する制限が示される。 これらの課題に対応するために,本論文では,階層的制御と未分散分岐選択を利用する LoRA Experts (Mixture of LoRA) アプローチを提案する。 MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を達成するだけでなく、LoRAを効果的に組み合わせるための重要な柔軟性を保っている。 自然言語処理(NLP)とビジョン&ランゲージ(V&L)の両領域で実施された広範囲な実験的評価は,MoLEの有効性を裏付けるものである。

LoRA has gained widespread acceptance in the fine-tuning of large pre-trained models to cater to a diverse array of downstream tasks, showcasing notable effectiveness and efficiency, thereby solidifying its position as one of the most prevalent fine-tuning techniques. Due to the modular nature of LoRA's plug-and-play plugins, researchers have delved into the amalgamation of multiple LoRAs to empower models to excel across various downstream tasks. Nonetheless, extant approaches for LoRA fusion grapple with inherent challenges. Direct arithmetic merging may result in the loss of the original pre-trained model's generative capabilities or the distinct identity of LoRAs, thereby yielding suboptimal outcomes. On the other hand, Reference tuning-based fusion exhibits limitations concerning the requisite flexibility for the effective combination of multiple LoRAs. In response to these challenges, this paper introduces the Mixture of LoRA Experts (MoLE) approach, which harnesses hierarchical control and unfettered branch selection. The MoLE approach not only achieves superior LoRA fusion performance in comparison to direct arithmetic merging but also retains the crucial flexibility for combining LoRAs effectively. Extensive experimental evaluations conducted in both the Natural Language Processing (NLP) and Vision & Language (V&L) domains substantiate the efficacy of MoLE.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# ディープラーニングを活用したソフトウェア開発プロセスの最適化

Utilizing Deep Learning to Optimize Software Development Processes ( http://arxiv.org/abs/2404.13630v1 )

ライセンス: Link先を確認
Keqin Li, Armando Zhu, Wenjing Zhou, Peng Zhao, Jintong Song, Jiabei Liu, (参考訳) 本研究では、特にコードレビュー、エラー予測、テスト生成を自動化することで、コード品質と開発効率を向上させるために、ディープラーニング技術のソフトウェア開発プロセスへの適用について検討する。 一連の実証研究を通じて,ディープラーニングツールを用いた実験グループと従来の手法を用いた制御グループを比較し,コードエラー率とプロジェクト完了時間を比較した。 その結果,実験群では有意な改善が見られ,深層学習技術の有効性が検証された。 この研究は、ソフトウェア開発におけるディープラーニングの潜在的な最適化ポイント、方法論、技術的課題、およびこれらの技術を既存のソフトウェア開発ワークフローに統合する方法についても論じている。

This study explores the application of deep learning technologies in software development processes, particularly in automating code reviews, error prediction, and test generation to enhance code quality and development efficiency. Through a series of empirical studies, experimental groups using deep learning tools and control groups using traditional methods were compared in terms of code error rates and project completion times. The results demonstrated significant improvements in the experimental group, validating the effectiveness of deep learning technologies. The research also discusses potential optimization points, methodologies, and technical challenges of deep learning in software development, as well as how to integrate these technologies into existing software development workflows.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# Fermi-Bose マシン

Fermi-Bose Machine ( http://arxiv.org/abs/2404.13631v1 )

ライセンス: Link先を確認
Mingshan Xie, Yuchen Wang, Haiping Huang, (参考訳) 人間の認知処理とは違い、バックプロパゲーションによって訓練されたディープニューラルネットワークは、敵対的な例によって容易に騙される。 意味的に意味のある表現学習を設計するために、バックプロパゲーションを廃止し、代わりに、同じラベルを持つ入力の表現が、異なるラベルを持つもの(フェルミオンに類似)に対して、隠れた層で収縮する(ボソンに類似)ローカルコントラスト学習を提案する。 この階層的な学習は自然界において局所的であり、生物学的に妥当である。 統計力学解析により、ターゲットフェルミオン対距離が重要なパラメータであることが示された。 さらに、MNISTベンチマークデータセットへのこの局所的コントラスト学習の適用により、標準パーセプトロンの対角的脆弱性は、ターゲット距離、すなわち、プロトタイプ多様体の幾何学的分離を制御することによって、大幅に緩和できることが示される。

Distinct from human cognitive processing, deep neural networks trained by backpropagation can be easily fooled by adversarial examples. To design a semantically meaningful representation learning, we discard backpropagation, and instead, propose a local contrastive learning, where the representation for the inputs bearing the same label shrink (akin to boson) in hidden layers, while those of different labels repel (akin to fermion). This layer-wise learning is local in nature, being biological plausible. A statistical mechanics analysis shows that the target fermion-pair-distance is a key parameter. Moreover, the application of this local contrastive learning to MNIST benchmark dataset demonstrates that the adversarial vulnerability of standard perceptron can be greatly mitigated by tuning the target distance, i.e., controlling the geometric separation of prototype manifolds.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# テキストベースのヘルスメッセージングを改善するために異なる言語クイズを組み込む

Incorporating Different Verbal Cues to Improve Text-Based Computer-Delivered Health Messaging ( http://arxiv.org/abs/2404.13633v1 )

ライセンス: Link先を確認
Samuel Rhys Cox, (参考訳) スマートフォンの普及は、医療需要の増加につながっている。 例えば、病気に関する経験を自分自身と同じようなものと共有したり、医療の専門家が治療や治療、終末期、精神疾患のケアのためにアドバイスを提供したりすることができる。 この人間対人間のコミュニケーションだけでなく、チャットボットのような人間対コンピュータのデジタルヘルスメッセージングも利用されるようになった。 人間の会話相手を必要とせずに、同期的で匿名のフィードバックを提供するため、これらはメリットを証明できる。 しかし、コンピュータエージェントが適切に示さないような人間の会話には微妙な点が多い。 例えば、会話のスタイル、エチケット、丁寧な戦略、共感的な反応は、会話のために適切に選択する必要がある。 コンピュータは社会的なアクター(CASA)であり、人々がコンピュータにやることと同じ社会規範を適用することを暗示している。 これまでの研究では、コンピュータエージェントに会話戦略を適用して、より好ましい人間の特性を具現化することに注力してきた。 しかし、コンピュータエージェントがこの点において失敗すると、ユーザからのネガティブな反応につながる可能性がある。 そこで本論文では,より効果的な人-コンピュータ間のデジタルヘルスメッセージングを実現するために実施した一連の研究について述べる。 第1回研究では, 参加者を用いて, 健康チャットボットの会話スタイルの効果について検討した [...] 最終回研究では, チャットボットが使用するフォーマットを, [...] ヘルスメッセージの生成から, メッセージの適切な形式の選択, そして, ユーザの過去の発話を参照したメッセージのフォーマット化に至るまで, より効果的なデジタルヘルス介入を作成する方法について検討した。

The ubiquity of smartphones has led to an increase in on demand healthcare being supplied. For example, people can share their illness-related experiences with others similar to themselves, and healthcare experts can offer advice for better treatment and care for remediable, terminal and mental illnesses. As well as this human-to-human communication, there has been an increased use of human-to-computer digital health messaging, such as chatbots. These can prove advantageous as they offer synchronous and anonymous feedback without the need for a human conversational partner. However, there are many subtleties involved in human conversation that a computer agent may not properly exhibit. For example, there are various conversational styles, etiquettes, politeness strategies or empathic responses that need to be chosen appropriately for the conversation. Encouragingly, computers are social actors (CASA) posits that people apply the same social norms to computers as they would do to people. On from this, previous studies have focused on applying conversational strategies to computer agents to make them embody more favourable human characteristics. However, if a computer agent fails in this regard it can lead to negative reactions from users. Therefore, in this dissertation we describe a series of studies we carried out to lead to more effective human-to-computer digital health messaging. In our first study, we use the crowd [...] Our second study investigates the effect of a health chatbot's conversational style [...] In our final study, we investigate the format used by a chatbot when [...] In summary, we have researched how to create more effective digital health interventions starting from generating health messages, to choosing an appropriate formality of messaging, and finally to formatting messages which reference a user's previous utterances.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# Bt-GAN: Bias-transforming Generative Adversarial Networksによる公正な合成健康データの生成

Bt-GAN: Generating Fair Synthetic Healthdata via Bias-transforming Generative Adversarial Networks ( http://arxiv.org/abs/2404.13634v1 )

ライセンス: Link先を確認
Resmi Ramachandranpillai, Md Fahim Sikder, David Bergström, Fredrik Heintz, (参考訳) 合成データ生成は、現実的な非識別データを生成することにより、電子医療記録(EHR)の有用性を高めるための有望なソリューションを提供する。 しかし、既存の文献は、下流予測における公平性の重要な側面を無視して、合成健康データの品質に重点を置いている。 その結果、合成EHRで訓練されたモデルは、目標タスクにおいてバイアスのある結果を生み出すという批判に直面している。 これらのバイアスは、特徴間の急激な相関や、サブグループを正確に表現するモデルの失敗から生じることがある。 これらの問題に対処するために、医療領域向けに設計されたGANベースの合成データ生成装置であるBt-GAN(Bias-transforming Generative Adversarial Networks)を提案する。 素早い相関に挑戦するために i) 情報制約付きデータ生成プロセスを提案し, アルゴリズムの公正性の概念に基づいて, 生成者が公正な決定論的変換を学習できるようにする。 正確な部分群表現の取得という課題を克服する (II) スコアベース重み付けサンプリングにより, サブグループ密度を保ち, ジェネレータにインセンティブを与える。 このアプローチは、データ多様体の未表現領域から学習するジェネレータを補完する。 我々はMIMIC-IIIデータベースを用いて広範囲にわたる実験を行った。 以上の結果から,Bt-GANはSOTAの精度を向上し,公平性を向上し,バイアス増幅を最小化できることがわかった。 また,本研究の有効性を裏付ける証拠として,詳細な説明可能性分析を行った。 そこで本研究では,医療領域における合成データ生成の限界に対処するための,新規かつ専門的なアプローチを提案する。 公平性を考慮し、GANのような高度な技術を活用することで、医療応用における信頼性と偏見のない予測の道を開く。

Synthetic data generation offers a promising solution to enhance the usefulness of Electronic Healthcare Records (EHR) by generating realistic de-identified data. However, the existing literature primarily focuses on the quality of synthetic health data, neglecting the crucial aspect of fairness in downstream predictions. Consequently, models trained on synthetic EHR have faced criticism for producing biased outcomes in target tasks. These biases can arise from either spurious correlations between features or the failure of models to accurately represent sub-groups. To address these concerns, we present Bias-transforming Generative Adversarial Networks (Bt-GAN), a GAN-based synthetic data generator specifically designed for the healthcare domain. In order to tackle spurious correlations (i), we propose an information-constrained Data Generation Process that enables the generator to learn a fair deterministic transformation based on a well-defined notion of algorithmic fairness. To overcome the challenge of capturing exact sub-group representations (ii), we incentivize the generator to preserve sub-group densities through score-based weighted sampling. This approach compels the generator to learn from underrepresented regions of the data manifold. We conduct extensive experiments using the MIMIC-III database. Our results demonstrate that Bt-GAN achieves SOTA accuracy while significantly improving fairness and minimizing bias amplification. We also perform an in-depth explainability analysis to provide additional evidence supporting the validity of our study. In conclusion, our research introduces a novel and professional approach to addressing the limitations of synthetic data generation in the healthcare domain. By incorporating fairness considerations and leveraging advanced techniques such as GANs, we pave the way for more reliable and unbiased predictions in healthcare applications.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# Beyond Alignment:Parsing-Guided Temporal-Coherent Transformerによるブラインドビデオの顔復元

Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer ( http://arxiv.org/abs/2404.13640v1 )

ライセンス: Link先を確認
Kepeng Xu, Li Xu, Gang He, Wenxin Yu, Yunsong Li, (参考訳) 複数の複雑な劣化は、現実世界の低品質ビデオフェイスに結合される。 したがって、ブラインドビデオの顔の復元は非常に困難な問題であり、高忠実度の詳細を幻覚させるだけでなく、多様なポーズのバリエーションにまたがる時間的コヒーレンスを高める必要がある。 各フレームをナイーブな方法で独立に復元することは、必然的に、ポーズの変更とキーポイントのローカライゼーションエラーから時間的不整合とアーティファクトを導入する。 そこで本研究では,前向きを伴わない新しいパーシング誘導時間コヒーレントトランス (PGTFormer) を用いた最初のブラインドビデオ顔復元手法を提案する。 PGTFormerはセマンティックパーシングガイダンスを利用して、時間的に一貫性のないアーティファクトフリーな結果を生成するために最適な顔の事前選択を行う。 具体的には、時間空間ベクトル量子化オートエンコーダを高品質なビデオ顔データセット上で事前訓練し、表現的文脈に富む先行情報を抽出する。 そして、時間的パース誘導コードブック予測器(TPCP)は、顔事前調整を行うことなく、顔解析コンテキストキューに基づいて異なるポーズで顔を復元する。 この戦略はアーチファクトを減らし、顔の事前調整による累積誤差によるジッタを緩和する。 最後に、時間的忠実度調整器(TFR)は、時間的特徴相互作用を通じて忠実度を高め、時間的整合性を向上させる。 フェースビデオの広汎な実験により,提案手法は従来の顔修復基準よりも優れていたことが判明した。 コードは \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer} でリリースされる。

Multiple complex degradations are coupled in low-quality video faces in the real world. Therefore, blind video face restoration is a highly challenging ill-posed problem, requiring not only hallucinating high-fidelity details but also enhancing temporal coherence across diverse pose variations. Restoring each frame independently in a naive manner inevitably introduces temporal incoherence and artifacts from pose changes and keypoint localization errors. To address this, we propose the first blind video face restoration approach with a novel parsing-guided temporal-coherent transformer (PGTFormer) without pre-alignment. PGTFormer leverages semantic parsing guidance to select optimal face priors for generating temporally coherent artifact-free results. Specifically, we pre-train a temporal-spatial vector quantized auto-encoder on high-quality video face datasets to extract expressive context-rich priors. Then, the temporal parse-guided codebook predictor (TPCP) restores faces in different poses based on face parsing context cues without performing face pre-alignment. This strategy reduces artifacts and mitigates jitter caused by cumulative errors from face pre-alignment. Finally, the temporal fidelity regulator (TFR) enhances fidelity through temporal feature interaction and improves video temporal consistency. Extensive experiments on face videos show that our method outperforms previous face restoration baselines. The code will be released on \href{https://github.com/kepengxu/PGTFormer}{https://github.com/kepengxu/PGTFormer}.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# PEACH: コンテキスト構造と階層構造をまたいだ事前拘束型説明

PEACH: Pretrained-embedding Explanation Across Contextual and Hierarchical Structure ( http://arxiv.org/abs/2404.13645v1 )

ライセンス: Link先を確認
Feiqi Cao, Caren Han, Hyunsuk Chung, (参考訳) そこで本研究では,木をベースとした構文解析手法であるPEACH(Pretrained-embedding Explanation Across Contextual and Hierarchical Structure)を提案する。 PEACHは、決定ツリーのトレーニングインプットとして、PLMのコンテキスト埋め込みを利用できることに注意してください。 提案したPEACHを用いて,9つの異なるNLPテキスト分類ベンチマーク上で,コンテキスト埋め込みを包括的に解析する。 この分析は、複数のPLMコンテキスト埋め込み、属性の選択、スケーリング、クラスタリング手法を適用することにより、モデルの柔軟性を実証する。 さらに、人間の解釈可能な単語クラウドベースツリーを用いて、特徴選択と重要なテキスト分類の傾向を可視化し、モデルミスを明確に識別し、データセットのデバッギングを支援することで、説明の有用性を示す。 PEACHは解釈可能性の他に、事前訓練されたモデルよりも優れているか、あるいは類似している。

In this work, we propose a novel tree-based explanation technique, PEACH (Pretrained-embedding Explanation Across Contextual and Hierarchical Structure), that can explain how text-based documents are classified by using any pretrained contextual embeddings in a tree-based human-interpretable manner. Note that PEACH can adopt any contextual embeddings of the PLMs as a training input for the decision tree. Using the proposed PEACH, we perform a comprehensive analysis of several contextual embeddings on nine different NLP text classification benchmarks. This analysis demonstrates the flexibility of the model by applying several PLM contextual embeddings, its attribute selections, scaling, and clustering methods. Furthermore, we show the utility of explanations by visualising the feature selection and important trend of text classification via human-interpretable word-cloud-based trees, which clearly identify model mistakes and assist in dataset debugging. Besides interpretability, PEACH outperforms or is similar to those from pretrained models.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# 物理インフォームドメッシュ独立ディープコンポジション演算子ネットワーク

Physics-informed Mesh-independent Deep Compositional Operator Network ( http://arxiv.org/abs/2404.13646v1 )

ライセンス: Link先を確認
Weiheng Zhong, Hadi Meidani, (参考訳) 幅広いパラメータに対してパラメトリック部分微分方程式(PDE)を解くことは、科学計算において重要な課題である。 この目的のために、パラメータから解へのマッピングを学習するニューラル演算子が成功している。 しかし、ニューラル演算子のトレーニングは通常、大規模なトレーニングデータセットを必要とする。 この課題に対処するために、物理インフォームドトレーニングはコスト効率の良い戦略を提供することができる。 しかし、現在の物理インフォームドニューラルネットワークは、不規則なドメイン形状を扱う場合や、可変メッシュサイズを持つPDEパラメータの様々な離散化への一般化において制限に直面している。 本研究では,変数サイズと不規則領域形状のパラメータの離散化を一般化する物理インフォームドモデルアーキテクチャを提案する。 特に、ディープ・オペレーター・ニューラルネットワークにインスパイアされた我々のモデルは、パラメータの繰り返し埋め込みを離散化独立に学習することを含み、このパラメータ埋め込みは、より表現力を高めるために、複数の合成層を通して応答埋め込みと統合される。 提案手法の精度と効率を数値計算により検証した。

Solving parametric Partial Differential Equations (PDEs) for a broad range of parameters is a critical challenge in scientific computing. To this end, neural operators, which learn mappings from parameters to solutions, have been successfully used. However, the training of neural operators typically demands large training datasets, the acquisition of which can be prohibitively expensive. To address this challenge, physics-informed training can offer a cost-effective strategy. However, current physics-informed neural operators face limitations, either in handling irregular domain shapes or in generalization to various discretizations of PDE parameters with variable mesh sizes. In this research, we introduce a novel physics-informed model architecture which can generalize to parameter discretizations of variable size and irregular domain shapes. Particularly, inspired by deep operator neural networks, our model involves a discretization-independent learning of parameter embedding repeatedly, and this parameter embedding is integrated with the response embeddings through multiple compositional layers, for more expressivity. Numerical results demonstrate the accuracy and efficiency of the proposed method.
翻訳日:2024-04-23 18:11:42 公開日:2024-04-21
# 平均アグリゲーターはロバストなアグリゲーターよりロバスト

Mean Aggregator Is More Robust Than Robust Aggregators Under Label Poisoning Attacks ( http://arxiv.org/abs/2404.13647v1 )

ライセンス: Link先を確認
Jie Peng, Weiyu Li, Qing Ling, (参考訳) 悪意のある攻撃に対するロバスト性は、分散学習において最も重要である。 既存の作業は、古典的なビザンツ攻撃モデルをよく考慮しており、一部の作業者は、任意に悪意のあるメッセージをサーバに送信し、分散学習プロセスの集約ステップを妨害することができると仮定している。 このような最悪のビザンツの攻撃から守るために、様々な堅牢なアグリゲーターが有効であることが証明され、しばしば使用される平均アグリゲーターよりもはるかに優れている。 本稿では,ロバストなアグリゲータは,ラベル中毒と呼ばれる,弱いが実用的な悪質な攻撃に対してあまりに保守的であり,一部の労働者のサンプルラベルが毒されていることを示す。 驚くべきことに、分散データが十分に不均一であることを考えると、平均アグリゲータは理論上は最先端のロバストアグリゲータよりも頑健であることを示すことができる。 実際、平均アグリゲータの学習誤差は、順番に最適であることが証明されている。 実験結果から, ラベル中毒におけるアグリゲーターの優位性を示唆し, 理論的知見を裏付ける結果が得られた。

Robustness to malicious attacks is of paramount importance for distributed learning. Existing works often consider the classical Byzantine attacks model, which assumes that some workers can send arbitrarily malicious messages to the server and disturb the aggregation steps of the distributed learning process. To defend against such worst-case Byzantine attacks, various robust aggregators have been proven effective and much superior to the often-used mean aggregator. In this paper, we show that robust aggregators are too conservative for a class of weak but practical malicious attacks, as known as label poisoning attacks, where the sample labels of some workers are poisoned. Surprisingly, we are able to show that the mean aggregator is more robust than the state-of-the-art robust aggregators in theory, given that the distributed data are sufficiently heterogeneous. In fact, the learning error of the mean aggregator is proven to be optimal in order. Experimental results corroborate our theoretical findings, demonstrating the superiority of the mean aggregator under label poisoning attacks.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# 階層型視覚変換器のためのデータ非依存モジュール対応プルーニング

Data-independent Module-aware Pruning for Hierarchical Vision Transformers ( http://arxiv.org/abs/2404.13648v1 )

ライセンス: Link先を確認
Yang He, Joey Tianyi Zhou, (参考訳) 階層型視覚変換器(ViT)は従来のViTよりも2つの利点がある。 まず、階層型ViTは局所的な自己注意による画像サイズに関する線形計算複雑性を実現する。 第二に、階層的なViTは階層的な特徴マップを作成し、画像パッチをより深い層にマージして、密度の高い予測を行う。 しかし、既存のプルーニング法は階層型 ViT のユニークな性質を無視し、重み付けの重み付けとしてその大きさ値を用いる。 このアプローチの主な欠点は2つあります。 第一に、「局所的な」注目重量は「グローバル」レベルで比較され、これは比較的小さな大きさの「グローバル」のために「局所的に」重要な重量が刈り取られる可能性がある。 マグニチュードプルーニングの2つ目の問題は、様々な階層レベルで粗い特徴から細かな特徴を抽出するのに不可欠である、ネットワークの異なる重量分布を考慮できないことである。 この問題を解決するために,データ非依存型モジュール・アウェア・プルーニング法 (DIMAP) を開発した。 異なる階層レベルでの「局所的」注意重みが、その貢献度で同等に比較されるように、モジュールとして扱い、情報歪みを分析して貢献度を調べる。 さらに、重みのみに基づいて入力画像を必要としない新しい重み計量を導入することにより、パッチマージプロセスへの依存を解消する。 画像Net-1k分類において,異なる大きさのスイム変換器に対して,その有用性と強度を検証した。 特に、52.5%のFLOPと52.7%のパラメータをSwin-Bから取り除いた場合、トップ5の精度低下は0.07%に過ぎなかった。 33.2%のFLOPと33.2%のパラメータをSwin-Sに還元すると、元のモデルよりも0.8%高い相対的トップ5の精度が得られる。 https://github.com/he-y/Data-independent-Module-Aware-Pruning

Hierarchical vision transformers (ViTs) have two advantages over conventional ViTs. First, hierarchical ViTs achieve linear computational complexity with respect to image size by local self-attention. Second, hierarchical ViTs create hierarchical feature maps by merging image patches in deeper layers for dense prediction. However, existing pruning methods ignore the unique properties of hierarchical ViTs and use the magnitude value as the weight importance. This approach leads to two main drawbacks. First, the "local" attention weights are compared at a "global" level, which may cause some "locally" important weights to be pruned due to their relatively small magnitude "globally". The second issue with magnitude pruning is that it fails to consider the distinct weight distributions of the network, which are essential for extracting coarse to fine-grained features at various hierarchical levels. To solve the aforementioned issues, we have developed a Data-independent Module-Aware Pruning method (DIMAP) to compress hierarchical ViTs. To ensure that "local" attention weights at different hierarchical levels are compared fairly in terms of their contribution, we treat them as a module and examine their contribution by analyzing their information distortion. Furthermore, we introduce a novel weight metric that is solely based on weights and does not require input images, thereby eliminating the dependence on the patch merging process. Our method validates its usefulness and strengths on Swin Transformers of different sizes on ImageNet-1k classification. Notably, the top-5 accuracy drop is only 0.07% when we remove 52.5% FLOPs and 52.7% parameters of Swin-B. When we reduce 33.2% FLOPs and 33.2% parameters of Swin-S, we can even achieve a 0.8% higher relative top-5 accuracy than the original model. Code is available at: https://github.com/he-y/Data-independent-Module-Aware-Pruning
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# 分散主オートエンコーダ

Distributional Principal Autoencoders ( http://arxiv.org/abs/2404.13649v1 )

ライセンス: Link先を確認
Xinwei Shen, Nicolai Meinshausen, (参考訳) 次元減少技術は通常、再構成されたデータが元のデータと同一でないという意味で情報を失う。 しかし,保持次元や特定のマッピングに関わらず,元のデータと同一に分散したデータを再構成することは可能であると論じる。 これは、低次元潜在変数からデータの状態分布に一致する分布モデルを学ぶことで実現できる。 そこで本研究では,高次元データを低次元潜在変数にマッピングするエンコーダと,遅延変数をデータ空間にマッピングするデコーダからなる分散主オートエンコーダ(DPA)を提案する。 次元を小さくするために、DPAエンコーダは、遅延次元の適応的な選択で、説明できないデータの変動を最小限にすることを目的としている。 データを再構成するために、DPAデコーダは、ある潜在値にマッピングされた全てのデータの条件分布に一致させることを目標とし、再構成されたデータが元のデータ分布を保持することを保証する。 気候データ, 単細胞データ, 画像ベンチマークの数値計算結果から, 元の分布を再構築する上でのアプローチの実現可能性, 成功例が示された。 DPA埋め込みは、降水の季節周期や遺伝子発現のための細胞タイプなど、データの有意義な構造を保っていることが示されている。

Dimension reduction techniques usually lose information in the sense that reconstructed data are not identical to the original data. However, we argue that it is possible to have reconstructed data identically distributed as the original data, irrespective of the retained dimension or the specific mapping. This can be achieved by learning a distributional model that matches the conditional distribution of data given its low-dimensional latent variables. Motivated by this, we propose Distributional Principal Autoencoder (DPA) that consists of an encoder that maps high-dimensional data to low-dimensional latent variables and a decoder that maps the latent variables back to the data space. For reducing the dimension, the DPA encoder aims to minimise the unexplained variability of the data with an adaptive choice of the latent dimension. For reconstructing data, the DPA decoder aims to match the conditional distribution of all data that are mapped to a certain latent value, thus ensuring that the reconstructed data retains the original data distribution. Our numerical results on climate data, single-cell data, and image benchmarks demonstrate the practical feasibility and success of the approach in reconstructing the original distribution of the data. DPA embeddings are shown to preserve meaningful structures of data such as the seasonal cycle for precipitations and cell types for gene expression.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# BANSAI: ニューロシンボリックプログラミングによる産業ロボットにおけるAI導入ギャップのブリッジ

BANSAI: Towards Bridging the AI Adoption Gap in Industrial Robotics with Neurosymbolic Programming ( http://arxiv.org/abs/2404.13652v1 )

ライセンス: Link先を確認
Benjamin Alt, Julia Dvorak, Darko Katic, Rainer Jäkel, Michael Beetz, Gisela Lanza, (参考訳) 過去10年間、ディープラーニングはロボット工学のあらゆる領域における操作問題を解決するのに役立った。 同時に、産業用ロボットは従来のプログラム表現とインタフェースを使って圧倒的にプログラムされ続けている。 本稿では,この「AI導入ギャップ」を産業実践者の視点から分析する。 これに対し、BANSAIアプローチ(Neurosymbolic AIによるAI導入ギャップのブリッジ)を提案する。 ニューロシンボリックAIの原則を体系的に活用し、現代の産業ロボットプログラミングワークフローにおいて、データ駆動のサブシンボリックプログラム合成と最適化を確立する。 BANSAIは概念的にはいくつかの先行研究を統一し、実践的で現実的な検証への道を提案する。

Over the past decade, deep learning helped solve manipulation problems across all domains of robotics. At the same time, industrial robots continue to be programmed overwhelmingly using traditional program representations and interfaces. This paper undertakes an analysis of this "AI adoption gap" from an industry practitioner's perspective. In response, we propose the BANSAI approach (Bridging the AI Adoption Gap via Neurosymbolic AI). It systematically leverages principles of neurosymbolic AI to establish data-driven, subsymbolic program synthesis and optimization in modern industrial robot programming workflow. BANSAI conceptually unites several lines of prior research and proposes a path toward practical, real-world validation.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# Tavis-Cummings二量体におけるエルゴード的およびカオス的性質:量子的および古典的極限

Ergodic and chaotic properties in Tavis-Cummings dimer: quantum and classical limit ( http://arxiv.org/abs/2404.13653v1 )

ライセンス: Link先を確認
Tamoghna Ray, Manas Kulkarni, (参考訳) 本稿では,Tavis-Cummings二量体をプラットフォームとして用いた量子システムの2つの重要な側面について検討する。 第一の側面は、自己トラッピング現象(またはその欠如)と可積分性(または量子カオス)の関係を解明することである。 第二に、ランダム行列理論に基づく診断を用いて、この量子系の混合挙動の可能性を明らかにし、古典量子対応の詳細な研究を行う。 研究用に選択された設定は、そのように正確に適合する (i)非局在状態から自己追跡状態への移行を可能にする。 i) はよく定義された古典的極限を持ち、したがって古典的量子予想を含む研究に順応できる。 得られた古典的モデル自体が、最大リャプノフ指数によって探索された豊富なカオス的およびエルゴード的性質を持つ。 さらに、対応する開量子系におけるカオスの側面を示し、非エルミート確率行列理論と接続する。

We investigate two key aspects of quantum systems by using the Tavis-Cummings dimer system as a platform. The first aspect involves unraveling the relationship between the phenomenon of self-trapping (or lack thereof) and integrability (or quantum chaos). Secondly, we uncover {the possibility of} mixed behavior in this quantum system using diagnostics based on random matrix theory and make an in-depth study of classical-quantum correspondence. The setup chosen for the study is precisely suited as it (i) enables a transition from delocalized to self-trapped states and (ii) has a well-defined classical limit, thereby amenable to studies involving classical-quantum conjectures. The obtained classical model in itself has rich chaotic and ergodic properties which were probed via maximal Lyapunov exponents. Furthermore, we present aspects of chaos in the corresponding open quantum system and make connections with non-Hermitian random matrix theory.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# SPGNN: グラフ畳み込みとプールによる有能なサブグラフパターン認識

SPGNN: Recognizing Salient Subgraph Patterns via Enhanced Graph Convolution and Pooling ( http://arxiv.org/abs/2404.13655v1 )

ライセンス: Link先を確認
Zehao Dong, Muhan Zhang, Yixin Chen, (参考訳) グラフニューラルネットワーク(GNN)は、グラフやネットワークのような非ユークリッドデータ上での機械学習の分野に革命をもたらした。 GNNは、近隣の集約を通じてノード表現学習を効果的に実装し、多くのグラフ関連タスクにおいて印象的な結果を得る。 しかし、ほとんどの近傍アグリゲーションアプローチは和に基づくものであり、情報的グラフ構造を符号化するのに十分な表現力を持たない可能性があるため、問題となることがある。 さらに、グラフプーリングモジュールは、グラフ学習、特にグラフ分類のタスクにおいても極めて重要であるが、グラフダウンサンプリング機構の研究は限られている。 上記の課題に対処するために,非同型部分グラフを識別する際の識別力を最大化するために,ノード表現をインジェクション的に更新する連結型グラフ畳み込み機構を提案する。 さらに,WL-SortPoolと呼ばれるグラフプーリングモジュールを設計し,重要なサブグラフパターンをディープラーニングで学習する。 WL-SortPool層はノード表現(すなわち連続的なWL色)をソートし、分類のために異なる深さのサブツリーの相対的重要性を個別に学習する。 本稿ではこれらの拡張を取り入れた新しいサブグラフパターンGNN(SPGNN)アーキテクチャを提案する。 提案するSPGNNアーキテクチャを,多くのグラフ分類ベンチマークで検証する。 実験の結果,提案手法は最先端のグラフカーネルや他のGNNアプローチで高い競争力を発揮することが示された。

Graph neural networks (GNNs) have revolutionized the field of machine learning on non-Euclidean data such as graphs and networks. GNNs effectively implement node representation learning through neighborhood aggregation and achieve impressive results in many graph-related tasks. However, most neighborhood aggregation approaches are summation-based, which can be problematic as they may not be sufficiently expressive to encode informative graph structures. Furthermore, though the graph pooling module is also of vital importance for graph learning, especially for the task of graph classification, research on graph down-sampling mechanisms is rather limited. To address the above challenges, we propose a concatenation-based graph convolution mechanism that injectively updates node representations to maximize the discriminative power in distinguishing non-isomorphic subgraphs. In addition, we design a novel graph pooling module, called WL-SortPool, to learn important subgraph patterns in a deep-learning manner. WL-SortPool layer-wise sorts node representations (i.e. continuous WL colors) to separately learn the relative importance of subtrees with different depths for the purpose of classification, thus better characterizing the complex graph topology and rich information encoded in the graph. We propose a novel Subgraph Pattern GNN (SPGNN) architecture that incorporates these enhancements. We test the proposed SPGNN architecture on many graph classification benchmarks. Experimental results show that our method can achieve highly competitive results with state-of-the-art graph kernels and other GNN approaches.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# MLP: 時間的意味定位に先立つ運動ラベル

MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions ( http://arxiv.org/abs/2404.13657v1 )

ライセンス: Link先を確認
Sheng Yan, Mengyuan Liu, Yong Wang, Yang Liu, Chen Chen, Hong Liu, (参考訳) 本稿では,人間の動作における時間的文の局所化に関する未探索問題に対処し,テキストクエリに対応する3次元動作から目標モーメントを見つけることを目的とした。 特殊なモーションキャプチャー装置を使って3Dの人間の動きを捉えることを考えると、わずかな関節しか持たない動きは、物体や照明のような複雑なシーン情報を欠いている。 この特徴により、モーションデータはフレーム間の文脈的豊かさと意味的あいまいさが低く、TSLMに拡張された現在のビデオローカライゼーションフレームワークによる予測の精度をわずかに制限する。 そこで本研究では,前景と背景の事前知識を組み込んで,目標モーメントの局所化確率を推定する手法を考案し,その一方で,元の粗い予測を,リカバリトレーニングの開始/終了前のラベル列から得られるより正確な予測と重なり合うようにした。 ラベル優先知識をモデルに注入することは,IoUの高い性能向上に不可欠であることを示す。 構築したTSLMベンチマークでは,BABELデータセットのIoU@0.7で44.13,HumanML3D(Restore)で71.17のリコールを達成した。 最後に,コーパスレベルのモーメント検索におけるアプローチの可能性を示す。 ソースコードはhttps://github.com/eanson023/mlp.comで公開されています。

In this paper, we address the unexplored question of temporal sentence localization in human motions (TSLM), aiming to locate a target moment from a 3D human motion that semantically corresponds to a text query. Considering that 3D human motions are captured using specialized motion capture devices, motions with only a few joints lack complex scene information like objects and lighting. Due to this character, motion data has low contextual richness and semantic ambiguity between frames, which limits the accuracy of predictions made by current video localization frameworks extended to TSLM to only a rough level. To refine this, we devise two novel label-prior-assisted training schemes: one embed prior knowledge of foreground and background to highlight the localization chances of target moments, and the other forces the originally rough predictions to overlap with the more accurate predictions obtained from the flipped start/end prior label sequences during recovery training. We show that injecting label-prior knowledge into the model is crucial for improving performance at high IoU. In our constructed TSLM benchmark, our model termed MLP achieves a recall of 44.13 at IoU@0.7 on the BABEL dataset and 71.17 on HumanML3D (Restore), outperforming prior works. Finally, we showcase the potential of our approach in corpus-level moment retrieval. Our source code is openly accessible at https://github.com/eanson023/mlp.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# トリパルタイト多光子Jaynes-Cummingsモデル:解析解とウィグナー非古典性

Tripartite multiphoton Jaynes-Cummings model: analytical solution and Wigner nonclassicalities ( http://arxiv.org/abs/2404.13658v1 )

ライセンス: Link先を確認
Pradip Laha, P. A. Ameen Yasir, Peter van Loock, (参考訳) 非線形多光子Jaynes-Cummings (MPJC) 相互作用により、2つの量子化調和振動子と同時に相互作用する単一量子ビットを特徴とする汎用三部量子系について検討する。 2つの発振子が任意のフォック状態にあるような重畳状態において、キュービットが最初に準備されていると仮定すると、この三部体の純粋な初期状態の時間的進化を解析的に追跡する。 我々は4つの広いケースを同定し、それぞれをさらに2つのサブケースに分割し、ほとんどのケースで正確な解析解を導出する。 特に、システムパラメータを慎重に選択することで、振動子間の任意のフォック状態の完全なスワップが得られる。 さらに, 種々の初期発振器フォック状態の非古典性について, 関連するウィグナー関数の負の領域の体積によって定量化され, 環境要因を含む多様なシステムパラメータを考慮したMPJCハミルトン関数の下で進化する方法について検討した。 より高光子数状態に対する初期値の大幅な向上に加えて, 非線形MPJC相互作用は発振子において非自明なウィグナー負性をもたらす。 多光子過程によって導入された追加の非線形性は、光子数状態の初期非古典性を上回る重要な役割を果たす。

We investigate a generic tripartite quantum system featuring a single qubit interacting concurrently with two quantized harmonic oscillators via nonlinear multiphoton Jaynes-Cummings (MPJC) interactions. Assuming the qubit is initially prepared in a superposition state and the two oscillators are in arbitrary Fock states, we analytically trace the temporal evolution of this tripartite pure initial state. We identify four broad cases, each further divided into two subcases, and derive exact analytical solutions for most cases. Notably, we obtain perfect swapping of arbitrary Fock states between the oscillators by carefully selecting system parameters. In addition, we extensively examine the manner in which the nonclassicalities of various initial oscillator Fock states, quantified by the volume of negative regions in the associated Wigner functions, evolve under the MPJC Hamiltonian, considering diverse system parameters including environmentally induced effects. Besides producing substantial enhancements in the initial value for higher photon number states, our analysis reveals that driven solely by the initial qubit energy, with both oscillators initialized in the vacuum state, the nonlinear MPJC interaction yields nontrivial Wigner negativities in the oscillators. The additional nonlinearity introduced by the multiphoton process plays a pivotal role in surpassing the initial nonclassicalities of the photon number states.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# LMFNet:高分解能リモートセンシングにおけるセマンティックセグメンテーションのための効率的なマルチモーダル融合手法

LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing ( http://arxiv.org/abs/2404.13659v1 )

ライセンス: Link先を確認
Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Xiaoliang Tan, Jiaqi Wang, Chanjuan He, Wenlin Zhou, (参考訳) 高解像度リモートセンシング画像における土地被覆分類のためのセマンティックセグメンテーションの急速な進化にもかかわらず、DSM(Digital Surface Model)やRGB(RGB)、NIR(Near-infrared)といった複数のデータモダリティの統合は依然として課題である。 現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。 このギャップに対処するため,マルチモーダルリモートセンシング画像の融合とセマンティックセマンティックセグメンテーションを実現するために,新しい \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net}work (LMFNet) を提案する。 LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、頑健な特徴抽出を確保しつつパラメータ数を最小化する重み共有多分岐視覚変換器を通じて同時に扱う。 提案するマルチモーダル融合モジュールは, マルチモーダルな特徴を再構成・融合可能な, \textit{Multimodal Feature Fusion Layer} と \textit{Multimodal Feature Self-Attention Fusion Layer} を統合する。 US3D、ISPRS Potsdam、ISPRS Vaihingenといった公開データセットの大規模なテストは、LMFNetの有効性を実証している。 具体的には、US3Dデータセット上で85.09\%の平均的ユニオン(mIoU$)のインターセクションを達成しており、既存の手法よりも大幅に改善されている。 一方, LMFNetではmIoU$が10倍に向上し, パラメータ数は0.5Mに留まった。 さらに, バイモーダル法に対して, 三方向入力によるアプローチによりmIoU$が0.46ポイント向上した。

Despite the rapid evolution of semantic segmentation for land cover classification in high-resolution remote sensing imagery, integrating multiple data modalities such as Digital Surface Model (DSM), RGB, and Near-infrared (NIR) remains a challenge. Current methods often process only two types of data, missing out on the rich information that additional modalities can provide. Addressing this gap, we propose a novel \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net}work (LMFNet) to accomplish the tasks of fusion and semantic segmentation of multimodal remote sensing images. LMFNet uniquely accommodates various data types simultaneously, including RGB, NirRG, and DSM, through a weight-sharing, multi-branch vision transformer that minimizes parameter count while ensuring robust feature extraction. Our proposed multimodal fusion module integrates a \textit{Multimodal Feature Fusion Reconstruction Layer} and \textit{Multimodal Feature Self-Attention Fusion Layer}, which can reconstruct and fuse multimodal features. Extensive testing on public datasets such as US3D, ISPRS Potsdam, and ISPRS Vaihingen demonstrates the effectiveness of LMFNet. Specifically, it achieves a mean Intersection over Union ($mIoU$) of 85.09\% on the US3D dataset, marking a significant improvement over existing methods. Compared to unimodal approaches, LMFNet shows a 10\% enhancement in $mIoU$ with only a 0.5M increase in parameter count. Furthermore, against bimodal methods, our approach with trilateral inputs enhances $mIoU$ by 0.46 percentage points.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# 大規模言語モデルにおけるトロイの木馬検出:トロイの木馬検出の課題から

Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge ( http://arxiv.org/abs/2404.13660v1 )

ライセンス: Link先を確認
Narek Maloyan, Ekansh Verma, Bulat Nutfullin, Bislan Ashinov, (参考訳) 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示しているが、トロイの木馬やバックドア攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。 本稿では,LLMに対するトロイの木馬攻撃の特定と評価を目的としたトロイの木馬検出コンペティション2023(TDC2023)の課題と知見について検討する。 本研究では,意図しないトリガーと意図しないトリガーの区別の難しさと,実世界のシナリオにおけるリバースエンジニアリングトロイの木馬の実現可能性について検討する。 様々なトロイの木馬検出法の比較分析により,高いリコール率を達成することは,高いリバースエンジニアリングアタック成功率(REASR)を得るよりもはるかに困難であることが判明した。 競争におけるトップパフォーマンスの手法は、与えられたトレーニングプレフィックスに似た分布からランダムに文をサンプリングする単純なベースラインに匹敵する、約0.16のリコールスコアを達成した。 この発見は、有害な標的のみを考慮し、モデルに挿入されたトロイの木馬の検出可能性と回復可能性に関する疑問を提起する。 問題を完全に解決できないにもかかわらず、競合はトロイの木馬検出の生存可能性に関する興味深い観察とLLM入力プロンプトの最適化技術の改善につながった。 意図しないトリガーの現象と、意図したトリガーと区別することの難しさは、LSMの堅牢性と解釈可能性に関するさらなる研究の必要性を浮き彫りにする。 TDC2023は、LLMにおけるトロイの木馬検出に関連する課題と機会に関する貴重な洞察を提供しており、現実世界のアプリケーションにおける安全性と信頼性を確保するために、この分野における将来の研究の基盤となっている。

Large Language Models (LLMs) have demonstrated remarkable capabilities in various domains, but their vulnerability to trojan or backdoor attacks poses significant security risks. This paper explores the challenges and insights gained from the Trojan Detection Competition 2023 (TDC2023), which focused on identifying and evaluating trojan attacks on LLMs. We investigate the difficulty of distinguishing between intended and unintended triggers, as well as the feasibility of reverse engineering trojans in real-world scenarios. Our comparative analysis of various trojan detection methods reveals that achieving high Recall scores is significantly more challenging than obtaining high Reverse-Engineering Attack Success Rate (REASR) scores. The top-performing methods in the competition achieved Recall scores around 0.16, comparable to a simple baseline of randomly sampling sentences from a distribution similar to the given training prefixes. This finding raises questions about the detectability and recoverability of trojans inserted into the model, given only the harmful targets. Despite the inability to fully solve the problem, the competition has led to interesting observations about the viability of trojan detection and improved techniques for optimizing LLM input prompts. The phenomenon of unintended triggers and the difficulty in distinguishing them from intended triggers highlights the need for further research into the robustness and interpretability of LLMs. The TDC2023 has provided valuable insights into the challenges and opportunities associated with trojan detection in LLMs, laying the groundwork for future research in this area to ensure their safety and reliability in real-world applications.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# 累積ハザード関数に基づく多変量時間点プロセス学習

Cumulative Hazard Function Based Efficient Multivariate Temporal Point Process Learning ( http://arxiv.org/abs/2404.13663v1 )

ライセンス: Link先を確認
Bingqing Liu, (参考訳) 既存の時間的点過程モデルの多くは条件付き強度関数によって特徴づけられる。 これらのモデルは、確率評価のための数値近似法を必要とすることが多く、性能を損なう可能性がある。 強度関数の積分、すなわち累積ハザード関数(CHF)を直接モデル化することにより、確率を正確に評価し、有望なアプローチとなる。 しかし、既存のCHFベースの手法は十分に定義されていない、すなわちCHFの数学的制約は完全に満たされておらず、信頼できない結果をもたらす。 多変量時間点プロセスでは、既存のほとんどのメソッドは、各変数の強度(または密度など)関数をモデル化し、スケーラビリティを制限します。 本稿では、ニューラルネットワークを用いてフレキシブルだが適切に定義されたCHFをモデル化し、パラメータの複雑さの低い多変量時間点過程を学習する。 6つのデータセットに対する実験結果から,提案モデルがデータ適合性およびイベント予測タスクの最先端性能を達成すると同時に,強力な競合相手よりもパラメータやメモリ使用量が大幅に少ないことを示す。 ソースコードとデータはhttps://github.com/lbq8942/NPPから取得できる。

Most existing temporal point process models are characterized by conditional intensity function. These models often require numerical approximation methods for likelihood evaluation, which potentially hurts their performance. By directly modelling the integral of the intensity function, i.e., the cumulative hazard function (CHF), the likelihood can be evaluated accurately, making it a promising approach. However, existing CHF-based methods are not well-defined, i.e., the mathematical constraints of CHF are not completely satisfied, leading to untrustworthy results. For multivariate temporal point process, most existing methods model intensity (or density, etc.) functions for each variate, limiting the scalability. In this paper, we explore using neural networks to model a flexible but well-defined CHF and learning the multivariate temporal point process with low parameter complexity. Experimental results on six datasets show that the proposed model achieves the state-of-the-art performance on data fitting and event prediction tasks while having significantly fewer parameters and memory usage than the strong competitors. The source code and data can be obtained from https://github.com/lbq8942/NPP.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# MathNet: 印刷された数学的表現認識のためのデータ中心的アプローチ

MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition ( http://arxiv.org/abs/2404.13667v1 )

ライセンス: Link先を確認
Felix M. Schmitt-Koopmann, Elaine M. Huang, Hans-Peter Hutter, Thilo Stadelmann, Alireza Darvishy, (参考訳) 印刷された数式認識(MER)モデルは、通常、LaTeX生成した数式(ME)を入力として、LaTeXソースコードを基底真理として、訓練され、テストされる。 同じMEを様々なLaTeXソースコードで生成できるため、これは、バイアステストパフォーマンスの結果が得られ、効率的な学習を妨げている、真実データに望ましくない変化をもたらす。 さらに、MEsを生成するために1つのフォントのみを使用することは、報告された結果の一般化を現実的なシナリオに大きく制限する。 我々の主な貢献は、任意のLaTeX MEを標準形式にマッピングする拡張LaTeX正規化である。 このプロセスに基づいて,ベンチマークデータセットim2latex-100kの改良版を開発した。 第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。 第3に,MERモデルであるMathNetを畳み込み型視覚変換器を用いて開発し,4つのテストセット(im2latex-100k,im2latexv2, realFormula, InftyMDB-1)において,最大88.3%の性能向上を実現した。

Printed mathematical expression recognition (MER) models are usually trained and tested using LaTeX-generated mathematical expressions (MEs) as input and the LaTeX source code as ground truth. As the same ME can be generated by various different LaTeX source codes, this leads to unwanted variations in the ground truth data that bias test performance results and hinder efficient learning. In addition, the use of only one font to generate the MEs heavily limits the generalization of the reported results to realistic scenarios. We propose a data-centric approach to overcome this problem, and present convincing experimental results: Our main contribution is an enhanced LaTeX normalization to map any LaTeX ME to a canonical form. Based on this process, we developed an improved version of the benchmark dataset im2latex-100k, featuring 30 fonts instead of one. Second, we introduce the real-world dataset realFormula, with MEs extracted from papers. Third, we developed a MER model, MathNet, based on a convolutional vision transformer, with superior results on all four test sets (im2latex-100k, im2latexv2, realFormula, and InftyMDB-1), outperforming the previous state of the art by up to 88.3%.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# ミス特定最適化のための結合型分散確率近似の速度解析

Rate Analysis of Coupled Distributed Stochastic Approximation for Misspecified Optimization ( http://arxiv.org/abs/2404.13669v1 )

ライセンス: Link先を確認
Yaqun Yang, Jinlong Lei, (参考訳) パラメトリックな特徴を持つ不完全な情報を持つ分散最適化問題を$n$のエージェントで検討し、そこでは未知のパラメータを異なる分散パラメータ学習問題によって解ける。 各エージェントは、そのローカルパラメータ学習と計算問題にのみアクセスすることができるが、それぞれのローカルコスト関数の平均を協調的に最小化することを意味する。 特殊最適化問題に対処するために,各エージェントが未知パラメータと決定変数の現在の信念を確率近似法で更新し,その隣人の信念と決定変数をコンセンサスプロトコル上で推定する分散確率近似アルゴリズムを提案する。 我々の関心は、このアルゴリズムの収束解析にある。 決定変数の平均二乗誤差を$\mathcal{O}(\frac{1}{nk})+\mathcal{O}\left(\frac{1}{\sqrt{n}(1-\rho_w)}\right)\frac{1}{k^{1.5}}+\mathcal{O}\big(\frac{1}{(1-\rho_w)^2} \big)\frac{1}{k^2}$で表す。 1-\rho_w)$を特徴とするネットワーク接続は、高階収束率にしか影響しないが、ドメインレートは依然として集中型アルゴリズムと同じである。 さらに、優越率$\mathcal{O}(\frac{1}{nk})$が$\mathcal{O}(\frac{n}{(1-\rho_w)^2})$に達するのに必要な過渡反復を解析する。 実世界の分散シナリオに適用可能な,異なるCPUをエージェントとして利用することで理論的結果を実証するために,数値実験を行った。

We consider an $n$ agents distributed optimization problem with imperfect information characterized in a parametric sense, where the unknown parameter can be solved by a distinct distributed parameter learning problem. Though each agent only has access to its local parameter learning and computational problem, they mean to collaboratively minimize the average of their local cost functions. To address the special optimization problem, we propose a coupled distributed stochastic approximation algorithm, in which every agent updates the current beliefs of its unknown parameter and decision variable by stochastic approximation method; and then averages the beliefs and decision variables of its neighbors over network in consensus protocol. Our interest lies in the convergence analysis of this algorithm. We quantitatively characterize the factors that affect the algorithm performance, and prove that the mean-squared error of the decision variable is bounded by $\mathcal{O}(\frac{1}{nk})+\mathcal{O}\left(\frac{1}{\sqrt{n}(1-\rho_w)}\right)\frac{1}{k^{1.5}}+\mathcal{O}\big(\frac{1}{(1-\rho_w)^2} \big)\frac{1}{k^2}$, where $k$ is the iteration count and $(1-\rho_w)$ is the spectral gap of the network weighted adjacency matrix. It reveals that the network connectivity characterized by $(1-\rho_w)$ only influences the high order of convergence rate, while the domain rate still acts the same as the centralized algorithm. In addition, we analyze that the transient iteration needed for reaching its dominant rate $\mathcal{O}(\frac{1}{nk})$ is $\mathcal{O}(\frac{n}{(1-\rho_w)^2})$. Numerical experiments are carried out to demonstrate the theoretical results by taking different CPUs as agents, which is more applicable to real-world distributed scenarios.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# FiLo:ファイングラインド記述によるゼロショット異常検出と高品質な局所化

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization ( http://arxiv.org/abs/2404.13671v1 )

ライセンス: Link先を確認
Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Hao Li, Ming Tang, Jinqiao Wang, (参考訳) ゼロショット異常検出(ZSAD)法は、ターゲットアイテムカテゴリ内の既知の正常または異常なサンプルにアクセスすることなく、直接異常を検出する。 既存のアプローチでは、マルチモーダル事前訓練されたモデルの堅牢な一般化機能、"正規"または"異常"の意味を表す手作業によるテキスト特徴と、異常を検出して異常パッチをローカライズするイメージ特徴との類似性を計算している。 しかしながら、「異常」の一般的な記述は、しばしば異なる対象カテゴリの様々な種類の異常と正確に一致しない。 さらに、単一パッチのコンピューティングの特徴的類似性は、さまざまなサイズとスケールで特定の異常箇所を特定するのに苦労している。 これらの問題に対処するために、適応学習されたFG-Des(Fined Description)と、位置強調された高品質ローカライゼーション(HQ-Loc)の2つのコンポーネントからなる、FiLoと呼ばれる新しいZSAD手法を提案する。 FG-DesはLarge Language Models (LLMs)を用いて各カテゴリの詳細な異常記述を導入し、適応的に学習されたテキストテンプレートを用いて異常検出の精度と解釈性を高める。 HQ-Locは、事前のローカライズ、位置強調テキストプロンプト、マルチスケールマルチシェイプ・クロスモーダル・インタラクション(MMCI)モジュールにGrounding DINOを活用し、異なるサイズと形状の異常のより正確なローカライズを容易にする。 MVTecやVisAのようなデータセットの実験結果によると、FiLoは検出とローカライゼーションの両方においてZSADの性能を大幅に改善し、画像レベルのAUCは83.9%、ピクセルレベルのAUCは95.9%である。

Zero-shot anomaly detection (ZSAD) methods entail detecting anomalies directly without access to any known normal or abnormal samples within the target item categories. Existing approaches typically rely on the robust generalization capabilities of multimodal pretrained models, computing similarities between manually crafted textual features representing "normal" or "abnormal" semantics and image features to detect anomalies and localize anomalous patches. However, the generic descriptions of "abnormal" often fail to precisely match diverse types of anomalies across different object categories. Additionally, computing feature similarities for single patches struggles to pinpoint specific locations of anomalies with various sizes and scales. To address these issues, we propose a novel ZSAD method called FiLo, comprising two components: adaptively learned Fine-Grained Description (FG-Des) and position-enhanced High-Quality Localization (HQ-Loc). FG-Des introduces fine-grained anomaly descriptions for each category using Large Language Models (LLMs) and employs adaptively learned textual templates to enhance the accuracy and interpretability of anomaly detection. HQ-Loc, utilizing Grounding DINO for preliminary localization, position-enhanced text prompts, and Multi-scale Multi-shape Cross-modal Interaction (MMCI) module, facilitates more accurate localization of anomalies of different sizes and shapes. Experimental results on datasets like MVTec and VisA demonstrate that FiLo significantly improves the performance of ZSAD in both detection and localization, achieving state-of-the-art performance with an image-level AUC of 83.9% and a pixel-level AUC of 95.9% on the VisA dataset.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# 第18回論理的・意味的枠組みに関する国際ワークショップに参加して

Proceedings 18th International Workshop on Logical and Semantic Frameworks, with Applications and 10th Workshop on Horn Clauses for Verification and Synthesis ( http://arxiv.org/abs/2404.13672v1 )

ライセンス: Link先を確認
Temur Kutsia, Daniel Ventura, David Monniaux, José F. Morales, (参考訳) The Post-proceedings of the Eighteenth Logical and Semantic Frameworks with Applications (LSFA 2023) 会議は2023年7月1日から2日にかけてイタリアのロマにあるサピエンツァ大学が主催した。 LSFAは、論理的および意味論的なフレームワークとその応用の理論的および実践的な側面に関心を持つ研究者や学生を惹きつけることを目的としている。 対象となったトピックは、証明理論、型理論と書き換え理論、仕様と推論言語、言語とシステムの形式的意味論である。 ※検証・合成のためのホーン条項に関する第10回ワークショップ(HCVS 2023)の実施後 会議は2023年4月23日にパリのインスティテュート・アンリ・ポアンカレで開催された。 HCVSは、制約/ロジックプログラミング(例:ICLPとCP)、プログラム検証(例:CAV、TACAS、VMCAI)、自動推論(例:CADE、IJCAR)の2つのコミュニティで働く研究者をホルン節に基づく分析、検証、合成のトピックにまとめることを目的としている。

This volume contains * The post-proceedings of the Eighteenth Logical and Semantic Frameworks with Applications (LSFA 2023). The meeting was held on July 1-2, 2023, organised by the Sapienza Universit\`a di Roma, Italy. LSFA aims to bring researchers and students interested in theoretical and practical aspects of logical and semantic frameworks and their applications. The covered topics include proof theory, type theory and rewriting theory, specification and deduction languages, and formal semantics of languages and systems. * The post-proceedings of the Tenth Workshop on Horn clauses for Verification and Synthesis (HCVS 2023). The meeting was held on April 23, 2023 at the Institut Henri Poincar\'e in Paris. HCVS aims to bring together researchers working in the two communities of constraint/ logic programming (e.g., ICLP and CP), program verification (e.g., CAV, TACAS, and VMCAI), and automated deduction (e.g., CADE, IJCAR), on the topics of Horn clause based analysis, verification, and synthesis.
翻訳日:2024-04-23 18:01:50 公開日:2024-04-21
# リアルライセンスプレートのデブロアリングのためのデータセットとモデル

A Dataset and Model for Realistic License Plate Deblurring ( http://arxiv.org/abs/2404.13677v1 )

ライセンス: Link先を確認
Haoyan Gong, Yuzheng Feng, Zhenrong Zhang, Xianxu Hou, Jingxin Liu, Siqi Huang, Hongbin Liu, (参考訳) 車両ナンバープレート認識はインテリジェント交通管理システムにおいて重要な課題である。 しかし、高速移動車からの運動のぼやけにより、正確な認識を実現するという課題は継続する。 既存のデブロアリングと認識アルゴリズムに画像合成アプローチが広く用いられているにもかかわらず、現実のシナリオにおけるそれらの有効性は証明されていない。 これを解決するために,デュアルカメラシステムによってキャプチャされ,処理後パイプラインを通じて処理されるライセンスプレートブラア(LPBlur)と呼ばれる,最初の大規模ライセンスプレートデブロアデータセットを紹介した。 そこで我々は,ライセンスプレートデブロアリングに対処するライセンスプレートデブロアリングジェネレーティブ・アドバイザリアル・ネットワーク(LPDGAN)を提案する。 1) マルチスケール潜伏符号を統合する機能融合モジュール 2 テクスト復元モジュールは、テクストのモダリティにより構造を復元する。 3) 分割識別器モジュールは、各文字の細部に対するモデルの認識を高める。 モデルトレーニングとテストの両方において,LPBlurデータセットの信頼性が検証され,本モデルが現実的なナンバープレートの劣化シナリオにおいて,他の最先端の動作不良手法よりも優れていることが示された。 データセットとコードはhttps://github.com/haoyGONG/LPDGANで公開されている。

Vehicle license plate recognition is a crucial task in intelligent traffic management systems. However, the challenge of achieving accurate recognition persists due to motion blur from fast-moving vehicles. Despite the widespread use of image synthesis approaches in existing deblurring and recognition algorithms, their effectiveness in real-world scenarios remains unproven. To address this, we introduce the first large-scale license plate deblurring dataset named License Plate Blur (LPBlur), captured by a dual-camera system and processed through a post-processing pipeline to avoid misalignment issues. Then, we propose a License Plate Deblurring Generative Adversarial Network (LPDGAN) to tackle the license plate deblurring: 1) a Feature Fusion Module to integrate multi-scale latent codes; 2) a Text Reconstruction Module to restore structure through textual modality; 3) a Partition Discriminator Module to enhance the model's perception of details in each letter. Extensive experiments validate the reliability of the LPBlur dataset for both model training and testing, showcasing that our proposed model outperforms other state-of-the-art motion deblurring methods in realistic license plate deblurring scenarios. The dataset and code are available at https://github.com/haoyGONG/LPDGAN.
翻訳日:2024-04-23 17:52:06 公開日:2024-04-21
# GScream:物体除去のための3次元形状と特徴一致型ガウススプラッティングの学習

GScream: Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal ( http://arxiv.org/abs/2404.13679v1 )

ライセンス: Link先を確認
Yuxin Wang, Qianyi Wu, Guofeng Zhang, Dan Xu, (参考訳) 本稿では,3次元ガウス散乱を用いた放射場更新のために,物体除去の複雑な課題に取り組む。 この課題の主な課題は、幾何学的整合性の保存と、ガウス原始体の実質的な離散的性質の存在下でのテクスチャコヒーレンス維持である。 これらの障害を克服するために特別に設計された堅牢なフレームワークを導入します。 われわれのアプローチの鍵となる洞察は、目に見える領域と見えない領域の間での情報交換の促進であり、幾何学とテクスチャの両方の観点からコンテンツ復元を促進することである。 本手法は,単眼深度推定によるオンライン登録プロセスによって導かれる,除去領域と可視領域の両方における幾何的整合性を改善するために,ガウス原始体の位置決めを最適化することから始まる。 これに続いて,テクスチャのコヒーレンスを高めるために,不確実領域と特定領域の両方からガウスをサンプリングするクロスアテンション設計を利用する,新しい特徴伝播機構を採用した。 この革新的なアプローチは最終放射場におけるテクスチャコヒーレンスを著しく改善する。 広汎な実験により,本手法はオブジェクト除去中のシーンにおける新規ビュー合成の質を高めるだけでなく,トレーニングやレンダリングの速度において顕著な効率向上を示す。

This paper tackles the intricate challenge of object removal to update the radiance field using the 3D Gaussian Splatting. The main challenges of this task lie in the preservation of geometric consistency and the maintenance of texture coherence in the presence of the substantial discrete nature of Gaussian primitives. We introduce a robust framework specifically designed to overcome these obstacles. The key insight of our approach is the enhancement of information exchange among visible and invisible areas, facilitating content restoration in terms of both geometry and texture. Our methodology begins with optimizing the positioning of Gaussian primitives to improve geometric consistency across both removed and visible areas, guided by an online registration process informed by monocular depth estimation. Following this, we employ a novel feature propagation mechanism to bolster texture coherence, leveraging a cross-attention design that bridges sampling Gaussians from both uncertain and certain areas. This innovative approach significantly refines the texture coherence within the final radiance field. Extensive experiments validate that our method not only elevates the quality of novel view synthesis for scenes undergoing object removal but also showcases notable efficiency gains in training and rendering speeds.
翻訳日:2024-04-23 17:52:06 公開日:2024-04-21
# PoseAnimate: ゼロショット高忠実ポーズコントロール可能なキャラクターアニメーション

PoseAnimate: Zero-shot high fidelity pose controllable character animation ( http://arxiv.org/abs/2404.13680v1 )

ライセンス: Link先を確認
Bingwen Zhu, Fanyi Wang, Tianyi Lu, Peng Liu, Jingwen Su, Jinxiu Liu, Yanhao Zhang, Zuxuan Wu, Yu-Gang Jiang, Guo-Jun Qi, (参考訳) I2V(Image-to-Video)生成は,画像の高時間的コヒーレンスと視覚的忠実度を必要とする単一画像から映像シーケンスを作成することを目的としているが,既存のアプローチでは文字の不整合や細部保存の難しさに悩まされている。 さらに、これらの制限に対処するため、文字アニメーションのための新しいゼロショットI2VフレームワークであるPoseAnimateを提案し、PoseAnimateには3つの重要なコンポーネントが含まれている。 1) Pose-Aware Control Module (PACM) は、さまざまなポーズ信号を条件付き埋め込みに組み込んで、文字非依存のコンテンツを保存し、動作の正確なアライメントを維持する。2) Dual Consistency Attention Module (DCAM) は、時間的整合性を高め、文字識別と複雑な背景の詳細を維持する。3) Mask-Guided Decoupling Module (MGDM) は、特徴認識を洗練し、文字と背景をデカップリングすることでアニメーションの忠実性を向上させる。また、PATA (Pose Alignment Transition Algorithm) を提案し、スムーズな動作遷移を保証する。 さらに、生成されたアニメーション全体を通して、高レベルの時間的コヒーレンスを維持している。

Image-to-video(I2V) generation aims to create a video sequence from a single image, which requires high temporal coherence and visual fidelity with the source image.However, existing approaches suffer from character appearance inconsistency and poor preservation of fine details. Moreover, they require a large amount of video data for training, which can be computationally demanding.To address these limitations,we propose PoseAnimate, a novel zero-shot I2V framework for character animation.PoseAnimate contains three key components: 1) Pose-Aware Control Module (PACM) incorporates diverse pose signals into conditional embeddings, to preserve character-independent content and maintain precise alignment of actions.2) Dual Consistency Attention Module (DCAM) enhances temporal consistency, and retains character identity and intricate background details.3) Mask-Guided Decoupling Module (MGDM) refines distinct feature perception, improving animation fidelity by decoupling the character and background.We also propose a Pose Alignment Transition Algorithm (PATA) to ensure smooth action transition.Extensive experiment results demonstrate that our approach outperforms the state-of-the-art training-based methods in terms of character consistency and detail fidelity. Moreover, it maintains a high level of temporal coherence throughout the generated animations.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# データレイク上の再現可能なデータサイエンス:BauplanとNessieによる再生可能なデータパイプライン

Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie ( http://arxiv.org/abs/2404.13682v1 )

ライセンス: Link先を確認
Jacopo Tagliabue, Ciro Greco, (参考訳) Lakehouseアーキテクチャがより広く普及するにつれて、データレイクに対するデータワークロードの再現性を保証することが、データエンジニアにとって重要な関心事として現れます。 しかし、再現性の達成は依然として困難である。 データパイプラインのサイズは、遅いテストとイテレーションに寄与する一方、ビジネスロジックとデータ管理の相互運用は、デバッグを複雑にし、エラーの感受性を高める。 本稿では,この課題に対処する上で,Bauplanの最近の進歩に注目した。 我々は,Gitセマンティクスを備えたオープンソースカタログであるNessieとともに,クラウドランタイムを活用することにより,計算とデータ管理を分離するように設計されたシステムを紹介した。 システムの機能を実証して、オブジェクトストレージ上にタイムトラバーと分岐セマンティクスを提供する機能を示し、いくつかのCLIコマンドで完全なパイプライン再現性を提供します。

As the Lakehouse architecture becomes more widespread, ensuring the reproducibility of data workloads over data lakes emerges as a crucial concern for data engineers. However, achieving reproducibility remains challenging. The size of data pipelines contributes to slow testing and iterations, while the intertwining of business logic and data management complicates debugging and increases error susceptibility. In this paper, we highlight recent advancements made at Bauplan in addressing this challenge. We introduce a system designed to decouple compute from data management, by leveraging a cloud runtime alongside Nessie, an open-source catalog with Git semantics. Demonstrating the system's capabilities, we showcase its ability to offer time-travel and branching semantics on top of object storage, and offer full pipeline reproducibility with a few CLI commands.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# Hyper-SD:効率的な画像合成のための軌道分割一貫性モデル

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis ( http://arxiv.org/abs/2404.13686v1 )

ライセンス: Link先を確認
Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao, (参考訳) 近年,拡散モデル(DM)の多段階推論プロセスに伴う計算オーバーヘッドを軽減するために,拡散対応蒸留アルゴリズムが出現している。 現在の蒸留技術は、しばしば2つの異なる側面に二分される。 一 腺軌道保存 二 ODE軌道の改定 しかし、これらのアプローチは厳しいパフォーマンス劣化やドメインシフトに悩まされる。 これらの制約に対処するため,ステップ圧縮時にほぼ無作為な性能を維持しつつ,ODEトラジェクトリ保存と改革の利点を相乗的に満たす新しいフレームワークであるHyper-SDを提案する。 まず, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入し, 高次視点からのオリジナルODEトラジェクトリの保存を容易にし, あらかじめ定義された時間ステップセグメント内で一貫した蒸留を行う。 第2に,人間のフィードバック学習を取り入れて,低段階のシステムにおけるモデルの性能向上と,蒸留プロセスによって生じる性能損失の軽減を図る。 第3に,モデルの低ステップ生成能力を向上するためにスコア蒸留を統合し,全てのステップで推論プロセスをサポートするために,統一されたLoRAを活用するための最初の試みを提供する。 大規模な実験とユーザスタディにより、Hyper-SDはSDXLとSD1.5の両方で1から8の推論ステップでSOTA性能を達成することが示された。 例えば、Hyper-SDXLはCLIP Scoreで+0.68、Aes Scoreで+0.51、SDXL-Lightningで+0.68を上回っている。

Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 逐次仮説テストを用いたオートエンコーダを用いた妥協IoTデバイスの検出

Detecting Compromised IoT Devices Using Autoencoders with Sequential Hypothesis Testing ( http://arxiv.org/abs/2404.13690v1 )

ライセンス: Link先を確認
Md Mainuddin, Zhenhai Duan, Yingfei Dong, (参考訳) IoTデバイスは基本的に、セキュリティ攻撃から身を守るためのセキュリティメカニズムが組み込まれていない。 既存のIoTセキュリティの改善作業は主に、IoTデバイスの異常な動作の検出に重点を置いている。 しかし、これらの既存の異常検出スキームは圧倒的に多くの誤報を引き起こし、侵入されたIoTデバイスを検出できない可能性がある。 本稿では,CUMADと名づけられたIoTデバイスを効果的かつ効率的に検出するフレームワークを開発する。 CUMADは、個々の異常イベントを直接依存するのではなく、自動エンコーダベースの異常検出サブシステムとシーケンシャル確率比テスト(SPRT)ベースのシーケンシャル仮説テストサブシステムを統合することで、妥協したIoTデバイスを検出する上で十分な証拠を蓄積することを目指している。 CUMADは、侵入したIoTデバイスを検出する際の誤警報の数を効果的に削減し、また、侵入したIoTデバイスを迅速に検出する。 パブリックドメインのN-Ba IoTデータセットに基づく評価研究により、CUMADは、オートエンコーダベースの異常検出スキームのみを使用して、偽陽性率を平均3.57%から約0.5%に下げることができた。

IoT devices fundamentally lack built-in security mechanisms to protect themselves from security attacks. Existing works on improving IoT security mostly focus on detecting anomalous behaviors of IoT devices. However, these existing anomaly detection schemes may trigger an overwhelmingly large number of false alerts, rendering them unusable in detecting compromised IoT devices. In this paper we develop an effective and efficient framework, named CUMAD, to detect compromised IoT devices. Instead of directly relying on individual anomalous events, CUMAD aims to accumulate sufficient evidence in detecting compromised IoT devices, by integrating an autoencoder-based anomaly detection subsystem with a sequential probability ratio test (SPRT)-based sequential hypothesis testing subsystem. CUMAD can effectively reduce the number of false alerts in detecting compromised IoT devices, and moreover, it can detect compromised IoT devices quickly. Our evaluation studies based on the public-domain N-BaIoT dataset show that CUMAD can on average reduce the false positive rate from about 3.57% using only the autoencoder-based anomaly detection scheme to about 0.5%; in addition, CUMAD can detect compromised IoT devices quickly, with less than 5 observations on average.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 産業環境における腐食の3次元セマンティック・ジオメトリーマッピングの自動化システム

A Complete System for Automated 3D Semantic-Geometric Mapping of Corrosion in Industrial Environments ( http://arxiv.org/abs/2404.13691v1 )

ライセンス: Link先を確認
Rui Pimentel de Figueiredo, Stefan Nordborg Eriksen, Ignacio Rodriguez, Simon Bøgh, (参考訳) 金属材料の劣化につながる自然発生過程である腐食は、特に工業的文脈において、品質管理と金属系物質の保存のための厳密な検出を要求する。 超音波検査、ラジオグラフィー検査、磁束漏れなど、従来の腐食識別技術は、効率的なデータ取得のために高価でかさばる機器を現場に配置する必要がある。 探索されていない代替手段としては、軽量で従来のカメラシステムと最先端のコンピュータビジョン手法をその識別に使用することが含まれる。 本研究では, 産業環境における半自動腐食識別とマッピングのための完全システムを提案する。 我々は,産業環境のセマンティック・ジオメトリ・マップを構築するために,視覚に基づくセマンティックセグメンテーション深層学習技術を用いて,LiDARに基づくローカライゼーションとマッピング手法の最近の進歩を活用している。 文献で利用可能な従来の腐食識別システムとは異なり、我々の設計したマルチモーダルシステムは低コストでポータブルで半自律的であり、訓練されていない人によって大規模なデータセットを収集することができる。 室内実験環境における一連の実験は、LiDARをベースとした3Dマッピングとローカライゼーションシステムの精度を定量的に証明し、平均的な絶対的および相対的なポーズ誤差は0.05m$と0.02m以下である。 また、我々のデータ駆動セマンティックセグメンテーションモデルでは、ピクセル単位で手動でアノテートしたデータセットでトレーニングすると、約70倍の精度が得られる。

Corrosion, a naturally occurring process leading to the deterioration of metallic materials, demands diligent detection for quality control and the preservation of metal-based objects, especially within industrial contexts. Traditional techniques for corrosion identification, including ultrasonic testing, radio-graphic testing, and magnetic flux leakage, necessitate the deployment of expensive and bulky equipment on-site for effective data acquisition. An unexplored alternative involves employing lightweight, conventional camera systems, and state-of-the-art computer vision methods for its identification. In this work, we propose a complete system for semi-automated corrosion identification and mapping in industrial environments. We leverage recent advances in LiDAR-based methods for localization and mapping, with vision-based semantic segmentation deep learning techniques, in order to build semantic-geometric maps of industrial environments. Unlike previous corrosion identification systems available in the literature, our designed multi-modal system is low-cost, portable, semi-autonomous and allows collecting large datasets by untrained personnel. A set of experiments in an indoor laboratory environment, demonstrate quantitatively the high accuracy of the employed LiDAR based 3D mapping and localization system, with less then $0.05m$ and 0.02m average absolute and relative pose errors. Also, our data-driven semantic segmentation model, achieves around 70\% precision when trained with our pixel-wise manually annotated dataset.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 都市規模の屋根緑化の優先と利益に関する持続可能な開発展望

A sustainable development perspective on urban-scale roof greening priorities and benefits ( http://arxiv.org/abs/2404.13692v1 )

ライセンス: Link先を確認
Jie Shao, Wei Yao, Lei Luo, Linzhou Zeng, Zhiyi He, Puzuo Wang, Huadong Guo, (参考訳) グリーンスペースは人間の幸福と密接に結びついている。 しかし、急速な都市化はグリーンスペースの露出不平等を悪化させ、人間の生活の質を低下させた。 ルーフの緑化は、これらの負の影響を緩和するための効果的な戦略として認識されている。 優先事項と利益を理解することは、緑の屋根の促進に不可欠である。 ここでは、地理空間的ビッグデータを用いて、持続可能な開発の観点から、香港の1棟の建物レベルで屋根緑化の都市規模評価を行う。 85.3 %の建物が、屋根の緑化のポテンシャルと緊急需要を明らかにしている。 さらに,緑屋根は,年間数億(HK)の経済的利益を産出するが,都市熱緩和 (\textasciitilde0.15\degree{C}) や年間炭素排出オフセット (\textasciitilde0.8\%) では少なからぬ役割を果たしている。 本研究は屋上緑化を総合的に評価し,データ利用からソリューションや知見に至るまで,世界中の都市における持続可能な開発への言及を提供するものである。

Greenspaces are tightly linked to human well-being. Yet, rapid urbanization has exacerbated greenspace exposure inequality and declining human life quality. Roof greening has been recognized as an effective strategy to mitigate these negative impacts. Understanding priorities and benefits is crucial to promoting green roofs. Here, using geospatial big data, we conduct an urban-scale assessment of roof greening at a single building level in Hong Kong from a sustainable development perspective. We identify that 85.3\% of buildings reveal potential and urgent demand for roof greening. We further find green roofs could increase greenspace exposure by \textasciitilde61\% and produce hundreds of millions (HK\$) in economic benefits annually but play a small role in urban heat mitigation (\textasciitilde0.15\degree{C}) and annual carbon emission offsets (\textasciitilde0.8\%). Our study offers a comprehensive assessment of roof greening, which could provide reference for sustainable development in cities worldwide, from data utilization to solutions and findings.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# PV-S3:セミスーパービジョンによるエレクトロルミネッセンス画像のセマンティックセグメンテーションによる自動太陽電池欠陥検出の改善

PV-S3: Advancing Automatic Photovoltaic Defect Detection using Semi-Supervised Semantic Segmentation of Electroluminescence Images ( http://arxiv.org/abs/2404.13693v1 )

ライセンス: Link先を確認
Abhishek Jha, Yogesh Rawat, Shruti Vyas, (参考訳) 太陽光発電(PV)システムにより、豊富な太陽エネルギーを利用できるが、高い効率と劣化防止のためには定期的なメンテナンスが必要である。 エレクトロルミネッセンス(EL)イメージングを用いた従来の手動健康チェックは高価で、論理的には自動欠陥検出が不可欠である。 現在の自動化アプローチでは、大規模な手作業による専門家のラベル付けが必要になります。 EL画像における欠陥のセマンティックセグメンテーションのための半教師付き学習手法であるPV-S3(Photovoltaic-Semi Supervised Segmentation)を提案する。 PV-S3は、ラベル付きイメージと多数のラベル付きイメージを使用してトレーニングされたディープラーニングモデルである。 本稿では,多様な欠陥タイプやクラス不均衡など,自動PV欠陥検出に特有の課題に対処する,PV-S3の訓練用セミクロスエントロピー損失関数を提案する。 PV-S3を複数のデータセット上で評価し,その有効性と適応性を示す。 単に20%のラベル付きサンプルでIoUが9.7%、精度が29.9%、リコールが12.75%、F1-Scoreが20.42%という絶対的な改善を実現した。

Photovoltaic (PV) systems allow us to tap into all abundant solar energy, however they require regular maintenance for high efficiency and to prevent degradation. Traditional manual health check, using Electroluminescence (EL) imaging, is expensive and logistically challenging making automated defect detection essential. Current automation approaches require extensive manual expert labeling, which is time-consuming, expensive, and prone to errors. We propose PV-S3 (Photovoltaic-Semi Supervised Segmentation), a Semi-Supervised Learning approach for semantic segmentation of defects in EL images that reduces reliance on extensive labeling. PV-S3 is a Deep learning model trained using a few labeled images along with numerous unlabeled images. We introduce a novel Semi Cross-Entropy loss function to train PV-S3 which addresses the challenges specific to automated PV defect detection, such as diverse defect types and class imbalance. We evaluate PV-S3 on multiple datasets and demonstrate its effectiveness and adaptability. With merely 20% labeled samples, we achieve an absolute improvement of 9.7% in IoU, 29.9% in Precision, 12.75% in Recall, and 20.42% in F1-Score over prior state-of-the-art supervised method (which uses 100% labeled samples) on UCF-EL dataset (largest dataset available for semantic segmentation of EL images) showing improvement in performance while reducing the annotation costs by 80%.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 高次元におけるリサンプリングフリー粒子フィルタ

Resampling-free Particle Filters in High-dimensions ( http://arxiv.org/abs/2404.13698v1 )

ライセンス: Link先を確認
Akhilan Boopathy, Aneesh Muppidi, Peggy Yang, Abhiram Iyer, William Yue, Ila Fiete, (参考訳) 状態推定は、多数のロボットアプリケーションの性能と安全性に不可欠である。 推定手法の組の中で、粒子フィルタは非パラメトリックな性質から強力な解として認識されている。 しかし、高次元状態空間では、これらのフィルターは真の後部分布の正確な表現を妨げる「粒子除去」のような課題に直面している。 本稿では, 従来の再サンプリング工程を省略して, 粒子除去を緩和する新しい再サンプリングフリー粒子フィルタを提案する。 これにより、より広く、より多様な粒子集合、特に高次元シナリオにおいて不可欠となる。 理論的には,提案したフィルタは,高次元文脈における所望の後方分布のほぼ正確な表現を提供する。 実験により,本手法の有効性は,高次元合成状態推定タスクとビデオから導出した6次元ポーズ推定によって評価される。 ロボットシステムがより大きな自由度で進化するにつれて、高次元状態空間に適した粒子フィルタは不可欠であると仮定する。

State estimation is crucial for the performance and safety of numerous robotic applications. Among the suite of estimation techniques, particle filters have been identified as a powerful solution due to their non-parametric nature. Yet, in high-dimensional state spaces, these filters face challenges such as 'particle deprivation' which hinders accurate representation of the true posterior distribution. This paper introduces a novel resampling-free particle filter designed to mitigate particle deprivation by forgoing the traditional resampling step. This ensures a broader and more diverse particle set, especially vital in high-dimensional scenarios. Theoretically, our proposed filter is shown to offer a near-accurate representation of the desired posterior distribution in high-dimensional contexts. Empirically, the effectiveness of our approach is underscored through a high-dimensional synthetic state estimation task and a 6D pose estimation derived from videos. We posit that as robotic systems evolve with greater degrees of freedom, particle filters tailored for high-dimensional state spaces will be indispensable.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 指数量子ワンウェイネスとEFIペア

Exponential Quantum One-Wayness and EFI Pairs ( http://arxiv.org/abs/2404.13699v1 )

ライセンス: Link先を確認
Giulio Malavolta, Tomoyuki Morimae, Michael Walter, Takashi Yamakawa, (参考訳) 古典暗号では、一方通行関数は最小の計算仮定であると広く考えられている。 しかし、量子情報を考慮に入れると、状況はより微妙になる。 片方向関数の探索量子一般化は片方向状態発生器(OWSG)であり、決定的変種はEFI対である。 量子暗号におけるよく知られたオープン問題は、これらの2つのプリミティブがどのように関連しているかを理解することである。 Khurana と Tomer (STOC'24) の最近のブレークスルーの結果は、純粋な状態の制限された場合、OWSG が EFI 対を意味することを示している。 本研究は,一般事例の理解に向けて進展する。 この目的のために、検証アルゴリズムが効率的でなくてもよい非効率な一方向状態生成器(IV-OWSG)の概念を定義し、これらがEFI対と正確に等価であることを示す。 重要なことに、この同値性は混合状態にも当てはまる。 混合) OWSGs => (混合) IV-OWSGs $\equiv_{\rm exp}$ EFI pairs ここで、$\equiv_{\rm exp}$はプリミティブの指数的セキュリティまでの等価性を示す。

In classical cryptography, one-way functions are widely considered to be the minimal computational assumption. However, when taking quantum information into account, the situation is more nuanced. There are currently two major candidates for the minimal assumption: the search quantum generalization of one-way functions are one-way state generators (OWSG), whereas the decisional variant are EFI pairs. A well-known open problem in quantum cryptography is to understand how these two primitives are related. A recent breakthrough result of Khurana and Tomer (STOC'24) shows that OWSGs imply EFI pairs, for the restricted case of pure states. In this work, we make progress towards understanding the general case. To this end, we define the notion of inefficiently-verifiable one-way state generators (IV-OWSGs), where the verification algorithm is not required to be efficient, and show that these are precisely equivalent to EFI pairs, with an exponential loss in the reduction. Significantly, this equivalence holds also for mixed states. Thus our work establishes the following relations among these fundamental primitives of quantum cryptography: (mixed) OWSGs => (mixed) IV-OWSGs $\equiv_{\rm exp}$ EFI pairs, where $\equiv_{\rm exp}$ denotes equivalence up to exponential security of the primitives.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 意味再構成に基づく領域一般化セグメンテーションのための多層アライメント

Semantic-Rearrangement-Based Multi-Level Alignment for Domain Generalized Segmentation ( http://arxiv.org/abs/2404.13701v1 )

ライセンス: Link先を確認
Guanlong Jiao, Chenyangguang Zhang, Haonan Yin, Yu Mo, Biqing Huang, Hui Pan, Yi Luo, Jingxian Liu, (参考訳) ドメイン一般化セマンティックセグメンテーション(Domain Generalized semantic segmentation)は重要なコンピュータビジョンタスクであり、モデルはソースデータのみを活用して、一般化セマンティックセグメンテーションの能力を未知のターゲットドメインに向けて学習する。 従来の研究は、グローバルなスタイルのランダム化や機能正規化によって、この問題に対処してきた。 本稿では、異なる局所意味領域がソースドメインから対象ドメインへ異なる視覚的特徴を持つという観察から、グローバルな操作に焦点を当てた手法は、そのような地域的不一致を捉えることは困難であり、したがって、局所的からグローバル的なレベルの整合性を持ったドメイン不変表現の構築に失敗する、と論じる。 そこで本研究では,セマンティック・アレンジメントに基づくマルチレベルアライメント(SRMA)を提案する。 SRMAはまずセマンティック・リアレンジメント・モジュール(SRM)を組み込み、ソース領域の多様性を十分に向上するために意味領域のランダム化を行う。 マルチレベルアライメントモジュール (MLA) は、グローバルな局所的な一貫したドメイン不変表現を確立するために、そのような多様性の助けを借りて提案される。 ランダム化されたサンプルとドメインニュートラルな知識を複数のレベルで整合させることで、SRMAはソースとターゲットのドメインギャップを処理するより堅牢な方法を提供します。 広範囲にわたる実験は、SRMAが様々なベンチマークにおける現在の最先端の研究よりも優れていることを示した。

Domain generalized semantic segmentation is an essential computer vision task, for which models only leverage source data to learn the capability of generalized semantic segmentation towards the unseen target domains. Previous works typically address this challenge by global style randomization or feature regularization. In this paper, we argue that given the observation that different local semantic regions perform different visual characteristics from the source domain to the target domain, methods focusing on global operations are hard to capture such regional discrepancies, thus failing to construct domain-invariant representations with the consistency from local to global level. Therefore, we propose the Semantic-Rearrangement-based Multi-Level Alignment (SRMA) to overcome this problem. SRMA first incorporates a Semantic Rearrangement Module (SRM), which conducts semantic region randomization to enhance the diversity of the source domain sufficiently. A Multi-Level Alignment module (MLA) is subsequently proposed with the help of such diversity to establish the global-regional-local consistent domain-invariant representations. By aligning features across randomized samples with domain-neutral knowledge at multiple levels, SRMA provides a more robust way to handle the source-target domain gap. Extensive experiments demonstrate the superiority of SRMA over the current state-of-the-art works on various benchmarks.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 銀河固有のアライメント相関の学習

Learning Galaxy Intrinsic Alignment Correlations ( http://arxiv.org/abs/2404.13702v1 )

ライセンス: Link先を確認
Sneh Pandya, Yuanyuan Yang, Nicholas Van Alfen, Jonathan Blazek, Robin Walters, (参考訳) 銀河の内在的なアライメント(IA)は、弱いレンズ分析において汚染物質と見なされ、重力潮流相互作用と銀河形成過程による銀河の形状の相関を表現している。 このように、IAの理解は、弱いレンズ調査による正確な宇宙学的推測にとって最重要であるが、IAの理解と緩和の1つの限界は、高価なシミュレーションに基づくモデリングである。 本研究では,銀河の位置位置(\xi$),位置指向(\omega$),方向指向(\eta$)相関関数の測定とハロ占有分布に基づく模擬銀河カタログからの不確かさをエミュレートする深層学習手法を提案する。 3つの相関関数全てにまたがるモデルとの強いピアソン相関値を求め, 平均分散推定訓練により, さらにアレタリック不確かさを予測した。 $\xi(r)$予測は通常$\leq10\%$に正確である。 我々のモデルは、平均精度が低いにもかかわらず、ノイズ相関の根底にあるシグナルを$\omega(r)$と$\eta(r)$で捉えることに成功している。 モデルの性能はデータの確率性によって抑制され、複数のデータ実現平均の相関から恩恵を受けることが判明した。 私たちのコードは、ジャーナルの発行時にオープンソース化されます。

The intrinsic alignments (IA) of galaxies, regarded as a contaminant in weak lensing analyses, represents the correlation of galaxy shapes due to gravitational tidal interactions and galaxy formation processes. As such, understanding IA is paramount for accurate cosmological inferences from weak lensing surveys; however, one limitation to our understanding and mitigation of IA is expensive simulation-based modeling. In this work, we present a deep learning approach to emulate galaxy position-position ($\xi$), position-orientation ($\omega$), and orientation-orientation ($\eta$) correlation function measurements and uncertainties from halo occupation distribution-based mock galaxy catalogs. We find strong Pearson correlation values with the model across all three correlation functions and further predict aleatoric uncertainties through a mean-variance estimation training procedure. $\xi(r)$ predictions are generally accurate to $\leq10\%$. Our model also successfully captures the underlying signal of the noisier correlations $\omega(r)$ and $\eta(r)$, although with a lower average accuracy. We find that the model performance is inhibited by the stochasticity of the data, and will benefit from correlations averaged over multiple data realizations. Our code will be made open source upon journal publication.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# PEMMA: 医用画像分割のためのパラメータ効率の良い多モード適応

PEMMA: Parameter-Efficient Multi-Modal Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2404.13704v1 )

ライセンス: Link先を確認
Nada Saadi, Numan Saeed, Mohammad Yaqub, Karthik Nandakumar, (参考訳) Computed Tomography (CT) や Positron Emission Tomography (PET) などの画像モダリティは、がん検出において重要な要素であり、これらのスキャンを腫瘍セグメンテーションにマージするDeep Neural Networks (DNN) モデルに刺激を与える。 CTとPETの両方のスキャンが利用可能であれば、それらをセグメンテーションモデルへの入力の2つのチャネルとして組み合わせることが一般的である。 しかし、この方法はトレーニングと推論の両方のスキャンタイプを必要とするため、PETスキャンが限られたため、時にはCTスキャンのみに制限される。 したがって、CTスキャンのみで訓練・更新できるフレキシブルなDNNアーキテクチャを開発する必要があるが、PETスキャンが利用可能になった時に効果的に利用することができる。 本研究では,CTスキャンのみを用いてトレーニングされたトランスフォーマーベースセグメンテーションモデルの軽量アップグレードのためのパラメータ効率・マルチモーダル適応(PEMMA)フレームワークを提案する。 提案手法の利点は2つある。 まず、トランスアーキテクチャの固有のモジュラリティを活用し、注目重みのローランク適応(LoRA)を行い、パラメータ効率のよい適応を実現する。 第二に、PEMMAフレームワークは、クロスモーダルの絡み合いを最小化しようとするため、その後、1つのモーダルのみを用いて、他のモーダルを破滅的に忘れることなく、組み合わせたモデルを更新することができる。 提案手法は, トレーニング可能なパラメータのわずか8%で早期融合法の性能を比較検討し, 特にPETスキャンにおける平均ダイススコアが28%向上した。

Imaging modalities such as Computed Tomography (CT) and Positron Emission Tomography (PET) are key in cancer detection, inspiring Deep Neural Networks (DNN) models that merge these scans for tumor segmentation. When both CT and PET scans are available, it is common to combine them as two channels of the input to the segmentation model. However, this method requires both scan types during training and inference, posing a challenge due to the limited availability of PET scans, thereby sometimes limiting the process to CT scans only. Hence, there is a need to develop a flexible DNN architecture that can be trained/updated using only CT scans but can effectively utilize PET scans when they become available. In this work, we propose a parameter-efficient multi-modal adaptation (PEMMA) framework for lightweight upgrading of a transformer-based segmentation model trained only on CT scans to also incorporate PET scans. The benefits of the proposed approach are two-fold. Firstly, we leverage the inherent modularity of the transformer architecture and perform low-rank adaptation (LoRA) of the attention weights to achieve parameter-efficient adaptation. Secondly, since the PEMMA framework attempts to minimize cross modal entanglement, it is possible to subsequently update the combined model using only one modality, without causing catastrophic forgetting of the other modality. Our proposed method achieves comparable results with the performance of early fusion techniques with just 8% of the trainable parameters, especially with a remarkable +28% improvement on the average dice score on PET scans when trained on a single modality.
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# 拡散モデルにおける概念阻害の回避のための概念算術

Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models ( http://arxiv.org/abs/2404.13706v1 )

ライセンス: Link先を確認
Vitali Petsiuk, Kate Saenko, (参考訳) 倫理的、法的懸念から動機づけられた科学コミュニティは、生成した画像の著作権、暴力的、明示的、または個人情報を再現するためのテキスト・画像拡散モデルの誤用を制限する方法を積極的に開発している。 同時に研究者たちは、新たに開発された安全対策を、敵が脆弱性やバックドアを見つける役割を前提としてテストに投入した。 拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。 この性質により、このベクトルの直接計算がもはやアクセスできないにもかかわらず、阻害の影響を受けない他の概念を組み合わせることができ、ターゲットとなる概念生成に責任を持つベクトルを再構成することができる。 提案した攻撃がなぜ可能かの理論的および実証的な証拠を提供し、これらの発見が安全なモデル展開にもたらす影響について議論する。 本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。 本研究は,拡散モデルにおける概念算術の影響と,安全機構の合成推論に関する議論を開講する。 コンテンツアドバイザリー(Content Advisory): 攻撃的と考えられるかもしれない議論とモデル生成コンテンツを含む。 読者の判断は推奨される。 プロジェクトページ:https://cs-people.bu.edu/vpetsiuk/arc

Motivated by ethical and legal concerns, the scientific community is actively developing methods to limit the misuse of Text-to-Image diffusion models for reproducing copyrighted, violent, explicit, or personal information in the generated images. Simultaneously, researchers put these newly developed safety measures to the test by assuming the role of an adversary to find vulnerabilities and backdoors in them. We use compositional property of diffusion models, which allows to leverage multiple prompts in a single image generation. This property allows us to combine other concepts, that should not have been affected by the inhibition, to reconstruct the vector, responsible for target concept generation, even though the direct computation of this vector is no longer accessible. We provide theoretical and empirical evidence why the proposed attacks are possible and discuss the implications of these findings for safe model deployment. We argue that it is essential to consider all possible approaches to image generation with diffusion models that can be employed by an adversary. Our work opens up the discussion about the implications of concept arithmetics and compositional inference for safety mechanisms in diffusion models. Content Advisory: This paper contains discussions and model-generated content that may be considered offensive. Reader discretion is advised. Project page: https://cs-people.bu.edu/vpetsiuk/arc
翻訳日:2024-04-23 17:52:05 公開日:2024-04-21
# SVGEditBench: LLMのSVG編集能力の定量的評価のためのベンチマークデータセット

SVGEditBench: A Benchmark Dataset for Quantitative Assessment of LLM's SVG Editing Capabilities ( http://arxiv.org/abs/2404.13710v1 )

ライセンス: Link先を確認
Kunato Nishina, Yusuke Matsui, (参考訳) テキスト・ツー・イメージ・モデルは近年進歩している。 この進歩に伴い、テキストからベクトルグラフィックスを生成する方法も進歩した。 SVGはベクトルグラフィックスの一般的なフォーマットであり、SVGはXMLテキストでシーンを表す。 したがって、大規模言語モデルはSVGコードを直接処理することができる。 これを考慮し,SVG を LLM で編集することに焦点をあてた。 LLMのSVG編集能力の定量的評価のために,SVGEditBenchを提案する。 SVGEditBenchは、SVGコードの編集能力を評価するためのベンチマークである。 また,GPT-4 と GPT-3.5 の結果をベンチマークで評価した。 実験では, GPT-4はGPT-3.5よりも定量的および定性的に優れた性能を示した。 データセットはhttps://github.com/mti-lab/SVGEditBench.comで公開されている。

Text-to-image models have shown progress in recent years. Along with this progress, generating vector graphics from text has also advanced. SVG is a popular format for vector graphics, and SVG represents a scene with XML text. Therefore, Large Language Models can directly process SVG code. Taking this into account, we focused on editing SVG with LLMs. For quantitative evaluation of LLMs' ability to edit SVG, we propose SVGEditBench. SVGEditBench is a benchmark for assessing the LLMs' ability to edit SVG code. We also show the GPT-4 and GPT-3.5 results when evaluated on the proposed benchmark. In the experiments, GPT-4 showed superior performance to GPT-3.5 both quantitatively and qualitatively. The dataset is available at https://github.com/mti-lab/SVGEditBench.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# ArtNeRF: 3次元認識型顔合成のためのスティル化ニューラルネットワーク

ArtNeRF: A Stylized Neural Field for 3D-Aware Cartoonized Face Synthesis ( http://arxiv.org/abs/2404.13711v1 )

ライセンス: Link先を確認
Zichen Tang, Hongyu Yang, (参考訳) 生成的視覚モデルとニューラルラディアンスフィールドの最近の進歩は、3D認識画像合成とスタイリングタスクを大幅に向上させた。 しかし、これまでのNeRFベースの作品は単一シーンのスタイリングに限られており、任意のスタイルで3D対応のマンガ顔を生成するためのモデルを訓練することは未解決のままである。 この問題に対処するために, 3D 対応 GAN から派生した新しい顔スタイリングフレームワーク ArtNeRF を提案する。 本研究では,表現型ジェネレータを用いてスタイリングされた顔とトリプルブランチ識別器モジュールを合成し,生成した顔の視覚的品質とスタイルの整合性を改善する。 具体的には、コントラスト学習に基づくスタイルエンコーダを利用して、様々なスタイルの知識を生かして、スタイル画像のロバストな低次元埋め込みを抽出する。 ドメイン間移動学習の学習プロセスを円滑にするために,スタイル情報を注入し,ユーザが自由にスタイリングのレベルを調整できる適応型スタイルブレンディングモジュールを提案する。 さらに、高解像度の画像の効率的なリアルタイムレンダリングを実現するためのニューラルネットワークレンダリングモジュールを導入する。 大規模な実験により、ArtNeRFは任意のスタイルで高品質な3D対応マンガの顔を生成するのに汎用的であることが示された。

Recent advances in generative visual models and neural radiance fields have greatly boosted 3D-aware image synthesis and stylization tasks. However, previous NeRF-based work is limited to single scene stylization, training a model to generate 3D-aware cartoon faces with arbitrary styles remains unsolved. We propose ArtNeRF, a novel face stylization framework derived from 3D-aware GAN to tackle this problem. In this framework, we utilize an expressive generator to synthesize stylized faces and a triple-branch discriminator module to improve the visual quality and style consistency of the generated faces. Specifically, a style encoder based on contrastive learning is leveraged to extract robust low-dimensional embeddings of style images, empowering the generator with the knowledge of various styles. To smooth the training process of cross-domain transfer learning, we propose an adaptive style blending module which helps inject style information and allows users to freely tune the level of stylization. We further introduce a neural rendering module to achieve efficient real-time rendering of images with higher resolutions. Extensive experiments demonstrate that ArtNeRF is versatile in generating high-quality 3D-aware cartoon faces with arbitrary styles.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# TF2AIF: クラウドエッジ連続体上での加速AIモデルの開発と展開

TF2AIF: Facilitating development and deployment of accelerated AI models on the cloud-edge continuum ( http://arxiv.org/abs/2404.13715v1 )

ライセンス: Link先を確認
Aimilios Leftheriotis, Achilleas Tzenetopoulos, George Lentaris, Dimitrios Soudris, Georgios Theodoridis, (参考訳) B5G/6Gの進化は、HW加速器と接続計算技術と高度に異質なクラスタに依存しており、特別な符号化を効率的に利用する必要がある。 現在の論文では、複数の多様なHW+SWプラットフォームをターゲットにしながら、ハイレベル言語、例えばPython TensorFlowで入力された特定のAI関数の複数のSWバージョンを生成するカスタムツールを提案する。 TF2AIFは、異なるツールフローに基づいて、相対的なコンテナを複数生成し、システムオーケストレータが要求された機能をクラウドエッジ連続体内の任意の特定のノードにデプロイできるようにする。 TF2AIFは、ユーザから最小限の時間や専門知識を要求することにより、今日のエコシステムのギャップを埋め、リソース管理や自動運用の研究を促進する。

The B5G/6G evolution relies on connect-compute technologies and highly heterogeneous clusters with HW accelerators, which require specialized coding to be efficiently utilized. The current paper proposes a custom tool for generating multiple SW versions of a certain AI function input in high-level language, e.g., Python TensorFlow, while targeting multiple diverse HW+SW platforms. TF2AIF builds upon disparate tool-flows to create a plethora of relative containers and enable the system orchestrator to deploy the requested function on any peculiar node in the cloud-edge continuum, i.e., to leverage the performance/energy benefits of the underlying HW upon any circumstances. TF2AIF fills an identified gap in today's ecosystem and facilitates research on resource management or automated operations, by demanding minimal time or expertise from users.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 自律・インテリジェントシステムのための実践的マルチレベルガバナンスフレームワーク

A Practical Multilevel Governance Framework for Autonomous and Intelligent Systems ( http://arxiv.org/abs/2404.13719v1 )

ライセンス: Link先を確認
Lukas D. Pöhler, Klaus Diepold, Wendell Wallach, (参考訳) 自律的かつインテリジェントなシステム(AIS)は、様々な分野にまたがる幅広い有益なアプリケーションを促進する。 しかしながら、予測不可能や透明性の欠如といった技術的な特徴や、意図しない結果の可能性といった技術的特徴は、現在のガバナンスインフラストラクチャに大きな課題を引き起こします。 さらに、アプリケーションの開発とデプロイのスピードは、既存のガバナンス機関が効果的な倫理的法的監督を行う能力を上回る。 アジャイル、分散、マルチレベルのガバナンスのための新しいアプローチが必要です。 本研究は,AISのマルチレベルガバナンスのための実践的枠組みを示す。 この枠組みは、アクターを国際レベル、国家レベル、組織レベルを含む6段階の意思決定にマッピングすることを可能にする。 さらに、既存のツールを特定して進化させる機能や、アクターの振る舞いをレベル内に導くための新しいツールも提供する。 ガバナンスメカニズムにより、アクターは規則やその他のツールを編成し、強制することができる。

Autonomous and intelligent systems (AIS) facilitate a wide range of beneficial applications across a variety of different domains. However, technical characteristics such as unpredictability and lack of transparency, as well as potential unintended consequences, pose considerable challenges to the current governance infrastructure. Furthermore, the speed of development and deployment of applications outpaces the ability of existing governance institutions to put in place effective ethical-legal oversight. New approaches for agile, distributed and multilevel governance are needed. This work presents a practical framework for multilevel governance of AIS. The framework enables mapping actors onto six levels of decision-making including the international, national and organizational levels. Furthermore, it offers the ability to identify and evolve existing tools or create new tools for guiding the behavior of actors within the levels. Governance mechanisms enable actors to shape and enforce regulations and other tools, which when complemented with good practices contribute to effective and comprehensive governance.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 設計プロセス言語の枠組み

The Framework of a Design Process Language ( http://arxiv.org/abs/2404.13721v1 )

ライセンス: Link先を確認
Arnulf Hagen, (参考訳) 論文は、概念形成フレームワークにおけるデザインの視点を発展させ、設計の対象と設計プロセスの両方を記述するための言語の概要を述べる。 設計作業の初期段階にある未知のオブジェクトは、デザイナが定義すべき未知の概念と見なすことができる。 この過程を通じて、彼女は既知の概念に関連付けて、この物体の記述を発展させた。 設計者が設計仕様が完成すれば、一度構築した要求を満たすのに十分満足すると、検索は停止する。 オブジェクトと既知の概念の関係を記述した文の集合である。 また、設計プロセス自体が既知の概念を関連づけることで、既知の能力を特定の活性化パターンや動員パターンにまとめることで説明できる。 この概念形成プロセスで使用する言語に対する要求を考慮して、設計プロセス言語(DPL)のフレームワークを開発する。 言語の基礎は、概念の組み合わせに使用される関係のクラスとして機能し、同じ一般的なシステム内でプロセスとオブジェクトを記述するために使用される関係を含み、いくつかの関係はプロセス固有であり、他の関係はオブジェクト固有であり、バルクはプロセスとオブジェクト記述の両方に使用される。 もう一つの結果は、モーダル関係の区別、または未来性、可能性、意欲、仮説的な出来事などを記述する関係である。 設計プロセスはほとんど常にこのような側面を含んでおり、そのような関係を構築するためには設計プロセスの記述を容易にする言語が必要である。 DPLは、設計プロセスにおいて、コンピュータがより有用で、よりインテリジェントに動作できるようにするために使用できる言語を構築するための基盤である、と主張されている。

The thesis develops a view of design in a concept formation framework and outlines a language to describe both the object of the design and the process of designing. The unknown object at the outset of the design work may be seen as an unknown concept that the designer is to define. Throughout the process, she develops a description of this object by relating it to known concepts. The search stops when the designer is satisfied that the design specification is complete enough to satisfy the requirements from it once built. It is then a collection of propositions that all contribute towards defining the design object - a collection of sentences describing relationships between the object and known concepts. Also, the design process itself may be described by relating known concepts - by organizing known abilities into particular patterns of activation, or mobilization. In view of the demands posed to a language to use in this concept formation process, the framework of a Design Process Language (DPL) is developed. The basis for the language are linguistic categories that act as classes of relations used to combine concepts, containing relations used for describing process and object within the same general system, with some relations being process specific, others being object specific, and with the bulk being used both for process and object description. Another outcome is the distinction of modal relations, or relations describing futurity, possibility, willingness, hypothetical events, and the like. The design process almost always includes aspects such as these, and it is thus necessary for a language facilitating design process description to support such relationships to be constructed. The DPL is argued to be a foundation whereupon to build a language that can be used for enabling computers to be more useful - act more intelligently - in the design process.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 近似解析的対角化による二部的純状態絡み目の数値的証拠

Numerical evidence for a bipartite pure state entanglement witness from approximate analytical diagonalization ( http://arxiv.org/abs/2404.13725v1 )

ライセンス: Link先を確認
Paul M. Alsing, Richard J. Birrittella, (参考訳) 固有値の数値計算を必要とせず,波動係数から直接計算できる二部式$d\times d$純状態絡み込み証人の数値的証拠を示す。 これは、部分転位状態の負性性に対する支配的な寄与を捉えた二部晶状態の近似的対角化を用いて達成される。 量子振幅が正のエルミート行列を形成する純状態のクラスに対して、この絡み合いの証人を対数ネガティビティ(Log Negativity)に関連付け、正のエルミート行列を形成する純粋状態のクラスに対して完全に一致することを示す。 この場合、対数負性は、振幅の純度が密度行列と考える負の対数によって与えられる。 他の場合では、証人は正確な数値計算された対数負性(Log Negativity)に低い境界を形成する。 近似Log Negativity の式は、2つのキュービットの任意の純状態の場合の正確なLog Negativity と等しくなる。 これらの結果は、線形エントロピーによって与えられる絡み合いの証人と比較する。 最後に、これらの純粋な状態の結果を混合状態に拡張する試みについて検討する。 この近似式に対する対数負性は、各純状態の量子振幅が正のエルミート行列を形成する純粋状態分解のクラスに完全であることを示す。

We show numerical evidence for a bipartite $d\times d$ pure state entanglement witness that is readily calculated from the wavefunction coefficients directly, without the need for the numerical computation of eigenvalues. This is accomplished by using an approximate analytic diagonalization of the bipartite state that captures dominant contributions to the negativity of the partially transposed state. We relate this entanglement witness to the Log Negativity, and show that it exactly agrees with it for the class of pure states whose quantum amplitudes form a positive Hermitian matrix. In this case, the Log Negativity is given by the negative logarithm of the purity of the amplitudes consider as a density matrix. In other cases, the witness forms a lower bound to the exact, numerically computed Log Negativity. The formula for the approximate Log Negativity achieves equality with the exact Log Negativity for the case of an arbitrary pure state of two qubits, which we show analytically. We compare these results to a witness of entanglement given by the linear entropy. Finally, we explore an attempt to extend these pure state results to mixed states. We show that the Log Negativity for this approximate formula is exact on the class of pure state decompositions for which the quantum amplitudes of each pure state form a positive Hermitian matrix.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 一様安定学習アルゴリズムのための学習条件付き被覆境界

Training-Conditional Coverage Bounds for Uniformly Stable Learning Algorithms ( http://arxiv.org/abs/2404.13731v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi, Yu Xiang, (参考訳) 共形予測の訓練条件カバレッジ性能は経験的に健全であることが知られている。 近年,この観測を理論的に裏付ける研究が進められている。 jackknife+ と full-conformal prediction region の訓練条件カバレッジ境界は、Liang と Barber の $(m,n)$-stability の概念によって確立されている。 この概念は均一安定性よりも弱いが、実用モデルに対してどのように評価するかは明らかではない。 本稿では, コンベックス正則化を用いたカーネルヒルベルト空間の再生において, 経験的リスク最小化を抑えることが知られている一様安定性の観点から, フルコンフォーマル, ジャックニフェ+, CV+予測領域の訓練条件範囲について検討する。 我々は、(推定)予測関数の濃度論により有限次元モデルのカバレッジ境界を導出し、リッジ回帰の下での既存の境界と比較する。

The training-conditional coverage performance of the conformal prediction is known to be empirically sound. Recently, there have been efforts to support this observation with theoretical guarantees. The training-conditional coverage bounds for jackknife+ and full-conformal prediction regions have been established via the notion of $(m,n)$-stability by Liang and Barber~[2023]. Although this notion is weaker than uniform stability, it is not clear how to evaluate it for practical models. In this paper, we study the training-conditional coverage bounds of full-conformal, jackknife+, and CV+ prediction regions from a uniform stability perspective which is known to hold for empirical risk minimization over reproducing kernel Hilbert spaces with convex regularization. We derive coverage bounds for finite-dimensional models by a concentration argument for the (estimated) predictor function, and compare the bounds with existing ones under ridge regression.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# データセット凝縮の設計空間の解明

Elucidating the Design Space of Dataset Condensation ( http://arxiv.org/abs/2404.13733v1 )

ライセンス: Link先を確認
Shitong Shao, Zikai Zhou, Huanran Chen, Zhiqiang Shen, (参考訳) データ中心学習の概念であるデータセット凝縮(Dataset condensation)は、オリジナルのデータセットから合成バージョンに重要な属性を効率よく転送し、多様性とリアリズムの両方を維持します。 このアプローチはモデルのトレーニング効率を大幅に改善し、複数のアプリケーション領域で適用可能です。 大規模なデータセット(例えば、MTT、DREAM、TESLA)にスケーラビリティを制限する計算コストの低いものや、最適な設計スペースに制限されているものなど、特に小さなデータセット(例えば、SRe2L、G-VBSM、RDED)では潜在的な改善を妨げる可能性がある。 これらの制約に対処するため、ソフトカテゴリ対応マッチングの実装や学習率の調整など、具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。 これらの戦略は実証的な証拠と理論的裏付けに基づいている。 得られたアプローチであるEucidate Dataset Condensation (EDC)は、小規模かつ大規模なデータセットのコンデンサのベンチマークを確立します。 我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。 この性能は、それぞれ27.3%、17.2%、および6.6%の差でSRe2L、G-VBSM、RDEDを上回る。

Dataset condensation, a concept within data-centric learning, efficiently transfers critical attributes from an original dataset to a synthetic version, maintaining both diversity and realism. This approach significantly improves model training efficiency and is adaptable across multiple application areas. Previous methods in dataset condensation have faced challenges: some incur high computational costs which limit scalability to larger datasets (e.g., MTT, DREAM, and TESLA), while others are restricted to less optimal design spaces, which could hinder potential improvements, especially in smaller datasets (e.g., SRe2L, G-VBSM, and RDED). To address these limitations, we propose a comprehensive design framework that includes specific, effective strategies like implementing soft category-aware matching and adjusting the learning rate schedule. These strategies are grounded in empirical evidence and theoretical backing. Our resulting approach, Elucidate Dataset Condensation (EDC), establishes a benchmark for both small and large-scale dataset condensation. In our testing, EDC achieves state-of-the-art accuracy, reaching 48.6% on ImageNet-1k with a ResNet-18 model at an IPC of 10, which corresponds to a compression ratio of 0.78%. This performance exceeds those of SRe2L, G-VBSM, and RDED by margins of 27.3%, 17.2%, and 6.6%, respectively.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# ロバストな対実的説明のための時間的抽象化

Interval Abstractions for Robust Counterfactual Explanations ( http://arxiv.org/abs/2404.13736v1 )

ライセンス: Link先を確認
Junqi Jiang, Francesco Leofante, Antonio Rago, Francesca Toni, (参考訳) 対実的説明(CE)は、説明可能なAI研究の主要なパラダイムとして現れ、機械学習モデルの決定によって影響を受けるユーザのリコメンデーションを提供する。 しかし、基礎となるモデルのパラメータにわずかな変更が発生すると、既存のメソッドで見つかるCEは更新されたモデルでは無効になることが多い。 文献は、CEのロバスト性を改善する既存の方法がヒューリスティックであり、そのロバスト性性能は、限られた数のリトレーニングされたモデルを用いて経験的に評価されるという点において、モデル変更の下でCEの決定論的ロバスト性を保証する方法が欠如している。 このギャップを埋めるために、パラメトリック機械学習モデルのための新しいインターバル抽象化手法を提案する。 我々は、ロバストネスの概念を、バイナリとマルチクラスの分類設定の両方において、CEの$\Delta$-robustnessとして定式化する。 我々は、Mixed Integer Linear Programmingに基づいて$\Delta$-robustnessを検証する手順を定式化し、さらに$\Delta$-robustであるCEを生成する2つのアルゴリズムを提案する。 本研究では,提案手法の適切なハイパーパラメータを決定するための2つの戦略を議論し,11の手法で生成されたCEを定量的に評価し,ロバストCEの探索におけるアルゴリズムの有効性を強調した。

Counterfactual Explanations (CEs) have emerged as a major paradigm in explainable AI research, providing recourse recommendations for users affected by the decisions of machine learning models. However, when slight changes occur in the parameters of the underlying model, CEs found by existing methods often become invalid for the updated models. The literature lacks a way to certify deterministic robustness guarantees for CEs under model changes, in that existing methods to improve CEs' robustness are heuristic, and the robustness performances are evaluated empirically using only a limited number of retrained models. To bridge this gap, we propose a novel interval abstraction technique for parametric machine learning models, which allows us to obtain provable robustness guarantees of CEs under the possibly infinite set of plausible model changes $\Delta$. We formalise our robustness notion as the $\Delta$-robustness for CEs, in both binary and multi-class classification settings. We formulate procedures to verify $\Delta$-robustness based on Mixed Integer Linear Programming, using which we further propose two algorithms to generate CEs that are $\Delta$-robust. In an extensive empirical study, we demonstrate how our approach can be used in practice by discussing two strategies for determining the appropriate hyperparameter in our method, and we quantitatively benchmark the CEs generated by eleven methods, highlighting the effectiveness of our algorithms in finding robust CEs.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 予算を考慮した確率的マルチラウンドサブモジュール最適化

Stochastic Multi-round Submodular Optimization with Budget ( http://arxiv.org/abs/2404.13737v1 )

ライセンス: Link先を確認
Vincenzo Auletta, Diodato Ferraioli, Cosimo Vinci, (参考訳) 本研究では,SBMSm(Stochastic Budgeted Multi-round Submodular Maximization)の問題を考察し,この関数の値が確率的事象の実現に依存し,全てのラウンドで達成できる観測回数が与えられた予算によって制限されるという事実から,モノトーンとサブモジュラー目的関数の値の複数ラウンドの合計を最大化したいと考える。 この問題は拡張され、(適応的な)影響の最大化や確率的探索のようなよく研究された問題に一般化される。 まず、ある単一ラウンド最適化問題を多項式時間で最適に解くことができれば、最適なアルゴリズムと同じ解を返す多項式時間動的プログラミングアルゴリズムが存在し、どの観察を行うか、どのラウンドを持つかを適応的に選択できることを示す。 残念なことに、この動的プログラミングアプローチは、シングルラウンド最適化問題を効率よく解けない場合(任意の小さな定数内で近似することを許すとしても)、機能するように拡張することはできない。 いずれにせよ、このケースでは、この問題に対する単純な欲求的アルゴリズムを提供できる。 たとえ予算をラウンドに順応的に割り当てなくても、最適値に対する$(1/2-\epsilon)$-approxationを保証する。

In this work we study the problem of Stochastic Budgeted Multi-round Submodular Maximization (SBMSm), in which we would like to maximize the sum over multiple rounds of the value of a monotone and submodular objective function, subject to the fact that the values of this function depend on the realization of stochastic events and the number of observations that we can make over all rounds is limited by a given budget. This problem extends, and generalizes to multiple round settings, well-studied problems such as (adaptive) influence maximization and stochastic probing. We first show that whenever a certain single-round optimization problem can be optimally solved in polynomial time, then there is a polynomial time dynamic programming algorithm that returns the same solution as the optimal algorithm, that can adaptively choose both which observations to make and in which round to have them. Unfortunately, this dynamic programming approach cannot be extended to work when the single-round optimization problem cannot be efficiently solved (even if we allow it would be approximated within an arbitrary small constant). Anyway, in this case we are able to provide a simple greedy algorithm for the problem. It guarantees a $(1/2-\epsilon)$-approximation to the optimal value, even if it non-adaptively allocates the budget to rounds.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# ドップラー速度測定を限定したシームレス水中航法

Seamless Underwater Navigation with Limited Doppler Velocity Log Measurements ( http://arxiv.org/abs/2404.13742v1 )

ライセンス: Link先を確認
Nadav Cohen, Itzik Klein, (参考訳) 自律型水中車両(AUVs)は一般に慣性航法システム(INS)とドップラー速度ログ(DVL)を水中航法に使用している。 その目的のために、それらの測定は拡張カルマンフィルタ(EKF)のような非線形フィルタによって統合される。 DVL速度ベクトル推定は海底からの反射の回収に依存し、4つの送信された音響ビームのうち少なくとも3つが正常に帰還することを保証している。 3本未満のビームが得られた場合、DVLはナビゲーションソリューションドリフトをバインドするための速度更新を提供できない。 この課題に対処するために,DVLの限られた状況下でのシームレスなAUVナビゲーションのためのハイブリッドニューラルネットワーク(HNC)アプローチを提案する。 まず、DVLビームを2つまたは3つ失くすためのアプローチを推進します。 そして、測定されたビームとともに、これらのビームをEKFに組み込む。 我々は,INS/DVL融合を緩く,密に結合したアプローチで検討した。 本手法は,地中海におけるAUV実験から得られた記録データに基づいて,2つの異なるタイミングで評価・評価を行った。 その結果,提案手法は平均96.15%でベースラインを緩く,密結合したモデルベースアプローチより優れていた。 また、平均12.41%というモデルベースのビーム推定器と比較して、2つまたは3つのビームが欠落したシナリオの速度精度において優れた性能を示す。 そこで本手法は,ビーム計測の限られた状況においてシームレスなAUVナビゲーションを実現する。

Autonomous Underwater Vehicles (AUVs) commonly utilize an inertial navigation system (INS) and a Doppler velocity log (DVL) for underwater navigation. To that end, their measurements are integrated through a nonlinear filter such as the extended Kalman filter (EKF). The DVL velocity vector estimate depends on retrieving reflections from the seabed, ensuring that at least three out of its four transmitted acoustic beams return successfully. When fewer than three beams are obtained, the DVL cannot provide a velocity update to bind the navigation solution drift. To cope with this challenge, in this paper, we propose a hybrid neural coupled (HNC) approach for seamless AUV navigation in situations of limited DVL measurements. First, we drive an approach to regress two or three missing DVL beams. Then, those beams, together with the measured beams, are incorporated into the EKF. We examined INS/DVL fusion both in loosely and tightly coupled approaches. Our method was trained and evaluated on recorded data from AUV experiments conducted in the Mediterranean Sea on two different occasions. The results illustrate that our proposed method outperforms the baseline loosely and tightly coupled model-based approaches by an average of 96.15%. It also demonstrates superior performance compared to a model-based beam estimator by an average of 12.41% in terms of velocity accuracy for scenarios involving two or three missing beams. Therefore, we demonstrate that our approach offers seamless AUV navigation in situations of limited beam measurements.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 香味スカラー散乱における絡み合い

Entanglement in flavored scalar scattering ( http://arxiv.org/abs/2404.13743v1 )

ライセンス: Link先を確認
Kamila Kowalska, Enrico Maria Sessolo, (参考訳) 高エネルギーの2ドルから2ドル程度のスカラー散乱において、スカラーは量子ビットのように振る舞う内部のフレーバー量子数によって特徴づけられる。 摂動理論における1ループ次数において、初期と外部を繋ぐ散乱振幅の関数として最終状態密度行列を構築する。 この構成では、$S$-行列のユニタリ性は光学定理によって要求順序で保証される。 最終状態粒子の運動量とフレーバー度の間の散乱後の絡み合いと2ビットフレーバーサブシステムの絡み合いについて考察する。 それぞれの場合において、ヒルベルト空間の異なる二部部分空間間の絡み合いを生成、破壊、あるいは伝達することができるスカラーポテンシャルのカップリングを同定する。

We investigate quantum entanglement in high-energy $2\to 2$ scalar scattering, where the scalars are characterized by an internal flavor quantum number acting like a qubit. Working at the 1-loop order in perturbation theory, we build the final-state density matrix as a function of the scattering amplitudes connecting the initial to the outgoing state. In this construction, the unitarity of the $S$-matrix is guaranteed at the required order by the optical theorem. We consider the post-scattering entanglement between the momentum and flavor degrees of freedom of the final-state particles, as well as the entanglement of the two-qubit flavor subsystem. In each case we identify the couplings of the scalar potential that can generate, destroy, or transfer entanglement between different bipartite subspaces of the Hilbert space.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 物体検出と深層学習のための鼻内サイトロジーデータセット

A Nasal Cytology Dataset for Object Detection and Deep Learning ( http://arxiv.org/abs/2404.13745v1 )

ライセンス: Link先を確認
Mauro Camporeale, Giovanni Dimauro, Matteo Gelardi, Giorgia Iacobellis, Mattia Sebastiano Ladisa, Sergio Latrofa, Nunzia Lomonte, (参考訳) Nasal Cytology は鼻炎やアレルギーを診断するための新規で効率的な臨床手法であり、細胞カウントの時間的消費の性質からあまり広まっていない。 本稿では,臨床実習中の医師や生物学者を支援するための対象検出モデルをトレーニングし,展開することを目的とした,サイ細胞野画像の最初のデータセットであるNCD(Nasal Cytology Dataset)について述べる。 鼻粘膜に分布する細胞型の実際の分布は複製され、臨床患者のスライドから画像を集め、それぞれの細胞に手動で注釈を付ける。 対応するオブジェクト検出タスクは、最も稀な細胞型を含む強いクラス不均衡に関連する非自明な問題を示す。 この研究は、鼻粘膜細胞の自動検出と分類を支援する新しい機械学習ベースのアプローチを提示することで、いくつかのオープンな課題に寄与している。

Nasal Cytology is a new and efficient clinical technique to diagnose rhinitis and allergies that is not much widespread due to the time-consuming nature of cell counting; that is why AI-aided counting could be a turning point for the diffusion of this technique. In this article we present the first dataset of rhino-cytological field images: the NCD (Nasal Cytology Dataset), aimed to train and deploy Object Detection models to support physicians and biologists during clinical practice. The real distribution of the cytotypes, populating the nasal mucosa has been replicated, sampling images from slides of clinical patients, and manually annotating each cell found on them. The correspondent object detection task presents non'trivial issues associated with the strong class imbalancement, involving the rarest cell types. This work contributes to some of open challenges by presenting a novel machine learning-based approach to aid the automated detection and classification of nasal mucosa cells: the DETR and YOLO models shown good performance in detecting cells and classifying them correctly, revealing great potential to accelerate the work of rhinology experts.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 恥ずかしいほど単純で教師なしアスペクトに基づく感性タプル抽出

Embarrassingly Simple Unsupervised Aspect Based Sentiment Tuple Extraction ( http://arxiv.org/abs/2404.13751v1 )

ライセンス: Link先を確認
Kevin Scaria, Abyn Scaria, Ben Scaria, (参考訳) Aspect Based Sentiment Analysis (ABSA) タスクは、著者の意見を識別することを目的として、文章からきめ細かい感情的タプルを抽出することを含む。 従来の手法は、主に教師付きアプローチに依存しているが、そのような手法の有効性は、ラベル付きデータセットが欠如している低リソース領域において、ドメインをまたいで一般化する能力が欠如しているため、低下する。 この課題に対処するために、文中のアスペクト項に対する意見項と対応する感情極性を取り出すための、単純で新しい教師なしアプローチを提案する。 4つのベンチマーク・データセットを用いて評価実験を行い、アスペクト指向の意見単語を抽出し、感情の極性を割り当てる性能を実証した。 さらに、意見語マイニングのための教師なしのアプローチも検討されておらず、我々の研究でも同様のベンチマークが確立されている。

Aspect Based Sentiment Analysis (ABSA) tasks involve the extraction of fine-grained sentiment tuples from sentences, aiming to discern the author's opinions. Conventional methodologies predominantly rely on supervised approaches; however, the efficacy of such methods diminishes in low-resource domains lacking labeled datasets since they often lack the ability to generalize across domains. To address this challenge, we propose a simple and novel unsupervised approach to extract opinion terms and the corresponding sentiment polarity for aspect terms in a sentence. Our experimental evaluations, conducted on four benchmark datasets, demonstrate compelling performance to extract the aspect oriented opinion words as well as assigning sentiment polarity. Additionally, unsupervised approaches for opinion word mining have not been explored and our work establishes a benchmark for the same.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# 逆表現工学による一般概念モデル編集に向けて

Towards General Conceptual Model Editing via Adversarial Representation Engineering ( http://arxiv.org/abs/2404.13752v1 )

ライセンス: Link先を確認
Yihao Zhang, Zeming Wei, Jun Sun, Meng Sun, (参考訳) 近年,Large Language Models (LLMs) のような大規模モデルの複雑な内部構造を理解するために,RepE (Representation Engineering) を導入している。 しかし、これらの表現を汎用的で柔軟なモデル編集に適用するための実用的で効率的な方法を見つけることは、未解決の問題である。 本稿では、GAN(Generative Adversarial Network)フレームワークにヒントを得て、Adversarial Representation Engineering(ARE)と呼ばれる新しいアプローチを導入する。 本手法は,LLMの編集を誘導する表現センサを用いてRepEを活用し,ベースライン性能を劣化させることなく,概念モデル編集のための統一的で解釈可能なフレームワークを提供する。 複数の概念的編集実験により,AREの有効性が確認された。 コードとデータはhttps://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.comで公開されている。

Recent research has introduced Representation Engineering (RepE) as a promising approach for understanding complex inner workings of large-scale models like Large Language Models (LLMs). However, finding practical and efficient methods to apply these representations for general and flexible model editing remains an open problem. Inspired by the Generative Adversarial Network (GAN) framework, we introduce a novel approach called Adversarial Representation Engineering (ARE). This method leverages RepE by using a representation sensor to guide the editing of LLMs, offering a unified and interpretable framework for conceptual model editing without degrading baseline performance. Our experiments on multiple conceptual editing confirm ARE's effectiveness. Code and data are available at https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.
翻訳日:2024-04-23 17:42:20 公開日:2024-04-21
# BC-MRI-SEG : 乳癌MRI腫瘍分離ベンチマーク

BC-MRI-SEG: A Breast Cancer MRI Tumor Segmentation Benchmark ( http://arxiv.org/abs/2404.13756v1 )

ライセンス: Link先を確認
Anthony Bilic, Chen Chen, (参考訳) 磁気共鳴イメージング(MRI)データを用いた乳がん腫瘍の2つのセグメント化は、通常、プライベートな医療データに基づいて訓練され、評価されるため、ディープラーニングのアプローチの比較は困難である。 本稿では,MRI データセットを用いた乳癌の2重複領域分類のためのベンチマーク (BC-MRI-SEG) を提案する。 ベンチマークは合計4つのデータセットで構成され、教師付きトレーニングと評価に2つのデータセット、ゼロショット評価に2つのデータセットが使用される。 さらに、我々のベンチマークにおける最先端(SOTA)アプローチを比較し、利用可能な乳がんMRIデータセットの完全なリストを提供する。 ソースコードはhttps://irulenot.github.io/BC_MRI_SEG_Benchmarkで公開されている。

Binary breast cancer tumor segmentation with Magnetic Resonance Imaging (MRI) data is typically trained and evaluated on private medical data, which makes comparing deep learning approaches difficult. We propose a benchmark (BC-MRI-SEG) for binary breast cancer tumor segmentation based on publicly available MRI datasets. The benchmark consists of four datasets in total, where two datasets are used for supervised training and evaluation, and two are used for zero-shot evaluation. Additionally we compare state-of-the-art (SOTA) approaches on our benchmark and provide an exhaustive list of available public breast cancer MRI datasets. The source code has been made available at https://irulenot.github.io/BC_MRI_SEG_Benchmark.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 関係分類におけるドメイン情報のエンコード方法

How to Encode Domain Information in Relation Classification ( http://arxiv.org/abs/2404.13760v1 )

ライセンス: Link先を確認
Elisa Bassignana, Viggo Unmack Gascou, Frida Nøhr Laustsen, Gustav Kristensen, Marie Haahr Petersen, Rob van der Goot, Barbara Plank, (参考訳) 現在の言語モデルは、高いパフォーマンスを得るために多くのトレーニングデータが必要です。 リレーショナル分類(RC)では、多くのデータセットがドメイン固有であるため、より良いパフォーマンスを得るためにデータセットを組み合わせることは簡単ではない。 本稿では,RCのためのマルチドメイン学習環境について検討し,ドメイン情報を符号化することで性能向上を図る。 提案したモデルでは,ベースライン設定に対して > 2 Macro-F1 が改良され,すべてのラベルが同じ利益を享受できるわけではないことが明らかになった。

Current language models require a lot of training data to obtain high performance. For Relation Classification (RC), many datasets are domain-specific, so combining datasets to obtain better performance is non-trivial. We explore a multi-domain training setup for RC, and attempt to improve performance by encoding domain information. Our proposed models improve > 2 Macro-F1 against the baseline setup, and our analysis reveals that not all the labels benefit the same: The classes which occupy a similar space across domains (i.e., their interpretation is close across them, for example "physical") benefit the least, while domain-dependent relations (e.g., "part-of'') improve the most when encoding domain information.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 構造された環境に結合したJaynes-Cummings原子:漏れ除去作用素とペッツ回収写像

Jaynes-Cummings atoms coupled to a structured environment: Leakage elimination operators and the Petz recovery maps ( http://arxiv.org/abs/2404.13762v1 )

ライセンス: Link先を確認
Da-Wei Luo, Ting Yu, (参考訳) 本稿では,ジャイアンス・カミングス(Jyanes-Cummings,JC)モデルについて考察する。 本稿では、JC原子の量子コヒーレンスを保護するために、デコヒーレンス効果の制御と抑制に有効ないくつかの戦略を提案する。 漏れ除去演算子を用いたシステムダイナミクスの非摂動制御について検討する。 また,ペッツ回収マップを用いて,システムと浴槽とのカップリングを工学的に行うことで,完全な量子状態逆転スキームについても検討する。 その結果,ペッツ回収マップでは,マルコフノイズや非マルコフノイズによらず,JC原子のダイナミクスを完全に復元できることがわかった。 最後に,我々の量子制御とリカバリ手法は,システムの一貫性の異なる側面を保護するのに有効であることを示す。

We consider the Jaynes-Cummings (JC) model embedded in a structured environment, where the atom inside an optical cavity will be affected by a hierarchical environment consisting of the cavity and its environment. We propose several effective strategies to control and suppress the decoherence effects to protect the quantum coherence of the JC atom. We study the non-perturbative control of the system dynamics by means of the leakage elimination operators. We also investigate a full quantum state reversal scheme by engineering the system and its coupling to the bath via the Petz recovery map. Our findings conclude that, with the Petz recovery map, the dynamics of the JC atom can be fully recovered regardless of Markov or non-Markovian noises. Finally, we show that our quantum control and recovery methods are effective at protecting different aspects of the system coherence.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 適応的共感反応を用いた英語教育

Using Adaptive Empathetic Responses for Teaching English ( http://arxiv.org/abs/2404.13764v1 )

ライセンス: Link先を確認
Li Siyan, Teresa Shao, Zhou Yu, Julia Hirschberg, (参考訳) 既存の英語教育チャットボットは、感情のフィードバックに感情を明示的に取り入れることは滅多にないが、共感的なフィードバックは、学生のエンゲージメントを維持し、学習者の不安を軽減するのに役立つ。 そこで我々は,言語学習における共感的フィードバックの機会を認識するために,音声による否定的感情検出の課題を提案する。 そして、適応的で共感的なフィードバックを持つ最初の英語教育チャットボットを構築します。 このフィードバックはChatGPTの自動最適化によって合成され、英語学習者によって評価される。 予備的なユーザスタディを通じて,本システムの有効性を実証する。

Existing English-teaching chatbots rarely incorporate empathy explicitly in their feedback, but empathetic feedback could help keep students engaged and reduce learner anxiety. Toward this end, we propose the task of negative emotion detection via audio, for recognizing empathetic feedback opportunities in language learning. We then build the first spoken English-teaching chatbot with adaptive, empathetic feedback. This feedback is synthesized through automatic prompt optimization of ChatGPT and is evaluated with English learners. We demonstrate the effectiveness of our system through a preliminary user study.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# テキスト・ツー・イメージ生成におけるオブジェクト・属性結合:評価と制御

Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control ( http://arxiv.org/abs/2404.13766v1 )

ライセンス: Link先を確認
Maria Mihaela Trusca, Wolf Nuyts, Jonathan Thomm, Robert Honig, Thomas Hofmann, Tinne Tuytelaars, Marie-Francine Moens, (参考訳) 現在の拡散モデルでは、テキストプロンプトを入力として与えられたフォトリアリスティックなイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。 画像テキストアライメント評価のためのEPViT(Edge Prediction Vision Transformer)と呼ばれる新しい画像-グラフアライメントモデルによりこれを実証した。 上記の問題を緩和するために、入力文に現れる構文制約により視覚的注意マップを制御する集中的横断注意(FCA)を提案する。 さらに、プロンプトの構文構造は、T2I生成で一般的に使用されるマルチモーダルCLIP埋め込みをアンタングル化するのに役立ちます。 結果として得られる DisCLIP 埋め込みと FCA は、これらのモデルのさらなる訓練なしに、最先端の拡散モデルに容易に統合される。 我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。 \footnote{Codeとデータは受理時に利用可能になる。

Current diffusion models create photorealistic images given a text prompt as input but struggle to correctly bind attributes mentioned in the text to the right objects in the image. This is evidenced by our novel image-graph alignment model called EPViT (Edge Prediction Vision Transformer) for the evaluation of image-text alignment. To alleviate the above problem, we propose focused cross-attention (FCA) that controls the visual attention maps by syntactic constraints found in the input sentence. Additionally, the syntax structure of the prompt helps to disentangle the multimodal CLIP embeddings that are commonly used in T2I generation. The resulting DisCLIP embeddings and FCA are easily integrated in state-of-the-art diffusion models without additional training of these models. We show substantial improvements in T2I generation and especially its attribute-object binding on several datasets.\footnote{Code and data will be made available upon acceptance.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 災害地図作成のための自律ロボットとVictim Localization

Autonomous Robot for Disaster Mapping and Victim Localization ( http://arxiv.org/abs/2404.13767v1 )

ライセンス: Link先を確認
Michael Potter, Rahil Bhowal, Richard Zhao, Anuj Patel, Jingming Cheng, (参考訳) 本稿では,災害シナリオにおける効果的な偵察の必要性に応えて,ロボットオペレーティング・システム(ROS)によるTurtlebot3を用いた完全自律ロボットシステムの設計と実装について述べる。 クローズドで、当初は未知の環境にデプロイすると、システムは包括的なマップを生成し、エイプリルタグをスタンドインとして、現在の"ビジター"を識別する。 探索・救助ミッションのソリューションについて検討するとともに,探索・救助機能を改善するための高度なアルゴリズムについても検討する。 本研究では,4月Tagの局所化における平均二乗誤差の低減を支援するCubature Kalmanフィルタと,未知の環境での探索を高速化するための情報理論探索アルゴリズムを提案する。 ウミガメと同じように、私たちのシステムはゆっくりと安定していきますが、その日を節約する時間になると、忍者のようなスピードで動きます! ドナテッロの貝殻にもかかわらず、彼はスローポークではない。彼は10代のミュータント忍者カメの機敏さで障害物を乗り越えている。 では、シェルにしっかりとつかまって、偵察の嵐に備えて! 完全なパイプラインコード https://github.com/rzhao5659/MRProject/tree/main 探索コード https://github.com/rzhao5659/MRProject/tree/main

In response to the critical need for effective reconnaissance in disaster scenarios, this research article presents the design and implementation of a complete autonomous robot system using the Turtlebot3 with Robotic Operating System (ROS) Noetic. Upon deployment in closed, initially unknown environments, the system aims to generate a comprehensive map and identify any present 'victims' using AprilTags as stand-ins. We discuss our solution for search and rescue missions, while additionally exploring more advanced algorithms to improve search and rescue functionalities. We introduce a Cubature Kalman Filter to help reduce the mean squared error [m] for AprilTag localization and an information-theoretic exploration algorithm to expedite exploration in unknown environments. Just like turtles, our system takes it slow and steady, but when it's time to save the day, it moves at ninja-like speed! Despite Donatello's shell, he's no slowpoke - he zips through obstacles with the agility of a teenage mutant ninja turtle. So, hang on tight to your shells and get ready for a whirlwind of reconnaissance! Full pipeline code https://github.com/rzhao5659/MRProject/tree/main Exploration code https://github.com/rzhao5659/MRProject/tree/main
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# EncodeNet: エントロピー駆動の汎用変換オートエンコーダによるDNN精度向上フレームワーク

EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder ( http://arxiv.org/abs/2404.13770v1 )

ライセンス: Link先を確認
Hasanul Mahmud, Kevin Desai, Palden Lama, Sushil K. Prasad, (参考訳) 画像分類はコンピュータビジョンの基本的な課題であり、モデルサイズやレイテンシを膨らませることなくDNNの精度を高めるという試みは、依然として大きな関心事である。 私たちはこの点に関していくつかの進歩を行い、新しいEncodeNet設計およびトレーニングフレームワークにつながります。 最初の進歩は、イメージをそのクラスの簡単に分類できるイメージに変換する新しいアプローチである、自動エンコーダの変換である。 変換オートエンコーダとタンデムの単純な分類器を応用した以前の研究は、MNISTやFMNISTのような単純なデータセットよりも適度に精度が向上した。 しかし、CIFAR-10のようなより複雑なデータセットでは、Converting Autoencoderは大規模な再構築損失があり、DNNの精度を高めるには適していない。 これらの制約に対処するため、より大規模なDNNと特徴抽出層と分類層からなるアーキテクチャを併用して、変換オートエンコーダの設計を一般化する。 本稿では,Converting Autoencoderとクラス内クラスタリングの一般化されたアルゴリズム設計を取り入れて,代表画像の識別を行い,最適化された画像特徴学習を実現する。 次に、EncodeNetの設計およびトレーニングフレームワークの有効性を実証し、モデル全体のサイズを維持しながら、よく訓練されたベースラインDNNの精度を向上させる。 EncodeNetのビルディングブロックは、知識を軽量な分類器ネットワークに転送する一般化されたConverting Autoencoderからトレーニングされたエンコーダで構成されており、ベースラインDNNからも抽出されている。 実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。 これは知識蒸留と注意機構に依存した最先端技術より優れており、同等の大きさのモデルに対して高い精度を提供する。

Image classification is a fundamental task in computer vision, and the quest to enhance DNN accuracy without inflating model size or latency remains a pressing concern. We make a couple of advances in this regard, leading to a novel EncodeNet design and training framework. The first advancement involves Converting Autoencoders, a novel approach that transforms images into an easy-to-classify image of its class. Our prior work that applied the Converting Autoencoder and a simple classifier in tandem achieved moderate accuracy over simple datasets, such as MNIST and FMNIST. However, on more complex datasets like CIFAR-10, the Converting Autoencoder has a large reconstruction loss, making it unsuitable for enhancing DNN accuracy. To address these limitations, we generalize the design of Converting Autoencoders by leveraging a larger class of DNNs, those with architectures comprising feature extraction layers followed by classification layers. We incorporate a generalized algorithmic design of the Converting Autoencoder and intraclass clustering to identify representative images, leading to optimized image feature learning. Next, we demonstrate the effectiveness of our EncodeNet design and training framework, improving the accuracy of well-trained baseline DNNs while maintaining the overall model size. EncodeNet's building blocks comprise the trained encoder from our generalized Converting Autoencoders transferring knowledge to a lightweight classifier network - also extracted from the baseline DNN. Our experimental results demonstrate that EncodeNet improves the accuracy of VGG16 from 92.64% to 94.05% on CIFAR-10 and RestNet20 from 74.56% to 76.04% on CIFAR-100. It outperforms state-of-the-art techniques that rely on knowledge distillation and attention mechanisms, delivering higher accuracy for models of comparable size.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 光空洞と結合した二重量子ドットの待ち時間統計

Waiting time statistics for a double quantum dot coupled with an optical cavity ( http://arxiv.org/abs/2404.13775v1 )

ライセンス: Link先を確認
Luis F. Santos, Gabriel T. Landi, (参考訳) 光空洞に結合した二重量子ドットは、非自明な開量子系の原始的な例である。 近年の実験的および理論的研究により、このシステムはマイクロ波領域における単一光子検出の候補であることが示されている。 これは、平均的な電流を超える研究を動機付け、光子と電子検出の完全なカウント統計を考慮に入れている。 このことを念頭に置いて, 量子ジャンプによる待ち時間統計を詳細に解析し, 成功率, 失敗確率, および検出間時間について解析式を抽出する。 さらに、単光子と多光子の比較により、異なる事象の発生確率の階層を推定し、検出確率における光子干渉イベントの役割を明らかにする。 そこで本研究では,待ち時間の統計値を用いて,時間的,関連性の高い気象課題を最適化する方法について直接図示する。

A double quantum dot coupled to an optical cavity is a prototypical example of a non-trivial open quantum system. Recent experimental and theoretical studies show that this system is a candidate for single-photon detection in the microwave domain. This motivates studies that go beyond just the average current, and also take into account the full counting statistics of photon and electron detections. With this in mind, here we provide a detailed analysis of the waiting time statistics of this system within the quantum jump unravelling, which allows us to extract analytical expressions for the success and failure probabilities, as well as for the inter detection times. Furthermore, by comparing single and multi-photon scenarios, we infer a hierarchy of occurrence probabilities for the different events, highlighting the role of photon interference events in the detection probabilities. Our results therefore provide a direct illustration of how waiting time statistics can be used to optimize a timely and relevant metrological task.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# グループ映画レコメンデーションシステムにおけるコンセンサスリーチのマルチチャンネル感情分析

Multi-channel Emotion Analysis for Consensus Reaching in Group Movie Recommendation Systems ( http://arxiv.org/abs/2404.13778v1 )

ライセンス: Link先を確認
Adilet Yerkin, Elnara Kadyrgali, Yerdauit Torekhan, Pakizar Shamoi, (参考訳) 映画を見ることは、通常グループで行われる社会的活動の1つです。 感情は映画視聴者の好みに影響を与える最も重要な要素である。 したがって、映画の感情的な側面は、さらなるレコメンデーションのために決定され分析される必要がある。 多様なグループの感情に訴える映画を選ぶのは難しいかもしれません。 様々なジャンルや選択肢があるため、グループ間の合意の取得は困難である。 本稿では,映画記述(テキスト),サウンドトラック(オーディオ),ポスター(イメージ)の3つの異なるチャンネルから感情を抽出し,グループ映画提案に対する新たなアプローチを提案する。 我々は,Jaccard類似度指数を用いて,各被験者の感情的嗜好を映画選択に合わせるとともに,ファジィ推論手法を用いてグループコンセンサスを決定する。 多様なデータ型からの感情スコアの融合に重み付けされた統合プロセスを用いる。 次に、グループ映画のレコメンデーションは、一般的な感情と視聴者の最も愛された映画に基づいて行われる。 推薦を決定した後、ファジィ推論システムを用いて集団のコンセンサスレベルを算出し、参加者のフィードバックを入力とする。 調査対象者 (n=130) に異なる感情カテゴリーを設け, 特定の映画に適した感情を選択するように依頼した(n=12。 予測スコアと実際のスコアを比較した結果,この問題に対する感情検出の有効性が示された(ジャカード類似度指数=0.76)。 TMDBデータベースから,100本の人気映画における感情分布を解析し,誘導感情と映画人気との関係について検討した。 このようなシステムは、映画レコメンデーションシステムの精度を向上し、様々な好みを持つ参加者の間で高いコンセンサスを達成する可能性がある。

Watching movies is one of the social activities typically done in groups. Emotion is the most vital factor that affects movie viewers' preferences. So, the emotional aspect of the movie needs to be determined and analyzed for further recommendations. It can be challenging to choose a movie that appeals to the emotions of a diverse group. Reaching an agreement for a group can be difficult due to the various genres and choices. This paper proposes a novel approach to group movie suggestions by examining emotions from three different channels: movie descriptions (text), soundtracks (audio), and posters (image). We employ the Jaccard similarity index to match each participant's emotional preferences to prospective movie choices, followed by a fuzzy inference technique to determine group consensus. We use a weighted integration process for the fusion of emotion scores from diverse data types. Then, group movie recommendation is based on prevailing emotions and viewers' best-loved movies. After determining the recommendations, the group's consensus level is calculated using a fuzzy inference system, taking participants' feedback as input. Participants (n=130) in the survey were provided with different emotion categories and asked to select the emotions best suited for particular movies (n=12). Comparison results between predicted and actual scores demonstrate the efficiency of using emotion detection for this problem (Jaccard similarity index = 0.76). We explored the relationship between induced emotions and movie popularity as an additional experiment, analyzing emotion distribution in 100 popular movies from the TMDB database. Such systems can potentially improve the accuracy of movie recommendation systems and achieve a high level of consensus among participants with diverse preferences.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# バイオメディカル文献による実験手法の自動テキストマイニング

Automated Text Mining of Experimental Methodologies from Biomedical Literature ( http://arxiv.org/abs/2404.13779v1 )

ライセンス: Link先を確認
Ziqing Guo, (参考訳) バイオメディカル文学は、科学と技術の急速に発展する分野である。 バイオメディカルテキストの分類は、特に生物学の分野において、生体医学研究の不可欠な部分である。 本研究は,バイオメディシンテキストをマイニングするための方法論固有の,事前訓練された生成型分類言語モデルであるDistilBERTを提案する。 このモデルは、言語理解能力においてその効果を証明し、BERTモデルのサイズを40\%削減したが、60\%高速化した。 このプロジェクトの主な目的は、非微調整モデルと比較してモデルを改善し、モデルの性能を評価することである。 筆者らはDistilBertを支援モデルとして使用し,32,000の抽象文と完全テキスト記事のコーパスで事前学習を行った。 我々の目標は、この高度に専門化された特定のモデルを異なる研究産業に統合することである。

Biomedical literature is a rapidly expanding field of science and technology. Classification of biomedical texts is an essential part of biomedicine research, especially in the field of biology. This work proposes the fine-tuned DistilBERT, a methodology-specific, pre-trained generative classification language model for mining biomedicine texts. The model has proven its effectiveness in linguistic understanding capabilities and has reduced the size of BERT models by 40\% but by 60\% faster. The main objective of this project is to improve the model and assess the performance of the model compared to the non-fine-tuned model. We used DistilBert as a support model and pre-trained on a corpus of 32,000 abstracts and complete text articles; our results were impressive and surpassed those of traditional literature classification methods by using RNN or LSTM. Our aim is to integrate this highly specialised and specific model into different research industries.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 検索機能強化世代における検索品質の評価

Evaluating Retrieval Quality in Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.13781v1 )

ライセンス: Link先を確認
Alireza Salemi, Hamed Zamani, (参考訳) 検索強化世代(RAG)の評価は、特にこれらのシステム内の検索モデルにおいて課題を提起する。 従来のエンドツーエンド評価手法は計算コストが高い。 さらに,クエリドキュメンテーション関連ラベルに基づく検索モデルの性能評価では,RAGシステムの下流性能との相関が小さい。 本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルによって個別に活用する新しい評価手法eRAGを提案する。 次に、各文書に対して生成された出力を、下流のタスク基底真理ラベルに基づいて評価する。 このように、各文書の下流のパフォーマンスはその関連性ラベルとして機能する。 さまざまなダウンストリームタスクメトリクスを使用して、文書レベルのアノテーションを取得し、セットベースまたはランキングメトリクスを使用してそれらを集約します。 幅広いデータセットに対する大規模な実験により、eRAGはベースライン法と比較して下流RAGのパフォーマンスと高い相関を達成しており、Kendallの$\tau$相関は0.168から0.494まで改善されている。 さらに、eRAGは、ランタイムを改善し、エンドツーエンドの評価よりも最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。

Evaluating retrieval-augmented generation (RAG) presents challenges, particularly for retrieval models within these systems. Traditional end-to-end evaluation methods are computationally expensive. Furthermore, evaluation of the retrieval model's performance based on query-document relevance labels shows a small correlation with the RAG system's downstream performance. We propose a novel evaluation approach, eRAG, where each document in the retrieval list is individually utilized by the large language model within the RAG system. The output generated for each document is then evaluated based on the downstream task ground truth labels. In this manner, the downstream performance for each document serves as its relevance label. We employ various downstream task metrics to obtain document-level annotations and aggregate them using set-based or ranking metrics. Extensive experiments on a wide range of datasets demonstrate that eRAG achieves a higher correlation with downstream RAG performance compared to baseline methods, with improvements in Kendall's $\tau$ correlation ranging from 0.168 to 0.494. Additionally, eRAG offers significant computational advantages, improving runtime and consuming up to 50 times less GPU memory than end-to-end evaluation.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# 自然・AI生成画像の再現のための反復的マルチモーダルLCM

Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images ( http://arxiv.org/abs/2404.13784v1 )

ライセンス: Link先を確認
Ali Naseh, Katherine Thai, Mohit Iyyer, Amir Houmansadr, (参考訳) デジタル画像のランドスケープが急速に発展し、画像ストックとAI生成画像マーケットプレイスがビジュアルメディアの中心となっている。 従来のストックイメージは、DALL-E 3やMidjourneyといった高度なAPIによって駆動される、AI生成ビジュアルのプロンプトと引き換えに、革新的なプラットフォームと共に存在しています。 本稿では,これらのプラットフォームの出力を模倣する視覚的理解度を高めたマルチモーダルモデルの導入の可能性について検討し,本来の攻撃戦略を提案する。 提案手法では,細調整のCLIPモデル,マルチラベル分類器,GPT-4Vの記述機能を活用して,マーケットプレースやプレミアムストックイメージプロバイダから利用できるような画像を生成するプロンプトを生成する。 この戦略を提示するにあたって,デジタル画像の領域内での新たな経済・安全保障上の配慮を浮き彫りにすることを目的としている。 我々の発見は、自動測定と人的評価の両方で支持されており、同等のビジュアルコンテンツが市場価格のごく一部(画像当たり0.23~0.27ドル)で生産可能であることを明らかにし、ますますAI統合された状況におけるデジタルメディアの完全性に対する認識と戦略的議論の必要性を強調した。 私たちの研究は、人気の高いMidjourneyプラットフォームによって生成される約1900万のプロンプトイメージペアからなるデータセットを組み立てることで、この分野にも貢献します。

With the digital imagery landscape rapidly evolving, image stocks and AI-generated image marketplaces have become central to visual media. Traditional stock images now exist alongside innovative platforms that trade in prompts for AI-generated visuals, driven by sophisticated APIs like DALL-E 3 and Midjourney. This paper studies the possibility of employing multi-modal models with enhanced visual understanding to mimic the outputs of these platforms, introducing an original attack strategy. Our method leverages fine-tuned CLIP models, a multi-label classifier, and the descriptive capabilities of GPT-4V to create prompts that generate images similar to those available in marketplaces and from premium stock image providers, yet at a markedly lower expense. In presenting this strategy, we aim to spotlight a new class of economic and security considerations within the realm of digital imagery. Our findings, supported by both automated metrics and human assessment, reveal that comparable visual content can be produced for a fraction of the prevailing market prices ($0.23 - $0.27 per image), emphasizing the need for awareness and strategic discussions about the integrity of digital media in an increasingly AI-integrated landscape. Our work also contributes to the field by assembling a dataset consisting of approximately 19 million prompt-image pairs generated by the popular Midjourney platform, which we plan to release publicly.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# レバレッジスコア分布の逆変換法

How to Inverting the Leverage Score Distribution? ( http://arxiv.org/abs/2404.13785v1 )

ライセンス: Link先を確認
Zhihang Li, Zhao Song, Weixin Wang, Junze Yin, Zheng Yu, (参考訳) レバレッジスコアは、機械学習と理論計算機科学の基本的な問題である。 回帰分析、ランダム化アルゴリズム、ニューラルネットワークのインバージョンに広く応用されている。 本稿では,レバレッジスコアがツールとして広く利用されているにもかかわらず,新しい問題,すなわち逆レバレッジスコア問題について検討する。 モデルパラメータを復元するために,レバレッジスコア分布を逆解析する。 具体的には、レバレッジスコア $\sigma \in \mathbb{R}^n$, the matrix $A \in \mathbb{R}^{n \times d}$, and the vector $b \in \mathbb{R}^n$, we analyze the non-convex optimization problem of find $x \in \mathbb{R}^d$ to minimize $\| \mathrm{diag}( \sigma ) - I_n \circ (A(x) (A(x)^\top A(x) )^{-1} A(x)^\top ) \|_F$, where $A(x):= S(x)^{-1} A \in \mathbb{R}^{n \times d} $S(x)= S(x)^{-1} A(x) = S(x)^{-1} A(x)=\in \mathbb{R} \times d} $S(x)= S(x)= A(x)=\in \mathbb{R} - A(x)=A(x)=A(x)=A(x)=\in \mathbb{R} である。 我々の理論的研究は、勾配とヘッセンの計算、ヘッセン行列が正定値であること、リプシッツ、この回帰問題を解決するために一階および二階のアルゴリズムの構築などである。 我々の研究は、反復的縮小と帰納仮説を組み合わせることで、ニュートン法における大域収束率を保証するとともに、リプシッツの性質と強い凸性を利用して勾配降下性能を保証している。 この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。

Leverage score is a fundamental problem in machine learning and theoretical computer science. It has extensive applications in regression analysis, randomized algorithms, and neural network inversion. Despite leverage scores are widely used as a tool, in this paper, we study a novel problem, namely the inverting leverage score problem. We analyze to invert the leverage score distributions back to recover model parameters. Specifically, given a leverage score $\sigma \in \mathbb{R}^n$, the matrix $A \in \mathbb{R}^{n \times d}$, and the vector $b \in \mathbb{R}^n$, we analyze the non-convex optimization problem of finding $x \in \mathbb{R}^d$ to minimize $\| \mathrm{diag}( \sigma ) - I_n \circ (A(x) (A(x)^\top A(x) )^{-1} A(x)^\top ) \|_F$, where $A(x):= S(x)^{-1} A \in \mathbb{R}^{n \times d} $, $S(x) := \mathrm{diag}(s(x)) \in \mathbb{R}^{n \times n}$ and $s(x) : = Ax - b \in \mathbb{R}^n$. Our theoretical studies include computing the gradient and Hessian, demonstrating that the Hessian matrix is positive definite and Lipschitz, and constructing first-order and second-order algorithms to solve this regression problem. Our work combines iterative shrinking and the induction hypothesis to ensure global convergence rates for the Newton method, as well as the properties of Lipschitz and strong convexity to guarantee the performance of gradient descent. This important study on inverting statistical leverage opens up numerous new applications in interpretation, data recovery, and security.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# Soar: 自動運転のためのスマートロードサイドインフラストラクチャシステムの設計と展開

Soar: Design and Deployment of A Smart Roadside Infrastructure System for Autonomous Driving ( http://arxiv.org/abs/2404.13786v1 )

ライセンス: Link先を確認
Shuyao Shi, Neiwen Ling, Zhehao Jiang, Xuan Huang, Yuze He, Xiaoguang Zhao, Bufang Yang, Chen Bian, Jingfei Xia, Zhenyu Yan, Raymond Yeung, Guoliang Xing, (参考訳) 近年,SRI(Smart Roadside Infrastructure)は,完全自律運転システムの実現の可能性を示している。 本稿では、インフラ支援自動運転の可能性を探るため、自動運転システムに特化して設計された最初のエンドツーエンドSRIシステムであるSoarの設計と展開について述べる。 Soarはソフトウェアとハードウェアの両方のコンポーネントで構成されており、様々なシステムや物理的課題を克服するために慎重に設計されている。 Soarは、ストリートランプポストのような既存の運用インフラを活用して、採用障壁を低くすることができる。 Soarは、双方向マルチホップI2Iネットワークと、オフザシェルフ802.11acインターフェースを統合的に設計したダウンリンクI2Vブロードキャストサービスを組み合わせた、新しい通信アーキテクチャを採用している。 Soarはまた、ノード間で望ましいロードバランシングを実現するために階層的なDLタスク管理フレームワークを備えており、複数のデータ集約型自律運転アプリケーションを実行するために効率的に協調することができる。 私たちは、キャンパスの既存の街路に合計18のSoarノードを配置しました。 我々の実世界の評価では、Soarは多様な自動運転アプリケーションをサポートし、望ましいリアルタイム性能と高い通信信頼性を実現することができる。 この研究における私たちの発見と経験は、次世代のスマートロードサイドインフラストラクチャと自動運転システムの開発と展開に関する重要な洞察を与えてくれます。

Recently,smart roadside infrastructure (SRI) has demonstrated the potential of achieving fully autonomous driving systems. To explore the potential of infrastructure-assisted autonomous driving, this paper presents the design and deployment of Soar, the first end-to-end SRI system specifically designed to support autonomous driving systems. Soar consists of both software and hardware components carefully designed to overcome various system and physical challenges. Soar can leverage the existing operational infrastructure like street lampposts for a lower barrier of adoption. Soar adopts a new communication architecture that comprises a bi-directional multi-hop I2I network and a downlink I2V broadcast service, which are designed based on off-the-shelf 802.11ac interfaces in an integrated manner. Soar also features a hierarchical DL task management framework to achieve desirable load balancing among nodes and enable them to collaborate efficiently to run multiple data-intensive autonomous driving applications. We deployed a total of 18 Soar nodes on existing lampposts on campus, which have been operational for over two years. Our real-world evaluation shows that Soar can support a diverse set of autonomous driving applications and achieve desirable real-time performance and high communication reliability. Our findings and experiences in this work offer key insights into the development and deployment of next-generation smart roadside infrastructure and autonomous driving systems.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# AnyPattern: コンテキスト内のイメージコピー検出を目指す

AnyPattern: Towards In-context Image Copy Detection ( http://arxiv.org/abs/2404.13788v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang, (参考訳) 本稿では、画像コピー検出(ICD)のためのコンテキスト内学習、すなわち、追加のトレーニングを必要とせず、新しい改ざんパターンで再現された画像を識別するICDモデルを提案する。 プロンプト(またはコンテキスト)は、新しいパターンを反映し、推論時に使用される小さなイメージとレプリカのペアである。 このようなコンテキスト内ICDは、微調整を必要とせず、その結果、目に見えないパターンの出現に対する迅速な反応を促進するため、現実的な価値が高い。 の一般化シナリオに対応するため、AnyPatternという名の最初の大規模パターンデータセットを構築しました。 我々は、AnyPatternを一般的なICD手法でベンチマークし、既存の手法が新しいタンパーパターンにほとんど一般化しないことを明らかにする。 さらに,ImageStacker というシンプルなインコンテキスト ICD 手法を提案する。 ImageStackerは最も代表的なイメージ-レプリカペアを選択して、(一般的な結合方式ではなく)積み重ね方式でパターンプロンプトとして使用する。 実験結果から,(1)大規模データセットによるトレーニングは,パターンの一般化に大きく貢献する(+26.66 \%$\mu AP$),(2)提案されたImageStackerは,効果的なインコンテキストIDD(同じくラウンドの$+16.75 \%$\mu AP$),(3)AnyPatternはインコンテキストIDDを可能にする。 プロジェクト(AnyPatternとImageStackerのコードを含む)はMIT Licenceの下でhttps://anypattern.github.ioで公開されている。

This paper explores in-context learning for image copy detection (ICD), i.e., prompting an ICD model to identify replicated images with new tampering patterns without the need for additional training. The prompts (or the contexts) are from a small set of image-replica pairs that reflect the new patterns and are used at inference time. Such in-context ICD has good realistic value, because it requires no fine-tuning and thus facilitates fast reaction against the emergence of unseen patterns. To accommodate the "seen $\rightarrow$ unseen" generalization scenario, we construct the first large-scale pattern dataset named AnyPattern, which has the largest number of tamper patterns ($90$ for training and $10$ for testing) among all the existing ones. We benchmark AnyPattern with popular ICD methods and reveal that existing methods barely generalize to novel tamper patterns. We further propose a simple in-context ICD method named ImageStacker. ImageStacker learns to select the most representative image-replica pairs and employs them as the pattern prompts in a stacking manner (rather than the popular concatenation manner). Experimental results show (1) training with our large-scale dataset substantially benefits pattern generalization ($+26.66 \%$ $\mu AP$), (2) the proposed ImageStacker facilitates effective in-context ICD (another round of $+16.75 \%$ $\mu AP$), and (3) AnyPattern enables in-context ICD, i.e. without such a large-scale dataset, in-context learning does not emerge even with our ImageStacker. The project (including the proposed dataset AnyPattern and the code for ImageStacker) is publicly available at https://anypattern.github.io under the MIT Licence.
翻訳日:2024-04-23 15:45:49 公開日:2024-04-21
# Anchor-aware Deep Metric Learning for Audio-visual Retrieval

Anchor-aware Deep Metric Learning for Audio-visual Retrieval ( http://arxiv.org/abs/2404.13789v1 )

ライセンス: Link先を確認
Donghuo Zeng, Yanan Wang, Kazushi Ikeda, Yi Yu, (参考訳) メトリック学習は、類似した(肯定的な)データポイントのペア間のギャップを最小化し、異なる(否定的な)ペアの分離を増加させ、基礎となるデータ構造をキャプチャし、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクのパフォーマンスを向上させることを目的としている。 近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。 しかし、トレーニングデータポイントの不足により、モデルトレーニングは空間を完全に探索することができず、結果として全体の正と負の分布が不完全な表現となる。 本稿では,既存のデータポイント間の相関関係を明らかにすることで,共有埋め込み空間の質を高めることにより,この課題に対処する革新的アンカー認識深度学習(AADML)手法を提案する。 具体的には,各サンプルのアンカーと,その意味論的に類似したサンプル間の依存関係を考慮し,相関グラフに基づく多様体構造を確立する。 注意駆動機構を用いて, この基礎となる多様体構造内の相関関係を動的に重み付けすることにより, アンカー毎にアンカー認識スコア(AA)を求める。 これらのAAスコアは、距離学習アプローチで相対距離を計算するためのデータプロキシとして機能する。 2つのオーディオ・ビジュアル・ベンチマーク・データセットで行った大規模な実験は、提案手法の有効性を実証し、最先端のモデルを大幅に上回った。 さらに,AAプロキシと各種メトリック学習手法の統合について検討し,本手法の有効性を明らかにする。

Metric learning minimizes the gap between similar (positive) pairs of data points and increases the separation of dissimilar (negative) pairs, aiming at capturing the underlying data structure and enhancing the performance of tasks like audio-visual cross-modal retrieval (AV-CMR). Recent works employ sampling methods to select impactful data points from the embedding space during training. However, the model training fails to fully explore the space due to the scarcity of training data points, resulting in an incomplete representation of the overall positive and negative distributions. In this paper, we propose an innovative Anchor-aware Deep Metric Learning (AADML) method to address this challenge by uncovering the underlying correlations among existing data points, which enhances the quality of the shared embedding space. Specifically, our method establishes a correlation graph-based manifold structure by considering the dependencies between each sample as the anchor and its semantically similar samples. Through dynamic weighting of the correlations within this underlying manifold structure using an attention-driven mechanism, Anchor Awareness (AA) scores are obtained for each anchor. These AA scores serve as data proxies to compute relative distances in metric learning approaches. Extensive experiments conducted on two audio-visual benchmark datasets demonstrate the effectiveness of our proposed AADML method, significantly surpassing state-of-the-art models. Furthermore, we investigate the integration of AA proxies with various metric learning methods, further highlighting the efficacy of our approach.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# ユニバーサルフィンガープリント生成:マルチモーダル条件による制御可能な拡散モデル

Universal Fingerprint Generation: Controllable Diffusion Model with Multimodal Conditions ( http://arxiv.org/abs/2404.13791v1 )

ライセンス: Link先を確認
Steven A. Grosz, Anil K. Jain, (参考訳) 指紋認証のための合成データの利用は、機密バイオメトリックスデータを取り巻くプライバシー上の懸念を和らげるため、注目を集めている。 しかし、現在の指紋生成法は、クラス内で有用な差分を持つ同じ指の印象を生み出すのに限界がある。 この課題に対処するために、指紋分類、取得タイプ、センサデバイス、品質レベルなどの異なる外観要因を人為的に理解可能な制御を行うとともに、アイデンティティを維持しつつ、さまざまなタイプの指紋画像を生成するためのフレームワークであるGenPrintを提案する。 これまでの指紋生成アプローチとは異なり、GenPrintはトレーニングデータセットのみからスタイル特性を複製することに限定されていない。 これらの目的を達成するため、我々は多モード条件(テキストと画像)を持つ潜在拡散モデルを用いてGenPrintを開発し、スタイルとアイデンティティを一貫した生成を行った。 私たちの実験では、トレーニングと評価のために、さまざまな公開データセットを活用しています。 結果は、生成した画像のアイデンティティ保存、説明可能な制御、普遍性の観点から、GenPrintの利点を実証する。 重要なのは、GenPrintの生成したイメージは、実際のデータのみに基づいてトレーニングされたモデルと同等またはそれ以上の精度で、既存の実際の指紋データセットの多様性を拡大する際のパフォーマンスをさらに向上させることだ。

The utilization of synthetic data for fingerprint recognition has garnered increased attention due to its potential to alleviate privacy concerns surrounding sensitive biometric data. However, current methods for generating fingerprints have limitations in creating impressions of the same finger with useful intra-class variations. To tackle this challenge, we present GenPrint, a framework to produce fingerprint images of various types while maintaining identity and offering humanly understandable control over different appearance factors such as fingerprint class, acquisition type, sensor device, and quality level. Unlike previous fingerprint generation approaches, GenPrint is not confined to replicating style characteristics from the training dataset alone: it enables the generation of novel styles from unseen devices without requiring additional fine-tuning. To accomplish these objectives, we developed GenPrint using latent diffusion models with multimodal conditions (text and image) for consistent generation of style and identity. Our experiments leverage a variety of publicly available datasets for training and evaluation. Results demonstrate the benefits of GenPrint in terms of identity preservation, explainable control, and universality of generated images. Importantly, the GenPrint-generated images yield comparable or even superior accuracy to models trained solely on real data and further enhances performance when augmenting the diversity of existing real fingerprint datasets.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# パーソナライズアウトの最適化のための予測潜在人格次元を用いた対物推論

Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome ( http://arxiv.org/abs/2404.13792v1 )

ライセンス: Link先を確認
Donghuo Zeng, Roberto S. Legaspi, Yuewen Sun, Xinshuai Dong, Kazushi Ikeda, Peter Spirtes, kun Zhang, (参考訳) 特定のユーザに対する関心の結果に関連する説得的会話をカスタマイズすると、より良い説得結果が得られる。 しかし、既存の説得的会話システムは、対話中の個々のユーザの進化状態に適合する対話を動的に調整する際の説得的戦略と挑戦に頼っている。 この制限は、フレキシブルまたはダイナミックな会話を提供し、最適以下の説得結果を達成するシステムの能力を制限する。 本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)をトラッキングし,これらのLPDに基づいて適切な対実発話を生成し,全体的な説得結果を最適化する手法を提案する。 特に,本提案手法では,対話型パーソナリティ予測回帰(DPPR)モデルを用いて双方向生成適応ネットワーク(BiCoGAN)をタンデムで利用し,デファクトデータを生成する。 これにより、ユーザがより適した他の説得的発話を定式化することができる。 その後、D3QNモデルを用いて、対実データに基づくシステム発話の選択を最適化するためのポリシーを学習する。 PersuasionForGoodデータセットを用いて得られた実験結果から,既存の手法であるBiCoGANに対するアプローチの優位性を実証した。 提案手法が生み出した累積報酬とQ値が真理ベンチマークを上回り,オンラインインタラクションにおける強化学習政策の最適化に対実的推論とLPDを併用する効果が示された。

Customizing persuasive conversations related to the outcome of interest for specific users achieves better persuasion results. However, existing persuasive conversation systems rely on persuasive strategies and encounter challenges in dynamically adjusting dialogues to suit the evolving states of individual users during interactions. This limitation restricts the system's ability to deliver flexible or dynamic conversations and achieve suboptimal persuasion outcomes. In this paper, we present a novel approach that tracks a user's latent personality dimensions (LPDs) during ongoing persuasion conversation and generates tailored counterfactual utterances based on these LPDs to optimize the overall persuasion outcome. In particular, our proposed method leverages a Bi-directional Generative Adversarial Network (BiCoGAN) in tandem with a Dialogue-based Personality Prediction Regression (DPPR) model to generate counterfactual data. This enables the system to formulate alternative persuasive utterances that are more suited to the user. Subsequently, we utilize the D3QN model to learn policies for optimized selection of system utterances on counterfactual data. Experimental results we obtained from using the PersuasionForGood dataset demonstrate the superiority of our approach over the existing method, BiCoGAN. The cumulative rewards and Q-values produced by our method surpass ground truth benchmarks, showcasing the efficacy of employing counterfactual reasoning and LPDs to optimize reinforcement learning policy in online interactions.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# グラディエントブースティングを用いた軽量接続検出

Lightweight Connective Detection Using Gradient Boosting ( http://arxiv.org/abs/2404.13793v1 )

ライセンス: Link先を確認
Mustafa Erolcan Er, Murathan Kurfalı, Deniz Zeyrek, (参考訳) 本研究では,軽量な談話接続検出システムを提案する。 直感的で低複雑さな特徴に基づいてトレーニングされた勾配強化を採用することで、提案手法は、ディープニューラルネットワークに依存する現在のアプローチの計算要求を左右する。 その単純さを考慮すると、我々のアプローチは、CPU上でさえ時間的に大きな利益を上げながら、競争的な結果を達成する。 さらに,2つの非関連言語間の安定性能は,多言語シナリオにおけるシステムの堅牢性を示している。 このモデルは、特に限られたリソースを持つシナリオにおいて、性能損失を最小限に抑えながら、談話関係のアノテーションをサポートするように設計されている。

In this work, we introduce a lightweight discourse connective detection system. Employing gradient boosting trained on straightforward, low-complexity features, this proposed approach sidesteps the computational demands of the current approaches that rely on deep neural networks. Considering its simplicity, our approach achieves competitive results while offering significant gains in terms of time even on CPU. Furthermore, the stable performance across two unrelated languages suggests the robustness of our system in the multilingual scenario. The model is designed to support the annotation of discourse relations, particularly in scenarios with limited resources, while minimizing performance loss.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# 原子リニアップのパワー拡大に及ぼす古典駆動の影響

Effects of classical drivings on the power broadening of atomic lineshapes ( http://arxiv.org/abs/2404.13794v1 )

ライセンス: Link先を確認
L. Hernández-Sánchez, I. A. Bocanegra-Garay, I. Ramos-Prieto, F. Soto-Eguibar, H. M. Moya-Cessa, (参考訳) Jaynes-Cummingsモデルの枠組みでは、原子-磁場相互作用をコヒーレントに駆動することによって原子線がどう影響するかを考察する。 外部古典場の影響を受けながら、熱空洞場との2レベル原子相互作用に特に注意を払う。 密度行列形式を用いると、平均原子インバージョンを計算し、対応する直線が平均熱光子の数と原子場古典結合の関数としてどのように変化するかを示す。 さらに,これらの結果と標準のJaynes-Cummingsモデルから得られた結果を比較し,数値計算による検証を行った。

In the framework of the Jaynes-Cummings model, we investigate how atomic lineshapes are affected by coherently driving the atom-field interaction. We pay particular attention to the two-level atom interaction with a thermal cavity field, when both are influenced by external classical fields. Adopting a density matrix formalism, we calculate the average atomic inversion and demonstrate how the corresponding lineshapes vary as a function of the average number of thermal photons, and the atom-field classical coupling. Furthermore, we compare these results with those obtained from the standard Jaynes-Cummings model and validate our findings through numerical calculations.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# 公正表現学習のための条件付き独立化と因果画像生成

Enforcing Conditional Independence for Fair Representation Learning and Causal Image Generation ( http://arxiv.org/abs/2404.13798v1 )

ライセンス: Link先を確認
Jensen Hwa, Qingyu Zhao, Aditya Lahiri, Adnan Masood, Babak Salimi, Ehsan Adeli, (参考訳) 条件付き独立性(CI)制約は、機械学習における公正性の定義と評価、および未確立または因果表現の学習に重要である。 フェアネスを保証する従来の方法は、保護された変数(例えば、顔画像からセックスを分類する際のレース)に関する不変性を盲目的に学習するか、モデル出力(例えば、セックスラベル)にのみ、保護された属性に対してCIを強制する。 どちらの手法も高次元特徴空間におけるCIの強制には有効ではない。 本稿では,2つのJensen-Shannon分散項の観点からCI制約を特徴付ける新しいアプローチに着目し,新しい動的サンプリング手法を用いて高次元特徴空間に拡張する。 そこで我々は,任意のエンコーダアーキテクチャに適用可能な,新たなトレーニングパラダイムを導入する。 等化オッズ制約の下では,任意の保護属性に対する拡散自己エンコーダ潜在表現の条件付き独立性を実現し,制御可能な潜在空間を用いた因果画像生成を可能にすることを示す。 実験結果から,提案手法は確率の等価性を保ちながら,下流タスクにおいて高い精度を達成可能であることが示された。

Conditional independence (CI) constraints are critical for defining and evaluating fairness in machine learning, as well as for learning unconfounded or causal representations. Traditional methods for ensuring fairness either blindly learn invariant features with respect to a protected variable (e.g., race when classifying sex from face images) or enforce CI relative to the protected attribute only on the model output (e.g., the sex label). Neither of these methods are effective in enforcing CI in high-dimensional feature spaces. In this paper, we focus on a nascent approach characterizing the CI constraint in terms of two Jensen-Shannon divergence terms, and we extend it to high-dimensional feature spaces using a novel dynamic sampling strategy. In doing so, we introduce a new training paradigm that can be applied to any encoder architecture. We are able to enforce conditional independence of the diffusion autoencoder latent representation with respect to any protected attribute under the equalized odds constraint and show that this approach enables causal image generation with controllable latent spaces. Our experimental results demonstrate that our approach can achieve high accuracy on downstream tasks while upholding equality of odds.
翻訳日:2024-04-23 15:36:05 公開日:2024-04-21
# スタック化による個人化フェデレーション学習

Personalized Federated Learning via Stacking ( http://arxiv.org/abs/2404.10957v2 )

ライセンス: Link先を確認
Emilio Cantu-Cervini, (参考訳) 従来のフェデレートラーニング(FL)手法は、生データを交換することなく、単一のグローバルモデルを協調的にトレーニングする。 対照的に、パーソナライズド・フェデレート・ラーニング(PFL)技術は、個々のクライアントのデータに合わせた複数のモデルを作成することを目的としています。 本稿では、クライアントが相互にプライバシ保護モデルを直接送信し、ベースモデルとして使用し、プライベートデータ上でメタモデルをトレーニングする、階層化された一般化に基づく新しいパーソナライズ手法を提案する。 当社のアプローチは柔軟で、さまざまなプライバシ保護技術やモデルタイプを調整し、水平、ハイブリッド、垂直に分割されたフェデレーションに適用できます。 さらに、各クライアントのフェデレーションへの貢献を評価するための自然なメカニズムを提供する。 多様なシミュレーションデータの不均一性シナリオの包括的評価を通じて,本手法の有効性を実証する。

Traditional Federated Learning (FL) methods typically train a single global model collaboratively without exchanging raw data. In contrast, Personalized Federated Learning (PFL) techniques aim to create multiple models that are better tailored to individual clients' data. We present a novel personalization approach based on stacked generalization where clients directly send each other privacy-preserving models to be used as base models to train a meta-model on private data. Our approach is flexible, accommodating various privacy-preserving techniques and model types, and can be applied in horizontal, hybrid, and vertically partitioned federations. Additionally, it offers a natural mechanism for assessing each client's contribution to the federation. Through comprehensive evaluations across diverse simulated data heterogeneity scenarios, we showcase the effectiveness of our method.
翻訳日:2024-04-23 12:48:38 公開日:2024-04-21
# 欠落した接続: 大規模言語モデルのための横方向の思考パズル

Missed Connections: Lateral Thinking Puzzles for Large Language Models ( http://arxiv.org/abs/2404.11730v2 )

ライセンス: Link先を確認
Graham Todd, Tim Merino, Sam Earle, Julian Togelius, (参考訳) ニューヨーク・タイムズが毎日発行するコネクティクスパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。 パズルを解くには、共通言語知識(定義と典型的な使用法)と、多くの場合、横あるいは抽象的な思考の両方が必要である。 これは、4つのカテゴリが複雑さを増し、最も難しいカテゴリは、しばしば非日常的な言葉や大きなフレーズの一部として考える必要があるためである。 データ駆動型言語システムによって符号化された意味情報を測定するための,抽象的推論のための自動ベンチマークとして,ゲームの可能性を探るため,自動AIシステムがConnectionsをプレイする能力について検討する。 特に,文埋め込みベースラインと現代大言語モデル(LLM)について検討する。 タスクの正確さを報告し、チェーン・オブ・ソート・プロンプトの影響を計測し、その失敗モードについて議論する。 全体として、Connectionsタスクは難しいが実現可能であり、将来の作業のための強力なテストベッドであることが分かっています。

The Connections puzzle published each day by the New York Times tasks players with dividing a bank of sixteen words into four groups of four words that each relate to a common theme. Solving the puzzle requires both common linguistic knowledge (i.e. definitions and typical usage) as well as, in many cases, lateral or abstract thinking. This is because the four categories ascend in complexity, with the most challenging category often requiring thinking about words in uncommon ways or as parts of larger phrases. We investigate the capacity for automated AI systems to play Connections and explore the game's potential as an automated benchmark for abstract reasoning and a way to measure the semantic information encoded by data-driven linguistic systems. In particular, we study both a sentence-embedding baseline and modern large language models (LLMs). We report their accuracy on the task, measure the impacts of chain-of-thought prompting, and discuss their failure modes. Overall, we find that the Connections task is challenging yet feasible, and a strong test-bed for future work.
翻訳日:2024-04-23 12:48:38 公開日:2024-04-21
# パラメトリック制御によるフラクソニウムのマイクロ波-フォトニック界面

Parametrically-controlled microwave-photonic interface for the fluxonium ( http://arxiv.org/abs/2404.11847v2 )

ライセンス: Link先を確認
Ke Nie, Aayam Bista, Kaicheung Chow, Wolfgang Pfaff, Angela Kou, (参考訳) 静止量子ビットから走行光子への量子情報変換は、高速な量子ビットの初期化と、量子情報の再分配のための効率的な飛行量子ビットの生成を可能にする。 この変換はキャビティサイドバンド遷移を用いて行うことができる。 しかし、フラキソニウムでは、パリティ対称性により直接キャビティ側バンド遷移が禁止される。 ここでは、このパリティ選択規則を3波混合素子を用いて、フラクソニウムを共振器に結合させることにより回避する。 マイクロ波誘起パラメトリック変換によるフラキソニウムと走行光子との対面方式を実験的に実証した。 我々はフラクソニウム量子ビット上で高速なリセットを行い、95%以上の基底状態の個体群で初期化する。 次に、量子状態移動とリモート絡み合いに有用なフライング光子の制御された放出と時間的形状を実装した。 実演方式のシンプルさと柔軟性により,フラキソニウムをベースとしたリモートエンタングルメントアーキテクチャが実現される。

Converting quantum information from stationary qubits to traveling photons enables both fast qubit initialization and efficient generation of flying qubits for redistribution of quantum information. This conversion can be performed using cavity sideband transitions. In the fluxonium, however, direct cavity sideband transitions are forbidden due to parity symmetry. Here we circumvent this parity selection rule by using a three-wave mixing element to couple the fluxonium to a resonator. We experimentally demonstrate a scheme for interfacing the fluxonium with traveling photons through microwave-induced parametric conversion. We perform fast reset on the fluxonium qubit, initializing it with > 95% ground state population. We then implement controlled release and temporal shaping of a flying photon, useful for quantum state transfer and remote entanglement. The simplicity and flexibility of our demonstrated scheme enables fluxonium-based remote entanglement architectures.
翻訳日:2024-04-23 12:48:38 公開日:2024-04-21
# VCC-INFUSE:半教師型学習におけるラベルなし事例の正確かつ効率的な選択を目指して

VCC-INFUSE: Towards Accurate and Efficient Selection of Unlabeled Examples in Semi-supervised Learning ( http://arxiv.org/abs/2404.11947v2 )

ライセンス: Link先を確認
Shijie Fang, Qianhan Feng, Tong Lin, (参考訳) 半教師付き学習(SSL)の進歩にもかかわらず、既存の手法ではラベルのないデータを効果的かつ効率的に利用できない。 多くの擬似ラベルに基づく手法は、分類器からの不正確な信頼スコアに基づいてラベルなしの例を選択する。 以前の作業では、プルーニングなしで利用可能なすべての未ラベルデータも使用していたため、大量の未ラベルデータを扱うのが難しくなった。 これらの問題に対処するために,変分信頼度校正 (VCC) と影響Function-based Unlabeled Sample Elimination (INFUSE) の2つの手法を提案する。 VCCはSSLの信頼性校正のための普遍的なプラグインであり、変分オートエンコーダを使用して、3種類の一貫性スコアに基づいてより正確な擬似ラベルを選択する。 INFUSEはSSLの下でラベル付けされていないサンプルのコアデータセットを構築するデータプルーニング手法である。 提案手法は,複数のデータセットや設定において有効であり,分類誤り率の低減やトレーニング時間の短縮に有効である。 VCC-INFUSEは、トレーニング時間のほぼ半分を節約しながら、CIFAR-100データセット上のFlexMatchのエラー率を1.08%削減する。

Despite the progress of Semi-supervised Learning (SSL), existing methods fail to utilize unlabeled data effectively and efficiently. Many pseudo-label-based methods select unlabeled examples based on inaccurate confidence scores from the classifier. Most prior work also uses all available unlabeled data without pruning, making it difficult to handle large amounts of unlabeled data. To address these issues, we propose two methods: Variational Confidence Calibration (VCC) and Influence-Function-based Unlabeled Sample Elimination (INFUSE). VCC is an universal plugin for SSL confidence calibration, using a variational autoencoder to select more accurate pseudo labels based on three types of consistency scores. INFUSE is a data pruning method that constructs a core dataset of unlabeled examples under SSL. Our methods are effective in multiple datasets and settings, reducing classification errors rates and saving training time. Together, VCC-INFUSE reduces the error rate of FlexMatch on the CIFAR-100 dataset by 1.08% while saving nearly half of the training time.
翻訳日:2024-04-23 12:38:52 公開日:2024-04-21
# 共有自動移動システムの合成参加計画のための大規模言語モデル

Large Language Models for Synthetic Participatory Planning of Shared Automated Electric Mobility Systems ( http://arxiv.org/abs/2404.12317v2 )

ライセンス: Link先を確認
Jiangbo Yu, (参考訳) 都市交通問題に対処するためのユニークな課題と機会を、マルチステークホルダーのランドスケープにおいて、急速に発展するモビリティ技術のシナジーを解き放つ。 本稿では,多種多様な利害関係者を代表するデジタルアバターを作成するために,大規模言語モデル(LLM)を批判的に活用し,共有電気移動システム(SAEMS)を計画する,新しい合成参加方式を提案する。 これらの調整可能なエージェントは、目標を共同で識別し、SAEMS代替案を構想し、評価し、リスクと制約の下で実施をストラテジズする。 モントリオールのケーススタディの結果、構造化されたパラメータ化されたワークフローは、単一のLSM対応の専門家エージェントを用いて生成されたものよりも、SAEMS計画に対して高い制御性と包括性を備えた出力を提供することが示された。 その結果、多目的輸送計画の傾きと解釈可能性を向上させるためのコスト効率向上のための有望な方法が提案され、持続可能な輸送システムの構想と戦略のパラダイムシフトが示唆された。

Unleashing the synergies of rapidly evolving mobility technologies in a multi-stakeholder landscape presents unique challenges and opportunities for addressing urban transportation problems. This paper introduces a novel synthetic participatory method, critically leveraging large language models (LLMs) to create digital avatars representing diverse stakeholders to plan shared automated electric mobility systems (SAEMS). These calibratable agents collaboratively identify objectives, envision and evaluate SAEMS alternatives, and strategize implementation under risks and constraints. The results of a Montreal case study indicate that a structured and parameterized workflow provides outputs with high controllability and comprehensiveness on an SAEMS plan than generated using a single LLM-enabled expert agent. Consequently, the approach provides a promising avenue for cost-efficiently improving the inclusivity and interpretability of multi-objective transportation planning, suggesting a paradigm shift in how we envision and strategize for sustainable and equitable transportation systems.
翻訳日:2024-04-23 12:38:52 公開日:2024-04-21
# コンディショナル・フェイス・ワープによる一般化可能な顔ランドマーク

Generalizable Face Landmarking Guided by Conditional Face Warping ( http://arxiv.org/abs/2404.12322v2 )

ライセンス: Link先を確認
Jiayi Liang, Haotian Liu, Hongteng Xu, Dixin Luo, (参考訳) 人間の顔のモデリング、編集、生成の重要なステップとして、顔のランドマークは、画像から顔のキーポイントを抽出することを目的としている。 現実の顔画像、例えばアニメーションやゲームにおけるアバターは、様々な方法でスタイル化されているため、現実には一般化可能な顔ランドマークが必要である。 しかし、顔のスタイルの多様性とラベル付き顔の不足により、一般化可能な顔のランドマーク化は困難である。 本研究では,ラベル付き実顔とラベル付きスタイリングされていない顔に基づいて,一般化可能な顔ランドマークを学習するための,シンプルで効果的なパラダイムを提案する。 本手法は条件付きフェースワーナーのキーモジュールとして顔ランドマークを学習する。 一対のリアルかつスタイリッシュな顔画像が与えられた場合、条件付き顔ワーパーは、実際の顔からスタイリッシュな顔へのワープフィールドを予測し、顔ランドマークがワープフィールドの終点を予測し、対応するスタイリッシュな顔画像に対して高品質な擬似ランドマークを提供する。 交互に最適化戦略を適用することで、顔ランドマークを最小化するためにi)スタイリングされた顔と歪んだ実物との相違とii)実際のランドマークと擬似ランドマークの両方の予測エラーについて学習する。 種々のデータセットを用いた実験により,本手法は顔のランドマーク化タスクにおいて,既存の最先端ドメイン適応手法よりも優れており,より一般化可能な顔ランドマークが得られた。 コードはhttps://plustwo0.github.io/project-face-landmarkerで入手できる。

As a significant step for human face modeling, editing, and generation, face landmarking aims at extracting facial keypoints from images. A generalizable face landmarker is required in practice because real-world facial images, e.g., the avatars in animations and games, are often stylized in various ways. However, achieving generalizable face landmarking is challenging due to the diversity of facial styles and the scarcity of labeled stylized faces. In this study, we propose a simple but effective paradigm to learn a generalizable face landmarker based on labeled real human faces and unlabeled stylized faces. Our method learns the face landmarker as the key module of a conditional face warper. Given a pair of real and stylized facial images, the conditional face warper predicts a warping field from the real face to the stylized one, in which the face landmarker predicts the ending points of the warping field and provides us with high-quality pseudo landmarks for the corresponding stylized facial images. Applying an alternating optimization strategy, we learn the face landmarker to minimize $i)$ the discrepancy between the stylized faces and the warped real ones and $ii)$ the prediction errors of both real and pseudo landmarks. Experiments on various datasets show that our method outperforms existing state-of-the-art domain adaptation methods in face landmarking tasks, leading to a face landmarker with better generalizability. Code is available at https://plustwo0.github.io/project-face-landmarker.
翻訳日:2024-04-23 12:38:52 公開日:2024-04-21